Onderzoek Dataiku naar productiviteit data scientists

Al sinds de introductie van Datawarehousing is algemeen bekend dat het hele proces van data verzamelen, schonen en (gestructureerd) opslaan ten behoeve van rapportage en analyse, van essentieel belang is. Gebruikers klaagden dat 80% van hun werk zat in het verzamelen, toegankelijk maken en prepareren van data, waarmee slechts 20% van de tijd over bleef om het echte werk te doen waarvoor ze waren aangenomen: rapporteren over en analyseren van deze data. Datawarehousing zou dit probleem – in ieder geval voor de gebruikers – grotendeels op moeten lossen, immers de ICT-afdeling van een bedrijf is in de regel verantwoordelijk voor het inrichten van een Datawarehouse / BI platform.

Met de sterke opkomst van de rol van data scientist lijkt dit ‘probleem’ wederom de kop op te steken, of beter: nog steeds niet verdwenen. Zo toont recent onderzoek van Dataiku, leverancier van enterprise AI- en machine learning-platformen, aan dat data scientists 80% van hun tijd besteden aan het opschonen en structuren van data. Waarmee hun productiviteit dus aanzienlijk belemmerd wordt. Het onderzoek, een van de vruchten van de ‘AI Impact Survey’ van Dataiku, bevestigt hiermee dat de markt voor op machine learning gebaseerde intelligentie, nog steeds in de kinderschoenen staat. Overigens gaven alle functies die deelnamen aan het onderzoek, van data scientists, data analisten, team managers tot andere data professionals, aan dat ze hier nog dagelijks mee worstelen. Als tweede grootste uitdaging werd genoemd toegang tot databronnen, ook een fundamentele vereiste.

Beperken in productiviteit
Het is niet verrassend dat data professionals zoals data scientists en analisten het verbinden van databronnen vaker als een uitdaging beschouwen dan leidinggevenden van datateams. Ditzelfde geldt voor het in productie brengen van modellen. Voor hen zijn dit immers zaken die zij dagelijks tegenkomen en die hen beperken in hun productiviteit. Dit betekent ook dat de belangrijkste dataproblemen niet gaan over welk model gebruikt moet worden of zelfs hoe er het best samengewerkt kan worden door het datateam en de stakeholders. Hylke Visser, Director Sales & Business Development bij Dataiku: “We vinden het belangrijk hier aandacht aan te schenken. Niet alleen omdat de spaarzame tijd van data scientists en andere data professionals slimmer gebruikt kan worden, maar ook omdat data de basis is van succesvolle toepassing van AI en machine learning. Organisaties moeten zich realiseren dat het essentieel is dit snel op orde te krijgen. Alleen zo kunnen zij echt profiteren van de kansen die AI en machine learning bieden.”

Wie is verantwoordelijk voor data?
Dataiku ging tijdens het onderzoek ook in op de vraag waar de verantwoordelijkheid voor de data ligt. Slechts 16% van de respondenten geeft aan dat iedereen verantwoordelijk is. Dit is deels zorgwekkend aangezien de regels rond de bescherming en het gebruik van data steeds strikter worden en data juist vaker een gedeelde verantwoordelijkheid wordt. Onderwerpen als vertrouwen, transparantie en ethiek worden veel gebruikt als het gaat om machine learning en AI. Het belang van een gezamenlijk verantwoordelijkheidsgevoel voor de data van de organisatie wordt daarmee ook duidelijker. Als er te weinig mensen verantwoordelijk worden gehouden, dan werkt dit verkeerd gebruik en fouten juist in de hand.

Als het gaat om de verantwoordelijkheid voor data science (analytics) in organisaties, werd door de meeste respondenten aangegeven dat iedereen hier op een bepaalde manier verantwoordelijk voor is. Dit is een positief teken voor de toekomst. Het betekent dat men zich realiseert dat voor de transformatie naar een datagedreven organisatie meer nodig is dan alleen data beschikbaar stellen voor bestaande activiteiten. Het gaat om een fundamentele organisatieverandering waarbij data in alle processen van het bedrijf moet zijn verweven.

Bron: Emerce (multichannel mediaplatform over online business en marketing), klik hier.

Terug naar nieuws