Iedereen die met data werkt, herkent het wel: je krijg een vraag binnen en het liefst duik je meteen de data in en stort je je volledig op de inhoud. Dit zien we in de praktijk helaas erg vaak, met als resultaat dat er veel werk wordt verzet en dat de oplossing uiteindelijk nooit gebruikt wordt. Zonde! Door de CRISP-DM methodiek te gebruiken, zorg je ervoor dat van tevoren goed wordt onderzocht wat de bedoeling is van het project, op welk moment er waarde wordt geleverd en hoe je de oplossing het beste aan kunt aanpakken.
CRISP-DM oftewel Cross Industry Standard Process Data Mining is een methode bestaande uit zes stappen om structuur te geven aan dataprojecten. De stappen zijn cyclisch en herhalen zich tijdens een project vaak meerdere keren. Dit kan voor een relatief eenvoudige analyse zijn, of voor meer gecompliceerde modelleringsvraagstukken.
We nemen je mee in de verschillende fases van het proces en welke rollen binnen de organisatie hier een aandeel in hebben.
Fase 1 | Business understanding
Goed begrip van de business is in deze eerste fase essentieel. Wat wordt er precies gedaan of geleverd en welke input is hiervoor nodig? Aan het eind van deze fase moet je een duidelijk beeld hebben van het probleem, wat het doel is en hoe je met jouw analyse, model of een data toepassing zoals AI het verschil kunt maken. Je kunt pas bijdragen aan de doelen van een bedrijf als je snapt wat er moet gebeuren om met data en datatoepassingen de weg naar waarde te vinden. De bevindingen leg je vast in een plan van aanpak. Als analist of data scientist moet je hier de rol van business analist op je kunnen nemen, als dit geen vaste functie binnen jouw organisatie is. Het is in deze fase namelijk heel belangrijk dat je geen aannames doet en kritisch durft te zijn. Doorvragen en de juiste vragen stellen zijn de sleutel tot succes. Daarnaast is het belangrijk om ervoor te zorgen dat er aan de businesskant de juiste mensen aanspreekpunt zijn. Denk bijvoorbeeld aan een product owners, business analisten of middle managers.
Fase 2 | Data understanding
In de volgende fase ligt de nadruk op begrip van de data. Welke data heb je nodig om de doelen te behalen, welke bronnen zijn er, hoe bruikbaar is de data. Zijn er eenduidige data definities en hoe is de kwaliteit van de data? Het is belangrijk om je te beseffen dat je in deze fase vooral je data issues bloot moet leggen, je hoeft ze nog niet direct op te lossen. Aan het eind van deze fase weet je of en met welke gegevens je aan het probleem kunt werken en
welke gegevens eventueel nog ontbreken. Het is essentieel om voldoende tijd te besteden aan de exploratie van de data, want een voorspelling of analyse kan nooit goed worden als het is gebaseerd op vervuilde, incorrecte of onbetrouwbare data. In deze fase zul je als analist/scientist dus de pet op moeten zetten van een informatie/proces of systeemanalist of ervoor moeten zorgen dat je collega’s binnen deze functie de hemd van het lijf kunt vragen.
Ondanks de tijd en energie die je in de exploratie steekt, kan het natuurlijk voorkomen dat je merkt dat je niet de benodigde data hebt om de analyse uit te voeren die tijdens de business understanding is afgesproken. Je project stopt dan hier. Dit is niet erg omdat je er op tijd achter komt, dat de vraag die jullie voor ogen hadden niet beantwoord kan worden, of niet de juiste vraag is. Je zult dan weer terug moeten naar fase 1 en opnieuw met de business moeten bepalen hoe je toch kunt bijdragen aan het oplossen van dit probleem. Op deze manier kom je tot de meest optimale vraagstelling en weet je dat je de middelen om tot een oplossing te komen tot je beschikking hebt.
Fase 3 | Data preparation
Op basis van de resultaten van de voorafgaande fase ga je hier aan de slag om input te genereren voor je data-analyse. Selectie, schoning, verrijking en aggregatie van de data komen aan bod. Aan het einde van deze fase heb je een dataset die unieke records bevat en waarin outliers en missende waardes gedetecteerd en opgelost zijn. Het is belangrijk dat er genoeg historie beschikbaar is en je relevante karakteristieken hebt waar je de analyse mee kunt starten. Kortom, de input bevat alle kenmerken die nodig zijn voor het beantwoorden van de vraag en het modelleren van het antwoord. Deze fase neemt veel tijd in beslag, soms tot wel 80% van het gehele project. Het is daarom ook een belangrijk onderdeel van het werk van een data analist en scientist eventueel met behulp van een data steward, die verantwoordelijk is voor het waarborgen van kwaliteit en geschiktheid voor het doel van de data assets van de organisatie.
Fase 4 | Modelling
Je mag eindelijk aan de slag met het uitvoeren van je analyse of het bouwen van je model. Je toetst vooraf opgestelde hypotheses, je bepaalt de significantie van de kenmerken en/of test de voorspellende kracht van je model. Aan het einde van deze fase heb je een analyse of model waarmee je een bijdrage kan leveren aan het vraagstuk. Heel belangrijk in deze fase is niet alleen dat je inhoudelijk in staat bent de analyse uit te voeren, het model te bouwen of een AI-toepassing te gebruiken. Je moet ook uit kunnen leggen hoe je analyse is opgebouwd of hoe je model of AI-toepassing werkt. Naast de rol van data analist en data scientist, moet je hier dus eigenlijk ook een goede consultant kunnen zijn. Ondanks alle goede voorbereidingen, kan het natuurlijk gebeuren dat de analyse of het model niet kan onderscheiden of niet de gewenste inzichten biedt. Dan kun je in eerste instantie teruggaan naar je data preparatie om aanvullende features aan te maken.
Fase 5 | Evaluation
Wanneer je acties gaat uitvoeren op basis van je analyse of model, doe je altijd eerst een kleinschalige test om de impact te onderbouwen binnen een periode waarin significante verschillen kunnen worden gemeten. Waar mogelijk maak je gebruik van een controlegroep. Het is verstandig om ook te kijken naar (negatieve) neveneffecten. Aan het einde van deze fase, weet je dan goed hoe je analyse/model presteert, Dit hoort allemaal bij het werk van een data analist en scientist. Je moet ook advies kunnen geven over hoe jouw analyse of model in de praktijk kan worden gebracht en over mogelijke vervolgacties en moet daarom ook weer in de rol van consultant kruipen. Het kan natuurlijk zo zijn dat de resultaten van je test tegenvallen of de test geen verbetering laat zien. Je kunt dan kiezen voor een nieuwe test, aanpassingen in de modelling fase, of zelfs weer helemaal beginnen bij fase 1, de business understanding, als alle andere aanpassingen niet voldoende opleveren.
Fase 6 | Deployment
Als de uitkomsten van de evaluatie positief zijn, kun je door naar stap 6 en je analyse of model in productie brengen. Feitelijk is dit het doel, pas op het moment dat jouw stakeholders het resultaat daadwerkelijk gaan gebruiken heb je waarde toegevoegd. Het is natuurlijk belangrijk om ervoor te zorgen dat je analyse of model regelmatig geüpdatet wordt en dat de resultaten gemakkelijk te benaderen zijn. Omdat het belangrijk is te blijven monitoren en optimaliseren kun je zorgen voor een regelmatige evaluatie, bijvoorbeeld in de vorm van een dashboard. Zo blijft CRISP-DM een continu proces, want je kunt blijven leren van de data.
Maak van iedere dataproject een succes!
Je hebt kunnen lezen, hoeveel er eigenlijk komt kijken bij een dataproject en welke rollen en expertises je allemaal nodig hebt. De structuur die de CRISP-DM methode biedt en het heldere onderscheid van rollen en taken levert een continue bijdrage aan het optimaliseren met data. Zo kun je gezamenlijk de doelen die je stelt behalen en maak je van ieder dataproject van dashboard tot AI-oplossing samen een succes!