De DOTS DataSampler is ooit ontsprongen uit het brein van onze Cmotions collega Klaas Tjepkema, in dit artikel neemt hij ons mee in hoe hij op dit idee gekomen is en wat hij van het product vindt dat het geworden is.
Naast mijn werk als consultant ben ik docent bij onze Cmotions Talent Program. Hier leiden wij recent afgestudeerden op tot Data Scientist. Eén van mijn lessen ging over het onderwerp “klantwaarde”, wat dit precies inhield en hoe je dit met behulp van data kunt berekenen. Een ontzettend leuk en interessant onderwerp, ware het niet dat de data die ik hiervoor tot mijn beschikking had totaal niet tot de verbeelding sprak en dus ook geen “leuk” klantwaarde model opleverde. Tijd voor iets nieuws dus!
Ik herinnerde me dat je vroeger bij het computerspel SimCity een nieuwe “landkaart” kon genereren aan de hand van parameters. Je kon bijvoorbeeld aangeven hoeveel water jouw wereld moest bevatten en of er veel bergen moesten komen en dergelijke. Na het invullen van die parameters werd jouw wereld vervolgens automatisch voor jou gegenereerd. Een nieuwe druk op de “generate-knop” met (gelijke parameters) leverde bovendien een andere landkaart op, maar die wel voldeed aan de kaders die je met de parameters gesteld had. Dit principe inspireerde mij om dit toe te passen op een database.
Na een tijdje speuren op het internet kwam ik niet tegen waar ik naar op zoek was, op websites als Kaggle kun je wel data vinden, maar deze kun je dit niet naar eigen wens aanpassen. Voor een bepaalde oefening wilde ik bijvoorbeeld bepaalde segmenten “verstopt” hebben in de dataset. Een zoektocht op data generators/samplers leverde ook niets op, Hiermee kon je slechts één enkele variabele samplen, wat uiteraard niet voldoende was. Ik zocht namelijk een hele database met meerdere tabellen en velden/variabelen. Bovendien wilde ik ook controle hebben over de mate van gebreken die de database bevat. Ontbrekende waarden, dubbele invoeren, onvolkomenheden die je ook in een “echte” database tegenkomt en waar je mee om moet leren gaan.
Terugdenkend aan de SimCity landkaart-generator dacht ik: “hoe moeilijk kan het eigenlijk zijn om dit ook op data toe te passen?” Met dit idee kwam ik bij mijn collega’s Wouter van Gils en Jeanine Schoonemann aan, die hier gelukkig ook meteen enthousiast over waren. De DOTS DataSampler was geboren!
Sinds die tijd ben ik, uiteraard, een enthousiaste gebruiker van dit product en met mij ook alle andere collega’s die lucht kregen van mijn volledige customized dataset en dat ook wel wilden voor hun projecten en/of lessen.
Met de DOTS DataSampler hebben we controle over onze data, over het datamodel, welke variabelen er in iedere tabel voorkomen, kunnen we segmenten maken en zelfs missings en/of outliers genereren zodat het net “echte” data is. Maar dan volledig fictief en dus ook nog eens AVG-proof! Daarnaast is het heel eenvoudig om met dezelfde parameter-instellingen dataset meerdere malen te genereren, maar waarbij de daadwerkelijke data steeds verschilt. Verschillende studenten hebben zo weinig tot niets aan elkaars antwoorden, maar mijn lessen en de bijbehorende opdrachten blijven gewoon bruikbaar, zelfs als ik meerdere groepen tegelijk les zou geven.
Daarmee denk ik de DOTS DataSampler een ideaal product voor docenten is, maar zie tegelijkertijd bij mijn collega’s dat ook analisten en business intelligence specialisten er graag gebruik van maken. Bijvoorbeeld voor het maken van een business case of het showcasen van een dashboard om een opdrachtgever te laten zien hoe het eindproduct eruit zou kunnen komen te zien. Zo krijg je snelle en directe feedback op een idee en gaat het meteen leven voor de mensen voor wie je het ontwikkelt, win-win dus. Zelf verwacht ik dat ook testers goed gebruik zouden kunnen maken van deze manier van data genereren om zo een product en/of nieuwe release te testen.
Het is zo mooi om te zien dat het idee dat ooit ontstaan is in mijn hoofd, is uitgegroeid tot een product waar we niet alleen onze eigen collega’s maar ook anderen mee kunnen helpen. Zo zijn er nu al meerdere docenten van verschillende onderwijsinstellingen die gebruik maken van onze DataSampler. Heel tof!
Mijn stip op de horizon is dat je aan de hand van een bestaande database het datamodel en de relaties die daarin te vinden zijn automatisch kan extraheren en vertalen naar een set parameter-instellingen. Hiermee kun je vervolgens een “kloon” van deze “echte” database genereren. Zo is hij nog eenvoudiger in het gebruik en ook breder inzetbaar. Denk bijvoorbeeld aan scenario-planning. Deel jij mijn visie? Laat dit dan zeker even weten, wie weet kunnen we hem dan werkelijkheid gaan maken!
Ben je nieuwsgierig geworden of de DataSampler ook iets voor jou is en welke abonnementsvormen wij aanbieden, lees hier dan vooral even verder, we helpen je graag!
5 juli 2023
Wil jij jouw collega’s op ludieke wijze laten kennismaken met datagedreven werken? Geef ze op voor... lees meer
17 april 2023
In elk bedrijf is het een uitdaging om ervoor te zorgen dat we alleen de documenten... lees meer
16 januari 2023
Culture eats data strategy for breakfast Bedrijven die erkennen dat ze met de inzet van data... lees meer