22 maart 2022
Geen data scientist is hetzelfde. Dat is de titel van onze blogreeks op theanalyticslab.nl, waarin we vanuit het perspectief van vier totaal verschillende data scientists laten zien hoe zij om gaan met dezelfde uitdaging: het bouwen van een voorspelmodel.
In het eerste artikel introduceren we onze vier data scientists: Meta Oric, Aki Razzi, Andy Stand en Eqaan Librium. Uit hun profielen komt al direct naar voren dat ze op een andere manier de tanden in een data science vraagstuk zullen zetten. Ook wordt de taak die ze wordt gesteld, nader toegelicht: bouw een voorspelmodel dat voorspelt welke medewerkers de grootste kans hebben de organisatie te gaan verlaten.
In het tweede artikel uit onze reeks wordt de beschikbare data kort toegelicht. Dit zodat wie wil alle code uit onze reeks ook zelf nog eens kan uitvoeren.
Het derde artikel laat zien hoe Meta het krachtige XGBoost algoritme gebruikt om tot zeer goede voorspellingen te komen. Hiervoor maakt ze gebruikt van de standaard versie van het algoritme, zodat ze zo min mogelijk tijd kwijt is en z.s.m. aan de slag kan met overige vraagstukken. Het artikel bevat een uitgebreide introductie in XGBoost en gaat dieper in op wat XGBoost zo’n krachtig algoritme maakt.
In het vierde artikel uit onze reeks staat Aki centraal, en hoe zij hyperparameter tuning gebruikt, om nog meer voorspelkracht uit het model te halen. Ze laat zien wat hyperparameter tuning is, hoe het werkt en natuurlijk ook waar het toe leidt. Het kost meer tijd, maar levert wel inzicht in wat er maximaal uit de data te halen is en verbetert de voorspellingen.
Artikel vijf uit de blogreeks zet zeven veelvoorkomende uitdagingen uiteen waar data scientists zich geregeld voor gesteld zien. Zoals ontbrekende waarden, extremen en veel unieke categorische waarden. Een aantal hiervan wordt in de volgende blogs door onze data scientists in meer detail aangepakt.
Het zesde artikel gaat over hoge kardinaliteit. Oftewel: categorische kenmerken met heel veel unieke waarden. Dit stelt data scientists voor de uitdaging: hoe hier zo veel mogelijk informatie van te behouden? Onze data scientists Andy en Eqaan laten zien hoe ze – vanuit hun verschillende standpunten – tot andere keuzes komen hoe hier het beste mee om te gaan.
Artikel zeven gaat over missende waarden in data en hoe daar het beste mee om te gaan. Vanuit het perspectief van data scientists Andy en Aki wordt een breed palet aan mogelijke oplossingen – van simpel tot complex – besproken en zien we ook gelijk welke invloed de opties op het model en de voorspelkracht heeft.
In het achtste artikel uit onze blogreeks ligt de nadruk op hoe de waarde van een voorspelmodel in business termen duidelijk te maken. Data scientist Andy laat zien hoe hij met vier grafieken laat zien hoe het model bij draagt aan de bedrijfsdoelen en hoe met deze grafieken tot de optimale inzet van een model te komen.
We beëindigen onze reeks blogs met het negende en laatste artikel. Dit artikel gaat over hoe verschillende typen data scientists een model bouwen met wat ze van elkaar kunnen leren. Er is niet één beste type data scientist en de omstandigheden bepalen doorgaans wat de beste aanpak is. Meta, Aki, Andy en Equaan komen nog een keer aan het woord om hun belangrijkste lessen met jullie te delen.
Ben je zelf data scientist of werk je veel samen met ze? Dan zijn we erg benieuwd welke data scientist het meeste op jou lijkt of welke jij herkent in je collega!
Dit is artikel is gemaakt vanuit de initiatieven in The Analytics Lab. We zijn altijd bezig met ontwikkelingen op het gebied van data science. Daarom hebben we in 2016 The Analytics Lab opgericht. Daar zoeken we de grenzen op van de mogelijkheden van data science & AI. We delen graag onze ervaringen en kennis met jullie.
Wil je meer weten over dit onderwerp? Neem dan contact op met Jurriaan Nagelkerke via onderstaande contactgegevens.
5 juli 2023
Wil jij jouw collega’s op ludieke wijze laten kennismaken met datagedreven werken? Geef ze op voor... lees meer
17 april 2023
In elk bedrijf is het een uitdaging om ervoor te zorgen dat we alleen de documenten... lees meer
16 januari 2023
Culture eats data strategy for breakfast Bedrijven die erkennen dat ze met de inzet van data... lees meer