Geen data scientist is hetzelfde

22 maart 2022

Artikel geschreven door Jurriaan Nagelkerke, Principal Consultant

Geen data scientist is hetzelfde. Dat is de titel van onze blogreeks op theanalyticslab.nl, waarin we vanuit het perspectief van vier totaal verschillende data scientists laten zien hoe zij om gaan met dezelfde uitdaging: het bouwen van een voorspelmodel.

 

Deel 1: Introducing our data science rock stars

In het eerste artikel introduceren we onze vier data scientists: Meta Oric, Aki Razzi, Andy Stand en Eqaan Librium. Uit hun profielen komt al direct naar voren dat ze op een andere manier de tanden in een data science vraagstuk zullen zetten. Ook wordt de taak die ze wordt gesteld, nader toegelicht: bouw een voorspelmodel dat voorspelt welke medewerkers de grootste kans hebben de organisatie te gaan verlaten.

Lees deel 1 >

 

Deel 2: Data to predict which employees are likely to leave

In het tweede artikel uit onze reeks wordt de beschikbare data kort toegelicht. Dit zodat wie wil alle code uit onze reeks ook zelf nog eens kan uitvoeren.

Lees deel 2 >

 

Deel 3: Good model by default using XGBoost

Het derde artikel laat zien hoe Meta het krachtige XGBoost algoritme gebruikt om tot zeer goede voorspellingen te komen. Hiervoor maakt ze gebruikt van de standaard versie van het algoritme, zodat ze zo min mogelijk tijd kwijt is en z.s.m. aan de slag kan met overige vraagstukken. Het artikel bevat een uitgebreide introductie in XGBoost en gaat dieper in op wat XGBoost zo’n krachtig algoritme maakt.

Lees deel 3 >

 

Deel 4: Hyperparameter tuning for hyperaccurate XGBoost model

In het vierde artikel uit onze reeks staat Aki centraal, en hoe zij hyperparameter tuning gebruikt, om nog meer voorspelkracht uit het model te halen. Ze laat zien wat hyperparameter tuning is, hoe het werkt en natuurlijk ook waar het toe leidt. Het kost meer tijd, maar levert wel inzicht in wat er maximaal uit de data te halen is en verbetert de voorspellingen.

Lees deel 4 >

 

Deel 5: Beat dirty data

Artikel vijf uit de blogreeks zet zeven veelvoorkomende uitdagingen uiteen waar data scientists zich geregeld voor gesteld zien. Zoals ontbrekende waarden, extremen en veel unieke categorische waarden. Een aantal hiervan wordt in de volgende blogs door onze data scientists in meer detail aangepakt.

Lees deel 5 >

 

Deel 6: The case of high cardinality kerfuffles

Het zesde artikel gaat over hoge kardinaliteit. Oftewel: categorische kenmerken met heel veel unieke waarden. Dit stelt data scientists voor de uitdaging: hoe hier zo veel mogelijk informatie van te behouden? Onze data scientists Andy en Eqaan laten zien hoe ze – vanuit hun verschillende standpunten – tot andere keuzes komen hoe hier het beste mee om te gaan.

Lees deel 6 >

 

Deel 7: Guide to manage missing data

Artikel zeven gaat over missende waarden in data en hoe daar het beste mee om te gaan. Vanuit het perspectief van data scientists Andy en Aki wordt een breed palet aan mogelijke oplossingen – van simpel tot complex – besproken en zien we ook gelijk welke invloed de opties op het model en de voorspelkracht heeft.

Lees deel 7 >

 

Deel 8: Visualise the business value of predictive models

In het achtste artikel uit onze blogreeks ligt de nadruk op hoe de waarde van een voorspelmodel in business termen duidelijk te maken. Data scientist Andy laat zien hoe hij met vier grafieken laat zien hoe het model bij draagt aan de bedrijfsdoelen en hoe met deze grafieken tot de optimale inzet van een model te komen.

Lees deel 8 >

 

Deel 9: No data scientist is the same!

We beëindigen onze reeks blogs met het negende en laatste artikel. Dit artikel gaat over hoe verschillende typen data scientists een model bouwen met wat ze van elkaar kunnen leren. Er is niet één beste type data scientist en de omstandigheden bepalen doorgaans wat de beste aanpak is. Meta, Aki, Andy en Equaan komen nog een keer aan het woord om hun belangrijkste lessen met jullie te delen.

Lees deel 9 >

 

Welke data scientist ben jij?

Ben je zelf data scientist of werk je veel samen met ze? Dan zijn we erg benieuwd welke data scientist het meeste op jou lijkt of welke jij herkent in je collega!

 

The Analytics Lab logo wit grijsDit is artikel is gemaakt vanuit de initiatieven in The Analytics Lab. We zijn altijd bezig met ontwikkelingen op het gebied van data science. Daarom hebben we in 2016 The Analytics Lab opgericht. Daar zoeken we de grenzen op van de mogelijkheden van data science & AI. We delen graag onze ervaringen en kennis met jullie.

Contact

Wil je meer weten over dit onderwerp? Neem dan contact op met Jurriaan Nagelkerke via onderstaande contactgegevens.

Jurriaan Nagelkerke, Principal Consultant

+31 6 29 62 00 11

j.nagelkerke@cmotions.nl

Laatste nieuws

De leukste kennismaking met data

5 juli 2023

Wil jij jouw collega’s op ludieke wijze laten kennismaken met datagedreven werken? Geef ze op voor... lees meer

Vind jouw risicovolle bestanden volgens AVG met onze DriveScanner

17 april 2023

In elk bedrijf is het een uitdaging om ervoor te zorgen dat we alleen de documenten... lees meer

Rondetafelsessie – donderdagochtend 25 mei

16 januari 2023

Culture eats data strategy for breakfast​ Bedrijven die erkennen dat ze met de inzet van data... lees meer

Schrijf je in voor onze nieuwsbrief

Mis nooit meer iets op het gebied van advanced analytics, data science en de toepassing daarvan binnen organisaties!