5 typen bias in data & analytics

5 januari 2017

“The average is nobody”

Er is nog nooit zoveel data beschikbaar geweest om beslissingen te nemen. Volgens EMC (rapport ‘Digital Universe’ uit 2014) zal de hoeveelheid data tussen 2013 en 2020 een vertienvoudiging laten zien. Beslissingen worden als zodanig geacht te worden onderbouwd met inzichten, ondersteund door adequate data, analytics en methoden & technieken van onderzoek. Een mooie ontwikkeling maar tegelijkertijd brengt dit ook een aantal valkuilen met zich mee. Besluiten op basis van data en analyse zijn nog namelijk geen garantie voor succes. Resultaten van data en analyse kunnen bewust of onbewust verkeerd geïnterpreteerd worden. Dit kan ertoe leiden dat de uitkomst van een analyse, onterecht, als de waarheid wordt aangezien. Op basis van deze waarheid worden dan besluiten genomen welke achteraf toch onjuist blijken.

Belangrijkste oorzaak voor deze verkeerde besluitvorming is wat we in het Engels ‘’bias’’ noemen. Onder bias verstaan we een verstoring in uitkomsten van onderzoek door vooringenomenheid, vooroordeel, of het sturen in een bepaalde richting. Data kan biased zijn maar ook de mensen die de data analyseren kunnen biased zijn. Wanneer data biased is bedoelen we dat de steekproef niet representatief is voor de hele populatie. Bijvoorbeeld een onderzoek onder 10 studenten (de steekproef) waarop conclusies worden getrokken voor de gehele Nederlandse bevolking. Als mensen die de data analyseren biased zijn dan wil dit zeggen dat ze met de uitkomsten van hun analyse een van te voren bepaalde richting in willen.

We hebben de 5 meest voorkomende typen bias op een rij gezet:

1. Confirmation bias
Ontstaat wanneer degene die de data analyse uitvoert, een van te voren bedachte assumptie wil bewijzen Er wordt dan net zolang gezocht in de data totdat deze assumptie bewezen kan worden. Bijvoorbeeld door bepaalde variabelen opzettelijk niet mee te nemen in de analyse. Dit komt vaak voor wanneer data analisten van te voren gebriefd worden om een bepaalde conclusie te onderbouwen.
Het valt daarom aan te bevelen om niet te stellig een vooraf gedefinieerde conclusie te willen bewijzen, maar daarentegen om gericht veronderstelde hypothesen te toetsen.

2. Selection bias
Dit komt voor wanneer data subjectief wordt geselecteerd. De steekproef welke wordt gebruikt is dan geen goede afspiegeling van de populatie. Deze fout wordt vaak gemaakt bij enquêtes. Ook in klantenpanels komt ‘selection bias’ regelmatig voor: De klanten die (eenvoudig) bereid gevonden worden mee te werken aan het klantenpanel zijn lang niet altijd de ‘doorsneeklant’.
Ook dit kan bewust of onbewust gebeuren. Kijk naar de peilingen in verkiezingen: Zou het nou echt zo zijn dat zoveel kiezers op de laatste dag volledig omslaan in hun mening, of is het waarschijnlijker dat de steekproef waarop de peiling is gebaseerd geen goede afspiegeling is van alle kiezers?
Vraag dan ook altijd wat voor steekproef er gebruikt is voor het onderzoek. Voorkom onterechte extrapolatie en verzeker dat de resultaten gelden voor de gehele populatie.

3. Outliers
Een outlier is een extreme data waarde. Bijvoorbeeld een klant met de leeftijd van 110. Of een consument met een spaarrekening van 10 miljoen euro. Outliers stel je vast door goed naar de data, in het bijzonder de verdeling van de waarden, te kijken. Waarden die heel veel groter of juist heel veel kleiner zijn dan waar bijna alle andere waarden zich bevinden. Outliers kunnen het erg gevaarlijk maken om beslissingen te nemen op basis van het ‘gemiddelde’. Een klant met een extreem uitgavenpatroon kan de gemiddelde winst per klant namelijk sterk beïnvloeden. Indien iemand u gemiddelde waardes presenteert, controleer dan of er gecorrigeerd is voor outliers. Bijvoorbeeld doordat conclusies op de mediaan – de middelse waarde – zijn gebaseerd.

4. Overfitting en underfitting
Underfitting betekent dat een model een te simplistisch beeld van de werkelijkheid geeft. Overfitting is het tegenovergestelde, hierbij is het model dus te complex. Bij overfitting is er gevaar dat een bepaalde aanname als de waarheid wordt aangezien terwijl dit in de praktijk niet blijkt te kloppen. Vraag altijd aan de data analist wat hij of zij heeft gedaan om het model te valideren. Als de analist je vervolgens wat glazig aan kijkt, dan is er een grote kans dat de uitkomsten van de analyse niet zijn gevalideerd en daarom mogelijk niet gelden voor het gehele klantenbestand. Vraag altijd aan de data analist of er een training en een test steekproef zijn gemaakt. Als het antwoord hierop nee is, dan is er een grote kans dat de uitkomsten van de analyse niet gelden voor het gehele klantenbestand.

5. Confounding variabelen
Als de resultaten van een onderzoek aantonen dat wanneer er meer ijsjes verkocht worden er meer mensen verdrinken, vraag dan of er gecontroleerd is voor zogenaamde confounding variabelen. In dit geval zal de confounding variabele de temperatuur zijn. Als het warmer is gaan mensen meer ijs eten en zullen er meer mensen gaan zwemmen. Dit leidt waarschijnlijk tot meer verdrinkingen dan wanneer het buiten koud is.
Een confounding variabele is dus een variabele buiten het bestaande analyse model, welke van invloed is op zowel de verklarende (in dit geval ijsverkoop) als de afhankelijke variabele (het aantal verdrinkingen). Geen rekening houden met confounding variabelen kan ertoe leiden dat er een oorzaak-gevolg relatie wordt verondersteld tussen twee variabelen. Terwijl in werkelijkheid er een andere variabele van invloed is op het gebeuren. Pas goed op dat correlatie niet hetzelfde is als oorzaak-gevolg. Als er een relatie tussen kenmerken wordt aangetoond, kan dat heel goed helpen om de juiste klanten voor een bepaalde campagne te selecteren. Maar om te bewijzen dat het één leidt tot het ander, is het aan te raden om dit te testen in gecontroleerde A/B tests.

 

“The average is nobody”

 

Het is cruciaal om van de uitkomsten van onderzoek en analyse, ondubbelzinnig vast te stellen dat de conclusie niet door bias is beïnvloed. Dit is niet louter de verantwoording van de analist in kwestie. Hier delen alle direct betrokkenen (w.o. marketeer en analist) de verantwoording om op basis van de juiste data, tot een valide uitspraak te komen. In een wereld van marketing waar data en analyse een steeds grotere rol spelen, moet je kunnen vertrouwen op de juiste feiten. Een feit is nog steeds geen feit als het niet adequaat is bewezen. Of zoals we (te) vaak horen: “Er zijn drie soorten leugens: leugens, grove leugens, en statistieken”.

 

Meer lezen over coginitive biases en hoe ze je beïnvloeden als data analist? >

 

Laatste nieuws

The Beatles zijn terug? Het bouwen van een Beatles lyrics generator

13 december 2022

In 1964 brachten de Beatles hun iconische nummer “I Want to Hold Your Hand” uit. Vanaf... lees meer

In 2022 gaan we een mooi feestjaar tegemoet! Veel huwelijken verwacht

21 februari 2022

Plan je agenda vrij en zorg voor genoeg feestkleding in je kast, want grote kans dat... lees meer

De belangrijkste trends in data & analytics, toepasbaar in jouw realiteit

27 januari 2022

Net als vorig jaar hebben wij kritisch gekeken naar de belangrijkste trends op het gebied van... lees meer

Schrijf je in voor onze nieuwsbrief

Mis nooit meer iets op het gebied van advanced analytics, data science en de toepassing daarvan binnen organisaties!