Machine Learning: vervanger van traditionele voorspelmodellen?

3 februari 2017

Overal duikt de term op en een evenement over analytics is niet compleet zonder een presentatie of workshop die gericht is op deze techniek. Uiteraard, het gaat over Machine Learning. Iedereen in de wereld van data science heeft het erover, maar lang niet iedereen past het (al) toe. Wat is Machine Learning nu precies? En loop je als Marketing Intelligence data scientist achter wanneer je er nog niets mee doet? In deze blog een introductie in de wereld van de zelflerende algoritmes en de toepassing ervan in de alledaagse werkzaamheden van de data scientist.

 

Artificial Intelligence

De oorsprong van Machine Learning (ML) ligt binnen het domein van Artificial Intelligence en de basis daarvan werd gelegd door Alan Turing in zijn artikel Computing Machinery and Intelligence (1950). In dit artikel stelde Turing de vraag of machines kunnen denken en kwam daarbij al snel tot de conclusie dat hij deze vraag onmogelijk kon beantwoorden zonder te starten met de definities van de begrippen machines en denken. In plaats van deze begrippen te definiëren, bedacht hij het Imitatiespel, dat sindsdien Turingtest wordt genoemd.

 

Machine_learning_turingtest

Het Imitatiespel wordt gespeeld door een man (A), een vrouw (B) en een ondervrager (C). De ondervrager bevindt zich in een andere ruimte dan de man en de vrouw en via berichten kan hij vragen stellen aan de 2 andere personen, die hij kent als X en Y. Doel van het spel is voor de ondervrager te achterhalen wie de man is en wie de vrouw. Daarbij is het de taak van A om de ondervrager te misleiden (dat wil zeggen: de man doet zich voor als vrouw) en de taak van B om de ondervrager te helpen. Vervolgens stelt Turing de vraag of machines (computers) de rol van de man (= bedrieger) zouden kunnen overnemen. Zou de ondervrager er dan net zo vaak naast zitten als wanneer A door een man zou worden gespeeld?

Alan Turing creëerde hiermee het grondbeginsel van kunstmatige intelligentie en nog steeds is de Turingtest de belangrijkste test binnen dit domein. Tegenwoordig zien we dit principe o.a. terug in de vorm van chatbots of populaire toepassingen als Siri voor de iPhone. Deze toepassingen worden steeds intelligenter, waardoor het ons leven steeds verder vergemakkelijkt. Maar welke techniek zit hier nu achter en hoe werkt dit? Welkom in de wereld van ML.

 

Machine Learning

ML is een deelgebied van kunstmatige intelligentie. De andere deelgebieden betreffen Natural Language Processing (het begrijpen van een taal door een computer), Knowledge Representation (de computer kan terugvallen op eerder opgedane kennis in het “gesprek”) en Automated Reasoning (de computer verbindt opgedane kennis om tot nieuwe conclusies te komen). ML gaat nog een stap verder en concentreert zich op het aanpassingsvermogen in nieuwe situaties. Machine Learning geeft computers de mogelijkheid zich aan te passen en te leren zonder dat dit expliciet wordt geprogrammeerd. De algoritmes van Machine Learning zijn erop gericht om continu nieuwe input te verwerken en daarmee de algoritmes te verbeteren. Hierdoor evolueren de algoritmes constant en heeft de techniek belangrijke voordelen ten opzichte van traditionele technieken.

Maar wat is ML nu precies en in hoeverre verschilt dit eigenlijk van de traditionele data Mining technieken? ML is een systeem dat via enkele complexe algoritmes grote hoeveelheden onoverzichtelijke data omzet naar gebruiksvriendelijke en bruikbare informatie. In plaats van analisten die inzichten uit data halen, gebruikt ML de data om het systeem zelf te verbeteren en door te ontwikkelen. Dit is meteen ook het grote verschil tussen ML en traditionele technieken. Normaal gesproken ontwikkelt de data scientist een model op basis van inzichten uit de data, maar bij ML wordt dit proces dus vooral uitgevoerd door de techniek zelf. Dit betekent overigens niet dat de data scientist hier geen rol meer in heeft, want nog altijd wordt de kwaliteit van de algoritmes bepaald door de kwaliteit van de input en daar ligt nog steeds een belangrijke taak voor de data scientist. De data scientist is alleen minder intensief betrokken bij het ontwikkelen van het model zelf. Machine learning maakt de toepassing van de data dus een stuk minder afhankelijk – maar niet onafhankelijk – van de data scientist.

Bij traditionele technieken ten behoeve van predictive modeling ontwikkelt de data scientist een model om op basis van bepaalde input te komen tot specifieke output (bijvoorbeeld de kans dat de klant zijn/haar contract bij organisatie X opzegt). Dat wil zeggen, de data scientist verzamelt data, prepareert deze zodat deze gebruikt kunnen worden voor modelbouw, bouwt een aantal modellen, valideert en evalueert deze modellen en selecteert het beste model en schrijft een code of programma om dit model uit te scoren zodat het gebruikt kan worden in bijvoorbeeld een marketingcampagne.

Bij ML loopt dit proces anders. Hierbij wordt het model namelijk ontwikkeld en verbeterd door de ML algoritmes zelf en niet door de data scientist. Zowel input- als outputdata worden aangeboden aan de algoritmes, welke hier vervolgens hypothesen op los laten om tot een bepaalde modelperformance te komen. De feedback van deze performance wordt vervolgens opgepakt door de algoritmes, waardoor nieuwe hypothesen of beslisregels worden opgesteld en getoetst om de performance te verbeteren.

 

Machine_learning

 

Het is een continuproces waarbij telkens wordt gekeken of de algoritmes kunnen worden verbeterd op basis van nieuwe data. Dit laat ook tegelijkertijd de belangrijke voor- en nadelen zien van ML. Grote voordelen zijn dat ML uitkomst kan bieden bij complexe data (bijvoorbeeld ongestructureerde data of heel dynamische data) of complexe toepassingen, bijvoorbeeld het afstemmen van je marketingboodschap op basis van specifiek online klantgedrag. Een ander groot voordeel is dat je telkens over de meest actuele algoritmes beschikt, waardoor de voorspelkracht steeds maximaal is. Bij traditionele technieken zal de voorspelkracht afnemen en dien je na verloop van tijd het model te updaten. Bij ML gebeurt dat dus continu. Met name als er sterk wordt gestuurd op basis van de uitkomsten van de algoritmes is het van groot belang regelmatig de rekenregels te herzien. Een groot nadeel is dat ML hoge eisen stelt aan de data infrastructuur om maximaal rendement te halen uit de techniek. Denk hierbij aan de continustroom van online- en offline data om de algoritmes continu te verbeteren op basis van nieuwe data. Vandaar dat ML – voor wat betreft Marketing Intelligence toepassingen – vooral nog wordt toegepast binnen e-commercebedrijven omdat de dynamische online data en –websites van deze bedrijven zich goed lenen voor ML. Tot slot is een risico dat door het vele automatiseren essentieel inzicht in het waarom wordt gemist. Inzicht dat bij diepere bestudering van de data mogelijk wel was gezien en dat tot game changing inzichten had kunnen leiden.

Is ML dan alleen geschikt voor dynamische data? Niet per se, maar het voordeel ten opzichte van meer statische data is vaak wel groter. Zo kan het met traditionele technieken tijdrovend zijn om op basis van transactionele data van een bank specifiek klantgedrag te herkennen. ML kan hierbij veel efficiënter en effectiever zijn, omdat het vrij gemakkelijk met complexe en grote hoeveelheden data kan omgaan en hier zelf patronen in ontdekt. Daarentegen heeft ML wellicht minder additionele waarde t.o.v. traditionele technieken wanneer er een voorspelmodel ontwikkeld dient te worden op basis van enkel statische data binnen een verzadigde markt. ML kan dus in veel gevallen voor de data scientist de volgende stap zijn in predictive modeling, maar het hoeft niet per se te betekenen dat je achterloopt wanneer je ML nog niet toepast.

Naast commerciële toepassingen kan ML vooral ook interessant en leuk zijn voor de creatieve data scientist die ook buiten het Marketing Intelligence domein zijn of haar skills graag test. Zie hieronder een mooi voorbeeld hiervan.

 

Bron video: The Analytics Lab
Overige bronnen: Turing, A.M. (1950). Computing Machinery and Intelligence. Mind 49: 433-460.
Delsing, K. (2014). Onmenselijke voorspellingen doen met ‘machine learning’. Geraadpleegd op 7 januari 2017.

Laatste nieuws

Vind jouw risicovolle bestanden volgens AVG met onze DriveScanner

17 april 2023

In elk bedrijf is het een uitdaging om ervoor te zorgen dat we alleen de documenten... lees meer

Rondetafelsessie – donderdagochtend 25 mei

16 januari 2023

Culture eats data strategy for breakfast​ Bedrijven die erkennen dat ze met de inzet van data... lees meer

Van het voorspellen van de frietverkoop tot het creëren van een betere toekomst met data

20 december 2022

20 jaar Cmotions is ook 20 jaar vakgeschiedenis en -ontwikkeling. Dit geeft waardevolle inzichten voor de... lees meer

Schrijf je in voor onze nieuwsbrief

Mis nooit meer iets op het gebied van advanced analytics, data science en de toepassing daarvan binnen organisaties!