3 januari 2020
Met de feestdagen net achter de rug heb je wellicht je buik vol van het lekkere eten en de gezelligheid. Mocht je toch nog niet genoeg gehad hebben van al dat lekkers, lees dan vooral door! In dit artikel laten wij zien hoe ‘openbare restaurant reviews’ gebruikt kunnen worden om te voorspellen wie op 13 januari een Michelinster krijgen.
De jaarlijkse uitreiking van de Michelinsterren
De jaarlijkse uitreiking van de Michelinsterren staat weer voor de deur; de uitreiking vindt dit jaar plaats op 13 januari. Na de uitreiking van deze prestigieuze prijs zal de telefoon bij de prijswinnaars roodgloeiend staan. Om de drukte voor te zijn, hebben wij ons tijdens de feestdagen afgevraagd of het mogelijk is om de winnaars van de Michelin uitreiking 2020 te voorspellen. En, ja, wij denken dat echt al te weten! Aan het eind van dit artikel weet jij ook bij welke restaurants je nu alvast een plekje moet reserveren.
LinkedIn, congressen en social media staan er bol van: data is het nieuwe goud. Vaak wordt daarbij ongestructureerde data, zoals tekst, beeld en geluid, specifiek benoemd als de grotendeels nog onontgonnen bron met eindeloze potentie. Veel van de artikelen doen grote beloftes, maar laten het na om met duidelijke voorbeelden te komen waar iedereen iets aan heeft.
Kijken we terug naar 2019 dan hebben text analytics en NLP (natural language processing) een grote vlucht genomen. Met deze technieken wordt informatie gewonnen uit ongestructureerde tekst. Welke vervolgens wordt gebruikt voor bijvoorbeeld verklaringen van gedrag, voorspellingen van vraag en antwoord en het sentiment van klanten.
Het proces van het toekennen van een Michelinster is naar onze mening vrij ondoorgrondelijk. Op de website van Missethoreca is te lezen dat het eten wel van invloed is, maar de aankleding van het restaurant en de kwaliteit van de bediening niet van invloed zijn, op de beoordeling.
Voorafgaand aan de beoordeling bezoekt een anonieme expert van Michelin het restaurant en let op de kwaliteit van het eten, de prijs die je daarvoor betaalt en de manier waarop de chef werkt. Restaurants die een Michelinster hebben ontvangen, krijgen geen uitgebreide toelichting.
Kantar TNS deed in 2017 onderzoek (bron) naar restaurantbezoek onder Nederlanders. Hieruit blijkt dat per jaar gemiddeld 5 miljoen Nederlanders een restaurant bezoeken. Deze mensen hebben natuurlijk een mening over de kwaliteit van het eten, de betaalde prijs en de manier waarop de chef werkt. Deze mening wordt online gedeeld op review websites, waarvan The Fork (voorheen Iens) een van de grootste is.
De vrije beschikbaarheid van ervaringen en kennis van anderen biedt veel kansen. Denk aan een willekeurige spelshow waarbij de kandidaat de hulp van het publiek inroept om tot het juiste antwoord te komen en naar huis gaat met de hoofdprijs. Deze ‘wisdom of the crowd’ gebruiken wij ook voor ons vraagstuk. Met behulp van een webscraper verzamelden we ruim 400.000 restaurant reviews vanaf 2013. Deze enorme hoeveelheid tekst is niet meteen bruikbaar.
Bruikbare reviews
Ten eerste bestaat een deel van de reviews maar uit enkele woorden. Deze reviews geven volgens ons niet genoeg inzicht en kunnen dus worden verwijderd. Daarnaast moeten de reviews worden gefilterd op stopwoorden zoals aan, etcetera, namelijk en waarschijnlijk. Tot slot worden alleen woorden meegenomen die minimaal tien keer voorkomen.
Hieronder twee voorbeelden van reviews. De eerste review werd niet meegenomen omdat deze te kort was. De tweede review werd wel meegenomen in onze analyse van de reviewteksten.
Daarna hebben we alle unieke woorden die in de reviews voorkomen ingedeeld in woordgroepen. Om tot deze meest gebruikte onderwerpen te komen, gebruiken we een specifieke tekstanalysetechniek; topic modeling voor de nerds onder ons (voorbeeld).
Topic modeling op onderwerpen
De waardering voor een restaurant komt tot stand op basis van verschillende kenmerken, zoals de smaak, de bediening en de sfeer. Deze kenmerken liggen verborgen in de reviews. Met topic modeling halen we deze impliciete onderwerpen uit de reviews naar de voorgrond. In welke mate er in de reviews van een restaurant over deze ontdekte onderwerpen wordt gesproken, gebruiken we vervolgens om te voorspellen welke restaurants een Michelinster hebben. Hieronder zie je een voorbeeld van een review en de bijbehorende onderwerpen. Onderwerpen in blauw gaan voornamelijk over het eten, onderwerpen in oranje over de bediening.
In totaal onderscheiden we zeven onderwerpen die een belangrijke rol spelen in de reviewteksten, namelijk: Beleving, Menu, Gerechten, Culinaire Ervaring, Proces, Bediening en Smaak. Daarnaast hebben we ook de lengte van de reviewtekst berekend.
Het sentiment van de review
Maar daar houdt het halen van informatie uit de reviewteksten niet op. Naast de onderwerpen hebben we ook gekeken naar het sentiment van de review. De sentiment score hebben we berekend door alle positieve woorden een score van +1 te geven en alle negatieve woorden een score van -1. We gebruikten hiervoor een bestaande sentiment woordenlijst – ook wel lexicon genoemd, zie bron. De positieve woorden in de review hieronder zijn groen. De negatieve woorden zijn rood. Deze review heeft meer negatieve, dan positieve woorden. Het totale sentiment van deze review is daarom negatief.
Naast de reviewtekst staan op The Fork per review ook nog een aantal scores die reviewers aan het restaurant geven. Zo geven de reviewers een score voor Prijs/Kwaliteit, Geluidsniveau, Wachttijd, Eten, Service en Decor. En krijgen de reviewers zelf ook een score op basis van het aantal restaurants dat zij al gereviewd hebben (Reviewer Fame). Al deze informatie over de review en de reviewer hebben we ook meegenomen in de voorspelling. We willen je natuurlijk niet naar het verkeerde restaurant sturen.
Om te kijken hoe we het beste kunnen voorspellen of een restaurant al een Michelinster heeft, hebben we verschillende voorspelmodellen gebouwd. Zo konden we kijken welke tekstelementen en scores de meeste voorspelkracht hebben op het hebben van een Michelinster of niet. De modellen die we hebben gebouwd en getest zijn als volgt:
Als we deze drie modellen met elkaar vergelijken valt op dat model 1, met alleen van de reviewteksten afgeleide kenmerken, beter voorspelt dan model 2 met alleen de reviewscores. Echter, als we de kenmerken uit model 1 en 2 combineren in model 3 kunnen we Michelinsterren het beste voorspellen. Model 3 voorspelt de huidige Michelinsterren maar liefst in 87% van de gevallen correct en is hiermee het beste van de 3 opties!
In de grafiek hieronder staat een overzicht met het belang van elk van de variabelen die is meegenomen in het model. Hoe groter de balk, hoe belangrijker de variabele is in het voorspellen van het hebben van een Michelinster.
NB: Het symbool * geeft een interactie effect tussen twee variabelen weer.
Zoals te zien is in de grafiek zijn de belangrijkste voorspellers voor het hebben van een Michelinster variabelen die afgeleid zijn van de reviewtekst. Het benutten van de potentie die verscholen ligt in tekstuele data heeft zich hier dus goed bewezen!
Voorspellende variabelen
Vooral het onderwerp Culinaire Ervaring en de interactie tussen Culinaire Ervaring en Sentiment zijn belangrijke voorspellers voor het hebben van een Michelinster of niet. Dit onderwerp bestaat voornamelijk uit de woorden ‘wijn’, ‘menu’ en ‘gangen’. Ook de Review Lengte is een belangrijke voorspeller voor het hebben van een Michelinster of niet. De belangrijkste overige voorspellers zijn de score op Geluidsniveau en de Prijs/Kwaliteit verhouding.
Daarnaast zijn de onderwerpen Menu, Proces en Gerechten belangrijke voorspellers of een restaurant een Michelinster heeft of niet. Het individuele effect van Sentiment heeft de laagste voorspellende waarde van alle variabelen in het model. Sentiment is echter wel een belangrijke moderator. Door sentiment toe te voegen aan de verschillende onderwerpen wordt de voorspellende waarde van deze onderwerpen namelijk groter.
Michelinsterren zouden alleen worden toegekend op basis van het eten, zo lezen we in de verklaring van Michelin. Maar in ons model zien we echter dat Service en Decor ook belangrijke voorspellers zijn. Al zijn deze kenmerken wel minder belangrijk dan de culinaire ervaring en het menu.
Zoals eerder vermeld, kunnen we met bovenstaand model in 87% van de gevallen goed voorspellen of een restaurant een Michelinster heeft of niet. De vraag is nu: kunnen we voor 2020 voorspellen welke restaurants een Michelinster gaan krijgen? Wij hebben gekeken welke restaurants nu nog geen Michelinster in bezit hebben, maar volgens ons model wel een grote kans hebben op een Michelinster.
Dit zijn, volgens ons, de restaurants waar je zo snel mogelijk een tafeltje moet reserveren:
Ten slotte … voor nu
Mocht je binnenkort nog een keertje lekker uit eten willen, check dan snel een van deze restaurants! Op 13 januari weten we welke van deze restaurants daadwerkelijk een Michelinster in ontvangst hebben genomen. We zullen dan ook weten hoe goed ons model voorspelt of een restaurant een Michelinster krijgt of dat de wegen van Michelin ook voor ons ondoorgrondelijk blijven.
Wat onze analyse nu wel al duidelijk heeft gemaakt, is dat de potentie van tekstuele data enorm is. Tekst is overal, maar wordt nog (te) vaak genegeerd in analyses omdat het geen cijfermatige data is. Met een steeds rijker menu aan tekstanalysetechnieken en meer chef-koks gespecialiseerd in het bereiden van tekstuele analyses, verwachten wij een sterke toename aan driesterrenvoorspellingen met tekst als hoofdingrediënt.
Dus wordt vervolgd!
Met dank aan Anya Tonne, Dion Parameswaram, Nikki van Gerwen, Terri Seuntjens, Wouter van Gils en Lotte van Bakel (Underlined).
Lees snel verder hoe correct onze voorspelling was >
Wil je meer weten over dit onderwerp? Neem dan contact op met Jurriaan Nagelkerke via onderstaande contactgegevens.
17 april 2023
In elk bedrijf is het een uitdaging om ervoor te zorgen dat we alleen de documenten... lees meer
16 januari 2023
Culture eats data strategy for breakfast Bedrijven die erkennen dat ze met de inzet van data... lees meer
20 december 2022
20 jaar Cmotions is ook 20 jaar vakgeschiedenis en -ontwikkeling. Dit geeft waardevolle inzichten voor de... lees meer