Als je geïnteresseerd bent in tekst mining tools en Natural Language Processing (NLP), dan ben je hier op de juiste plaats! Dit artikel geeft een korte introductie van een van de meest bekende NLP-taken: topic modeling. We presenteren een traditionele aanpak, Latent Dirichlet Allocation (LDA) en een deep learning methode, BERTopic. Voor zowel LDA als BERTopic hebben we ook een voorbeeld notebook met code gemaakt.
Stel je voor dat je een boekwinkel binnengaat om een kookboek te kopen. , hoe handig is het dan dat de boekhandel ingedeeld is in verschillende afdelingen op basis van het soort boek. Topic Modeling is een soortgelijk proces van het detecteren van thema’s in een tekstcorpus, zoals het opdelen van een boekhandel afhankelijk van de inhoud van de boeken. Het belangrijkste idee achter deze taak is het produceren van een beknopte samenvatting, waarin de meest voorkomende onderwerpen uit een corpus van duizenden documenten naar voren komen.
Topic modeling ontstond in de jaren 80 uit het veld van de “generatieve probabilistische modellering”. Samen met de technologie blijft ook Topic Modeling zich doorontwikkelen. Waardoor er tegenwoordig veel meer mogelijk is en de resultaten een stuk indrukwekkender zijn dan in de beginjaren. Je vraagt je nu wellicht af waarom Topic Modeling interessant is voor jouw bedrijf. Dat gaan wij proberen te laten zien.
Jarenlang hebben bedrijven weinig tot geen waarde kunnen halen uit alle tekstuele data die zij tot hun beschikking hadden, zoals emails, tweets, chat gesprekken, klanttevredenheidsonderzoeken, etc. Maar dankzij, onder andere, Topic Modeling is het tegenwoordig mogelijk om al deze gegevens te analyseren en zo beter de behoefte van de klant te begrijpen en daarop in te kunnen spelen. Deze inzichten kunnen leiden tot een aangepaste bedrijfsstrategie, maar ook bij het verbeteren van het klantcontact en de (gerichte) marketing.
In dit artikel lichten we kort twee hele bekende methodes toe om Topic Modeling uit te voeren. De eerste methode (LDA) is een traditionele methode. De tweede methode (BERTopic) is een hele nieuwe en geavanceerde deep learning aanpak.
Latent Dirichlet Allocation (LDA) is een krachtige tekstuele analysetechniek gebaseerd op taalkundig onderzoek dat statistische correlaties tussen woorden in documenten gebruikt om de onderliggende onderwerpen te vinden en te kwantificeren (Jelodar et al.,2019). Het model gaat er vanuit dat tekstuele documenten bestaan uit onderwerpen, die zijn opgebouwd uit woorden uit een lexicon. De verborgen onderwerpen zijn “een terugkerend patroon van woorden die vaak samen voorkomen”(Blei, 2012). Ondanks dat LDA een tradtitionele methode is, wordt dit nog steeds wel beschouwd als een state-of-the-art aanpak voor Topic Modeling
‘Latent’ staat voor het proces om de verborgen onderwerpen in de documenten te ontdekken. Het woord ‘Dirichlet’ geeft aan dat de verdeling van onderwerpen in een document en de verdeling van woorden binnen topics beide worden verondersteld Dirichlet distributies te zijn. ‘Allocation’ tenslotte staat voor de verdeling van onderwerpen in het document (Ganegedara, 2019). Voor een dieper begrip van de componenten binnen het LDA topic model biedt een blog geschreven door Thushan Ganegedara een mooie uitleg.
De ontwikkeling op het gebied van NLP (natural language processing) gaat razendsnel en dit komt mede door de ontwikkeling van Transformers. Moet je bij Transformers nog vooral aan de film denken? Lees dan in deze blog van Jay Alammar meer over wat dit eigenlijk is. In 2018 werd BERT (Bidirectional Encoder Representations from Transformers) ontwikkeld door Devlin en collega’s, en vervolgens heeft Grootendorst in 2020 op basis van BERT het BERTopic model ontwikkeld, speciaal voor Topic Modeling. In BERTopic worden Transformers en TF-IDF (term frequency – inverse document frequency) gebruikt om clusters van woorden te produceren die eenvoudig te begrijpen zijn waarbij de belangrijke woorden in de omschrijving van het topic behouden blijven. Deze deep learning methode ondersteunt meer dan vijftig talen en werkt in drie stappen: Document embeddings, Document clustering, Document TF-IDF.
Je vraagt je nu waarschijnlijk af wanneer je nou LDA en wanneer BERTopic moet gebruiken? Dit hangt af van meerdere factoren, zoals de hoeveelheid data, de beschikbare rekenkracht, de gewenste output en de hoeveelheid tijd. Heb je bijvoorbeeld veel data en beperkte rekenkracht, dan is LDA de beste oplossing. Als de semantische representatie in de output belangrijk is, dan kies je waarschijnlijk liever voor BERTopic. Hetzelfde geldt voor als je minder tijd wil besteden aan het klaarmaken van de data voor het Topic Model. LDA vergt wat meer datapreparatie dan BERTopic.
Met dit artikel wilden wij een korte introductie geven over Topic Modeling en twee hele belangrijke methoden om dit te doen. Smaakt dit artikel naar meer? Lees dan vooral ook onze meer uitgebreide uitleg hierover. Heb je hierdoor vooral zin gekregen om zelf aan de slag te gaan met Topic Modeling? Wij hebben ook notebooks met code gemaakt waarin je direct zelf aan de slag kan met zowel LDA als BERTopic.
Vond je dit een leuk artikel en ben je geïnteresseerd in meer NLP artikelen? Lees dan vooral onze serie Natural Language Processing eens.
Wil je meer weten over dit onderwerp? Neem dan contact op met Jeanine Schoonemann via onderstaande contactgegevens.