24 oktober 2019
Met grote nieuwsgierigheid heb ik het Spark & AI Summit Europe 2019 bezocht. Vanuit eerdere klantprojecten had ik wel wat hands-on ervaring met Spark opgedaan, maar zonder veel voorkennis van Spark en al helemaal niet met betrekking tot optimaal gebruik van Spark. Tijdens deze eerste ervaring met Spark kwam dat met een aantal iteraties en tips van wat data engineers helemaal goed. Maar wat wel bleef knagen was: Hoe zet je Spark optimaal in? Wat zijn de ontwikkelingen en welke functionaliteiten zijn er bij gekomen? Redenen genoeg om de Spark & AI Summit 2019 te bezoeken, helemaal als het in de achtertuin plaatsvindt – in de RAI Amsterdam.
Na drie dagen vol nieuwe kennis en inspiratie kijk ik terug op een waardevolle ‘echte’ kennismaking met Spark en kijk ik er vooral naar uit om de opgedane kennis en energie rondom de nieuwe ontwikkelingen van Spark en tools eromheen – Spark 3.0, MLFLOW, koalas om er een paar te noemen – zelf in de praktijk te gaan brengen.
De Summit duurde in totaal 3 dagen, 2 dagen met presentaties en tutorials voorafgegaan door 1 dag met Spark trainingen. Om de fundamentals op gebied van gebruik van Spark voor data science alsnog op te doen, heb ik me ingeschreven voor de Data Science with Apache Spark class. Bekende analysetechnieken (regressie, decision trees, random forest, gradient boosting) werden gebruikt, maar nu uitgevoerd in databricks notebooks en draaiend op Spark clusters.
In de ochtend kwamen de basics van Spark aan bod en werken met Databricks notebooks met coding voorbeelden op basis van AirBnB data. Een goede warming-up voor de middag, waarin mooie nieuwe tools besproken zijn die het leven van de data scientist kunnen vergemakkelijken. Zoals MLFLOW om data science projecten tijdens en na de ontwikkelfase te managen en MLLeap om modellen met maximale performance in te zetten in ‘realtime’ omgevingen. In de eigen oefeningen (Labs) werden beperkte datasets gebruikt en waren de analysetechnieken erg vernieuwend – regressie, beslisbomen, random forests. Dat was jammer, maar de training biedt meer dan voldoende inzicht en materiaal om deze en andere technieken wel op grote hoeveelheden data in te kunnen zetten met Databricks notebooks. En inzichten in hoe optimaal gebruik te maken van de kracht van Spark.
De codebase met trainingsmateriaal zal in de toekomst zeker ook een waardevol souvenir van deze dag zijn. Mooie start dus, ik voelde me al wat meer ‘Sparker’ – toegegeven – ook de uitgedeelde Spark community stickers droegen daaraan bij :).
Waar op dag 1 alleen trainingen gegeven werden en een paar honderd man door de RAI rond zwierf, begon voor velen op dag 2 de summit pas echt. De deuren gingen open voor in totaal 2300 bezoekers, flink wat meer dan de vorige editie in Londen en helemaal vergeleken met de paar honderd bij de eerdere versie in Amsterdam in 2015. De Sparkcommunity groeit sterk, zo ook de Spark footprint in bedrijven over de wereld, en dat was voelbaar bij de keynotes. In de eerste keynote was er veel aandacht voor de ontwikkelingen op gebied van Spark en Databricks, het Spark analyseplatform dat is opgericht door de originele ‘makers van Spark’. Databricks organiseert de Summit en is daarom alom aanwezig – in talks, workshops en sessies.
Het mooie aan de summit is de uitgebreide keuze in de parallelsessies met voldoende aanbod voor zowel data engineers als data scientists en zowel cases als tutorials, waarin je zelf aan de slag kan op je eigen laptop – via Azure Databricks. Het lastige met zo’n rijk aanbod aan interessante parallelsessies is wel weer: keuzes maken… Een aantal sessies werd op een later moment nogmaals gedaan, maar een hoop helaas ook niet.
Twee dagen vol keynotes, cases en tutorials hebben me een hoop gebracht. Als data scientist kan je niet om Spark heen, als je het al zou willen, en na deze dagen kan ik er nog gerichter mee werken. Ook door direct te profiteren van belangrijke nieuwe ontwikkelingen binnen het Spark domein. Zoals MLFlow voor het beter orchestreren van data science projecten. En Koalas – voor een zo soepel mogelijke overgang van Python’s populaire pandas library naar Spark. De meest waardevolle sessies voor mij gingen over automatiseren van modelbouw (met autoML), hyperparameter optimization (autoML / Maggy) en het kunnen interpreteren en uitleggen van machine learning en deep learning modellen (met LIME en SHAP). En als python én R gebruiker was de talk bemoedigend over de steeds betere aansluiting van R op Spark en deep learning (Keras / Tensorflow ) ontwikkelingen.
Wat nog wel wat knaagt, is dat één van de lastigste zaken aan gebruik van Spark voor mij blijft: het opzetten van de juiste hardware configuratie: Wat voor type cluster? Hoeveel workers? Welke up- en downscaling strategie? In de talks die ik bezocht bleef het use case afhankelijk en veel trial en error, maar het vinden van de juiste config is cruciaal voor de performance en kosten van gebruik van Spark. Misschien is het ook meer een data engineering taak dan de zorg van een data scientist, maar voor een data scientist is de juiste config wel van cruciaal belang om binnen beschikbare middelen (tijd en geld) tot resultaat te komen en ook te analyseren hoe schaalbaar in productie nemen zal zijn.
Overall ben ik erg enthousiast over deze Spark Summit. Heb wel wat congressen bezocht, maar vaak blijft het toch wat te algemeen en te opgepoetst bij de klantcases of te academisch bij tool- en techniektrainingen. Door het brede aanbod is een bezoek aan de Spark Summit zo inspirerend en praktisch mogelijk te maken als je zelf wilt. En als je tussen het overvolle programma door nog tijd en puf hebt, kan je interessante connecties op doen met de Spark Community zonder te veel last te hebben van sales types en accountmanagers.
Ben je data scientist of data engineer en werk je al met Spark óf wil je er net als ik (meer) mee gaan werken, dan is het bezoeken van de Spark Summit 2020 een absolute aanrader! De volgende Spark summit in oktober 2020 is wel iets verder reizen, maar een tripje naar het mooie Berlijn hoeft zeker geen straf te zijn!
Wil je meer weten over dit onderwerp? Neem dan contact op met Jurriaan Nagelkerke via onderstaande contactgegevens.
4 mei 2023
Op 21 april 2023 hielden we een heroïsche hackathon waarbij 10 teams van KPN, Rabobank, DPG,... lees meer
17 april 2023
In elk bedrijf is het een uitdaging om ervoor te zorgen dat we alleen de documenten... lees meer
16 januari 2023
Culture eats data strategy for breakfast Bedrijven die erkennen dat ze met de inzet van data... lees meer