Enige tijd geleden in de pauze van een branchebijeenkomst luisterde ik onbedoeld een gesprek af.
‘Hebben jullie al een data lake’ ? ‘Ehhhh, wat bedoel je?’ ‘Nou, gewoon, een data lake…’ ‘En wat versta je daar dan onder….?’
Onmiddellijk had ik veel sympathie voor de steller van die laatste vraag, te meer omdat het antwoord – voor zover ik dat kon volgen – enigszins de definitie benaderde van wat we al jaren verstaan onder een data warehouse: een grote verzameling gegevens die tot stand is gekomen vanuit de operationele bedrijfsvoering en die kan worden gebruikt voor het generen van management informatie.
Enige verdieping op het onderwerp ‘data lake’ is een grappige exercitie en al snel denk je te maken te hebben met weer een nieuwe hype. Door het zoeken naar ‘data lake’ kom je al snel ‘data sewer’ tegen. Dan ga je net zo makkelijk door naar het begrip ‘data swamp’ en overal kom je de min of meer poëtische parallel tegen van het flesje water (lees: het data warehouse) en het meer dat volstroomt (het ‘lake’ dus). En natuurlijk ook wat je al wel verwacht: de term data lake komt uit de IT-wereld, net als de term big data. Oh ja, ook geen verrassing, ze hebben wel met elkaar te maken, die twee begrippen.
De rode draad die je tegenkomt bij definities van het begrip data lake: het is een dataverzameling afkomstig van uiteenlopende bronnen. De data waar het over gaat is in feite alle data: gestructureerd en ongestructureerd, van transactioneel tot clicks, geluid en beelden, al of niet bewegend. Vandaar ook de link naar big data – van waaruit de behoefte naar het data lake in feite ontstaan is.
Als je kijkt wie de beoogde gebruikers zijn van het data lake, dan zijn dat met name de data scientists. De reden hiervoor is dat bij het realiseren van het data lake er geen sprake is van modellering naar business model, transformatie of interpretatie van data. Dit in tegenstelling tot bij een data warehouse, waarbij business rules ervoor moeten zorgen dat de brongegevens op een correcte en eenduidige manier bij elkaar komen.
De data definities die van toepassing zijn binnen het lake, zijn de definities zoals die op de bronsystemen van toepassing zijn. In feite is het lake dus een sandbox (zeg maar een aparte omgeving, los van andere data of systemen) van waaruit je naar hartenlust kunt gaan data minen, zonder dat je je bekommert om van tevoren vastgestelde definities of interpretaties.
De data in het lake wordt dus in zijn oorspronkelijke vorm bewaard, ongeacht vorm of structuur en pas getransformeerd als iemand die data nodig heeft. De logische gevolgtrekking is dan wel dat je meer tijd kwijt ben aan datapreparatie op het moment dat je een analyse set wilt gaan creëren.
Dit is wel een wezenlijk verschil met het data warehouse. Ten eerste is een data warehouse qua structuur en model een weerspiegeling van het business model van de organisatie en ten tweede vindt er een definitiebepaling plaats van alle data elementen voordat ze het warehouse in gaan. Het data warehouse vormt daarmee dus veel meer ‘het geheugen’ van de organisatie dan het data lake, waarbij data ook weer kan verdwijnen als het niet tot nut blijkt te zijn.
Voor de data scientist is het data warehouse dus eigenlijk een beperking. Je hebt immers alleen maar de beschikking over data uit hoofdzakelijk het primaire en secundaire proces van de organisatie. Log, click, social media, 2e en 3e party data valt daarmee mogelijk buiten de boot en analysetechnisch heb je daar ook niet de beschikking over als je alleen het data warehouse als bron neemt.
Een keuze voor het één of het ander ligt wat mij betreft dan ook niet voor de hand. Sterker nog, het data warehouse en het data lake hebben dus andere toepassingen en zijn dus ook inhoudelijk verschillend. Als je als data scientist snel wil beschikken over een flexibele analyseomgeving met uiteenlopende bronnen die buiten de organisatie liggen, dan is het data lake een passende oplossing. Voor betrouwbare management informatie daarentegen blijft het data warehouse de aangewezen bron.
Wil je meer weten over dit onderwerp? Neem dan contact op met Kees Groenewoud via onderstaande contactgegevens.
27 januari 2022
Net als vorig jaar hebben wij kritisch gekeken naar de belangrijkste trends op het gebied van... lees meer
14 oktober 2021
In dit laatste deel (van onze vierdelige reeks over dashboarding) beschrijven we welke middelen gebruikt kunnen... lees meer
16 september 2021
In het eerste artikel van dit vierluik zijn we ingegaan op wanneer een dashboard dé oplossing... lees meer