Data warehouse of data lake?

16 oktober 2017

Artikel geschreven door Kees Groenewoud, Partner

Enige tijd geleden in de pauze van een branchebijeenkomst luisterde ik onbedoeld een gesprek af.

‘Hebben jullie al een data lake’ ? ‘Ehhhh, wat bedoel je?’ ‘Nou, gewoon, een data lake…’ ‘En wat versta je daar dan onder….?’

Onmiddellijk had ik veel sympathie voor de steller van die laatste vraag, te meer omdat het antwoord – voor zover ik dat kon volgen – enigszins de definitie benaderde van wat we al jaren verstaan onder een data warehouse: een grote verzameling gegevens die tot stand is gekomen vanuit de operationele bedrijfsvoering en die kan worden gebruikt voor het generen van management informatie.

 

Definities data lake

Enige verdieping op het onderwerp ‘data lake’ is een grappige exercitie en al snel denk je te maken te hebben met weer een nieuwe hype. Door het zoeken naar ‘data lake’ kom je al snel ‘data sewer’ tegen. Dan ga je net zo makkelijk door naar het begrip ‘data swamp’ en overal kom je de min of meer poëtische parallel tegen van het flesje water (lees: het data warehouse) en het meer dat volstroomt (het ‘lake’ dus). En natuurlijk ook wat je al wel verwacht: de term data lake komt uit de IT-wereld, net als de term big data. Oh ja, ook geen verrassing, ze hebben wel met elkaar te maken, die twee begrippen.

De rode draad die je tegenkomt bij definities van het begrip data lake: het is een dataverzameling afkomstig van uiteenlopende bronnen. De data waar het over gaat is in feite alle data: gestructureerd en ongestructureerd, van transactioneel tot clicks, geluid en beelden, al of niet bewegend. Vandaar ook de link naar big data – van waaruit de behoefte naar het data lake in feite ontstaan is.

 

Gebruikers data lake

Als je kijkt wie de beoogde gebruikers zijn van het data lake, dan zijn dat met name de data scientists. De reden hiervoor is dat bij het realiseren van het data lake er geen sprake is van modellering naar business model, transformatie of interpretatie van data. Dit in tegenstelling tot bij een data warehouse, waarbij business rules ervoor moeten zorgen dat de brongegevens op een correcte en eenduidige manier bij elkaar komen.

 

Data definities

De data definities die van toepassing zijn binnen het lake, zijn de definities zoals die op de bronsystemen van toepassing zijn. In feite is het lake dus een sandbox (zeg maar een aparte omgeving, los van andere data of systemen) van waaruit je naar hartenlust kunt gaan data minen, zonder dat je je bekommert om van tevoren vastgestelde definities of interpretaties.

De data in het lake wordt dus in zijn oorspronkelijke vorm bewaard, ongeacht vorm of structuur en pas getransformeerd als iemand die data nodig heeft. De logische gevolgtrekking is dan wel dat je meer tijd kwijt ben aan datapreparatie op het moment dat je een analyse set wilt gaan creëren.

 

 

Data warehouse

Dit is wel een wezenlijk verschil met het data warehouse. Ten eerste is een data warehouse qua structuur en model een weerspiegeling van het business model van de organisatie en ten tweede vindt er een definitiebepaling plaats van alle data elementen voordat ze het warehouse in gaan. Het data warehouse vormt daarmee dus veel meer ‘het geheugen’ van de organisatie dan het data lake, waarbij data ook weer kan verdwijnen als het niet tot nut blijkt te zijn.

Voor de data scientist is het data warehouse dus eigenlijk een beperking. Je hebt immers alleen maar de beschikking over data uit hoofdzakelijk het primaire en secundaire proces van de organisatie. Log, click, social media, 2e en 3e party data valt daarmee mogelijk buiten de boot en analysetechnisch heb je daar ook niet de beschikking over als je alleen het data warehouse als bron neemt.

 

Data warehouse of data lake?

Een keuze voor het één of het ander ligt wat mij betreft dan ook niet voor de hand. Sterker nog, het data warehouse en het data lake hebben dus andere toepassingen en zijn dus ook inhoudelijk verschillend. Als je als data scientist snel wil beschikken over een flexibele analyseomgeving met uiteenlopende bronnen die buiten de organisatie liggen, dan is het data lake een passende oplossing. Voor betrouwbare management informatie daarentegen blijft het data warehouse de aangewezen bron.

Contact

Wil je meer weten over dit onderwerp? Neem dan contact op met Kees Groenewoud via onderstaande contactgegevens.

Kees Groenewoud, Partner

+31 6 11 52 81 99

c.groenewoud@cmotions.nl

Gerelateerd nieuws

Vijf lessen bij de implementatie van Data governance

3 april 2017

Advanced analytics. Real time reporting. Big data. Smart data. Data virtualisatie. Van datacenters naar centers... lees meer