Verdieping boek review: Data Scientist

Hieronder volgt een verdieping per hoofdstuk van mijn boek review “Data Scientist – The Definitive Guide to Becoming a Data Scientist door dr. Zacharias Voulgaris”.

In hoofdstuk 1 begint Voulgaris met een introductie op Big Data, omdat hij het metier Data Scientist zeer sterk koppelt aan de opkomst van ‘Big Data’. De vier V’s van Big Data (Volume, Velocity, Veriety en Veracity) komen aan bod. We schreven hier zelf ook al eens over: De V’s die je moet overwinnen om ‘Big’ data smart te maken. Data Science bestaat bij de gratie van de nieuwe uitdagingen die Big Data (en haar V’s) opwerpt om data om te zetten in inzichten, aldus Voulgaris. Daarna volgen wat open deuren met betrekking tot branches waarin big data een rol speelt (want waar is (big) data nu niet van waarde??), gevolgd door een interessant overzicht van de geboorte van het begrip Data Science. Zo stond de term Data Science voor het eerst in de schijnwerpers in 1996 op de conferentie “Data Science, Classification and Related Methods” in Kobe, Korea – dat wist je vast nog niet! Het gedachtengoed rond Data Science ontstond al veel eerder en in hoofdstuk 2 wordt de volledige tijdslijn meer uitgewerkt. Deze tijdslijn begint in 1962 bij de vooraanstaande statisticus John Tukey en zijn boek The Future of Data Analysis. Overigens is dit historisch overzicht bijna 1-op-1 hetzelfde als in een artikel in Forbes uit 2013. Wie wie inspireerde (Voulgaris <-> Forbes?) wordt uit referenties niet duidelijk, maar het is wel een interessant overzicht van het ontstaan van de term en hype rond Data Science. Wat volgt is een korte maar belangrijke introductie in Big Data termen als MapReduce, Hadoop, tekstanalyse, programmeertalen en alternatieve database structuren waarvan sommigen in latere hoofdstukken dieper worden toegelicht.

Hoofdstuk 2 eindigt met een beschrijving van naar mijn bescheiden mening één van de belangrijkste karakteristieken van een Data Scientist: De mindset van een Data Scientist. Data Science vereist een systematische aanpak, waarbij de Data Scientist inbeeldingskracht in het probleem combineert met voldoende pragmatisme. Dure woorden om te zeggen: Technische skills zijn niet genoeg, het gaat er om dat de Data Scientist het probleem zeer scherp in beeld brengt, opknipt in behapbare deelvragen en deze met de juiste balans tussen snelheid en nauwkeurigheid stuk voor stuk op lost. Daarom is (kunnen) samenwerken in een multidisciplinair team ook cruciaal voor een goede Data Scientist. In hoofdstuk 4 worden de belangrijkste karaktertrekken van een Data Scientist verder uitgewerkt: Nieuwsgierigheid, bereidheid om te experimenteren, creativiteit gecombineerd met systematisch werken en tot slot communicatie. Hiermee raakt Voulgaris volgens mij de kern van een goede Data Scientist en benoemt hij kenmerken die veel minder makkelijk te trainen zijn dan de hardere kwaliteiten en vaardigheden die Voulgaris in de rest van hoofdstuk 4 en ook in hoofdstuk 5 beschrijft. En hiermee voegt Voulgaris duidelijk iets toe aan bijvoorbeeld Conway’s Venn Diagram, die zich toch vooral focust op de ‘harde’ kennis van programmeren, methoden en technieken en domeinkennis:

 

Hoofdstuk 3 sloeg ik zojuist even over, maar deze bevat een interessante indeling van Data Scientists in verschillende typen. Voulgaris beroept zich hierbij op de inzichten uit een studie van Harris, Murphy en Vaisman uit 2013. In deze studie zijn, op basis van een onderzoek onder ongeveer 250 internationale Data Scientists, vier smaakjes Data Scientist blootgelegd:

Voulgaris voegt er zelf nog één extra type aan toe:

Tot en met hoofdstuk 5 heeft Voulgaris een boek geschreven dat voor iedereen met interesse in het vakgebied Data Science reuze interessant is. Na hoofdstuk 5 volgt een aantal hoofdstukken waar ik nu wat korter bij stil sta. Deze hoofdstukken zijn met name van grote waarde voor hen die op het punt staan om zelf Data Scientist te worden:

Bovenstaande hoofdstukken bevatten handige tips en verwijzingen naar andere bronnen. Als echte introductie van tools en talen is het erg summier, maar het geeft een goed overzicht. Het overzicht van MOOC’s (Massive Online Open Courses – gratis/goedkope online trainingen) is uitgebreid maar is vanwege de snelle ontwikkelingen op dit terrein wel al deels achterhaald. Coursera is haar dominante positie als aanbieder van MOOCs bijvoorbeeld al wel wat kwijtgeraakt, Udemy, DataCamp, Code Academy en anderen hebben inmiddels een flink marktaandeel gewonnen. Hetzelfde geldt voor de opgesomde R packages. Voulgaris heeft een lijst met waardevolle packages voor machine learning opgenomen, maar het domein blijft zich razendsnel ontwikkelen en nieuwe –betere of gebruiksvriendelijkere- packages zijn al weer beschikbaar. Dat is niet te voorkomen bij het uitbrengen van een boek en het overzicht van packages biedt de beginnend Data Scientist nog steeds een goed vertrekpunt om zich te bekwamen in Data Science.

Voor de huidige data professional is hoofdstuk 12 erg waardevol, omdat Voulgaris daarin de transitie beschrijft naar Data Scientist vanuit verschillende rollen (programmeur/software developer, statisticus/data miner, IT’er/business intelligence specialist, starter). Waar liggen de grootste uitdagingen? Wat is de kracht die een professional vanuit zijn expertise mee brengt?

De hoofdstukken 13 tot en met 15 gaan over het vinden van een baan in het Data Science domein: Waar te zoeken? (13) Hoe je te presenteren? (14) En: Als zelfstandige Data Scientist. (15). In mijn ogen zijn dit veel open deuren, maar voor de starter is het mogelijk wel waardevol dit door te nemen. Tot slot sluit Voulgaris af met een aantal echte Data Science vacatureteksten (hoofdstuk 18) en interviews met echte Data Scientists (hoofdstuk 17). Beide voegen zeker iets toe voor de lezer. Met name de interviews zijn waardevol, deze onderstrepen de belangrijke punten van Voulgaris op het gebied van de mindset van de Data Scientist. Zoals het belang van de juiste vraag beantwoorden door eerst de juiste vragen te stellen en het grote belang van creativiteit in de rol van de Data Scientist nu en in de toekomst.

Ga hier terug naar het begin van deze boek review.

Contact

Wil je meer weten over dit onderwerp? Neem dan contact op met Jurriaan Nagelkerke via onderstaande contactgegevens.

Jurriaan Nagelkerke, Principal Consultant

+31 6 29 62 00 11

j.nagelkerke@cmotions.nl

Schrijf je in voor onze nieuwsbrief

Mis nooit meer iets op het gebied van advanced analytics, data science en de toepassing daarvan binnen organisaties!