Data science & data analytics

”Hoe helpt data science dat mijn communicatie naar klanten toe relevant is?”

”Kan ik met behulp van data analytics mijn klant beter leren kennen?”

”Zijn mijn voorspelmodellen nog wel up-to-date en werken ze eigenlijk nog wel goed?”

”Kan ik beter voorspellen hoeveel klanten er contact op zullen nemen?”

”Kan data science mij helpen met betere aanbevelingen doen?”

Dit is het verschil tussen data science en data analytics

data science data analytics

Data analytics en data science zijn nauw verwante termen. Beide hebben als doel om uit data inzichten te halen waarmee waarde kan worden toevoegd, met name op de complexe business vraagstukken. Denk bijvoorbeeld aan het verbeteren van een (logistiek) proces of inzichten gebruiken als stuurinformatie voor jouw onderneming.

Dit doen we onder andere met behulp van statistische modellen zoals logistische regressie of decision trees (beslisbomen), maar ook met machine learning en deep learning zoals natural language processing (NLP).

 

Wat doet een data scientist?

Het werk van een data scientist is erg divers, dat maakt het ook leuk! Als data scientist houd je je bezig met databronnen op een slimme manier combineren, data prepareren, bouwen van (voorspel)modellen en soms ook met het in productie brengen en monitoren van deze modellen.

data scientist

De data scientist helpt jou en jouw team om waarde te leveren in termen van kosten, omzet, efficiency, en meer.

De data waar een data scientist mee werkt, kan gestructureerde data zijn (tabellen in SQL-databases), maar ook ongestructureerd (tekst, spraak, plaatjes, video, logbestanden). Er wordt vaak al snel gesproken van Big data en AI (Artificial Intelligence).

Het type data heeft veel invloed op het soort werk dat gedaan wordt. Bijvoorbeeld het bouwen van verschillende voorspelmodellen om het klantgedrag beter te voorspellen en beïnvloeden, maar ook artikelen en grote bedrijfsdocumenten indelen in onderwerpen.

Daarbij staat altijd centraal om waarde te halen uit de beschikbare data voor de organisatie en haar klanten.

 

Is er een verschil tussen data science en A.I. (Artificial Intelligence)?

artificial intelligence AI

Data science en Artificial Intelligence (A.I.) worden vaak door elkaar gebruikt. Dat is logisch omdat data science ook wel als een subdomein van A.I. gezien wordt.

De term A.I. is ontstaan in 1956, en betekent menselijke intelligentie toevoegen aan een computer of machine. Hierdoor kan deze denken en handelen als een mens. A.I. richt zich op het implementeren van voorspellende modellen die autonoom (kunnen) handelen, denk aan zelfrijdende auto’s.

Data science is een subdomein van A.I. en richt zich op het (slim) verzamelen, prepareren, analyseren en verwerken van data om er, onder andere, voorspelmodellen mee te ontwikkelen. Voor de zelfrijdende auto zou dit bijvoorbeeld het tankgedrag van de gebruiker kunnen zijn.

 

Is er een verschil tussen data science en data analytics?

Een vraag die we regelmatig horen: Is en doet een data scientist hetzelfde als een data analist? Bij veel organisaties merken we dat dat inmiddels wel zo is.

Jaren terug was een data scientist meestal een PhD geschoolde expert op het gebied van methoden en technieken, met een pioniersrol in de organisatie, op redelijke afstand van de business. Nu kom je data scientists op verschillende plekken in de organisatie tegen met veelal analist als functietitel.

Het oorspronkelijke verschil is verdwenen. Dat is niet per se beter, maar is wel van belang om rekening te houden bij het binden en vinden van de juiste professionals voor een data science team. Een data scientist is meer een ‘bouwer’ en een data analist is meer een adviseur.

 

Is er een verschil tussen data science & analytics en business intelligence (BI)?

Business Intelligence (BI) lijkt soms op data analytics. Echter is dit niet zo. Een BI specialist is vooral bezig met het vertalen van ruwe data naar gestructureerde en geautomatiseerde inzichten in dashboards en rapportages.

Data analisten en data scientists focussen meer op het slim combineren van ruwe data om nieuwe patronen en inzichten te ontdekken. Een voorbeeld hiervan is voorspellen of een restaurant een Michelin ster zal krijgen.

 

Gebruikt een data scientist dan voornamelijk big data?

business intelligence

Big data is heel lang een buzzword geweest. Het is een enorme hoeveelheid aan data waar veel informatie uitgehaald wordt. In de definitie van big data draait het om de “3V’s”: velocity (snelheid), veracity (diversiteit) en volume.

Het is data die een grotere verscheidenheid bevatten, die in grotere hoeveelheden en met grotere snelheid binnenkomen. Een paar voorbeelden van big data zijn banktransacties, internetgebruik en sensordata.

Big data kan bestaan uit zowel gestructureerde als ongestructureerde data. Gestructureerde data past in een tabel, en een voorbeeld van ongestructureerde data is video, maar ook tekst.

Binnen de data science kunnen we zeker gebruik maken van big data, maar dit is niet noodzakelijkerwijs nodig om onze modellen beter te laten voorspellen. Het hangt volledig  van de situatie en context af of er binnen data science gebruik wordt gemaakt van big data.

 

Is een data scientist eigenlijk ook een programmeur?

Ondanks dat de meeste data scientists heel veel gebruik maken van “programmeertalen” zoals Python of R en dus zeker wel programmeren, zijn zij geen programmeurs.

Dit heeft te maken met de manier waarop ze deze programmeertalen gebruiken en het resultaat wat ze beogen. Het werk en de werkwijze van een programmeur is volledig anders dan dat van een data scientist, zelfs als ze in dezelfde programmeertaal werken.

 

Welke tools gebruikt een data scientist?

De wereld van Data Science is al decennia oud en de slimme modellen die we inzetten zijn dat ook al. Dankzij de grote versnelling in hardware kunnen we veel modellen steeds beter en meer in de praktijk inzetten.

Ook zijn er steeds meer open source oplossingen beschikbaar, gebruiksklaar of aanpasbaar voor iedereen om in te zetten op eigen vraagstukken. Vandaar ook dat Deep Learning de laatste jaren echt een grote vlucht heeft genomen in het “dagelijkse” gebruik (buiten de wetenschappelijke onderzoeken).

Naast de vele goede open source oplossingen, zoals Python en R, zijn er nog legio andere (semi-) commerciële tools om uit te kiezen voor de data scientist.

 

Python of R?

Ditzelfde geldt eigenlijk ook voor de tools die een data scientist kan gebruiken. We kunnen hier met gemak een flinke lijst opsommen en dan zouden we nog niet compleet zijn.

python

De tools die de laatste jaren in ieder geval steevast populair zijn in data science zijn zowel R als Python. Beide talen zijn sterk op hun eigen manier en tegenwoordig hangt het meer af van de voorkeur van de gebruiker welke van de twee er “beter” is.

De grote kracht van de data science community ligt in het open source karakter, daar draagt Cmotions dan ook graag aan bij. Onder andere door zelf code (packages) te ontwikkelen en beschikbaar te stellen.

Versiebeheer (met git), een data scientist kan niet zonder

Om goed samen te werken, code te kunnen delen en betrouwbaar te ontwikkelen is goed versiebeheer onmisbaar. De bekendste tool op dit vlak is overduidelijk git.

Er zijn ontelbaar veel verschillende platforms en tools gebaseerd op git, maar in de basis zijn deze dus allemaal gelijk. Sommige voorbeelden van deze platforms zijn:

  • Github
  • Gitlab
  • Bitbucket
  • Microsoft Azure Repos (Azure DevOps)
  • AWS Beanstalk

Versiebeheer kan best overweldigend zijn om mee te starten, daarom hebben wij niet alleen een cursus ontwikkeld voor werken met git, maar ook een artikel hierover geschreven.

 

De toekomst van data science

data science

Het data science domein is volwassen aan het worden. Dit gaat onder andere gepaard met professionalisering van standaarden en het beter borgen van data science oplossingen. Er komt meer wet- en regelgeving op gebruik van data en gebruik van algoritmen.

Er worden bijvoorbeeld belangrijke stappen gezet in een verantwoord gebruik van algoritmen. Er wordt gewerkt aan een algoritmeregister, waarin wordt getoetst of een algoritme ethisch verantwoord is en voldoet aan de eisen van data kwaliteit. Zo kunnen we allemaal verantwoord om blijven gaan met data. Bron: Rijksoverheid

 

 

Cmotions en data science & analytics

Cmotions kan jouw organisatie helpen om inzichten uit beschikbare data te genereren, waarmee waarde toegevoegd kan worden aan de organisatie. Hierbij kunnen die gegenereerde inzichten onder andere gebruikt worden als stuurinformatie voor jouw organisatie.

Onze data analisten en data scientists kunnen jouw organisatie een stapje verder helpen door het slim combineren van ruwe data om nieuwe patronen en inzichten te ontdekken. Benieuwd wat Cmotions voor jouw organisatie kan betekenen? Neem dan contact met ons op door middel van onderstaande middelen.

 

Neem contact met mij op

    Direct contact met onze experts

    Wil je meer weten over dit onderwerp? Neem dan contact op met Jurriaan Nagelkerke of Jeanine Schoonemann via onderstaande contactgegevens.

    Jurriaan Nagelkerke, Principal Consultant

    +31 6 29 62 00 11

    j.nagelkerke@cmotions.nl

    Jeanine Schoonemann, Principal Consultant

    +31 6 55 89 75 12

    j.schoonemann@cmotions.nl

    Schrijf je in voor onze nieuwsbrief

    Mis nooit meer iets op het gebied van advanced analytics, data science en de toepassing daarvan binnen organisaties!