Data Scientist in 5 stappen

01-06-2017

Door: Johan Blok & Mitchell Dröge, Hanzehogeschool Groningen

In 2012 werd in Harvard Business Review het beroep ‘data scientist’ al bestempeld als ‘The Sexiest Job of the 21st Century’. Spraakmakende bedrijven als Google, Spotify en Netflix zijn allemaal rijk aan data scientists en in Nederland is de vraag naar professionals die waarde uit grote hoeveelheden data kunnen halen inmiddels ook stijgende. Zo hebben bijvoorbeeld de politie (t.b.v. predictive policing) en de NS (t.b.v. predictief onderhoud) data scientists nodig. Begin 2017 schreef Computable dat het aantal vacatures voor Big Data-professionals drie en een half keer harder groeit dan het volledige aanbod aan ICT-vacatures. Carrière-technisch dus zeer aantrekkelijke vooruitzichten. Maar wat houdt het vak precies in? En interessanter misschien nog, welke stappen moet je ondernemen om data scientist te worden? Dr. Johan Blok, Software Engineering expert bij de Hanzehogeschool Groningen, legt uit. 

Wat is Data Science?

Data Science is een interdisciplinair vakgebied dat gaat over de wetenschappelijke methoden, processen en systemen die ingezet kunnen worden om kennis en inzichten uit verschillende vormen van data te halen. Iemand die dit vakgebied eigen is wordt ook wel een data scientist genoemd. Na het lezen van deze blog heb je natuurlijk niet de kennis om als data scientist aan de slag te gaan. Wat je wel weet is welke kennis en vaardigheden je hiervoor nodig hebt. 

Stap 1: Databases

Data wordt aan de lopende band gegenereerd. Al die informatie wordt in databases opgeslagen. Als je waardevolle voorspellingen wilt gaan doen, moet je eerst bepalen welke data je daarvoor gaat gebruiken. Hiervoor is het cruciaal om de juiste gegevens op een efficiënte manier uit databases te halen. In sommige gevallen doet de data scientist dit zelf, maar het kan ook zijn dat dit door een collega wordt gedaan, bijvoorbeeld een database administrator (DBA). Hoe dan ook is het van belang de hiervoor benodigde technieken te kennen, want ook als je voor het inrichten van de database zelf geen code schrijft moet je wel weten hoe je het er geordend uithaalt middels een query taal. Voor relationele databases is SQL van belang, terwijl voor NoSQL databases een grote variëteit aan query talen bestaat. Het onder de knie krijgen van deze talen is een onmisbare stap op jouw pad richting een carrière als data scientist.   

Stap 2: Statistiek

Data Science had net zo goed statistiek kunnen heten. Een data scientist helpt een organisatie namelijk met het achterhalen van relevante verbanden en het doen van accurate voorspellingen. Dit wordt ook wel predictive analysis genoemd. Hiervoor worden statistische methodes gebruikt. Hoewel deze vaak verpakt zijn in makkelijk bruikbare tools, is het wel van belang om de achterliggende statistiek te begrijpen. Een sterke achtergrond in het gebruik van deze methoden is een must voor een ieder die zich wil wagen aan Data Science. Het is dan ook aan te raden je middelbare school of hogere school kennis van statistiek zo snel mogelijk op te rakelen en weer helemaal thuis te worden in termen als gemiddelde, variatie, standaarddeviatie en lineaire regressie

Stap 3: Programmeren

Naast statistische kennis zal je ook moeten kunnen programmeren. De grote hoeveelheden gecombineerde datasets (ook wel Big Data genoemd) die komen kijken bij het vakgebied is een element dat Data Science differentieert van klassieke statistiek. De interessante verbanden die in deze Big Data schuilgaan kunnen erg waardevol zijn en mogelijk bronnen van innovatie. Om de hierboven beschreven statistische methoden te kunnen toepassen op zoveel data zal je de data ook moeten weten te herschikken, filteren en transformeren om vervolgens  een model te kunnen maken waarmee voorspellingen kunnen worden gedaan. Zowel voor het manipuleren van de data als het maken van een model is het nodig om te kunnen programmeren. Hiervoor kunnen verschillende talen gebruikt worden; twee zeer gangbare zijn Python en R. Goed nieuws: het leren van programmeertalen is tegenwoordig steeds toegankelijker. Gratis introductiecursussen zijn online op allerlei plekken te volgen. Uiteraard is veel oefening nodig om het niveau te bereiken dat nodig is om het naar behoren toe te passen op een dataset.

Stap 4: Machine Learning

Machine learning is de laatste jaren erg succesvol. Veel voorspellingsmodellen maken hier dan ook gebruik van. De kracht van deze algoritmen is dat ze zelf-lerend (zodoende de term machine learning) zijn. Met behulp van beschikbare data kan middels het machine learning algoritme een voorspellingsmodel getraind worden. De accuratesse van het model is in grote mate afhankelijk van de kwaliteit van de dataset, maar wordt ook sterk beïnvloedt door de aard en instellingen van het gebruikte machine learning algoritme. Dankzij vele jaren onderzoek is er een groot aantal van dit soort algoritmen ontwikkeld die gebruikt kunnen worden door aspirerende data scientists. Het is in verreweg de meeste gevallen niet nodig om zelf één te ontwikkelen. Echter, je moet wel in staat zijn om de beschikbare algoritmes op een manier te gebruiken die past bij het toepassingsdomein. Machine learning is een krachtige tool en één die bepalend zal zijn in jouw succes als data scientist.      

Stap 5: Data Visualisatie

Het visualiseren van data mag ook niet missen in het repertoire van de data scientist. Misschien niet zo gecompliceerd als programmeren of machine learning, maar zeker net zo belangrijk. Bepaalde verbanden worden pas duidelijk als ze gevisualiseerd zijn. Visualisatie van uitkomsten kan bovendien de relevantie en impact van je data science project duidelijk maken aan stakeholders, maar ook inzicht geven in de aard van de data zodat het makkelijker is om de meest passende machine learning algoritmes en data transformaties te kiezen. Een belangrijke vaardigheid die van pas komt bij meerdere stappen van het data science project proces.  

Data Science competenties

Om kennis uit de bovenstaande vijf stappen vervolgens om te zetten in een succesvol Data Science project zijn bepaalde competenties van belang. De experimentele aard van Data Science maakt het namelijk tot een zeer uitdagend vakgebied. Omdat het einddoel lang niet altijd van tevoren geformuleerd is, staat en valt het project bij de juiste hoeveelheid analytisch vermogen, creativiteit en doorzettingsvermogen. Je zult namelijk moeten analyseren welke tools je wanneer inzet, combinaties van datasets gebruiken die niet altijd voor de hand liggen en je niet uit het veld laten slaan door tegenvallende prestaties van een model. 


Dr. Johan Blok

Mitchell Dröge MSc


Docent-onderzoeker Software Engineering bij Hanzehogeschool Groningen
Docent-onderzoeker Software Engineering bij Hanzehogeschool Groningen
Marketing & Communicatie bij IT Academy Noord-Nederland
Marketing & Communicatie bij IT Academy Noord-Nederland