Data Science, wat is dat?

Data

Door de hele wereld heen worden er ontelbare hoeveelheden data verzameld. Offline voorbeelden zijn factuurgegevens van klanten en het koopgedrag van shoppers. Online het aantal muisklikken op een advertentie op Facebook of Google of het aantal keren dat een bezoeker dezelfde website bezocht heeft.[3] Het verzamelen van deze data is echter niet het einddoel. Data wordt verzameld om hier later informatie uit te halen, informatie die gebruikt zal worden voor vele verschillende doeleinden.

Dat is waar Data Science om de hoek komt kijken. Data Science is de combinatie van computerwetenschappen, statistiek en sectorkennis; drie vakgebieden die gebruikt worden om betere inzichten te krijgen in data en hiervan te leren. Het betreft opschonen van data, zoeken naar relaties tussen variabelen en het overzichtelijk presenteren van de vindingen.[1] Een definitie van Data Science volgens Hal Varian, een gerespecteerd econoom bij Google en emeritus professor aan Berkeley universiteit in Californië:
“Data Science is het vermogen om de juiste data te selecteren, te begrijpen, te verwerken, de waarde uit de data te halen, die te visualiseren en de inzichten te communiceren. Dit wordt de komende decennia een ontzettend belangrijke competentie voor organisaties.”[2]

Met het blote oog kunnen we geen wijs uit al die verzamelde data. Om data te kunnen omzetten tot bruikbare informatie zijn er bewerkingen nodig. Voor deze bewerkingen worden tools als Power BI en R gebruikt om de data te organiseren of opschonen en vervolgens visueel te maken.[3] Het resultaat hiervan is een overzichtelijk dashboard met een aantal grafieken en tabellen die in één oogopslag hun inhoud duidelijk maken.

Verzamelde informatie kan vervolgens gebruikt worden om bestaande producten en processen te verbeteren. Denk bijvoorbeeld aan een website gebruiksvriendelijker maken of de bezoekersdrukte in een pretpark beter onder de attracties spreiden. Een andere toepassing maakt gebruik van gevonden patronen in de data. Aan de hand van geschreven algoritmes kunnen van deze patronen toekomstvoorspellingen gedaan worden. Deze voorspellingen zijn bijvoorbeeld handig voor bedrijven om te weten in welke bedrijfsmiddelen ze het best kunnen investeren.[3] Ook kan de informatie gebruikt worden om doelgroepen te leren begrijpen. Zo kunnen de voorkeuren van website bezoekers of de marketingkanalen waarmee bezoekers op een website terecht komen in kaart gebracht worden. Hierop kan de website vervolgens aangepast worden om meer bezoekers te trekken en meer te verkopen.

Zoveel data, zoveel informatie; het kan niet anders, dan dat hier ook negatieve gevolgen aan verboden zijn. Er staat enorm veel data van ons online, veel meer dan we onszelf kunnen voorstellen. In de basis kan dit geen kwaad. Echter, zodra deze data in verkeerde handen valt, kunnen er ernstige consequenties aan verbonden zijn.[4] Persoonlijke informatie kan eenvoudig misbruikt worden in bijvoorbeeld chantage, om iemand te misleiden bepaalde acties te ondernemen of zelfs in identiteitsfraude.

Kortom, Data Science is in de huidige wereld een onmisbaar vakgebied voor bedrijven en overheidsinstellingen, maar ook non-profitorganisaties. Een wereld zonder is een wereld vol met data waar we niks mee kunnen. De Data Scientist is de ingenieur van de toekomst. Helaas kent al deze data ook haar negatieve kanten. We moeten dus oppassen met welke data we allemaal willen verzamelen en wat er maar beter on-opgeslagen kan blijven.

Bronnen
[1] Christopoulos, A. (2016, 13 oktober). Een gemiddelde dag in het leven van een Data Scientist. Geraadpleegd op 10 oktober 2018, van:
https://blog.valid.nl/gemiddelde-dag-in-data-science
[2] Passionned Group. (2018). Data Science. Geraadpleegd op 10 oktober 2018, van:
https://www.passionned.nl/bi/data-science/
[3] de Bruin, M. (2017). Wat is data analytics? Geraadpleegd op 10 oktober 2018, van:
https://digital-power.com/blogs/wat-is-data-analytics
[4] Hayes, W. (2015). The Dark Side of Big Data. Geraadpleegd op 10 oktober 2018, van:
https://www.forbes.com/sites/willhayes/2015/09/14/the-dark-side-of-big-data/#1b8399ca3d1d

Auteur: Nicky Janse, student Fontys Hogeschool ICT