De nieuwe wereld van Big Data en API’s

Data

Op 11 April 2019 was ik aanwezig bij het evenement Big Data Virtualisatie en API’s. Tijdens dit evenement vonden er twee presentaties plaats. Zo vertelde Antoine Stelma over het big data aspect en de virtualisatie daarvan.  Verder vertelde Ronald Coenen over de wereld van API’s. Het doel van dit evenement was om antwoord te krijgen op een aantal zaken:

  • Wat is data virtualisatie nu precies?
  • Wat is API en wanneer gebruik je een API?
  • Waar ontmoeten Data Virtualisatie en API elkaar?

Antoine Stelma (connectdatagroup)

Antoine Stelma opende met het begrip Analytic Data en dan met name wat de meest voorkomende aspecten hiervan zijn. Deze zal ik hier opsommen:

  • Data Analytics
  • Selfservice Visualization
  • Business Intelligence
  • Applications en esbs
  • Traditional Data
  • Big Data
  • Cloud Data
  • Lot Data

Hij maakte duidelijk dat deze aspecten veel problemen en uitdagingen kenden en dat het ook altijd lastig is om dit op een perfecte manier te doen. Zo noemde hij een aantal voorbeelden van uitdagingen. Een daarvan is het versnellen van time-to-market van brondata tot eindproduct. Verder gaf hij aan dat het lastig was om data eenduidig te combineren uit de eventueel enorme diversiteit van verschillende bronnen. Ook het eenduidig combineren van data uit verschillende tijdzones kan mogelijk problemen geven.  En tenslotte het belangrijkste van alles: een duidelijk inzicht hebben in de volledigheid, eenduidigheid en de betekenis van de data. Daarbij stel je jezelf de vraag: Wat is de kwaliteit van de data die je tot je beschikking hebt?

Na het onderwerp Analytic Data ging hij verder in op het aspect Data Virtualisatie. Daarbij stelde hij ons de vraag: Wat wil je ermee? Na wat discussie kwam uiteindelijk naar voren dat je vooral niet lang meer wilt zoeken naar data en dat deze direct beschikbaar is wanneer je hierom vraagt.  Ook willen we de data extreem goed beveiligd hebben. Binnen het concept data virtualisatie zijn er 6 uitgangspunten:

  • De abstractie van Data
  • Virtuele toegang tot Data
  • Uniformeren en transformeren van Data
  • Data federatie en integratie
  • Data beveiliging
  • Beschikbaar stellen van data

Ook zijn er verschillende lagen binnen het concept data virtualisatie. Deze foto is hieronder te zien, hierna volgt een verdere toelichting:

De onderste laag is de ‘Physical Layer’. Deze laag geeft aan dat daar alle gegevens uit databases worden gehaald. Dit kunnen allerlei databases zijn en ook verschillende. Deze kunnen gecombineerd worden dankzij het abstraheren van de metagegevens van data. De tools die hiervoor gebruikt worden maken gebruik van speciale algoritmes om deze gegevens te begrijpen. De middelste laag is de ‘Business Layer’. Binnen deze vindt nog steeds het ouderwetse analyse werk plaats. Hier wordt namelijk de data ‘schoon gemaakt’ zodat er geen foutieve gegevens instaan. Nadat dit gebeurd is komen we aan bij de bovenste laag, namelijk de ‘Application Layer’. Binnen deze laag wordt de data gedeeld met mensen die de data opvragen. Dit gebeurt door middel van een API. Een voorbeeld hiervan is: Een dokter kan nu eenvoudig de gegevens van een patiënt vinden als hij/zij hierom vraagt. Dit wordt mede mogelijk gemaakt door een API.

Tenslotte gaf hij aan dat het enorm belangrijk is om een herbruikbare business laag te creëren. Dit scheelt enorm veel tijd en geld. Dit kan worden gedaan door het uitvoeren van deze aspecten:

  • Omgaan met datakwaliteit
  • Generiek dataformaat
  • Data integratie doen op basis van het masterdata management niveau
  • Integratie van beschikbare bronnen door middel van Datawarehouse

De wereld van API’s (Ronald Coenen)

Ronald Coenen opende met de vraag: Wat is een API nu eigenlijk?.  Daarbij maakte hij meteen al duidelijk dat een API niet alleen een interface is, het is namelijk meer dan dat. Een API is heel kort samengevat een standaard manier om toegang te krijgen tot een systeem, applicatie of database. Een API kan worden gebruikt door eindgebruikers, maar ook door andere systemen. De meest gebruikte tools om API’s te ontwikkelen zijn: oData en SOAP/XML.

Ronald maakte duidelijk dat bedrijven vroeger alleen een website hadden. Deze tijd is voorbij, ze beheren tegenwoordig veel meer dingen die ook online een rol spelen. Daardoor wordt er ook veel meer gevraagd door de klant. Organisaties moeten veel meer gegevens beschikbaar maken voor de buitenwereld via het onlineplatform. Dit wordt mede mogelijk gemaakt door een API.

Ronald wilde ons meegeven dat je een API moet beschouwen als een product. Een API moet namelijk:

  • Aantrekkelijk en vindbaar zijn
  • Waardevol en goed onderhouden zijn
  • Bruikbaar zijn door heldere en volledige documentatie

Verder maakte hij duidelijk dat tegenwoordig RESTful API’s het beste zijn. Zij hebben namelijk een sterke relatie op het gebied van data. Deze API kan ieder data element ontsluiten. Ook kwam hij met het begrip RAML API. Dit is een industriestandaard. Voordelen van dit soort API’s zijn: goede documentatie, testdata en met name het hergebruiken van definities. Data hoeft maar een keer vastgelegd te worden en kan daarna altijd worden hergebruikt.

Als afsluiting gaf hij aan dat bijna niemand op deze planeet iets kon noemen waarop geen API toegepast hoeft te worden.

Auteur: Matthijs Donker