Acto biedt met Power BI een oplossing in de software om bedrijfsdata te analyseren. Martijn Kuiper, consultant bij Acto weet erg veel over data-analyse, BI en predictive analytics. In dit artikel vertelt hij over het belang van goede data.
Hoe belangrijk is goede data?
– Martijn Kuiper
Het is een vraag die ik regelmatig krijg. Het antwoord hangt wel samen met wat je wil doen met data, want dat maakt niet alle stukjes data even belangrijk. Tegenwoordig is het tonen van data uit verschillende systemen gemeengoed. Tools als Power BI worden hier veelvuldig voor gebruikt. De verschuiving van de analyse van informatie naar systemen buiten het operationele systeem (ERP) heeft er echter wel toe geleid dat er een afstand is ontstaan tussen de data en met welke reden we de data ooit wilden opslaan, maar die we nog wel altijd invoeren in dit operationele systeem. Het is dus belangrijk dat de data met een juiste nauwkeurigheid wordt ingevuld. Verplichte velden worden ook wel eens ingevuld met onjuiste data. Ik heb vaak op websites a@a.com ingevuld als e-mailadres als ik geen zin had in ongewenste e-mails. In veel gevallen maakt dat niet uit, want er wordt niet altijd iets gedaan met mijn e-mailadres. Als de eigenaar van de website zeker had willen zijn van een juist e-mailadres hadden ze mij ook een link ernaar kunnen sturen, zodat ik het moest bevestigen. Een simpele manier om kloppende data te krijgen.
We slaan tegenwoordig niet alleen maar data op, we gebruiken ook technieken als Machine Learning en Predictive Analytics om op basis van het verleden de toekomst te voorspellen met zelflerende algoritmen. Maar hoe zelflerend zijn deze algoritmen als er foute data ingaan? Het is dan net alsof je een kind van 8 tafels laat leren, maar met hier en daar een fout in de tafels. Het kind zal dan de fout overnemen, of het niet snappen. Bij Machine Learning modellen werkt het eigenlijk net zo, je krijgt verkeerde verbanden met een verkeerde weging. In Los Angeles kwam de LA Times erachter dat op basis van documenten van het CBS van Amerika 4% van alle criminaliteit plaatsvond pal voor hun hoofdkantoor. Het bleek dat vlak voor hun hoofdkantoor het hoofdkantoor van de Los Angeles Police Department staat en na verder onderzoek bleek dat als de agenten de ingevulde locatie op het proces verbaal niet konden lezen, zij een standaard lengte- en breedtegraad invulden, namelijk de stoep voor de ingang van het eigen hoofdkantoor. Er waren twee problemen, de data stond verkeerd in het systeem en het was niet meer uit te zoeken wat de juiste waarde was. Ze hebben gekozen voor een oplossing die vaker voorkomt, de geolocatie veranderden ze naar lengtegraad 0 en breedtegraad 0, een punt waar niets is behalve water, voor de kust van Afrika. Aangezien het niet de eerste keer is dat er ergens op de wereld gekozen wordt voor deze oplossing heeft dit punt zelfs een naam gekregen, Null Island, hoewel er dus geen eiland te vinden is.
Dit soort vervuiling tegengaan binnen je eigen organisatie kan op vele manieren, maar het belangrijkste is de mensen die de data invullen meenemen in het belang van goede data. Daarvoor is het belangrijk dat je in een vroeg stadium bedenkt wat je wilt gaan doen met een bepaalde dataset en dit kunt vertellen aan de mensen die zorgen voor de totstandkoming. Als men weet hoe belangrijk een veld is, is men gemotiveerd de juiste gegevens uit te zoeken en in te vullen. In LA had de dienstdoende agent bijvoorbeeld contact kunnen leggen met de agent die het PV opstelde. Een andere oplossing is het proces aanpassen zodat de kans op foutief vullen kleiner wordt. Het papieren proces verbaal in Los Angeles had bijvoorbeeld verplicht in blokletters ingevuld kunnen worden. Die zijn altijd leesbaarder dan aan elkaar geschreven tekst. Tegenwoordig had men natuurlijk een mooi appje kunnen maken waar je een speld kunt prikken in een kaart om aan te geven wat de juiste locatie was. Als er niet wordt nagedacht over wat er fout kan gaan bij de totstandkoming van data en niet iedereen op de hoogte is van de waarde van goede data, is de kans op vervuiling enorm. Je komt er vaak pas te laat achter hoe erg dat is. Deel bijvoorbeeld regelmatig de resultaten binnen je organisatie van wat er bereikt is met de inzichten die gecreëerd zijn op een manier die iedereen aanspreekt.
Zelf aan de slag met goede data?
Wilt u ook aan de slag met goede data? De grootste uitdaging ligt niet meer in het opslaan van de data, maar in het creëren van overzicht en heldere en betrouwbare inzichten op basis van al deze verzamelde data. Power BI is een online tool van Microsoft waarmee u snel dashboards kunt maken en rapportages kunt maken en delen. Acto organiseert trainingen om met Power BI te leren omgaan. De praktische insteek van deze training bestaat uit theorie en praktische oefeningen, waardoor je een optimaal resultaat haalt uit Power BI. Na het volgen van deze 3-daagse Power BI training maakt u in een handomdraai heldere dashboards, gebaseerd op relevante data.