Rob Peters - Business Intelligence Consultant

Text Box: 12/4/2008
Text Box: Wanneer wordt er in een BI project datakwaliteit getest?

De bedrijfsdata vormen de basis waarop een BI omgeving wordt gebouwd. Daarom is de kwaliteit van die bedrijfsdata belangrijk en moet ze worden gecontroleerd. Wanneer gebeurt die controle? Is daarvoor een datakwaliteit stap in een BI project nodig?

 

Een BI project bestaat uit een aantal stappen (Peters & Hobo, 2006):

Stap 1. Informatieanalyse – Eerst wordt bepaald welke informatie nodig is. De informatie wordt gestructureerd en in definities vastgelegd.

Stap 2. Bronanalyse – Hier wordt bepaald waar en in welke vorm (bedrijfsdata) de gewenste informatie zich bevindt.

Stap 3. Outputanalyse – De gewenste rapportage en analyse omgeving wordt gedefinieerd.

Stap 4. Ontwerp & modellering – De voorgaande stappen vormen de input voor deze stap. Hierin wordt naast het datamodel van het Data Warehouse, ook het extractie, transformatie en laadproces van data van de bron naar het Data Warehouse beschreven.

Stap 5. Realisatie Back End – Het Data warehouse en het extractie, transformatie en laadproces wordt gerealiseerd en getest.

Stap 6. Realisatie Front End – De rapportage en analyse omgeving wordt ingericht en getest.

Stap 7. Implementatie – Het project wordt afgesloten met in productie name, overdracht en training.

 

De projectstappen spelen op verschillende wijze een rol in de datakwaliteit. Tijdens de informatieanalyse wordt bepaald welke business rules van belang zijn voor de BI omgeving. In een volgende stap worden deze business rules gebruikt om de correctheid van de bedrijfsdata te testen. Zo levert de informatieanalyse de regels voor het testen van de bedrijfsdata.

 

In de bronanalyse wordt gericht bepaald welke bedrijfsdata nodig is. Omdat de gewenste informatie is bepaald kan nu gericht worden gezocht naar de bijbehorende bedrijfsdata. Deze bedrijfsdata worden dan onderzocht op volledigheid, geldigheid, referentie en overeenstemming met business rules. De benodigde bedrijfsdata moet volledig zijn. Dit betekent dat, bijvoorbeeld, een gewenste klantclassificatie voor alle klanten in het bronsysteem is ingevoerd. Geldigheid houdt in dat de gegevens in het bronsysteem correct zijn ingevoerd. Bijvoorbeeld een telefoonnummer kan geen ‘xxxx’ bevatten. De referentie tussen entiteiten moet correct zijn. Zo moet een klantnummer in een order verwijzen naar een bestaande klant in het bronsysteem. De business rules die in de informatieanalyse zijn bepaald worden nu gebruikt om te testen of de gegevens in het bronsysteem goed zijn ingevoerd. Bijvoorbeeld, een order met een status 20 behoort een ingevulde leverdatum te hebben. Een afwijking van de business rule kan betekenen dat de bedrijfsdata in het bronsysteem incorrect is of dat de business rule definitie uit de informatieanalyse incorrect is en bijgesteld moet worden. De controle van de datakwaliteit in de bronanalyse heeft een eenmalig karakter.

 

De datakwaliteitscontrole krijgt een continu karakter in de stappen ontwerp & modellering en realisatie back end. Hier wordt vastgelegd hoe afwijkingen van de gewenste norm worden verwerkt in de BI omgeving. Een afwijking kan worden geweigerd, of gecorrigeerd, of doorgelaten. Correctie betekent dat de gegevens in de BI omgeving afwijken van het niet gecorrigeerde bronsysteem. Geweigerde gegevens zijn pas na correctie in de bron zichtbaar in de BI omgeving. Doorgelaten gegevens veroorzaken eerst ‘foutieve’ informatie in de BI omgeving. Bij correctie in de bron vindt – indien zo ingericht – automatisch correctie in de BI omgeving plaats.

 

In stap realisatie front end krijgt de uiteindelijke gebruiker van de BI omgeving de kans om de datakwaliteit te beoordelen. In de aangeboden rapportage en analyse omgeving ziet de gebruiker het resultaat van de definities uit de voorgaande stappen. De gebruiker zal dan beslissen over de bruikbaarheid van de BI omgeving. Omdat deze beslissing essentieel is voor het succes van het project is het van belang zo snel mogelijk de (verwachte) inhoud van de rapportage en analyse omgeving te tonen.

 

Een aparte datakwaliteit projectstap is niet gewenst omdat alle projectstappen een rol spelen in de controle van de datakwaliteit. De informatieanalyse definieert de regels waaraan de data moet voldoen. De bronanalyse controleert eenmalig de inhoud van de bronsystemen. De stappen ontwerp & modellering en realisatie back end formaliseren de controle. En in de realisatie front end controleert de gebruiker de kwaliteit van de data.

 

Zie ook: “Eerst datakwaliteit en dan BI?

 

R. Peters & S. Hobo (2006). Een essentiële verbetering van Business Intelligence-projecten. Management Executive 4 (1): 12-15.

Reacties? Mail naar info@rob-peters.nl

Reacties? Mail naar info@rob-peters.nl