Rob Peters - Business Intelligence Consultant

Text Box: 5/4/2008
Text Box: Eerst datakwaliteit en dan BI?

Een bedrijf overweegt de inrichting van een BI omgeving. Data uit verschillende bronsystemen wordt geïntegreerd in de BI omgeving. De scope van de BI omgeving is wel bepaald maar welke data daarvoor nodig zijn nog niet. Over de data zelf is alleen bekend dat volgens de gebruikers de data over het algemeen correct zijn. Men vraagt zich af of dat wel klopt. Is het zinvol om, voordat men verder gaat, eerst een datakwaliteit onderzoek te starten?

 

Voordat deze vraag kan worden beantwoord is een definitie nodig van wat een dergelijk datakwaliteit onderzoek inhoudt. Een datakwaliteit onderzoek richt zich meestal op de kolommen in een databasetabel of bestand. Daarnaast worden de database tabellen in onderlinge samenhang onderzocht. De volgende punten worden onderzocht:

1) Incomplete data – Kolommen zijn incompleet wanneer ze voor beantwoording van de informatievraag een waarde behoren te bevatten maar in de praktijk niet altijd ingevuld zijn. Bijvoorbeeld, wanneer men de invloed van het geslacht op het koopgedrag wil onderzoeken dan moet de kolom ‘geslacht’ in de klanttabel altijd ingevuld zijn.

2) Ongeldige data – De inhoud van de kolommen moet ook correct zijn. Van te voren is bepaald dat de kolom Geslacht alleen de waarden ‘man’ en ‘vrouw’ mag bevatten, en niet ‘male’ of ‘female’.

3) Onvolledige referentie – De relatie tussen de tabellen is bepaald via primaire en vreemde sleutelvelden (kolommen). Deze sleutelvelden moeten juist en volledig ingevuld zijn. Een productkolom in een ordertabel moet een geldig productnummer bevatten dat verwijst naar een productnummer in de producttabel.

4) Data wijkt af van business rules – Deze analyse gaat een stap verder. Niet alleen de data moet correct zijn, maar ook de onderlinge samenhang. Bijvoorbeeld een order doorloopt een aantal statussen en bij iedere status behoort een aantal kolommen te worden ingevuld. De kolom verzenddatum is ingevuld in een order dat de verzendstatus heeft bereikt. De kolommen factuurdatum en factuurnummer (dat weer verwijst naar een regel in de factuurtabel) zijn ingevuld in een order in de factuurstatus.

 

De gewenste kennis van de bronsystemen neemt toe van de punten 1) tot en met 4).

 

Het bedrijf, dat de inrichting van een BI omgeving overweegt, bevindt zich duidelijk in een vooronderzoek fase. Het is bezig met de bepaling van wat BI voor het bedrijf kan betekenen: Wat zijn de mogelijkheden en hoe gaan we het inzetten? Men heeft ook al bepaald op welke informatievragen in één of meerdere projecten een antwoord wordt gegeven. Het is duidelijk welke bronsystemen daarbij een rol spelen. Echter, de tabellen en kolommen die nodig zijn voor de beantwoording van de informatievragen zijn nog niet bepaald. Wanneer in dit stadium een datakwaliteit onderzoek wordt uitgevoerd, dan zal men alle tabellen in alle relevante bronsystemen gaan onderzoeken. Het onderzoek kan zich niet richten op de relevante brontabellen en kolomen, omdat die nog niet bepaald zijn. Een beoordeling van de gevolgen van datakwaliteit voor de beantwoording van de informatievragen is daarom nog niet mogelijk.

 

Een datakwaliteit onderzoek voordat relevante brontabellen en kolommen zijn bepaald heeft alleen zin als een globale indruk van de datakwaliteit van de bronsystemen gewenst is. Daarvoor moet het onderzoeksresultaat worden vertaald naar algemene termen: percentage incomplete data, percentage ongeldige data, percentage tabellen met onvolledige referentie. Een opdeling in functionele onderdelen zoals verkoop, inkoop en financiën draagt bij aan een verfijning van het resultaat.

 

Voordat datakwaliteit onderzoek in een vroeg stadium wordt ingezet moet men zich bewust zijn van de waarde van het onderzoeksresultaat: een globale indruk.

 

Zie ook: “De meubelmaker – of te wel datakwaliteit

Reacties? Mail naar info@rob-peters.nl

Reacties? Mail naar info@rob-peters.nl