05.11.2016 Views

computer-wetenschap-bewerkt

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Hoofdstuk 31<br />

Extraction, Transformation and Load<br />

Extraction, Transformation and Load, afgekort ETL, is een begrip uit de informatica. Het benoemt de processen<br />

die gebruikt worden om gegevens uit verschillend gestructureerde databases te verenigen in een andere database,<br />

veelal een datawarehouse.<br />

• Extract: data uit een bron ophalen<br />

• Transform: opgehaalde data omzetten volgens regels en opzoektabellen of combinaties maken van data uit<br />

verschillende bronnen<br />

• Load: de data wegschrijven op een andere plaats<br />

31.1 Volgorde<br />

Zoals de afkorting ETL aangeeft, bestaat het uit drie processen: extract, transform en load. Deze processen gaan als<br />

volgt te werk:<br />

31.1.1 Extract<br />

Het eerste deel van een ETL-proces haalt de data uit de bronsystemen. De meeste datawarehousingprojecten gebruiken<br />

data van verschillende bronsystemen en elk apart systeem kan ook een verschillend formaat/dataorganisatie<br />

gebruiken. Gebruikelijke databronformaten zijn relationele databases en flat files, maar kunnen ook niet-relationele<br />

databasesystemen gebruiken zoals IMS en andere datastructuren zoals VSAM en ISAM. Extraheren vormt de data<br />

om naar een formaat voor het proces van transformatie. Een intrinsiek deel van de extractie is het ontleden van de<br />

geëxtraheerde data, gevolgd door controle of de data aan de verwachte structuur beantwoordt. Indien dit niet het<br />

geval is, wordt de data volledig niet toegelaten. Dit wordt ook wel eens het opschonen van data genoemd.<br />

31.1.2 Transform<br />

Het omvormen van data past een serie van regels of functies toe op de geëxtraheerde data van de bron om de data af<br />

te leiden om geladen te worden naar het einddoel. Sommige databronnen zullen heel weinig of zelfs geen manipulatie<br />

nodig hebben. In andere gevallen zal er één of meer transformatie types toegepast moeten worden om aan de zakelijke<br />

en technische benodigdheden van het einddoel te beantwoorden:<br />

• enkel sommige kolommen selecteren om te laden<br />

• gecodeerde waarden vertalen (bijvoorbeeld het bronsysteem gebruikt andere waarden dan het warehouse voor<br />

bepaalde delen), dit gebeurt automatisch<br />

• vrije vormen van data coderen (bijvoorbeeld waarde “Mannelijk” naar a en “Meneer” naar b mappen)<br />

64

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!