computer-wetenschap-bewerkt
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Hoofdstuk 31<br />
Extraction, Transformation and Load<br />
Extraction, Transformation and Load, afgekort ETL, is een begrip uit de informatica. Het benoemt de processen<br />
die gebruikt worden om gegevens uit verschillend gestructureerde databases te verenigen in een andere database,<br />
veelal een datawarehouse.<br />
• Extract: data uit een bron ophalen<br />
• Transform: opgehaalde data omzetten volgens regels en opzoektabellen of combinaties maken van data uit<br />
verschillende bronnen<br />
• Load: de data wegschrijven op een andere plaats<br />
31.1 Volgorde<br />
Zoals de afkorting ETL aangeeft, bestaat het uit drie processen: extract, transform en load. Deze processen gaan als<br />
volgt te werk:<br />
31.1.1 Extract<br />
Het eerste deel van een ETL-proces haalt de data uit de bronsystemen. De meeste datawarehousingprojecten gebruiken<br />
data van verschillende bronsystemen en elk apart systeem kan ook een verschillend formaat/dataorganisatie<br />
gebruiken. Gebruikelijke databronformaten zijn relationele databases en flat files, maar kunnen ook niet-relationele<br />
databasesystemen gebruiken zoals IMS en andere datastructuren zoals VSAM en ISAM. Extraheren vormt de data<br />
om naar een formaat voor het proces van transformatie. Een intrinsiek deel van de extractie is het ontleden van de<br />
geëxtraheerde data, gevolgd door controle of de data aan de verwachte structuur beantwoordt. Indien dit niet het<br />
geval is, wordt de data volledig niet toegelaten. Dit wordt ook wel eens het opschonen van data genoemd.<br />
31.1.2 Transform<br />
Het omvormen van data past een serie van regels of functies toe op de geëxtraheerde data van de bron om de data af<br />
te leiden om geladen te worden naar het einddoel. Sommige databronnen zullen heel weinig of zelfs geen manipulatie<br />
nodig hebben. In andere gevallen zal er één of meer transformatie types toegepast moeten worden om aan de zakelijke<br />
en technische benodigdheden van het einddoel te beantwoorden:<br />
• enkel sommige kolommen selecteren om te laden<br />
• gecodeerde waarden vertalen (bijvoorbeeld het bronsysteem gebruikt andere waarden dan het warehouse voor<br />
bepaalde delen), dit gebeurt automatisch<br />
• vrije vormen van data coderen (bijvoorbeeld waarde “Mannelijk” naar a en “Meneer” naar b mappen)<br />
64