24.01.2013 Aufrufe

Dokument 1.pdf (1.378 KB) - MADOC - Universität Mannheim

Dokument 1.pdf (1.378 KB) - MADOC - Universität Mannheim

Dokument 1.pdf (1.378 KB) - MADOC - Universität Mannheim

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

- 77 -<br />

werden 271 oder sie ist im Rahmen einer Service Orientierten Architektur (SOA) bereits<br />

vorhanden.<br />

3.2.2.1 Extraktion<br />

Bei der Extraktion der Daten geht es zunächst darum, Zugriff auf die operativen Datenquellen<br />

zu erhalten. Dabei kann es sich um (beispielsweise relationale oder netzwerkartige)<br />

Datenbanken, VSAM-Dateien oder flache ASCII- oder EBCDIC-Dateien 272 auf unterschiedlichen<br />

Hardwareplattformen und verschiedenen Betriebssystemen handeln. Zudem<br />

existieren in einigen Organisationen noch Alt-Anwendungen (Legacy-Systeme), die auf<br />

einem proprietären Datenhaltungssystem basieren, aber dennoch für das Data Warehouse<br />

relevante Informationen bereitstellen.<br />

Je mehr Dateiformate von der Extraktionsfunktion unterstützt werden, desto weniger<br />

Schnittstellen müssen eigenhändig programmiert und später gepflegt werden. Während<br />

gängige DWS-Lösungen lediglich weit verbreitete Dateiformate (Zugriff auf Standard-<br />

Datenbanken, Textformate) unterstützen, bieten gerade die Spezialanbieter Zugriffsmöglichkeiten<br />

auf weniger verbreitete Dateiformate an.<br />

3.2.2.2 Transformation<br />

Im Rahmen der Transformation werden die Datenextrakte gefiltert, harmonisiert, verdichtet<br />

und angereichert.<br />

� Filterung<br />

Bei der Filterung werden Datendefekte behoben. Dazu werden die Daten in einen<br />

temporären Zwischenbereich (Staging Area 273 ) geladen, der für jede Quelldatei eine gleich<br />

aufgebaute Tabelle im relationalen Sinne enthält. Die Defekte lassen sich in syntaktische<br />

und semantische Mängel unterteilen und zu jeweils drei Fehlerklassen gruppieren.<br />

271 Vgl. Müller, J. (1999), S.101f.<br />

272 VSAM (Virtual Storage Access Method) bzw. EBCDIC (Extended Binary Coded Decimals<br />

Interchange Code) stellen Dateiformate dar, wie sie bei IBM Großrechnersystemen verwendet<br />

werden.<br />

273 Vgl. Kurz, A. (1999), S.270.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!