Dokument 1.pdf (1.378 KB) - MADOC - Universität Mannheim
Dokument 1.pdf (1.378 KB) - MADOC - Universität Mannheim
Dokument 1.pdf (1.378 KB) - MADOC - Universität Mannheim
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
- 77 -<br />
werden 271 oder sie ist im Rahmen einer Service Orientierten Architektur (SOA) bereits<br />
vorhanden.<br />
3.2.2.1 Extraktion<br />
Bei der Extraktion der Daten geht es zunächst darum, Zugriff auf die operativen Datenquellen<br />
zu erhalten. Dabei kann es sich um (beispielsweise relationale oder netzwerkartige)<br />
Datenbanken, VSAM-Dateien oder flache ASCII- oder EBCDIC-Dateien 272 auf unterschiedlichen<br />
Hardwareplattformen und verschiedenen Betriebssystemen handeln. Zudem<br />
existieren in einigen Organisationen noch Alt-Anwendungen (Legacy-Systeme), die auf<br />
einem proprietären Datenhaltungssystem basieren, aber dennoch für das Data Warehouse<br />
relevante Informationen bereitstellen.<br />
Je mehr Dateiformate von der Extraktionsfunktion unterstützt werden, desto weniger<br />
Schnittstellen müssen eigenhändig programmiert und später gepflegt werden. Während<br />
gängige DWS-Lösungen lediglich weit verbreitete Dateiformate (Zugriff auf Standard-<br />
Datenbanken, Textformate) unterstützen, bieten gerade die Spezialanbieter Zugriffsmöglichkeiten<br />
auf weniger verbreitete Dateiformate an.<br />
3.2.2.2 Transformation<br />
Im Rahmen der Transformation werden die Datenextrakte gefiltert, harmonisiert, verdichtet<br />
und angereichert.<br />
� Filterung<br />
Bei der Filterung werden Datendefekte behoben. Dazu werden die Daten in einen<br />
temporären Zwischenbereich (Staging Area 273 ) geladen, der für jede Quelldatei eine gleich<br />
aufgebaute Tabelle im relationalen Sinne enthält. Die Defekte lassen sich in syntaktische<br />
und semantische Mängel unterteilen und zu jeweils drei Fehlerklassen gruppieren.<br />
271 Vgl. Müller, J. (1999), S.101f.<br />
272 VSAM (Virtual Storage Access Method) bzw. EBCDIC (Extended Binary Coded Decimals<br />
Interchange Code) stellen Dateiformate dar, wie sie bei IBM Großrechnersystemen verwendet<br />
werden.<br />
273 Vgl. Kurz, A. (1999), S.270.