Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
5.1 Stand der Praxis und Forschung 83<br />
Allgemeine Qualitätswerkzeuge und Metadatensysteme kontrollieren alle Aktivitäten im Zusammenhang<br />
mit Datenqualität und verwalten Metadaten wie z.B. Geschäfts- oder Transformationsregeln.<br />
Ein Werkzeug kann natürlich auch mehreren Kategorien angehören, insbesondere die ersten drei<br />
Kategorien werden oft sinnvollerweise in einem Werkzeug integriert. Ein Beispiel für ein solches<br />
Werkzeug ist dfPower Studio von DataFlux [http://www.dataflux.com]. dfPower Studio<br />
bietet Funktionen<br />
• zum Messen von Datenqualität mittels Data Auditing, d.h. Häufigkeit und Wertebereich<br />
von Daten(-feldern) wird analysiert,<br />
• zur Analyse von Werten innerhalb von Textfeldern (Parsing), insbesondere von Adressdaten,<br />
• zur Standardisierung von Daten, d.h. Vereinheitlichung der Repräsentation bestimmter<br />
Werte, z.B. Firmennamen, Adressangaben, Produktbezeichnungen,<br />
• zur Überprüfung von Adressdaten und<br />
• zum Zusammenführen (Matching) von Daten, um Duplikate in Datenbanken zu entfernen.<br />
Die Mehrzahl der Funktionen ist also speziell für Adressangaben entwickelt worden, jedoch<br />
können die Funktionen teilweise auch auf allgemeine Textdaten benutzt werden, da die Übereinstimmung<br />
von verschiedenen Angaben auch durch phonetische Kriterien bestimmt wird. Darüber<br />
hinaus soll das Produkt auch die Daten um demographische oder geographische Angaben<br />
erweitern können und Fehler schon bei der Eingabe der Daten vermeiden. Da solche Werkzeuge<br />
vor allem bei der Integration mehrerer Datenquellen eingesetzt werden können, bietet dfPower<br />
Studio auch Funktionen zur Datenintegration an. Da aber andere Hersteller auf diesem Gebiet<br />
weiter fortgeschritten (z.B. Ascential Software, vgl. Kapitel 3) sind, werden diese Funktionen<br />
vom Hersteller nicht hervorgehoben. Ein vergleichbarer Hersteller von Datenqualitätsprodukten<br />
ist Firstlogic [http://www.firstlogic.com], die aber ihr Produkt insbesondere als Erweiterung<br />
zu den Integrationswerkzeugen anderer Hersteller ansehen.<br />
Die genannten Produkte betrachten Qualitätsmängel auf Instanzenebene. Demgegenüber überprüft<br />
das Produkt DB-Examiner der Firma DBE Software [http://www.dbesoftware.com]<br />
die Qualität des Schemas einer relationalen Datenbank. Dies wird dadurch erreicht, dass aus<br />
dem relationalen Schema ein erweitertes Modell aufgebaut wird (vergleichbar mit einem Entity-<br />
Relationship-Diagramm), das die expliziten und impliziten Beziehungen zwischen einzelnen<br />
Komponenten des Schemas dokumentiert. Darüber hinaus kann DB-Examiner auch unzureichende<br />
oder mangelhafte Schemadefinitionen erkennen, die zu Inkonsistenzen und Fehlern in<br />
der Datenbank führen können. Dazu gehören z.B. fehlerhaft definierte Fremdschlüsselbeziehungen,<br />
fehlende oder überflüssige Integritätsbedingungen oder fehlende Normailisierung.<br />
Immer mehr Unternehmen wird mittlerweile bewusst, dass eine Bereinigung der Daten während<br />
der Integration alleine nicht ausreicht, um eine gute Datenqualität im DW zu erreichen [Eckerson,