18.11.2012 Aufrufe

Dokument 1 - RWTH Aachen University

Dokument 1 - RWTH Aachen University

Dokument 1 - RWTH Aachen University

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5.1 Stand der Praxis und Forschung 83<br />

Allgemeine Qualitätswerkzeuge und Metadatensysteme kontrollieren alle Aktivitäten im Zusammenhang<br />

mit Datenqualität und verwalten Metadaten wie z.B. Geschäfts- oder Transformationsregeln.<br />

Ein Werkzeug kann natürlich auch mehreren Kategorien angehören, insbesondere die ersten drei<br />

Kategorien werden oft sinnvollerweise in einem Werkzeug integriert. Ein Beispiel für ein solches<br />

Werkzeug ist dfPower Studio von DataFlux [http://www.dataflux.com]. dfPower Studio<br />

bietet Funktionen<br />

• zum Messen von Datenqualität mittels Data Auditing, d.h. Häufigkeit und Wertebereich<br />

von Daten(-feldern) wird analysiert,<br />

• zur Analyse von Werten innerhalb von Textfeldern (Parsing), insbesondere von Adressdaten,<br />

• zur Standardisierung von Daten, d.h. Vereinheitlichung der Repräsentation bestimmter<br />

Werte, z.B. Firmennamen, Adressangaben, Produktbezeichnungen,<br />

• zur Überprüfung von Adressdaten und<br />

• zum Zusammenführen (Matching) von Daten, um Duplikate in Datenbanken zu entfernen.<br />

Die Mehrzahl der Funktionen ist also speziell für Adressangaben entwickelt worden, jedoch<br />

können die Funktionen teilweise auch auf allgemeine Textdaten benutzt werden, da die Übereinstimmung<br />

von verschiedenen Angaben auch durch phonetische Kriterien bestimmt wird. Darüber<br />

hinaus soll das Produkt auch die Daten um demographische oder geographische Angaben<br />

erweitern können und Fehler schon bei der Eingabe der Daten vermeiden. Da solche Werkzeuge<br />

vor allem bei der Integration mehrerer Datenquellen eingesetzt werden können, bietet dfPower<br />

Studio auch Funktionen zur Datenintegration an. Da aber andere Hersteller auf diesem Gebiet<br />

weiter fortgeschritten (z.B. Ascential Software, vgl. Kapitel 3) sind, werden diese Funktionen<br />

vom Hersteller nicht hervorgehoben. Ein vergleichbarer Hersteller von Datenqualitätsprodukten<br />

ist Firstlogic [http://www.firstlogic.com], die aber ihr Produkt insbesondere als Erweiterung<br />

zu den Integrationswerkzeugen anderer Hersteller ansehen.<br />

Die genannten Produkte betrachten Qualitätsmängel auf Instanzenebene. Demgegenüber überprüft<br />

das Produkt DB-Examiner der Firma DBE Software [http://www.dbesoftware.com]<br />

die Qualität des Schemas einer relationalen Datenbank. Dies wird dadurch erreicht, dass aus<br />

dem relationalen Schema ein erweitertes Modell aufgebaut wird (vergleichbar mit einem Entity-<br />

Relationship-Diagramm), das die expliziten und impliziten Beziehungen zwischen einzelnen<br />

Komponenten des Schemas dokumentiert. Darüber hinaus kann DB-Examiner auch unzureichende<br />

oder mangelhafte Schemadefinitionen erkennen, die zu Inkonsistenzen und Fehlern in<br />

der Datenbank führen können. Dazu gehören z.B. fehlerhaft definierte Fremdschlüsselbeziehungen,<br />

fehlende oder überflüssige Integritätsbedingungen oder fehlende Normailisierung.<br />

Immer mehr Unternehmen wird mittlerweile bewusst, dass eine Bereinigung der Daten während<br />

der Integration alleine nicht ausreicht, um eine gute Datenqualität im DW zu erreichen [Eckerson,

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!