18.11.2012 Aufrufe

Dokument 1 - RWTH Aachen University

Dokument 1 - RWTH Aachen University

Dokument 1 - RWTH Aachen University

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5.1 Stand der Praxis und Forschung 91<br />

3. Aufgabe der statistischen Prozesskontrolle ist eine erste Plausibilitätsüberprüfung der Daten,<br />

die ins DW integriert werden sollen. Meist werden dazu pro Feld statistische Kennwerte<br />

wie Mittelwert und Varianz auf Grundlage des DW-Datenbestandes berechnet. Dadurch<br />

ergeben sich Konfidenz-Intervalle für gültige Feldinhalte. Hierdurch können Ausreißer als<br />

potentielle Datenfehler sehr früh im Transformationsprozess identifiziert werden.<br />

4. Die domänenspezifische Konsistenzprüfung wendet zuvor formulierte Überprüfungen an,<br />

um die Gültigkeit der zu integrierenden Daten sicherzustellen, z.B. Wenn-Dann-Regeln.<br />

5. In der Phase Record Linkage werden unterschiedliche Tupel, die das gleiche Objekt der<br />

realen Welt beschreiben, zueinander zugeordnet.<br />

6. Das Merging verschmilzt die vorher zueinander zugeordneten Tupel miteinander. Beim<br />

Record Linkage und Merging können auch bereits integrierte Daten aus dem Zielbereich<br />

relevant sein.<br />

7. Die Qualitätsmessung und -analyse misst bestimmte Qualitätsmerkmale der Daten. Dies<br />

geschieht wie beim methodenbasierten Datenqualitätsmanagement von Helfert (siehe oben)<br />

mit Hilfe von SQL-Anfragen, die einzelne numerische Werte zurückliefern müssen. Hinrichs<br />

hat auch eine Reihe von Metriken für Qualitätskriterien wie z.B. Korrektheit, Konsistenz<br />

und Genauigkeit entwickelt, mit der die Qualität der Daten beurteilt werden kann.<br />

Die Metriken sind zwar für verschiedene Granularitätsebenen definiert, werden aber nur<br />

auf Tupelebene ausgeführt.<br />

8. Das in der vorherigen Phase ermittelte Ergebnis entscheidet darüber, ob ein Tupel in<br />

den Zielbereich überführt, weiteren Verbesserungsmaßnahmen unterzogen oder abgelehnt<br />

wird. Im Falle der Ablehnung ist die Ursache des Mangels festzustellen, und falls die Ursache<br />

behoben werden konnte, eine erneute Integration beginnend mit Phase 1 zu versuchen.<br />

Zur Qualitätsverbesserung schlägt Hinrichs Data-Mining-Verfahren vor, die aufgrund von<br />

Regelmäßigkeiten in den Datenbeständen, Vorschläge zur Beseitigung des Mangels machen<br />

können. Ein Tupel kann ebenfalls mit Nutzungsauflagen versehen werden, d.h. das<br />

Tupel kann nicht für alle Arten von Analyseverfahren bzw. Datenabfragen genutzt werden.<br />

9. Die Tupel, die die vorhergehenden Qualitätsprüfungen erfolgreich bestanden haben, werden<br />

nun explizit freigegeben, eventuell findet noch eine Endkontrolle durch eine Person<br />

statt, die sicherstellt, dass alle erforderliche Verarbeitungs- und Prüfschritte absolviert wurden.<br />

10. Aus Gründen der Konformität zur ISO 9001-Norm muss ein bereits freigegebenes Datenprodukt,<br />

falls es sich bei der Nutzung durch den „Kunden“ als qualitativ mangelhaft<br />

erweist, zurückgenommen werden. Anschließend müssen ähnliche Methoden wie vorher<br />

bei der Qualitätsverbesserung vorgenommen werden, d.h. Ursachensuche, Korrektur oder<br />

Einschränkung der Nutzung.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!