Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5.1 Stand der Praxis und Forschung 91<br />
3. Aufgabe der statistischen Prozesskontrolle ist eine erste Plausibilitätsüberprüfung der Daten,<br />
die ins DW integriert werden sollen. Meist werden dazu pro Feld statistische Kennwerte<br />
wie Mittelwert und Varianz auf Grundlage des DW-Datenbestandes berechnet. Dadurch<br />
ergeben sich Konfidenz-Intervalle für gültige Feldinhalte. Hierdurch können Ausreißer als<br />
potentielle Datenfehler sehr früh im Transformationsprozess identifiziert werden.<br />
4. Die domänenspezifische Konsistenzprüfung wendet zuvor formulierte Überprüfungen an,<br />
um die Gültigkeit der zu integrierenden Daten sicherzustellen, z.B. Wenn-Dann-Regeln.<br />
5. In der Phase Record Linkage werden unterschiedliche Tupel, die das gleiche Objekt der<br />
realen Welt beschreiben, zueinander zugeordnet.<br />
6. Das Merging verschmilzt die vorher zueinander zugeordneten Tupel miteinander. Beim<br />
Record Linkage und Merging können auch bereits integrierte Daten aus dem Zielbereich<br />
relevant sein.<br />
7. Die Qualitätsmessung und -analyse misst bestimmte Qualitätsmerkmale der Daten. Dies<br />
geschieht wie beim methodenbasierten Datenqualitätsmanagement von Helfert (siehe oben)<br />
mit Hilfe von SQL-Anfragen, die einzelne numerische Werte zurückliefern müssen. Hinrichs<br />
hat auch eine Reihe von Metriken für Qualitätskriterien wie z.B. Korrektheit, Konsistenz<br />
und Genauigkeit entwickelt, mit der die Qualität der Daten beurteilt werden kann.<br />
Die Metriken sind zwar für verschiedene Granularitätsebenen definiert, werden aber nur<br />
auf Tupelebene ausgeführt.<br />
8. Das in der vorherigen Phase ermittelte Ergebnis entscheidet darüber, ob ein Tupel in<br />
den Zielbereich überführt, weiteren Verbesserungsmaßnahmen unterzogen oder abgelehnt<br />
wird. Im Falle der Ablehnung ist die Ursache des Mangels festzustellen, und falls die Ursache<br />
behoben werden konnte, eine erneute Integration beginnend mit Phase 1 zu versuchen.<br />
Zur Qualitätsverbesserung schlägt Hinrichs Data-Mining-Verfahren vor, die aufgrund von<br />
Regelmäßigkeiten in den Datenbeständen, Vorschläge zur Beseitigung des Mangels machen<br />
können. Ein Tupel kann ebenfalls mit Nutzungsauflagen versehen werden, d.h. das<br />
Tupel kann nicht für alle Arten von Analyseverfahren bzw. Datenabfragen genutzt werden.<br />
9. Die Tupel, die die vorhergehenden Qualitätsprüfungen erfolgreich bestanden haben, werden<br />
nun explizit freigegeben, eventuell findet noch eine Endkontrolle durch eine Person<br />
statt, die sicherstellt, dass alle erforderliche Verarbeitungs- und Prüfschritte absolviert wurden.<br />
10. Aus Gründen der Konformität zur ISO 9001-Norm muss ein bereits freigegebenes Datenprodukt,<br />
falls es sich bei der Nutzung durch den „Kunden“ als qualitativ mangelhaft<br />
erweist, zurückgenommen werden. Anschließend müssen ähnliche Methoden wie vorher<br />
bei der Qualitätsverbesserung vorgenommen werden, d.h. Ursachensuche, Korrektur oder<br />
Einschränkung der Nutzung.