04.11.2013 Aufrufe

Strategien zur Hebung der Datenqualitaet in Datenbanken

Strategien zur Hebung der Datenqualitaet in Datenbanken

Strategien zur Hebung der Datenqualitaet in Datenbanken

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

AKAD Hochschule für Berufstätige – Zürich<br />

Diplomarbeit im Diplomstudium Betriebsökonomie FH<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong><br />

Datenqualität <strong>in</strong> <strong>Datenbanken</strong><br />

Ursachen für Datenqualitätsmängel und <strong>der</strong>en Behebung<br />

mittels geeigneter <strong>Strategien</strong><br />

Autor<br />

Jürg Wolf<br />

Sonnhalde 314<br />

5705 Hallwil<br />

juerg.wolf@gmx.ch<br />

Matrikel-Nr.: 3152782<br />

Betreuen<strong>der</strong> Dozent<br />

Hr. Ugo Merkli<br />

Datum 29. Januar 2007<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 1 / 83


Management Summary<br />

Das uralte Bonmot <strong>der</strong> IT „shit <strong>in</strong> – shit out“ 1 sollte eigentlich allgeme<strong>in</strong> bekannt se<strong>in</strong>. Sche<strong>in</strong>bar muss<br />

sie aber noch ihren Weg aus <strong>der</strong> IT <strong>in</strong> die an<strong>der</strong>en Bereiche e<strong>in</strong>es Unternehmens f<strong>in</strong>den, ist doch<br />

immer noch verbreitet die Auffassung zu f<strong>in</strong>den, dass Informationen, welche auf zehn<br />

Nachkommastellen ausgerechnet s<strong>in</strong>d, vorbehaltlos als richtig anzunehmen s<strong>in</strong>d.<br />

Das Problem ist aber, dass die Auswirkungen von mangelhaften Daten bereits schon dort s<strong>in</strong>d.<br />

Spätestens seit (fast) alle Bereiche e<strong>in</strong>es Unternehmens kaum mehr ohne IT-Unterstützung<br />

auskommen und <strong>Datenbanken</strong> unaufhaltsam <strong>in</strong> die verschiedensten Bereiche e<strong>in</strong>es Unternehmens<br />

vordr<strong>in</strong>gen ist die Beurteilung <strong>der</strong> Qualität dieser Daten wichtiger denn je.<br />

Wird dann die Wichtigkeit des Themas „Datenqualität“ erkannt, sollte <strong>in</strong>nerhalb kurzer Zeit nach <strong>der</strong><br />

Devise „shit <strong>in</strong> – gold out“ 2 die Qualität <strong>der</strong> enthaltenen Daten dauerhaft verbessert werden. Solche<br />

„Bere<strong>in</strong>igungen“ br<strong>in</strong>gen aber immer nur e<strong>in</strong>en kurzfristigen Effekt, <strong>der</strong> bereits nach e<strong>in</strong>igen Monaten<br />

nicht mehr spürbar ist. E<strong>in</strong>e an<strong>der</strong>e Reaktion ist die Erkenntnis, dass die Erfassung stümperhaft<br />

gewesen sei und man dort ansetzen müsse, um am Ende e<strong>in</strong> Resultat <strong>in</strong> e<strong>in</strong>er besseren Qualität zu<br />

erhalten.<br />

Soll die Datenqualität dauerhaft auf e<strong>in</strong>em hohen Niveau gehalten werden, kommt man we<strong>der</strong> mit<br />

reaktiven Bere<strong>in</strong>igungen noch mit dem Benennen von Schuldigen weiter. Hier muss man das Thema<br />

„Datenqualität“ mit geeigneten <strong>Strategien</strong> proaktiv angehen.<br />

Aufbau dieser Diplomarbeit<br />

Hierbei hilft diese Diplomarbeit, <strong>in</strong>dem sie zuerst<br />

beschreibt, was Datenqualität eigentlich ist, wie sie<br />

gemessen und visualisiert werden kann und zeigt, wie<br />

e<strong>in</strong> e<strong>in</strong>faches Datenqualitätsmodell aussieht. E<strong>in</strong><br />

entscheiden<strong>der</strong> Schritt hierbei ist, zu „messen, was<br />

messbar ist - und messbar machen, was noch nicht<br />

messbar ist“ 3 .<br />

Im Weiteren werden mögliche Ursachen für<br />

Datenqualitätsmängel gesucht und identifiziert. Darauf<br />

aufbauend werden vier generische Ansätze formuliert,<br />

um diesen Ursachen begegnen zu können. Mit den<br />

neun detailliert beschriebenen <strong>Strategien</strong> werden<br />

schlussendlich dem Betroffenen Werkzeuge <strong>in</strong> die Hand<br />

gegeben, mit denen die Datenqualität e<strong>in</strong>er Datenbank<br />

dauerhaft gesteigert werden kann.<br />

Abbildung 1: Aufbau dieser Diplomarbeit<br />

1 Was soviel bedeutet wie „gibst Du e<strong>in</strong>en Mist <strong>in</strong>s System, so erhältst Du als Resultat auch Mist“.<br />

2 Was hier soviel bedeutet wie „ich gebe Dir e<strong>in</strong>en Misthaufen <strong>in</strong>s System – schau’ gefälligst, dass Du was<br />

Brauchbares daraus machen kannst“.<br />

3 „Alles messen, was messbar ist - und messbar machen, was noch nicht messbar ist.“<br />

Zitat nach Galileo Galilei <strong>in</strong> Wikiquote unter [ 84 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 2 / 83


Danksagung<br />

Me<strong>in</strong> Dank geht an Herrn Ugo Merkli für die Vergabe dieser Diplomarbeit. Er hat mir wichtigen<br />

methodischen Input gegeben und wertvolle Ergänzungen angeregt, ohne die diese Arbeit nicht<br />

vollständig geworden wäre.<br />

Me<strong>in</strong> Dank geht an me<strong>in</strong>en Vorgesetzten Dr. Michael Sieck, <strong>der</strong> mir diese Diplomarbeit ermöglicht hat<br />

und mir das äusserst <strong>in</strong>teressante Anschauungsbeispiel „i-SAC“ <strong>zur</strong> Verfügung gestellt hat. Dank<br />

dieser grossen und vielfältigen Datenbank konnte ich viele Aspekte <strong>der</strong> Datenqualität direkt kennen<br />

lernen. Durch me<strong>in</strong>e Aufgaben <strong>in</strong> Projekten und im Support konnte ich auch die direkten<br />

Auswirkungen von schlechter Datenqualität sozusagen „am lebenden Objekt“ beobachten.<br />

E<strong>in</strong> weiterer Dank geht an me<strong>in</strong>en direkten Vorgesetzten Reto Cattaneo, <strong>der</strong> es mir durch die<br />

E<strong>in</strong>satzplanung ermöglichte, viele <strong>in</strong>teressante D<strong>in</strong>ge im Umfeld von i-SAC zu realisieren. Ohne se<strong>in</strong><br />

Engagement und se<strong>in</strong>en Glauben <strong>in</strong> me<strong>in</strong>e Fähigkeiten wäre beispielsweise das Datenqualitäts-<br />

Cockpit, von dem noch <strong>in</strong> Kapitel 5.7.2 die Rede se<strong>in</strong> wird, nicht realisiert worden. Auch me<strong>in</strong>e beiden<br />

Arbeitskollegen Peter Thut und Volker Würthele haben mir massgeblich bei dieser Arbeit geholfen,<br />

<strong>in</strong>dem sie mich mit Rat, Tat und vielen guten Inputs begleitet haben.<br />

Nicht vergessen werden dürfen natürlich alle Mitarbeiter <strong>in</strong> <strong>der</strong> UBS, welche me<strong>in</strong>en Fragebogen<br />

beantwortet haben und somit mitgeholfen haben, die Datenqualität von i-SAC aus e<strong>in</strong>em an<strong>der</strong>en<br />

Licht zu sehen. Sie haben dadurch sowohl me<strong>in</strong>er Arbeit als auch dem Inventar wichtigen Input<br />

verliehen.<br />

Speziellen Dank geht an me<strong>in</strong>en Bru<strong>der</strong> Peter Wolf, <strong>der</strong> durch viele Stunden Fehlersuche die<br />

Datenqualität dieses Dokumentes stark erhöht hat.<br />

Diese Arbeit widme ich me<strong>in</strong>er lieben Frau Heidi, welche mich mit vielen Fragen zum Vorgehen, <strong>der</strong><br />

Methodik und den enthaltenen statistischen Auswertungen bombardiert hat und mir dabei auch<br />

immer weitergeholfen hat. Sie hat mich immer auf me<strong>in</strong>em Weg an <strong>der</strong> Fachhochschule unterstützt.<br />

Die Entscheidung, diese Ausbildung zu beg<strong>in</strong>nen und als Schule die AKAD zu wählen, g<strong>in</strong>g<br />

vollständig auf sie <strong>zur</strong>ück. Ich freue mich darauf, wie<strong>der</strong> mehr Zeit mit ihr und unserer lieben Tochter<br />

Ira Yanti zu verbr<strong>in</strong>gen.<br />

Eigenständigkeitserklärung<br />

Hiermit erkläre ich, die vorliegende Arbeit selbstständig und nur unter Benutzung <strong>der</strong> angegebenen<br />

Hilfsmittel und Literatur angefertigt zu haben<br />

Ort und Datum:<br />

Unterschrift:<br />

Hallwil, 29. Januar 2007<br />

…………………………………………………………<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 3 / 83


Inhaltsverzeichnis<br />

Management Summary____________________________________________________________2<br />

Danksagung ____________________________________________________________________3<br />

Eigenständigkeitserklärung________________________________________________________3<br />

Inhaltsverzeichnis________________________________________________________________4<br />

1. Das Problem________________________________________________________________6<br />

1.1. Informationen und <strong>der</strong>en Qualität 6<br />

1.2. Anzeichen schlechter Datenqualität 7<br />

1.3. Auswirkungen von Datenqualitätsmängel 7<br />

1.4. Beispiele von Datenqualitäts-Problemen <strong>in</strong> <strong>der</strong> Realität 8<br />

1.5. Wichtigkeit des Themas für die Unternehmensführung 11<br />

1.6. Gesetzliche und regulatorische Anfor<strong>der</strong>ungen zum Thema Datenqualität 15<br />

1.7. Organisatorische E<strong>in</strong>ordnung des Themas im Unternehmen 18<br />

2. Was ist Datenqualität _______________________________________________________20<br />

2.1. Was ist Qualität 20<br />

2.2. Generelle Def<strong>in</strong>ition von Qualität 21<br />

2.3. Was ist Datenqualität 25<br />

2.4. Geschichte des Begriffs Datenqualität 25<br />

2.5. E<strong>in</strong>fache Def<strong>in</strong>ition von Datenqualität 26<br />

2.6. Umfassende Def<strong>in</strong>ition von Datenqualität 26<br />

2.7. Arten von Datenqualität 28<br />

2.8. Wie kann man Datenqualität messen 29<br />

2.9. Wie kann man Datenqualität identifizieren 31<br />

2.10. Wie kann man Datenqualität visualisieren? 31<br />

2.11. Anfor<strong>der</strong>ungen an e<strong>in</strong> e<strong>in</strong>faches Datenqualitäts-Messsystem 33<br />

2.12. Quantifizierung von Datenqualitätsmängel und <strong>der</strong>en Behebung 34<br />

2.13. Möglichen Arten von Datenqualitätsmängeln 36<br />

2.14. Was Datenqualität nicht ist 37<br />

3. Kommerzielle Ansätze zum Thema Datenqualität ________________________________38<br />

3.1. Der Datenqualitätsmarkt 38<br />

3.2. E<strong>in</strong>gekaufte Produkte und Dienstleistungen 40<br />

4. Generische Ansätze <strong>zur</strong> Verbesserung <strong>der</strong> Datenqualität__________________________42<br />

4.1. Grundsätzliches <strong>zur</strong> Datenqualität 42<br />

4.2. Bisherige Ansätze 42<br />

4.3. Generische Ansätze 44<br />

4.4. Thesen 44<br />

4.5. Aus diesen Thesen abgeleitete <strong>Strategien</strong> 47<br />

5. 9 <strong>Strategien</strong> für e<strong>in</strong>e grundsätzliche Verbesserung <strong>der</strong> Datenqualität________________48<br />

5.1. Strategie A: Transparenz schafft Vertrauen 48<br />

5.2. Strategie B: Def<strong>in</strong>ition von Verantwortlichkeiten 49<br />

5.3. Strategie C: Die Grundsätze <strong>der</strong> Softwareentwicklung ausnutzen 51<br />

5.4. Strategie D: Datenabhängigkeiten s<strong>in</strong>d Gold wert 55<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 4 / 83


5.5. Strategie E: Daten-Lifecycle auf Basis des Prozesses 57<br />

5.6. Strategie F: Unternehmensweite Verwendung von Metadaten 59<br />

5.7. Strategie G: Nie<strong>der</strong>schwellige Verbesserungs-Werkzeuge 60<br />

5.8. Strategie H: E<strong>in</strong>gabe von „Ich weiss es wirklich nicht“ 63<br />

5.9. Strategie I: Def<strong>in</strong>ition e<strong>in</strong>es Verfalldatums 64<br />

5.10. Auswirkung dieser <strong>Strategien</strong> auf die Datenqualität 66<br />

5.11. Grundsätzliche Nachteile und Risiken aller <strong>Strategien</strong> 66<br />

5.12. Vorgehen bei <strong>der</strong> Umsetzung dieser <strong>Strategien</strong> 67<br />

6. Empfehlungen und Ausblick _________________________________________________69<br />

7. Erläuterungen, Listen und Quellen ____________________________________________70<br />

7.1. Abkürzungsverzeichnis 70<br />

7.2. Begriffserklärungen 70<br />

7.3. Abbildungsverzeichnis 72<br />

7.4. Tabellenverzeichnis 73<br />

8. Literatur und Referenzen ____________________________________________________74<br />

Anhänge________________________________________________________________________a<br />

Anhang A: eMail für die Teilnahme an <strong>der</strong> Umfrage<br />

a<br />

Anhang B: Fragebogen für die Erfassung <strong>der</strong> Weichen Faktoren <strong>der</strong> Datenqualität <strong>in</strong> i-SAC b<br />

Anhang C: Die Resultate dieser Umfrage<br />

d<br />

Anhang D: Inhalt <strong>der</strong> CD<br />

e<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 5 / 83


1. Das Problem<br />

1.1. Informationen und <strong>der</strong>en Qualität<br />

Im heutigen Informationszeitalter ist <strong>der</strong> Umgang mit <strong>der</strong> Ressource „Information“ entscheidend 4 .<br />

Darum werden diese möglichst strukturiert <strong>in</strong> <strong>Datenbanken</strong> abgelegt und verwaltet. E<strong>in</strong>mal abgelegt,<br />

veralten diese Informationen jedoch dauernd, wenn sie nicht gepflegt und aktualisiert werden. Dies<br />

gilt sowohl für <strong>Datenbanken</strong> mit Bestandesdaten wie beispielsweise Inventare, Produkt- o<strong>der</strong><br />

Adressstammdaten als auch für <strong>Datenbanken</strong> mit Bewegungsdaten wie Workflows, Bestell- o<strong>der</strong><br />

CRM-Systeme.<br />

Da für viele Arten von Entscheidungen Daten aus diesen <strong>Datenbanken</strong><br />

beigezogen werden, ohne <strong>der</strong>en Qualität zu h<strong>in</strong>terfragen, resultieren oft<br />

schlechte Entscheidungen. In <strong>der</strong> retrospektiven Analyse dieser<br />

Fehlentscheidungen können viele Situationen auf ungenügende Qualität <strong>der</strong><br />

zugrunde liegenden Daten <strong>zur</strong>ückgeführt werden. 5<br />

Daten, welche man von extern beizieht, werden vielfach verifiziert und durch e<strong>in</strong><br />

gesundes Misstrauen immer wie<strong>der</strong> kritisch h<strong>in</strong>terfragt – aber wie steht es mit<br />

firmen<strong>in</strong>ternen Daten?<br />

Und wenn schon – kann man den beigezogenen Daten irgendwie ansehen, ob<br />

sie gut s<strong>in</strong>d o<strong>der</strong> ob <strong>der</strong>en Verfalldatum schon überschritten ist?<br />

E<strong>in</strong>zelne Informationen wie<strong>der</strong>um bilden die Grundlage zum Wissen, das <strong>in</strong><br />

e<strong>in</strong>er Unternehmung vorhanden ist und über verschiedene Wege dem Rest <strong>der</strong><br />

Firma zugänglich gemacht wird – o<strong>der</strong> eben nicht. Die Firma „Fe<strong>der</strong>al Express“<br />

behandelt Informationen als eigene Produkte, welche die firmen<strong>in</strong>ternen<br />

Prozesse überhaupt ermöglichen. Den Umgang mit Informationen bezeichnet<br />

das Unternehmen als Kernwissen („core knowledge“), das ihnen e<strong>in</strong>en<br />

Abbildung 2:<br />

Wettbewerbsvorteil gegenüber an<strong>der</strong>en Unternehmen garantiert. Alle<strong>in</strong>e die<br />

Auswirkungen<br />

Möglichkeit, je<strong>der</strong>zeit auf den Status und den momentanen Aufenthaltsort e<strong>in</strong>es<br />

schlechter<br />

Paketes zugreifen zu können, ist für viele Kunden e<strong>in</strong> wichtiger Grund, dieses Datenqualität 7<br />

Unternehmen für den Transport ihrer Güter auszuwählen. 6<br />

In immer mehr Unternehmen werden Data Warehouses aufgebaut, <strong>der</strong>en Aufgabe es ist, mittels Data<br />

M<strong>in</strong><strong>in</strong>g aus bestehenden Datenbeständen bisher unbekannte Zusammenhänge zu erkennen und<br />

diese mittels Market<strong>in</strong>gaktionen o<strong>der</strong> entsprechenden neuen Produkten kommerziell auszunutzen.<br />

Die gesamten beschriebenen Aktivitäten laufen unter dem Begriff „Bus<strong>in</strong>ess Intelligence“ (BI). Alle<br />

aus diesem beschriebenen Prozess gewonnenen Erkenntnisse s<strong>in</strong>d jedoch nichts wert, wenn die<br />

Qualität <strong>der</strong> verwendeten Daten mangelhaft ist.<br />

4 Immer häufiger wird „Information“ o<strong>der</strong> „Wissen“ neben den drei traditionellen Produktionsfaktoren als „vierter<br />

Produktionsfaktor“ angesehen. Siehe dazu Bull<strong>in</strong>ger et al. <strong>in</strong> [ 8 ] und an<strong>der</strong>e. An<strong>der</strong>e Autoren räumen dem<br />

Produktionsfaktor „Wissen“ sogar e<strong>in</strong>e Vorrangstellung e<strong>in</strong> wie Drucker <strong>in</strong> [ 12 ]. E<strong>in</strong>e prägnante<br />

Zusammenfassung dieser Gedanken macht Henn<strong>in</strong>g <strong>in</strong> [ 24 ], Seiten 59/60.<br />

5 Siehe dazu Block <strong>in</strong> [ 7 ].<br />

6 Siehe Huang et al. nach [ 26 ], Seite 3.<br />

7 Grafik entnommen aus Block <strong>in</strong> [ 7 ], Folie 11.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 6 / 83


1.2. Anzeichen schlechter Datenqualität<br />

Bezogen auf ERP-Systeme stellt die Universität Bern fest, dass folgende Anzeichen auf e<strong>in</strong>e<br />

schlechte Datenqualität h<strong>in</strong>weisen können 8 . Die gleichen Anzeichen können aber für an<strong>der</strong>e Arten<br />

von <strong>Datenbanken</strong> herangezogen werden:<br />

• Wegen mangeln<strong>der</strong> Funktionalität werden weitere Systeme angeschafft, die parallel<br />

zue<strong>in</strong>an<strong>der</strong> arbeiten.<br />

• Es entstehen Schatten-<strong>Datenbanken</strong>.<br />

• Geschäftsunterlagen wie beispielsweise Offerten weisen öfters falsche Angaben aus.<br />

• Für Standardberichte müssen Zahlen aus mehreren Systemen beschafft werden.<br />

• Steigen<strong>der</strong> Debitorenbestand und Kundenreklamationen wegen falschen o<strong>der</strong> doppelt<br />

ausgestellten Rechnungen.<br />

• Vermehrte manuelle E<strong>in</strong>griffe und Versuche, Integritätssicherungsmechanismen e<strong>in</strong>es<br />

Systems zu übersteuern weil E<strong>in</strong>gabefehler korrigiert werden sollten.<br />

• Verlorengegangene Aufgaben <strong>in</strong> e<strong>in</strong>em Workflow-System.<br />

• Organisatorische Än<strong>der</strong>ungen können nicht o<strong>der</strong> nur mit grossem Zeitaufwand nachvollzogen<br />

werden, weil die Datenbasis o<strong>der</strong> implementierte Geschäftsregeln nicht angepasst werden<br />

können.<br />

• Differenzen zwischen Inventarlisten und tatsächlich vorhandenen Waren.<br />

• Steigende Debitorenbestände und Debitorenverluste.<br />

1.3. Auswirkungen von Datenqualitätsmängel<br />

Werden weitere Systeme angeschafft, die parallel zue<strong>in</strong>an<strong>der</strong> arbeiten sollen, entstehen automatisch<br />

Schnittstellenprobleme und Redundanzen. Werden solche Redundanz-Systeme und<br />

Schattendatenbanken nur selten synchronisiert, entstehen wi<strong>der</strong>sprüchliche Informationen.<br />

Für Data M<strong>in</strong><strong>in</strong>g und Data Warehous<strong>in</strong>g ist Datenqualität nicht nur etwas Wünschenswertes, son<strong>der</strong>n<br />

e<strong>in</strong>es <strong>der</strong> Hauptkriterien, die darüber bestimmen, ob das Projekt zustande kommt und die daraus<br />

gewonnenen Aussagen korrekt s<strong>in</strong>d 9 .<br />

E<strong>in</strong>e Untersuchung von QAS über die Auswirkung von Datenqualität auf die Geschäftsergebnisse<br />

zeigte, dass über 7 Prozent mehr Umsatz gemacht werden könnte, wenn die Daten im Unternehmen<br />

e<strong>in</strong>e bessere Qualität gehabt hätten. 10<br />

Weitere Auswirkungen von schlechter Datenqualität s<strong>in</strong>d operationelle Ineffizienz, beh<strong>in</strong><strong>der</strong>te<br />

Entscheidungsf<strong>in</strong>dung, falsche Entscheidungen, Kundenschwund, Beh<strong>in</strong><strong>der</strong>ungen bei System- und<br />

Datenmigrationen und im Extremfall Vertrauensverlust <strong>in</strong> das Unternehmen durch Kunden und<br />

Mitarbeiter.<br />

Demgegenüber führt gute Datenqualität zu wichtigen Erkenntnissen bei Data Warehous<strong>in</strong>g Projekten,<br />

verbesserter Kundenakquisition und e<strong>in</strong>er erhöhten Rendite bei IT-Investitionen. 11<br />

8 Siehe Universität Bern, auf [ 28 ].<br />

9 Siehe Parr Rud <strong>in</strong> [ 40 ], Seite 63: „There are a lot of data warehouse horror stories; however, there are also a<br />

lot of phenomenal success stories. What are the keys to a successful implementation? … Data quality is a<br />

priority …”.<br />

10 Siehe QAS <strong>in</strong> [ 46 ].<br />

11 Siehe Losh<strong>in</strong> <strong>in</strong> [ 34 ], Seiten 10-15.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 7 / 83


1.4. Beispiele von Datenqualitäts-Problemen <strong>in</strong> <strong>der</strong> Realität<br />

1.4.1. Generelle Datenqualitätsprobleme<br />

E<strong>in</strong>ige Beispiele, welche Auswirkungen e<strong>in</strong>e mangelhafte Datenqualität haben können 12 :<br />

Der Verlust von Mars Climate Orbiter 1999 kostete den amerikanischen Steuerzahler 125<br />

Millionen USD, wegen Konversionsfehlern vom metrischen zum angloamerikanischen<br />

System 13 .<br />

E<strong>in</strong>e weltweit führende Universalbank f<strong>in</strong>det heraus, dass sie 3 Milliarden USD „Credit<br />

Exposure" im Tierpflegesektor hat. Die Ursache konnte <strong>in</strong> e<strong>in</strong>em Datenbere<strong>in</strong>igungsprogramm<br />

gefunden werden.<br />

E<strong>in</strong>e Grossbank verrechnet sich bei <strong>der</strong> Ermittlung ihrer Gew<strong>in</strong>ne um 200 Millionen CHF.<br />

Schuld war die mangelhafte Integration <strong>der</strong> Daten e<strong>in</strong>er akquirierten Versicherung e<strong>in</strong> Jahr<br />

zuvor.<br />

E<strong>in</strong>e Regionalbank stellte fest, dass e<strong>in</strong>ige Kunden <strong>in</strong> den Jahren 930 bis 980 geboren wurden<br />

o<strong>der</strong> sie verstarben noch vor dem Geburtstag. Auch stellte sie e<strong>in</strong>e grosse Häufung von<br />

Personen fest, die am 1.1. o<strong>der</strong> am 31.12. geboren wurden. Als weitere Ungereimtheit stellte<br />

sie Berufsbezeichnungen wie „)(#$*ksd.“ fest.<br />

E<strong>in</strong> grosses E<strong>in</strong>zelhandelsunternehmen fand Kunden mit e<strong>in</strong>em negativen Saldo an<br />

Bonuspunkten und vielen Kundendubletten. Das bedeutet, dass e<strong>in</strong>ige Kunden mehrere<br />

Kundenkarten besitzen … und das Unternehmen weiss es nicht.<br />

In e<strong>in</strong>er Bank wurden Firmenkunden mit unvollständigen Daten gefunden – im Gegensatz zu<br />

den regulatorischen Anfor<strong>der</strong>ungen im Zusammenhang mit <strong>der</strong> Exportrisikogarantie.<br />

Die Ursache lag dar<strong>in</strong>, dass das IT-System nicht für solche Transaktionen ausgelegt war. Um<br />

die Geschäfte dennoch abwickeln zu können, wurden jeweils „Dummy-Kunden“ angelegt, bei<br />

welchen dann eben nicht alle Daten ausgefüllt wurden.<br />

1.4.2. Personen als Betroffene von Datenqualitätsproblemen<br />

Dass e<strong>in</strong>e hohe Datenqualität nicht nur für den Lieferanten und den Bezüger von Informationen<br />

wichtig ist, son<strong>der</strong>n auch für Personen, von denen die Informationen handeln, zeigen die folgenden<br />

Beispiele:<br />

Erst als die Boe<strong>in</strong>g 747 <strong>der</strong> United Airl<strong>in</strong>es bereits <strong>in</strong> <strong>der</strong> Luft war, hatte man den potenziellen<br />

Terroristen erkannt. Se<strong>in</strong> Name wurde bei e<strong>in</strong>er Überprüfung <strong>der</strong> Passagiere auf <strong>der</strong> Liste <strong>der</strong><br />

Terrorverdächtigen entdeckt. Die Folge: Der Flug mit <strong>der</strong> Nummer 919 wurde auf Anweisung<br />

<strong>der</strong> amerikanische Flugsicherheitsbehörde (TSS) 1000 Kilometer weit <strong>in</strong> Richtung Bangor im<br />

US-Staat Ma<strong>in</strong>e umgeleitet. Hier musste <strong>der</strong> verdächtige Passagier das Flugzeug verlassen.<br />

Der verdächtige Passagier war <strong>der</strong> zum Islam konvertierte Popmusiker Cat Stevens alias<br />

„Yusuf Islam“ 14<br />

Weil e<strong>in</strong> Fax falsch gelesen wurde, ist am Uni-Spital Zürich e<strong>in</strong>e Herztransplantation kurzfristig<br />

abgesagt worden. Ohne Folgen für den Patienten. … Der Koord<strong>in</strong>ator las die Gewichtsangabe<br />

auf dem Fax falsch. Erst bei <strong>der</strong> Überprüfung im Operationssaal merkte man, dass das<br />

Spen<strong>der</strong>herz für den vorgesehenen Empfänger zu kle<strong>in</strong> war. Dem Patienten erwuchs daraus<br />

ke<strong>in</strong> Nachteil, se<strong>in</strong> Herz war noch nicht herausoperiert worden. … So e<strong>in</strong> Vorfall ist laut Conrad<br />

Müller, Direktor von Swisstransplant, „zum Glück sehr selten“. Dass er dennoch passieren<br />

kann, erstaunt angesichts <strong>der</strong> heutigen Datenübermittlung allerd<strong>in</strong>gs wenig: Das Spen<strong>der</strong>spital<br />

12 Siehe Block <strong>in</strong> [ 7 ], Seiten 4-6; 15.<br />

13 Siehe auch Losh<strong>in</strong> <strong>in</strong> [ 34 ], Seite 3 und <strong>in</strong> Wikipedia [ 80 ].<br />

14 Siehe Spiegel Onl<strong>in</strong>e [ 51 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 8 / 83


schickt die Angaben per Fax zu Swisstransplant, und von dort geht <strong>der</strong>selbe Fax weiter ans<br />

Empfängerspital. 15<br />

Während dem Wirbelsturm „Katr<strong>in</strong>a“ brachen die Deiche <strong>der</strong> Stadt New Orleans. Als Folge davon<br />

wurde die Stadt überschwemmt und zirka 270'000 E<strong>in</strong>wohner wurden zu Flüchtl<strong>in</strong>gen.<br />

Das Pionierkorps des US-Heeres hat <strong>in</strong> e<strong>in</strong>em Bericht bereits die Verantwortung für die<br />

Überflutung <strong>der</strong> Metropole New Orleans übernommen. Die Deiche hätten nachgegeben, weil<br />

sie unter Verwendung überholter Daten unzusammenhängend gebaut worden seien, hiess es<br />

dar<strong>in</strong>. „Das ist das erste Mal, dass das Korps e<strong>in</strong>räumen muss: Wir haben katastrophal<br />

versagt“, sagte dessen Leiter, Generalleutnant Carl Strock bei <strong>der</strong> Vorstellung des Reports<br />

Anfang Juni. 16<br />

1.4.3. Unternehmens-Turbulenzen wegen Datenqualitätsproblemen<br />

Datenqualitäts-Probleme können e<strong>in</strong> Unternehmen existentiell bedrohen. So konnte <strong>der</strong> grösste<br />

Personalvermittler <strong>der</strong> Welt, Adecco, die Bilanzzahlen für 2003 wegen Datenqualitätsproblemen <strong>in</strong><br />

<strong>der</strong> US-Gesellschaft erst e<strong>in</strong> halbes Jahr später als vorgesehen bekannt geben:<br />

Immerh<strong>in</strong> bezeichnete das Westschweizer Unternehmen am Freitag die Bereiche, <strong>in</strong> welchen<br />

die Probleme entstanden s<strong>in</strong>d. Mängel gebe es bei <strong>der</strong> Sicherheit <strong>der</strong> Computersysteme, <strong>der</strong><br />

Abstimmung <strong>der</strong> Lohn-Bankkonten, <strong>der</strong> Dokumentation vere<strong>in</strong>barter Tarife und Stunden sowie<br />

<strong>der</strong> Ausstellung von Rechnungen.<br />

…<br />

Am vergangenen Montag hatte Adecco <strong>in</strong> e<strong>in</strong>er knappen Mitteilung erklärt, im<br />

nordamerikanischen Geschäft seien bei e<strong>in</strong>er Rout<strong>in</strong>eprüfung erhebliche Schwächen bei <strong>der</strong><br />

<strong>in</strong>ternen Kontrolle festgestellt worden.<br />

Beson<strong>der</strong>s müssten Fragen im Bereich Buchhaltung und Kontrolle <strong>in</strong> Nordamerika und<br />

gewissen an<strong>der</strong>en Län<strong>der</strong>n beantwortet werden, wie es hiess. Deshalb würde sich <strong>der</strong><br />

Jahresabschluss auf unbestimmte Zeit verzögern.<br />

An den Märkten verlor die Adecco-Aktie darauf 35 %. Es wurde daraufh<strong>in</strong> befürchtet, dass es<br />

sich um e<strong>in</strong>en weiteren Bilanz-Skandal handeln könnte, wie bei dem US-Konzern Enron o<strong>der</strong><br />

Parmalat <strong>in</strong> Italien. 17<br />

Zusätzlich zu diesem Kurssturz wurde <strong>in</strong> den USA e<strong>in</strong>e Untersuchung <strong>der</strong> Börsenaufsicht und <strong>der</strong><br />

Staatsanwaltschaft e<strong>in</strong>geleitet und das Unternehmen wurde mit mehreren Sammelklagen<br />

konfrontiert. Die Kosten für die Bere<strong>in</strong>igung dieses Falles bezifferte Adecco mit 100 Mio. Euro 18 .<br />

Das amerikanische Onl<strong>in</strong>e Magaz<strong>in</strong> „SupplyCha<strong>in</strong>Digest“ stellte die „Top-11 Supply Cha<strong>in</strong> Disasters“<br />

zusammen 19 . Die dar<strong>in</strong> enthaltenen Fälle aus den 1980er Jahren bis 2001 zeigen 11 Fälle von<br />

gescheiterten Projekten im Bereich <strong>der</strong> Beschaffungskette e<strong>in</strong>es Unternehmens.<br />

E<strong>in</strong>ige dieser Fälle können direkt mit dem Thema Datenqualität <strong>in</strong> Verb<strong>in</strong>dung gebracht werden (die<br />

an<strong>der</strong>en Fälle werden <strong>in</strong> dieser Tabelle ausgelassen).<br />

15 Siehe Tages Anzeiger vom 29. Juli 2006 [ 1 ].<br />

16 Siehe Stern.de Onl<strong>in</strong>e-Ausgabe [ 2 ].<br />

17 Siehe Swiss<strong>in</strong>fo vom 16. Januar 2004 [ 56 ].<br />

18 Siehe Swiss<strong>in</strong>fo vom 1. Juni 2004 [ 57 ].<br />

19 Siehe Supply Cha<strong>in</strong> Digest <strong>in</strong> [ 55 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 9 / 83


Rang Firma / Jahr Problem / Auswirkungen<br />

1 Foxmeyer Drug, <strong>der</strong><br />

damals zweitgrösste<br />

Drogerie-Distributor<br />

<strong>der</strong> USA<br />

1996<br />

2 … …<br />

3 … …<br />

4 … …<br />

5 Gepäckabwicklungs-<br />

System im Flughafen<br />

Denver (USA)<br />

1993 – 1995<br />

6 … …<br />

7 Hershey Foods<br />

1999<br />

8 Cisco<br />

2001<br />

9 Nike<br />

2001<br />

10 … …<br />

11 … …<br />

Gleichzeitige Überarbeitung von IT-System und Distribution.<br />

Das IT-System von SAP konnte die riesigen Datenmengen nicht verarbeiten und brach<br />

zusammen. Kunden erhielten nur Teile <strong>der</strong> Bestellung o<strong>der</strong> erhielten diese doppelt.<br />

Nach e<strong>in</strong>em Verlust von 5 Milliarden USD g<strong>in</strong>g das Unternehmen Konkurs. Die Reste<br />

wurden von e<strong>in</strong>em Konkurrenten aufgekauft.<br />

Das hochautomatisierte Gepäckabwicklungssystem musste wegen <strong>der</strong> grossen Distanzen<br />

auf hohe Geschw<strong>in</strong>digkeiten ausgelegt werden. Dadurch musste die ganze Infrastruktur,<br />

welche bereits erstellt worden war, überarbeitet werden. Als dann das System teilweise<br />

produktiv g<strong>in</strong>g, veranlassten die wie<strong>der</strong>holten Probleme mit falsch abgewickelten<br />

Gepäckstücken und hohen operativen Kosten die Fluggesellschaft United Airl<strong>in</strong>es dazu,<br />

wie<strong>der</strong> zu den klassischen Methoden <strong>zur</strong>ückzukehren.<br />

Der Flughafen wurde wegen den logistischen Problemen zwei Jahre später eröffnet und<br />

das Logistik-System <strong>in</strong>zwischen total ausgewechselt.<br />

Nachdem die Stichtage<strong>in</strong>führung von mehreren Geschäftskritischen Systemen bereits um<br />

e<strong>in</strong>ige Monate verschoben werden musste, konnten kurz vor Halloween 1999 (e<strong>in</strong>e<br />

Hauptumsatzzeit) ke<strong>in</strong>e Bestellungen mehr abgewickelt werden, weil das Or<strong>der</strong><br />

Management ke<strong>in</strong>en Zugriff mehr auf das Inventarsystem hatte.<br />

Aufträge im Wert von 150 Millionen USD konnten nicht ausgeführt werden. Der Gew<strong>in</strong>n<br />

brach um 19 % e<strong>in</strong>, und noch Jahre später wurde die Firmenleitung regelmässig von<br />

Analysten zum Zustand des Bestellwesens befragt.<br />

Wegen <strong>der</strong> knappen Verfügbarkeit von Netzwerk Equipment war es für viele Endkunden<br />

normal, dieselbe Bestellung mehrfach über verschiedene Distributoren laufen zu lassen. Als<br />

mit dem Platzen <strong>der</strong> Internet-Blase die Nachfrage zusammenbrach, sah die Firma die<br />

s<strong>in</strong>kende Nachfrage nicht voraus und musste <strong>in</strong>sgesamt 2.2 Milliarden USD an neuer<br />

Hardware abschreiben.<br />

Der Börsenkurs halbierte sich daraufh<strong>in</strong> und erholte sich nicht mehr.<br />

Als Folge e<strong>in</strong>er grossen Stichtagsumstellung im Supply Cha<strong>in</strong> Planungssystem wurden<br />

tausende Schuhe zu viel o<strong>der</strong> zu wenig produziert, weil die Bestellungen zwischen zwei<br />

Schuhtypen vertauscht wurden.<br />

Die Firma musste „wegen Software-Problemen“ Umsatze<strong>in</strong>bussen von 100 Millionen USD<br />

bekannt geben. Die Börse reagierte mit e<strong>in</strong>em Kurse<strong>in</strong>bruch von 20 %.<br />

Tabelle 1: Die zum Thema Datenqualität relevanten E<strong>in</strong>träge aus den „Top-11 Supply Cha<strong>in</strong> Disasters“<br />

von SupplyCha<strong>in</strong>Digest [ 55 ]<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 10 / 83


1.5. Wichtigkeit des Themas für die Unternehmensführung<br />

1.5.1. Wichtigkeit von Genereller Qualität<br />

Die PIMS Studie 20 erfasst seit über 30<br />

Jahren die Erfolgsfaktoren für die<br />

Leistungsfähigkeit von Unternehmen<br />

und wertet diese wissenschaftlich aus.<br />

Als Resultat wurde festgestellt, dass<br />

im Vergleich zwischen Produkten<br />

tieferer Qualität und Produkten höherer<br />

Qualität <strong>der</strong> Unterschied <strong>der</strong><br />

Herstellkosten nur 1 % beträgt – die<br />

Preisdifferenz im Markt jedoch 6 %.<br />

Die Folge ist, dass mit Produkten<br />

höherer Qualität im Durchschnitt 5 %<br />

mehr Gew<strong>in</strong>n erzielt werden kann.<br />

Abbildung 3: Wie Qualität Rentabilität und Wachstum<br />

steigert 21<br />

Zusätzlich können noch weitere Vorteile errungen werden, <strong>in</strong>dem die Preisdifferenz nicht abgeschöpft<br />

wird, son<strong>der</strong>n durch den tieferen Preis die Erhöhung des Marktanteiles angestrebt wird. Qualität darf<br />

gemäss dieser Studie aber nicht als alle<strong>in</strong>iges Ziel gesetzt werden, da e<strong>in</strong>e <strong>der</strong>artige Ausrichtung die<br />

Kosten mehr als die Erwähnten 1 % <strong>in</strong> die Höhe treibt. E<strong>in</strong> ausgewogenes Verhältnis dieses Ziels mit<br />

an<strong>der</strong>en Unternehmenszielen ist also anzustreben. 22<br />

Zusammengefasst wird jedoch die Qualität als wichtigster E<strong>in</strong>zelfaktor genannt, dicht gefolgt vom<br />

Marktanteil. 23<br />

1.5.2. Wichtigkeit von Datenqualität<br />

Huang et al. for<strong>der</strong>n, dass<br />

Unternehmen ihre Daten als Produkte<br />

betrachten sollen 24 . Wird dieser<br />

Gedanke konsequent umgesetzt, so<br />

bedeutet dies, dass nicht nur die<br />

Produkte, welche das Unternehmen<br />

verlassen, e<strong>in</strong>er Qualitätssicherung<br />

unterliegen sollen, son<strong>der</strong>n auch die<br />

Daten – auch wenn sie nur <strong>in</strong>nerhalb<br />

des Unternehmens zirkulieren. Ähnlich<br />

wie die höhere Produktqualität dem<br />

Unternehmen bessere Verkäufe und<br />

höhere Gew<strong>in</strong>ne br<strong>in</strong>gen, ermöglicht<br />

auch e<strong>in</strong>e höhere Datenqualität<br />

bessere Verkäufe und höhere<br />

Gew<strong>in</strong>ne.<br />

Abbildung 4: Der Zusammenhang zwischen Daten und<br />

Kernkompetenzen nach Yang W. Lee [ 32 ] 25<br />

20 PIMS – „Profit Impact of Market Strategy“ zu deutsch so viel wie „Auswirkungen auf den Profit aufgrund <strong>der</strong><br />

Marktstrategie“; Details dazu siehe [ 36 ] und [ 41 ].<br />

21 Grafik aus Seghezzi <strong>in</strong> [ 50 ], Seite 13, welches Buzzle/Gale: Das PIMS Programm (1989) zitiert.<br />

22 Siehe Seghezzi <strong>in</strong> [ 50 ], Seite 10ff.<br />

23 Siehe Vonlanthen <strong>in</strong> [ 62 ]; URL: http://www.betriebswirtschaft.ch/default.asp?m=73<br />

24 Siehe Huang et al. <strong>in</strong> [ 26 ], Seite 9ff.<br />

25 Grafik übersetzt aus dem Englischen aus Huang et al. [ 26 ] Seite 115, welche Yang W. Lee <strong>in</strong> [ 32 ] zitieren.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 11 / 83


Möglicherweise lässt sich dies nicht so direkt erfassen und ausweisen, wie es <strong>in</strong> <strong>der</strong> PIMS Studie für<br />

die Produktqualität geschieht. Mit Sicherheit kann jedoch gesagt werden, dass aufgrund besserer<br />

Datengrundlagen die Qualität von Entscheidungen massgeblich verbessert wird. Wie dieses Problem<br />

im Detail aussieht, wird im Kapitel 1.5.4ff. genauer betrachtet.<br />

1.5.3. Daten, Informationen, Wissen und Kernkompetenzen<br />

Die Grundlage für jedes Wissen s<strong>in</strong>d Informationen. Grundlagen für Informationen s<strong>in</strong>d Daten. Den<br />

direkten Zusammenhang zwischen Daten und Kernkompetenzen zeigt Lee <strong>in</strong> Form von Abbildung 4.<br />

Für den Aufbau und Erhalt von Kernkompetenzen ist es demnach wichtig, die grundlegenden Daten<br />

<strong>in</strong> e<strong>in</strong>er entsprechenden Qualität zu speichern. Zusammen mit <strong>der</strong> expliziten Formulierung von<br />

stillschweigendem Wissen resultiert daraus das Organisationswissen, das nun unabhängig von<br />

Personen ist. Wird dieses Organisationswissen <strong>in</strong> e<strong>in</strong>en spezifischen Kontext gesetzt, kann e<strong>in</strong> Best<br />

Practice aus diesem Wissen resultieren. Wird dieser Best Practice generalisiert für e<strong>in</strong>e<br />

Wie<strong>der</strong>verwendung <strong>in</strong> an<strong>der</strong>en Bereichen des Unternehmens, resultiert daraus e<strong>in</strong>e Kernkompetenz.<br />

1.5.4. Datenqualitätsprobleme <strong>in</strong> <strong>der</strong> Entscheidungsf<strong>in</strong>dung<br />

E<strong>in</strong>e effektive Unternehmensführung baut darauf auf, dass die Grundlagen für jede Entscheidung<br />

korrekt s<strong>in</strong>d. S<strong>in</strong>d die Grundlagen dafür fehlerhaft, so kann die getroffene Entscheidung im<br />

schlimmsten Fall genau den gegenteiligen Effekt als den ursprünglich geplanten haben. Die im<br />

Kapitel 1.4 aufgeführten realen Beispiele zeigen, wie sehr e<strong>in</strong> Unternehmen auf korrekte Daten<br />

angewiesen ist.<br />

E<strong>in</strong> gutes Beispiel für die Wichtigkeit von Daten hoher Qualität s<strong>in</strong>d die diversen „Cockpits“, welche<br />

immer mehr Verbreitung f<strong>in</strong>den. Abbildung 5 zeigt anhand e<strong>in</strong>es Beispiels aus dem Bereich Human<br />

Resources, wie e<strong>in</strong> solches Cockpit aussehen könnte und welche Elemente es <strong>in</strong> etwa umfassen<br />

könnte.<br />

Allen Cockpits geme<strong>in</strong> ist die<br />

Tatsache, dass die Darstellungen auf<br />

Verdichtungen von E<strong>in</strong>zeldaten<br />

beruhen. Dazu werden die<br />

vorhandenen Daten nach<br />

verschiedenen Gesichtspunkten<br />

ausgewertet und dargestellt. Weisen<br />

die zugrunde liegenden Daten e<strong>in</strong>e<br />

schlechte Qualität auf, so zeigt die<br />

Verdichtung <strong>der</strong> Daten etwas Falsches<br />

an, und die darauf beruhenden<br />

Entscheidungen und Massnahmen<br />

erreichen nicht das gewünschte Ziel.<br />

Abbildung 5: Beispiel e<strong>in</strong>es Cockpits. In diesem Beispiel e<strong>in</strong><br />

fiktives Cockpit aus dem Bereich HR 26<br />

26 Der dargestellte Bildschirm mit den enthaltenen Zahlen dieses Cockpits ist frei erfunden. Die Darstellung<br />

beruht auf Elementen aus real existierenden Cockpits verschiedener Softwarehersteller.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 12 / 83


Beispiel 1:<br />

Im Cockpit von Abbildung 5 werden aus irgende<strong>in</strong>em Grund die Geburtsdaten mehrerer<br />

Personen falsch erfasst. Der Bereich „Geschlechterverteilung nach Alter“ zeigt dadurch falsche<br />

Werte über die Altersverteilung <strong>der</strong> Mitarbeiter an.<br />

Möchte die Geschäftsleitung e<strong>in</strong>e möglichst ausgewogene Altersverteilung im Betrieb<br />

erreichen, wird sie fortan Personen im falschen Altersbereich e<strong>in</strong>stellen. Dadurch erreicht sie<br />

nicht e<strong>in</strong>e bessere Altersstruktur <strong>der</strong> Mitarbeiter, son<strong>der</strong>n sie wird im Gegenteil <strong>in</strong> dem<br />

Altersbereich mehr Leute anstellen, <strong>in</strong> dem die Personen mit den falschen Geburtsdaten liegen.<br />

Ähnliches passiert <strong>in</strong> e<strong>in</strong>em Aggregationssystem, wie sie es meistens <strong>in</strong><br />

Management<strong>in</strong>formationssystemen (MIS) verwendet wird. E<strong>in</strong> Fehler <strong>in</strong> den Daten e<strong>in</strong>er tieferen<br />

Stufe wird entsprechend verdichtet und h<strong>in</strong>auf propagiert, bis er schliesslich auf e<strong>in</strong>er höheren Stufe<br />

zu e<strong>in</strong>er Fehlaussage und damit zu e<strong>in</strong>er Fehlentscheidung führen kann.<br />

E<strong>in</strong>e entsprechende Berechnung von<br />

Fehlerquoten <strong>in</strong> Arbeitsabläufen hat<br />

Würthele aufgezeigt 27 . Sie wird <strong>in</strong><br />

Abbildung 6 dargestellt. Durch die<br />

Fortpflanzung e<strong>in</strong>es Fehlers von e<strong>in</strong>em<br />

Prozessschritt zum Nächsten<br />

entstehen <strong>in</strong> den folgenden<br />

Prozessschritten weitere Fehler,<br />

welche sich im Extremfall <strong>der</strong>art<br />

aufsummieren können, dass die<br />

schliesslich angezeigte Information<br />

das Gegenteil von dem aussagt, was<br />

aufgrund korrekter Daten hätte<br />

angezeigt werden müssen.<br />

Abbildung 6: Berechnung von Datenqualitätsfehlern<br />

<strong>in</strong>nerhalb e<strong>in</strong>es Prozesses nach Würthele [ 89 ]<br />

Das uralte Bonmot <strong>der</strong> IT „shit <strong>in</strong> – shit out“ 28 f<strong>in</strong>det hier e<strong>in</strong>mal mehr se<strong>in</strong>e Richtigkeit – e<strong>in</strong>fach<br />

<strong>in</strong>dem die Auswirkungen nicht nur auf die IT beschränkt bleiben, son<strong>der</strong>n (seit die IT e<strong>in</strong> nicht mehr<br />

wegzudenkendes Werkzeug <strong>der</strong> Unternehmensführung ist) sich auf das ganze Unternehmen<br />

ausbreiten.<br />

1.5.5. Wenn die mangelnde Datenqualität offensichtlich wird<br />

Vor allem Pannen können negative Auswirkung weit über das aktuelle operative Geschäft h<strong>in</strong>aus<br />

haben. Insbeson<strong>der</strong>e <strong>der</strong> Vorfall vom Universitätsspital Zürich zeigt, dass Datenqualitätsprobleme<br />

sogar Auswirkungen auf die strategische Ebene e<strong>in</strong>es Unternehmens haben können. Aufgrund dieser<br />

Panne (welche Teil e<strong>in</strong>er ganzen Pannenserie ist, bei <strong>der</strong> es unter an<strong>der</strong>em auch um die<br />

Datenqualität von Metadaten <strong>der</strong> Spen<strong>der</strong>organe g<strong>in</strong>g) ist die Strategie des Universitätsspitals und<br />

von Stadt und Kanton Zürich akut gefährdet, e<strong>in</strong> nationales Kompetenzzentrum für Herzchirurgie zu<br />

werden.<br />

Die Fälle von Adecco, Hershey, Cisco und Nike zeigen, dass Fälle von schlechter Datenqualität die<br />

Unternehmensführung <strong>in</strong> arge Bedrängnis br<strong>in</strong>gen können und die Bewältigung solcher Ereignisse<br />

riesige Mittel und Ressourcen verschl<strong>in</strong>gen können, die für die operative Führung dann nicht <strong>zur</strong><br />

Verfügung stehen.<br />

Im Normalfall werden Fälle mangelhafter Datenqualität von den Firmen nicht an die grosse Glocke<br />

gehängt, da Unregelmässigkeiten im Datenbestand dem Firmenimage grundsätzlich abträglich s<strong>in</strong>d.<br />

Ist die Firma aber an <strong>der</strong> Börse kotiert, besteht e<strong>in</strong>e Pflicht <strong>zur</strong> unverzüglichen Bekanntgabe mittels<br />

27 Siehe Würthele <strong>in</strong> [ 89 ], Seite 85ff.<br />

28 was soviel bedeutet wie "gibst Du e<strong>in</strong>en Mist <strong>in</strong>s System, so erhältst Du als Resultat auch Mist".<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 13 / 83


„Ad-hoc-Meldungen“ von Tatsachen, welche E<strong>in</strong>fluss auf den Kurs haben könnten 29 . Es ist davon<br />

auszugehen, dass ohne diese Pflicht die Firmen Nike und Hershey die Öffentlichkeit wohl kaum<br />

<strong>in</strong>formiert hätten. 30<br />

1.5.6. Vorsprung durch die Gestaltung und Optimierung von Geschäftsprozessen<br />

Auch können ganze Geschäftsprozesse gestrafft, optimiert o<strong>der</strong> durch die optimale Nutzung völlig<br />

neu gestaltet werden. So konnte beispielsweise e<strong>in</strong> globaler Chemieproduzent se<strong>in</strong> Lager um 27 %<br />

reduzieren, e<strong>in</strong> grösserer US Lebensmitteldetaillist durch Konsolidierung <strong>der</strong><br />

Beschaffungs<strong>in</strong>formationen 0.5 Mio. USD pro Jahr e<strong>in</strong>sparen. Im Falle e<strong>in</strong>er grösseren Bankenfusion<br />

wurde <strong>der</strong> Aufwand, die Kundendaten manuell zusammenzufügen, auf 225 Personentage geschätzt<br />

– dadurch, dass die Arbeit durch Datenqualitäts-Software erledigt wurde, fielen lediglich 20<br />

Personentage an. Nach Angaben e<strong>in</strong>es Technologieberatungsunternehmens könnten<br />

Fluggesellschaften jährlich rund 650 Millionen USD e<strong>in</strong>sparen – alle<strong>in</strong>e durch den E<strong>in</strong>satz von RFID-<br />

Tags, dem damit verbesserten Wissen über den Aufenthaltsort <strong>der</strong> e<strong>in</strong>zelnen Gepäckstücke und den<br />

dadurch verbesserten Prozessen. 31 .<br />

Unabhängig von <strong>der</strong> Branchenzugehörigkeit kann durch den E<strong>in</strong>satz von geeignetem Data-<br />

Reeng<strong>in</strong>eer<strong>in</strong>g 32 die Kundenausrichtung stark verbessert werden 33 . Dies wie<strong>der</strong>um führt zu e<strong>in</strong>er<br />

grösseren Kundenloyalität 34 .<br />

Je mehr die Geschäftsprozesse <strong>in</strong>tegriert s<strong>in</strong>d und auf <strong>der</strong> fehlerlosen Speicherung und Verarbeitung<br />

von Daten aufbauen, desto wichtiger ist es, diese Daten <strong>in</strong> e<strong>in</strong>er def<strong>in</strong>ierten Qualität vorzuhalten.<br />

Unternehmen wie Fe<strong>der</strong>al Express haben ihr ganzes Geschäftsmodell so umgestellt, dass <strong>der</strong> Kunde<br />

immer und je<strong>der</strong>zeit den Aufenthaltsort und den Status se<strong>in</strong>es Paketes abfragen kann 35 . Die Firma<br />

Dell hat die ganze Wertschöpfungskette durch IT-Unterstützung optimiert 36 . Dadurch konnten beide<br />

Unternehmen e<strong>in</strong>en entscheidenden Marktvorteil err<strong>in</strong>gen.<br />

An<strong>der</strong>sherum zeigt das Fallbeispiel des Flughafens Denver, dass die mangelhafte Datenqualität auch<br />

das operative Geschäft sehr stark e<strong>in</strong>schränken o<strong>der</strong> sogar zum Erliegen br<strong>in</strong>gen kann, wenn die<br />

Abhängigkeit von solchen <strong>Datenbanken</strong> sehr hoch ist, aber die enthaltene und verarbeitete Qualität<br />

nicht den Anfor<strong>der</strong>ungen entspricht.<br />

1.5.7. Zusammenfassung<br />

Wie die vorherigen Kapitel zeigen, wirkt das Thema Datenqualität <strong>in</strong> verschiedene Bereiche e<strong>in</strong>es<br />

Unternehmens h<strong>in</strong>e<strong>in</strong>. Je nach Anwendung hat es das Potential, e<strong>in</strong>e Firma komplett umzugestalten,<br />

<strong>in</strong>dem es das Geschäftsmodell bee<strong>in</strong>flusst. Auf <strong>der</strong> an<strong>der</strong>en Seite gehört das Wissen des<br />

Managements um die Datenqualität zum<strong>in</strong>dest für die Kernprozesse zum Risk Management, da e<strong>in</strong><br />

Fall von schlechter Datenqualität das Unternehmen sehr schnell nachhaltig <strong>in</strong> e<strong>in</strong> schlechtes Licht<br />

rücken kann, wie <strong>der</strong> Fall Hershey zeigt.<br />

29 In <strong>der</strong> Schweiz s<strong>in</strong>d Ad-hoc-Meldungen im Kotierungsreglement <strong>der</strong> Schweizer Börse <strong>in</strong> Artikel 72 geregelt.<br />

Deutschland regelt dies mit § 15 des Wertpapierhandelsgesetzes. Die US-Börsen kennen vergleichbare Regeln<br />

wie beispielsweise im New York Stock Exchange Listed Company Manual § 201ff.<br />

30 Siehe dazu die Details dieser Fälle <strong>in</strong> Tabelle 1.<br />

31 Siehe Fe<strong>der</strong> <strong>in</strong> [ 18 ].<br />

32 Unter „Data-Reeng<strong>in</strong>eer<strong>in</strong>g“ versteht man das Überprüfen von Datenstrukturen <strong>in</strong> bestehenden<br />

Datensammlungen, die Neuordnung <strong>der</strong> verwendeten Entitäten und Attribute sowie <strong>der</strong> anschliessenden<br />

Migration <strong>der</strong> Daten <strong>in</strong> diese neue Strukturen.<br />

33 Siehe Atk<strong>in</strong>s <strong>in</strong> [ 4 ].<br />

34 Siehe Atk<strong>in</strong>s <strong>in</strong> [ 3 ] und Huang et al. <strong>in</strong> [ 26 ], Seite 11ff.<br />

35 Siehe Huang et al. <strong>in</strong> [ 26 ], Seite 3.<br />

36 Siehe Fields <strong>in</strong> [ 19 ], Seite 230ff.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 14 / 83


Auf <strong>der</strong> an<strong>der</strong>en Seite taugt das Thema kaum für positive Werbung für die Firma. Weshalb? Sowohl<br />

<strong>der</strong> Kunde wie auch <strong>der</strong> Investor als die wichtigsten Stakehol<strong>der</strong> e<strong>in</strong>es Unternehmens gehen<br />

stillschweigend davon aus, dass das Unternehmen ihre Prozesse und die Daten im Griff hat. E<strong>in</strong>e<br />

aktive Kommunikation zu diesem Thema kann sogar eher den E<strong>in</strong>druck erwecken, dass man es<br />

bisher nicht im Griff gehabt habe.<br />

1.6. Gesetzliche und regulatorische Anfor<strong>der</strong>ungen zum Thema<br />

Datenqualität<br />

Aus <strong>der</strong> Fülle <strong>der</strong> gesetzlichen und regulatorischen Anfor<strong>der</strong>ungen, <strong>in</strong> welchen die Qualität <strong>der</strong> Daten<br />

e<strong>in</strong>e entscheidende Rolle spielt, kann hier nur e<strong>in</strong>e Auswahl aufgeführt werden:<br />

1.6.1. Pflicht <strong>zur</strong> Etablierung e<strong>in</strong>es Internen Kontrollsystems gemäss OR728a<br />

Mit <strong>der</strong> Revision des Schweizerischen Obligationenrechts <strong>zur</strong> Revision wird den Unternehmen<br />

vorgeschrieben, e<strong>in</strong> funktionierendes <strong>in</strong>ternes Kontrollsystem aufzubauen:<br />

Die Revisionsstelle prüft, ob:<br />

… 4. e<strong>in</strong> funktionierendes <strong>in</strong>ternes Kontrollsystem existiert; … 37<br />

E<strong>in</strong> <strong>in</strong>ternes Kontrollsystem baut vorzugsweise auf vorhandenen Daten auf, welche an irgende<strong>in</strong>em<br />

Ort e<strong>in</strong>gegeben, <strong>in</strong> den meisten Fällen noch verarbeitet (beispielsweise verdichtet) werden, bevor sie<br />

<strong>in</strong> e<strong>in</strong>em Kontrollsystem angezeigt werden. Ist die Datenqualität e<strong>in</strong>es <strong>der</strong>artigen Kontrollsystems<br />

schlecht, werden <strong>in</strong> ihm schlussendlich auch Werte angezeigt, welche nicht <strong>der</strong> Realität entsprechen<br />

o<strong>der</strong> im schlimmsten Fall sogar <strong>der</strong> Realität wi<strong>der</strong>sprechen.<br />

E<strong>in</strong> Kontrollsystem, das auf m<strong>in</strong><strong>der</strong>wertigen Daten aufbaut, würde nutzlos o<strong>der</strong> sogar gefährlich, weil<br />

aufgrund dieser m<strong>in</strong><strong>der</strong>wertigen Daten Entscheidungen getroffen werden, die nicht den gewünschten<br />

Effekt zeigen.<br />

Diese Revision wird voraussichtlich im Juli 2007 <strong>in</strong> Kraft treten.<br />

1.6.2. Geldwäschereigesetz (GwG)<br />

Das Geldwäschereigesetz muss von je<strong>der</strong> <strong>in</strong> <strong>der</strong> Schweiz tätigen Unternehmung beachtet werden,<br />

welche im weitesten S<strong>in</strong>n mit F<strong>in</strong>anztransaktionen zu tun hat. Darunter fallen neben den Banken<br />

auch die so genannten „F<strong>in</strong>anz<strong>in</strong>termediäre“, welche <strong>in</strong> treuhän<strong>der</strong>ischer Funktion Gel<strong>der</strong> von<br />

Kunden entgegen nehmen und verwalten. Verh<strong>in</strong><strong>der</strong>t werden soll mit diesem Gesetz das<br />

Verschleiern und Verwischen <strong>der</strong> Herkunft <strong>der</strong> Gel<strong>der</strong> aus verbrecherischer Tätigkeit wie<br />

beispielsweise dem illegalen Handel mit Drogen, Waffen und Menschen o<strong>der</strong> aus Erpressungen.<br />

Neben <strong>der</strong> dar<strong>in</strong> enthaltenen Sorgfaltspflicht enthält es auch e<strong>in</strong>e Dokumentationspflicht, welche<br />

sicherstellen soll, dass alle getätigten Transaktionen lückenlos belegt werden können.<br />

Weiter muss <strong>der</strong> F<strong>in</strong>anzdienstleister die wirtschaftlichen H<strong>in</strong>tergründe und den Zweck e<strong>in</strong>er<br />

Transaktion abklären, bevor er sie durchführt und muss ungewöhnliche Transaktionen rechtzeitig<br />

erkennen, damit er sie genauer untersuchen kann. Dazu muss er alle bisherigen Transaktionen<br />

untersuchen und klassifizieren, damit allfällige Muster erkennbar werden. Wird diese Klassifizierung<br />

ungenügend durchgeführt, so fallen „ungewöhnliche Transaktionen“ weniger schnell auf und können<br />

so zu e<strong>in</strong>em Reputationsrisiko des entsprechenden F<strong>in</strong>anz<strong>in</strong>stitutes und des ganzen Bankenplatzes<br />

werden.<br />

37 Siehe Än<strong>der</strong>ung zum Firmenrecht unter [ 39 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 15 / 83


1.6.3. Datenschutzgesetz<br />

Das Datenschutzgesetz bezweckt den Schutz <strong>der</strong> Persönlichkeit und <strong>der</strong> Grundrechte von Personen,<br />

über die Daten bearbeitet werden 38 . Artikel 5 (Richtigkeit <strong>der</strong> Daten) sagt dazu aus:<br />

1. Wer Personendaten bearbeitet, hat sich über <strong>der</strong>en Richtigkeit zu vergewissern.<br />

2. Jede betroffene Person kann verlangen, dass unrichtige Daten berichtigt werden.<br />

Damit muss je<strong>der</strong>, <strong>der</strong> Daten zu e<strong>in</strong>er Person speichert, sicherstellen, dass diese richtig s<strong>in</strong>d.<br />

Betroffene haben dadurch e<strong>in</strong>en direkten Rechtsanspruch, dass die gespeicherten Daten <strong>der</strong> Realität<br />

entsprechen und dadurch e<strong>in</strong>e entsprechende Qualität (im S<strong>in</strong>ne von Korrektheit) haben.<br />

Personen, Unternehmen und Ämter, welche personenbezogene Daten speichern, haben nicht nur<br />

aus Eigennutz e<strong>in</strong> Interesse an korrekten Daten, son<strong>der</strong>n müssen sich auch diese genannte<br />

gesetzliche Vorgabe halten.<br />

1.6.4. Mehrwertsteuergesetz<br />

Zur korrekten Abrechnung <strong>der</strong> Mehrwertsteuer müssen verschiedene Parameter wie <strong>der</strong> Ort von<br />

Lieferungen, Dienstleistungen und Eigenverbrauch berücksichtigt werden. Weiter müssen die Artikel<br />

nach den verschiedenen Mehrwertsteuersätzen klassiert werden. Werden diese Parameter falsch<br />

erfasst, so errechnet die e<strong>in</strong>gesetzte Software e<strong>in</strong>en zu hohen o<strong>der</strong> zu tiefen Mehrwertsteuerbetrag.<br />

Bei e<strong>in</strong>er Kontrolle durch die Steuerbehörden kann dies zu massiven Steuernachfor<strong>der</strong>ungen führen,<br />

wenn die verwendeten Parameter nicht mit denen <strong>der</strong> Behörden übere<strong>in</strong>stimmen.<br />

1.6.5. Basel II<br />

Durch „Basel II“ ist jedes Kredit<strong>in</strong>stitut<br />

verpflichtet, se<strong>in</strong>en Kunden die Kredite<br />

risikogerecht zu belasten. E<strong>in</strong> solches<br />

Rat<strong>in</strong>g steht und fällt mit <strong>der</strong> Verfügbarkeit<br />

von korrekten Daten. Wie die<br />

Wirkungskette von Daten die Realität<br />

überlisten kann, ist bereits im Kapitel 1.5.4<br />

dargelegt worden. Werden solche Daten<br />

<strong>zur</strong> Beurteilung e<strong>in</strong>es Rat<strong>in</strong>gs e<strong>in</strong>gesetzt,<br />

ist es für alle Beteiligten wichtig, die<br />

Treibergrössen auf das Rat<strong>in</strong>g korrekt zu<br />

erfassen und zu verarbeiten.<br />

Abbildung 7: Die Treiber für den Sharehol<strong>der</strong> Value<br />

Schlägt die korrekte Beurteilung e<strong>in</strong>es Kreditnehmers fehl, so können dadurch folgende Risiken<br />

entstehen:<br />

• Der Kreditnehmer muss zuviel für se<strong>in</strong> Fremdkapital bezahlen, weil er zu ungünstig<br />

e<strong>in</strong>geschätzt wurde.<br />

• Die Bank hat unbewusst e<strong>in</strong> grösseres Kreditrisiko als ausgewiesen. Dadurch kann es im<br />

Extremfall trotz <strong>der</strong> regulatorischen Massnahmen zu e<strong>in</strong>em Bankenzusammenbruch kommen.<br />

• Die Bank verliert e<strong>in</strong>en möglicherweise guten Kunden, weil er bei e<strong>in</strong>er an<strong>der</strong>en Bank e<strong>in</strong><br />

besseres Rat<strong>in</strong>g und damit günstigeres Fremdkapital erhält.<br />

E<strong>in</strong>e korrekte Beurteilung des Unternehmens ist also sowohl aus Sicht <strong>der</strong> Bank als auch aus Sicht<br />

des beurteilten Unternehmens sehr wichtig.<br />

38 Zitat aus dem Bundesgesetz über den Datenschutz, Artikel 1 (Zweck) aus [ 9 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 16 / 83


1.6.6. Solvency II<br />

„Solvency II“ ist e<strong>in</strong> neues Aufsichtsmodell für die Versicherungsbranche und damit sozusagen das<br />

Versicherungs-Gegenstück zu „Basel II“. Der Inhalt von „Solvency II“ als Weiterführung <strong>der</strong><br />

„Solvency I“-Richtl<strong>in</strong>ien ist <strong>in</strong>sbeson<strong>der</strong>e die risikogerechte Ausgestaltung von Versicherungsprämien<br />

und Eigenkapitalquoten sowie die Harmonisierung <strong>der</strong> Aufsicht von Versicherungen <strong>in</strong>nerhalb <strong>der</strong><br />

EU 39 . Wie schon bei den Richtl<strong>in</strong>ien zu „Basel II“ gezeigt, ist auch hier die Qualität <strong>der</strong> Daten<br />

entscheidend, aufgrund <strong>der</strong>er die E<strong>in</strong>schätzung <strong>der</strong> Versicherungskunden vorgenommen wird.<br />

„Solvency II“ wird voraussichtlich 2008 von den e<strong>in</strong>zelnen Mitgliedsstaaten umgesetzt werden.<br />

1.6.7. EU-Richtl<strong>in</strong>ie über Märkte für F<strong>in</strong>anz<strong>in</strong>strumente (MiFID)<br />

Die Richtl<strong>in</strong>ie „2002/92/EG des Europäischen Parlaments und des Rates vom 9. Dezember 2002<br />

über Versicherungsvermittlung“ 40 soll die F<strong>in</strong>anzmärkte im europäischen B<strong>in</strong>nenmarkt harmonisieren.<br />

Das Ziel <strong>der</strong> so genannten MiFID-Richtl<strong>in</strong>ie (Abkürzung für „Markets <strong>in</strong> F<strong>in</strong>ancial Instruments<br />

Directive“) ist es, dass F<strong>in</strong>anz<strong>in</strong>stitute <strong>in</strong> erster L<strong>in</strong>ie die Interessen ihrer Kunden wahrnehmen<br />

müssen.<br />

Dar<strong>in</strong> enthalten ist beispielsweise die Vorschrift, dass Kundenaufträge zu den für den Kunden<br />

günstigsten Konditionen ausgeführt werden müssen bezüglich Kurs, Kosten, Schnelligkeit,<br />

Wahrsche<strong>in</strong>lichkeit <strong>der</strong> Ausführung und Abwicklung des Umfanges sowie weiterer Kriterien 41 . Um<br />

diese Vorschrift erfüllen zu können muss <strong>der</strong> F<strong>in</strong>anzdienstleister überhaupt selbst e<strong>in</strong>en Überblick<br />

haben, wie und wo diese Aufträge am günstigsten ausgeführt werden können. Dazu muss er die<br />

Preise und Konditionen an den verschiedenen Märkten genau im Blick haben. E<strong>in</strong>e entsprechend<br />

gefütterte Datenbank muss daher stets auf dem neusten Stand se<strong>in</strong>.<br />

1.6.8. Sarbanes Oxley Act (SOX)<br />

Der Sarbanes Oxley Act of 2002 42 – im Speziellen <strong>der</strong> Abschnitt 404 („Management Assessment of<br />

Internal Controls“), welcher im Folgenden mit „SOX 404“ referenziert wird – schreibt Unternehmen,<br />

welche an US-Börsen kotiert s<strong>in</strong>d, e<strong>in</strong> M<strong>in</strong>destmass an <strong>in</strong>ternen Kontrollen vor. Dieses Gesetz wurde<br />

als Folge <strong>der</strong> spektakulären Firmenzusammenbrüche von Enron und Worldcom vom US-Senat<br />

verabschiedet, damit Anleger und Investoren wie<strong>der</strong> vermehrt Vertrauen <strong>in</strong> die börsenkotierten<br />

Unternehmen haben.<br />

Im Rahmen von „SOX 404“ müssen die betreffenden Unternehmen e<strong>in</strong> Netz von<br />

Qualitätsmessstellen im Unternehmen aufbauen, mit dessen Hilfe sie sicherstellen können, dass die<br />

Unternehmensbilanz schlussendlich die Werte ausweist, die auch den Gesetzen und <strong>der</strong> Realität<br />

entsprechen. Dieses Netz geht weit über die normale Kostenrechnung h<strong>in</strong>aus und umfasst<br />

beispielsweise auch das Change Management von unternehmenskritischen Applikationen und<br />

Systemen. Hier muss beispielsweise über nahtlose „Audit Trails“ nachgewiesen werden können,<br />

welche Än<strong>der</strong>ungen <strong>in</strong> verarbeitenden Applikationen durchgeführt wurden. Damit werden auf e<strong>in</strong>en<br />

Schlag viele Applikationen und <strong>Datenbanken</strong> <strong>in</strong>teressante Lieferanten von SOX 404 relevanten<br />

Informationen, welche nicht direkt im Kernprozess des Unternehmens positioniert s<strong>in</strong>d. Solche<br />

Applikationen und <strong>Datenbanken</strong> werden nun Teil des <strong>in</strong>ternen Zertifizierungsprozesses und somit für<br />

das korrekte Ausweisen des Geschäftserfolgs immer wichtiger. E<strong>in</strong>e gute Datenqualität <strong>in</strong> diesem<br />

Bereich ist somit wichtig für die <strong>in</strong>ternen Kontrollprozesse und s<strong>in</strong>d so die Versicherung <strong>der</strong> Manager,<br />

die jeweils Dutzende von Dokumenten unterschreiben müssen, ohne <strong>der</strong>en Inhalt im Detail<br />

kontrollieren zu können.<br />

39 Siehe dazu Kuli <strong>in</strong> [ 31 ].<br />

40 Siehe dazu den Gesetzestext <strong>der</strong> EU-Richtl<strong>in</strong>ie 2004/39/EG unter [ 16 ].<br />

41 Die genannten Kriterien werden so ausdrücklich aufgeführt <strong>in</strong> Artikel 21 <strong>der</strong> EU-Richtl<strong>in</strong>ie unter [ 16 ].<br />

42 Siehe Gesetzestext des US-Kongresses. Quelle unter [ 49 ] – Benannt nach den beiden US-Senatoren Paul<br />

S. Sarbanes (Demokrat) und Michael Oxley (Republikaner), welche dieses Gesetz massgeblich verfasst hatten.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 17 / 83


1.6.9. USA PATRIOT Act<br />

Für Unternehmen, welche <strong>in</strong> <strong>der</strong> F<strong>in</strong>anz- o<strong>der</strong> Transportbranche tätig s<strong>in</strong>d und mit den USA<br />

Geschäftskontakte unterhalten, ist <strong>der</strong> USA PATRIOT Act (vollständiger Name „Unit<strong>in</strong>g and<br />

Strengthen<strong>in</strong>g America by Provid<strong>in</strong>g Appropriate Tools Required to Intercept and Obstruct Terrorism<br />

Act of 2001" 43 e<strong>in</strong> weiterer wichtiger Rahmengeber.<br />

Dieses Gesetz sieht vor, dass F<strong>in</strong>anz<strong>in</strong>stitute verdächtige Kunden und Transaktionen erkennen<br />

müssen. Fluggesellschaften müssen zudem verschiedene Informationen an die US-Regierung<br />

übermitteln. S<strong>in</strong>d diese Daten fehlerhaft, so kann e<strong>in</strong>em Flugzeug die Landeerlaubnis verweigert<br />

werden, wenn dieses e<strong>in</strong>e <strong>der</strong> US-Regierung ungenehme Person an Bord hat – mit entsprechenden<br />

term<strong>in</strong>lichen und f<strong>in</strong>anziellen Folgen 44 .<br />

E<strong>in</strong>e entsprechende Qualität <strong>der</strong> übermittelten Daten ist also sowohl im Interesse <strong>der</strong><br />

Fluggesellschaft als auch <strong>der</strong> US-Behörde. Wird e<strong>in</strong>e Person fälschlicherweise als gefährlich<br />

e<strong>in</strong>gestuft, hat dies langwierige Flüge über Ausweichrouten o<strong>der</strong> Zwischenlandungen <strong>zur</strong> Folge –<br />

wird e<strong>in</strong>e Person fälschlicherweise nicht als gefährlich e<strong>in</strong>gestuft, so kann dies schwerwiegende<br />

politische Folgen haben. Interessanterweise trägt aber das Risiko <strong>in</strong> jedem Fall nicht die US-<br />

Regierung, son<strong>der</strong>n <strong>der</strong> e<strong>in</strong>zelne Passagier und die Fluggesellschaft.<br />

1.7. Organisatorische E<strong>in</strong>ordnung des Themas im Unternehmen<br />

Das klassische Qualitätsmanagement wird von verschiedenen Autoren als Querschnittsfunktion im<br />

Unternehmen verstanden 45 , vor allem deshalb, weil bei e<strong>in</strong>er effektiven und effizienten Umsetzung<br />

verschiedenste Diszipl<strong>in</strong>en <strong>in</strong>nerhalb und ausserhalb des Unternehmens e<strong>in</strong>gebunden werden wie<br />

Informatik, Market<strong>in</strong>g, Statistik, Operations Research, die Verhaltens- und<br />

Organisationswissenschaften sowie das Controll<strong>in</strong>g.<br />

Bei <strong>der</strong> Datenqualität verhält es sich ähnlich, wenn Datenqualitätsmanagement als Teilgebiet des<br />

Qualitätsmanagements verstanden wird. An<strong>der</strong>erseits treffen viele Bereiche <strong>der</strong> normalen Qualität<br />

nicht zu und es müssen zusätzliche Aspekte gegenüber dem klassischen Qualitätsmanagement<br />

berücksichtigt werden.<br />

1.7.1. Datenqualität als Risiko Management<br />

Viele <strong>der</strong> unter Kapitel 1.4 aufgeführten Fälle zeigen, dass sich für das Thema Datenqualität niemand<br />

wirklich <strong>in</strong>teressiert – bis e<strong>in</strong> Vorfall, <strong>der</strong> auf schlechte Datenqualität <strong>zur</strong>ückzuführen ist, hohe Wellen<br />

wirft. Das Problem muss ja nicht gleich publik werden – auch <strong>in</strong>terne Konflikte b<strong>in</strong>den jeweils viele<br />

Ressourcen, die bei rechtzeitiger Aufmerksamkeit nicht hätten e<strong>in</strong>gesetzt werden müssen.<br />

Daher geht es beim Thema Datenqualität – <strong>in</strong>sbeson<strong>der</strong>e bei geschäftskritischen Daten – <strong>in</strong> erster<br />

L<strong>in</strong>ie um Risikomanagement. Bei nicht-geschäftskritischen Anwendungen ist <strong>in</strong> jedem Fall zu prüfen,<br />

welche Rolle diese Datenbank auf die Geschäftstätigkeit hat. Auch wenn nicht direkt e<strong>in</strong> E<strong>in</strong>fluss auf<br />

die unmittelbaren Geschäftsprozesse erkennbar ist, wird es doch <strong>der</strong> Normalfall se<strong>in</strong>, dass solche<br />

Daten <strong>in</strong> irgende<strong>in</strong>er Weise <strong>in</strong> die Geschäftstätigkeit e<strong>in</strong>fliessen. An<strong>der</strong>nfalls müsste <strong>der</strong> E<strong>in</strong>satz<br />

dieser Applikation o<strong>der</strong> Datenbank im Unternehmen grundsätzlich <strong>in</strong> Frage gestellt werden. Folglich<br />

ist es also nicht e<strong>in</strong>e Frage, wo das Thema <strong>der</strong> Datenqualität für die verschiedenen Applikationen und<br />

<strong>Datenbanken</strong> angesiedelt wird, son<strong>der</strong>n wie <strong>in</strong>tensiv sich das Thema für die e<strong>in</strong>zelnen Applikationen<br />

und <strong>Datenbanken</strong> auswirkt.<br />

43 Siehe Gesetzestext des US-Kongresses. Quelle unter [ 59 ] – zu Deutsch etwa „Gesetz <strong>zur</strong> Stärkung und<br />

E<strong>in</strong>igung Amerikas durch Bereitstellung geeigneter Werkzeuge, um Terrorismus aufzuhalten und zu<br />

blockieren". Übersetzung aus Wikipedia [ 83 ].<br />

44 Siehe dazu auch [ 51 ] und <strong>der</strong> Auszug aus dem Artikel von Spiegel Onl<strong>in</strong>e unter Kapitel 1.4.<br />

45 Siehe dazu Henn<strong>in</strong>g <strong>in</strong> [ 24 ], Seite 3.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 18 / 83


1.7.2. Datenqualität als Management-Thema<br />

Betrachtet man die potentiell kritischen Auswirkungen von schlechter Datenqualität, so ist es<br />

unabd<strong>in</strong>gbar, dass das Thema Datenqualität se<strong>in</strong>e Aufmerksamkeit im Management erhält. Ohne die<br />

notwendige Unterstützung aus <strong>der</strong> Geschäftsleitung ist es schwierig, die für e<strong>in</strong>e Überprüfung und<br />

Sicherung <strong>der</strong> Datenqualität notwendigen Ressourcen zugesprochen zu bekommen und e<strong>in</strong>zusetzen.<br />

Inzwischen liegen aber genügend Methodologien und Studien vor, welche es e<strong>in</strong>em ermöglichen, die<br />

schlechte Datenqualität im Unternehmen zu identifizieren und quantifizieren. Literatur, welche sich<br />

mit den Kosten von schlechter Qualität und Datenqualität befassen, existiert <strong>in</strong>zwischen auch im<br />

deutschsprachigen Raum 46 . Aufgrund dieses Sekundärmaterials sollte es heute möglich se<strong>in</strong>,<br />

entsprechende Bus<strong>in</strong>ess Cases zu erstellen und dadurch dem Management die Wichtigkeit des<br />

Themas klar machen zu können.<br />

1.7.3. Datenqualität und Market<strong>in</strong>g<br />

Sieht man die beschriebenen Chancen aus Kapitel 1.5.6, so muss das Thema „Datenqualität“ auch<br />

aus dem Blickw<strong>in</strong>kel des Market<strong>in</strong>gs und dessen Chancen und Möglichkeiten betrachtet werden.<br />

Gehört es sogar zu den Kernkompetenzen e<strong>in</strong>es Unternehmens, mit Informationen zu handeln (wie<br />

beispielsweise bei den Firmen Reuters o<strong>der</strong> Telekurs), dann verdient die Datenqualität <strong>der</strong><br />

verbreiteten Informationen e<strong>in</strong>e zusätzlich höhere Aufmerksamkeit als <strong>in</strong> an<strong>der</strong>en Firmen. Trotzdem<br />

sollten auch an<strong>der</strong>e Unternehmen analog zu Fe<strong>der</strong>al Express (wie <strong>in</strong> Kapitel 1.1 beschrieben) die im<br />

Unternehmen enthaltenen Informationen als extern wahrgenommenes Produkt verstehen. Dies ergibt<br />

gegenüber <strong>der</strong> Konkurrenz e<strong>in</strong> Vorsprung, was sich wie<strong>der</strong>um <strong>in</strong> Umsatz und Gew<strong>in</strong>n nie<strong>der</strong>schlägt.<br />

Umgekehrt stellt das Market<strong>in</strong>g Funktionen und Verfahren <strong>zur</strong> Verfügung, mit denen sich die<br />

Zufriedenheit <strong>der</strong> Datenempfänger und –verwen<strong>der</strong> eruieren lässt und sich somit e<strong>in</strong>e <strong>in</strong>direkte<br />

E<strong>in</strong>schätzung <strong>der</strong> Datenqualität erreichen lässt. Diese Erhebungen spielen dann e<strong>in</strong>e Rolle, wenn es<br />

darum geht, die „weichen Faktoren“ <strong>der</strong> Datenqualität zu beurteilen 47 .<br />

1.7.4. Datenqualität und Bus<strong>in</strong>ess Intelligence<br />

Im Rahmen von Bus<strong>in</strong>ess Intelligence (BI) werden verschiedene bestehende <strong>Datenbanken</strong> <strong>in</strong>nerhalb<br />

und ausserhalb des Unternehmens <strong>in</strong> Data Warehouses zusammengeführt mit dem Ziel, mittels Data<br />

M<strong>in</strong><strong>in</strong>g neue Geschäftsaktivitäten zu entdecken, bestehende Prozesse zu straffen, Risiken zu<br />

m<strong>in</strong>imieren und die Wertschöpfung zu vergrössern.<br />

Diese Bus<strong>in</strong>ess Intelligence wird heute meistens projektmässig aufgebaut und mittelfristig als eigene<br />

Organisationse<strong>in</strong>heit geführt. Da im Rahmen von BI-Aktivitäten dauernd mit Daten aus den<br />

verschiedensten Bereichen des Unternehmens gearbeitet wird, ist es e<strong>in</strong> viel versprechen<strong>der</strong> Ansatz,<br />

das firmeneigene Kompetenzzentrum für Datenqualität <strong>in</strong> dieser OE anzusiedeln.<br />

46 Siehe dazu auch die Verfahren, die Kosten zu berechnen von Losh<strong>in</strong> <strong>in</strong> [ 34 ] und H<strong>in</strong>richs <strong>in</strong> [ 25 ].<br />

47 Siehe dazu die Aufteilung <strong>der</strong> e<strong>in</strong>zelnen Datenqualitätsfaktoren im Datenqualitäts-Radar von Würthele <strong>in</strong><br />

Kapitel 2.6.2 wo neben den harten Faktoren auch weiche Faktoren e<strong>in</strong>e Rolle spielen.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 19 / 83


2. Was ist Datenqualität<br />

2.1. Was ist Qualität<br />

2.1.1. Herkunft und Ursprung<br />

Der Begriff „Qualität“ stammt aus dem Late<strong>in</strong>ischen „qualis“, welches „wie beschaffen“ bedeutet 48 .<br />

E<strong>in</strong>e weitergehende Def<strong>in</strong>ition des Begriffs erweist sich als schwierig, da er von verschiedenen<br />

Wissenschaftszweigen auf unterschiedliche Art behandelt wird 49 und sich wegen <strong>der</strong> dynamischen<br />

Entwicklung des Qualitätsmanagements das Verständnis des Begriffes seit den 50er Jahren stark<br />

verän<strong>der</strong>t hat 50 .<br />

Zu Beg<strong>in</strong>n wurde Qualität vor allem<br />

als Ergebnis e<strong>in</strong>es Prozesses<br />

betrachtet und Qualität wurde vor<br />

allem als „Qualitätskontrolle“<br />

verstanden. Als Werkzeug wurde seit<br />

ca. 1930 vor allem die Statistik<br />

verwendet.<br />

Ab ca. 1960 kam die Dimension des<br />

Prozesses dazu. Qualität wurde nun<br />

mehr als Querschnittsfunktion<br />

verstanden und bezog zunehmend<br />

auch die vor- und nachgelagerten<br />

Prozesse mit e<strong>in</strong>. E<strong>in</strong>e Folge dieses<br />

Denkens waren die Normen ISO<br />

9000 und folgende. Damit kam das<br />

„Qualitätsmanagement“ auf.<br />

Abbildung 8: Die Entwicklungsphasen des<br />

Qualitätsmanagements 51<br />

Erst ab 1990 entstand das Verständnis für e<strong>in</strong>e Qualitätsbetrachtung vom Kunden her (<strong>in</strong>tern o<strong>der</strong><br />

extern) und von Qualität als undelegierbare Managementaufgabe. Qualität wird als<br />

Unternehmensaufgabe verstanden 52 und mit TQM-Systemen wie dem EFQM-Modell 53 umfassend<br />

messbar gemacht.<br />

Als Weiterentwicklung dieses Konzeptes präsentierte Seghezzi e<strong>in</strong>e „Hierarchie <strong>der</strong> Qualität“, die<br />

auch noch die Gesellschaft mit e<strong>in</strong>bezieht. 54 . Die <strong>in</strong> diesem Konzept enthaltene Grafik ist <strong>in</strong> Abbildung<br />

9 ersichtlich.<br />

48 Siehe Pira, 1999, <strong>in</strong> [ 42 ], Seite 6.<br />

49 Siehe Wonigeit, 1994, <strong>in</strong> [ 88 ], Seite 15.<br />

50 Siehe Wonigeit, 1994, <strong>in</strong> [ 88 ], Seite 32ff.<br />

51 In Anlehnung an Pira, 1999, <strong>in</strong> [ 42 ], Seite 9.<br />

52 Siehe Pira, 1999, <strong>in</strong> [ 42 ], Seiten 6ff.<br />

53 Def<strong>in</strong>ition und Erläuterung des EFQM-Modells <strong>in</strong> [ 17 ].<br />

54 Siehe Seghezzi, 1996, <strong>in</strong> [ 50 ], Seite 27.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 20 / 83


Qualität kann nach diesem Konzept<br />

nur <strong>in</strong> e<strong>in</strong>er Gesellschaft mit<br />

entsprechenden kulturellen,<br />

zivilisatorischen und <strong>in</strong>frastrukturellen<br />

Voraussetzungen entstehen. Erst<br />

dies ermöglicht es e<strong>in</strong>er<br />

Unternehmung überhaupt, e<strong>in</strong><br />

Qualitätsbewusstse<strong>in</strong> zu entwickeln<br />

und damit e<strong>in</strong> eigenes<br />

Qualitätsmanagement-System<br />

aufzubauen.<br />

Dieses sollte als primären Fokus die<br />

Prozesse haben. Denn erst wenn<br />

diese e<strong>in</strong>e entsprechende Qualität<br />

aufweisen, kann auch die erbrachte<br />

Leistung die benötigte Qualität<br />

aufweisen.<br />

Abbildung 9: Die Hierarchie <strong>der</strong> Qualität nach Seghezzi 55<br />

2.2. Generelle Def<strong>in</strong>ition von Qualität<br />

Im Grunde genommen ist <strong>der</strong> Begriff „Qualität“ wertneutral und enthält we<strong>der</strong> e<strong>in</strong>e positive noch e<strong>in</strong>e<br />

negative Wertung. Trotzdem wird <strong>der</strong> Begriff fast immer mit „guter Qualität“ <strong>in</strong> Verb<strong>in</strong>dung gebracht.<br />

Qualität kann auch nicht vorhanden o<strong>der</strong> absent se<strong>in</strong>, son<strong>der</strong>n begleitet den Menschen als<br />

E<strong>in</strong>schätzungshilfe für jede Art von Produkten und Dienstleistungen.<br />

2.2.1. Bekannte Qualitätsnormen<br />

2.2.1.1. Abgestufte Qualitätsnormen<br />

Die wohl bekannteste Qualitätsnorm ist die Benotung <strong>in</strong> <strong>der</strong> Schule. Dabei wird über e<strong>in</strong>e festgelegte<br />

Abstufung die Leistung <strong>der</strong> Schüler o<strong>der</strong> von Arbeiten ausgedrückt und damit auch die Qualität dieser<br />

Leistung respektive des Schülers <strong>in</strong>sgesamt.<br />

E<strong>in</strong>e weitere e<strong>in</strong>fache und auch e<strong>in</strong>e <strong>der</strong> geläufigsten Qualitätsnormen ist die E<strong>in</strong>teilung von Hotels <strong>in</strong><br />

Klassen, welche sich <strong>in</strong> <strong>der</strong> Vergabe von Sternen äussert. Dabei wird das Hotel regelmässig<br />

bezüglich verschiedener vorher festgelegter Qualitätskriterien überprüft und allenfalls die E<strong>in</strong>stufung<br />

verän<strong>der</strong>t, wenn das Hotel diesen gefor<strong>der</strong>ten Kriterien nicht genügt - o<strong>der</strong> es diese übertrifft. Diese<br />

Norm ist <strong>in</strong>zwischen so verbreitet, dass die Systematik vor allem <strong>in</strong>nerhalb <strong>der</strong> Gastronomiebranche<br />

weit verbreitet ist: So vergeben beispielsweise Gastronomiekritiker Kochlöffel und Kochmützen o<strong>der</strong><br />

Schweiz Tourismus vergibt „Q“s. Aber auch an<strong>der</strong>e Branchen haben dieses System adaptiert: <strong>der</strong><br />

„Euro-NCAP Crashtest“ vergibt Sterne für die Sicherheits-Klassifizierung von Autos und<br />

verschiedenste Zeitschriften und Webseiten vergeben für die vere<strong>in</strong>fachte Beurteilung von getesteten<br />

55 Grafik nachgezeichnet aus Seghezzi, 1996, <strong>in</strong> [ 50 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 21 / 83


Produkten e<strong>in</strong>e Anzahl Sterne o<strong>der</strong> Symbole, welche <strong>der</strong> Corporate Identity des vergebenden<br />

Unternehmen entsprechen.<br />

Auch die Unternehmens-E<strong>in</strong>stufungen von Rat<strong>in</strong>g-Agenturen wie Moody’s und Standard & Poor’s<br />

s<strong>in</strong>d e<strong>in</strong> Ausdruck davon, wie gut die Qualität e<strong>in</strong>es Unternehmens ist, e<strong>in</strong>gegangenen f<strong>in</strong>anziellen<br />

Verpflichtungen nachzukommen.<br />

Vor allem im Lebensmittelbereich s<strong>in</strong>d noch viele weitere abgestufte Qualitätsauszeichnungen im<br />

Gebrauch: Die Auszeichnung von hochwertigem Cognac, Lachs o<strong>der</strong> Kaviar mit Sternen ist nur e<strong>in</strong>e<br />

kle<strong>in</strong>e Auswahl von Versuchen <strong>der</strong> Hersteller, ihr eigenes Sortiment so zu differenzieren, dass <strong>der</strong><br />

Kunde auch sicher se<strong>in</strong> kann, für den bezahlten Preis e<strong>in</strong>e angemessene Qualität zu erhalten.<br />

2.2.1.2. E<strong>in</strong>stufige Qualitätsnormen<br />

Neben den abgestuften Qualitätsnormen gibt es auch e<strong>in</strong>e ganze Reihe von e<strong>in</strong>stufigen<br />

Qualitätsnormen. Diese s<strong>in</strong>d wesentlich e<strong>in</strong>facher zu handhaben und dem Kunden auch wesentlich<br />

e<strong>in</strong>facher zu kommunizieren. Dabei geht es <strong>in</strong> <strong>der</strong> Regel darum, dass die Produkte o<strong>der</strong><br />

Dienstleistungen, welche diese Auszeichnung tragen, bestimmte, vorher def<strong>in</strong>ierte Anfor<strong>der</strong>ungen<br />

erfüllen. Die Palette <strong>der</strong> Label geht von <strong>der</strong> Materialbeschaffenheit („Re<strong>in</strong>e Schurwolle“),<br />

Produkteigenschaften („M<strong>in</strong>ergie-Haus“) und Dienstleistungsqualität („eduQua“) über Versprechen im<br />

Umweltbereich („Bio“, „FSC-Holz“) bis zum E<strong>in</strong>halten von sozialen Standards („Max Havelaar“).<br />

E<strong>in</strong>e weitere Variante <strong>der</strong> e<strong>in</strong>stufigen Qualitätsnorm ist die Wahl von „Produkten des Jahres“, die <strong>in</strong><br />

verschiedenen Zeitschriften, Organisationen und Fernsehsendungen gepflegt werden. So soll die<br />

Vergabe von Auszeichnungen wie dem „Oskar“, dem „Grammy“, dem „Auto des Jahres“ aber auch<br />

Titel wie „Miss Universe“ dem Publikum e<strong>in</strong>e Hervorhebung signalisieren, dass es sich dabei um das<br />

„Beste vom Besten“ handelt.<br />

Das Problem solcher Auszeichnungen liegt jedoch <strong>in</strong> <strong>der</strong> Behauptung, solche Preisträger seien das<br />

„Beste vom Besten“, denn e<strong>in</strong>e solche Beurteilung muss hochgradig subjektiv se<strong>in</strong>. Zuerst erfolgt<br />

e<strong>in</strong>e Beurteilung <strong>der</strong> verschiedenen Leistungsmerkmale. Diese kann sehr oft noch relativ objektiv<br />

erfolgen – problematisch wird es aber dann, wenn e<strong>in</strong>e Beurteilung erfolgen soll, ob e<strong>in</strong>e höhere<br />

Klassierung im Kriterium A o<strong>der</strong> B als besser e<strong>in</strong>zustufen ist. Kommen dann noch Kriterien wie die<br />

Ästhetik mit <strong>in</strong>s Spiel, ist e<strong>in</strong>e Objektivität noch schwieriger zu begründen.<br />

2.2.2. Def<strong>in</strong>ition Aufgrund von Normen<br />

Qualität ist die Übere<strong>in</strong>stimmung zwischen den festgestellten Eigenschaften und den vorher<br />

festgelegten For<strong>der</strong>ungen e<strong>in</strong>er Betrachtungse<strong>in</strong>heit. 56<br />

Ähnlich sieht dies auch die DIN Norm 8402 für die Qualitätsbewertung:<br />

Qualitätsbewertung ist e<strong>in</strong>e systematische Untersuchung, <strong>in</strong>wieweit e<strong>in</strong>e E<strong>in</strong>heit fähig ist, die<br />

festgelegte Qualitätsanfor<strong>der</strong>ung zu erfüllen. 57<br />

Diese generellen M<strong>in</strong>destdef<strong>in</strong>itionen sche<strong>in</strong>en e<strong>in</strong>erseits simpel, an<strong>der</strong>erseits enthalten sie bereits<br />

die entscheidenden Punkte für e<strong>in</strong>e erfolgreiche Messung:<br />

1. Man muss vor <strong>der</strong> Messung def<strong>in</strong>ieren, welche E<strong>in</strong>heiten untersucht werden sollen<br />

2. Man muss vor <strong>der</strong> Messung def<strong>in</strong>ieren, welche Eigenschaften untersucht werden sollen<br />

3. Man muss vor <strong>der</strong> Messung def<strong>in</strong>ieren, wann e<strong>in</strong>e For<strong>der</strong>ung als erfüllt gilt<br />

4. Man muss vor <strong>der</strong> Messung die Qualitätsanfor<strong>der</strong>ungen dokumentieren<br />

Erst durch diese Def<strong>in</strong>itionen kann geprüft werden, ob e<strong>in</strong>e zu untersuchende E<strong>in</strong>heit (von Daten) die<br />

gestellten Anfor<strong>der</strong>ungen überhaupt erfüllt. Das Stellen dieser simplen Anfor<strong>der</strong>ungen führt dazu,<br />

dass sich jemand (zum Teil erstmalig) darüber Gedanken macht, was ihm <strong>in</strong> welcher Qualität<br />

überhaupt wichtig ist.<br />

56 Def<strong>in</strong>ition nach IEC 2371.<br />

57 Auszug aus DIN EN ISO 8402, 1995-08, Ziffer 4.6 (Begriffsdef<strong>in</strong>itionen für ISO 9000), Quelle unter [ 47 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 22 / 83


Dies wird <strong>in</strong>sbeson<strong>der</strong>e dann wichtig, wenn man <strong>der</strong>en Verwendungszweck mit e<strong>in</strong>bezieht: Man wird<br />

wohl kaum Tafeläpfel <strong>der</strong> Klasse 1A kaufen, wenn man damit Apfelessig herstellen will. Somit ist es<br />

nicht entscheidend, dass man immer Top-Qualität erreicht. Entscheidend ist, dass das verwendete<br />

Produkt die daran gestellten Anfor<strong>der</strong>ungen erfüllt.<br />

Somit muss man sich im Klaren se<strong>in</strong>, wie man etwas verwenden will, bevor man die Anfor<strong>der</strong>ungen<br />

an <strong>der</strong>en Qualität def<strong>in</strong>iert.<br />

2.2.3. Erweiterte Def<strong>in</strong>ition aus <strong>der</strong> Literatur<br />

In <strong>der</strong> produzierenden Industrie existieren verschiedene Ansätze, die Dimensionen <strong>der</strong> Qualität zu<br />

unterscheiden. Garv<strong>in</strong> def<strong>in</strong>ierte 1987 acht Dimensionen <strong>der</strong> Qualität: 58<br />

1. Performance Primäre Betriebscharakteristiken<br />

2. Features Charakteristiken, welche die die Basisfunktionen des Produktes ergänzen<br />

3. Reliability Wahrsche<strong>in</strong>lichkeit <strong>der</strong> Fehlfunktion o<strong>der</strong> des Ausfalls <strong>in</strong>nerhalb e<strong>in</strong>es<br />

spezifizierten Zeitraums<br />

4. Conformance Der Grad <strong>der</strong> Übere<strong>in</strong>stimmung des Produktes mit gängigen Standards<br />

5. Durability Der Nutzen, den man aus diesem Produkt gew<strong>in</strong>nt, bevor es ausser<br />

Betrieb genommen werden muss<br />

6. Serviceability Geschw<strong>in</strong>digkeit, Verb<strong>in</strong>dlichkeit, Kompetenz und Reparaturfreundlichkeit<br />

des Produktes<br />

7. Aesthetics Wie das sich Produkt über die S<strong>in</strong>ne wahrnehmen lässt<br />

8. Perceived Quality Rückschlüsse auf die Qualität auf <strong>der</strong> Basis von Image, Markenname<br />

(Brand) und <strong>der</strong> Werbung für dieses Produkt und diese Firma.<br />

E<strong>in</strong> alternativer Ansatz von Garv<strong>in</strong> e<strong>in</strong> Jahr später versuchte, die Perspektiven von verschiedenen<br />

Wissenschaftsdiszipl<strong>in</strong>en zu def<strong>in</strong>ieren. Dabei verglich er die verschiedenen Qualitätskonzepte<br />

verschiedener Autoren:<br />

• Wert – Feigenbaum (1951); Abbott (1955)<br />

• Übere<strong>in</strong>stimmung mit Spezifikationen – Levitt (1972); Gilmore (1974)<br />

• Übere<strong>in</strong>stimmung mit Erfor<strong>der</strong>nissen – Crosby (1979)<br />

• Ständige Verbesserung, da Def<strong>in</strong>ition im Grundsatz unmöglich ist – Dem<strong>in</strong>g (1982)<br />

• Fitness for use – Juran und Gryna (1988)<br />

Die daraus gewonnenen Ansätze von Garv<strong>in</strong> sowie die Bereiche, <strong>in</strong> denen diese Ansätze gemäss<br />

Wagner favorisiert werden, s<strong>in</strong>d <strong>in</strong> Tabelle 2 aufgezeigt. Nach Wagner haben alle diese Def<strong>in</strong>itionen<br />

ihre Berechtigung und werden <strong>in</strong> <strong>der</strong> Praxis auch e<strong>in</strong>gesetzt.<br />

58 Siehe Garv<strong>in</strong>, 1987 <strong>in</strong> [ 20 ], Seiten 101ff., zitiert und übersetzt aus Wagner, 2005 <strong>in</strong> [ 64 ], Seite 4-97.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 23 / 83


Ansatz<br />

Kriterium<br />

Def<strong>in</strong>ition<br />

Transzendenter<br />

Ansatz<br />

„Qualität, … man<br />

weiss, was es ist und<br />

man weiss es doch<br />

nicht. … Aber<br />

manche D<strong>in</strong>ge s<strong>in</strong>d<br />

nun mal besser als<br />

an<strong>der</strong>e, das heisst,<br />

sie haben mehr<br />

Qualität“<br />

Pirsig, 1991, S. 189<br />

Produktorientierter<br />

Ansatz<br />

„… differences <strong>in</strong><br />

quality often consist<br />

of differences <strong>in</strong> the<br />

quality of some<br />

desired <strong>in</strong>gredient or<br />

attribute.”<br />

Abbott, 1955,<br />

S. 126ff.<br />

Herkunft Philosophie Wirtschaftswissensch<br />

aften<br />

Probleme<br />

Kernaussagen<br />

Operationalisierbarkeit<br />

wird<br />

favorisiert<br />

von<br />

Qualität ist <strong>der</strong><br />

absolut höchste<br />

Standard <strong>der</strong> Güte<br />

e<strong>in</strong>er Leistung.<br />

Auch wenn <strong>der</strong><br />

Begriff nicht exakt<br />

def<strong>in</strong>ierbar ist, so<br />

weiss doch je<strong>der</strong>,<br />

wann er Qualität vor<br />

sich hat.<br />

Vage Def<strong>in</strong>ition;<br />

ke<strong>in</strong>e exakte<br />

Anwendbarkeit.<br />

Kaum<br />

operationalisierbar,<br />

nicht zum Aufbau<br />

e<strong>in</strong>es<br />

Mess<strong>in</strong>strumentarium<br />

s geeignet.<br />

Kunden und<br />

Marketeers<br />

Qualitätsunterschiede<br />

lassen sich<br />

<strong>zur</strong>ückführen auf<br />

Unterschiede <strong>in</strong> <strong>der</strong><br />

Menge e<strong>in</strong>es<br />

Bestandteils o<strong>der</strong><br />

Attributes die zu e<strong>in</strong>er<br />

Leistung gehören.<br />

Lässt subjektive<br />

Komponente <strong>der</strong><br />

E<strong>in</strong>stellungen<br />

unberücksichtigt.<br />

Käufer können<br />

unterschiedliche<br />

Massstäbe anlegen.<br />

Produktorientierte<br />

Qualitäts<strong>in</strong>dikatoren<br />

können durch<br />

Kommunikationspoliti<br />

k <strong>der</strong> Unternehmen<br />

zu Massstäben<br />

gemacht werden.<br />

Sehr gut<br />

operationalisierbar;<br />

objektiv messbar;<br />

Bildung von<br />

Rangfolgen möglich;<br />

Kontrolle e<strong>in</strong>mal<br />

gesetzter<br />

Qualitätsstandards<br />

ohne Probleme<br />

möglich.<br />

Kundenorientierter<br />

Ansatz<br />

„Quality is fitness for<br />

use.“<br />

Juran, 1974, Sec. 2-2<br />

„Qualität ist <strong>der</strong> Grad<br />

<strong>der</strong> Eignung e<strong>in</strong>es<br />

Produktes für<br />

bestimmte<br />

Verwendungszwecke<br />

und<br />

Nutzenerwartungen.“<br />

Wimmer, 1987,<br />

S. 507<br />

Market<strong>in</strong>g<br />

Ausschliesslich <strong>der</strong><br />

Kunde bestimmt die<br />

Qualität e<strong>in</strong>er<br />

Leistung.<br />

Qualität ist damit<br />

hochgradig subjektiv.<br />

Verdichtung e<strong>in</strong>er<br />

grossen Anzahl<br />

unterschiedlicher<br />

Qualitätsurteile zu<br />

e<strong>in</strong>em generellen<br />

Qualitätsurteil.<br />

Gefahr <strong>der</strong><br />

Gleichsetzung von<br />

Qualität und<br />

Kundenzufriedenheit.<br />

Mess<strong>in</strong>strumentarium<br />

entwickelbar;<br />

Anwendung <strong>der</strong><br />

Methoden <strong>der</strong><br />

E<strong>in</strong>stellungsmessung.<br />

Herstellungsorientierter<br />

Ansatz<br />

„…we must def<strong>in</strong>e<br />

quality as<br />

conformance to<br />

requirements.“<br />

Crosby, 1979, S. 17<br />

Qualitätssicherung<br />

und -kontrolle <strong>der</strong><br />

Produktion<br />

Die tatsächlich<br />

erbrachte Leistung<br />

muss den zuvor<br />

festgesetzten<br />

Normen und Regeln<br />

entsprechen.<br />

Enge Auslegung des<br />

Qualitätsbegriffes auf<br />

Produktionssicht.<br />

Festlegung <strong>der</strong><br />

Standards und<br />

Normen muss häufig<br />

subjektiv geschehen.<br />

Damit erfolgt e<strong>in</strong>e<br />

willkürliche<br />

Festlegung <strong>der</strong><br />

Personen, die<br />

festlegen, was<br />

Qualität ist.<br />

Sehr gut<br />

operationalisierbar;<br />

Mess<strong>in</strong>strumente<br />

vorhanden; Kontrolle<br />

und Messung <strong>der</strong><br />

Abweichung von den<br />

festgelegten<br />

Standards.<br />

Wertbasierter<br />

Ansatz<br />

„Quality means best<br />

for certa<strong>in</strong> customer<br />

conditions. These<br />

conditions are (a) the<br />

actual use and (b) the<br />

sell<strong>in</strong>g price of the<br />

product.”<br />

Feigenbaum, 1961,<br />

S. 1<br />

Nutzentheorie<br />

Market<strong>in</strong>g<br />

Qualität ist def<strong>in</strong>iert<br />

als<br />

Austauschverhältnis.<br />

Das Individuum als<br />

Nutzenmaximierer<br />

wägt zu erbr<strong>in</strong>gendes<br />

Opfer und zu<br />

erwartenden Nutzen<br />

ab und begründet<br />

hierauf se<strong>in</strong><br />

Qualitätsurteil.<br />

Hochgradig<br />

subjektiver Ansatz.<br />

Qualität wird nicht<br />

e<strong>in</strong>er Leistung<br />

zugeordnet son<strong>der</strong>n<br />

e<strong>in</strong>em<br />

Austauschverhältnis.<br />

Schwierigkeiten bei<br />

<strong>der</strong><br />

Operationalisierung.<br />

F & E Angehörige Marketeers Produktion F<strong>in</strong>anzchefs,<br />

mündiger Kunde<br />

Tabelle 2: Die Qualitätsbegriffe nach Garv<strong>in</strong>, erweitert um die Favorisierung nach Wagner 59<br />

59 Siehe Garv<strong>in</strong>, 1988 <strong>in</strong> [ 21 ], zitiert aus Wagner, 2005 <strong>in</strong> [ 64 ], Seite 4-99.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 24 / 83


2.3. Was ist Datenqualität<br />

2.3.1. Def<strong>in</strong>ition im deutschsprachigen Raum<br />

Datenqualität ist e<strong>in</strong> mehrdimensionales Mass für die Eignung von Daten, den an ihre<br />

Erfassung/Generierung gebundenen Zweck zu erfüllen. Diese Eignung kann sich über die Zeit<br />

än<strong>der</strong>n, wenn sich die Bedürfnisse än<strong>der</strong>n. 60<br />

Diese E<strong>in</strong>ordnung dieser Def<strong>in</strong>ition anhand <strong>der</strong> Tabelle 2 zeigt, dass hier e<strong>in</strong> herstellerorientierter<br />

Ansatz vorliegt, dessen Messung sehr gut operationalisiert werden kann. Die Komplexität <strong>der</strong><br />

Def<strong>in</strong>ition wie<strong>der</strong>um zeigt aber wie<strong>der</strong>um, dass hier die Datenqualität nicht auf e<strong>in</strong>er simplen Skala<br />

dargestellt werden kann, wenn man alle Aspekte <strong>in</strong> Betracht ziehen will. Bei <strong>der</strong> Berücksichtigung<br />

aller Punkte müssten mehrere Dimensionen <strong>zur</strong> Darstellung bemüht werden. Dies wie<strong>der</strong>um stellt<br />

erhöhte Anfor<strong>der</strong>ungen an die Personen, die die Datenqualität messen und überwachen. Zudem<br />

werden mehrdimensionale Grafiken nicht von allen auf Anhieb verstanden.<br />

Aus diesem Grund ist es notwendig, e<strong>in</strong>e vere<strong>in</strong>fachte Def<strong>in</strong>ition von Datenqualität heranzuziehen,<br />

welche die Komplexität bricht und trotzdem den Fokus auf <strong>der</strong> „Fitness for use“ behält:<br />

Gute Datenqualität liegt dann vor, wenn die Daten den vom Nutzer verlangten Zweck erfüllen. 61<br />

Diese Def<strong>in</strong>ition kann <strong>in</strong> die Kategorie des kundenorientierten Ansatzes aus Tabelle 2 e<strong>in</strong>geordnet<br />

werden.<br />

2.3.2. „Datenqualität“ und „Information Quality“<br />

In <strong>der</strong> englischsprachigen Literatur wird <strong>der</strong> Begriff „Datenqualität“ mehrheitlich als „Information<br />

Quality“ verwendet. Die deutschen Begriffe „Daten“ und „Informationen“ werden oft synonym<br />

verwendet – sagen aber nicht das selbe aus. „Informationen“ werden meist als „verarbeitete Daten“<br />

verstanden 62 . Im Zusammenhang mit dieser Arbeit und <strong>der</strong> Messung von Datenqualität spielt es<br />

eigentlich ke<strong>in</strong>e Rolle, welcher Begriff verwendet wird, da die Messung sowohl vor als auch nach <strong>der</strong><br />

Verarbeitung erfolgen kann und muss.<br />

Standardliteratur wie „Quality Information and Knowledge“ [ 26 ] propagiert denn auch, dass<br />

diesbezüglich nicht unterschieden werden soll. 63<br />

2.4. Geschichte des Begriffs Datenqualität<br />

Wie Würthele beschreibt 64 , ist <strong>der</strong> Begriff noch relativ jung (seit ca. 1995) und se<strong>in</strong> Verständnis<br />

une<strong>in</strong>heitlich 65 – ähnlich wie im Kapitel 2.2 für den Begriff „Qualität“ aufgezeigt. Von e<strong>in</strong>er<br />

e<strong>in</strong>heitlichen Begriffsbenutzung ist man weit entfernt und entsprechende Prozesse und Metriken <strong>zur</strong><br />

reproduzierbaren Erhebung von Datenqualität fehlen vielfach. Die <strong>in</strong> dieser Arbeit verwendeten<br />

Begriffe und Zusammenhänge bauen auf dem Begriffsnetz von Würthele auf, da dieses als e<strong>in</strong>ziges<br />

auch die „weichen Faktoren“ 66 mit e<strong>in</strong>bezieht.<br />

60 Siehe Würthele, 2004 <strong>in</strong> [ 89 ], Seite 21.<br />

61 Siehe Wang et al. <strong>in</strong> [ 63 ].<br />

62 Siehe Huang et al. „In practice, managers differentiate <strong>in</strong>formation from data <strong>in</strong>tuitively and describe<br />

<strong>in</strong>formation as data, that have been processed” <strong>in</strong> [ 26 ], Seite 13 und Stahlknecht et al. <strong>in</strong> [ 53 ], Seite 10.<br />

63 Siehe Huang et al. „Unless specified otherwise, this book will use '<strong>in</strong>formation' <strong>in</strong>terchangeably with 'data'” <strong>in</strong> [<br />

26 ], Seite 13.<br />

64 Siehe Würthele, 2004 <strong>in</strong> [ 89 ] Seite 12: „Exakte Def<strong>in</strong>itionen o<strong>der</strong> gar e<strong>in</strong>e Metrik, welche es erlaubt, die<br />

unternehmensweite Datenqualität messbar zu machen, fehlen bisher jedoch völlig“ / Seite 18: „Breit etablierte,<br />

e<strong>in</strong>heitliche Def<strong>in</strong>itionen fehlen, d.h. Begriffe werden une<strong>in</strong>heitlich und auf völlig unterschiedlichen<br />

Abstraktionsebenen verwendet.“<br />

65 Siehe Huang et al. <strong>in</strong> [ 26 ], Seite 16: „A comprehensive survey of the literature, however, shows that there is<br />

no general agreement on <strong>in</strong>formation quality dimensions.“<br />

66 Für die Def<strong>in</strong>ition <strong>der</strong> „Weichen Faktoren“ siehe Kapitel 2.6.2, Punkt 2.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 25 / 83


Die <strong>in</strong> diesem Begriffsnetz verwendeten Begriffe werden <strong>in</strong> verschiedene Faktoren gruppiert, die<br />

entscheidend zu e<strong>in</strong>er guten Datenqualität beitragen. Dazu zählen nicht nur die technische<br />

Datenqualität, die unter an<strong>der</strong>em die Replikation von Daten zu Data Warehouse Projekten umfasst,<br />

son<strong>der</strong>n auch „weiche Faktoren“ wie dem Können und Willen <strong>der</strong> an den Prozessen beteiligten<br />

Mitarbeiter. 67<br />

2.5. E<strong>in</strong>fache Def<strong>in</strong>ition von Datenqualität<br />

In <strong>der</strong> Praxis hat sich im Umfeld <strong>der</strong> Inventardatenbank für Hard- und Software, i-SAC, bereits die<br />

folgende, auf <strong>der</strong> generellen Def<strong>in</strong>ition von Qualität aufbauende, dreistufige Def<strong>in</strong>ition von<br />

Datenqualität als praktikabel erwiesen 68 :<br />

1. Ist das Feld korrekt gefüllt? Ist bei e<strong>in</strong>em Personenfeld auch wirklich e<strong>in</strong>e Person<br />

e<strong>in</strong>getragen und nicht etwa e<strong>in</strong> Gebäude?<br />

2. Ist <strong>der</strong> Wert im Feld gültig? Existiert <strong>der</strong> angegebene Mitarbeiter auch wirklich noch<br />

im Unternehmen? (Plausibilität)<br />

3. Ist <strong>der</strong> e<strong>in</strong>gefüllte Wert korrekt? Korrektheitsprüfung des Wertes<br />

2.6. Umfassende Def<strong>in</strong>ition von Datenqualität<br />

2.6.1. Dimensionen <strong>der</strong> Datenqualität nach Huang et al.<br />

In [ 26 ] schlagen Huang et al. vor, auch für die Datenqualität verschiedene Dimensionen zu<br />

verwenden. Die hier vorgeschlagenen Dimensionen s<strong>in</strong>d<br />

• Accuracy<br />

• Completeness<br />

• Consistency<br />

• Timel<strong>in</strong>ess<br />

Die Auswahl, dass gerade diese Dimensionen verwendet werden sollen, begründen sie mit <strong>in</strong>tuitivem<br />

Verstehen, Erfahrungen <strong>der</strong> Industrie und Verwendung <strong>in</strong> <strong>der</strong> Literatur. Als Schlüsselfaktor<br />

betrachten die Autoren die Dimension „Accuracy“ – schreiben aber auch gleich, dass darunter völlig<br />

verschiedene Inhalte verstanden werden. 69 Solch unterschiedliches Verständnis kann aber auf<br />

dieselben unterschiedlichen Ansätze zum Begriff „Qualität“ aus Kapitel 2.2.3 <strong>zur</strong>ückgeführt werden.<br />

Dieser empirische Ansatz, die Dimensionen <strong>der</strong> Datenqualität zu verstehen, kann aber nicht alle<br />

E<strong>in</strong>flussfaktoren befriedigend abbilden.<br />

67 Siehe Würthele, 2004 <strong>in</strong> [ 89 ] Seite 18: „Verbreitet s<strong>in</strong>d Leitfäden, wie Qualitätsteams etabliert und e<strong>in</strong><br />

Qualitätsdenken durch Schulungs- und Motivationsmassnahmen bei den Mitarbeitern etabliert werden kann.“<br />

68 Def<strong>in</strong>iert im firmen<strong>in</strong>ternen Dokument [ 58 ] und öffentlich dokumentiert <strong>in</strong> [ 86 ].<br />

69 Siehe Huang et al. <strong>in</strong> [ 26 ], Seite 17: „Although the term ‘accuracy’ has an <strong>in</strong>tuitive appeal, there is no<br />

commonly accepted def<strong>in</strong>ition of what it means exactly. For example, Kriebel characterizes accuracy as ‘the<br />

correctness of the output <strong>in</strong>formation.’ Ballou and Pazer describe accuracy as when ‘the recorded value is <strong>in</strong><br />

conformity with the actual value’”.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 26 / 83


2.6.2. Das Datenqualitäts-Radar nach Würthele<br />

In [ 89 ], Seite 31 ff def<strong>in</strong>iert Würthele e<strong>in</strong> sog. „Datenqualitätsradar“ (siehe Abbildung 10), das die<br />

verschiedenen Aspekte <strong>der</strong> Datenqualität betrachtet und so das komplexe Thema <strong>in</strong> e<strong>in</strong>zelne<br />

E<strong>in</strong>flussbereiche aufteilt, die für sich genommen wie<strong>der</strong>um beurteilbar s<strong>in</strong>d:<br />

In diesem Datenqualitätsradar wird aufgezeigt, dass Datenqualität weit über die vorgenannten<br />

Def<strong>in</strong>itionen h<strong>in</strong>ausgeht. Das Problem dieses Radars ist jedoch, dass die bereits erwähnten „weichen<br />

Faktoren“ schwierig zu quantifizieren s<strong>in</strong>d.<br />

Jedes dieser Fel<strong>der</strong> im Radar entspricht e<strong>in</strong>em Qualitätsmerkmal. Angrenzende Fel<strong>der</strong> bedeuten<br />

e<strong>in</strong>en engen Zusammenhang <strong>der</strong> Merkmale. Im Zentrum des Radars steht die „Datenqualität als<br />

Ganzes“ („DQ“), die gegen aussen immer stärker aufgefächert wird.<br />

Dieses Radar ist von <strong>in</strong>nen nach aussen zu lesen:<br />

• Die Messung <strong>der</strong> Datenqualität lässt sich <strong>in</strong> drei Dimensionen aufteilen:<br />

1. Harte Faktoren: Diese s<strong>in</strong>d<br />

durch exakte Regeln def<strong>in</strong>iert<br />

und können mit masch<strong>in</strong>ellen<br />

Checks überprüft werden.<br />

Diese Dimension wurde<br />

bisher am ehesten mit dem<br />

Begriff „Datenqualität“<br />

assoziiert.<br />

2. Weiche Faktoren: Diese<br />

wurden bis anh<strong>in</strong> eigentlich<br />

ausschliesslich unter<br />

führungstechnischen<br />

Aspekten betrachtet. Dass<br />

diese Faktoren e<strong>in</strong>en grossen<br />

E<strong>in</strong>fluss auf die Qualität <strong>der</strong><br />

Arbeit <strong>der</strong> Mitarbeiter haben<br />

und somit auch direkt <strong>in</strong> die<br />

Qualität <strong>der</strong> von diesen<br />

Mitarbeitern erstellen Daten<br />

e<strong>in</strong>fliessen, wurde bisher nie<br />

unter diesem Aspekt<br />

berücksichtigt.<br />

Diese Faktoren können nicht<br />

objektiv bewertet werden.<br />

Abbildung 10: Das Datenqualitätsradar nach Würthele 70<br />

3. Organisation: Damit s<strong>in</strong>d die Bereiche <strong>der</strong> Datenqualität geme<strong>in</strong>t, die stark von Aufbau- und<br />

Ablauforganisation des jeweiligen Betriebs(teils) abhängig s<strong>in</strong>d.<br />

• Jede dieser drei Dimensionen lässt sich weiter <strong>in</strong> e<strong>in</strong>es o<strong>der</strong> mehrere Qualitätsmerkmale<br />

aufglie<strong>der</strong>n. Dabei gibt es auch Merkmale, die mehr als e<strong>in</strong>er Dimensionen zugehörig s<strong>in</strong>d.<br />

• Als weiteres Merkmal lässt sich die Technikqualität erfassen. Diese steht ausserhalb <strong>der</strong> oben<br />

erwähnten Dimensionen und umfasst viele <strong>der</strong> dargestellten Qualitätsmerkmale, aber bewusst<br />

nicht alle, da unter Technikqualität im eigentlichen S<strong>in</strong>n die langfristig gesicherte Datenqualitätsunterstützung<br />

durch die Informatik-Lösung verstanden wird.<br />

70 Siehe Würthele, 2004, <strong>in</strong> [ 89 ], Seite 29ff.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 27 / 83


2.6.3. Gewichtung <strong>der</strong> e<strong>in</strong>zelnen Teilaspekte des Radars<br />

In diesem Radar lassen sich verschiedenste Anfor<strong>der</strong>ungen an die Datenqualität abbilden, messen<br />

und visualisieren. In e<strong>in</strong>em Inventar erfolgt die Gewichtung <strong>der</strong> Anfor<strong>der</strong>ungen und damit auch <strong>der</strong><br />

Messpunkte eher auf den Bereichen Korrektheit, Konsistenz, Prozess und Redundanzfreiheit<br />

während <strong>in</strong> e<strong>in</strong>er Real-Time-Steuerung wie e<strong>in</strong>er Ampelanlage eher Faktoren wie Verfügbarkeit und<br />

E<strong>in</strong>deutigkeit des Kontextes im Zentrum stehen. Bei e<strong>in</strong>em System wie<strong>der</strong>um, mit dem externe<br />

Kunden arbeiten sollen wie e<strong>in</strong>em Webshop o<strong>der</strong> e<strong>in</strong>em Informationssystem, liegt die Gewichtung<br />

<strong>der</strong> Messpunkte eher auf <strong>der</strong> Verständlichkeit und <strong>der</strong> E<strong>in</strong>deutigkeit des Kontextes.<br />

Somit s<strong>in</strong>d verschiedenste Anwendungen mit diesem Radar abgedeckt – e<strong>in</strong>fach <strong>in</strong> verschiedener<br />

Gewichtung. Dieser Radar ist demnach wie e<strong>in</strong> Baukasten zu verstehen, aus dem man sich die<br />

benötigten Elemente zusammenstellt.<br />

2.7. Arten von Datenqualität<br />

Wie schon im Kapitel 1.4 gezeigt, gibt es verschiedene Arten von Datenqualitätsproblemen. Somit<br />

existieren auch verschiedene Arten von Datenqualität. Generell lässt sich unterscheiden zwischen:<br />

• Qualität <strong>der</strong> Übermittlung von Daten<br />

• Qualität <strong>der</strong> Verarbeitung von Daten<br />

• Qualität von Daten <strong>in</strong> e<strong>in</strong>er Datenbank<br />

2.7.1. Qualität <strong>der</strong> Datenübermittlung<br />

Die Lösung von Datenübermittlungsfehlern wird von <strong>der</strong> Industrie teilweise <strong>in</strong>tensiv vorangetrieben,<br />

unter an<strong>der</strong>em durch die Standardisierung von Schnittstellen und dem Verbessern und<br />

Beschleunigen von Übertragungswegen. Das Problem, dass Daten nicht o<strong>der</strong> verfälscht an ihren<br />

Bestimmungsort gelangen, ist heute weitgehend gelöst. Daher befasst sich diese Arbeit auch nicht<br />

mit diesem Aspekt <strong>der</strong> Datenqualität.<br />

2.7.2. Qualität <strong>der</strong> Datenverarbeitung<br />

Die Qualität von Datenverarbeitungen <strong>in</strong> Applikationen und Systemen ist Teil <strong>der</strong> Qualitätssicherung<br />

während Softwareerstellung. Durch ausreichende und s<strong>in</strong>nvoll def<strong>in</strong>ierte Tests lässt sich die korrekte<br />

Verarbeitung <strong>der</strong> Daten e<strong>in</strong>fach überprüfen. Dennoch können auch hier immer wie<strong>der</strong> Fehler<br />

auftreten. Die Qualität <strong>der</strong> Verarbeitung von Daten ist nicht im Fokus dieser Arbeit.<br />

2.7.3. Qualität <strong>in</strong> <strong>Datenbanken</strong><br />

In diesem Bereich liegt <strong>der</strong> Hauptfokus dieser Arbeit, existieren doch <strong>in</strong> den allen Unternehmen<br />

mehrere Gigabyte bis Terabyte an Daten, über <strong>der</strong>en Qualität im Normalfall niemand e<strong>in</strong>e Aussage<br />

machen kann.<br />

Meist nimmt man mangels Alternativen an, dass die verwendeten Daten durchwegs korrekt s<strong>in</strong>d.<br />

Schliesslich weiss man, dass im eigenen Unternehmen nur qualitativ hochwertige Arbeit verrichtet<br />

wird. Im Gegenzug begegnet man Daten, welche von ausserhalb <strong>in</strong>s Unternehmen kommen, immer<br />

mit e<strong>in</strong>em gewissen Misstrauen, da man ja nicht weiss, wie sie erstellt, aggregiert und gepflegt<br />

wurden.<br />

Gerade h<strong>in</strong>ter diese Denkweise sollte jedoch e<strong>in</strong> grosses Fragezeichen gesetzt werden, da man doch<br />

davon ausgehen muss, dass extern zugekaufte Daten wie e<strong>in</strong> ganz normales Produkt gewisse<br />

Qualitätskontrollen durchgelaufen haben. Schliesslich lebt im Normalfall dieses Unternehmen davon,<br />

dass es diese Daten verkauft und möchte dies auch <strong>in</strong> Zukunft tun.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 28 / 83


Aber wie steht es mit <strong>der</strong> Qualität <strong>der</strong> im eigenen Unternehmen produzierten Daten? Welche<br />

Qualitätssicherungsmassnahmen wurden hier getroffen und <strong>in</strong> welcher Form wird die Qualität hier<br />

gemessen? Auf diese Fragen gehen die nun folgenden Kapitel genauer e<strong>in</strong>.<br />

2.8. Wie kann man Datenqualität messen<br />

Datenqualität lässt sich auf unterschiedliche Arten messen. Um diese verschiedenen Methoden<br />

genauer zu erläutern, gehen wir von e<strong>in</strong>er kle<strong>in</strong>en Datenbank mit 10 Objekten à 10 Attributen aus,<br />

wie sie <strong>in</strong> Abbildung 11 dargestellt ist. E<strong>in</strong>ige <strong>der</strong> enthaltenen Daten s<strong>in</strong>d <strong>in</strong> irgende<strong>in</strong>er Form<br />

fehlerhaft. In diesem Beispiel s<strong>in</strong>d sie mit e<strong>in</strong>em roten „X“ gekennzeichnet.<br />

Abbildung 11: 3 verschiedene Arten für die Berechnung <strong>der</strong> Datenqualität<br />

Für die Messung dieser Datenbank kann man nun drei verschiedene Methoden verwenden, die alle<br />

verschiedene Werte ergeben:<br />

2.8.1. Methode 1 – Attributmessung<br />

In <strong>der</strong> Datenbank von total 100 Attributen bef<strong>in</strong>den sich 10 fehlerhafte Daten. Das bedeutet, dass<br />

90 % davon <strong>in</strong> Ordnung s<strong>in</strong>d.<br />

2.8.2. Methode 2 – Objektmessung<br />

In <strong>der</strong> Datenbank von 10 Objekten bef<strong>in</strong>den sich 5 Objekte, bei denen m<strong>in</strong>destens 1 Attribut<br />

fehlerhaft ist. Das bedeutet, dass 50 % <strong>der</strong> Objekte vollständig <strong>in</strong> Ordnung s<strong>in</strong>d.<br />

2.8.3. Methode 3 – Attributfüllung<br />

In <strong>der</strong> Datenbank mit 10 Attributen bef<strong>in</strong>den sich 6 Attribute, die <strong>in</strong> m<strong>in</strong>destens e<strong>in</strong>em Objekt<br />

fehlerhaft s<strong>in</strong>d. Das bedeutet, dass bei 40 % aller Attribute die Füllung <strong>in</strong> allen Objekten <strong>in</strong> Ordnung<br />

ist.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 29 / 83


2.8.4. Unterschiede <strong>der</strong> Messarten<br />

Alle drei Messarten s<strong>in</strong>d korrekt und führen zu e<strong>in</strong>em aussagekräftigen, wenn auch<br />

unterschiedlichen, Ergebnis. Es muss jedoch vor <strong>der</strong> Messung vere<strong>in</strong>bart werden, welche Methode<br />

verwendet werden soll. Dabei muss bereits vor <strong>der</strong> Festlegung beachtet werden, wie sich die<br />

Zahlenbereiche verhalten können:<br />

• Sowohl die Objektmessung als auch die Attributfüllung wird immer e<strong>in</strong>en tieferen Wert liefern<br />

als die Attributmessung.<br />

• Die Objektmessung wird fast immer e<strong>in</strong>en höheren Wert liefern als die Attributfüllung, wenn<br />

die Zahl <strong>der</strong> Objekte grösser ist als die Anzahl verschiedener Attribute – also bei jedem<br />

grösseren Datenbestand.<br />

• Die Attributfüllung kann nur dann e<strong>in</strong>en höheren Wert liefern als die Objektmessung, wenn<br />

sich die fehlerhaften Daten auf wenige Attribute verteilen, also beispielsweise <strong>in</strong> <strong>der</strong> Tabelle<br />

aus Abbildung 11 <strong>in</strong> fast allen Objekten das Attribut 10 fehlerhaft ist. Die Attributfüllung liefert<br />

<strong>in</strong> diesem Fall den Wert von zirka 90 %, während die Objektmessung um 0 % liegt.<br />

Darum muss immer vere<strong>in</strong>bart werden, welche <strong>der</strong> drei Messarten verwendet werden soll.<br />

Weiter gibt es noch die Möglichkeit, den Prozentsatz „gute Daten“ o<strong>der</strong> den Prozentsatz “schlechte<br />

Daten“ anzugeben. Generell kann gesagt werden, dass es besser ist, den Prozentsatz an guten<br />

Daten anzugeben, da es für die meisten Menschen logischer ist, 100 % anzustreben als 0 %. Es<br />

entspricht eher dem menschlichen Denken „je mehr desto besser“.<br />

2.8.5. Praxisrelevanz dieser drei Methoden<br />

Alle vorgestellten Methoden s<strong>in</strong>d für die Praxis relevant, auch wenn sie verschiedene Aussagen<br />

transportieren. Tabelle 3 zeigt auf, wie die verschiedenen Messmethoden <strong>in</strong> <strong>der</strong> Praxis e<strong>in</strong>gesetzt<br />

werden.<br />

Methode<br />

Attributmessung<br />

Objektmessung<br />

Attributfüllung<br />

Aussage<br />

Zeigt, wie viele Attribute <strong>der</strong> gesamten Datenmenge korrekt s<strong>in</strong>d.<br />

Das Problem dieser Messmethode ist, dass sehr schnell e<strong>in</strong> sehr hoher Datenqualitätswert erreicht<br />

und ausgewiesen wird, was die Verantwortlichen wie<strong>der</strong>um zum Zurücklehnen veranlassen könnte.<br />

Zeigt, wie viele Datensätze <strong>der</strong> Datenbank komplett korrekt s<strong>in</strong>d.<br />

Wenn für das operative Geschäft davon ausgegangen werden muss, dass alle Datensätze korrekt<br />

se<strong>in</strong> müssen, gibt dieser Wert an, auf wie viele <strong>der</strong> gespeicherten Datensätze kompletter Verlass ist,<br />

resp. bei wie vielen Datensätzen m<strong>in</strong>destens e<strong>in</strong>e Information ungenügend o<strong>der</strong> <strong>in</strong>korrekt s<strong>in</strong>d.<br />

Zeigt, welche Attribute komplett korrekt gefüllt s<strong>in</strong>d.<br />

Diese Messmethode gibt dem Anwen<strong>der</strong> e<strong>in</strong>en Anhaltspunkt, wie vertrauenswürdig e<strong>in</strong> Attribut über<br />

alle Datensätze h<strong>in</strong>weg ist. Diese Art <strong>der</strong> Messung gibt dem Verantwortlichen auch gute H<strong>in</strong>weise auf<br />

die Art und möglicherweise auch die Herkunft von Datenqualitätsmängeln.<br />

Diese Art <strong>der</strong> Messung liefert auch gute Anhaltspunkte, wie aufwändig e<strong>in</strong>e Bere<strong>in</strong>igung des<br />

Datenbestandes ist, <strong>in</strong>dem pro Attribut e<strong>in</strong> gewisser Aufwand veranschlagt wird und dieser mit <strong>der</strong><br />

Anzahl fehlerhafter Attribute multipliziert werden kann.<br />

Die genaue Formel dafür lautet:<br />

∑ Anzahl _ fehlerhafte _ Attribute∗ Aufwand _ pro _ Attribut<br />

Tabelle 3: Anwendungsmöglichkeiten <strong>der</strong> verschiedenen Messmethoden<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 30 / 83


2.9. Wie kann man Datenqualität identifizieren<br />

Unabhängig von <strong>der</strong> Messmethode muss zuerst identifiziert werden, welche <strong>der</strong> untersuchten<br />

Datenfel<strong>der</strong> überhaupt korrekte und <strong>in</strong>korrekte Werte enthalten. Das Identifizieren dieser Fel<strong>der</strong> kann<br />

auf unterschiedliche Weise erfolgen: durch regelmässige automatisierbare Checks und durch<br />

seltener durchgeführte Erhebungen.<br />

2.9.1. Automatisierte Checks<br />

Die e<strong>in</strong>fachste Art, Datenqualität zu identifizieren, ist e<strong>in</strong> automatisierter Check auf technischer Basis.<br />

Dazu kann <strong>in</strong> den meisten Fällen e<strong>in</strong>e SQL-Abfrage erstellt werden, welche auf e<strong>in</strong>fache Art prüft, ob<br />

gewisse Fel<strong>der</strong> gefüllt s<strong>in</strong>d, <strong>der</strong> Datentyp des Inhaltes dem erwarteten Datentyp entspricht und ob <strong>der</strong><br />

e<strong>in</strong>gesetzte Wert gültig ist. Solche Checks können e<strong>in</strong>fach programmiert, automatisiert und<br />

dargestellt werden. Diese Art von Checks entspricht <strong>in</strong> etwa den Stufen 1 und 2 <strong>der</strong> e<strong>in</strong>fachen<br />

Def<strong>in</strong>ition <strong>der</strong> Datenqualität (siehe Kapitel 2.5), sofern <strong>in</strong> <strong>der</strong> entsprechenden Datenbank die<br />

Metadaten bereits e<strong>in</strong>e entsprechende Qualität besitzen.<br />

2.9.2. Schwer automatisierbare Checks (Erhebungen)<br />

Die Identifikation <strong>der</strong> dritten Stufe von Datenqualitätsdef<strong>in</strong>ition aus Kapitel 2.5 ist ungleich<br />

komplizierter und aufwändiger. Diese dritte Stufe „Ist <strong>der</strong> e<strong>in</strong>gefüllte Wert korrekt?“ umfasst zwar das,<br />

was alle unter Datenqualität erwarten, was aber nur möglich ist durch e<strong>in</strong>en Vergleich mit <strong>der</strong><br />

Realität. Gerade dieser Vergleich kann aber nicht – o<strong>der</strong> nur selten – automatisiert durchgeführt<br />

werden.<br />

Aus diesem Grund muss hier meist mit e<strong>in</strong>er Stichprobe gearbeitet werden, die anschliessend auf die<br />

gesamte Datenmenge hochgerechnet wird. Dementsprechend können diese Messungen auch nicht<br />

täglich o<strong>der</strong> wöchentlich, son<strong>der</strong>n höchstens e<strong>in</strong>- bis zweimal im Jahr durchgeführt werden.<br />

2.10. Wie kann man Datenqualität visualisieren?<br />

2.10.1. Anfor<strong>der</strong>ungen an die Visualisierung<br />

Für e<strong>in</strong>e s<strong>in</strong>nvolle Visualisierung <strong>der</strong> Datenqualität kann man folgende Anfor<strong>der</strong>ungen formulieren.<br />

Sie müssen folgende Eigenschaften aufweisen 71 :<br />

• Sie müssen e<strong>in</strong>e anerkannte Basis für Entscheidungen bieten<br />

• Sie müssen allgeme<strong>in</strong> verständlich se<strong>in</strong><br />

• Sie müssen e<strong>in</strong>heitlich <strong>in</strong>terpretierbar se<strong>in</strong><br />

• Sie müssen allgeme<strong>in</strong> anwendbar se<strong>in</strong><br />

• Sie müssen wirtschaftlich anwendbar se<strong>in</strong><br />

• Sie müssen mit den vorhandenen Sensoren (Messgeräte o<strong>der</strong> –prozesse) vere<strong>in</strong>bar se<strong>in</strong><br />

71 Siehe dazu Juran <strong>in</strong> [ 29 ], zitiert durch H<strong>in</strong>richs <strong>in</strong> [ 25 ], Seite 44.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 31 / 83


2.10.2. Bewährte Elemente <strong>der</strong> Visualisierung<br />

Für die Visualisierung (Darstellung) <strong>der</strong> gemessenen Datenqualitätswerte haben sich <strong>in</strong> <strong>der</strong> Praxis<br />

e<strong>in</strong> paar e<strong>in</strong>fache Vorgehensweisen bewährt 72 :<br />

• Diejenigen Personen, die für die Beaufsichtigung <strong>der</strong> Datenqualität zuständig s<strong>in</strong>d, benötigen<br />

e<strong>in</strong>e wesentlich e<strong>in</strong>fachere Darstellung <strong>der</strong> Datenqualität als diejenigen Personen, die für die<br />

Durchführung <strong>der</strong> Datenqualitätsmassnahmen zuständig s<strong>in</strong>d.<br />

• Management und Ausführende sollten nicht über verschiedene Wege zu ihren Zahlen o<strong>der</strong><br />

Listen kommen, son<strong>der</strong>n beide Personengruppen steigen über den selben Weg e<strong>in</strong>.<br />

Von e<strong>in</strong>er Übersicht, die sich an das Management richtet, kann man im Idealfall direkt zu den<br />

Detail-Informationen gelangen (so genannter „Drill Down“).<br />

• Für die Management-Sicht haben sich folgende Sichten bewährt (siehe dazu auch die<br />

Darstellungen <strong>in</strong> Abbildung 12):<br />

o<br />

o<br />

o<br />

o<br />

o<br />

E<strong>in</strong> e<strong>in</strong>ziger Wert pro klar abgrenzbarem Bereich<br />

Balkengrafiken (horizontal o<strong>der</strong> vertikal angeordnet)<br />

Trendangaben bei den Detailwerten (Vergleich <strong>zur</strong> letzten Messung)<br />

L<strong>in</strong>ienverläufe<br />

Die Verwendung von Metaphern wie Ampeln o<strong>der</strong> Wetterkarten<br />

• Für die Detail-Sicht hat sich die Listenform am besten bewährt. Diese kann dann sozusagen<br />

als Arbeitsanweisung verstanden werden, die es abzuarbeiten gilt.<br />

Abbildung 12: Verschiedene Arten, wie Datenqualität für die Management-Sicht übersichtlich<br />

visualisiert werden kann: L<strong>in</strong>ks Balkengrafik mit Trendpfeilen, <strong>in</strong> <strong>der</strong> Mitte e<strong>in</strong> Verlauf und rechts die<br />

Wetterkarte<br />

Im Idealfall kann man die verschiedenen Datenqualitätsmessungen <strong>in</strong> e<strong>in</strong>e Übersicht <strong>in</strong>tegrieren, um<br />

damit e<strong>in</strong> Cockpit zu erstellen, bei dem alle wichtigen Informationen auf e<strong>in</strong>en Blick ersichtlich s<strong>in</strong>d.<br />

72 Details dazu <strong>in</strong> Wolf et al. <strong>in</strong> [ 86 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 32 / 83


2.11. Anfor<strong>der</strong>ungen an e<strong>in</strong> e<strong>in</strong>faches Datenqualitäts-Messsystem<br />

2.11.1. Grundsätzliche Überlegungen zum Vorgehen<br />

Bezogen auf die Qualitätsbeurteilung haben L<strong>in</strong>gscheid/Robeck folgende Voraussetzung formuliert:<br />

Voraussetzung für die Implementierung effizienter Qualitätsverbesserungsverfahren ist es, die<br />

unscharfe Zielgrösse transparent zu machen und möglichst konkret zu beschreiben. Das<br />

bedeutet, Anfor<strong>der</strong>ungen an die Qualität und Ausprägungen von Qualitätsmerkmalen auf<br />

verschiedenen Abstraktionsebenen und <strong>in</strong>nerhalb <strong>der</strong> unterschiedlichen Wertschöpfungsstufen<br />

<strong>der</strong> Organisation e<strong>in</strong>deutig erfassbar zu machen. 73<br />

Bezogen auf das Thema Datenqualität bedeutet das:<br />

• Zuerst muss man sich Gedanken darüber machen, welche Ziele man mit e<strong>in</strong>er verbesserten<br />

Datenqualität erreichen will.<br />

• Danach müssen Fragen gelöst werden, wie die Qualitätswerte erhoben, gemessen und<br />

dargestellt werden sollen.<br />

• Als nächsten Schritt muss man sich im Klaren werden, welche Werte angestrebt werden, um<br />

geeignete Massnahmen treffen zu können.<br />

2.11.2. Aufbau e<strong>in</strong>es e<strong>in</strong>fachen Messsystems<br />

Das e<strong>in</strong>fache System baut auf <strong>der</strong><br />

e<strong>in</strong>fachen Def<strong>in</strong>ition von Datenqualität<br />

aus Kapitel 2.5 auf und verwendet<br />

auch dessen dreistufigen Ansatz.<br />

Wie <strong>in</strong> Abbildung 13 dargestellt, bildet<br />

<strong>der</strong> korrekte Teil <strong>der</strong> Stufen 1 und 2<br />

dieser Datenqualitätsdef<strong>in</strong>ition die<br />

Indikatoren. Diese können relativ<br />

schnell und mit e<strong>in</strong>fachen<br />

Massnahmen automatisiert überprüft<br />

werden. E<strong>in</strong>e e<strong>in</strong>fache Abfrage mit<br />

SQL-Statements kann hier bei e<strong>in</strong>er<br />

Datenbank mit entsprechenden<br />

Voraussetzungen bereits das<br />

gewünschte Resultat liefern.<br />

Abbildung 13: E<strong>in</strong>faches DQ-Messsystem<br />

Nach diesem Test hat man jedoch noch lange ke<strong>in</strong>e Aussage darüber, ob die Daten „den vom Nutzer<br />

verlangten Zweck“ 74 auch erfüllen können. E<strong>in</strong>e Aussage darüber erhält man erst, wenn man den<br />

Inhalt <strong>der</strong> Datenfel<strong>der</strong> daraufh<strong>in</strong> untersucht, ob er auch korrekt ist 75 . Diese Untersuchung erfolgt<br />

idealerweise mit e<strong>in</strong>er Vollerhebung, welche aber im Normalfall nicht durchgeführt werden kann.<br />

Daher def<strong>in</strong>iert man am besten e<strong>in</strong> Test-Sample, welches man genauer untersucht. Dies ergibt e<strong>in</strong>en<br />

Wert, <strong>der</strong> aussagt, wie gut die Daten den angefor<strong>der</strong>ten Zweck erfüllen können: den Qualitätswert.<br />

Multipliziert man diesen Qualitätswert mit dem Indikatorenwert, ergeben sie e<strong>in</strong>en Wert für die<br />

Gesamtdatenqualität.<br />

Möchte man <strong>in</strong> diesem Messsystem nicht nur die Korrektheit <strong>der</strong> Daten son<strong>der</strong>n auch weitere<br />

Qualitätsmerkmale e<strong>in</strong>fliessen lassen, so empfiehlt sich die Erweiterung des Qualitätswertes um die<br />

Weichen Faktoren des Datenqualitäts-Radars aus Kapitel 2.6.2. E<strong>in</strong>e mögliche Vorgehensweise ist<br />

73 Siehe L<strong>in</strong>gscheid / Robeck <strong>in</strong> [ 33 ], S. 67 zitiert von Henn<strong>in</strong>g <strong>in</strong> [ 24 ], Seite 72.<br />

74 Siehe dazu auch die Def<strong>in</strong>ition aus Kapitel 2.3.<br />

75 Siehe die Dritte Stufe aus <strong>der</strong> e<strong>in</strong>fachen Def<strong>in</strong>ition von Datenqualität aus Kapitel 2.5.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 33 / 83


die Befragung <strong>der</strong> Benutzer mittels e<strong>in</strong>er Umfrage. In Anhang B wird e<strong>in</strong> möglicher Aufbau e<strong>in</strong>es<br />

solchen Fragebogens gezeigt.<br />

2.11.3. Probleme dieses Ansatzes und mögliche Lösungen<br />

Das Problem des Wertes, <strong>der</strong> auf diese Art gewonnen wird, ist die schwierige Lesbarkeit. Weil mit<br />

e<strong>in</strong>er Stichprobe gearbeitet wird, kann <strong>der</strong> resultierende Wert nicht mit e<strong>in</strong>er hun<strong>der</strong>tprozentigen<br />

Sicherheit angegeben werden. E<strong>in</strong>e Aussage wie „mit 95-prozentiger Sicherheit haben wir e<strong>in</strong>en<br />

Datenqualitätswert von 90 %“ wird von vielen nicht verstanden o<strong>der</strong> wird allenfalls falsch <strong>in</strong>terpretiert.<br />

E<strong>in</strong>e Aussage <strong>in</strong> dieser Art wi<strong>der</strong>spricht auch <strong>der</strong> Anfor<strong>der</strong>ung an e<strong>in</strong> e<strong>in</strong>faches DQ-Messsystem,<br />

e<strong>in</strong>fach und auch e<strong>in</strong>fach lesbar zu se<strong>in</strong>.<br />

In <strong>der</strong> Realität hat es sich bewährt, nur den Datenqualitätswert alle<strong>in</strong>e anzugeben und den Teil <strong>der</strong><br />

„95-prozentigen Sicherheit“ (o<strong>der</strong> welche Genauigkeit es dann im gegebenen Fall ist) <strong>in</strong> den<br />

Def<strong>in</strong>itionen <strong>der</strong> Messungen anzugeben.<br />

E<strong>in</strong> weiteres Problem ist die korrekte Interpretierung und E<strong>in</strong>arbeitung <strong>der</strong> aus <strong>der</strong> Umfrage<br />

gewonnenen weichen Faktoren <strong>in</strong> die Gesamtdatenqualität. Hierzu kann ke<strong>in</strong>e Standardlösung<br />

angeboten werden, da <strong>der</strong> E<strong>in</strong>fluss dieser Weichen Faktoren sehr vom jeweiligen Geschäft abhängt.<br />

E<strong>in</strong>e Lösung muss von Fall zu Fall gefunden werden.<br />

2.12. Quantifizierung von Datenqualitätsmängel und <strong>der</strong>en Behebung<br />

2.12.1. Kosten von Fehler- und Datenqualitätsmassnahmen<br />

Bei <strong>der</strong> Berechnung von Kosten und<br />

Nutzen des traditionellen<br />

Qualitätsmanagements s<strong>in</strong>d <strong>in</strong> erster<br />

L<strong>in</strong>ie die beiden Kostenarten <strong>der</strong><br />

Fehlerkosten sowie <strong>der</strong> Prüf- und<br />

Fehlerverhütungskosten zu beachten.<br />

Bereits 1974 hat D. Lundvall die<br />

Kostenkurve aus Abbildung 14<br />

beschrieben, welche bis heute ihre<br />

Gültigkeit hat.<br />

Diese Grafik besagt, dass das<br />

wirtschaftliche Optimum <strong>der</strong> Qualität<br />

bei Q* liegt. Wo jedoch Q* konkret ist,<br />

hängt ab vom Produkt, den Prozessen<br />

und dem Qualitätsmanagement.<br />

Abbildung 14: Das wirtschaftliche Qualitätsoptimum 76<br />

Soweit lässt sich diese Grafik auch auf das Thema <strong>der</strong> Datenqualität übertragen. Die im traditionellen<br />

Qualitätsmanagement gültige Unterteilung <strong>der</strong> Fehlerkosten <strong>in</strong> direkte und <strong>in</strong>direkte funktioniert hier<br />

jedoch nicht, da es ke<strong>in</strong>e Analogie zum „Ausschuss“ 77 gibt. Bleibt man bei dieser Sichtweise, s<strong>in</strong>d alle<br />

möglichen Kosten <strong>in</strong>direkt. H<strong>in</strong>gegen lassen sie sich hier auch <strong>in</strong> <strong>in</strong>terne und externe Fehlerkosten<br />

unterteilen.<br />

76 Grafik von Lundvall <strong>in</strong> [ 35 ], Seiten 5-12; neu gezeichnet nach <strong>der</strong> Grafik aus Henn<strong>in</strong>g <strong>in</strong> [ 24 ], Seite 132.<br />

77 Ausschuss im S<strong>in</strong>ne von nicht brauchbaren Produkten.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 34 / 83


2.12.2. Kostenarten im Datenqualitätsmanagement<br />

Während im traditionellen Qualitätsmanagement die Rede von Ausschuss, fehlerbed<strong>in</strong>gter<br />

Ausfallzeit, Kulanz etc. ist, kann man im Datenqualitätsmanagement zwischen folgenden Arten von<br />

Fehlerkosten unterscheiden 78 :<br />

• Systemfehler und Serviceunterbrüche<br />

• Kosten für die Datenbere<strong>in</strong>igung<br />

• Kosten für die Datenverbesserung<br />

• Rückgang <strong>in</strong> Produktivität und Verarbeitungsvolumen<br />

• Höhere Fluktuation<br />

• S<strong>in</strong>kende Anzahl von Stammkunden<br />

• Steigende Kundenanfor<strong>der</strong>ungen bezüglich Servicedienstleistungen<br />

• Kle<strong>in</strong>ere Skalierbarkeit <strong>der</strong> eigenen Lösungen<br />

2.12.3. Vorgehen <strong>zur</strong> Quantifizierung<br />

David Losh<strong>in</strong> entwickelte <strong>in</strong> [ 34 ] e<strong>in</strong> Konzept, um die Kosten schlechter Datenqualität zu ermitteln.<br />

Das „cost-effect of low data quality“ o<strong>der</strong> COLDQ genannte Gerüst umfasst 5 Schritte: 79<br />

1. Ermitteln <strong>der</strong> Datenflusswege durch das Unternehmen.<br />

2. Kategorisierung <strong>der</strong> Kosten für schlechte Datenqualität.<br />

3. Identifikation und Quantifizierung <strong>der</strong> aktuellen Situation mit schlechten Daten.<br />

4. Abschätzung <strong>der</strong> anfallenden Kosten, um die Datenqualität zu heben – entwe<strong>der</strong> durch e<strong>in</strong>e<br />

e<strong>in</strong>malige Aktion o<strong>der</strong> durch kont<strong>in</strong>uierliche Aktivitäten.<br />

5. Kalkulation des „Return on Investment“, um dem Senior Management die Entscheidung pro<br />

o<strong>der</strong> kontra Datenqualitäts-Programm zu erleichtern.<br />

Als Endprodukt dieses Vorgehens erhält man e<strong>in</strong>en H<strong>in</strong>weis darauf, ob sich die geplanten<br />

Datenqualitätsmassnahmen auszahlen o<strong>der</strong> nicht.<br />

2.12.4. Kategorien von Verbesserungskosten<br />

Die Kosten <strong>der</strong> Datenqualitätsverbesserung lassen sich <strong>in</strong> drei Kategorien e<strong>in</strong>teilen:<br />

• Kosten <strong>der</strong> ursachenorientierten Datenqualitätsverbesserungen wie das Reeng<strong>in</strong>eer<strong>in</strong>g von<br />

Prozessen o<strong>der</strong> die ab Kapitel 5 beschriebenen <strong>Strategien</strong>.<br />

• Kosten <strong>der</strong> symptomorientierten Datenqualitätsverbesserungen wie <strong>der</strong> Ausführung von<br />

Verbesserungsmassnahmen o<strong>der</strong> Bere<strong>in</strong>igungen.<br />

• Kosten nicht entdeckter bzw. nicht behobener Datenqualitätsmängel.<br />

Die Kosten <strong>der</strong> dritten Kategorie lassen sich nur schwer quantifizieren, da es sich um Themen wie<br />

„Frustration <strong>der</strong> Datennutzer“ o<strong>der</strong> „Folgekosten falscher Entscheidungen“ handelt. E<strong>in</strong>e korrekte<br />

Zurechnung ist hier meist schwierig, da solche Kosten entwe<strong>der</strong> gar nicht auftauchen o<strong>der</strong> (auch)<br />

an<strong>der</strong>en Ursachen zugeordnet werden. 80<br />

78 Vergleiche dazu die Auflistung von Losh<strong>in</strong> <strong>in</strong> [ 34 ], Seiten 74-76.<br />

79 Siehe dazu die Ausführungen von Losh<strong>in</strong> <strong>in</strong> [ 34 ], Seiten 73ff.<br />

80 Siehe dazu H<strong>in</strong>richs <strong>in</strong> [ 25 ], Seite 48.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 35 / 83


2.13. Möglichen Arten von Datenqualitätsmängeln<br />

Datenqualitätsmängel können ihre<br />

Quelle <strong>in</strong> jedem Schritt des<br />

Grundablaufes <strong>der</strong> klassischen IT-<br />

Funktionen haben: Bei <strong>der</strong> E<strong>in</strong>gabe,<br />

<strong>der</strong> Verarbeitung und bei <strong>der</strong> Ausgabe<br />

(EVA-Pr<strong>in</strong>zip 81 ) sowie <strong>der</strong> technischen<br />

Speicherung <strong>der</strong> Daten.<br />

Zusätzlich zu diesen technischen<br />

Mängelquellen (blauer Bereich)<br />

kommen noch mögliche menschliche<br />

Quellen (oranger Bereich) dazu.<br />

Folgende Arten von<br />

Datenqualitätsmängeln mit e<strong>in</strong>igen<br />

Beispielen über <strong>der</strong>en Ursachen<br />

können hier aufgelistet werden:<br />

Abbildung 15: Mögliche Bereiche, bei denen Datenqualitäts-<br />

Mängel auftreten können<br />

• Prozessfehler - Doppelerfassungen<br />

- Daten werden zu e<strong>in</strong>em zu frühen o<strong>der</strong> zu späten Zeitpunkt verlangt<br />

- Ergebnisse, welche den Empfänger nicht erreichen<br />

• Anwen<strong>der</strong>fehler - Ungenügende Erhebung<br />

- Tippfehler<br />

- Verlegenheitse<strong>in</strong>träge<br />

• Programmierfehler - Mehrfachvergabe von Schlüsseln<br />

- Entschw<strong>in</strong>den von Datensätzen <strong>in</strong>s Daten-Nirwana<br />

- Nicht e<strong>in</strong>deutige Auswertungen<br />

- Ungenügende o<strong>der</strong> fehlerhafte Speicherung von Daten<br />

• Kundenfehler - Falsch o<strong>der</strong> ungenau angefor<strong>der</strong>te Daten und Auswertungen<br />

- Missverständliche Def<strong>in</strong>itionen<br />

81 Siehe Stahlknecht <strong>in</strong> [ 53 ], Seite 16ff., Def<strong>in</strong>ition des EVA-Pr<strong>in</strong>zips.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 36 / 83


2.14. Was Datenqualität nicht ist<br />

Aufgrund <strong>der</strong> oben angeführten Punkte sollte eigentlich klar se<strong>in</strong>, was unter dem Begriff<br />

„Datenqualität“ heute verstanden wird. Trotzdem gibt es immer wie<strong>der</strong> Missverständnisse und<br />

Begriffsverwirrungen.<br />

Larry P. English hat <strong>in</strong> se<strong>in</strong>em Paper „7 Deadly Misconceptions about Information Quality“ 82 folgende<br />

Punkte identifiziert, welche vielfach als Datenqualität angesehen werden, die Benutzer und das<br />

Management aber <strong>in</strong> die Irre führen können:<br />

Information Quality is data cleans<strong>in</strong>g<br />

Information Quality is data assessment<br />

Conformance to bus<strong>in</strong>ess rules is the same as data accuracy<br />

“Information quality is data accuracy”; and its counterpo<strong>in</strong>t “Information quality is ‘fitness for<br />

purpose’”<br />

“Information quality problems are caused by <strong>in</strong>formation producers”; and its counterpo<strong>in</strong>t<br />

“Information quality is produced by an <strong>in</strong>formation quality group”<br />

Information quality problems can be edited out by implement<strong>in</strong>g bus<strong>in</strong>ess rules<br />

Information quality is too expensive<br />

Allen aufgeführten Punkten ist geme<strong>in</strong>sam, dass sie die Def<strong>in</strong>ition von Datenqualität (o<strong>der</strong> eben<br />

„Information Quality“) sehr e<strong>in</strong>seitig auslegen und dadurch zu e<strong>in</strong>em falschen Ergebnis führen<br />

können.<br />

82 Siehe Larry P. English <strong>in</strong> [ 14 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 37 / 83


3. Kommerzielle Ansätze zum Thema Datenqualität<br />

3.1. Der Datenqualitätsmarkt<br />

Der Markt für Datenqualitäts-Software ist laut<br />

dem „Bus<strong>in</strong>ess Application Research Center“<br />

sehr stark zersplittert.<br />

E<strong>in</strong> Artikel <strong>in</strong> <strong>der</strong> deutschen Computerwoche 83<br />

unterteilte dazu den Markt <strong>in</strong> die drei Bereiche<br />

• Data Profil<strong>in</strong>g<br />

• Data Cleans<strong>in</strong>g<br />

• Daten<strong>in</strong>tegration<br />

Wie Abbildung 16 zeigt, gibt es mehrere<br />

prom<strong>in</strong>ente Mitspieler <strong>in</strong> diesem Markt.<br />

Abbildung 16: Der Markt für Datenqualitäts-<br />

Werkzeuge <strong>in</strong> Deutschland und die Positionierung<br />

<strong>der</strong> Akteure gemäss Computerwoche.de [ 37 ]<br />

3.1.1. Data Profil<strong>in</strong>g<br />

Data Profil<strong>in</strong>g is a process whereby one exam<strong>in</strong>es the data available <strong>in</strong> an exist<strong>in</strong>g database<br />

and collects statistics and <strong>in</strong>formation about that data. Typical types of metadata sought are:<br />

Doma<strong>in</strong>, type (Alphabetic or numeric), pattern, frequency counts, statistics (m<strong>in</strong>imum,<br />

maximum, mean, median, modal and standard deviation), <strong>in</strong>terdependency with<strong>in</strong> a table and<br />

between tables. 84<br />

Data Profil<strong>in</strong>g ist also das Erstellen e<strong>in</strong>er Bestandesaufnahme aller vorhandenen Daten, e<strong>in</strong>e<br />

Kategorisierung und Errechnung von statistischen Grössen. Dies erfolgt beispielsweise durch die<br />

Analyse von Formaten und Mustern <strong>in</strong> den untersuchten Daten und allfälligen Referenzen <strong>in</strong>nerhalb<br />

und ausserhalb des vorliegenden Datenbestandes. Dadurch liefert das Data Profil<strong>in</strong>g e<strong>in</strong>en ersten<br />

Überblick über e<strong>in</strong>e zuvor unbekannte Datenbank. Die entsprechenden Resultate können<br />

anschliessend zum Erstellen von ersten Hypothesen verwendet werden.<br />

Dadurch eignet sich diese Methode sehr gut, um als erster standardisierter Ansatz zum<br />

Datenqualitätsmanagement <strong>in</strong> beliebigen Umfel<strong>der</strong>n angewendet zu werden.<br />

Ist jedoch e<strong>in</strong>e Datenbank zu untersuchen, <strong>der</strong>en Fel<strong>der</strong> und Inhalte man bereits sehr gut kennt,<br />

br<strong>in</strong>gt dieser Ansatz nicht mehr viel neues. Nach Angaben von Evoke, e<strong>in</strong>em <strong>der</strong> ersten Anbieter <strong>in</strong><br />

diesem Segment, wird Data Profil<strong>in</strong>g als wichtige Komponente angesehen, bevor Daten <strong>in</strong> e<strong>in</strong> Data<br />

Warehouse <strong>in</strong>tegriert werden können. 85 Hier enden aber auch die Möglichkeiten des Data Profil<strong>in</strong>g.<br />

Bekannte Anbieter von spezialisierter Standard-Software <strong>in</strong> diesem Bereich s<strong>in</strong>d: Dataflux (SAS),<br />

Human Inference, Informatica, Oracle sowie die <strong>in</strong>zwischen von Informatica übernommene Evoke.<br />

83 Ausschnitt aus dem Artikel von Computerwoche.de, Quelle unter [ 37 ].<br />

84 Gekürztes Zitat aus <strong>der</strong> englischen Wikipedia, Quelle unter [ 68 ].<br />

85 Siehe dazu die Pressemeldung von Evoke unter [ 43 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 38 / 83


3.1.2. Data Cleans<strong>in</strong>g<br />

Data Cleans<strong>in</strong>g, also referred to as data scrubb<strong>in</strong>g, the act of detect<strong>in</strong>g and remov<strong>in</strong>g and/or<br />

correct<strong>in</strong>g a database’s dirty data (i.e., data that is <strong>in</strong>correct, out-of-date, redundant, <strong>in</strong>complete,<br />

or formatted <strong>in</strong>correctly). The goal of data cleans<strong>in</strong>g is not just to clean up the data <strong>in</strong> a<br />

database but also to br<strong>in</strong>g consistency to different sets of data that have been merged from<br />

separate databases. Sophisticated software applications are available to clean a database’s<br />

data us<strong>in</strong>g algorithms, rules and look-up tables, a task that was once done manually and<br />

therefore still subject to human error. 86<br />

Data Cleans<strong>in</strong>g ist somit das Elim<strong>in</strong>ieren von Unstimmigkeiten und „Schrottdaten“ <strong>in</strong> bestehenden<br />

Datenbeständen.<br />

Data Cleans<strong>in</strong>g ist damit e<strong>in</strong> wichtiges Werkzeug, um Datenbestände, <strong>in</strong> denen sich problematische<br />

Daten angesammelt haben, e<strong>in</strong>er Re<strong>in</strong>igung zu unterziehen (cleans<strong>in</strong>g) und dadurch <strong>in</strong> e<strong>in</strong>en<br />

„sauberen“ Ausgangszustand zu versetzen. Data Cleans<strong>in</strong>g sollte daher jeweils am Anfang von<br />

Bemühungen <strong>zur</strong> Verbesserung <strong>der</strong> Datenqualität stehen.<br />

Muss Data Cleans<strong>in</strong>g h<strong>in</strong>gegen als permanentes Werkzeug <strong>zur</strong> Verbesserung <strong>der</strong> Datenqualität<br />

e<strong>in</strong>gesetzt werden, so ist dies e<strong>in</strong> wichtiger H<strong>in</strong>weis darauf, dass die Prozesse im Umfeld dieser<br />

Daten nicht stimmen (siehe dazu auch Kapitel 2.14 „Was Datenqualität nicht ist“).<br />

Wichtige Anbieter von spezialisierter Standard-Software <strong>in</strong> diesem Bereich s<strong>in</strong>d: Fuzzy und Omikron.<br />

3.1.3. Daten<strong>in</strong>tegration<br />

Informations<strong>in</strong>tegration bezeichnet die Aufgabe <strong>der</strong> Zusammenführung von Daten und Inhalten<br />

aus verschiedenen Quellen zu e<strong>in</strong>er e<strong>in</strong>heitlichen Menge von Informationen.<br />

Dabei sollen vor allem heterogene Quellen möglichst vollständig und effizient zu e<strong>in</strong>er<br />

strukturierten E<strong>in</strong>heit zusammengeführt werden, die sich effektiver nutzen lässt, als wenn dies<br />

bei direktem Zugriff auf die e<strong>in</strong>zelnen Quellen möglich wäre. 87<br />

Bei <strong>der</strong> Daten<strong>in</strong>tegration geht es darum, bestehende Daten <strong>in</strong> e<strong>in</strong> e<strong>in</strong>ziges Umfeld zu <strong>in</strong>tegrieren.<br />

Verknüpfungen zwischen den Datenbeständen von verschiedenen <strong>Datenbanken</strong> erlauben dabei, die<br />

Datenbestände <strong>in</strong> den e<strong>in</strong>zelnen <strong>Datenbanken</strong> zu verdichten, <strong>in</strong>dem gezielt Redundanzen zwischen<br />

den <strong>Datenbanken</strong> gesucht werden und diese Informationen dann an die Datenbank übermittelt<br />

werden, <strong>in</strong> welcher diese fehlt.<br />

Beispiel 2:<br />

E<strong>in</strong> Unternehmen verknüpft zwei Adressdatenbanken, welche bisher unabhängig vone<strong>in</strong>an<strong>der</strong><br />

betrieben worden s<strong>in</strong>d: Die Kundendatenbank und e<strong>in</strong>e Datenbank, die durch den Rücklauf<br />

e<strong>in</strong>es Preisausschreibens gefüttert wurde. Durch die Daten<strong>in</strong>tegration f<strong>in</strong>det das Unternehmen<br />

heraus, dass e<strong>in</strong>e Kund<strong>in</strong> bei diesem Preisausschreiben mitgemacht hat. Dort hat sie ihre<br />

Telefonnummer angegeben – <strong>in</strong> <strong>der</strong> Kundendatenbank fehlt diese aber. Wenn die<br />

Übere<strong>in</strong>stimmung dieser beiden Datensätze zutreffend ist, kann durch dieses Vorgehen die<br />

Kundendatenbank durch bereits vorhandenes Wissen aus <strong>der</strong> an<strong>der</strong>en Datenbank angereichert<br />

werden.<br />

Da durch diesen Vorgang auch das Wissen <strong>der</strong> Unternehmung „vermehrt“ wird, wird vielfach auch<br />

von „Bus<strong>in</strong>ess Intelligence“ o<strong>der</strong> „BI“ gesprochen, und das Endresultat solcher<br />

Datenverschmelzungen wird meist als „Data Warehouse“ (Datenlager) o<strong>der</strong> „Data Mart“ (Datenmarkt)<br />

bezeichnet.<br />

86 Zitat von Webopedia, Quelle unter [ 65 ].<br />

87 Zitat von Wikipedia, Quelle unter [ 76 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 39 / 83


Mit Hilfe dieser Technik können auch immer detailliertere Profile von Kunden erstellt werden. E<strong>in</strong><br />

Mittel, um solche Profile zu erstellen s<strong>in</strong>d beispielsweise die verbreiteten Rabattsysteme <strong>der</strong><br />

Schweizer Grossdetaillisten Migros und Coop mit <strong>der</strong> „Cumulus-Karte“, respektive <strong>der</strong> „Coop<br />

Supercard“.<br />

Daten<strong>in</strong>tegration kann jedoch an rechtliche Schranken stossen. So wurde beispielsweise an e<strong>in</strong>er<br />

Konferenz <strong>der</strong> deutschen Datenschutzbeauftragten darauf h<strong>in</strong>gewiesen, dass damit das Grundrecht<br />

auf <strong>in</strong>formelle Selbstbestimmung und Schutz <strong>der</strong> Privatsphäre <strong>in</strong> Gefahr geraten könnte, da die<br />

Speicherung von bestimmten Daten e<strong>in</strong>er Zweckb<strong>in</strong>dung unterliegt 88 . So wäre es beispielsweise<br />

rechtswidrig, die eigene Personaldatenbank auch noch <strong>zur</strong> Anreicherung <strong>der</strong> Datenbank aus dem<br />

Beispiel 2 h<strong>in</strong>zuzufügen.<br />

Da vor allem Data Warehouses momentan e<strong>in</strong>e grosse Aufmerksamkeit bei den Unternehmen<br />

geniessen, ist hier auch <strong>der</strong> Markt um e<strong>in</strong>iges grösser als bei den beiden vorgenannten Bereichen.<br />

An<strong>der</strong>erseits ist auch zu vermerken, dass Data Warehouses nicht primär dazu e<strong>in</strong>gesetzt wurden, um<br />

die Datenqualität von an<strong>der</strong>en Firmendatenbanken zu verbessern, son<strong>der</strong>n um durch die Verb<strong>in</strong>dung<br />

von bisherigen Daten den Kunden besser kennen zu lernen und sich damit neue Geschäftsbereiche<br />

zu erschliessen.<br />

Wichtige und bekannte Anbieter von spezialisierter Standard-Software <strong>in</strong> diesem Bereich s<strong>in</strong>d<br />

Bus<strong>in</strong>ess Objects, Cognos, Microsoft und Oracle.<br />

3.1.4. Komb<strong>in</strong>ation von mehreren Bereichen<br />

Neben den Spezialisten <strong>in</strong> den oben genannten Bereichen gibt es immer mehr Softwarehersteller, die<br />

<strong>in</strong> mehreren Segmenten präsent s<strong>in</strong>d. E<strong>in</strong>e solche Komb<strong>in</strong>ation macht auch durchaus S<strong>in</strong>n, da je<br />

nach Fragestellung o<strong>der</strong> Auftrag <strong>der</strong> gewünschte Erfolg nur dann e<strong>in</strong>tritt, wenn mehrere Werkzeuge<br />

parallel angewendet werden. E<strong>in</strong>e Spezialisierung <strong>der</strong> oben erwähnten Firmen ist aber auch s<strong>in</strong>nvoll,<br />

da <strong>in</strong> verschiedenen Bereichen, speziell <strong>in</strong> <strong>der</strong> Bere<strong>in</strong>igung von Adress-Dubletten (siehe dazu auch<br />

Kapitel 3.2.1), e<strong>in</strong> enorm vielseitiges Wissen angesammelt und <strong>in</strong> entsprechende Software umgesetzt<br />

werden muss.<br />

Vor allem grosse Firmen nehmen aber immer mehr die Chance wahr, <strong>in</strong> mehreren Segmenten tätig<br />

zu se<strong>in</strong> und dem Kunden durch Software von e<strong>in</strong>em Anbieter e<strong>in</strong>en Mehrwert anzubieten. Solche<br />

Komb<strong>in</strong>ationen machen auch durchaus S<strong>in</strong>n. Vor allem zwischen den Bereichen „Data Profil<strong>in</strong>g“ und<br />

„Daten<strong>in</strong>tegration“ besteht e<strong>in</strong>e grosse thematische Nähe. So ist denn auch <strong>der</strong> Pionier im Data<br />

Profil<strong>in</strong>g, die Firma Evoke, durch den Konkurrenten Informatica aufgekauft worden.<br />

3.2. E<strong>in</strong>gekaufte Produkte und Dienstleistungen<br />

E<strong>in</strong>e Internet-Recherche bei deutschen Firmen, die unter dem Begriff „Datenqualität“ ihre Produkte<br />

und Dienstleistungen anbieten, zeigt, dass das Thema „Datenqualität“ vor allem im Kontext von zwei<br />

Bereichen ersche<strong>in</strong>t. Für die Schweiz zeigt sich das selbe Bild, da es vor allem grössere<br />

Unternehmen s<strong>in</strong>d, die den Markt beherrschen und diese <strong>in</strong>ternational tätig s<strong>in</strong>d. Kle<strong>in</strong>ere<br />

Unternehmen treten vor allem als Berater für die Produkte <strong>der</strong> grossen Firmen auf.<br />

3.2.1. Datenqualität <strong>in</strong> Adressdatenbanken<br />

Durch Dubletten und fehlerhafte Adressen <strong>in</strong> Adressdatenbanken werden Market<strong>in</strong>g-Massnahmen<br />

doppelt o<strong>der</strong> falsch versendet. Dadurch entstehen Mehraufwände <strong>in</strong> f<strong>in</strong>anzieller und/o<strong>der</strong> personeller<br />

H<strong>in</strong>sicht, die ke<strong>in</strong>en Mehrertrag br<strong>in</strong>gen.<br />

Die Namen <strong>in</strong> solchen <strong>Datenbanken</strong> lassen sich mit Hilfe von l<strong>in</strong>guistischen Methoden und Regeln<br />

klassifizieren und auswerten. Dubletten <strong>in</strong> <strong>der</strong> Form von „Hans Müller“ und „Müller Hans“ lassen sich<br />

so relativ e<strong>in</strong>fach erkennen und elim<strong>in</strong>ieren. Weitere Ansätze <strong>zur</strong> Verbesserung <strong>der</strong> Datenqualität<br />

88 Siehe dazu den Bericht des Bayrischen Datenschutzbeauftragten <strong>zur</strong> Konferenz vom 14./15. März 2003,<br />

Quelle unter [ 6 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 40 / 83


eruhen im Abgleich mit an<strong>der</strong>en <strong>Datenbanken</strong> wie zum Beispiel Orts-, Strassen- und<br />

Telefonverzeichnissen.<br />

Entsprechend <strong>der</strong> Möglichkeit die Datenqualitäts-Massnahmen zu verbessern gibt es auch<br />

verschiedene Firmen und Software-Hersteller, die sich diesem Thema angenommen haben und<br />

entsprechende Produkte entwickeln und vermarkten. Bei allen Produkten geht es jedoch immer<br />

darum, allfällig gefundene Qualitätsprobleme sogleich zu elim<strong>in</strong>ieren, womit die Datenqualität fast<br />

immer auf dem höchsten messbaren Stand ist.<br />

Die unter dem Begriff „Datenqualität“ laufenden Aktivitäten bei Adressdatenbanken lassen sich fast<br />

ausschliesslich dem „Data Cleans<strong>in</strong>g“ (siehe Kapitel 3.1.2) zuordnen. Aktivitäten aus den Bereichen<br />

„Data Profil<strong>in</strong>g“ (siehe Kapitel 3.1.1) laufen meistens im Rahmen von Data Warehouse Projekten o<strong>der</strong><br />

für Customer Relationship Management (CRM) Projekte. Aktivitäten im Bereich <strong>der</strong><br />

„Daten<strong>in</strong>tegration“ (siehe Kapitel 3.1.3) haben meist e<strong>in</strong>e grössere Dimension als lediglich die<br />

Verbesserung von Adressdaten, so dass Daten<strong>in</strong>tegrationsprojekte selten unter diesem Segel laufen.<br />

3.2.2. Datenqualität <strong>in</strong> an<strong>der</strong>en <strong>Datenbanken</strong><br />

Um die Datenqualität <strong>in</strong> an<strong>der</strong>en <strong>Datenbanken</strong> festzustellen, darzustellen und Verbesserungen<br />

vorzunehmen, existieren fast ke<strong>in</strong>e standardisierten Produkte von Softwareherstellern. Am besten<br />

lassen sich die Produkte <strong>in</strong> den Bereichen „Data Profil<strong>in</strong>g“ und „Data Integration“ für solche<br />

Aktivitäten heranziehen. Da aber die Inhalte und Strukturen dieser <strong>Datenbanken</strong> sehr vielfältig se<strong>in</strong><br />

können, kann es ke<strong>in</strong> Tool geben, das alle diese Strukturen und Inhalte standardmässig abdeckt.<br />

Daher ist die e<strong>in</strong>zig mögliche Strategie dieser Hersteller, e<strong>in</strong> möglichst vielfältiges Tool anzubieten,<br />

welches dann im Rahmen e<strong>in</strong>er Dienstleistung an das jeweilige Umfeld angepasst werden kann.<br />

Wie <strong>in</strong> den folgenden Kapitel ersichtlich, müssen <strong>zur</strong> Lösung solcher Datenqualitätsprobleme<br />

Prozesse und Denkweisen angepasst werden, so dass <strong>der</strong> E<strong>in</strong>satz e<strong>in</strong>es Tools nicht automatisch die<br />

Probleme löst.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 41 / 83


4. Generische Ansätze <strong>zur</strong> Verbesserung <strong>der</strong><br />

Datenqualität<br />

4.1. Grundsätzliches <strong>zur</strong> Datenqualität<br />

Wie bereits im Kapitel 2.14 vermerkt, kann Datenqualität nicht delegiert, verordnet o<strong>der</strong> im<br />

Nachh<strong>in</strong>e<strong>in</strong> <strong>in</strong> e<strong>in</strong> Produkt <strong>in</strong>tegriert werden. Massnahmen für die <strong>Hebung</strong> <strong>der</strong> Datenqualität müssen<br />

bereits beim Design e<strong>in</strong>er Applikation o<strong>der</strong> e<strong>in</strong>es Prozesses getroffen werden und während des<br />

Projektverlaufes muss sichergestellt werden, dass solche getroffenen Massnahmen umgesetzt<br />

werden.<br />

Für den Benutzer s<strong>in</strong>d die meisten <strong>der</strong> zu treffenden Massnahmen unsichtbar, ähnlich e<strong>in</strong>em Eisberg,<br />

<strong>der</strong> nur 10 % se<strong>in</strong>er Masse aus dem Wasser herausragen lässt und das ist eigentlich auch gut so, da<br />

das Thema Datenqualität nicht alle<strong>in</strong>e dem Benutzer aufgebürdet werden kann.<br />

4.2. Bisherige Ansätze<br />

Die Literatur zum Thema beschreibt e<strong>in</strong>ige Ansätze, wie e<strong>in</strong> Datenqualitätsmodell aussehen sollte<br />

und welche Arten von Projekten es gibt. Zu Verbesserungsstrategien hat me<strong>in</strong>e Literaturrecherche<br />

jedoch nichts Nennenswertes zutage gebracht.<br />

4.2.1. Muster von Datenqualitätsprojekten<br />

Strong et al. unterscheiden zwischen drei verschiedenen Mustern 89 :<br />

1. Die <strong>in</strong>tr<strong>in</strong>sische Datenqualität<br />

2. Verfügbarkeits-Datenqualität und<br />

3. Kontextuelle Datenqualität<br />

Bei <strong>der</strong> <strong>in</strong>tr<strong>in</strong>sischen Datenqualität stehen die <strong>in</strong>ternen Prozesse und Datenproduzenten im<br />

Vor<strong>der</strong>grund. Sie s<strong>in</strong>d <strong>der</strong> Auslöser für Verbesserungsaktionen. Beim zweiten Muster ist die<br />

Verfügbarkeit <strong>der</strong> Daten das Problem – Daten s<strong>in</strong>d nicht verfügbar o<strong>der</strong> nicht <strong>in</strong>terpretierbar. Beim<br />

dritten Muster für Datenqualitätsprojekte ist <strong>der</strong> Kontext im Vor<strong>der</strong>grund – Daten s<strong>in</strong>d unvollständig,<br />

zu wenig verdichtet o<strong>der</strong> <strong>in</strong>kompatibel. Aus diesen drei Mustern leiten die Autoren e<strong>in</strong>e mögliche<br />

Problemlösung ab, <strong>in</strong>dem sie Prozesse, Datenstrukturen und an<strong>der</strong>es anpassen.<br />

Diese beschriebenen Ansätze s<strong>in</strong>d jedoch nur reaktiv und haben ke<strong>in</strong>e o<strong>der</strong> nur e<strong>in</strong>e kle<strong>in</strong>e proaktive<br />

Bedeutung.<br />

89 Siehe Strong, Lee, Wang <strong>in</strong> [ 54 ] und Huang, Yang, Wang <strong>in</strong> [ 26 ], Seite 47.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 42 / 83


4.2.2. Auf Basis des TQM-Konzeptes<br />

Von Peter Wolf wurde e<strong>in</strong>e Übertragung<br />

des TQM-Konzeptes auf den Bereich<br />

<strong>der</strong> Datenqualität vorgenommen 90 . Der<br />

grosse Verdienst dieser Arbeit ist die<br />

Integration des Themas <strong>in</strong> die<br />

Gesamtlandschaft <strong>der</strong><br />

Qualitätswerkzeuge sowie dem<br />

E<strong>in</strong>bezug von Prozessen. Er beschreibt<br />

auch, wie Regelprozesse für e<strong>in</strong><br />

funktionierendes Datenqualitätsmodell<br />

aussehen müssen, <strong>in</strong>dem er aus <strong>der</strong><br />

Werkzeugkiste des TQM schöpft.<br />

Diese Dissertation beschreibt detailliert,<br />

wie e<strong>in</strong> TQM-basiertes Mess- und<br />

Regelmodell für Datenqualität<br />

implementiert werden kann.<br />

Abbildung 17: Das Regelkreismodell nach Peter Wolf 91<br />

Der TQM-Ansatz ist sicher das am Detailliertesten beschriebene Konzept e<strong>in</strong>es<br />

Datenqualitätsmodells für die Praxis. Es wird beschrieben, welche Werkzeuge dazu benötigt werden<br />

sowie wo und wie gemessen werden kann, aber es liefert ke<strong>in</strong>e H<strong>in</strong>weise darauf, wie die<br />

Datenqualität dauerhaft verbessert werden kann.<br />

4.2.3. Auf statistischer Basis<br />

An Universitäten wie dem US-Amerikanischen MIT 92 , dem französischen INRIA 93 , <strong>der</strong> kalifornischen<br />

UC Berkeley 94 und e<strong>in</strong>zelnen Firmen wird das Thema Datenqualität von <strong>der</strong> statistischen Seite mit<br />

automatischer Fehlererkennung angegangen. Das Ziel ist hierbei, aus e<strong>in</strong>em Datenhaufen mit dem<br />

E<strong>in</strong>satz von Data-M<strong>in</strong><strong>in</strong>g Methoden neue Muster und Regelmässigkeiten sowie Datenanomalien und<br />

Ausreisser zu f<strong>in</strong>den. Mittels e<strong>in</strong>er automatisierbaren Fehlersuche werden aus den bestehenden<br />

Daten Erkenntnisse über <strong>der</strong>en Struktur gewonnen.<br />

Mit diesen Erkenntnissen können dann die Daten entsprechend bere<strong>in</strong>igt werden und neue<br />

Geschäftsregeln erstellt werden, um künftig die Daten schon bei <strong>der</strong> Erstellung besser auf ihre<br />

Qualität überprüfen zu können. 95<br />

90 Siehe Peter Wolf, 1999 <strong>in</strong> [ 87 ].<br />

91 Grafik nachgezeichnet aus Peter Wolf, 1999 [ 87 ], Seite 146.<br />

92 MIT = Massachusetts Institute of Technology – http://web.mit.edu/tdqm.<br />

93 INRIA = Institut National de Recherche en Informatique et en Automatique – http://www.<strong>in</strong>ria.fr.<br />

94 UC Berkeley = Universität Berkeley – http://db.cs.berkeley.edu.<br />

95 E<strong>in</strong>e genaue Beschreibung dieses statistischen Ansatzes und auf welchem Stand die verschiedenen<br />

Forschungsarbeiten s<strong>in</strong>d, wird von H<strong>in</strong>richs <strong>in</strong> [ 25 ], Seiten 51-65 detailliert beschrieben. Ebenfalls enthalten ist<br />

die Beschreibung e<strong>in</strong>es Projektes <strong>der</strong> DaimlerChrysler AG.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 43 / 83


4.3. Generische Ansätze<br />

Das Ziel von generischen Ansätzen ist es, unabhängig von den effektiv vorliegenden Verhältnissen<br />

Möglichkeiten aufzuzeigen, e<strong>in</strong> Ziel zu erreichen. In diesem Fall geht es darum, generell formulierte<br />

<strong>Strategien</strong> zu benennen für e<strong>in</strong>e langfristige Verbesserung <strong>der</strong> Datenqualität – und dies losgelöst<br />

vom zugrunde liegenden Datenbankmodell und den dazugehörigen Prozessen.<br />

Ausgehend von den möglichen Ursachen von schlechter Datenqualität wie sie <strong>in</strong> Kapitel 2.13<br />

beschrieben s<strong>in</strong>d, sollen hier e<strong>in</strong>ige generische Ansätze beschrieben werden, um die Datenqualität<br />

zu verbessern. Ausgangspunkt ist dabei Abbildung 15 welche den Zusammenhang zwischen<br />

Fehlerquellen und den Fehlerarten aufzeigt.<br />

Für jede dieser Fehlerarten kann e<strong>in</strong><br />

generischer Ansatzpunkt gefunden<br />

werden, <strong>der</strong> nachhaltig <strong>zur</strong> Behebung<br />

von Datenqualitätsmängeln verwendet<br />

werden kann.<br />

Die vier generischen Ansätze s<strong>in</strong>d:<br />

1. Verantwortung, Messen und<br />

Publizieren<br />

2. Freiheit und Führung<br />

3. Standards<br />

4. Def<strong>in</strong>itionen<br />

Zu jedem dieser generischen Ansätze<br />

kann e<strong>in</strong>e These formuliert werden, mit<br />

<strong>der</strong>en Hilfe man die Wirksamkeit <strong>der</strong><br />

nachfolgenden <strong>Strategien</strong> messen<br />

kann.<br />

4.4. Thesen<br />

4.4.1. These 1<br />

Abbildung 18: Generische Ansätze zu den möglichen<br />

Fehlerarten<br />

Ohne Wahrnehmen <strong>der</strong> Verantwortung über den ganzen Prozess kann ke<strong>in</strong>e<br />

Verbesserung <strong>der</strong> Datenqualität erfolgen.<br />

Schon Peter Drucker sagte „Was du nicht messen kannst, kannst du nicht lenken“ 96 . Das gilt nicht nur<br />

für die „normale“ Betriebswirtschaft son<strong>der</strong>n gerade auch für den Bereich <strong>der</strong> Datenqualität. Je<br />

Unternehmenskritischer dabei die Qualität <strong>der</strong> Daten ist, desto wichtiger ist es, die<br />

Prozessperspektive speziell zu berücksichtigen.<br />

Auch ist es fahrlässig, jemandem die Verantwortung für die Qualität von Daten aufzubürden ohne ihm<br />

auch entsprechende Werkzeuge zu geben, etwas <strong>in</strong> diesem Verantwortungsbereich zu steuern. 97<br />

Und zum Steuern benötigt man Informationen über den aktuellen Zustand ohne die man nicht<br />

def<strong>in</strong>ieren kann, <strong>in</strong> welche Richtung gesteuert werden soll. Somit gehört das Messen und Publizieren<br />

dieser Messungen auch <strong>in</strong> die Kategorie „Verantwortung“.<br />

96 Orig<strong>in</strong>alzitat <strong>in</strong> Englisch: „If you can’t measure it, you can’t manage it” von Peter F. Drucker aus Wikiquote<br />

[ 85 ].<br />

97 Damit ist die Kongruenz zwischen Aufgaben, Kompetenzen und Verantwortung geme<strong>in</strong>t.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 44 / 83


Zudem muss auch im Thema Datenqualität klar werden, dass die Ursache nicht an e<strong>in</strong>em Ort alle<strong>in</strong>e<br />

liegt, son<strong>der</strong>n dass im Kampf um gute Datenqualität die Kräfte aller Beteiligten gebündelt und<br />

koord<strong>in</strong>iert werden müssen.<br />

Bleibt nur noch die Frage, wer denn alles zu den Beteiligten gehört. Diese Frage kann nicht so<br />

schnell abschliessend beantwortet werden. Abbildung 18 ist dabei e<strong>in</strong> guter Ansatzpunkt <strong>zur</strong><br />

Beantwortung dieser Frage. So müssen sicher <strong>der</strong> Prozessowner, <strong>der</strong> Anwen<strong>der</strong>, <strong>der</strong> Programmierer<br />

und <strong>der</strong> Kunde mit e<strong>in</strong>bezogen werden. Es kann aber durchaus se<strong>in</strong>, dass <strong>der</strong> Anwen<strong>der</strong> wie<strong>der</strong>um<br />

als Kunde e<strong>in</strong>er an<strong>der</strong>en Verarbeitung auftritt und somit nicht <strong>der</strong> Urheber <strong>der</strong> Daten ist und <strong>der</strong><br />

Kunde nicht <strong>der</strong> Endkunde ist. Dann müssen auch diese zum Kreis <strong>der</strong> Betroffenen gezählt werden,<br />

bis die gesamte relevante Verarbeitungskette, wie <strong>in</strong> Abbildung 19 dargestellt, abgedeckt ist.<br />

Abbildung 19: E<strong>in</strong>bezug von mehreren Applikationen, solange sie dem selben Prozess zugehörig s<strong>in</strong>d<br />

4.4.2. These 2<br />

Der Anwen<strong>der</strong> kann gute Datenqualität nur dann produzieren, wenn man ihm an den<br />

geeigneten Orten richtig führt – an an<strong>der</strong>en aber notwendige Freiheiten lässt.<br />

Betrachtet man Applikationen aus den 1980er-Jahren, so standen die funktionalen Aspekte e<strong>in</strong>er<br />

Applikation im Vor<strong>der</strong>grund 98 – dem Kunden musste e<strong>in</strong> dickes Handbuch mitgeliefert werden,<br />

welches ihm sagte, welche E<strong>in</strong>gaben an welchen Orten verlangt wurden und welche E<strong>in</strong>gaben nicht<br />

gemacht werden durften. Der Anwen<strong>der</strong> hatte durch das Programm ke<strong>in</strong>erlei Führung.<br />

Durch die weitere Verbreitung von Grafischen Benutzerschnittstellen (GUI – Graphical User Interface)<br />

<strong>in</strong> den 1990er-Jahren 99 wurden dem Benutzer alle Möglichkeiten präsentiert aus denen er nur noch<br />

mit <strong>der</strong> Maus auswählen konnte. So e<strong>in</strong>fach diese Benutzerschnittstellen für Anfänger waren und s<strong>in</strong>d<br />

– so e<strong>in</strong>engend s<strong>in</strong>d sie für Profis. E<strong>in</strong> sogenannter „Power User“ kann aus e<strong>in</strong>em System weit mehr<br />

herausholen als dieses über die Grafische Benutzerschnittstelle anbietet. E<strong>in</strong>em solchen Power User<br />

bieten die verschiedenen Kommandozeilen-Tools die notwendige Freiheit, die er benötigt, um aus<br />

se<strong>in</strong>em System das optimale Resultat herauszuholen.<br />

Diese Entwicklung hat sich auch <strong>in</strong> den Office-Programmen von Microsoft wie<strong>der</strong>holt. Nachdem alle<br />

Funktionen nur über die Pulldown-Menüs o<strong>der</strong> Tastenkomb<strong>in</strong>ationen erreichbar waren, haben<br />

spätere Word- und Excel-Versionen e<strong>in</strong>e Schnittstelle erhalten, über die die Software mittels weiterer<br />

Programme gesteuert werden konnte. Mittlerweile bieten fast alle grösseren Office-Pakete e<strong>in</strong>e<br />

solche Schnittstelle an. Dadurch kann <strong>der</strong> versierte Benutzer das Maximum aus <strong>der</strong> angebotenen<br />

Software holen.<br />

Ähnlich ist es mit den Benutzern von Individualsoftware und datenbankbasierter Software. Für die<br />

Inhalte ist <strong>der</strong> Benutzer <strong>der</strong> Fachmann und möchte als mündiger Mensch nicht bevormundet werden<br />

durch starre Prozesse, welche meist e<strong>in</strong>en o<strong>der</strong> zwei Standardabläufe abdecken und alle Formen<br />

98 Siehe dazu <strong>der</strong> Wikipedia-Artikel zu „Software-Ergonomie“ <strong>in</strong> [ 82 ].<br />

99 Siehe dazu <strong>der</strong> Wikipedia-Artikel zu „Grafische Benutzeroberfläche“ <strong>in</strong> [ 74 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 45 / 83


von Son<strong>der</strong>fällen gar nicht erst zulassen. Im Normalfall, wenn <strong>der</strong> Standardprozess passt, geniesst<br />

<strong>der</strong> Benutzer die Führung durch die Software, aber bei Son<strong>der</strong>fällen muss <strong>der</strong> Benutzer e<strong>in</strong>e<br />

Möglichkeit haben, den E<strong>in</strong>gabe- o<strong>der</strong> Verarbeitungsprozess <strong>der</strong> Realität anzupassen. Besteht diese<br />

E<strong>in</strong>riffsmöglichkeit nicht, werden alle Fälle, die nicht dem Standardablauf entsprechen, e<strong>in</strong>e schlechte<br />

Datenqualität aufweisen.<br />

4.4.3. These 3<br />

Die Art wie e<strong>in</strong>e Software designed und hergestellt wird, bee<strong>in</strong>flusst massgeblich die<br />

Datenqualität <strong>in</strong> späteren Jahren.<br />

Durchläuft die Entwicklung <strong>der</strong> Software standardisierte Phasen, periodische Qualitätschecks und<br />

wird nach standardisierten Verfahren getestet, dann ist die mittel- bis langfristig erreichte Qualität <strong>der</strong><br />

Daten die mit dieser Software erstellt, verarbeitet, gespeichert und ausgegeben werden mit Sicherheit<br />

besser, als wenn die vorgenannten Punkte während <strong>der</strong> Softwareerstellung nicht berücksichtigt<br />

wurden.<br />

Beispiel 3:<br />

E<strong>in</strong> Schraubenzieher kann man sowohl als Qualitätsprodukt wie auch als Billigprodukt<br />

e<strong>in</strong>kaufen. Zum Kaufzeitpunkt merkt man ausser im Preis ke<strong>in</strong>e o<strong>der</strong> nur kle<strong>in</strong>e Unterschiede.<br />

Die tatsächlichen Unterschiede treten erst dann zu tage, wenn Schrauben verarbeitet werden<br />

müssen, <strong>der</strong>en Schlitz nicht e<strong>in</strong>e optimale Form o<strong>der</strong> Breite hat o<strong>der</strong> nach e<strong>in</strong>er gewissen<br />

Gebrauchszeit.<br />

Abgerundete (verschlissene) Ecken lassen die Kraft nicht mehr so gut auf die Schraube<br />

übertragen, abgesplitterte Verchromung verursacht Verletzungen an den F<strong>in</strong>gern etc. Mit e<strong>in</strong>em<br />

<strong>der</strong>artigen Werkzeug lässt sich ke<strong>in</strong>e Qualitätsarbeit mehr verrichten – auch wenn zu Beg<strong>in</strong>n<br />

dieses Werkzeug se<strong>in</strong>e Funktion bestens erfüllte.<br />

Genauso verhält es sich mit <strong>der</strong> Datenqualität und <strong>der</strong> verarbeitenden Software. E<strong>in</strong>e ausführliche<br />

Begründung dafür ist im Kapitel 5.3.3 auf Seite 52 aufgeführt.<br />

4.4.4. These 4<br />

Nicht <strong>der</strong> Datenlieferant, son<strong>der</strong>n <strong>der</strong> Kunde trägt den wichtigsten Teil <strong>zur</strong> Datenqualität<br />

bei, <strong>in</strong>dem dieser zuerst e<strong>in</strong>mal def<strong>in</strong>ieren muss, was ihm wichtig ist.<br />

Vor allem beim transzendenten und dem wertbasierten Ansatz <strong>der</strong> Qualität (sowie teilweise beim<br />

kundenorientierten Ansatz 100 ) ist es für den Kunden relativ e<strong>in</strong>fach zu behaupten, dass etwas <strong>der</strong><br />

Qualität nicht entsprechen würde, da <strong>der</strong> Massstab für Qualität <strong>in</strong> erster L<strong>in</strong>ie subjektivem Empf<strong>in</strong>den<br />

unterworfen ist. E<strong>in</strong>e Objektivierung dieses Qualitätsbegriffs ist daher notwendig.<br />

Als erster Schritt dieser Objektivierung muss zwischen dem Lieferanten und dem Kunden e<strong>in</strong><br />

geme<strong>in</strong>sames Verständnis für Qualität entwickelt werden. An<strong>der</strong>s als <strong>in</strong> <strong>der</strong> Konsumgüter<strong>in</strong>dustrie ist<br />

hier e<strong>in</strong> dauern<strong>der</strong> direkter Kundenkontakt vorhanden und ermöglicht es den beteiligten Parteien,<br />

geme<strong>in</strong>sam das Ziel <strong>der</strong> gewünschten Datenqualität zu erreichen.<br />

Dieses Vorgehen entspricht eher <strong>der</strong> Qualität des produktorientierten Ansatzes und des<br />

herstellungsorientierten Ansatzes. Dafür existieren bereits viele Werkzeuge und sie können relativ<br />

schnell e<strong>in</strong>gesetzt werden.<br />

100 Siehe dazu die Def<strong>in</strong>itionen von Qualität aus Kapitel 2.2.3, wo <strong>in</strong> Tabelle 2 e<strong>in</strong> Überblick über die<br />

verschiedenen Def<strong>in</strong>itionen von Qualität geliefert wird.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 46 / 83


4.5. Aus diesen Thesen abgeleitete <strong>Strategien</strong><br />

Aus den <strong>in</strong> Abbildung 18 aufgeführten generischen Ansätzen und den daraus abgeleiteten Thesen<br />

können nun verschiedene <strong>Strategien</strong> entwickelt werden. E<strong>in</strong>e Übersicht dazu ist <strong>in</strong> Tabelle 4<br />

ersichtlich:<br />

These: These 1 These 2 These 3 These 4<br />

Generischer Ansatz: Verantwortung<br />

Messen und Freiheit und<br />

<strong>Strategien</strong>:<br />

Publizieren Führung Standards Def<strong>in</strong>itionen<br />

Strategie A: Transparenz schafft Vertrauen <br />

Strategie B: Def<strong>in</strong>ition von Verantwortlichkeiten<br />

Strategie C: Die Grundsätze <strong>der</strong><br />

Softwareentwicklung ausnutzen<br />

Strategie D: Datenabhängigkeiten s<strong>in</strong>d Gold<br />

wert<br />

Strategie E: Daten-Lifecycle auf Basis des<br />

Prozesses<br />

Strategie F: Unternehmensweite Verwendung<br />

von Metadaten<br />

Strategie G: Nie<strong>der</strong>schwellige Verbesserungs-<br />

Werkzeuge<br />

Strategie H: E<strong>in</strong>gabe von „Ich weiss es wirklich<br />

nicht“<br />

Strategie I: Def<strong>in</strong>ition e<strong>in</strong>es Verfalldatums <br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Tabelle 4: Thesen, generische Ansätze und <strong>Strategien</strong><br />

Wie die Tabelle zeigt, wirken die meisten <strong>der</strong> aufgelisteten <strong>Strategien</strong> auf mehrere generische<br />

Ansätze. Umgekehrt verwendet die Umsetzung e<strong>in</strong>es generischen Ansatzes Elemente verschiedener<br />

<strong>Strategien</strong>. Somit ist die Umsetzung e<strong>in</strong>es e<strong>in</strong>zelnen Feldes dieser Tabelle nicht möglich, da es sich<br />

immer um mehrere vernetzte Abhängigkeiten handelt.<br />

Im folgenden Kapitel werden die oben genannten <strong>Strategien</strong> mit ihrem konkreten Nutzen und je<br />

e<strong>in</strong>em Vorschlag <strong>zur</strong> Umsetzung im Detail erklärt.<br />

<br />

<br />

<br />

<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 47 / 83


5. 9 <strong>Strategien</strong> für e<strong>in</strong>e grundsätzliche Verbesserung<br />

<strong>der</strong> Datenqualität<br />

5.1. Strategie A: Transparenz schafft Vertrauen<br />

5.1.1. Ansatzpunkt dieser Strategie<br />

5.1.1.1. Organisatorische Transparenz<br />

Unter Transparenz werden hier vor allem folgende Punkte verstanden: 101<br />

• Annahmen und Grundlagen für die Datenqualitätsmessungen werden dokumentiert und<br />

offengelegt.<br />

• Der Umfang <strong>der</strong> durchgeführten Messungen wird klar def<strong>in</strong>iert und kommuniziert.<br />

• Die Resultate <strong>der</strong> Datenqualitätsmessungen s<strong>in</strong>d für alle beteiligten Personen immer<br />

e<strong>in</strong>sehbar.<br />

• Die Art <strong>der</strong> Messungen bezüglich Methode, Periodizität und Aussage wird offen dargelegt.<br />

Zudem wird nur das gemessen, wofür e<strong>in</strong> Kunde 102 e<strong>in</strong>en Auftrag gibt und allenfalls dafür bezahlt.<br />

Sonst verkommt das Messen <strong>der</strong> Datenqualität zu e<strong>in</strong>er Selbstbeschäftigung.<br />

5.1.1.2. Technische Transparenz<br />

Wichtig ist hier auch, dass nicht nur die jeweils aktuellen Zahlen <strong>zur</strong> Datenqualitätsmessung<br />

verfügbar s<strong>in</strong>d, son<strong>der</strong>n auch e<strong>in</strong> Verlauf über e<strong>in</strong>en grösseren Zeitraum abrufbar ist, um die<br />

Entwicklung <strong>der</strong> Datenqualität verfolgen zu können.<br />

E<strong>in</strong> weiterer wichtiger Punkt <strong>zur</strong> Transparenz ist, dass die Messungen zentral durchgeführt werden.<br />

Ist die durchführende Stelle noch weitgehend neutral, so ist dies e<strong>in</strong> weiterer Pluspunkt für e<strong>in</strong>e breit<br />

abgestützte Messung und weit anerkannte Durchführung.<br />

Idealerweise erfolgt das Publizieren dieser Resultate über e<strong>in</strong>e Intranet-Seite, welche diese Zahlen<br />

und Grafiken publiziert. Dadurch s<strong>in</strong>d die Hauptkriterien (öffentliche Dokumentation, zentrale<br />

Messung und dauernde freie Verfügbarkeit <strong>der</strong> Resultate) e<strong>in</strong>fach zu erfüllen.<br />

5.1.2. Nutzen dieser Strategie<br />

Unter allen Beteiligten wird e<strong>in</strong>e geme<strong>in</strong>same Ausgangsbasis gefunden, was, wo und wie gemessen<br />

wird. Von dieser Basis aus können geme<strong>in</strong>same Aktionen und Verbesserungen viel e<strong>in</strong>facher<br />

gestartet und koord<strong>in</strong>iert werden.<br />

Durch die Diskussion mit dem Kunden ergibt sich auch e<strong>in</strong>e Sensibilisierung des Themas für alle<br />

Beteiligte, was für sich alle<strong>in</strong>e schon e<strong>in</strong>e Verbesserung <strong>der</strong> Datenqualität ergibt. S<strong>in</strong>d auch noch<br />

entsprechende Messungen vorhanden, welche öffentlich e<strong>in</strong>sehbar s<strong>in</strong>d, ergibt sich daraus e<strong>in</strong><br />

Wettbewerb, <strong>der</strong> alle Beteiligten dazu anspornt, etwas zu tun, da die Früchte solcher Arbeit nicht nur<br />

nach aussen, son<strong>der</strong>n auch bei L<strong>in</strong>ienvorgesetzten sehr gut sichtbar s<strong>in</strong>d.<br />

5.1.3. Nachteile und Risiken dieser Strategie<br />

Transparenz wird nicht überall gerne gesehen, da sie an<strong>der</strong>en Abteilungen e<strong>in</strong>en E<strong>in</strong>blick <strong>in</strong> die<br />

eigene Organisation, <strong>der</strong>en Strategie, Effektivität und Effizienz gibt. Damit eröffnet man für sich selbst<br />

und den eigenen Mitarbeiter e<strong>in</strong>e Angriffsfläche, was natürlich nicht alle wollen.<br />

101 Vergleiche auch die Grundsätze <strong>zur</strong> wissenschaftlichen Arbeit <strong>in</strong> [ 5 ] bezüglich Prämissen und<br />

Untersuchungsdesign auf den Seiten 16/17.<br />

102 Kunde wird hier verstanden als Auftraggeber und ist nicht gleichzusetzen mit e<strong>in</strong>em Kunden <strong>der</strong> Firma.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 48 / 83


Aus diesem Grund muss diese Strategie <strong>in</strong> jedem Fall von allen Beteiligten befürwortet werden, damit<br />

sie umgesetzt werden und entsprechend positive Auswirkungen auf die Datenqualität haben kann.<br />

5.2. Strategie B: Def<strong>in</strong>ition von Verantwortlichkeiten<br />

5.2.1. Ansatzpunkt dieser Strategie<br />

Wer sich nicht verantwortlich fühlt für etwas, verbessert auch nichts daran. Also muss es im Interesse<br />

aller se<strong>in</strong>, wenn sich die verschiedenen Stellen im Datenverarbeitungsprozess <strong>in</strong> Form von Rollen<br />

benennen lassen und es somit <strong>in</strong> <strong>der</strong>en Verantwortung liegt, verschiedene Funktionen und<br />

Tätigkeiten auszuführen.<br />

Folgende Bus<strong>in</strong>essrollen haben sich <strong>in</strong> <strong>der</strong> Realität als nützlich erwiesen:<br />

• Prozess Owner<br />

• Data Owner<br />

• Data Def<strong>in</strong>ition Owner<br />

• Data Consumer<br />

• Data Provi<strong>der</strong><br />

5.2.2. Positionierung dieser<br />

Bus<strong>in</strong>essrollen im Modell<br />

In Abbildung 20 wird e<strong>in</strong>e<br />

Positionierung und Zuordnung dieser<br />

Bus<strong>in</strong>essrollen im Modell aufgezeigt.<br />

5.2.2.1. Der Prozess Owner<br />

Der Prozess Owner ist verantwortlich<br />

dafür, dass <strong>der</strong> Prozess def<strong>in</strong>iert wird<br />

und festgelegt wird, <strong>in</strong> welchem<br />

Prozessschritt welche Daten erfasst<br />

und verän<strong>der</strong>t werden. Normalerweise<br />

umfasst se<strong>in</strong>e Verantwortung nicht nur<br />

den hier behandelten Bereich, son<strong>der</strong>n<br />

alles, was mit dem Prozess zu tun hat,<br />

also auch Sachen wie Zeitvorgaben,<br />

Prozessverbesserungen etc.<br />

Abbildung 20: Positionierung <strong>der</strong> Rollen im Modell <strong>der</strong><br />

Fehlerarten<br />

In Bezug auf die Beurteilung <strong>der</strong> Datenqualität hat er auch für entsprechende Werkzeuge <strong>zur</strong><br />

Messung, Publizierung und <strong>Hebung</strong> <strong>der</strong> Datenqualität zu sorgen, da er meistens <strong>der</strong>jenige ist, <strong>der</strong><br />

ohneh<strong>in</strong> schon e<strong>in</strong>e <strong>in</strong>tegrative Funktion <strong>in</strong>nehat und auch weitgehend neutral im ganzen Thema<br />

agieren kann.<br />

5.2.2.2. Der Data Owner<br />

Der Data Owner ist verantwortlich für alles, was mit se<strong>in</strong>en Daten geschieht. Er ist auch zuständig für<br />

die Def<strong>in</strong>ition, „was überhaupt“ erfasst wird. Werden die Daten nur für den ursprünglich<br />

vorgesehenen Zweck verwendet o<strong>der</strong> auch für an<strong>der</strong>e Prozesse? Wer darf überhaupt E<strong>in</strong>blick <strong>in</strong> die<br />

Daten erhalten (Datenschutz) und wie werden die Daten vor Verlust und unbeabsichtigter<br />

Verän<strong>der</strong>ung (Datensicherheit) geschützt? Zudem ist er dafür verantwortlich, die richtigen Stellen zu<br />

f<strong>in</strong>den, die ihm die gewünschten Daten <strong>in</strong> <strong>der</strong> gewünschten Qualität liefern.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 49 / 83


Er erstellt meistens auch die „Bus<strong>in</strong>ess Rules“ 103 , nach denen Datene<strong>in</strong>gaben überprüft und<br />

verarbeitet werden und die e<strong>in</strong> wichtiges Werkzeug bezüglich <strong>der</strong> Identifikation <strong>der</strong> Datenqualität<br />

s<strong>in</strong>d.<br />

In Bezug auf die Datenqualität muss er dafür sorgen, dass die Bereiche und Methoden def<strong>in</strong>iert<br />

werden, und klären, wie die Datenqualität gemessen werden soll. Sehr oft ist <strong>der</strong> Data Owner<br />

identisch mit dem Data Consumer, kann aber auch dem Prozess Owner angeglie<strong>der</strong>t se<strong>in</strong> o<strong>der</strong> sogar<br />

ganz ausserhalb dieses Modells stehen.<br />

Für die korrekte Benennung des Data Owners gibt es ke<strong>in</strong>e starren Regeln, son<strong>der</strong>n nur H<strong>in</strong>weise<br />

darauf. Losh<strong>in</strong> beschreibt <strong>in</strong>sgesamt 11 Möglichkeiten, wer <strong>der</strong> Data Owner se<strong>in</strong> könnte. Für ihn<br />

kommen folgende organisatorische E<strong>in</strong>heiten <strong>in</strong> Frage:<br />

Der Datenersteller, <strong>der</strong> Datenbezüger, <strong>der</strong> Datenverarbeiter, das Unternehmen als Ganzes, <strong>der</strong><br />

Auftraggeber für die Datenerstellung, <strong>der</strong> Entdecker von Daten, <strong>der</strong> Zusammensteller von<br />

Datensets, <strong>der</strong> Leser, das Subjekt, <strong>der</strong> Lizenznehmer und Je<strong>der</strong>mann. 104<br />

In <strong>der</strong> Realität des Unternehmens werden wohl kaum alle dieser möglichen Data Owner <strong>in</strong> Frage<br />

kommen – trotzdem zeigt diese Auflistung, dass die korrekte Identifizierung des Data Owners nicht<br />

e<strong>in</strong>fach ist und sorgfältig erfolgen sollte.<br />

5.2.2.3. Der Data Def<strong>in</strong>ition Owner und Data Consumer<br />

Der Data Def<strong>in</strong>ition Owner ist meistens identisch mit <strong>der</strong> Stelle, die die Daten verwendet (Data<br />

Consumer) und ist somit <strong>der</strong> Nutzniesser <strong>der</strong> Daten. Er muss def<strong>in</strong>ieren, welche Daten er <strong>in</strong> welcher<br />

Qualität, Granularität und Form sowie <strong>in</strong> welchem Format benötigt. Werden die gleichen Daten von<br />

mehreren Stellen konsumiert, müssen sich diese entsprechend koord<strong>in</strong>ieren.<br />

5.2.2.4. Der Data Provi<strong>der</strong><br />

Der „Data Provi<strong>der</strong>“ ist zuständig für die zeitgerechte Beschaffung <strong>der</strong> benötigten Daten <strong>in</strong> <strong>der</strong><br />

benötigten Qualität. Da <strong>der</strong> Data Provi<strong>der</strong> die Daten <strong>in</strong>s System e<strong>in</strong>br<strong>in</strong>gt, ist hier auch <strong>der</strong> klassische<br />

Ansatzpunkt für viele Verbesserungsmassnahmen zu f<strong>in</strong>den – vor allem für Massnahmen bei den<br />

weichen Faktoren nach Abbildung 10.<br />

Das heisst aber nicht, dass Initiativen <strong>zur</strong> Verbesserung <strong>der</strong> Datenqualität nur hier ansetzen dürfen.<br />

Wird nämlich vom Data Consumer nicht def<strong>in</strong>iert, <strong>in</strong> welchem Format er die Daten benötigt, wird es<br />

für den Data Provi<strong>der</strong> schwierig, den unausgesprochenen Anfor<strong>der</strong>ungen gerecht zu werden.<br />

5.2.3. Nutzen dieser Strategie<br />

Schon alle<strong>in</strong>e durch die formale Regelung von Verantwortlichkeiten wird Transparenz (siehe dazu<br />

auch Strategie A) <strong>in</strong> das ganze System e<strong>in</strong>gebracht. Wird die abgemachte Verantwortung auch richtig<br />

wahrgenommen, so kann das ganze Potential dieser Strategie voll ausgeschöpft werden.<br />

Im Idealfall werden diese Geschäftsrollen auch von <strong>der</strong> Technik mittels Zugriffsrollen adaptiert, so<br />

dass e<strong>in</strong> entsprechendes Abbild „<strong>in</strong> Software gegossen“ wird und e<strong>in</strong>e Kongruenz zwischen<br />

Aufgaben, Kompetenzen und Verantwortung erreicht wird.<br />

5.2.4. Nachteile und Risiken dieser Strategie<br />

Die Def<strong>in</strong>ition, Implementation und Wartung von solchen Rollen ist immer e<strong>in</strong> Aufwand und bed<strong>in</strong>gt<br />

e<strong>in</strong>e saubere Verwaltung. Wenn Geschäftsrollen zusätzlich <strong>in</strong> technische Rollen münden, so s<strong>in</strong>d<br />

auch hier entsprechende Verwaltungs- und Autorisierungsprozesse notwendig, welche wie<strong>der</strong>um<br />

e<strong>in</strong>en Mehraufwand bedeuten.<br />

103 Bus<strong>in</strong>ess Rule, englisch für Geschäftsregel. Mehr dazu unter [ 73 ].<br />

104 Losh<strong>in</strong> beschreibt diese 11 „Ownership Paradigms“ detailliert <strong>in</strong> [ 34 ], Seiten 33-37.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 50 / 83


E<strong>in</strong>e <strong>der</strong>artige Implementation erhöht die Komplexität des Systems und die Abhängigkeit zu an<strong>der</strong>en<br />

Prozessen – respektive kreiert neue Prozesse, welche wie<strong>der</strong>um e<strong>in</strong>e entsprechende Datenqualität<br />

aufweisen müssen. Daher erhöht diese Strategie den Aufwand rund um die Datenbank, um die es<br />

eigentlich geht.<br />

Dem kann begegnet werden, <strong>in</strong>dem mehrere Produkte zu Produktgruppen zusammengefasst werden<br />

und somit für ganze Produktgruppen Prozesse und Autorisierungsrollen def<strong>in</strong>iert werden können. Das<br />

optimiert den Verwaltungs-, Adm<strong>in</strong>istrations- und Dokumentationsaufwand. Zudem ist e<strong>in</strong> System<br />

auch selten e<strong>in</strong> „Standalone-System“ <strong>in</strong> e<strong>in</strong>em Unternehmen, son<strong>der</strong>n es bewegt sich meistens <strong>in</strong><br />

e<strong>in</strong>em Kontext von an<strong>der</strong>en Systemen o<strong>der</strong>/o<strong>der</strong> Prozessen, was diese Zusammenfassung weiter<br />

erleichtert.<br />

5.3. Strategie C: Die Grundsätze <strong>der</strong> Softwareentwicklung ausnutzen<br />

5.3.1. Ansatzpunkt dieser Strategie<br />

Zum Thema „Softwareentwicklung“ gibt es umfangreiche Literatur. Dar<strong>in</strong> werden auch viele<br />

Grundsätze <strong>der</strong> Softwareentwicklung propagiert, welche alle auch ihre Auswirkung auf die<br />

Datenqualität haben. Nicht <strong>in</strong> jedem Fall e<strong>in</strong>e kurzfristige – aber immer e<strong>in</strong>e Auswirkung.<br />

Volker Würthele umschreibt diese Tatsache mit dem Bild<br />

des Eisbergs aus Abbildung 21, von dem man nur den Teil<br />

wahrnimmt, <strong>der</strong> über die Wasserl<strong>in</strong>ie h<strong>in</strong>ausragt. Der<br />

Hauptteil des Eisbergs ist unter <strong>der</strong> Wasserl<strong>in</strong>ie und damit<br />

dem Betrachter verborgen.<br />

Übertragen auf die Datenqualitätsproblematik nimmt <strong>der</strong><br />

Datenbezüger nur den Pflegezustand <strong>der</strong> Daten wahr – die<br />

Technikqualität bleibt ihm grundsätzlich verborgen. Diese<br />

offenbart sich ihm erst über die Zeit h<strong>in</strong>weg.<br />

Zur Technikqualität gehören neben den unten aufgeführten<br />

Punkten auch noch die Aspekte <strong>der</strong> DIN-Norm 66272,<br />

welche als Qualitätsmerkmale folgende Punkte festlegt:<br />

Funktionalität, Zuverlässigkeit, Benutzbarkeit, Effizienz,<br />

Än<strong>der</strong>barkeit und Übertragbarkeit. 105<br />

Abbildung 21: Das Verhältnis von<br />

Pflegezustand und Technikqualität 106<br />

105 Zitiert aus Stahlknecht <strong>in</strong> [ 53 ], Seite 314.<br />

106 Grafik aus Würthele <strong>in</strong> [ 89 ], Seite 35.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 51 / 83


5.3.2. Von <strong>der</strong> Anfor<strong>der</strong>ung <strong>zur</strong> fertigen<br />

Software<br />

Markus Helfert hat auf dem Weg vom<br />

Benutzerbedürfnis <strong>zur</strong> fertigen Software die<br />

Qualitätsstolperste<strong>in</strong>e weiter e<strong>in</strong>gekreist: Er nennt hier<br />

namentlich die Designqualität und die<br />

Ausführungsqualität. 107<br />

Designqualität bedeutet, dass die Spezifikation e<strong>in</strong>er<br />

Software tatsächlich den Anfor<strong>der</strong>ungen des Kunden<br />

entspricht. In diesem Bereich f<strong>in</strong>det laut Helfert auch<br />

die Qualitätsplanung statt. O<strong>der</strong> knapp formuliert: „Wie<br />

gut werden die Bedarfe durch die Produktspezifikation<br />

erfüllt?“<br />

Im zweiten Teil, <strong>der</strong> Ausführungsqualität, wird<br />

untersucht, ob die im ersten Teil erstellte Spezifikation<br />

entsprechend umgesetzt wurde. In diesem Bereich<br />

stellt sich die Frage: „Wie gut stimmt das Produkt mit<br />

<strong>der</strong> vorgegebenen Spezifikation übere<strong>in</strong>?“<br />

Auch <strong>in</strong> diesem Aufsatz führt Helfert e<strong>in</strong>en Teil <strong>der</strong> im<br />

Kapitel 4.3 aufgeführten Datenqualitätsproblemfel<strong>der</strong><br />

auf: Datenerfassung, Daten<strong>in</strong>terpretation und<br />

Datentransfer. Weiter nennt er noch die Integration<br />

unterschiedlicher operativer Systeme, welche aber eher<br />

im Kontext von Data Warehouses zu sehen s<strong>in</strong>d.<br />

Abbildung 22: Stolperste<strong>in</strong>e <strong>in</strong> <strong>der</strong> Softwareentwicklung<br />

für die Datenqualität 108<br />

5.3.3. Softwaredesign und Dokumentation<br />

Auch das Softwaredesign und die Dokumentation tragen dazu bei, die Datenqualität langfristig auf<br />

e<strong>in</strong>em hohen Niveau zu halten. Zusammen mit an<strong>der</strong>en Punkten wie dem Datenbankdesign bilden<br />

sie die Softwarequalität, welche <strong>in</strong>sgesamt bestimmt, <strong>in</strong> welcher Qualität die Verarbeitung <strong>der</strong> Daten<br />

und die langfristige S<strong>in</strong>nspeicherung <strong>der</strong> Daten erfolgt.<br />

Obwohl die Erstellung und Funktionsweise e<strong>in</strong>er Applikation we<strong>der</strong> für den Anwen<strong>der</strong>, noch für den<br />

Datenbezüger o<strong>der</strong> den Prozess Owner sichtbar ist, spielt es e<strong>in</strong>e Rolle, aufgrund welcher Technik<br />

e<strong>in</strong> Resultat zustande gekommen ist. Spätestens wenn es um die Erweiterung <strong>der</strong> bestehenden<br />

Lösung geht, zeigt es sich, ob die Basis für den Ausbau genügend ist o<strong>der</strong> eben nicht.<br />

Würthele beschreibt diesen Punkt anhand von zwei fiktiven Applikationen, die vor<strong>der</strong>gründig gleich<br />

aussehen, ke<strong>in</strong>e Schnittstellen zu an<strong>der</strong>en Applikationen besitzen sowie dem Anwen<strong>der</strong> dieselben<br />

Daten und Verarbeitungen anzeigen.<br />

107 Zusammenfassend zitiert aus Helfert <strong>in</strong>[ 22 ] und [ 23 ].<br />

108 Zitiert aus Helfert <strong>in</strong> [ 22 ], Folie 11.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 52 / 83


Beispiel 4:<br />

Die e<strong>in</strong>e Applikation (A) baut auf den Grundlagen <strong>der</strong> Softwareentwicklung auf, <strong>in</strong>dem e<strong>in</strong>e weit<br />

verbreitete Datenbank verwendet wird, sämtlicher Programmcode <strong>in</strong> e<strong>in</strong>er mo<strong>der</strong>nen,<br />

objektorientierten Programmiersprache erstellt wurde und durchgängig dokumentiert ist und<br />

auch entsprechende Datenmodelle vorhanden s<strong>in</strong>d. Die an<strong>der</strong>e Applikation (B) ist von e<strong>in</strong>em<br />

Werkstudenten während e<strong>in</strong>em Wochenende <strong>in</strong> e<strong>in</strong>er veralteten Programmiersprache<br />

geschrieben worden, für den <strong>der</strong> Hersteller ke<strong>in</strong>en Support mehr bietet. Die Daten werden<br />

während <strong>der</strong> Programmlaufzeit im Speicher gehalten und nur durch Benutzeranweisung <strong>in</strong> e<strong>in</strong>e<br />

Datei gespeichert.<br />

Beurteilt man diese beiden Lösungen aufgrund des Pflegezustandes (<strong>der</strong> Teil, <strong>der</strong> über <strong>der</strong><br />

Wasserl<strong>in</strong>ie ist), wird man sicher <strong>der</strong> „Bastellösung“ den Vorzug geben, da diese wesentlich<br />

schneller und günstiger erstellt wurde als die Applikation A und das gleiche leistet. Tritt jedoch<br />

e<strong>in</strong> Störfall e<strong>in</strong> o<strong>der</strong> soll die Applikation erweitert werden, kommt <strong>der</strong> Teil unter <strong>der</strong> Wasserl<strong>in</strong>ie<br />

zum Tragen – die Technikqualität. Je mehr Probleme o<strong>der</strong> Än<strong>der</strong>ungswünsche auftauchen,<br />

desto schneller wird die Datenqualität <strong>in</strong> Applikation B abs<strong>in</strong>ken. 109<br />

5.3.4. Die Wichtigkeit <strong>der</strong> Dokumentation<br />

Die Wichtigkeit <strong>der</strong> Dokumentation über die erstellte Software wird <strong>in</strong> jedem Kurs über<br />

Softwareentwicklung thematisiert und herausgestrichen. Trotzdem ist es auch heute noch eher die<br />

Ausnahme, wenn e<strong>in</strong> Entwickler se<strong>in</strong>e Software freiwillig umfassend dokumentiert. Dabei ist hier e<strong>in</strong><br />

wichtiger Schlüssel <strong>zur</strong> Datenqualität verborgen, ist <strong>in</strong> <strong>der</strong> Software doch die Bus<strong>in</strong>esslogik fest<br />

verdrahtet.<br />

David Losh<strong>in</strong> beschreibt <strong>in</strong> [ 34 ] das Problem von so genannten „Legacy Databases“:<br />

Legacy databases pose <strong>in</strong>terest<strong>in</strong>g data quality questions, s<strong>in</strong>ce it is likely that the people<br />

orig<strong>in</strong>ally <strong>in</strong>volved <strong>in</strong> the creation and development of the database have long s<strong>in</strong>ce left the<br />

organisation. Legacy databases hold more than just data – they hold secrets about embedded<br />

bus<strong>in</strong>ess rules folded <strong>in</strong>to the way the <strong>in</strong>formation is stored, viewed, manipulated, and so on. 110<br />

Damit es nie soweit kommt, ist es notwendig, dass alle implementierten Regeln rechtzeitig<br />

dokumentiert werden und für alle <strong>in</strong>volvierten Personen zugänglich s<strong>in</strong>d.<br />

5.3.5. Datenbankdesign<br />

5.3.5.1. Die Verwendung von Datentypen<br />

Standard-<strong>Datenbanken</strong> verfügen im Normalfall über verschiedene Datentypen, die dem<br />

Programmierer <strong>zur</strong> Verfügung gestellt werden. Im Normalfall s<strong>in</strong>d dies e<strong>in</strong>fache Typen wie Ganzzahl,<br />

Fliesskommazahl, Textfeld und Datum <strong>in</strong> verschiedenen Grössen.<br />

Macht man es sich beim Design <strong>der</strong> Datenbank e<strong>in</strong>fach, besteht die Datenbank nur aus Textfel<strong>der</strong>n.<br />

Die Konsequenz dieses Designs ist jedoch, dass sich Informationen daraus garantiert nicht<br />

konsistent speichern lassen, geschweige denn, dass sich aus solchen Daten konsistente Reports<br />

generieren lassen. Der wichtigste Punkt hierbei ist das Wissen um die benötigten Datentypen. Als<br />

e<strong>in</strong>faches Beispiel soll hier e<strong>in</strong>e kle<strong>in</strong>e Adressdatenbank herangezogen werden.<br />

5.3.5.2. Beispiel Adresse<br />

Bereits <strong>in</strong> e<strong>in</strong>er Adress-Datenbank <strong>in</strong> ihrer e<strong>in</strong>fachsten Form kommen spezielle Datentypen vor,<br />

welche überprüft werden können und auch sollen. Die Postleitzahl ist beispielsweise so e<strong>in</strong> Feld. Es<br />

ist bekannt, dass <strong>in</strong> <strong>der</strong> Schweiz e<strong>in</strong>e Postleitzahl nur aus Zahlen besteht, es immer vier Zahlen s<strong>in</strong>d<br />

109 Gekürztes Beispiel aus Würthele <strong>in</strong> [ 89 ], Seite 36ff.<br />

110 Zitat aus Losh<strong>in</strong> <strong>in</strong> [ 34 ], Seite 57.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 53 / 83


und am Beg<strong>in</strong>n niemals e<strong>in</strong>e 0 stehen darf. Dank diesem Wissen lässt sich die Benutzere<strong>in</strong>gabe mit<br />

Hilfe e<strong>in</strong>er e<strong>in</strong>fachen Typenprüfung rudimentär überprüfen.<br />

Aber Vorsicht: In Deutschland s<strong>in</strong>d es fünf Zahlen, wobei als erste Zahl e<strong>in</strong>e 0 stehen darf und <strong>in</strong><br />

Grossbritannien kommen sogar Buchstaben <strong>in</strong> <strong>der</strong> Postleitzahl vor. Mit diesem Wissen lässt sich die<br />

Typenprüfung <strong>der</strong> Postleitzahl nun <strong>in</strong>ternational erweitern und sicher auf das korrekte Format<br />

überprüfen. Durch die Zuhilfenahme e<strong>in</strong>es zweiten Datenbankfeldes, nämlich dem Land, kann<br />

zuverlässig überprüft werden, ob e<strong>in</strong>e gültige E<strong>in</strong>gabe gemacht wurde.<br />

Bei dieser Prüfung geht es um e<strong>in</strong>en Check auf <strong>der</strong> ersten Stufe nach <strong>der</strong> e<strong>in</strong>fachen Def<strong>in</strong>ition aus<br />

Kapitel 2.5. Möchte man auch noch die zweite Stufe nehmen, würde das den E<strong>in</strong>bezug e<strong>in</strong>er<br />

Postleitzahlen-Datenbank benötigen, welche aufgrund <strong>der</strong> e<strong>in</strong>gegebenen Postleitzahl die Ortschaft<br />

ausgibt und im Idealfall gleich noch mitprüft, ob die angegebene Strasse und Hausnummer existiert.<br />

5.3.5.3. Beispiel „Spezielle Informationen“<br />

Bei an<strong>der</strong>en Datenfel<strong>der</strong>n dürfen nur gewisse Informationen dr<strong>in</strong>stehen. Also darf <strong>der</strong> Benutzer gar<br />

nicht erst die Möglichkeit haben, etwas Inkonsistentes e<strong>in</strong>zugeben. E<strong>in</strong> Beispiel dafür ist <strong>in</strong> e<strong>in</strong>er<br />

Personendatenbank das Geschlecht. Es gibt alle<strong>in</strong>e im Deutschen m<strong>in</strong>destens 10 Möglichkeiten,<br />

e<strong>in</strong>er Person das weibliche Geschlecht zuzuordnen, wenn dieses Feld e<strong>in</strong> Freitextfeld ist. 111<br />

Hier darf <strong>der</strong> Benutzer nur die Möglichkeit haben, vorgegebene Werte e<strong>in</strong>zugeben. Idealerweise<br />

erfolgt dies mit „Auswahlfel<strong>der</strong>n“ o<strong>der</strong> sogenannten „Listboxen“. Für an<strong>der</strong>e Anwendungen kann es<br />

vorteilhaft se<strong>in</strong>, das Datenbank-Modell entsprechend zu erweitern, damit an solchen Orten auf<br />

Entitäten verl<strong>in</strong>kt wird und nicht „hart codierte“ Elemente verwendet werden.<br />

5.3.6. Usability<br />

In <strong>der</strong> ISO Norm 9241 wird Usability als das Ausmass def<strong>in</strong>iert, <strong>in</strong> dem e<strong>in</strong> Produkt durch<br />

bestimmte Benutzer <strong>in</strong> e<strong>in</strong>em bestimmten Nutzungskontext genutzt werden kann, um<br />

bestimmte Ziele effektiv, effizient und zufrieden stellend zu erreichen. 112<br />

Die Usability hat <strong>in</strong> erster L<strong>in</strong>ie den Fokus, dass e<strong>in</strong> Anwen<strong>der</strong> e<strong>in</strong> Programm möglichst e<strong>in</strong>fach und<br />

problemlos bedienen kann und benötigte D<strong>in</strong>ge dort auf dem Bildschirm f<strong>in</strong>det, wo er sie erwartet.<br />

Als Auswirkung dieser Usability wird <strong>der</strong> Benutzer schneller, lieber, motivierter und effizienter arbeiten<br />

als mit e<strong>in</strong>em System, welches e<strong>in</strong>e schlechte Usability besitzt. 113 Die Folge ist, dass sich <strong>der</strong><br />

Anwen<strong>der</strong> mehr auf die Arbeit konzentrieren kann und sich weniger um die Bedienung des<br />

Programms kümmern muss, womit ihm weniger Fehler unterlaufen und die Qualität <strong>der</strong> be- und<br />

verarbeiteten Daten höher ist.<br />

5.3.7. Nutzen dieser Strategie<br />

Daten werden <strong>in</strong> e<strong>in</strong>er konsistenten Form abgelegt und können daher auch <strong>in</strong> e<strong>in</strong>er konsistenten<br />

Form ausgewertet werden. Muster, Korrelationen und Verb<strong>in</strong>dungen können nur aus e<strong>in</strong>er<br />

konsistenten Datenbasis korrekt ausgewertet werden.<br />

Das Design von „strukturierten und konsistenten <strong>Datenbanken</strong>“ anstelle von „ungeordneten<br />

Datenhaufen“ ist e<strong>in</strong>e konzeptionelle Anfor<strong>der</strong>ung an das Applikations- und Datenbankdesign.<br />

Werden hier Fehler gemacht, müssen h<strong>in</strong>terher die Probleme mittels Data Cleans<strong>in</strong>g (siehe dazu<br />

auch Kapitel 3.1.2) o<strong>der</strong> aufwändigen manuellen Bere<strong>in</strong>igungsaktionen wie<strong>der</strong> korrigiert werden.<br />

111 Nicht unübliche Möglichkeiten <strong>in</strong> deutscher Sprache (mit Vertipper) e<strong>in</strong> weibliches Geschlecht <strong>in</strong> e<strong>in</strong>em<br />

Freitextfeld e<strong>in</strong>er Datenbank e<strong>in</strong>zutragen: F, f, Frau, frau, FRAU, FRau, Fräule<strong>in</strong>, fräule<strong>in</strong>, FRÄULEIN, Fräule<strong>in</strong>.<br />

Werden noch an<strong>der</strong>e Sprachen o<strong>der</strong> Schreibfehler berücksichtigt, explodiert die Zahl <strong>der</strong> Möglichkeiten.<br />

112 Def<strong>in</strong>ition von Usability nach usability.ch <strong>in</strong> [ 60 ].<br />

113 Siehe usability.ch <strong>in</strong> [ 61 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 54 / 83


E<strong>in</strong>e hohe Usability br<strong>in</strong>gt den Nutzen, dass sich die Benutzer weniger mit <strong>der</strong> Technik und <strong>der</strong><br />

Bedienung <strong>der</strong> Software beschäftigen müssen und sich mehr auf die effektive Tätigkeit konzentrieren<br />

können.<br />

5.3.8. Nachteile und Risiken dieser Strategie<br />

E<strong>in</strong>e kurzzeitige Betrachtung wird <strong>in</strong> dieser Strategie (ausser dem Punkt <strong>der</strong> Usability) nicht viele o<strong>der</strong><br />

gar ke<strong>in</strong>e Vorteile sehen. Erst die mittel- und langfristige Betrachtung eröffnet entsprechende Vorteile.<br />

Das grösste Risiko dieser Strategie liegt dar<strong>in</strong>, dass die Software „overeng<strong>in</strong>eered“ wird – also dass<br />

zu viele Ressourcen konzentriert werden <strong>in</strong> <strong>der</strong> Software, <strong>der</strong> Datenbank und den Tools und<br />

Prozessen um die Applikation herum <strong>in</strong> Relation zum Ertrag <strong>der</strong> dadurch gewonnenen Datenqualität<br />

und an<strong>der</strong>er Effekte dieser Tätigkeit.<br />

5.4. Strategie D: Datenabhängigkeiten s<strong>in</strong>d Gold wert<br />

5.4.1. Ansatzpunkt dieser Strategie<br />

Informationen, welche lediglich dokumentarisch irgendwo abgelegt s<strong>in</strong>d, veralten viel schneller, als<br />

wenn sie <strong>in</strong> e<strong>in</strong>er technischen o<strong>der</strong> gar f<strong>in</strong>anziellen Abhängigkeit e<strong>in</strong>gebaut s<strong>in</strong>d. Somit werden<br />

Redundanzen <strong>in</strong>nerhalb <strong>der</strong> Datenbank o<strong>der</strong> über verschiedene <strong>Datenbanken</strong> h<strong>in</strong>weg gezielt <strong>zur</strong><br />

Validierung von bestehenden Informationen verwendet, um die Datenqualität zu erhöhen.<br />

Dabei muss die Information nicht tatsächlich redundant abgespeichert werden – es reicht teilweise<br />

schon, wenn die Herkunft e<strong>in</strong>er Information bekannt ist.<br />

Beispiel 5:<br />

Vor Ihnen steht auf zwei separaten Blättern Papier die Information, dass e<strong>in</strong> entfernter<br />

Bekannter von Ihnen e<strong>in</strong> Auto e<strong>in</strong>er bestimmten Marke fährt. Dummerweise s<strong>in</strong>d die beiden<br />

Informationen nicht übere<strong>in</strong>stimmend. Beide Informationen könnten plausibel se<strong>in</strong> aber Sie s<strong>in</strong>d<br />

sich sicher, dass er nur e<strong>in</strong> Auto besitzt. Nun stehen Sie vor dem Problem, welcher dieser<br />

beiden Informationen sie mehr vertrauen.<br />

Das erste Papier ist e<strong>in</strong> Ausdruck <strong>der</strong> Webseite dieses Bekannten, auf <strong>der</strong> er angibt, dass er<br />

Fahrzeug A fährt. Das zweite Papier ist e<strong>in</strong> Ausschnitt von <strong>der</strong> Parkplatzliste se<strong>in</strong>es<br />

Arbeitgebers, auf welchem steht, dass unter se<strong>in</strong>em Namen das Fahrzeug B für den Parkplatz<br />

Nummer 15 angemeldet ist. Welche dieser beiden Informationen ist vertrauenswürdiger?<br />

Die vertrauenswürdigere Information ist sicher diejenige, welche aus <strong>der</strong> Parkplatzliste stammt.<br />

Wieso? Immerh<strong>in</strong> stammt doch die an<strong>der</strong>e Information direkt vom Bekannten selbst. Das<br />

Problem liegt hier dar<strong>in</strong>, dass es ke<strong>in</strong>erlei Konsequenzen hat, wenn auf se<strong>in</strong>er Webseite noch<br />

das vorletzte Auto aufgeführt ist – vielleicht hat er e<strong>in</strong>fach vergessen, dass er diese Information<br />

jemals da h<strong>in</strong>gestellt hat und hat sie deshalb nie aktualisiert. Dagegen wird bei zugewiesenen<br />

Parkplätzen e<strong>in</strong>er Firma im Normalfall e<strong>in</strong> Auto nach e<strong>in</strong>er ersten Mahnung sehr schnell<br />

entfernt, wenn es nicht da h<strong>in</strong>gehört. Also hat es direkte Konsequenzen, wenn die Information<br />

nicht korrekt ist – <strong>der</strong> Autohalter wird möglichst schnell se<strong>in</strong> neues Auto <strong>in</strong> <strong>der</strong> Parkplatzliste<br />

nachtragen lassen, um nicht zu riskieren, dass es abgeschleppt wird.<br />

Solche Abhängigkeiten s<strong>in</strong>d auch für <strong>Datenbanken</strong> Gold wert.<br />

5.4.2. Gezielte Def<strong>in</strong>ition von Master und Slave<br />

Redundanzen bergen immer die Gefahr von Doppelspurigkeiten und Wi<strong>der</strong>sprüchen <strong>in</strong> sich. Daher<br />

muss sichergestellt werden, dass solche Redundanzen periodisch abgeglichen werden. Dazu wird für<br />

jede redundant vorliegende Information e<strong>in</strong> Master (die vertrauenswürdigere Quelle) bestimmt und<br />

dann dessen Informationen <strong>in</strong> die an<strong>der</strong>e Datenbank kopiert, welche als „Slave“ o<strong>der</strong> „Spiegel“<br />

betrieben wird – unabhängig davon, ob an <strong>der</strong> Slave-Datenbank Än<strong>der</strong>ungen vorgenommen wurden.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 55 / 83


Dadurch müssen die gespiegelten<br />

Daten nicht mehr an mehreren Orten<br />

gepflegt werden, son<strong>der</strong>n werden nur<br />

noch an demjenigen Ort<br />

bewirtschaftet, an dem die benötigte<br />

Datenqualität sichergestellt werden<br />

kann. Von dort aus werden diese<br />

Informationen an alle an<strong>der</strong>en<br />

Applikationen verteilt, welche<br />

Interesse an diesen Informationen<br />

haben.<br />

Wichtig! – Dieses Vorgehen hat<br />

nichts geme<strong>in</strong>sam mit <strong>der</strong><br />

Daten<strong>in</strong>tegration aus Kapitel 3.1.3,<br />

son<strong>der</strong>n ist als gezielter<br />

Datenaustausch zwischen<br />

gleichberechtigten <strong>Datenbanken</strong> zu<br />

verstehen.<br />

Abbildung 23: Der Datenfluss zwischen verschiedenen<br />

Applikationen. Siehe dazu die Beschreibung im Beispiel 6<br />

Während es bei <strong>der</strong> Daten<strong>in</strong>tegration darum geht, alle Daten an e<strong>in</strong>em Ort zu sammeln, wird bei<br />

diesem Ansatz mit gezielt verteilten <strong>Datenbanken</strong> gearbeitet, welche jede für sich stehen und für<br />

e<strong>in</strong>en ganz klar umrissenen Bereich e<strong>in</strong>e Masterfunktion haben.<br />

Beispiel 6:<br />

E<strong>in</strong> gutes Beispiel für den s<strong>in</strong>nvollen E<strong>in</strong>satz <strong>der</strong> Master-Slave-Technik ist das<br />

Personalverzeichnis e<strong>in</strong>er grösseren Firma. Für diese Informationen gibt es <strong>in</strong> den<br />

verschiedensten Applikationen <strong>in</strong>nerhalb <strong>der</strong> gleichen Firma Abnehmer. Angefangen von <strong>der</strong><br />

re<strong>in</strong>en Anzeige im <strong>in</strong>ternen Telefonverzeichnis bis <strong>zur</strong> Verwendung <strong>in</strong> <strong>der</strong> Salärabrechnung<br />

In Abbildung 23 ist ersichtlich, wie die Daten beispielsweise zwischen verschiedenen<br />

Applikationen ausgetauscht werden können: Die Personaldatenbank ist <strong>der</strong> geeignete Master<br />

für Personendaten, da von hier aus auch die Salärzahlungen ausgehen. E<strong>in</strong>e schlechte<br />

Datenqualität im Personenstamm wird hier zuerst bemerkt. Also ist es ideal, wenn für das<br />

Telefonverzeichnis die Namen von hier bezogen werden.<br />

Für die Telefonnummern ist es aber besser, die Daten direkt von <strong>der</strong> Telefonzentrale zu<br />

beziehen, da e<strong>in</strong>e falsche Telefonnummervergabe hier zuerst bemerkt wird.<br />

5.4.3. Nutzen dieser Strategie<br />

Durch das gezielte E<strong>in</strong>b<strong>in</strong>den von Informationen e<strong>in</strong>er Datenbank <strong>in</strong> technische o<strong>der</strong> buchhalterische<br />

Abläufe werden Abhängigkeiten geschaffen, welche durch e<strong>in</strong>e Rückkopplung aus <strong>der</strong> Realität die<br />

Daten um e<strong>in</strong> vielfaches genauer beschreiben, als wenn die Informationen re<strong>in</strong> dokumentarischen<br />

Charakter haben.<br />

Idealerweise wird diese Strategie mit <strong>der</strong> Strategie F, <strong>der</strong> unternehmensweiten Verwendung von<br />

Metadaten, komb<strong>in</strong>iert, um durch die Vere<strong>in</strong>heitlichung dieser Metadaten die Interoperabilität und<br />

damit die Voraussetzungen zum Datenaustausch zu verbessern.<br />

5.4.4. Nachteile und Risiken dieser Strategie<br />

Abhängigkeiten s<strong>in</strong>d nicht nur erwünscht son<strong>der</strong>n bergen auch negative Effekte <strong>in</strong> sich. So ist bei<br />

je<strong>der</strong> Schnittstelle e<strong>in</strong> Koord<strong>in</strong>ationsaufwand zwischen den beteiligten Applikationen zu<br />

berücksichtigen. Auch steigt mit je<strong>der</strong> Schnittstelle die Komplexität <strong>der</strong> ganzen Infrastruktur.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 56 / 83


S<strong>in</strong>d dann noch jeweils verschiedene<br />

Technologien bei den Schnittstellen<br />

zu berücksichtigen, so kann dieser<br />

Ansatz auf dem organisatorischen<br />

Gebiet zu e<strong>in</strong>er Komplexität führen,<br />

die irgendwann nicht mehr<br />

überblickbar ist. In solchen Fällen<br />

können Proxyserver 114 o<strong>der</strong><br />

Datawarehouses/Datamarts<br />

verschiedene Datenquellen<br />

zusammenführen und diese zentral<br />

den Datenbezügern <strong>zur</strong> Verfügung<br />

stellen, wie es <strong>in</strong> Abbildung 24<br />

dargestellt ist. Dieser Zusammenzug<br />

von Informationsquellen än<strong>der</strong>t aber<br />

nichts daran, dass immer noch die<br />

e<strong>in</strong>zelnen Applikationen die<br />

Masterfunktion <strong>in</strong>nehaben und darum<br />

Än<strong>der</strong>ungen an den Daten dort<br />

durchgeführt werden müssen. Das<br />

Datawarehouse selbst übernimmt nur<br />

die Funktion e<strong>in</strong>er zentralen<br />

Datenlogistik.<br />

Abbildung 24: Die Master-/Slave-<strong>Datenbanken</strong> <strong>in</strong> e<strong>in</strong>em<br />

erweiterten Konzept mit e<strong>in</strong>em zentralen Datawarehouse als<br />

Proxy<br />

Wichtig ist hier, dass an<strong>der</strong>e Anfor<strong>der</strong>ungen <strong>der</strong> Informationstechnik und <strong>der</strong> Organisationslehre wie<br />

beispielsweise <strong>der</strong> Datenschutz weiterh<strong>in</strong> gewährleistet werden. So darf nicht e<strong>in</strong>fach je<strong>der</strong> lesend<br />

auf die Personaldatenbank zugreifen, da dort auch vertrauliche Informationen wie Gehalt,<br />

Bankverb<strong>in</strong>dung und Privat<strong>in</strong>formationen abgelegt s<strong>in</strong>d. Solche Informationen müssen dann noch<br />

besser als ohne Vernetzung über Zugriffsrechte geschützt werden o<strong>der</strong> sie werden gar nicht erst<br />

übermittelt.<br />

5.5. Strategie E: Daten-Lifecycle auf Basis des Prozesses<br />

5.5.1. Ansatzpunkt dieser Strategie<br />

Genauso wie es im Fokus <strong>der</strong> Organisation von Unternehmen e<strong>in</strong>e Verschiebung gibt von <strong>der</strong><br />

Aufbauorganisation <strong>zur</strong> Ablauforganisation, respektive dem Prozess 115 , gilt auch bei <strong>der</strong> Organisation<br />

von Datenbeständen, dass es weniger wichtig ist, wer zuständig ist für die Kundengew<strong>in</strong>nung, das<br />

Bestellwesen o<strong>der</strong> das Mahnwesen, son<strong>der</strong>n dass es wichtiger geworden ist, welchen Prozess e<strong>in</strong><br />

Datensatz durchläuft vom Zeitpunkt <strong>der</strong> ersten Erfassung bis <strong>zur</strong> Elim<strong>in</strong>ierung.<br />

5.5.2. Der Prozess<br />

Diese Abfolge kann als Lifecycle (Lebenszyklus) des Datensatzes beschrieben werden. Analog zum<br />

Produktlebenszyklus 116 durchläuft e<strong>in</strong> Datensatz dabei mehrere verschiedene Phasen. Die Def<strong>in</strong>ition<br />

und Unterteilung dieser Phasen erfolgt durch das Wissen darüber, wo und unter welchen Umständen<br />

114 Proxy von englisch „proxy representative“ = Stellvertreter. Als Proxyserver wird e<strong>in</strong> System bezeichnet,<br />

welches e<strong>in</strong>e Stellvertreterfunktion zwischen e<strong>in</strong>em Datenlieferant und e<strong>in</strong>em Datenbezüger e<strong>in</strong>nimmt.<br />

115 Siehe Müller-Stewens/Lechner, 2003 <strong>in</strong> [ 38 ] Seite 450: „G<strong>in</strong>g es bei <strong>der</strong> Diskussion um geeignete<br />

Organisationsstrukturen lange Zeit schwerpunktmässig um Fragen <strong>der</strong> Aufbauorganisation, ist – im Zuge von<br />

»Bus<strong>in</strong>ess Process Reeng<strong>in</strong>eer<strong>in</strong>g« – die Ablauforganisation verstärkt <strong>in</strong> den Vor<strong>der</strong>grund gerückt.“<br />

116 Siehe Müller-Stewens, Lechner, 2003 <strong>in</strong> [ 38 ] Seite 255.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 57 / 83


e<strong>in</strong>e Information entsteht o<strong>der</strong> verän<strong>der</strong>t wird und wo sie am zweckmässigsten erfasst und verän<strong>der</strong>t<br />

wird.<br />

5.5.3. Der Lebenszyklus<br />

Schaut man sich um, entdeckt man <strong>in</strong> fast allen Situationen des Lebens irgendwelche Lebenszyklen<br />

o<strong>der</strong> <strong>in</strong> englisch „Lifecycle“ 117 . Sei es im erdgeschichtlichen o<strong>der</strong> im kurzzeitigen Massstab: Sowohl<br />

die Gattung <strong>der</strong> D<strong>in</strong>osaurier als auch e<strong>in</strong>e Seifenblase haben ihren eigenen Lebenszyklus, <strong>der</strong> sich <strong>in</strong><br />

klar unterscheidbare Phasen e<strong>in</strong>teilen lässt. Weshalb soll sich das nicht auch auf Daten anwenden<br />

lassen? Tatsächlich zeigt es sich, dass auch e<strong>in</strong>e Kundenbeziehung o<strong>der</strong> das Leben e<strong>in</strong>er Adresse <strong>in</strong><br />

e<strong>in</strong>em CRM-System e<strong>in</strong>em Lifecycle unterworfen ist.<br />

Beispiel 7:<br />

E<strong>in</strong>e Person <strong>in</strong>teressiert sich für e<strong>in</strong> Produkt e<strong>in</strong>er Firma. Man soll ihr deshalb e<strong>in</strong>en Katalog<br />

zusenden. Dafür ist es notwendig, Name und Adresse im System zu erfassen. Weitere<br />

Informationen wie beispielsweise die Bonität s<strong>in</strong>d zu diesem Zeitpunkt <strong>der</strong> Kundenbeziehung<br />

we<strong>der</strong> praxisgerecht noch notwendig. Im Lifecycle ausgedrückt wäre diese Adresse nun im<br />

Lifecycle-Status „Interessent“. Als Mussfel<strong>der</strong> existieren hier <strong>der</strong> Name und die Adresse und<br />

sonst nichts. Alles an<strong>der</strong>e wird nur als fakultatives Feld geführt.<br />

Wird nun aus <strong>der</strong> Katalogbestellung e<strong>in</strong>e Produktbestellung, geht <strong>der</strong> Datensatz vom Status<br />

„Interessent“ <strong>in</strong> den Status „Besteller“ über, bei <strong>der</strong> e<strong>in</strong>ige zusätzliche Fel<strong>der</strong> zu Mussfel<strong>der</strong><br />

werden können. Mögliche Fel<strong>der</strong> wären beispielsweise <strong>der</strong> direkte Ansprechpartner.<br />

Parallel <strong>zur</strong> Kommissionierung <strong>der</strong> Bestellung läuft nun die Abklärung <strong>der</strong> Bonität. Nur wenn<br />

das Resultat positiv ist, kann <strong>der</strong> Status auf „Kunde“ geän<strong>der</strong>t werden. Von nun an ist dieses<br />

Datenbankfeld e<strong>in</strong> Mussfeld. Idealerweise ist das System so e<strong>in</strong>gerichtet, dass e<strong>in</strong> Versand von<br />

Artikel nur an Adressen <strong>in</strong> diesem Status möglich ist.<br />

Ist die Abklärung <strong>der</strong> Bonität negativ, wird <strong>der</strong> Status auf „Unerwünscht“ gesetzt, die<br />

Kommissionierung wird wie<strong>der</strong> rückgängig gemacht und an den abgewiesenen Kunden e<strong>in</strong>e<br />

entsprechende Mitteilung versendet. Sollte <strong>der</strong> Kunde trotzdem noch e<strong>in</strong>mal bestellen, kann<br />

schon bei <strong>der</strong> Aufnahme <strong>der</strong> Bestellung aufgrund des Lifecycle-Status <strong>der</strong> Kunde abgewiesen<br />

werden.<br />

Durch die Implementierung e<strong>in</strong>es<br />

solchen Lifecycle-Konzeptes ist es<br />

möglich, viele <strong>der</strong> Probleme mit<br />

leeren Datenfel<strong>der</strong>n, respektive mit<br />

unter Zwang gefüllten und damit<br />

wertlosen Fel<strong>der</strong>n, e<strong>in</strong>fach und<br />

wirkungsvoll zu lösen.<br />

Abbildung 25: Lebenszyklus für e<strong>in</strong>e Adresse aus Beispiel 7<br />

5.5.4. Nutzen dieser Strategie<br />

Durch die Implementierung e<strong>in</strong>es solchen Lebenszyklus-Modells lassen sich sehr e<strong>in</strong>fach und<br />

effizient die starren Möglichkeiten von <strong>Datenbanken</strong> aufbrechen, die e<strong>in</strong>en vor die Wahl stellen, e<strong>in</strong><br />

Feld immer als Mussfeld o<strong>der</strong> immer als fakultatives Feld zu def<strong>in</strong>ieren. Durch den Lebenszyklus<br />

lässt sich e<strong>in</strong> Datenbankfeld für e<strong>in</strong>zelne Phasen als Mussfeld def<strong>in</strong>ieren, während es <strong>in</strong> an<strong>der</strong>en<br />

Phasen nicht zw<strong>in</strong>gend gefüllt werden muss.<br />

117 Siehe auch Kotler/Bliemel, 2001, welche den Produktlebenszyklus <strong>in</strong> [ 30 ] Seite 571ff. beschreiben.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 58 / 83


5.5.5. Nachteile und Risiken dieser Strategie<br />

Auch bei diesem Vorgehen wird die Komplexität des Gesamtsystems erhöht.<br />

Zudem wird die Flexibilität <strong>in</strong> <strong>der</strong> Geschäftslogik mit e<strong>in</strong>er erhöhten Komplexität <strong>in</strong> <strong>der</strong><br />

Benutzerschnittstelle erkauft. Existieren zu dieser Datenbank Schnittstellen von an<strong>der</strong>en<br />

Applikationen o<strong>der</strong> gibt es Benutzer, welche unter Umgehung <strong>der</strong> normalen Benutzerschnittstelle auf<br />

die Datenbank schreiben können, dann muss über entsprechende Trigger und Prozeduren<br />

sichergestellt werden, dass die Datenmanipulation <strong>der</strong> Logik des aktuellen Lifecycle-Status<br />

entspricht.<br />

Zusätzlich müssen Bed<strong>in</strong>gungen für die e<strong>in</strong>zelnen Lebenszyklusphasen erstellt, implementiert und<br />

gewartet werden. Da dies aber alles <strong>in</strong>nerhalb <strong>der</strong> gleichen Applikation und Datenbank erfolgen<br />

muss, können die Regeln auch gut dynamisch publiziert werden – idealerweise über e<strong>in</strong>e<br />

entsprechende Webseite, welche direkt auf die Datenbank <strong>zur</strong>ückgreift. Dadurch kann das Risiko von<br />

veralteter und unauff<strong>in</strong>dbarer Dokumentation (siehe dazu auch Kapitel 5.3.4) weitgehend elim<strong>in</strong>iert<br />

werden.<br />

5.6. Strategie F: Unternehmensweite Verwendung von Metadaten<br />

5.6.1. Ansatzpunkt dieser Strategie<br />

Metadaten beschreiben die e<strong>in</strong>zelnen Fel<strong>der</strong> e<strong>in</strong>er Datenbank. Sie s<strong>in</strong>d somit die Dokumentation <strong>der</strong><br />

Datenbank und werden bei e<strong>in</strong>em Datenaustausch zwischen verschiedenen Systemen als erstes<br />

beigezogen, um abzuklären, welche Übere<strong>in</strong>stimmungen vorhanden s<strong>in</strong>d. Dabei zeigen sich teils<br />

überraschende Probleme: Zwei <strong>Datenbanken</strong> die mite<strong>in</strong>an<strong>der</strong> kommunizieren wollen, haben<br />

Probleme damit, weil das zu übertragende Feld unterschiedlich def<strong>in</strong>iert ist. Diese Unterschiede<br />

können sowohl technischer wie auch <strong>in</strong>haltlicher Natur se<strong>in</strong>.<br />

So kann beispielsweise e<strong>in</strong>e Postleitzahl je nach Datenbankdesign völlig unterschiedlich def<strong>in</strong>iert<br />

se<strong>in</strong>. Das Datenfeld kann als Str<strong>in</strong>g unterschiedlicher Länge o<strong>der</strong> auch als Zahlenfeld def<strong>in</strong>iert se<strong>in</strong><br />

(siehe dazu auch Kapitel 5.3.5.2).<br />

O<strong>der</strong> das Geschlecht e<strong>in</strong>er Person kann mit „Mann“/„Frau“, „Herr“/„Frau“, „M“/„F“, „Mr“/„Mrs“,<br />

„Mister“/„Misses“ def<strong>in</strong>iert se<strong>in</strong>. Bei diesem Beispiel lassen sich die Werte noch mittels<br />

Übersetzungstabellen zusammenführen. Es dürften sich aber <strong>in</strong> fast je<strong>der</strong> Datenbank Inhalte f<strong>in</strong>den,<br />

welche sich nicht so e<strong>in</strong>fach mit Übersetzungstabellen erledigen lassen. Werden die Metadaten<br />

unternehmensweit standardisiert, so bedeutet dies, dass alle beteiligten <strong>Datenbanken</strong> über nur noch<br />

e<strong>in</strong>e geme<strong>in</strong>same Def<strong>in</strong>ition des Geschlechtsfeldes verfügen, womit <strong>der</strong> Datenaustausch zwischen<br />

Applikationen und <strong>Datenbanken</strong> wesentlich e<strong>in</strong>facher wird.<br />

5.6.2. Nutzen dieser Strategie<br />

S<strong>in</strong>d diese Metadaten-Standards unternehmensweit etabliert, so ist es e<strong>in</strong> leichtes, verschiedenste<br />

<strong>Datenbanken</strong> mite<strong>in</strong>an<strong>der</strong> zu verb<strong>in</strong>den. Zusätzlich erreicht man durch die Vere<strong>in</strong>heitlichung <strong>der</strong><br />

Metadaten e<strong>in</strong>e Standardisierung <strong>der</strong> Interpretation <strong>der</strong> Daten – und damit auch Verbesserung des<br />

Verständnisses dieser Daten. Es entstehen weniger Missverständnisse über den konkreten Inhalt<br />

und damit kann effizienter gearbeitet werden.<br />

Den vollen Vorteil ausspielen kann diese Strategie vor allem dann, wenn sie mit <strong>der</strong> Strategie D<br />

(Datenabhängigkeiten s<strong>in</strong>d Gold wert) komb<strong>in</strong>iert wird.<br />

5.6.3. Nachteile und Risiken dieser Strategie<br />

E<strong>in</strong>e Vere<strong>in</strong>heitlichung <strong>der</strong> Metadaten bed<strong>in</strong>gt zuerst, dass jede <strong>der</strong> betroffenen <strong>Datenbanken</strong><br />

überhaupt erst ihre eigenen Metadaten kennt, def<strong>in</strong>iert und dokumentiert. Erst <strong>in</strong> e<strong>in</strong>em zweiten<br />

Schritt kann begonnen werden, diese Metadaten anzugleichen. Dabei ist es unausweichlich, dass<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 59 / 83


alle beteiligten Applikationen angepasst werden müssen und somit die Applikationen e<strong>in</strong>en Aufwand<br />

treiben müssen, <strong>der</strong> sich aus Kundensicht nicht direkt <strong>in</strong> neuen o<strong>der</strong> verbesserten Funktionen<br />

nie<strong>der</strong>schlägt. Somit ist es schwierig, bei den entsprechenden Entscheidungsträgern die dafür<br />

notwendigen Ressourcen zu bekommen.<br />

E<strong>in</strong> weiteres Problem dieser Strategie ist, dass es aus den erwähnten Gründen sehr lange dauert, bis<br />

sie Früchte trägt. Die Umsetzung dieser Strategie ist daher eher als längerfristiges Ziel zu<br />

positionieren.<br />

Als Risiko lässt sich anführen, dass im Rahmen dieser Strategie Umstellungen <strong>in</strong> <strong>Datenbanken</strong><br />

gemacht werden, welche nie mit an<strong>der</strong>en <strong>Datenbanken</strong> <strong>in</strong> e<strong>in</strong>en Datenaustausch treten. Somit wurde<br />

e<strong>in</strong> Aufwand getrieben, für den nie e<strong>in</strong> Ertrag e<strong>in</strong>getreten ist.<br />

5.7. Strategie G: Nie<strong>der</strong>schwellige Verbesserungs-Werkzeuge<br />

5.7.1. Ansatzpunkt dieser Strategie<br />

Manche Verantwortliche wissen um die Datenqualität ihres Bereiches. Spätestens bei <strong>der</strong><br />

allgeme<strong>in</strong>en Ausweisung des Datenqualitätswertes sehen es aber auch An<strong>der</strong>e. Das heisst aber<br />

noch lange nicht, dass <strong>der</strong> Verantwortliche auch willens o<strong>der</strong> gar fähig ist, diesen Zustand zu än<strong>der</strong>n.<br />

Damit dies geschieht, müssen ihm auch entsprechende Werkzeuge <strong>in</strong> die Hand gegeben werden.<br />

In Anlehnung an die <strong>in</strong>zwischen weit verbreiteten Cockpits werden zentrale Elemente aller<br />

Messungen und auch <strong>der</strong> E<strong>in</strong>stiegspunkt für Verän<strong>der</strong>ungen auf e<strong>in</strong>er zentralen Seite dargestellt. 118<br />

5.7.2. Beispiel e<strong>in</strong>es nie<strong>der</strong>schwelligen Datenqualitäts-Tools<br />

Das hier vorgestellte Cockpit wurde im Rahmen <strong>der</strong> Inventar-Applikation „i-SAC“ <strong>der</strong> Firma UBS<br />

verwirklicht.<br />

5.7.2.1. Schritt 1 – E<strong>in</strong>stieg über die Management-Sicht<br />

Der E<strong>in</strong>stieg <strong>in</strong> dieses System bildet die Management-Sicht aus Abbildung 26, welche <strong>in</strong> Balkenform<br />

die gemessenen Werte anzeigt.<br />

Abbildung 26: Schritt 1 – Die Management-Sicht <strong>in</strong> Balkenform<br />

5.7.2.2. Schritt 2 – Auswahl des eigenen Bereiches<br />

Im nächsten Schritt klickt <strong>der</strong> Verantwortliche für e<strong>in</strong>en <strong>der</strong> Streams auf den blauen L<strong>in</strong>k se<strong>in</strong>es<br />

Streams (Siehe Abbildung 27) und erhält e<strong>in</strong>e Detail-Fehlerliste im EXCEL-Format.<br />

118 Siehe dazu auch Henn<strong>in</strong>g <strong>in</strong> [ 24 ], Seite 2: „Im Idealfall sollte e<strong>in</strong> Qualitätsmanagementsystem für<br />

Dienstleistungen e<strong>in</strong>em Cockpit o<strong>der</strong> Leitstand entsprechen, <strong>in</strong> dem alle relevanten Informationen auflaufen und<br />

von dem aus Kontroll- und Steuerungsmassnahmen e<strong>in</strong>geleitet werden können.“<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 60 / 83


Abbildung 27: Schritt 2 – Aufruf <strong>der</strong> Detailliste<br />

5.7.2.3. Schritt 3 – Detaillisten für das Fehlertrack<strong>in</strong>g<br />

Diese Detailliste kann nun <strong>in</strong> EXCEL nach Belieben sortiert, erweitert und über die Autofilter Funktion<br />

von EXCEL e<strong>in</strong>geschränkt werden.<br />

Abbildung 28: Schritt 3 – Die Detailliste <strong>in</strong> EXCEL<br />

Wie <strong>in</strong> Abbildung 28 ersichtlich, ist im EXCEL-Arbeitsblatt die Software Component ID mit e<strong>in</strong>em L<strong>in</strong>k<br />

h<strong>in</strong>terlegt, <strong>der</strong> direkt auf das „Stammblatt“ dieser Software-Komponente führt.<br />

5.7.2.4. Schritt 4 – Alle Informationen dieses Objektes auf e<strong>in</strong>en Blick<br />

Das Stammblatt dieses Objektes zeigt nun alle zugehörigen Informationen wie Attribute und<br />

Verb<strong>in</strong>dungen zu an<strong>der</strong>en Objekten auf e<strong>in</strong>er e<strong>in</strong>zigen Webseite an.<br />

Abbildung 29: Schritt 4 – Das Stammblatt <strong>der</strong> Software-Komponente<br />

5.7.2.5. Schritt 5 – Die Verbesserung <strong>der</strong> Datenqualität<br />

Wird nun <strong>der</strong> „Bearbeiten“-Knopf <strong>in</strong> Abbildung 29 angeklickt, wird <strong>in</strong> die Modifikations-Ansicht (<strong>in</strong><br />

Abbildung 30) gewechselt, <strong>in</strong> <strong>der</strong> sofort die Daten verbessert, ergänzt und abgespeichert werden<br />

können.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 61 / 83


Abbildung 30: Schritt 5 – Auswahl <strong>der</strong> entsprechenden Information und Speichern<br />

Der ganze dargestellte Ablauf dauert im Normalfall zwischen 1 und 3 M<strong>in</strong>uten, wenn die<br />

verantwortliche Person die notwendigen Informationen gleich <strong>zur</strong> Hand hat.<br />

5.7.3. Die Infrastruktur dieses Werkzeuges<br />

Durch den E<strong>in</strong>satz von Web-Applikationen <strong>in</strong> Verb<strong>in</strong>dung mit Standardprogrammen wie EXCEL<br />

entstehen zwar Medienbrüche vom Browser <strong>in</strong> e<strong>in</strong> lokales Programm und wie<strong>der</strong> <strong>zur</strong>ück <strong>in</strong> den<br />

Browser – diese Medienbrüche äussern sich aber nicht dar<strong>in</strong>, dass dem Benutzer Mehrarbeit<br />

aufgezwungen wird, son<strong>der</strong>n dar<strong>in</strong>, dass <strong>der</strong> Benutzer mit gewohnten Werkzeugen arbeiten kann und<br />

dank Hyperl<strong>in</strong>ks sche<strong>in</strong>bar nahtlos von e<strong>in</strong>em Programm <strong>in</strong>s an<strong>der</strong>e weitergeleitet wird.<br />

Im H<strong>in</strong>tergrund ist die Infrastruktur sogar noch weiter aufgesplittet. Diese Tatsache wird dem<br />

Benutzer aber komplett vorenthalten, <strong>in</strong>dem Seiten über HTML-Frames <strong>in</strong> die Website von i-SAC<br />

e<strong>in</strong>gebunden werden. Die <strong>Datenbanken</strong> von i-SAC und dem Datenqualitäts-Tool s<strong>in</strong>d komplett<br />

vone<strong>in</strong>an<strong>der</strong> getrennt, was für den Anwen<strong>der</strong> nicht ohne Weiteres ersichtlich ist – ihn aber auch nicht<br />

zu <strong>in</strong>teressieren braucht.<br />

5.7.4. Nutzen dieser Strategie<br />

Verantwortliche können sich aus diesem sehr oft ungeliebten Thema ab sofort nicht herausreden mit<br />

Ausflüchten wie „ich weiss nicht wie“ o<strong>der</strong> „ich b<strong>in</strong> zwar verantwortlich, aber ich kann nichts daran<br />

än<strong>der</strong>n“. Stehen möglichst e<strong>in</strong>fache Mutationsmöglichkeiten bereit, mit denen Verantwortliche e<strong>in</strong>en<br />

fehlerhaften Zustand möglichst schnell än<strong>der</strong>n können, wird dieser auch verän<strong>der</strong>t.<br />

5.7.5. Nachteile und Risiken dieser Strategie<br />

In diesem Fall wurde für dieses Cockpit e<strong>in</strong>e komplett neue und separate Applikation geschaffen,<br />

welche wie<strong>der</strong>um <strong>der</strong> Problematik <strong>der</strong> Entwicklung, Dokumentation und Datenqualität untersteht.<br />

Zudem erhöht diese Transparenz <strong>in</strong> den e<strong>in</strong>zelnen Bereichen den Druck auf die verantwortlichen<br />

Personen, da diese nun von jedem <strong>in</strong> <strong>der</strong> Abteilung beurteilt werden können.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 62 / 83


5.8. Strategie H: E<strong>in</strong>gabe von „Ich weiss es wirklich nicht“<br />

5.8.1. Ansatzpunkt dieser Strategie<br />

Oft stehen Informationen zum angenommenen Zeitpunkt nicht o<strong>der</strong> nur <strong>in</strong> e<strong>in</strong>er ungenügenden<br />

Qualität <strong>zur</strong> Verfügung. Formulare o<strong>der</strong> starre Datenbankmasken zw<strong>in</strong>gen den Mitarbeiter aber dazu,<br />

e<strong>in</strong>e E<strong>in</strong>gabe zu tätigen. Somit steht er im Dilemma, jetzt irgendetwas e<strong>in</strong>zugeben, o<strong>der</strong> se<strong>in</strong>e<br />

Tätigkeit abzubrechen. Da letzteres aber nur selten möglich ist (er möchte ja im Normalfall etwas<br />

erledigen), wird meistens die erste Variante angewendet, sprich es wird jetzt irgendetwas<br />

e<strong>in</strong>gegeben.<br />

Wenn man Glück hat, gibt er immer denselben Wert e<strong>in</strong> (beispielsweise als Geburtsdatum immer den<br />

1.1.1900) – wenn man Pech hat, verwendet er irgende<strong>in</strong> Datum (beispielsweise Heute m<strong>in</strong>us 20<br />

Jahre). Glück hat man im ersten Fall deshalb, weil mit <strong>der</strong> offensichtlich falschen E<strong>in</strong>gabe e<strong>in</strong><br />

späteres Erkennen des Fehlers leichter ist und er damit im Rahmen e<strong>in</strong>er Bere<strong>in</strong>igung behoben<br />

werden kann. Diese Möglichkeit hat man nicht, wenn jedes Mal e<strong>in</strong> an<strong>der</strong>es Datum verwendet wird.<br />

Zwei schöne Beispiele dafür, dass es von Vorteil se<strong>in</strong> kann, wenn immer das gleiche Datum<br />

e<strong>in</strong>gegeben wird, zeigen die zwei Grafiken aus Abbildung 31. Treten <strong>der</strong>artige Muster <strong>in</strong> den Daten<br />

auf, können die „Anomalien“ relativ e<strong>in</strong>fach erkannt und bere<strong>in</strong>igt werden.<br />

Abbildung 31: Zwei schöne Beispiele für Datumsausreisser 119 und dass solche bei <strong>der</strong> Verbesserung<br />

<strong>der</strong> Datenqualität von Vorteil se<strong>in</strong> können<br />

Zwei e<strong>in</strong>fache Wege aus diesem Dilemma s<strong>in</strong>d das Def<strong>in</strong>ieren von solchen Fel<strong>der</strong>n als fakultative<br />

Fel<strong>der</strong> – idealerweise <strong>in</strong> Abhängigkeit vom Lebenszyklus 120 dieses Datensatzes – o<strong>der</strong> man stellt<br />

dem Benutzer die Möglichkeit <strong>zur</strong> Verfügung, explizit zu sagen „ich weiss es wirklich nicht“, <strong>in</strong>dem<br />

man ihm e<strong>in</strong>en vordef<strong>in</strong>ierten Wert für die schnelle Auswahl präsentiert. Diese zweite Variante ist<br />

aber nicht wirklich zufrieden stellend. Vor allem, wenn zu e<strong>in</strong>em späteren Zeitpunkt die Informationen<br />

dieses Feldes zw<strong>in</strong>gend benötigt werden.<br />

5.8.2. Nutzen dieser Strategie<br />

Vom Anwen<strong>der</strong> wird <strong>der</strong> Druck genommen, e<strong>in</strong>e Information zw<strong>in</strong>gend dann e<strong>in</strong>zugeben, wenn <strong>der</strong><br />

GUI-Designer dies vorsieht, son<strong>der</strong>n er bekommt die Freiheit, e<strong>in</strong>en Geschäftsfall weiterzuführen –<br />

auch dann, wenn er nicht gerade alle benötigten Informationen <strong>zur</strong> Hand hat. E<strong>in</strong>e wichtige<br />

Konsequenz dieser Strategie s<strong>in</strong>d jedoch das E<strong>in</strong>führen von flankierenden Massnahmen, welche das<br />

Anhäufen des Datenhaufens „ich weiss es wirklich nicht“ auf zu grosse Bestände verh<strong>in</strong><strong>der</strong>n. Hier<br />

muss zwischen den beiden folgenden Konsequenzen abgewogen werden, was schwerer wiegt:<br />

119 Die Grafiken s<strong>in</strong>d entnommen aus Block [ 7 ], Seite 6.<br />

120 Details zum Lebenszyklus für Datensätze werden im Kapitel 5.5 näher erläutert.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 63 / 83


a) E<strong>in</strong>e Datenbank mit e<strong>in</strong>er unbekannten Zahl von E<strong>in</strong>trägen mit schlechter Qualität, welche ich<br />

nicht erkennen kann.<br />

b) E<strong>in</strong>e latente Liste von Daten, welche nicht <strong>in</strong> Ordnung s<strong>in</strong>d, ich diese aber konkret kenne und<br />

die mir e<strong>in</strong>en gewissen Arbeitsaufwand <strong>zur</strong> Bere<strong>in</strong>igung bereiten.<br />

Die Antwort muss hier nach betriebswirtschaftlichen Gesichtpunkten über Aufwand und Ertrag<br />

ermittelt werden. Geht es um das Feld „Geburtstag e<strong>in</strong>er Person“, so dürfte es <strong>der</strong> Firma e<strong>in</strong>iges wert<br />

se<strong>in</strong>, diese Information möglichst korrekt zu führen. Geht es h<strong>in</strong>gegen um das Feld „Brillenträger“, so<br />

dürfte es (ausser <strong>in</strong> Fällen von Optikern o<strong>der</strong> verwandten Branchen) wohl kaum <strong>in</strong>teressant se<strong>in</strong>,<br />

e<strong>in</strong>en allzu grossen Aufwand <strong>in</strong> <strong>der</strong> Korrektheit dieses Feldes zu betreiben.<br />

Diese Strategie ist vor allem dann <strong>in</strong>teressant, wenn die Strategie E (Datenlifecycle auf Basis des<br />

Prozesses) nicht umgesetzt werden kann. Sie ist sozusagen e<strong>in</strong> „Lifecycle-Management Light“, da für<br />

ausgewählte Fel<strong>der</strong> nicht <strong>in</strong> jedem Fall e<strong>in</strong> Wert e<strong>in</strong>gesetzt werden muss. Gleichzeitig zeigt diese<br />

Strategie auch, wo es <strong>in</strong> e<strong>in</strong>em Prozess allenfalls Unstimmigkeiten gibt, da benötigte Informationen<br />

nicht o<strong>der</strong> noch nicht <strong>in</strong> <strong>der</strong> notwendigen Qualität <strong>zur</strong> Verfügung stehen. Diese Strategie kann daher<br />

auch „missbraucht“ werden, um den bestehenden Prozess über e<strong>in</strong>en längeren Zeitraum zu<br />

analysieren, wenn an<strong>der</strong>e Analyse<strong>in</strong>strumente nicht e<strong>in</strong>gesetzt werden können.<br />

5.8.3. Nachteile und Risiken dieser Strategie<br />

Genau genommen handelt es sich bei dieser Strategie nicht um e<strong>in</strong>e Datenqualitäts-Strategie,<br />

son<strong>der</strong>n eher um e<strong>in</strong>e Entlastung des Benutzers <strong>in</strong>nerhalb des Prozesses. Auch das Kapitel 2.14 –<br />

„Was Datenqualität nicht ist“ stützt diese E<strong>in</strong>stufung, da durch diese Umsetzung nicht direkt die<br />

Datenqualität verbessert wird. An<strong>der</strong>erseits trägt diese Strategie dazu bei, die Aussage e<strong>in</strong>es<br />

Datensatzes zu verbessern, <strong>in</strong>dem man sicher se<strong>in</strong> kann, dass <strong>der</strong> E<strong>in</strong>trag <strong>in</strong> diesem Feld sicher ke<strong>in</strong><br />

Verlegenheitse<strong>in</strong>trag ist.<br />

Zusätzlich produziert diese Strategie täglich e<strong>in</strong>en Haufen von Datensätzen, welche klar aussagen,<br />

dass hier eigentlich ke<strong>in</strong> Inhalt vorhanden ist und daher noch zusätzlicher Aufwand <strong>in</strong> die Bere<strong>in</strong>igung<br />

dieses Feldes gesteckt werden muss.<br />

5.9. Strategie I: Def<strong>in</strong>ition e<strong>in</strong>es Verfalldatums<br />

5.9.1. Ansatzpunkt dieser Strategie<br />

Daten und Informationen veralten grundsätzlich wie jedes an<strong>der</strong>e Produkt dieser Welt. Lei<strong>der</strong> sieht<br />

man es ihnen jedoch nicht an, wenn gewisse Qualitätskriterien wie die Übere<strong>in</strong>stimmung mit <strong>der</strong><br />

Realität nicht mehr erfüllt s<strong>in</strong>d. Wird nun bei Datenfel<strong>der</strong>n zusätzlich angegeben, wann <strong>der</strong> Inhalt das<br />

nächste Mal überprüft werden muss, kann sowohl die Validierung <strong>der</strong> enthaltenen Daten regelmässig<br />

erfolgen, als auch die Aktualität <strong>der</strong> Daten besser beurteilt werden.<br />

Wird e<strong>in</strong>e Information mutiert, kann gleichzeitig angenommen werden, dass diese Mutation<br />

gleichzeitig e<strong>in</strong>e Validierung darstellt. Es kann aber zu Fehl<strong>in</strong>terpretationen führen, wenn das<br />

Mutationsdatum für den ganzen Datensatz und nicht nur für e<strong>in</strong> e<strong>in</strong>zelnes Datenfeld gilt. Daher<br />

genügt es nicht, e<strong>in</strong> solches Datum auf Record-Ebene zu führen, son<strong>der</strong>n es muss effektiv für jedes<br />

Feld separat geführt werden.<br />

Bei <strong>der</strong> Umsetzung können zwei völlig unterschiedliche Wege gegangen werden:<br />

a) Bei den Daten wird das Datum <strong>der</strong> letzten Mutation o<strong>der</strong> Validierung angegeben.<br />

b) Bei den Daten wird das Datum angegeben, wenn die Gültigkeit abläuft.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 64 / 83


Beide Umsetzungen haben ihre Vor- und Nachteile:<br />

Vorteile<br />

a) • Es ist immer klar ersichtlich, wann die letzte<br />

Mutation/Validierung erfolgt ist.<br />

• Das Datum kann auch für die Beurteilung <strong>der</strong><br />

Aktualität h<strong>in</strong>zugezogen werden.<br />

• Die Programmlogik, welche Daten modifiziert, kann<br />

sehr simpel gestaltet werden, da e<strong>in</strong>fach jeweils das<br />

aktuelle Datum e<strong>in</strong>gesetzt werden muss.<br />

• Wenn sich die Gültigkeitsfristen än<strong>der</strong>n, ist nur e<strong>in</strong>e<br />

Än<strong>der</strong>ung an <strong>der</strong> Auswertlogik notwendig, aber nicht<br />

an den Daten.<br />

b) • Die Auswert-Logik kann sehr simpel gestaltet werden,<br />

da sie nur das Verfalldatum mit dem aktuellen Datum<br />

vergleichen muss.<br />

Nachteile<br />

• Den abgespeicherten Daten sieht man nicht direkt an,<br />

wann die Gültigkeit abläuft. Man muss immer die<br />

Gültigkeitsfrist mit e<strong>in</strong>beziehen, um e<strong>in</strong>e<br />

Gültigkeitsaussage treffen zu können.<br />

• Die Auswertlogik gestaltet sich komplex – vor allem<br />

bei unterschiedlichen Gültigkeitsfristen.<br />

• Die Programmlogik für die Mutation muss immer noch<br />

die Gültigkeitsfristen berücksichtigen, bevor die Daten<br />

geschrieben werden können. Das kann bei<br />

performance-kritischen Applikationen zu weiteren<br />

Engpässen führen.<br />

• Das letzte Mutations- o<strong>der</strong> Validierungsdatum kann<br />

nur durch Rechnen ermittelt werden. Hat sich<br />

<strong>in</strong>zwischen die Gültigkeitsfrist verän<strong>der</strong>t, s<strong>in</strong>d solche<br />

Aussagen nicht mehr machbar, o<strong>der</strong> das Datum muss<br />

für alle betroffenen Datensätze durch Rechnen neu<br />

ermittelt werden.<br />

Tabelle 5: Vor- und Nachteile <strong>der</strong> beiden Umsetzungen zum Verfalldatum<br />

Bei Erreichen des Verfalldatums können verschiedene Aktionen ausgeführt werden:<br />

• Löschen des Inhaltes,<br />

• Markieren des Inhaltes mit e<strong>in</strong>em Zusatz,<br />

• Markieren des Inhaltes <strong>in</strong> e<strong>in</strong>em an<strong>der</strong>en Datenbankfeld,<br />

• Markieren des Inhaltes mit e<strong>in</strong>er speziellen Anzeige im GUI,<br />

• Meldung per eMail o<strong>der</strong> an<strong>der</strong>en Kommunikationsmitteln an e<strong>in</strong>e vorher def<strong>in</strong>ierte Person,<br />

• Unterdrücken des gesamten Datensatzes.<br />

5.9.2. Nutzen dieser Strategie<br />

Aufgrund des Verfalldatums ist e<strong>in</strong>deutig feststellbar, wie aktuell jede e<strong>in</strong>zelne Information ist. Zudem<br />

kann für jedes Feld e<strong>in</strong>e an<strong>der</strong>e Gültigkeitsfrist festgelegt werden, was e<strong>in</strong> fe<strong>in</strong> abgestimmtes Netz<br />

über die Gültigkeit jedes abgespeicherten Attributes ermöglicht. Aussagen über die Aktualität lassen<br />

sich e<strong>in</strong>fach machen, <strong>in</strong>dem die Fristen bis zum Verfall o<strong>der</strong> dem Zeitraum seit <strong>der</strong> letzten<br />

Modifikation/Validierung überprüft werden. Dieses Netz kann beliebig fe<strong>in</strong> o<strong>der</strong> weit gemacht werden,<br />

um den Bedürfnissen <strong>der</strong> jeweiligen Datenbank und des darauf aufbauenden Geschäfts Rechnung zu<br />

tragen.<br />

An<strong>der</strong>erseits lassen sich aus <strong>der</strong> Aktualität e<strong>in</strong>er Information nur bed<strong>in</strong>gt Aussagen über <strong>der</strong>en<br />

Richtigkeit ableiten. Hat man aber über e<strong>in</strong>en längeren Zeitraum Informationen erhoben, die auf die<br />

eigene Datenbank abgeleitet werden können, so lassen sich durchaus gewisse Rückschlüsse auf die<br />

Datenqualität machen.<br />

5.9.3. Nachteile und Risiken dieser Strategie<br />

Werden alle Datenbankfel<strong>der</strong> nach dieser Strategie mit Datumsfel<strong>der</strong>n versehen, so bedeutet dies<br />

e<strong>in</strong>e Verdopplung <strong>der</strong> Anzahl Datenbankfel<strong>der</strong> und damit e<strong>in</strong>e Erhöhung des gehaltenen<br />

Datenvolumens um 10 bis über 50 Prozent – je nachdem, welchem Datentyp die gespeicherten<br />

Informationen entsprechen. Damit e<strong>in</strong>hergehend wird die Programmlogik komplexer, da bei je<strong>der</strong><br />

Mutation auch die Datumsfel<strong>der</strong> nachgetragen werden müssen.<br />

Dadurch erhöht sich auch die Last <strong>der</strong> Datenbank-Eng<strong>in</strong>e bezüglich <strong>der</strong> Anzahl <strong>der</strong> vorgenommenen<br />

Mutationen und <strong>der</strong> Daten, die nur <strong>in</strong>direkt mit dem eigentlichen Geschäft zu tun haben.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 65 / 83


Generell muss jedoch betont werden, dass diese Strategie lediglich die Identifikation von schlechter<br />

Datenqualität erleichtert – und dadurch die Datenqualität nur erhöht, <strong>in</strong>dem <strong>der</strong> dauernd zu<br />

betreibende Bere<strong>in</strong>igungsaufwand 121 besser strukturiert wird.<br />

5.10. Auswirkung dieser <strong>Strategien</strong> auf die Datenqualität<br />

Die <strong>Strategien</strong> A (Transparenz), B (Zuordnen von Verantwortlichkeiten) sowie das <strong>in</strong> Strategie G<br />

aufgezeigte nie<strong>der</strong>schwellige Verbesserungswerkzeug wurde auf die Konfigurations- und<br />

Inventardatenbank i-SAC <strong>der</strong> UBS angewendet. Im Verlauf <strong>der</strong> Messungen konnte über den<br />

gesamten Datenbestand e<strong>in</strong>e signifikante Verbesserung <strong>der</strong> Datenqualität beobachtet werden.<br />

Von <strong>in</strong>sgesamt 39 Bereichen wiesen 20<br />

Bereiche e<strong>in</strong>e klar steigende Tendenz über den<br />

Messraum auf, 3 Bereiche e<strong>in</strong>e leicht s<strong>in</strong>kende<br />

Tendenz <strong>in</strong> <strong>der</strong> Grössenordnung von 1.5<br />

Prozentpunkten und 6 Bereiche e<strong>in</strong>en gleich<br />

bleibenden Verlauf.<br />

10 Bereiche konnten nicht ausgewertet werden,<br />

weil sie e<strong>in</strong>e zu kle<strong>in</strong>e Datenbasis hatten o<strong>der</strong><br />

das gewählte Statistikmodell die Daten nicht<br />

erklären konnten.<br />

Das verwendete statistische Modell <strong>zur</strong><br />

Auswertung dieser Daten lautet:<br />

Y i = α + βx i + ε i<br />

Abbildung 32: Verlauf <strong>der</strong> Datenqualität unter<br />

Anwendung <strong>der</strong> <strong>Strategien</strong> A, B und G dieses<br />

Dokuments<br />

Die auffällige Kurve, welche <strong>in</strong> <strong>der</strong> Mitte <strong>der</strong> Grafik e<strong>in</strong>en massiven E<strong>in</strong>bruch aufweist, ist e<strong>in</strong> gutes<br />

Beispiel für die Effektivität des Verbesserungswerkzeuges. Weil <strong>in</strong> e<strong>in</strong>er Eilübung dutzende von<br />

Software-Komponenten <strong>in</strong> das Inventar aufgenommen werden mussten, ist hier die Datenqualität<br />

drastisch gesunken. Drei Monate danach konnte jedoch bereits e<strong>in</strong>e Verbesserung festgestellt<br />

werden, <strong>in</strong>dem die Verantwortlichen durch das Werkzeug Ihre Verantwortung wahrnehmen konnten<br />

und die fehlenden Informationen kont<strong>in</strong>uierlich nachlieferten.<br />

5.11. Grundsätzliche Nachteile und Risiken aller <strong>Strategien</strong><br />

5.11.1. Komplexität des Systems<br />

Jede <strong>der</strong> beschriebenen <strong>Strategien</strong> erhöht die Komplexität des e<strong>in</strong>zelnen Systems, aber auch <strong>der</strong><br />

ganzen Systemlandschaft. Teilweise werden auch neue Abhängigkeiten zwischen den Systemen<br />

geschaffen und die bestehenden Abhängigkeiten erhöht. Daher ist es unumgänglich, bei je<strong>der</strong><br />

aufgezeigten Strategie nicht gleich mit <strong>der</strong> Top-Lösung e<strong>in</strong>zufahren, son<strong>der</strong>n e<strong>in</strong>fach zu beg<strong>in</strong>nen<br />

und das Ziel <strong>in</strong> mehreren kle<strong>in</strong>en Schritten zu erreichen.<br />

5.11.2. Gespeicherte Datenmenge<br />

Jede dieser <strong>Strategien</strong> produziert neue Daten <strong>in</strong> irgende<strong>in</strong>er Form. Diese Daten unterliegen<br />

wie<strong>der</strong>um den Regeln und Anfor<strong>der</strong>ungen <strong>der</strong> Datenqualität, womit diese Datenqualitätszahlen<br />

ebenfalls dauernd h<strong>in</strong>terfragt und überprüft werden müssen.<br />

121 Siehe dazu auch die Bemerkung über Data Cleans<strong>in</strong>g <strong>in</strong> Kapitel 2.14 –<br />

Was Datenqualität nicht ist.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 66 / 83


Je nach Strategie werden mehr o<strong>der</strong> weniger Daten produziert. Diese müssen <strong>in</strong> irgende<strong>in</strong>er<br />

Datenbank abgelegt werden, was Speicherplatz und Wartungsaufwand kostet. Während Ersteres<br />

heute nicht mehr wesentlich <strong>in</strong>s Gewicht fällt, darf Zweites nicht unterschätzt werden.<br />

5.11.3. Abstimm-, Koord<strong>in</strong>ations- und Projektaufwand<br />

Alle diese <strong>Strategien</strong> werden am besten <strong>in</strong> Form e<strong>in</strong>es Projektes umgesetzt. Der Vorteil dieser Art <strong>der</strong><br />

Organisation ist, dass dafür die Wirtschaftlichkeit <strong>der</strong> geplanten Massnahme abgeklärt werden muss<br />

und damit nur das umgesetzt wird, was auch aus <strong>der</strong> wirtschaftlichen Perspektive S<strong>in</strong>n macht. Weiter<br />

können auf diese Weise die dafür notwendigen Ressourcen aufgebracht werden.<br />

Dabei kann die Verbesserung <strong>der</strong> Datenqualität jedoch wie bei jedem Projekt mit <strong>der</strong> Nichtbewilligung<br />

durch den Projektausschuss verh<strong>in</strong><strong>der</strong>t werden.<br />

5.12. Vorgehen bei <strong>der</strong> Umsetzung dieser <strong>Strategien</strong><br />

5.12.1. Kontakt zwischen den Parteien<br />

Die Umsetzung <strong>der</strong> hier erläuterten <strong>Strategien</strong> ist je nach aktuellem Stand <strong>der</strong> bisherigen<br />

Massnahmen e<strong>in</strong> grösserer o<strong>der</strong> kle<strong>in</strong>erer Schritt bezüglich Implementierungsaufwand,<br />

Prozessumsetzung, Schulung und Firmenkultur. Daher empfiehlt sich bei allen erläuterten <strong>Strategien</strong><br />

e<strong>in</strong>e überlegte Umsetzung. Wichtig ist hier jeweils, dass <strong>der</strong> Kontakt zwischen allen beteiligten<br />

Parteien gepflegt wird und die vorgenommenen Än<strong>der</strong>ungen e<strong>in</strong>deutig kommuniziert werden. Die<br />

beteiligten Parteien s<strong>in</strong>d jeweils:<br />

• <strong>der</strong> Kunde, <strong>der</strong> diese Verbesserungen <strong>in</strong> Auftrag gegeben hat,<br />

• <strong>der</strong> Data Owner (falls nicht identisch im dem Kunden), <strong>der</strong> die Auswirkungen <strong>der</strong><br />

Massnahmen auf die Datenqualität überwachen muss,<br />

• die IT, welche die Verbesserungen umsetzt und<br />

• <strong>der</strong> Anwen<strong>der</strong>, <strong>der</strong> direkten Kontakt mit diesen umgesetzten Än<strong>der</strong>ungen hat.<br />

Als Vorgehen empfiehlt es sich, die angepeilten Än<strong>der</strong>ungen <strong>in</strong> kle<strong>in</strong>e Schritte e<strong>in</strong>zuteilen und diese<br />

Schritte jeweils im Abstand von zirka zwei bis drei Monaten <strong>in</strong>s produktive Umfeld e<strong>in</strong>zuführen.<br />

Vor allem bei <strong>der</strong> Strategie A (Transparenz schafft Vertrauen) ist es wichtig, dass die Beteiligten<br />

schrittweise <strong>in</strong> Richtung des angestrebten Ziels geführt werden. Hat man die Komplexität e<strong>in</strong>en<br />

Schritt erhöht und haben alle Beteiligten den S<strong>in</strong>n und die Auswirkungen dieses Schrittes verstanden,<br />

kann <strong>der</strong> nächste Schritt umgesetzt werden. Dieses Vorgehen ist auch als „Kaizen“ bekannt.<br />

5.12.2. Management-Unterstützung<br />

Entscheidend für das Erreichen <strong>der</strong> hier gesteckten Ziele ist die Unterstützung des Managements.<br />

Von Losh<strong>in</strong> ist e<strong>in</strong> gutes Verfahren beschrieben worden, wie die Kosten von schlechter Datenqualität<br />

errechnet und kommuniziert werden können. Dieses Vorgehen kann als beispielhaft angesehen<br />

werden, um die notwendige Unterstützung des Managements – und schliesslich auch die dafür<br />

notwendigen Ressourcen – zu bekommen. 122<br />

122 Siehe dazu Losh<strong>in</strong> <strong>in</strong> [ 34 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 67 / 83


5.12.3. Durchführen von Umfragen<br />

Statistikformel: y ij = µ i + ε ij<br />

Mittels <strong>der</strong> oben genannten Formel wurde e<strong>in</strong>e Varianzanalyse über die Mittelwerte durchgeführt.<br />

Dabei steht X für die Resultate e<strong>in</strong>er Frage und α für die Gruppenzugehörigkeit, welche „Hardware“,<br />

„Software“ und „An<strong>der</strong>e“ be<strong>in</strong>haltet. Es konnten zwei Fragen als signifikant verschieden festgestellt<br />

werden und bei vier Fragen konnte e<strong>in</strong>e Übere<strong>in</strong>stimmung <strong>der</strong> Antworten festgestellt werden. Bei den<br />

an<strong>der</strong>en Fragen liegen die P-Werte ausserhalb des 5 %-Signifikanzniveaus.<br />

Dieser Test überprüft somit die Hypothese, dass es zwischen den Gruppen ke<strong>in</strong>e Unterschiede gibt.<br />

Bei den zwei Fragen konnte die Hypothese verworfen werden und bei vier an<strong>der</strong>en Fragen konnte<br />

die Frage bestätigt werden.<br />

Signifikant verschieden wurden die Fragen 11a und 11d beantwortet. Beide Fragen beurteilen die<br />

wahrgenommene Datenqualität <strong>in</strong> <strong>der</strong> Inventardatenbank i-SAC.<br />

11 a) Wir erhalten die benötigten Daten immer <strong>in</strong> e<strong>in</strong>em Zustand, <strong>in</strong> dem wir sie ohne<br />

E<strong>in</strong>schränkungen verwenden können.<br />

11 d) Die erhaltenen Daten s<strong>in</strong>d immer vollständig.<br />

In beiden Fällen wurde die Datenqualität im Hardware-Inventar als besser wahrgenommen als im<br />

Software<strong>in</strong>ventar. Die dritte Gruppe, welche alle an<strong>der</strong>en Bereiche umfasst, liegt <strong>in</strong> beiden Fällen<br />

irgendwo zwischen diesen beiden Gruppen.<br />

Als an<strong>der</strong>es Extrem konnte bei den Fragen 5f, 10a, 10c und 10f e<strong>in</strong>e vollkommene Übere<strong>in</strong>stimmung<br />

zwischen den Gruppen festgestellt werden:<br />

5 f) In den letzten 3 Monaten wurden von MA gemachte Vorschläge <strong>zur</strong> Verbesserung<br />

<strong>der</strong> Datenqualität umgesetzt.<br />

10 a) Alle beteiligten MA wurden für ihre Tätigkeit im Zusammenhang mit i-SAC ausgebildet.<br />

10 c) Das erworbene und dokumentierte Wissen ist für alle Mitarbeiter im Team je<strong>der</strong>zeit<br />

verfügbar.<br />

10 f) Die MA lernen gerne neues über i-SAC und dessen Umsysteme dazu.<br />

Alle vier Fragen wurden schlechter als <strong>der</strong> Durchschnitt über alle Fragen (von 2.95) beantwortet.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 68 / 83


6. Empfehlungen und Ausblick<br />

Ke<strong>in</strong>e <strong>der</strong> hier dargestellten <strong>Strategien</strong> schliessen sich gegenseitig aus, son<strong>der</strong>n sie können parallel<br />

zue<strong>in</strong>an<strong>der</strong> implementiert werden. Teilweise bed<strong>in</strong>gen sie sich sogar gegenseitig. So ist es<br />

beispielsweise unmöglich, e<strong>in</strong>en Lifecycle zu def<strong>in</strong>ieren (Strategie E), wenn ke<strong>in</strong>e<br />

Verantwortlichkeiten bekannt s<strong>in</strong>d (Strategie B). O<strong>der</strong> die Umsetzung <strong>der</strong> Möglichkeit, dass die<br />

Mitarbeiter sagen können, „ich weiss es wirklich nicht“ (Strategie H), ist am e<strong>in</strong>fachsten, wenn man<br />

sie mit dem Lifecycle (Strategie E) komb<strong>in</strong>iert.<br />

Somit stellt sich bei dem Verantwortlichen für die Datenqualität nicht die Frage, welche dieser<br />

generischen Ansätze umgesetzt werden sollen, son<strong>der</strong>n die Frage, <strong>in</strong> welcher Reihenfolge und <strong>in</strong><br />

welchem Zeitrahmen sie s<strong>in</strong>nvoll umgesetzt werden. Dazu kann man wohl generelle Aussagen<br />

machen – im Endeffekt kommt es aber auf die jeweilige Gegebenheiten im Unternehmen an, welche<br />

die Prioritäten dieser verschiedenen <strong>Strategien</strong> bestimmen.<br />

Der von Vielen gehegte Wunsch, die Datenqualität schnell und ohne grossen Aufwand mittels e<strong>in</strong>er<br />

Standardsoftware zu lösen, wird sich auf absehbare Zeit aus verschiedenen Gründen nicht erfüllen:<br />

• Die zu untersuchenden <strong>Datenbanken</strong> s<strong>in</strong>d so verschieden bezüglich Struktur, Datenfel<strong>der</strong>n,<br />

Abhängigkeiten und den daran hängenden Prozessen, dass die verwendete<br />

Standardsoftware e<strong>in</strong>e extreme Flexibilität aufweisen müsste.<br />

• Wie hier im Kapitel 5 aufgezeigt, liegen die wichtigsten Bereiche, <strong>in</strong> denen die Datenqualität<br />

verbessert werden kann nicht im technischen Bereich son<strong>der</strong>n im organisatorischen Bereich.<br />

• Die Anfor<strong>der</strong>ungen an die Datenqualität s<strong>in</strong>d so verschieden, dass diese Bedürfnisse nicht<br />

e<strong>in</strong>fach abzudecken s<strong>in</strong>d. E<strong>in</strong>e Inventardatenbank stellt beispielsweise an<strong>der</strong>e Anfor<strong>der</strong>ungen<br />

an die Datenqualität als e<strong>in</strong>e Logistiksteuerung o<strong>der</strong> e<strong>in</strong> Internet Shop. E<strong>in</strong>e generische<br />

Lösung für alle möglichen Anwendungen ist deshalb heute noch undenkbar.<br />

Wo Standardsoftware tatsächlich mit Erfolg e<strong>in</strong>gesetzt werden kann, ist <strong>in</strong> den Bereichen „Data<br />

Profil<strong>in</strong>g“, „Data Cleans<strong>in</strong>g“ und Daten<strong>in</strong>tegration welche im Kapitel 3 schon vorgestellt wurden.<br />

Ebenfalls auf Standardsoftware <strong>zur</strong>ückgegriffen werden kann bei <strong>der</strong> Visualisierung – speziell, wenn<br />

diese über Cockpits erfolgen soll.<br />

Auf dem langen Weg zwischen <strong>der</strong> zu untersuchenden Datenbank und <strong>der</strong> Visualisierung <strong>der</strong><br />

aggregierten Werte im Cockpit gibt es sehr viel zu tun, was erst <strong>in</strong> e<strong>in</strong>er zweiter Phase von e<strong>in</strong>er<br />

Software erledigt werden kann. Zuerst müssen organisatorische Massnahmen getroffen, die<br />

Kommunikation sichergestellt werden und die bestehenden Prozesse h<strong>in</strong>terfragt und gegebenenfalls<br />

überarbeitet werden.<br />

Erst danach können die Resultate dieser Phase <strong>in</strong> Regeln für Datenbank-Checks gegossen werden<br />

und diese Checks regelmässig durchgeführt werden. Damit ist man aber erst <strong>in</strong> <strong>der</strong> Hälfte <strong>der</strong><br />

gesamten Reise <strong>in</strong>dem man feststellt, wo die Probleme s<strong>in</strong>d. Deren Behebung ist hier aber noch nicht<br />

erfolgt. Und zusätzlich muss immer noch bedenkt werden, dass alle Datenbank-Checks und<br />

Prozesse nichts bewirken, wenn das Abbild <strong>der</strong> Datenbank ke<strong>in</strong>e Verb<strong>in</strong>dung <strong>zur</strong> Realität hat.<br />

In diesem Bereich gibt es noch e<strong>in</strong>ige Lücken, da <strong>der</strong> Abgleich <strong>der</strong> Datenbank mit <strong>der</strong> Realität per<br />

Stichprobe nur e<strong>in</strong> Behelf ist um jeweils e<strong>in</strong>e Vollerhebung zu umgehen.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 69 / 83


7. Erläuterungen, Listen und Quellen<br />

7.1. Abkürzungsverzeichnis<br />

BI<br />

CRM<br />

ERP<br />

GUI<br />

HTML<br />

i-SAC<br />

OE<br />

RFID<br />

Bus<strong>in</strong>ess Intelligence<br />

Customer Relationship Management<br />

Enterprise Ressource Plann<strong>in</strong>g<br />

Graphical User Interface<br />

Hypertext Markup Language<br />

Inventory for Systems, Applications and Configurations. i-SAC ist das<br />

UBS-weite Inventar für Hard- und Software.<br />

Organisationse<strong>in</strong>heit<br />

Radio Frequency Identification<br />

7.2. Begriffserklärungen<br />

Benutzerrolle<br />

Customer<br />

Relationship<br />

Management<br />

Bus<strong>in</strong>ess<br />

Intelligence<br />

Data M<strong>in</strong><strong>in</strong>g<br />

Data Warehouse<br />

o<strong>der</strong> Data Mart<br />

Enterprise<br />

Ressource Plann<strong>in</strong>g<br />

E<strong>in</strong>e Benutzerrolle … def<strong>in</strong>iert Aufgaben, Eigenschaften und vor allem<br />

Rechte e<strong>in</strong>es Benutzers <strong>in</strong> e<strong>in</strong>er Software bzw. <strong>in</strong> e<strong>in</strong>em Betriebssystem.<br />

Benutzerrollen werden verwendet, um die E<strong>in</strong>stellungen <strong>der</strong> vorgenannten<br />

Bereiche nicht für jeden Nutzer e<strong>in</strong>zeln festlegen zu müssen. 123<br />

o<strong>der</strong> Kundenbeziehungsmanagement – die systematische Verwaltung von<br />

Kundenbeziehungen, um den Erfolg des Unternehmens durch gezielte<br />

Bewirtschaftung und durch Nutzung dieser Daten die Kundenb<strong>in</strong>dung zu<br />

erhöhen. 124<br />

Systeme und Prozesse <strong>zur</strong> systematischen Gew<strong>in</strong>nung von Erkenntnissen,<br />

die <strong>in</strong> H<strong>in</strong>sicht auf die Unternehmensziele bessere Entscheidungen<br />

ermöglichen. Mit den so gewonnenen Erkenntnissen können Unternehmen<br />

ihre Geschäftsabläufe straffen, Risiken m<strong>in</strong>imieren und die Wertschöpfung<br />

vergrössern. Zentrale Elemente von Bus<strong>in</strong>ess Intelligence s<strong>in</strong>d Data<br />

Warehouses o<strong>der</strong> Data Marts, welche mittels Data M<strong>in</strong><strong>in</strong>g ausgewertet<br />

werden. 125<br />

Die Anwendung von statistisch-mathematischen Methoden auf e<strong>in</strong>en<br />

Datenbestand mit dem Ziel, Muster <strong>in</strong> den Daten zu erkennen. 126<br />

E<strong>in</strong>e zentrale Datensammlung, die mehrere <strong>Datenbanken</strong> zusammenfasst,<br />

um diese zentral auswerten zu können. 127<br />

Die E<strong>in</strong>satzplanung <strong>der</strong> im Unternehmen vorhanden Ressourcen. Dazu<br />

müssen möglichst alle im Unternehmen vorhandenen Prozesse abgebildet<br />

werden. 128<br />

123 Siehe Artikel „Benutzerrolle“ aus Wikipedia; <strong>in</strong> [ 71 ].<br />

124 Siehe Artikel „Kundenbeziehungsmanagement“ <strong>in</strong> Wikipedia; <strong>in</strong> [ 78 ].<br />

125 Siehe Artikel „Bus<strong>in</strong>ess Intelligence“ aus Wikipedia; <strong>in</strong> [ 67 ].<br />

126 Siehe Artikel „Data M<strong>in</strong><strong>in</strong>g“ aus Wikipedia; <strong>in</strong> [ 69 ].<br />

127 Siehe Artikel „Data Warehouse“ aus Wikipedia; <strong>in</strong> [ 70 ].<br />

128 Siehe Artikel „Enterprise Ressource Plann<strong>in</strong>g“ aus Wikipedia; <strong>in</strong> [ 72 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 70 / 83


Geschäftsregel<br />

(Bus<strong>in</strong>ess Rule)<br />

Hypertext Markup<br />

Language (HTML)<br />

Implizites Wissen<br />

(tacit knowledge)<br />

Inventory Object<br />

Kernkompetenz<br />

Lifecycle<br />

Management-<br />

Informationssystem<br />

Power User<br />

Radio Frequency<br />

Identification<br />

Workflow<br />

Der Begriff Geschäftsregel o<strong>der</strong> englisch Bus<strong>in</strong>ess-Rule bezeichnet <strong>in</strong> <strong>der</strong><br />

Wirtschafts<strong>in</strong>formatik als Sammelbegriff verschiedene Arten von Regeln, die<br />

<strong>in</strong> o<strong>der</strong> <strong>in</strong> Zusammenhang mit Computerprogrammen verwendet werden.<br />

Man versteht darunter nicht notwendigerweise e<strong>in</strong>e geschäftliche<br />

Angelegenheit, son<strong>der</strong>n Bus<strong>in</strong>ess-Rules können auch ganz elementare<br />

technische Sachverhalte beschreiben. 129<br />

E<strong>in</strong>e Seitenbeschreibungssprache, um Ausgaben <strong>in</strong> e<strong>in</strong>em Webbrowser<br />

darzustellen. Diverse Standardprogramme wie WORD und EXCEL<br />

beherrschen den HTML-Import und -Export.<br />

Implizites Wissen o<strong>der</strong> Stilles Wissen (vom englischen tacit knowledge)<br />

bezeichnet nicht formalisiertes Wissen, also solche Kenntnisse o<strong>der</strong><br />

Fähigkeiten, die nicht explizit formuliert s<strong>in</strong>d und sich möglicherweise auch<br />

nicht erklären, son<strong>der</strong>n nur zeigen lassen. 130<br />

Inventory Objects s<strong>in</strong>d alle E<strong>in</strong>träge, die <strong>in</strong> <strong>der</strong> Inventar-Datenbank i-SAC<br />

enthalten s<strong>in</strong>d. i-SAC unterscheidet <strong>in</strong>sgesamt ca. 40 verschiedene Inventar-<br />

Objekte, unterteilt <strong>in</strong> Hardware und Software.<br />

E<strong>in</strong>e Kernkompetenz beschreibt die Fähigkeit, sich auf e<strong>in</strong>e bestimmte<br />

Tätigkeit im Vergleich zu den an<strong>der</strong>en Unternehmenstätigkeiten zu<br />

konzentrieren und diese beson<strong>der</strong>s gut ausführen zu können. 131<br />

Ablauf <strong>der</strong> Entstehung und Fortentwicklung e<strong>in</strong>es [Software-]Systems, <strong>der</strong><br />

alle Maßnahmen und Tätigkeiten e<strong>in</strong>schließt, die während dieser Periode<br />

erfor<strong>der</strong>lich s<strong>in</strong>d. 132<br />

E<strong>in</strong> Management-Informationssystem ist e<strong>in</strong> dv-technisches<br />

Informationssystem. Es stellt dem (<strong>in</strong> <strong>der</strong> Regel betriebswirtschaftlichen)<br />

Unternehmen Informationen <strong>zur</strong> Verfügung, mit <strong>der</strong>en Hilfe das<br />

Unternehmen gelenkt bzw. das Controll<strong>in</strong>g betrieben werden kann. 133<br />

E<strong>in</strong> sehr kompetenter Benutzer, welcher meist gewisse Bereiche e<strong>in</strong>es<br />

Systems o<strong>der</strong> e<strong>in</strong>es Programms so gut kennt, dass er an<strong>der</strong>en Benutzer<br />

helfen kann.<br />

RFID ermöglicht e<strong>in</strong>e automatische Identifikation (Funkerkennung) und<br />

Lokalisierung von Objekten mittels Transpon<strong>der</strong>, welcher als RFID Etikett an<br />

Gegenstände befestigt werden kann. Mittels geeigneter Lesegeräte können<br />

diese RFID Tags je nach Ausführung über Entfernungen von wenigen<br />

Zentimeter bis zu über e<strong>in</strong>em Kilometer ausgelesen werden. 134<br />

… e<strong>in</strong> Arbeitsablauf (engl. Workflow) [ist] e<strong>in</strong>e vordef<strong>in</strong>ierte Abfolge von<br />

rechnergestützt ablaufenden Aktivitäten. 135<br />

129 Siehe Artikel „Geschäftsregel“ aus Wikipedia; <strong>in</strong> [ 73 ].<br />

130 Siehe Artikel „Implizites Wissen“ aus Wikipedia; <strong>in</strong> [ 75 ].<br />

131 Siehe Artikel „Kernkompetenz“ aus Wikipedia; <strong>in</strong> [ 77 ].<br />

132 Def<strong>in</strong>ition aus dem Informatik-Begriffsnetz; <strong>in</strong> [ 27 ].<br />

133 Siehe Artikel „Management-Informationssystem“ aus Wikipedia; <strong>in</strong> [ 79 ].<br />

134 Siehe Artikel „Radio Frequency Identification“ aus Wikipedia, <strong>in</strong> [ 81 ].<br />

135 Siehe Artikel „Arbeitsablauf“ aus Wikipedia; <strong>in</strong> [ 66 ].<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 71 / 83


7.3. Abbildungsverzeichnis<br />

Abbildung 1: Aufbau dieser Diplomarbeit ............................................................................................ 2<br />

Abbildung 2: Auswirkungen schlechter Datenqualität.......................................................................... 6<br />

Abbildung 3: Wie Qualität Rentabilität und Wachstum steigert.......................................................... 11<br />

Abbildung 4: Der Zusammenhang zwischen Daten und Kernkompetenzen nach Yang W. Lee [ 32 ] 11<br />

Abbildung 5: Beispiel e<strong>in</strong>es Cockpits. In diesem Beispiel e<strong>in</strong> fiktives Cockpit aus dem Bereich HR .. 12<br />

Abbildung 6: Berechnung von Datenqualitätsfehlern <strong>in</strong>nerhalb e<strong>in</strong>es Prozesses nach Würthele [ 89 ]<br />

.................................................................................................................................................. 13<br />

Abbildung 7: Die Treiber für den Sharehol<strong>der</strong> Value ......................................................................... 16<br />

Abbildung 8: Die Entwicklungsphasen des Qualitätsmanagements .................................................. 20<br />

Abbildung 9: Die Hierarchie <strong>der</strong> Qualität nach Seghezzi ................................................................... 21<br />

Abbildung 10: Das Datenqualitätsradar nach Würthele ..................................................................... 27<br />

Abbildung 11: 3 verschiedene Arten für die Berechnung <strong>der</strong> Datenqualität....................................... 29<br />

Abbildung 12: Verschiedene Arten, wie Datenqualität für die Management-Sicht übersichtlich<br />

visualisiert werden kann: L<strong>in</strong>ks Balkengrafik mit Trendpfeilen, <strong>in</strong> <strong>der</strong> Mitte e<strong>in</strong> Verlauf und rechts<br />

die Wetterkarte .......................................................................................................................... 32<br />

Abbildung 13: E<strong>in</strong>faches DQ-Messsystem ........................................................................................ 33<br />

Abbildung 14: Das wirtschaftliche Qualitätsoptimum ......................................................................... 34<br />

Abbildung 15: Mögliche Bereiche, bei denen Datenqualitäts-Mängel auftreten können..................... 36<br />

Abbildung 16: Der Markt für Datenqualitäts-Werkzeuge <strong>in</strong> Deutschland und die Positionierung <strong>der</strong><br />

Akteure gemäss Computerwoche.de [ 37 ] ................................................................................ 38<br />

Abbildung 17: Das Regelkreismodell nach Peter Wolf ...................................................................... 43<br />

Abbildung 18: Generische Ansätze zu den möglichen Fehlerarten ................................................... 44<br />

Abbildung 19: E<strong>in</strong>bezug von mehreren Applikationen, solange sie dem selben Prozess zugehörig<br />

s<strong>in</strong>d............................................................................................................................................ 45<br />

Abbildung 20: Positionierung <strong>der</strong> Rollen im Modell <strong>der</strong> Fehlerarten .................................................. 49<br />

Abbildung 21: Das Verhältnis von Pflegezustand und Technikqualität .............................................. 51<br />

Abbildung 22: Stolperste<strong>in</strong>e <strong>in</strong> <strong>der</strong> Software-entwicklung für die Datenqualität ................................. 52<br />

Abbildung 23: Der Datenfluss zwischen verschiedenen Applikationen. Siehe dazu die Beschreibung<br />

im Beispiel 6 .............................................................................................................................. 56<br />

Abbildung 24: Die Master-/Slave-<strong>Datenbanken</strong> <strong>in</strong> e<strong>in</strong>em erweiterten Konzept mit e<strong>in</strong>em zentralen<br />

Datawarehouse als Proxy .......................................................................................................... 57<br />

Abbildung 25: Lebenszyklus für e<strong>in</strong>e Adresse aus Beispiel 7............................................................ 58<br />

Abbildung 26: Schritt 1 – Die Management-Sicht <strong>in</strong> Balkenform........................................................ 60<br />

Abbildung 27: Schritt 2 – Aufruf <strong>der</strong> Detailliste .................................................................................. 61<br />

Abbildung 28: Schritt 3 – Die Detailliste <strong>in</strong> EXCEL ............................................................................ 61<br />

Abbildung 29: Schritt 4 – Das Stammblatt <strong>der</strong> Software-Komponente............................................... 61<br />

Abbildung 30: Schritt 5 – Auswahl <strong>der</strong> entsprechenden Information und Speichern.......................... 62<br />

Abbildung 31: Zwei schöne Beispiele für Datumsausreisser und dass solche bei <strong>der</strong> Verbesserung<br />

<strong>der</strong> Datenqualität von Vorteil se<strong>in</strong> können.................................................................................. 63<br />

Abbildung 32: Verlauf <strong>der</strong> Datenqualität unter Anwendung <strong>der</strong> <strong>Strategien</strong> A, B und G dieses<br />

Dokuments ................................................................................................................................ 66<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 72 / 83


7.4. Tabellenverzeichnis<br />

Tabelle 1: Die zum Thema Datenqualität relevanten E<strong>in</strong>träge aus den „Top-11 Supply Cha<strong>in</strong><br />

Disasters“ von SupplyCha<strong>in</strong>Digest [ 55 ].................................................................................... 10<br />

Tabelle 2: Die Qualitätsbegriffe nach Garv<strong>in</strong>, erweitert um die Favorisierung nach Wagner.............. 24<br />

Tabelle 3: Anwendungsmöglichkeiten <strong>der</strong> verschiedenen Messmethoden........................................ 30<br />

Tabelle 4: Thesen, generische Ansätze und <strong>Strategien</strong> .................................................................... 47<br />

Tabelle 5: Vor- und Nachteile <strong>der</strong> beiden Umsetzungen zum Verfalldatum....................................... 65<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 73 / 83


8. Literatur und Referenzen<br />

Wird <strong>in</strong> Webl<strong>in</strong>ks das Zeichen “¬“ angezeigt, so bedeutet dies lediglich e<strong>in</strong> Zeilenumbruch und ist bei<br />

<strong>der</strong> E<strong>in</strong>gabe <strong>der</strong> URL <strong>in</strong> den Webbrowser nicht mit e<strong>in</strong>zugeben. L<strong>in</strong>ks zu Wikipedia enthalten e<strong>in</strong>e<br />

e<strong>in</strong>deutige Kennung, welche den Stand des Artikels zum Zeitpunkt <strong>der</strong> Referenzierung be<strong>in</strong>halten.<br />

[ 1 ] An<strong>der</strong>egg, Susanne; 2006; „Spen<strong>der</strong>herz verloren nach Missverständnis“; Tages Anzeiger vom 29. Juli<br />

2006, Seite 9<br />

[ 2 ] Associated Press/Stern.de; 2006; „Wir haben katastrophal versagt“;<br />

URL: http://www.stern.de/politik/panorama/:Wie<strong>der</strong>aufbau-Katr<strong>in</strong>a-Wir-/568722.html<br />

[ 3 ] Atk<strong>in</strong>s, Mark; 2000; Ask the Expert; CIO.com;<br />

URL: http://www2.cio.com/ask/expert/2000/questions/question719.html<br />

[ 4 ] Atk<strong>in</strong>s, Mark; 2000; Ask the Expert; CIO.com;<br />

URL: http://www2.cio.com/ask/expert/2000/questions/question720.html<br />

[ 5 ] Bänsch, Axel; Wissenschaftliches Arbeiten, Sem<strong>in</strong>ar- und Diplomarbeiten; Verlag R. Oldenburg, München,<br />

Wien; ISBN 3-486-25290-9<br />

[ 6 ] Der Bayerische Landesbeauftragte für den Datenschutz;<br />

URL: http://www.datenschutz-bayern.de/dsbk-ent/dataw59.htm<br />

[ 7 ] Block, Frank; 2005; Die Wechselwirkung zwischen Daten- und Prozessqualität; Vortrag an <strong>der</strong> 3.<br />

GIQMC 13.-14.10.2005<br />

URL: http://www.dgiq.de/downloads.php?ddetail=1&did=30<br />

[ 8 ] Bull<strong>in</strong>ger, H.-J.; Warschat, J.; Pieto, J.; Wörner, K.; 1998; Wissensmanagement – Anspruch und Wirklichkeit:<br />

Ergebnisse e<strong>in</strong>er Unternehmensstudie <strong>in</strong> Deutschland; Information Management 13, Nr. 1, Seiten<br />

7-23<br />

[ 9 ] Bundesgesetz über den Datenschutz (Schweizer Datenschutzgesetz);<br />

URL: http://www.adm<strong>in</strong>.ch/ch/d/sr/235_1/a1.html<br />

[ 10 ] CFO Research und Deloitte Consult<strong>in</strong>g LLC; 2005; IQ Matters: Senior F<strong>in</strong>ance and IT Executives Seek<br />

to Boost Information Quality; CFO Publish<strong>in</strong>g Corp., Boston;<br />

URL: http://www.deloitte.com/dtt/press_release/0,1014,sid%253D6263%2526cid%253D104159,00.html<br />

[ 11 ] CIO Research Reports; 2004; Strategic Directions: Bus<strong>in</strong>ess Intelligence; CIO White Paper Library;<br />

URL: http://www.cio.com/sponsors/090104sd/<strong>in</strong>dex.html<br />

[ 12 ] Drucker, Peter F.; 1993; Post Capitalist Society; Butterworth He<strong>in</strong>emann; Oxford<br />

[ 13 ] Dubois, L.; 2002; Bus<strong>in</strong>ess Intelligence: The Dirty (and Costly) Little Secret of Bad Data, DM Review<br />

September 2002; Faulkner and Gray (S.11, S.15, S.146);<br />

URL: http://www.dmreview.com/onl<strong>in</strong>ecolumnists<br />

[ 14 ] English, Larry P., 1999, 7 Deadly Misconceptions about Information Quality, Information Impact International<br />

Inc., Brentwood TN<br />

[ 15 ] English, Larry P.; 1998; The High Cost of Low-Quality Data; DM Review Januar 1998; Faulkner and<br />

Gray (S.11, S.18); URL: http://www.dmreview.com/onl<strong>in</strong>ecolumnists<br />

[ 16 ] Europäische Union; 2004; Richtl<strong>in</strong>ie 2004/39/EG - Richtl<strong>in</strong>ie über Märkte für F<strong>in</strong>anz<strong>in</strong>strumente<br />

URL: http://eur-lex.europa.eu/LexUriServ/site/de/oj/2004/l_145/l_14520040430de00010044.pdf<br />

[ 17 ] European Foundation for Quality Management (EFQM), Das EFQM-Modell für Excellence, ISBN 90-<br />

5236-084-7<br />

[ 18 ] Fe<strong>der</strong>, Barnaby J.; 2005; „Radio Tags Can F<strong>in</strong>d Stray Bags, but Can Airl<strong>in</strong>es Afford Them?”; New York<br />

Times Onl<strong>in</strong>e Ausgabe; publiziert am 7. März 2005; URL:<br />

http://www.nytimes.com/2005/03/07/technology/07baggage.html?ex=1267851600&en=4fed3eb6955cc6<br />

14&ei=5090<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 74 / 83


[ 19 ] Fields Gary; 2003; From Communication and Innovation, To Bus<strong>in</strong>ess Organisation and Territory – The<br />

Production Networks of Swift Meat Pack<strong>in</strong>g and Dell Computer; Berkeley CA<br />

URL: http://brie.berkeley.edu/publications/149ch6.pdf<br />

[ 20 ] Garv<strong>in</strong> D. A.; 1987; Compet<strong>in</strong>g on the Eight Dimensions of Quality; Harvard Bus<strong>in</strong>ess Review<br />

[ 21 ] Garv<strong>in</strong> D. A.; 1988; Manag<strong>in</strong>g Quality: The Strategic and Competitive Edge; The Free Press , A Division<br />

of Macmillan, New York<br />

[ 22 ] Helfert, Markus; 2002; Datenqualität – E<strong>in</strong>e Herausfor<strong>der</strong>ung im CRM; Institut für Wirtschafts<strong>in</strong>formatik<br />

Universität St. Gallen; Vortrag an EuroForumCRM 2002;<br />

URL; http://www.comput<strong>in</strong>g.dcu.ie/~mhelfert/Research/publication/2002/EuroForumCRM040602.pdf<br />

[ 23 ] Helfert, Markus; 2002; Planung und Messung <strong>der</strong> Datenqualität <strong>in</strong> Data-Warehouse-Systemen; Logos<br />

Verlag; ISBN: 3-89722-930-7<br />

[ 24 ] Henn<strong>in</strong>g Jörg; 2001; Prozessorientiertes Qualitätsmanagement von Dienstleistungen; Deutscher Universitätsverlag,<br />

Wiesbaden; ISBN 3-8244-7376-3<br />

[ 25 ] H<strong>in</strong>richs, Holger; 2002; Datenqualitätsmanagement <strong>in</strong> Data Warehouse-Systemen<br />

URL: http://docserver.bis.uni-oldenburg.de/publikationen/dissertation/2002/h<strong>in</strong>dat02/h<strong>in</strong>dat02.html<br />

[ 26 ] Huang, Kuan-Tsae; Lee, Yang W.; Wang, Richard Y.; Quality Information and Knowledge Management,<br />

1999, Prentice Hall<br />

[ 27 ] Informatik-Begriffsnetz, URL:<br />

http://www.vorgehensmodelle.de/giak/arbeitskreise/vorgehensmodelle/themenbereiche/entwicklungsprozess.html<br />

[ 28 ] Institut für Wirtschafts<strong>in</strong>formatik / Abteilung Information Eng<strong>in</strong>eer<strong>in</strong>g <strong>der</strong> Universität Bern;<br />

URL: http://www.ie.iwi.unibe.ch/forschung/datenqualitaet/<br />

[ 29 ] Juran, Joseph M.; 1991; Handbuch <strong>der</strong> Qualitätsplanung; Verlag Mo<strong>der</strong>ne Industrie;<br />

ISBN 3-478-41443-1<br />

[ 30 ] Kotler, Philip; Bliemel, Friedhelm; 2001; Market<strong>in</strong>g Management, Schäffer-Poeschel Verlag Stuttgart;<br />

ISBN 3-7910-1689-X<br />

[ 31 ] Kuli, Andreas; 2004; Solvency II: E<strong>in</strong> neues Aufsichtsmodell für die Versicherungswirtschaft <strong>in</strong> <strong>der</strong> EU;<br />

URL: http://www.converium.com/media/SolvencyII_Conv_20040122.pdf<br />

[ 32 ] Lee, Yang W.; 1997; Quality Information, Organisational Knowledge, and Core Competency; Cambridge<br />

Research Group; Cambridge MA<br />

[ 33 ] L<strong>in</strong>gscheid, A; Robeck, A.; 1998; Qualität messbar machen – Prozess- und Kundenorientierung umsetzen.<br />

In: Westkämper, E.; Mai, C. (Herausgeber): Q-Jahrbuch 98/99; Hanser Verlag, München.<br />

[ 34 ] Losh<strong>in</strong>, David; 2001; Enterprise Knowledge Management, The Data Quality Approach; Morgan Kaufmann;<br />

ISBN: 0-12-455840-2<br />

[ 35 ] Lundvall, D.M.; 1974; Quality Costs. In: Juran: Quality Control Handbook; McGraw-Hill; New York<br />

[ 36 ] Malik Management Zentrum St. Gallen; PIMS® – Profit Impact of Market Strategy<br />

URL: http://www.malik-mzsg.ch/consult<strong>in</strong>g/htm/745/de/PIMSR.htm<br />

[ 37 ] Mathes, Tobias; Computerwoche.de; 16. Juni 2005; Artikel „Wie sich Datenqualität steigern lässt“ -<br />

Analyse des Datenqualitäts-Marktes <strong>in</strong> Deutschland,<br />

URL: http://www.computerwoche.de/produkte_technik/bus<strong>in</strong>ess_<strong>in</strong>telligence/557518/<br />

Der Artikel wie<strong>der</strong>um greift auf Informationen des „Bus<strong>in</strong>ess Application Research Center“ (BARC) <strong>zur</strong>ück,<br />

welche nicht öffentlich s<strong>in</strong>d.<br />

[ 38 ] Müller-Stewens, Günther; Lechner, Christoph; 2003; Strategisches Management; 2. überarbeitete und<br />

erweiterte Auflage; Schäffer-Poeschel Verlag, Stuttgart; ISBN 3-7910-2051-X<br />

[ 39 ] Obligationenrecht; Anpassungen im Firmenrecht; Inkrafttreten voraussichtlich Mitte 2007;<br />

URL: http://www.adm<strong>in</strong>.ch/ch/d/ff/2004/4117.pdf<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 75 / 83


[ 40 ] Parr Rud, Olivia; 2001; Data M<strong>in</strong><strong>in</strong>g Cook Book – Model<strong>in</strong>g Data for Market<strong>in</strong>g, Risk, and Customer Relationship<br />

Management; Wiley Computer Publish<strong>in</strong>g<br />

[ 41 ] PIMS Consult<strong>in</strong>g; URL: http://www.pimsconsult<strong>in</strong>g.co.uk/<br />

[ 42 ] Pira, Andreas, 1999, Total Quality Management im Spitalbereich auf <strong>der</strong> Basis des EFQM-Modells,<br />

URL: http://e-collection.ethbib.ethz.ch/show?type=diss&nr=13082<br />

[ 43 ] PR Newswire; 2003; Evoke Software meldet Rekordquartal;<br />

URL: http://www.prnewswire.co.uk/cgi/news/release?id=97485<br />

[ 44 ] Promet Methodenhandbuch für den Entwurf von Geschäftsprozessen.<br />

Institut für Wirtschafts<strong>in</strong>formatik, Universität St. Gallen und „The Information Management Group“,<br />

München<br />

[ 45 ] QAS; 2005; The Impact Poor Data Has On Your Organization; QAS Boston;<br />

URL: http://www.qas.com/address-software/the-impact-poor-data-has-form.htm<br />

[ 46 ] QAS; 2006; U.S. Bus<strong>in</strong>ess Los<strong>in</strong>g Revenue Through Poorly Managed Customer Data; QAS Boston;<br />

URL: http://www.qas.com/us/company/news/news-display.asp?ID=4755<br />

[ 47 ] Qualitäts-Lexikon – E<strong>in</strong>trag „Qualitätsbewertung“<br />

URL: http://www.quality.de/lexikon/qualitaetsbewertung.htm<br />

[ 48 ] Redman, Thomas C.; 1996; Data Quality <strong>in</strong> the Information Age: The Key to a Strategic Enterprise Resource;<br />

Artech House Publishers, Boston; ISBN 0-89006-883-6; Referenz-URL:<br />

http://www.artechhouse.com/default.asp?frame=book.asp&book=0-89006-883-6&Cont<strong>in</strong>ent=EU<br />

[ 49 ] Sarbanes Oxley Act of 2002;<br />

URL: http://thomas.loc.gov/cgi-b<strong>in</strong>/query/z?c107:H.R.3763.ENR:<br />

[ 50 ] Seghezzi, Hans Dieter; 1996; Integriertes Qualitätsmanagement: Das St. Galler Konzept; Verlag Hanser,<br />

München; ISBN 3-446-16341-7<br />

[ 51 ] Spiegel Onl<strong>in</strong>e: URL: http://www.spiegel.de/panorama/0,1518,319175,00.html<br />

[ 52 ] Stahel, Werner A.; 2002; Statistische Datenanalyse – E<strong>in</strong>e E<strong>in</strong>führung für Naturwissenschaftler, 4. Auflage;<br />

Verlag Friedrich Vieweg & Sohn, Braunschweig; ISBN 3-528-366-53-2<br />

[ 53 ] Stahlknecht Peter, Hasenkamp Ulrich; 2002; E<strong>in</strong>führung <strong>in</strong> die Wirtschafts<strong>in</strong>formatik; 10. überarbeitete<br />

und erweiterte Auflage; Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>; ISBN 3-540-41986-1<br />

[ 54 ] Strong, D. M., Lee, Y.W und Wang, R.Y.; 1997; Data Quality <strong>in</strong> Context – Communications of the ACM,<br />

40(5), pp. 86-95<br />

[ 55 ] SupplyCha<strong>in</strong>Digest; Januar 2006; „The 11 Greatest Supply Cha<strong>in</strong> Disasters”;<br />

URL: http://www.scdigest.com/assets/reps/SCDigest_Top-11-SupplyCha<strong>in</strong>Disasters.pdf<br />

[ 56 ] Swiss<strong>in</strong>fo; „Köpferollen verdeckt Probleme bei Adecco“; Meldung vom 16. Januar 2004<br />

URL: http://www.swiss<strong>in</strong>fo.org/ger/swiss<strong>in</strong>fo.wml?siteSect=107&sid=4638559<br />

[ 57 ] Swiss<strong>in</strong>fo; „Adecco liefert endlich Zahlen“; Meldung vom 1. Juni 2004<br />

URL: http://www.swiss<strong>in</strong>fo.org/ger/swiss<strong>in</strong>fo.wml?siteSect=881&sid=4971366<br />

[ 58 ] Thut, P. und Stöckli; M. 2002; Konzept <strong>zur</strong> Datenqualitätsmessung <strong>in</strong> i-SAC<br />

UBS Internes Dokument<br />

[ 59 ] USA PATRIOT Act, vollständiger Name „Unit<strong>in</strong>g and Strengthen<strong>in</strong>g America by Provid<strong>in</strong>g Appropriate<br />

Tools Required to Intercept and Obstruct Terrorism Act of 2001“<br />

URL: http://thomas.loc.gov/cgi-b<strong>in</strong>/query/z?c107:H.R.3162.ENR:<br />

[ 60 ] usability.ch; „Usability Learn<strong>in</strong>g Center >> Was ist Usability?“<br />

URL: http://www.usability.ch/Deutsch/usab.htm<br />

[ 61 ] usability.ch; „Erzeugen Produktivitätssteigerungen wirtschaftliche Vorteile?“<br />

URL: http://www.usability.ch/Alertbox/20030317.htm<br />

[ 62 ] Vonlanthen Michael; URL: www.betriebswirtschaft.ch<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 76 / 83


[ 63 ] Wang, Richard; Madnick, Stuart E.; 1990; A Polygen Model for Heterogeneous Database Systems: The<br />

Source Tagg<strong>in</strong>g Perspective; Composite Information Systems Labaratory, Massachusetts Institute of<br />

Technology (MIT); Cambridge, Massachusetts<br />

[ 64 ] Wagner Ulrich; 2005; Value Added Services und <strong>der</strong>en Management im Krankenhaus<br />

[ 65 ] Webopedia-Artikel „Data Cleans<strong>in</strong>g“<br />

URL: http://www.webopedia.com/TERM/D/data_cleans<strong>in</strong>g.html<br />

[ 66 ] Wikipedia-Artikel „Arbeitsablauf“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Arbeitsablauf&oldid=15627930<br />

[ 67 ] Wikipedia-Artikel „Bus<strong>in</strong>ess-Intelligence“<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Bus<strong>in</strong>ess-Intelligence&oldid=24897684<br />

[ 68 ] Wikipedia-Artikel „Data Profil<strong>in</strong>g“ auf Englisch:<br />

URL: http://en.wikipedia.org/w/<strong>in</strong>dex.php?title=Data_profil<strong>in</strong>g&oldid=31168642<br />

[ 69 ] Wikipedia-Artikel „Data-M<strong>in</strong><strong>in</strong>g“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Data-M<strong>in</strong><strong>in</strong>g&oldid=25041030<br />

[ 70 ] Wikipedia-Artikel „Data-Warehouse“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Data-Warehouse&oldid=24897725<br />

[ 71 ] Wikipedia-Artikel „Benutzerrolle“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Benutzerrolle&oldid=12389630<br />

[ 72 ] Wikipedia-Artikel „Enterprise Ressource Plann<strong>in</strong>g“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Enterprise_Ressource_Plann<strong>in</strong>g&oldid=25587407<br />

[ 73 ] Wikipedia-Artikel „Geschäftsregel“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Gesch%C3%A4ftsregel&oldid=16800720<br />

[ 74 ] Wikipedia-Artikel „Grafische Benutzeroberfläche“<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Grafische_Benutzeroberfl%C3%A4che&oldid=19700191<br />

[ 75 ] Wikipedia-Artikel „Implizites Wissen“<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Implizites_Wissen&oldid=19386396<br />

[ 76 ] Wikipedia-Artikel „Informations<strong>in</strong>tegration“<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Informations<strong>in</strong>tegration&oldid=17816886<br />

[ 77 ] Wikipedia-Artikel „Kernkompetenz“<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Kernkompetenz&oldid=20786438<br />

[ 78 ] Wikipedia-Artikel „Kundenbeziehungsmanagement“<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Kundenbeziehungsmanagement&oldid=25088175<br />

[ 79 ] Wikipedia-Artikel „Management-Informationssystem“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Management-Informationssystem&oldid=18823556<br />

[ 80 ] Wikipedia-Artikel „Mars Climate Orbiter":<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Mars_Climate_Orbiter&oldid=17934251<br />

[ 81 ] Wikipedia-Artikel „Radio Frequency Identification“<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Radio_Frequency_Identification&oldid=29634685<br />

[ 82 ] Wikipedia-Artikel „Software-Ergonomie“:<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=Software-Ergonomie&oldid=20520986<br />

[ 83 ] Wikipedia-Artikel „USA PATRIOT Act":<br />

URL: http://de.wikipedia.org/w/<strong>in</strong>dex.php?title=USA_PATRIOT_Act&oldid=19003710<br />

[ 84 ] Wikiquote-Artikel „Galileo Galilei“<br />

URL: http://de.wikiquote.org/w/<strong>in</strong>dex.php?title=Galileo_Galilei&oldid=176907<br />

[ 85 ] Wikiquote-Artikel „Peter F. Drucker“<br />

URL: http://de.wikiquote.org/w/<strong>in</strong>dex.php?title=Peter_F._Drucker&oldid=201475<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 77 / 83


[ 86 ] Wolf, Jürg; Würthele, Volker; Thut, Peter; 2005, Messung und Visualisierung von Datenqualität, Vortrag<br />

an <strong>der</strong> 3. GIQMC 13.-14.10.2005<br />

URL: http://www.dgiq.de/downloads.php?ddetail=1&did=22 und<br />

URL: http://www.datenqualitaet-praktisch.de/<strong>in</strong>dex.php?op=ViewArticle&articleId=8&blogId=1<br />

[ 87 ] Wolf, Peter; 1999; Konzept e<strong>in</strong>es TQM-basierten Regelkreismodells für e<strong>in</strong> „Information Quality Management"<br />

(IQM); Verlag Praxiswissen, Dortmund; ISBN 3-932775-30-9<br />

[ 88 ] Wonigeit, Jens; 1994; Total Quality Management – Grundzüge und Effizienzanalyse, Deutscher Universitätsverlag,<br />

Wiesbaden, ISBN 3-8244-0204-1, Referenz: http://www.uni-bamberg.de/leistungen/forschung/habilprom/sozial_und_wirtschaftswissenschaften/promotionen_sowi/<br />

[ 89 ] Würthele, Volker 2003, Datenqualitätsmetrik für Informationsprozesse - Datenqualitätsmanagement mittels<br />

ganzheitlicher Messung <strong>der</strong> Datenqualität; Books on Demand; ISBN 978-3833403453<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite 78 / 83


Anhänge<br />

Anhang A: eMail für die Teilnahme an <strong>der</strong> Umfrage<br />

Über dieses Mail wurden <strong>in</strong>sgesamt 52 Personen direkt e<strong>in</strong>geladen, an <strong>der</strong> Umfrage teilzunehmen.<br />

Dafür wurden Personen ausgewählt, welche im Hardware- o<strong>der</strong> Software<strong>in</strong>ventar beson<strong>der</strong>s gehäuft<br />

vorkamen o<strong>der</strong> aufgrund ihrer Verantwortlichkeit im organisatorischen Umfeld. Das Resultat dieser<br />

Umfrage ist damit <strong>in</strong> ke<strong>in</strong>er Weise repräsentativ, liefert jedoch bereits e<strong>in</strong>en wichtigen Anhaltspunkt<br />

<strong>zur</strong> Beurteilung <strong>der</strong> weichen Faktoren <strong>der</strong> Datenqualität.<br />

From: Wolf, Juerg<br />

Sent: Donnerstag, 24. August 2006 16:41<br />

To:<br />

Subject: Umfrage zum Thema "Datenqualität <strong>in</strong> i-SAC"<br />

Guten Tag<br />

Im Rahmen me<strong>in</strong>er Diplomarbeit <strong>zur</strong> Fachhochschule <strong>in</strong> Betriebsökonomie schreibe ich e<strong>in</strong>e Arbeit zum<br />

Thema "Datenqualität". Da wir uns bei i-SAC schon länger mit diesem Thema beschäftigen, war es für<br />

mich naheliegend, das Inventar für Systeme, Applikationen und Configurationen hierzu näher zu<br />

betrachten.<br />

Da bei <strong>der</strong> Betrachtung <strong>der</strong> Qualität e<strong>in</strong>es Produktes o<strong>der</strong> e<strong>in</strong>er Dienstleistung immer auch die Optik des<br />

Kunden berücksichtigt werden sollte, nimmt es mich natürlich Wun<strong>der</strong>, wie Sie die Datenqualität <strong>in</strong> i-SAC<br />

beurteilen. Weiter hat das Arbeitsumfeld e<strong>in</strong>en grossen E<strong>in</strong>fluss darauf, <strong>in</strong>wieweit Fehler gemacht werden<br />

und <strong>in</strong>wieweit die Mitarbeiter e<strong>in</strong> Arbeitsumfeld antreffen, das e<strong>in</strong>er offenen Fehlerkultur zuträglich ist somit<br />

e<strong>in</strong>e höhere Qualität <strong>der</strong> Arbeit erlaubt.<br />

Um e<strong>in</strong>en Anhaltspunkt dieser sogenannten "Weichen Faktoren" zu erhalten, habe ich e<strong>in</strong>en Fragebogen<br />

erarbeitet <strong>der</strong> auf anonymer Basis verschiedene Aspekte <strong>der</strong> Datenqualität <strong>in</strong> i-SAC beleuchtet.<br />

Der Zeitraum, <strong>in</strong> dem diese Umfrage beantwortet werden kann, läuft von Heute bis am 1. September<br />

2006.<br />

Der Start <strong>zur</strong> Umfrage ist hier:<br />

https://bw.dataweb.ubs.ch/fil_survey/<strong>in</strong>dex.cfm?lang=Deutsch&surveyNumber=31<br />

Ich bitte Sie, sich ca. 10 M<strong>in</strong>uten Zeit zu nehmen um die Fragen zu beantworten. Bitte denken Sie nicht zu<br />

lange nach - meist ist die erste E<strong>in</strong>gebung die Richtige. Wenn Sie zu e<strong>in</strong>er Frage nicht Stellung nehmen<br />

wollen o<strong>der</strong> können kreuzen Sie e<strong>in</strong>fach das "X" an. Trotzdem ist nicht eruierbar, wer e<strong>in</strong>e Frage wie<br />

beantwortet hat - die Anonymität Ihrer Antwort ist also gewährleistet.<br />

Zum Schluss möchte ich mich bei Ihnen bedanken, dass Sie mir bei me<strong>in</strong>er Diplomarbeit geholfen haben.<br />

Sollten Sie Fragen haben <strong>zur</strong> Umfrage, <strong>der</strong> Methodik, <strong>der</strong> Bedienung des Umfragetools, zu den Resultaten<br />

o<strong>der</strong> e<strong>in</strong>fach ganz allgeme<strong>in</strong> zum Thema Datenqualität, werde ich Ihnen gerne helfen. Ebenso b<strong>in</strong> ich offen<br />

gegenüber Ihren zusätzlichen Kommentaren und Anregungen.<br />

Mit freundlichen Grüssen<br />

Jürg Wolf<br />

--<br />

Jürg Wolf<br />

I6YE - Inventory Services<br />

Tel. 1923-6 38 91<br />

----------------------------------------------------------------<br />

Hotl<strong>in</strong>e http://bw.ubs.com/it/i-SAC<br />

1923-6 55 77 sh-isac-services@ubs.com<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite a / 83


Anhang B: Fragebogen für die Erfassung <strong>der</strong> Weichen Faktoren <strong>der</strong><br />

Datenqualität <strong>in</strong> i-SAC<br />

Diese Umfrage wurde als Web-Umfrage durchgeführt. Inhaltlich entspricht die Umfrage den<br />

folgenden Fragen – die Darstellung wurde jedoch den Möglichkeiten im Web angepasst.<br />

Generelle Fragen<br />

1 Mutieren Sie und Ihre Mitarbeiter Daten direkt <strong>in</strong> i-SAC o<strong>der</strong> <strong>in</strong>direkt über e<strong>in</strong>e<br />

an<strong>der</strong>e Applikation?<br />

Direkt<br />

Indirekt<br />

Beides<br />

2 Wenn Sie <strong>in</strong>direkt Daten <strong>in</strong> i-SAC mutieren, über welche Applikation(en) erfolgen<br />

diese Datenmutationen?<br />

Namen <strong>der</strong> Applikation(en): ……………………………………………………………<br />

3 Wie <strong>in</strong>tensiv arbeitet die Person im Team mit dem grössten i-SAC Know-How im<br />

Schnitt mit i-SAC, resp. <strong>der</strong> damit verbundenen Applikation?<br />

Täglich mehr als 1 Stunde<br />

Wöchentlich über 1 Stunde<br />

Monatlich über 1 Stunde<br />

seltener<br />

4 Wie <strong>in</strong>tensiv arbeiten Sie und Ihr Team (grob geschätzt !) <strong>in</strong> den verschiedenen<br />

Bereichen von i-SAC (Angaben <strong>in</strong> Prozent - 100% = die Zeit, <strong>in</strong> <strong>der</strong> Sie mit i-SAC<br />

arbeiten)?<br />

- im Hardware-Inventar ……%<br />

- im Software-Inventar ……%<br />

- im Netzwerk-Inventar ……%<br />

- <strong>in</strong> <strong>der</strong> Integrationsplanung ……%<br />

- an<strong>der</strong>e ……%<br />

5 Fragen <strong>zur</strong> Konsistenz 1 2 3 4 X<br />

Bitte wählen Sie zu je<strong>der</strong> Frage e<strong>in</strong>e <strong>der</strong> folgenden Optionen:<br />

(1=trifft überhaupt nicht zu, 2=trifft eher nicht zu, 3=trifft eher zu, 4=trifft zu, X= weiss nicht)<br />

a) Die MA können kle<strong>in</strong>ere Probleme im Zusammenhang mit i-SAC selbst lösen. <br />

b) Die MA haben m<strong>in</strong>destens e<strong>in</strong>e, genau def<strong>in</strong>ierte team<strong>in</strong>terne Ansprechperson, die<br />

ihnen bei Problemen helfen kann.<br />

c) Diese team<strong>in</strong>terne Ansprechperson weiss genau, an wen sie sich wenden muss bei<br />

Problemen, die sie nicht selbst lösen kann.<br />

d) Vom Team o<strong>der</strong> von übergeordneten Stellen wurde e<strong>in</strong> klar def<strong>in</strong>iertes<br />

Datenqualitätsziel gesetzt und kommuniziert.<br />

<br />

<br />

<br />

e) Die MA haben wirksame Werkzeuge, um die Datenqualität selbst zu überprüfen. <br />

f) In den letzten 3 Monaten wurden von MA gemachte Vorschläge <strong>zur</strong> Verbesserung<br />

<strong>der</strong> Datenqualität umgesetzt.<br />

g) In den letzten 3 Monaten umgesetzte Verbesserungen <strong>zur</strong> Datenqualität haben<br />

e<strong>in</strong>en positiven Effekt gezeigt.<br />

<br />

<br />

6 Fragen <strong>zur</strong> Ownership 1 2 3 4 X<br />

Bitte wählen Sie zu je<strong>der</strong> Frage e<strong>in</strong>e <strong>der</strong> folgenden Optionen:<br />

(1=trifft überhaupt nicht zu, 2=trifft eher nicht zu, 3=trifft eher zu, 4=trifft zu, X= weiss nicht)<br />

a) Für die bearbeiteten Datenbereiche ist die Datenownership e<strong>in</strong>deutig def<strong>in</strong>iert. <br />

b) Die MA wissen genau, wer <strong>der</strong> Datenowner <strong>der</strong> manipulierten Daten ist. <br />

7 Fragen <strong>zur</strong> Nützlichkeit 1 2 3 4 X<br />

Bitte wählen Sie zu je<strong>der</strong> Frage e<strong>in</strong>e <strong>der</strong> folgenden Optionen:<br />

(1=trifft überhaupt nicht zu, 2=trifft eher nicht zu, 3=trifft eher zu, 4=trifft zu, X= weiss nicht)<br />

a) Die vorhandenen Datenstrukturen entsprechen unseren aktuellen und zukünftigen<br />

Bedürfnissen vollständig.<br />

b) In den letzten 3 Monaten ist nie <strong>der</strong> Fall e<strong>in</strong>getreten, dass die angezeigten Daten<br />

nicht <strong>der</strong> Realität entsprachen.<br />

<br />

<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite b / 83


8 Fragen zum Prozess 1 2 3 4 X<br />

Bitte wählen Sie zu je<strong>der</strong> Frage e<strong>in</strong>e <strong>der</strong> folgenden Optionen:<br />

(1=trifft überhaupt nicht zu, 2=trifft eher nicht zu, 3=trifft eher zu, 4=trifft zu, X= weiss nicht)<br />

a) Die MA wissen genau, wo und wofür die bearbeiteten Daten erstellt und verwendet<br />

werden.<br />

<br />

b) Kontakte mit vor- o<strong>der</strong> nachgelagerten Stellen im Prozess f<strong>in</strong>den regelmässig statt. <br />

c) Die MA haben e<strong>in</strong>en guten und direkten Kontakt (persönlich, telefonisch o<strong>der</strong> per<br />

Email) mit vor- o<strong>der</strong> nachgelagerten Stellen im Prozess.<br />

<br />

9 Fragen <strong>zur</strong> Jobkultur 1 2 3 4 X<br />

Bitte wählen Sie zu je<strong>der</strong> Frage e<strong>in</strong>e <strong>der</strong> folgenden Optionen:<br />

(1=trifft überhaupt nicht zu, 2=trifft eher nicht zu, 3=trifft eher zu, 4=trifft zu, X= weiss nicht)<br />

a) Die MA haben <strong>in</strong> den letzten 3 Monaten ke<strong>in</strong>e Fehler bei <strong>der</strong> Datenbearbeitung mit i-<br />

SAC gemacht.<br />

<br />

b) Die Fehlerkultur im Team lässt es zu, offen über gemachte Fehler zu sprechen. <br />

c) Bei gemachten Fehlern arbeitet (wenn notwendig) das ganze Team an <strong>der</strong><br />

Behebung mit.<br />

d) Die MA tauschen untere<strong>in</strong>an<strong>der</strong> Wissen und Erkenntnisse aus, um künftig bessere<br />

Arbeit leisten zu können.<br />

e) In den letzten 3 Monaten wurden von MAs konkrete Vorschläge gemacht, wie die<br />

Datenqualität verbessert werden könnte.<br />

<br />

<br />

<br />

10 Fragen zu den Mitarbeitern 1 2 3 4 X<br />

Bitte wählen Sie zu je<strong>der</strong> Frage e<strong>in</strong>e <strong>der</strong> folgenden Optionen:<br />

(1=trifft überhaupt nicht zu, 2=trifft eher nicht zu, 3=trifft eher zu, 4=trifft zu, X= weiss nicht)<br />

a) Alle beteiligten MA wurden für ihre Tätigkeit im Zusammenhang mit i-SAC<br />

ausgebildet.<br />

<br />

b) Durch e<strong>in</strong>zelne MA erworbenes Wissen wird immer sofort dokumentiert. <br />

c) Das erworbene und dokumentierte Wissen ist für alle Mitarbeiter im Team je<strong>der</strong>zeit<br />

verfügbar.<br />

<br />

d) Das Thema Datenqualität ist unter den MA bekannt und wird von ihnen verstanden. <br />

e) Die MA s<strong>in</strong>d immer auf dem laufenden über Än<strong>der</strong>ungen an i-SAC und den damit<br />

verbundenen Prozessen.<br />

<br />

f) Die MA lernen gerne neues über i-SAC und dessen Umsysteme dazu. <br />

11 Fragen <strong>zur</strong> Datenqualität <strong>der</strong> i-SAC Daten 1 2 3 4 X<br />

Die folgenden Fragen beziehen sich nur auf die letzten 3 Monate und auf die Daten, welche<br />

Sie direkt o<strong>der</strong> <strong>in</strong>direkt <strong>in</strong> i-SAC bearbeiten<br />

Bitte wählen Sie zu je<strong>der</strong> Frage e<strong>in</strong>e <strong>der</strong> folgenden Optionen:<br />

(1=trifft überhaupt nicht zu, 2=trifft eher nicht zu, 3=trifft eher zu, 4=trifft zu, X= weiss nicht)<br />

a) Wir erhalten die benötigten Daten immer <strong>in</strong> e<strong>in</strong>em Zustand, <strong>in</strong> dem wir sie ohne<br />

E<strong>in</strong>schränkungen verwenden können<br />

<br />

b) Die erhaltenen Daten enthalten ke<strong>in</strong>e missverständliche Werte <br />

c) Die erhaltenen Daten enthalten ke<strong>in</strong>e Redundanzen <br />

d) Die erhaltenen Daten s<strong>in</strong>d immer vollständig <br />

e) Probleme und Missverständnisse bei Daten können immer <strong>in</strong>nerhalb e<strong>in</strong>es<br />

angemessenen Zeitraums behoben werden<br />

f) Unsere Datenbezüger s<strong>in</strong>d immer vollständig zufrieden mit <strong>der</strong> Qualität <strong>der</strong> Daten,<br />

die sie von uns erhalten<br />

g) Rückfragen und Problembehebungen von Datenbezügern an uns können immer<br />

<strong>in</strong>nerhalb des Zeitraumes erledigt werden, den <strong>der</strong> Kunde für angemessen erachtet<br />

h) Für Problembehebungen wird uns vom Datenbezüger immer genügend Zeit<br />

e<strong>in</strong>geräumt<br />

<br />

<br />

<br />

<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite c / 83


Anhang C: Die Resultate dieser Umfrage<br />

Übersicht über die Resultate <strong>der</strong> Umfrage aus Anhang B.<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite d / 83


Anhang D: Inhalt <strong>der</strong> CD<br />

Die beiliegende CD enthält folgende Dateien:<br />

• Diplomarbeit Jürg Wolf.doc<br />

• Diplomarbeit Jürg Wolf.rtf<br />

• Diplomarbeit Jürg Wolf.pdf<br />

<strong>Strategien</strong> <strong>zur</strong> <strong>Hebung</strong> <strong>der</strong> Datenqualität <strong>in</strong> <strong>Datenbanken</strong> - Diplomarbeit © Jürg Wolf 2007 Seite e / 83

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!