Konzeption und Implementierung eines ... - Stephan, Daniel

Empfehlungen

Info

5.3. REPRÄSENTATION VON DOKUMENTEN 56 oder zu konsolidieren. Beispielsweise gehört dazu, unvollständige oder fehlerhaf- te Daten zu erkennen und zu entfernen. Auch können an dieser Stelle Summen gebildet werden, falls diese für den Anwendungsfall anstatt der eigentlichen Daten interessant sind. In jedem Falle wird hier bereits auf simple Weise ein bereinigtes Modell der Daten erzeugt, das der nächste Schritt als Eingabe verwendet. Dabei handelt es sich um den Schritt Transformation. Er ist notwendig, weil der Algorithmus üblicherweise Daten in einem speziellen, für den Ablauf des Algorithmus optimalen, Format benötigt, in das die vorhandenen Daten erst gewandelt werden müssen. Der Algorithmus selber wird durch den darauf folgenden Schritt Data Mi- ning dargestellt. Hier konzentriert sich das Forschungsinteresse, da die anderen Schritte mit wohlbekanntem Programmierhandwerk ohne größere Probleme durchgeführt werden können. Die Probleme in den obigen Schritten sind eher organisatorischer Natur (es müssen gut ausgebildete Mitarbeiter existieren, die nicht nur technisches sondern auch fachliches Know-how besitzen). Daten um- zuwandeln ist beispielweise eine inzwischen sehr gut beherrschte Anforderung an Computersysteme. Data Mining Algorithmen dagegen sind häufig mit kom- plexer Mathematik ausgestattet und lassen sich in das vergleichsweise neue Forschungsfeld der Künstlichen Intelligenz (KI) einordnen (kommerziell erfolgreiche Anwendungen ca. seit Mitte der 1980er Jahre 1 ). Der letzte Schritt nach dem Data Mining steht für die Interpretation bzw. Auswertung der Ausgaben des Algorithmus. Diese kann beispielsweise darin münden, dass die Ausgaben als neue, stärker abstrahierte Daten in der Daten- bank abgelegt werden, die später in anderen Prozessen Anwendung finden. Es könnte jedoch ebenso eine Art Report erzeugt und präsentiert werden. 5.3. Repräsentation von Dokumenten Auf dem Weg zu Dokumenten-Clustern stehen wir zunächst der Frage ge- genüber, auf welche Weise die vorliegenden Dokumente im System repräsen- tiert werden, so dass die inhaltlichen Aspekte vergleichbar werden. Hier gibt es einige Ansätze, die von sog. Word-Bags bis hin zu linguistischen Systemen reichen. In den meisten Fällen wird für die Repräsentation der Dokumente das Vektorraummodell (Vector Space Model, VSM) verwendet. Dies basiert letzt- 1 Seite 24 in [RN95]
57 5.3. REPRÄSENTATION VON DOKUMENTEN endlich auf der Idee, die Dokumente jeweils als multidimensionale Vektoren darzustellen. Definition: Eine Dimension des Vektors wird Feature genannt. Denn jede Dimension beschreibt eine Eigenschaft des Dokuments auf eine zunächst nicht näher spezifizierte Weise. Definition: Im Vektorraummodell repräsentiert der Vektor v ein Dokument d aus der Menge aller Dokumente D auf der Basis von n ausgewählten Features wie folgt: 5.3.1. Einordnung in Situation des ISL v(d) = {f1, . . . , fn} , d ∈ D (5.1) � �� nfeatures Im Falle des ISL existiert eine manuell angelegte Klassifikation auf der Basis eines multihierarchischen Thesaurus sowie einer groben Einteilung in Sachge- biete. Dokumente werden klassifiziert, indem sie eine Kombination an Begriffen aus dem Thesaurus sowie ein Sachgebiet zugewiesen bekommen. Eine Klasse definiert sich also durch die Kombination aus Begriffen sowie aus dem Sachge- biet. Um dies formell darzustellen sei nun K die Menge aller Klassen, S die Menge aller Sachgebiete, D die Menge aller Dokumente und T die Menge aller Terme. Dann lässt sich eine Funktion desc definieren, die beschreibt, welche Begriffe aus T einem Dokument D zugeordnet werden. Und mit der Hilfe von desc lässt sich die Menge K wie folgt definieren. P(T ) = {X|X ⊆ T } desc : D → P(T ) K = {(X, s)|s ∈ S, X ∈ P(T ) ∧ ∃d ∈ D, desc(d) = X} (5.2) Die folgenden Abschnitte verwenden die hier eingeführten Bezeichnungen S, T, D und K für die jeweilige dargestellte Problematik. 5.3.2. Das Dokument als Wortsack (aka word-bag) Ein Text besteht aus der Menge seiner Worte. Auch wenn diese Erkenntnis zunächst äußerst naiv klingt, so ist selbst daraus eine einfachste Repräsenta- tion eines Dokuments möglich. In diesem einfachsten Falle ist jedem Wort ein
Seite 1:
auth+xml+doc=sxdoc gpg Konzeption u
Seite 4 und 5:
Inhaltsverzeichnis iv II. Definitio
Seite 6 und 7:
Inhaltsverzeichnis vi
Seite 8 und 9:
Tabellenverzeichnis viii
Seite 10 und 11:
Abbildungsverzeichnis x 7.1. Wort H
Seite 13 und 14:
1. Überblick über Inhalt und Proz
Seite 15 und 16: 5 1.3. ENTWICKLUNGSUMGEBUNG Kunde A
Seite 17 und 18: 7 1.3. ENTWICKLUNGSUMGEBUNG zu kön
Seite 19 und 20: 2. Business Analyse 2.1. Ausgangssi
Seite 21 und 22: 11 2.3. HERAUSFORDERUNGEN boten wer
Seite 23 und 24: 13 2.3. HERAUSFORDERUNGEN zesse von
Seite 25 und 26: 3. Marktanalyse 3.1. Kriterien Ausw
Seite 27 und 28: 17 3.2. KONKURRENTEN Die Ergebnisse
Seite 29 und 30: 19 3.2. KONKURRENTEN schulen zahlen
Seite 31 und 32: 21 3.2. KONKURRENTEN lungen, inform
Seite 33 und 34: 23 3.3. WISSENSCHAFTLICHE ANGEBOTE
Seite 39 und 40: 29 3.4. TECHNISCH RELEVANTES 3.4) f
Seite 41 und 42: 31 3.4. TECHNISCH RELEVANTES gestel
Seite 43: Teil II. Definition
Seite 46 und 47: 4.1. IST-ANALYSE 36 id Component Mo
Seite 48 und 49: 4.1. IST-ANALYSE 38 Thesaurus aktua
Seite 50 und 51: 4.1. IST-ANALYSE 40 Bezeichner Typ
Seite 52 und 53: 4.1. IST-ANALYSE 42 4.1.4. Einschr
Seite 54 und 55: 4.2. PROTOTYP 44 Abbildung 4.5.: Re
Seite 56 und 57: 4.2. PROTOTYP 46 nächstes Dokument
Seite 58 und 59: 4.2. PROTOTYP 48 parent Writes all
Seite 60 und 61: 4.2. PROTOTYP 50
Seite 62 und 63: 5.1. INFORMATION RETRIEVAL 52 versi
Seite 64 und 65: We now leave the speculations about
Seite 68 und 69: 5.3. REPRÄSENTATION VON DOKUMENTEN
Seite 76 und 77: 5.4. CLUSTERING 66 5.4. Clustering
Seite 78 und 79: 5.4. CLUSTERING 68 w j h w j+1 h =
Seite 81 und 82: 6. Statisches Modell Das System war
Seite 83 und 84: 73 6.2. DATA ACCESS OBJECTS Seriali
Seite 85 und 86: 75 6.3. DATA ACCESS COMMANDS änder
Seite 87 und 88: 77 6.3. DATA ACCESS COMMANDS Dao rf
Seite 89 und 90: 79 6.3. DATA ACCESS COMMANDS FetchT
Seite 91 und 92: 81 6.3. DATA ACCESS COMMANDS Cluste
Seite 93 und 94: 7. Dynamisches Modell Ohne im Klass
Seite 95 und 96: 85 7.2. TERM-DOKUMENT-MATRIX ERSTEL
Seite 97 und 98: auf Wortstämme reduzieren Stopp- W
Seite 99 und 100: Roh-Matrix anlegen Term-Frequenz-Ma
Seite 101 und 102: 91 7.5. CLUSTER BENENNUNG UND MATRI
Seite 103 und 104: 8. Verwendung des Programms 8.1. In
Seite 105 und 106: 95 8.2. BENUTZEROBERFLÄCHE Abbildu
Seite 107 und 108: 97 8.3. KONFIGURATION vielen Kompon
Seite 109: Teil IV. Abschluss
Seite 112 und 113: 9.1. TECHNISCHE PERSPEKTIVE 102 Abs
Seite 114 und 115: 9.1. TECHNISCHE PERSPEKTIVE 104 Sch
Seite 116 und 117:
9.2. FACHLICHE PERSPEKTIVE 106 Die
Seite 118 und 119:
9.2. FACHLICHE PERSPEKTIVE 108 eine
Seite 120 und 121:
9.3. FAZIT 110 einbinden lässt, we
Seite 122 und 123:
112 tenmodellen umgehen kann. Sie p
Seite 124 und 125:
114
Seite 126 und 127:
Literaturverzeichnis 116 [BI04] Bar
Seite 128 und 129:
Literaturverzeichnis 118 ISBN 0-897
Seite 130 und 131:
Literaturverzeichnis 120 München/D
Seite 132 und 133:
Literaturverzeichnis 122
Seite 134 und 135:
Index 124 Feature, 46, 49, 57, 58,
Seite 136:
Index 126 Vlog, 109 Volltext, 11, 2
Alle anzeigen

Konzeption und Implementierung eines ... - Stephan, Daniel

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?