Konzeption und Implementierung eines ... - Stephan, Daniel

Empfehlungen

Info

7.3. MATRIX BERECHNUNGEN 88 Beispiel nicht ungewöhnlich, 10.000 verschiedene Begriffe verwalten zu müssen, während in den einzelnen Texten vielleicht nur jeweils 100 Worte vorkommen, von denen sich sogar einige wiederholen. 9.900 Zellen wären bei dieser Annahme auf 0, und das pro Dokument. Rechnet man die Dokumente des ISL (>80.000) auf die zu erwartende Größe der Matrix um, so bekommt man bei 20.000 Begriffen und 80.000 Dokumenten, sowie 8 Bytes pro Zelle (es werden double Werte gespeichert, um die Häufig- keitswerte mit double Gewichten multiplizieren zu können, so dass das Ergebnis eine gewisse Genauigkeit behält) eine Datenmenge von 12.800.000.000 Bytes. Diese Zahl sollte Motivation genug sein, die Größe zu beschränken. Die Ma- trix wird deshalb in einer Baumstruktur abgelegt, die der von Javas TreeMap entspricht. (Dessen Source wurde kopiert und leicht angepasst, sie wurde auf die Datentypen long als Schlüssel und double als Wert beschränkt und opti- miert.) Die TreeMap verwendet einen sogenannten Rot-Schwarz-Baum, dessen Laufzeitcharakteristik für die wesentlichen Operationen O(log(n)) entspricht. Sie legt die Daten so unter Schlüsselwerten ab, dass sie nach deren natürlicher Ordnung sortiert sind. Der Schlüssel repräsentiert die Koordinate der Matrix, dessen Werte gespeichert werden sollen. Er wird aus Zeilenindex + X * Spalten- index berechnet und ist somit bis zu einer Menge von X Dokumenten eindeutig bestimmt (die Dokumente entsprechen den Spalten). Das X darf mit dem maxi- malen Spaltenindex multipliziert nicht über den Wertebereich von long hinaus. Also muss X auf jeden Fall ein positiver Integer sein. Das dürfte jedoch kaum eine echte Einschränkung darstellen, schließlich ergibt das eine maximale Spalten und Zeilenzahl von jeweils 2 hoch 31. Nachdem diese Matrix fertig aufgebaut ist, wird sie durchlaufen und die ver- zeichneten Werte jeweils mit Gewichten (TF-IDF, siehe Abschnitt 5.3.3 (Seite 59)) multipliziert. Danach wiederum wird sie im Harwell-Boeing Format [DGL89] auf Platte abgelegt, denn die integrierte LSI-Komponente GTP 2 benötigt eine Datei in diesem Format als Eingabe. GTP liest daraufhin die Matrix ein und führt einen SVD Algorithmus aus, der drei Matrizen ergibt, die wie in Abschnitt 5.3.4 (Seite 62) beschrieben zusammen die Ursprungsmatrix approximieren. Die Ergebnisse schreibt GTP wiederum in eine Datei, die nun umgekehrt wieder eingelesen werden muss. Die Ergebnisse landen in einem dafür erstellten Objekt namens SvdResult, dieses Objekt implementiert die nötigen Funktionen, wie Begriffe 2 WWW Adresse: http://www.cs.utk.edu/ ∼ lsi/
Roh-Matrix anlegen Term-Frequenz-Matrix aufbauen mittels TF-IDF gewichten LSI anwenden 89 7.4. CLUSTER ANALYSE DONE Dokument Vektoren aus den LSI Ergebnissen selektieren Cluster erkennen EM Clustering anwenden Abbildung 7.4.: Ablauf Cluster Analyse Cluster benennen untereinander verglichen werden, Dokumente untereinander verglichen werden und wie neue Dokumente in den Vektor-Raum ” eingefaltet“ werden, damit sie vergleichbar sind. Die Formeln dazu stehen in Abschnitt 5.3.4. 7.4. Cluster Analyse Aus den Ergebnissen werden die Dokumentvektoren extrahiert und an den Clu- stering Algorithmus übergeben. Danach werden Namen vergeben. Für die Algorithmen, die im Zusammenhang mit dem Clustering nötig waren, wurde das Strategy-Pattern ([GHJV96]) verwendet. Jeder wichti- ge Algorithmus, sei es für die Zuweisung von Dokumenten zu Clustern (ClusterAssignmentStrategy) oder für das Durchführen des Clustering Algo- rithmus (ClusterStrategy) wird mit einer Schnittstelle ausgestattet, die ihn von dem Code, der ihn benutzt, entkoppelt. Dadurch ist es möglich, die verwen- dete Implementation flexibel auszutauschen. Im Diagramm sind beispielsweise zwei ClusterStrategy-Implementationen aufgeführt. Welche davon zur An- wendung kommt, entscheidet sich sobald der ClusterContext erzeugt und mit einer spezifischen Implementation initialisiert wurde. Die EMClusterStrategy Klasse implementiert der Einfachheit halber gleich zwei Schnittstellen und verhält sich als ihr eigenes Ergebnis-Objekt. Durch diese Aufteilung der Schnittstellen ist es möglich, dass der Algorithmus nach der Arbeit ein anderes Objekt erzeugt und dieses als Ergebnis zurückliefert. Es mag, je nach Arbeitsweise des Algorithmus, sinnvoll sein, dies zu tun. In diesem Falle ging es auch so und auf eine Extra-Klasse für die Ergebnisse konnte verzichtet
Seite 1:
auth+xml+doc=sxdoc gpg Konzeption u
Seite 4 und 5:
Inhaltsverzeichnis iv II. Definitio
Seite 6 und 7:
Inhaltsverzeichnis vi
Seite 8 und 9:
Tabellenverzeichnis viii
Seite 10 und 11:
Abbildungsverzeichnis x 7.1. Wort H
Seite 13 und 14:
1. Überblick über Inhalt und Proz
Seite 15 und 16:
5 1.3. ENTWICKLUNGSUMGEBUNG Kunde A
Seite 17 und 18:
7 1.3. ENTWICKLUNGSUMGEBUNG zu kön
Seite 19 und 20:
2. Business Analyse 2.1. Ausgangssi
Seite 21 und 22:
11 2.3. HERAUSFORDERUNGEN boten wer
Seite 23 und 24:
13 2.3. HERAUSFORDERUNGEN zesse von
Seite 25 und 26:
3. Marktanalyse 3.1. Kriterien Ausw
Seite 27 und 28:
17 3.2. KONKURRENTEN Die Ergebnisse
Seite 29 und 30:
19 3.2. KONKURRENTEN schulen zahlen
Seite 31 und 32:
21 3.2. KONKURRENTEN lungen, inform
Seite 33 und 34:
23 3.3. WISSENSCHAFTLICHE ANGEBOTE
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
29 3.4. TECHNISCH RELEVANTES 3.4) f
Seite 41 und 42:
31 3.4. TECHNISCH RELEVANTES gestel
Seite 43:
Teil II. Definition
Seite 46 und 47:
4.1. IST-ANALYSE 36 id Component Mo
Seite 48 und 49: 4.1. IST-ANALYSE 38 Thesaurus aktua
Seite 50 und 51: 4.1. IST-ANALYSE 40 Bezeichner Typ
Seite 52 und 53: 4.1. IST-ANALYSE 42 4.1.4. Einschr
Seite 54 und 55: 4.2. PROTOTYP 44 Abbildung 4.5.: Re
Seite 56 und 57: 4.2. PROTOTYP 46 nächstes Dokument
Seite 58 und 59: 4.2. PROTOTYP 48 parent Writes all
Seite 60 und 61: 4.2. PROTOTYP 50
Seite 62 und 63: 5.1. INFORMATION RETRIEVAL 52 versi
Seite 64 und 65: We now leave the speculations about
Seite 66 und 67: 5.3. REPRÄSENTATION VON DOKUMENTEN
Seite 76 und 77: 5.4. CLUSTERING 66 5.4. Clustering
Seite 78 und 79: 5.4. CLUSTERING 68 w j h w j+1 h =
Seite 81 und 82: 6. Statisches Modell Das System war
Seite 83 und 84: 73 6.2. DATA ACCESS OBJECTS Seriali
Seite 85 und 86: 75 6.3. DATA ACCESS COMMANDS änder
Seite 87 und 88: 77 6.3. DATA ACCESS COMMANDS Dao rf
Seite 89 und 90: 79 6.3. DATA ACCESS COMMANDS FetchT
Seite 91 und 92: 81 6.3. DATA ACCESS COMMANDS Cluste
Seite 93 und 94: 7. Dynamisches Modell Ohne im Klass
Seite 95 und 96: 85 7.2. TERM-DOKUMENT-MATRIX ERSTEL
Seite 97: auf Wortstämme reduzieren Stopp- W
Seite 101 und 102: 91 7.5. CLUSTER BENENNUNG UND MATRI
Seite 103 und 104: 8. Verwendung des Programms 8.1. In
Seite 105 und 106: 95 8.2. BENUTZEROBERFLÄCHE Abbildu
Seite 107 und 108: 97 8.3. KONFIGURATION vielen Kompon
Seite 109: Teil IV. Abschluss
Seite 112 und 113: 9.1. TECHNISCHE PERSPEKTIVE 102 Abs
Seite 114 und 115: 9.1. TECHNISCHE PERSPEKTIVE 104 Sch
Seite 116 und 117: 9.2. FACHLICHE PERSPEKTIVE 106 Die
Seite 118 und 119: 9.2. FACHLICHE PERSPEKTIVE 108 eine
Seite 120 und 121: 9.3. FAZIT 110 einbinden lässt, we
Seite 122 und 123: 112 tenmodellen umgehen kann. Sie p
Seite 124 und 125: 114
Seite 126 und 127: Literaturverzeichnis 116 [BI04] Bar
Seite 128 und 129: Literaturverzeichnis 118 ISBN 0-897
Seite 130 und 131: Literaturverzeichnis 120 München/D
Seite 132 und 133: Literaturverzeichnis 122
Seite 134 und 135: Index 124 Feature, 46, 49, 57, 58,
Seite 136: Index 126 Vlog, 109 Volltext, 11, 2
Alle anzeigen

Konzeption und Implementierung eines ... - Stephan, Daniel

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?