Konzeption und Implementierung eines ... - Stephan, Daniel

Empfehlungen

Info

7.2. TERM-DOKUMENT-MATRIX ERSTELLEN 86 on ebenso wie ion Suffixe des Wortes Information. Somit gibt es für das Wort Information genau elf unterschiedliche Suffixe, eins für jeden Buchstaben. Wie von Zhang et al. dargestellt, werden zwei Suffix-Arrays benötigt - eines normal von links nach rechts (Information, nformation, formation, . . . ), und eines genau umgekehrt von rechts nach links (Information, Informatio, Informati, . . . ; dieses könnte wohl passender Prefix-Array genannt werden). Beide Arrays werden sortiert (das Suffix-Array normal und das Prefix-Array umgekehrt von rechts nach links), so dass die mehrfachen Vorkommen gleicher Wortfolgen in der durch die Sortierung hergestellten Ordnung direkt nacheinander stehen und somit leicht erkannt werden. Der PhraseDetector und der SentenceDetector sind jeweils Producer. Ein Producer erzeugt Objekte, in diesen Fällen eben Phrase oder SentencesAndPhrases Objekte. Die verschiedenen Producer sind zusammen mit dem Tokenizer in Reihe geschaltet. Dieser steht am Anfang der Ket- te und bildet die Schnittstelle zum Lexer. Er ermöglicht es, über die er- kannten Token eines Dokumentes zu iterieren und implementiert dazu die Iterator und Iterable Interfaces. Diese gehören zum Standardumfang der Java-Klassenbibliothek und stellen somit die übliche Art und Weise dar, wie in Java über Datenmengen iteriert wird. Der SentenceProducer nutzt den Tokenizer, um über die Token zu iterieren, und erzeugt eine Reihe von Sentence Objekten. Der PhraseDetector, nach Tokenizer und SentenceDetector das Dritte Objekt in der Kette, ruft die Sentences vom SentenceDetector ab, indem er dessen produce() Methode mehrfach aufruft. Nach diesem Vorgang werden die gesammelten Token mit dem Snowball- Stemmer 1 auf ihre Stammform zurückgeführt. Dadurch werden beispielsweise die ähnlichen Worte ” laufen“ und ” läuft“ auf die gleiche Buchstabenfolge re- duziert, so dass sie in der später aufgebauten Tabelle dieselbe Stelle besetzen. Dieses ist ein übliches Vorgehen bei solchen und ähnlichen Textklassifizierungs- aufgaben. Damit die ursprünglichen Begriffe nicht verloren gehen, wird ein Ver- zeichnis angelegt, das für jedes ” gestemte“ Wort die dazugehörigen ursprüngli- chen Begriffe enthält. Dieses wird später für die Benennung wichtig. Danach wiederum werden die Token mit einer Liste von Stoppworten (sie- he Abschnitt 7.1) verglichen. Alle Token, die in dieser Liste wiedergefunden werden, werden an dieser Stelle fallen gelassen und tauchen somit in späteren 1 WWW Adresse: http://snowball.tartarus.org
auf Wortstämme reduzieren Stopp- Worte entfernen 87 7.3. MATRIX BERECHNUNGEN Roh-Matrix anlegen Analysen nicht auf. DONE Dokument Vektoren aus den LSI Ergebnissen selektieren Wortgruppen erkennen Term-Frequenz-Matrix aufbauen mittels TF-IDF gewichten Cluster erkennen EM Clustering anwenden LSI anwenden Abbildung 7.3.: Ablauf Matrix Berechnung Es bleiben also für das jeweilige betrachtete Dokument eine Menge von Token übrig, sowie möglicherweise die ein oder andere Phrase. Sowohl Token als auch Phrase nehmen die Stelle von Features ein, wie sie in Abschnitt 5.3 (Seite 56), eingeführt wurden. Token und Phrasen werden nun gleich behandelt und eins Cluster benennen nach dem anderen in eine Matrix einsortiert, die dynamisch wächst. Bei jedem neuen Feature (Token oder Phrase) wird eine Zeile hinzugefügt, während bei jedem neuen Dokument eine neue Spalte hinzugefügt wird. War ein Feature für das jeweilige Dokument bereits in der Matrix registriert, wird nur dessen Zähler um eins erhöht. Auf diese Weise enthält die Matrix nach dem Durchlauf des Algorithmus alle Häufigkeiten des Auftretens der jeweiligen Features in den jeweiligen Dokumenten. 7.3. Matrix Berechnungen Der letzte Schritt des vorherigen Abschnittes, also das Sammeln und zählen der Terme und Phrasen eines Dokumentes, geht nahtlos in den ersten Schritt dieses Abschnittes über. Alle Terme werden direkt in eine dynamisch wachsende zweidimensionale Matrix einsortiert, so dass die Werte in den Zellen jeweils die Häufigkeit des Auftretens eines bestimmten Terms in einem bestimmten Dokument darstellen. Hier muss man bedenken, dass die Matrix generell extrem spärlich besetzt ist. Der größte Teil der Zellen beinhaltet den Wert 0. Das leuchtet ein, wenn man sich vor Augen führt, dass für jeden möglichen Term eine Zeile in der Matrix existieren muss, ebenso wie für jedes mögliche Dokument eine eigene Spalte vorhanden sein muss und dass jedes Dokument nur aus kurzen Zusammen- fassungen besteht. Dadurch werden nur eine vergleichsweise geringe Menge an unterschiedichen Begriffen in den jeweiligen Dokumenten verwendet. Es ist zum
Seite 1:
auth+xml+doc=sxdoc gpg Konzeption u
Seite 4 und 5:
Inhaltsverzeichnis iv II. Definitio
Seite 6 und 7:
Inhaltsverzeichnis vi
Seite 8 und 9:
Tabellenverzeichnis viii
Seite 10 und 11:
Abbildungsverzeichnis x 7.1. Wort H
Seite 13 und 14:
1. Überblick über Inhalt und Proz
Seite 15 und 16:
5 1.3. ENTWICKLUNGSUMGEBUNG Kunde A
Seite 17 und 18:
7 1.3. ENTWICKLUNGSUMGEBUNG zu kön
Seite 19 und 20:
2. Business Analyse 2.1. Ausgangssi
Seite 21 und 22:
11 2.3. HERAUSFORDERUNGEN boten wer
Seite 23 und 24:
13 2.3. HERAUSFORDERUNGEN zesse von
Seite 25 und 26:
3. Marktanalyse 3.1. Kriterien Ausw
Seite 27 und 28:
17 3.2. KONKURRENTEN Die Ergebnisse
Seite 29 und 30:
19 3.2. KONKURRENTEN schulen zahlen
Seite 31 und 32:
21 3.2. KONKURRENTEN lungen, inform
Seite 33 und 34:
23 3.3. WISSENSCHAFTLICHE ANGEBOTE
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
29 3.4. TECHNISCH RELEVANTES 3.4) f
Seite 41 und 42:
31 3.4. TECHNISCH RELEVANTES gestel
Seite 43:
Teil II. Definition
Seite 46 und 47: 4.1. IST-ANALYSE 36 id Component Mo
Seite 48 und 49: 4.1. IST-ANALYSE 38 Thesaurus aktua
Seite 50 und 51: 4.1. IST-ANALYSE 40 Bezeichner Typ
Seite 52 und 53: 4.1. IST-ANALYSE 42 4.1.4. Einschr
Seite 54 und 55: 4.2. PROTOTYP 44 Abbildung 4.5.: Re
Seite 56 und 57: 4.2. PROTOTYP 46 nächstes Dokument
Seite 58 und 59: 4.2. PROTOTYP 48 parent Writes all
Seite 60 und 61: 4.2. PROTOTYP 50
Seite 62 und 63: 5.1. INFORMATION RETRIEVAL 52 versi
Seite 64 und 65: We now leave the speculations about
Seite 66 und 67: 5.3. REPRÄSENTATION VON DOKUMENTEN
Seite 76 und 77: 5.4. CLUSTERING 66 5.4. Clustering
Seite 78 und 79: 5.4. CLUSTERING 68 w j h w j+1 h =
Seite 81 und 82: 6. Statisches Modell Das System war
Seite 83 und 84: 73 6.2. DATA ACCESS OBJECTS Seriali
Seite 85 und 86: 75 6.3. DATA ACCESS COMMANDS änder
Seite 87 und 88: 77 6.3. DATA ACCESS COMMANDS Dao rf
Seite 89 und 90: 79 6.3. DATA ACCESS COMMANDS FetchT
Seite 91 und 92: 81 6.3. DATA ACCESS COMMANDS Cluste
Seite 93 und 94: 7. Dynamisches Modell Ohne im Klass
Seite 95: 85 7.2. TERM-DOKUMENT-MATRIX ERSTEL
Seite 99 und 100: Roh-Matrix anlegen Term-Frequenz-Ma
Seite 101 und 102: 91 7.5. CLUSTER BENENNUNG UND MATRI
Seite 103 und 104: 8. Verwendung des Programms 8.1. In
Seite 105 und 106: 95 8.2. BENUTZEROBERFLÄCHE Abbildu
Seite 107 und 108: 97 8.3. KONFIGURATION vielen Kompon
Seite 109: Teil IV. Abschluss
Seite 112 und 113: 9.1. TECHNISCHE PERSPEKTIVE 102 Abs
Seite 114 und 115: 9.1. TECHNISCHE PERSPEKTIVE 104 Sch
Seite 116 und 117: 9.2. FACHLICHE PERSPEKTIVE 106 Die
Seite 118 und 119: 9.2. FACHLICHE PERSPEKTIVE 108 eine
Seite 120 und 121: 9.3. FAZIT 110 einbinden lässt, we
Seite 122 und 123: 112 tenmodellen umgehen kann. Sie p
Seite 124 und 125: 114
Seite 126 und 127: Literaturverzeichnis 116 [BI04] Bar
Seite 128 und 129: Literaturverzeichnis 118 ISBN 0-897
Seite 130 und 131: Literaturverzeichnis 120 München/D
Seite 132 und 133: Literaturverzeichnis 122
Seite 134 und 135: Index 124 Feature, 46, 49, 57, 58,
Seite 136: Index 126 Vlog, 109 Volltext, 11, 2
Alle anzeigen

Konzeption und Implementierung eines ... - Stephan, Daniel

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?