Konzeption und Implementierung eines ... - Stephan, Daniel

Empfehlungen

Info

5.4. CLUSTERING 66 5.4. Clustering Nehmen wir nun an, dass mit den obigen Techniken Feature-Vektoren für die Dokumente so angelegt wurden, dass nur wirklich aussagekräftige Begriffe für die weitere Verarbeitung verwendet werden. Dann sollen hier Algorithmen vor- gestellt werden, die diese Vektoren zu Clustern zusammenfassen. Allgemein las- sen sich Clustering Algorithmen darin unterscheiden, dass einige eine hierarchi- sche Cluster-Struktur erzeugen, andere jedoch nicht (zum Beispiel K-means). Zudem gibt es unterschiedliche Freiheitsgrade bei der Definition dieser Struktur. Die einfacheren Algorithmen verlangen mindestens eine vorab festgelegte Zahl von Clustern. Andere verwenden Thresholds als Maß, um während des Ablaufs Entscheidungen darüber zu treffen, ob neue Cluster hinzugefügt werden müssen und somit die Anzahl zu erhöhen ist oder nicht. Angenommen, es existiert eine Reihe von Klassen, denen Dokumente zugeordnet werden können. Dann folgt es dem intuitiven Verständnis einer Klassifi- kation, dass ein Dokument durchaus mehreren Klassen zugeordnet werden kann. Beispielsweise kann ein Dokument sowohl der Klasse Güterverkehr als auch der Klasse Containertransport zugeordnet sein, da es inhaltlich beide Themen an- spricht. Um noch einen Schritt weiterzugehen, ist es ebenso wahrscheinlich, dass das Dokument beide Themen zu einem jeweils unterschiedlichen Grad betrach- tet. Modell-basierte Clustering Ansätze gehen nun davon aus, dass Modelle existieren, die die Zuordnung eines Dokuments zu einer Klasse beschreiben. Es sind verschiedene Modelle denkbar, am verbreitetsten scheinen jedoch Gaußsche Ver- teilungen 3 zu sein. Diese nennt man auch Normalverteilungen. Charakteristisch für sie ist, dass sie durch eine Reihe voneinander unabhängiger Einflüsse ent- stehen. Beispielsweise sind Messfehler in der Regel normalverteilt. Eine Reihe gleichartiger Messungen wird jedes Mal einen ähnlichen Wert ergeben, der jedoch vom wahren Wert wegen zufälliger Messungenauigkeiten abweicht, wobei jede Messung von der vorherigen unabhängig ist. Die durchschnittliche Ab- weichung wird Varianz genannt. Eine Normalverteilung wird somit durch ihre Parameter µ (Erwartungswert) und σ (Varianz) näher definiert und auch als N(µ,σ)-Verteilung bezeichnet. Zudem ist zu jeder Normalverteilung eine soge- nannte Wahrscheinlichkeitsdichte ϕ wie folgt definiert. 3 Seite 393 in [DP88]
67 5.4. CLUSTERING ϕ(x; µ; σ) = 1 (x−µ)2 − √ e 2σ 2πσ 2 , −∞ < x < ∞ (5.16) Jedem Cluster entspricht eine solche Verteilung und eine dazugehörige Dich- te. Da ein Dokument zu unterschiedlichen Graden unterschiedlichen Clustern angehören kann, muss für jedes Dokument eine Mischfunktion der unterschiedlichen Wahrscheinlichkeitsdichten existieren, die die verschiedenen Cluster mit unterschiedlicher Gewichtung w zusammengeführt werden. Diese ist, wie von Bradley et al.[BFR99] erläutert, für ein Dokument x über alle k Cluster mit Index h wie folgt definiert. p(x) = k� wh · fh(x|µh, σh) (5.17) h=1 Die Gewichte w ergeben aufsummiert 1 und entsprechen dem Anteil an Do- kumenten, die in Cluster h gehören. Die Funktion f dagegen ist die Wahrschein- lichkeitsdichtefunktion für die Verteilung beliebiger Dokumente x in Bezug auf den Cluster h, parametrisiert mit der nötigen Erwartung und Varianz. Der Algorithmus schätzt diese Formel ab, indem er ihre Parameter (beste- hend aus den Gewichten, Erwartungen und Varianzen) mit Hilfe des Maximum Likelihood Verfahrens derart wählt, dass die resultierende Likelihood-Funktion maximal ist. Die Likelihood-Funktion wird über den kompletten Dokumenten- Raum aufgestellt und stellt die Qualität ( ” how well the corresponding mixture model fits the data“ 4 ) der geschätzten Parameter dar. Hier die Formel, bei der Φ für die Menge aller Parameter steht: L(Φ) = � � k� � log wh · fh(x|µh, σh) x∈D h=1 (5.18) Der Ablauf besteht im Wesentlichen aus zwei Schritten[LGXZ02] [BFR99], die sich bis zum Erreichen eines Stop-Kriteriums abwechseln und somit iterativ die Lösung optimieren. Der erste Schritt wird häufig als E-Schritt (Gleichung 5.19) bezeichnet, während der Zweite (Gleichung 5.20) dann den M-Schritt dar- stellt. Während des ersten Schrittes werden die Wahrscheinlichkeiten berechnet, nach der sich Dokument x in Cluster h aufhält. Der zweite Schritt optimiert die Parameter mit Hilfe der Ergebnisse des ersten Schritts. 4 Seite 7 in [BFR99]
Seite 1:
auth+xml+doc=sxdoc gpg Konzeption u
Seite 4 und 5:
Inhaltsverzeichnis iv II. Definitio
Seite 6 und 7:
Inhaltsverzeichnis vi
Seite 8 und 9:
Tabellenverzeichnis viii
Seite 10 und 11:
Abbildungsverzeichnis x 7.1. Wort H
Seite 13 und 14:
1. Überblick über Inhalt und Proz
Seite 15 und 16:
5 1.3. ENTWICKLUNGSUMGEBUNG Kunde A
Seite 17 und 18:
7 1.3. ENTWICKLUNGSUMGEBUNG zu kön
Seite 19 und 20:
2. Business Analyse 2.1. Ausgangssi
Seite 21 und 22:
11 2.3. HERAUSFORDERUNGEN boten wer
Seite 23 und 24:
13 2.3. HERAUSFORDERUNGEN zesse von
Seite 25 und 26: 3. Marktanalyse 3.1. Kriterien Ausw
Seite 27 und 28: 17 3.2. KONKURRENTEN Die Ergebnisse
Seite 29 und 30: 19 3.2. KONKURRENTEN schulen zahlen
Seite 31 und 32: 21 3.2. KONKURRENTEN lungen, inform
Seite 33 und 34: 23 3.3. WISSENSCHAFTLICHE ANGEBOTE
Seite 39 und 40: 29 3.4. TECHNISCH RELEVANTES 3.4) f
Seite 41 und 42: 31 3.4. TECHNISCH RELEVANTES gestel
Seite 43: Teil II. Definition
Seite 46 und 47: 4.1. IST-ANALYSE 36 id Component Mo
Seite 48 und 49: 4.1. IST-ANALYSE 38 Thesaurus aktua
Seite 50 und 51: 4.1. IST-ANALYSE 40 Bezeichner Typ
Seite 52 und 53: 4.1. IST-ANALYSE 42 4.1.4. Einschr
Seite 54 und 55: 4.2. PROTOTYP 44 Abbildung 4.5.: Re
Seite 56 und 57: 4.2. PROTOTYP 46 nächstes Dokument
Seite 58 und 59: 4.2. PROTOTYP 48 parent Writes all
Seite 60 und 61: 4.2. PROTOTYP 50
Seite 62 und 63: 5.1. INFORMATION RETRIEVAL 52 versi
Seite 64 und 65: We now leave the speculations about
Seite 66 und 67: 5.3. REPRÄSENTATION VON DOKUMENTEN
Seite 78 und 79: 5.4. CLUSTERING 68 w j h w j+1 h =
Seite 81 und 82: 6. Statisches Modell Das System war
Seite 83 und 84: 73 6.2. DATA ACCESS OBJECTS Seriali
Seite 85 und 86: 75 6.3. DATA ACCESS COMMANDS änder
Seite 87 und 88: 77 6.3. DATA ACCESS COMMANDS Dao rf
Seite 89 und 90: 79 6.3. DATA ACCESS COMMANDS FetchT
Seite 91 und 92: 81 6.3. DATA ACCESS COMMANDS Cluste
Seite 93 und 94: 7. Dynamisches Modell Ohne im Klass
Seite 95 und 96: 85 7.2. TERM-DOKUMENT-MATRIX ERSTEL
Seite 97 und 98: auf Wortstämme reduzieren Stopp- W
Seite 99 und 100: Roh-Matrix anlegen Term-Frequenz-Ma
Seite 101 und 102: 91 7.5. CLUSTER BENENNUNG UND MATRI
Seite 103 und 104: 8. Verwendung des Programms 8.1. In
Seite 105 und 106: 95 8.2. BENUTZEROBERFLÄCHE Abbildu
Seite 107 und 108: 97 8.3. KONFIGURATION vielen Kompon
Seite 109: Teil IV. Abschluss
Seite 112 und 113: 9.1. TECHNISCHE PERSPEKTIVE 102 Abs
Seite 114 und 115: 9.1. TECHNISCHE PERSPEKTIVE 104 Sch
Seite 116 und 117: 9.2. FACHLICHE PERSPEKTIVE 106 Die
Seite 118 und 119: 9.2. FACHLICHE PERSPEKTIVE 108 eine
Seite 120 und 121: 9.3. FAZIT 110 einbinden lässt, we
Seite 122 und 123: 112 tenmodellen umgehen kann. Sie p
Seite 124 und 125: 114
Seite 126 und 127:
Literaturverzeichnis 116 [BI04] Bar
Seite 128 und 129:
Literaturverzeichnis 118 ISBN 0-897
Seite 130 und 131:
Literaturverzeichnis 120 München/D
Seite 132 und 133:
Literaturverzeichnis 122
Seite 134 und 135:
Index 124 Feature, 46, 49, 57, 58,
Seite 136:
Index 126 Vlog, 109 Volltext, 11, 2
Alle anzeigen

Konzeption und Implementierung eines ... - Stephan, Daniel

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?