Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Weitere Magazine

Empfehlungen

Info

3.5 Vorgehensweise 3 Das Verfahren Das hier vorgestellte Verfahren gruppiert automatisch Begriffe nach ihrer semantischen Ähnlichkeit (»semantisches Clustering«). Dazu wird wie folgt vorgegangen: Als Eingabe erhält das Verfahren eine Liste von Begriffen und die Anzahl an Gruppen, die gebildet werden sollen. Im ersten Schritt werden die Einzelhäufigkeiten und Kookkurrenzhäufigkeiten der eingegebenen Begriffe abgefragt. Dies geschieht durch Suchanfragen an die Webressource. Die daraufhin gelieferten Trefferangaben bilden die Häufigkeiten. Nach dem Durchlaufen aller Kombinationen von Begriffspaaren, ergibt sich eine Begriff-Begriff- Kookkurrenzmatrix mit den jeweiligen Kookkurrenzhäufigkeiten. b1 b2 ... bn b1 cooc(b2,b1) ... cooc(bn,b1) b2 cooc(b1,b2) ... cooc(bn,b2) Kookkurrenzmatrix ... ... ... ... bn cooc(b1,bn) cooc(b2,bn) ... Assoziationsmaß b1 b2 ... bn b1 sig(b2,b1) ... sig(bn,b1) b2 sig(b1,b2) ... sig(bn,b2) Assoziationsmatrix ... ... ... ... bn sig(b1,bn) sig(b2,bn) Abbildung 3.2: Berechnung der Assoziationsmatrix auf Grundlage der Kookkurrenzmatrix Aus der Kookkurrenzmatrix Matrix wird nun die Begriff-Begriff-Assoziationsmatrix berechnet (siehe Abb. 3.2), wobei die Einträge der Matrix die Assoziationsstärken zwischen den Begriffen darstellen. Bei der Berechnung werden die Häufigkeiten durch ein Assoziationsmaß in eine Assoziationsstärke umgerechnet. Nachdem alle Assoziationsstärken berechnet wurden, werden die Einträge der Assoziationsmatrix entsprechend der Formel 3.2 normalisiert. b1 b2 ... bn b1 sig(b2,b1) ... sig(bn,b1) b2 sig(b1,b2) ... sig(bn,b2) Assoziationsmatrix ... ... ... ... bn sig(b1,bn) sig(b2,bn) ... Ähnlichkeitsmaß b1 b2 ... bn b1 sim(b2,b1) ... sim(bn,b1) b2 sim(b1,b2) ... sim(bn,b2) Ähnlichkeitsmatrix ... ... ... ... ... bn sim(b1,bn) sim(b2,bn) Abbildung 3.3: Berechnung der Ähnlichkeitsmatrix auf Grundlage der Assoziationsmatrix 16 ...
3 Das Verfahren Im nächsten Schritt wird aus der Assoziationsmatrix die Begriff-Begriff- Ähnlichkeitsmatrix berechnet (siehe Abb. 3.3). Dabei stellt die Distanz der Begriffsvektoren der Assoziationsmatrix die Ähnlichkeit der Begriffe dar. Dabei dient ein Ähnlichkeitsmaß, in diesem Fall die City-Block-Metrik, zur Distanzberechnung. b1 b2 ... bn b1 sim(b2,b1) ... sim(bn,b1) b2 sim(b1,b2) ... sim(bn,b2) Ähnlichkeitsmatrix ... ... ... ... bn sim(b1,bn) sim(b2,bn) ... Graph sim(b1,b2) sim(b1,bn) Abbildung 3.4: Generierung des Graphen auf Grundlage der Ähnlichkeitsmatrix b1 … b2 bn sim(b2,bn) Um das nächste Vorgehen zu vereinfachen, wird aus der Ähnlichkeitsmatrix ein ungerichteter Graph generiert, wobei jeder Begriff ein Knoten darstellt (siehe Abb. 3.4). Für jeden Eintrag der Ähnlichkeitsmatrix wird eine Kante erstellt, der die beiden dazugehörigen Begriffe bzw. Knoten verbindet. Als Kantengewicht dient dabei ihr Ähnlichkeitswert. 17
Seite 1 und 2: Fakultät für Elektrotechnik, Info
Seite 3 und 4: Kurzfassung Beim Card-Sorting-Exper
Seite 5 und 6: 1 Einleitung In einem Supermarkt we
Seite 7 und 8: 2 Grundlagen 2.1 Was sind Assoziati
Seite 9 und 10: P(y) = Wahrscheinlich das y auftauc
Seite 11 und 12: 2 Grundlagen Ähnlichkeitsmaße ber
Seite 13 und 14: 2 Grundlagen reproduzierbar sein ka
Seite 15 und 16: 3 Das Verfahren Wortassoziationen e
Seite 17 und 18: 3 Das Verfahren da diese ebenfalls
Seite 19: 3 Das Verfahren Berechnung der Ähn
Seite 23 und 24: 4 Implementierung Abbildung 4.1: Sc
Seite 25 und 26: 5 Evaluation Um die Qualität der E
Seite 27 und 28: Kategorie Begriffe 5 Evaluation PC&
Seite 29 und 30: 5 Evaluation Ergebnis Card-Sorting:
Seite 31 und 32: 5 Evaluation Aus einer Gruppe mit d
Seite 33 und 34: 5 Evaluation äquivalentes Ergebnis
Seite 35 und 36: 5 Evaluation Ein weiterer Grund fü
Seite 37 und 38: 6 Zusammenfassung Ausblick Die Bere
Seite 39 und 40: Begriffe A Anhang Gruppe1: Überras
Seite 41 und 42: Set1 (Alltag) Set2 (Menü) Set3 (Zu
Seite 43 und 44: Literaturverzeichnis [Agirre et al.
Seite 45: Literaturverzeichnis [Yang und Liu,

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?