Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Weitere Magazine

Empfehlungen

Info

2 Grundlagen 2.2 Berechnung von Assoziationen Assoziationen können aufgrund statistischer Beziehungen zwischen Wörtern in Texten berechnet werden. Dies ist aus zwei Gründen möglich: Zum einen, weil die Assoziationen zwischen Wörtern aufgrund der Häufigkeit ihres gemeinsamen Auftretens in der Sprache gelernt wurden (siehe 2.1). Zum anderen weil »die Wahrscheinlichkeiten, dass Wörter in naher zeitlicher Aufeinanderfolge geäußert werden, von den Assoziationen des Sprechers bzw. des Autors abhängen« [Wettler, 2004]. Das gemeinsame Auftreten von Wörtern in Texten wird Kookkurrenz genannt. [Heyer et al., 2006] definierte Kookkurrenz wie folgt: »das gemeinsame Auftreten zweier Wortformen in einem definierten Textabschnitt [. . . ] heißt Kookkurrenz«. Es gibt verschiedene Möglichkeiten diese Textabschnitte zu definieren, z.B. als Satz, Dokument oder als ein Fenster fester Größe. Daher wird auch von Dokument-, Satz- oder fensterbasierten Kookkurrenzen gesprochen. Durch das Zählen von Kookkurrenzen und der Häufigkeit der einzelnen Wörter, kann nun die Assoziationsstärke zwischen Wörtern mittels eines Assoziationsmaßes berechnet werden. Es gibt verschiedene Assoziationsmaße: Mutual Information, Log-Likelihood, Poisson-Verteilung, Tanimoto-Maß, Dice-Koeffizient (vgl. [Heyer et al., 2006], S. 213) oder auch statistische Verfahren wie der chi-Quadrat- Test, ein Standarttest zur Messung der Unabhängigkeit von Ereignissen (vgl. [Manning und Schütze, 1999], Kapitel 5.3). Im Nachfolgenden werden die drei Assoziationsmaße Mutual Information, Log- Likelihood und ein Maß, dass auf den psychologischen Lerngesetzen beruht im Detail erklärt, um die Zusammenhänge zwischen den Häufigkeiten und der Berechnung näher zu erläutern. 2.2.1 Mutual Information [Church und Hanks, 1989] waren eine der ersten Forscher die sich Kookkurrenzen zur Berechnung von Assoziationen zu nutzen machten. Ihre Berechnungen der Wortassoziationen basierten auf der aus der Informationstheorie bekannten »mutual information« (deutsch: Transinformation), die wie folgt definiert ist [Fano, 1961]: wobei I(x, y) ≡ log 2 P (x, y) P (x)P (y) P(x,y) = Wahrscheinlichkeit das x und y gemeinsam auftauchen P(x) = Wahrscheinlich das x auftaucht 4 (2.1)
P(y) = Wahrscheinlich das y auftaucht 2 Grundlagen [Church und Hanks, 1989] berechneten die Wahrscheinlichkeiten der Wörter anhand der Häufigkeit des Auftretens bzw. gemeinsamen Auftretens und normalisierten diese Werte mithilfe der Korpusgröße. Dadurch ergibt sich folgende Formel zur Berechnung der Assoziationsstärke (vgl. [Heyer et al., 2006], S. 213) : es gilt: k ∗ kij sigMI(ti, tj) = log2 ki ∗ kj k = Korpusgröße (Anzahl der Sätze insgesamt) kij = Anzahl der Sätze, in denen die Wörter ti und tj gemeinsam vorkommen ki = Anzahl der Sätze, in denen ti vorkommt kj = Anzahl der Sätze, in denen tj vorkommt (2.2) Ein Problem dieser Formel ist, dass seltene Ereignisse gegenüber Häufigen bevorzugt werden [Dunning, 1993], was im folgenden Beispiel näher erläutert wird: Angenommen zwei Wörter treten nur gemeinsam auf und das insgesamt in 10 Sätzen. So wäre H(i) = H(j) = H(i, j) = 10. Weiterhin nehmen wir an, dass die Korpusgröße 1000 Sätze beträgt. Die berechnete Assoziationsstärke wäre somit 1000∗10 10∗10 = 100. Nun nehmen wir an, die beiden Wörter kommen in 100 Sätzen gemeinsam vor. So wäre H(i) = H(j) = H(i, j) = 100 und die Assoziationsstärke nur noch 1000∗100 100∗100 = 10. Dieses bedeutet, dass die berechnete Assoziationsstärke um das 10-fache schwächer bewertet wurde als die Vorherige, obwohl das Verhältnis der Häufigkeiten untereinander gleich geblieben ist. 2.2.2 Log-Likelihood-Ratio Test Ein Problem bei den vorhergenannten Assoziationsmaßen, wie Mutual Information oder dem chi-Quadrat-Test, ist es die Signifikanz seltener Ereignisse korrekt zu erfassen. Bei diesen Maßen werden seltene Ereignisse gegenüber Häufigen bevorzugt [Dunning, 1993]. Zur Lösung dieses Problems schlug [Dunning, 1993] den Log- Likelihood-Ratio Test als Assoziationsmaß vor. Hierbei handelt es sich um einen statistischen Signifikanztest, der sich wie folgt berechnen lässt [Heyer et al., 2006]: sigLLR(ti, tj) = k ∗ log 2(k) − ki ∗ log 2(ki) − kj ∗ log 2(kj) + kij ∗ log 2(kij) + (k − ki − kj + kij) ∗ log 2(k − ki − kj + kij) + (ki − kij) ∗ log 2(ki − kij) + (kj − kij) ∗ log 2(kj − kij) − (k − ki) ∗ log 2(k − ki) − (k − kj) ∗ log 2(k − kj) 5 (2.3)
Seite 1 und 2: Fakultät für Elektrotechnik, Info
Seite 3 und 4: Kurzfassung Beim Card-Sorting-Exper
Seite 5 und 6: 1 Einleitung In einem Supermarkt we
Seite 7: 2 Grundlagen 2.1 Was sind Assoziati
Seite 11 und 12: 2 Grundlagen Ähnlichkeitsmaße ber
Seite 13 und 14: 2 Grundlagen reproduzierbar sein ka
Seite 15 und 16: 3 Das Verfahren Wortassoziationen e
Seite 17 und 18: 3 Das Verfahren da diese ebenfalls
Seite 19 und 20: 3 Das Verfahren Berechnung der Ähn
Seite 21 und 22: 3 Das Verfahren Im nächsten Schrit
Seite 23 und 24: 4 Implementierung Abbildung 4.1: Sc
Seite 25 und 26: 5 Evaluation Um die Qualität der E
Seite 27 und 28: Kategorie Begriffe 5 Evaluation PC&
Seite 29 und 30: 5 Evaluation Ergebnis Card-Sorting:
Seite 31 und 32: 5 Evaluation Aus einer Gruppe mit d
Seite 33 und 34: 5 Evaluation äquivalentes Ergebnis
Seite 35 und 36: 5 Evaluation Ein weiterer Grund fü
Seite 37 und 38: 6 Zusammenfassung Ausblick Die Bere
Seite 39 und 40: Begriffe A Anhang Gruppe1: Überras
Seite 41 und 42: Set1 (Alltag) Set2 (Menü) Set3 (Zu
Seite 43 und 44: Literaturverzeichnis [Agirre et al.
Seite 45: Literaturverzeichnis [Yang und Liu,

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?