Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2 Grundlagen<br />
2.2 Berechnung von Assoziationen<br />
Assoziationen können aufgrund statistischer Beziehungen zwischen Wörtern in<br />
Texten berechnet werden. Dies ist aus zwei Gründen möglich: Zum <strong>ein</strong>en, weil<br />
die Assoziationen zwischen Wörtern aufgrund der Häufigkeit ihres gem<strong>ein</strong>samen<br />
Auftretens in der Sprache gelernt wurden (siehe 2.1). Zum anderen weil »die Wahrsch<strong>ein</strong>lichkeiten,<br />
dass Wörter in naher zeitlicher Auf<strong>ein</strong>anderfolge geäußert werden,<br />
von den Assoziationen des Sprechers bzw. des Autors abhängen« [Wettler, 2004].<br />
Das gem<strong>ein</strong>same Auftreten von Wörtern in Texten wird Kookkurrenz genannt.<br />
[Heyer et al., 2006] definierte Kookkurrenz wie folgt: »das gem<strong>ein</strong>same Auftreten<br />
zweier Wortformen in <strong>ein</strong>em definierten Textabschnitt [. . . ] heißt Kookkurrenz«. Es<br />
gibt verschiedene Möglichkeiten diese Textabschnitte zu definieren, z.B. als Satz,<br />
Dokument oder als <strong>ein</strong> Fenster fester Größe. Daher wird auch von Dokument-,<br />
Satz- oder fensterbasierten Kookkurrenzen gesprochen.<br />
Durch das Zählen von Kookkurrenzen und der Häufigkeit der <strong>ein</strong>zelnen Wörter,<br />
kann nun die Assoziationsstärke zwischen Wörtern mittels <strong>ein</strong>es Assoziationsmaßes<br />
berechnet werden. Es gibt verschiedene Assoziationsmaße: Mutual Information,<br />
Log-Likelihood, Poisson-Verteilung, Tanimoto-Maß, Dice-Koeffizient (vgl.<br />
[Heyer et al., 2006], S. 213) oder auch statistische <strong>Verfahren</strong> wie der chi-Quadrat-<br />
Test, <strong>ein</strong> Standarttest zur Messung der Unabhängigkeit von Ereignissen (vgl.<br />
[Manning und Schütze, 1999], Kapitel 5.3).<br />
Im Nachfolgenden werden die drei Assoziationsmaße Mutual Information, Log-<br />
Likelihood und <strong>ein</strong> Maß, dass auf den psychologischen Lerngesetzen beruht im Detail<br />
erklärt, um die Zusammenhänge zwischen den Häufigkeiten und der Berechnung<br />
näher zu erläutern.<br />
2.2.1 Mutual Information<br />
[Church und Hanks, 1989] waren <strong>ein</strong>e der ersten Forscher die sich Kookkurrenzen<br />
zur Berechnung von Assoziationen zu nutzen machten. Ihre Berechnungen<br />
der Wortassoziationen basierten auf der aus der Informationstheorie bekannten<br />
»mutual information« (deutsch: Transinformation), die wie folgt definiert ist<br />
[Fano, 1961]:<br />
wobei<br />
I(x, y) ≡ log 2<br />
P (x, y)<br />
P (x)P (y)<br />
P(x,y) = Wahrsch<strong>ein</strong>lichkeit das x und y gem<strong>ein</strong>sam auftauchen<br />
P(x) = Wahrsch<strong>ein</strong>lich das x auftaucht<br />
4<br />
(2.1)