24.12.2012 Aufrufe

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2 Grundlagen<br />

2.2 Berechnung von Assoziationen<br />

Assoziationen können aufgrund statistischer Beziehungen zwischen Wörtern in<br />

Texten berechnet werden. Dies ist aus zwei Gründen möglich: Zum <strong>ein</strong>en, weil<br />

die Assoziationen zwischen Wörtern aufgrund der Häufigkeit ihres gem<strong>ein</strong>samen<br />

Auftretens in der Sprache gelernt wurden (siehe 2.1). Zum anderen weil »die Wahrsch<strong>ein</strong>lichkeiten,<br />

dass Wörter in naher zeitlicher Auf<strong>ein</strong>anderfolge geäußert werden,<br />

von den Assoziationen des Sprechers bzw. des Autors abhängen« [Wettler, 2004].<br />

Das gem<strong>ein</strong>same Auftreten von Wörtern in Texten wird Kookkurrenz genannt.<br />

[Heyer et al., 2006] definierte Kookkurrenz wie folgt: »das gem<strong>ein</strong>same Auftreten<br />

zweier Wortformen in <strong>ein</strong>em definierten Textabschnitt [. . . ] heißt Kookkurrenz«. Es<br />

gibt verschiedene Möglichkeiten diese Textabschnitte zu definieren, z.B. als Satz,<br />

Dokument oder als <strong>ein</strong> Fenster fester Größe. Daher wird auch von Dokument-,<br />

Satz- oder fensterbasierten Kookkurrenzen gesprochen.<br />

Durch das Zählen von Kookkurrenzen und der Häufigkeit der <strong>ein</strong>zelnen Wörter,<br />

kann nun die Assoziationsstärke zwischen Wörtern mittels <strong>ein</strong>es Assoziationsmaßes<br />

berechnet werden. Es gibt verschiedene Assoziationsmaße: Mutual Information,<br />

Log-Likelihood, Poisson-Verteilung, Tanimoto-Maß, Dice-Koeffizient (vgl.<br />

[Heyer et al., 2006], S. 213) oder auch statistische <strong>Verfahren</strong> wie der chi-Quadrat-<br />

Test, <strong>ein</strong> Standarttest zur Messung der Unabhängigkeit von Ereignissen (vgl.<br />

[Manning und Schütze, 1999], Kapitel 5.3).<br />

Im Nachfolgenden werden die drei Assoziationsmaße Mutual Information, Log-<br />

Likelihood und <strong>ein</strong> Maß, dass auf den psychologischen Lerngesetzen beruht im Detail<br />

erklärt, um die Zusammenhänge zwischen den Häufigkeiten und der Berechnung<br />

näher zu erläutern.<br />

2.2.1 Mutual Information<br />

[Church und Hanks, 1989] waren <strong>ein</strong>e der ersten Forscher die sich Kookkurrenzen<br />

zur Berechnung von Assoziationen zu nutzen machten. Ihre Berechnungen<br />

der Wortassoziationen basierten auf der aus der Informationstheorie bekannten<br />

»mutual information« (deutsch: Transinformation), die wie folgt definiert ist<br />

[Fano, 1961]:<br />

wobei<br />

I(x, y) ≡ log 2<br />

P (x, y)<br />

P (x)P (y)<br />

P(x,y) = Wahrsch<strong>ein</strong>lichkeit das x und y gem<strong>ein</strong>sam auftauchen<br />

P(x) = Wahrsch<strong>ein</strong>lich das x auftaucht<br />

4<br />

(2.1)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!