Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
es gilt:<br />
2 Grundlagen<br />
k = Korpusgröße (Anzahl der Sätze insgesamt)<br />
kij = Anzahl der Sätze, in denen die Wörter ti und tj gem<strong>ein</strong>sam vorkommen<br />
ki = Anzahl der Sätze, in denen ti vorkommt<br />
kj = Anzahl der Sätze, in denen tj vorkommt<br />
Der Log-Likelihood-Ratio Test ist besonders in der Korpuslinguistik beliebt, da<br />
er Ereignisse mit geringer Häufigkeit ebenso bei der Gewichtung berücksichtigt,<br />
wie das häufige Auftreten von Ereignissen. Dies ist besonders bei niedrigen<br />
Korpushäufigkeiten, auch »sparse-data-problem« genannt, von großer Bedeutung,<br />
da hier <strong>ein</strong> besserer Vergleich der Signifikanz zwischen häufigen und seltenen Wörtern<br />
ermöglicht wird (vgl. [Manning und Schütze, 1999]).<br />
2.2.3 Assoziationsmaß nach psychologischen Lerngesetzen<br />
[Wettler et al., 1993] stellten <strong>ein</strong>e Formel zur Berechnung von freien Assoziationen<br />
vor, die sich nach den psychologischen Lerngesetzen rechtfertigen ließ.<br />
Durch diese Formel konnten »sich bei Versuchspersonen gefundenen freien Wortassoziationen<br />
all<strong>ein</strong> auf der Grundlage des Assoziationsgesetzes in guter Näherung<br />
vorhersagen lassen« [Rapp, 1996].<br />
Diese psychologische Assoziationsformel wurde wie folgt definiert<br />
[Wettler et al., 1993]:<br />
es gilt:<br />
Ãi,j = H(i&j)<br />
H(j) α<br />
Ãi,j = Assoziationsstärke zwischen den Wörtern i und j<br />
H(i&j) = Häufigkeit des gem<strong>ein</strong>samen Auftretens der Wörter i und j<br />
H(j) = Häufigkeit des Wortes j<br />
(2.4)<br />
Der Parameter α wurde von [Rapp, 1996] auf 0,68 festgelegt, da hier die<br />
besten Ergebnisse erzielt wurden.<br />
Eines der Schwächen dieser Formel ist, das Schätzfehler bei seltenen Wörtern starke<br />
Auswirkungen auf die berechneten Assoziationsstärken haben, da H(j) im Nenner<br />
steht [Rapp, 1996].<br />
Insgesamt zeigt sich, das sich die Assoziationsstärken auf unterschiedliche Weise<br />
berechnen lassen. Die Ergebnisse der berechneten Assoziationsstärken könnten als<br />
<strong>ein</strong>e Begriff-Begriff-Matrix betrachtet werden.<br />
Auf Grundlage dieser Matrix, können Ähnlichkeiten zwischen Begriffsvektoren <strong>durch</strong><br />
6