Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3.5 Vorgehensweise<br />
3 Das <strong>Verfahren</strong><br />
Das hier vorgestellte <strong>Verfahren</strong> gruppiert automatisch Begriffe nach ihrer semantischen<br />
Ähnlichkeit (»semantisches <strong>Clustering</strong>«). Dazu wird wie folgt vorgegangen:<br />
Als Eingabe erhält das <strong>Verfahren</strong> <strong>ein</strong>e Liste von Begriffen und die Anzahl an Gruppen,<br />
die gebildet werden sollen.<br />
Im ersten Schritt werden die Einzelhäufigkeiten und Kookkurrenzhäufigkeiten der<br />
<strong>ein</strong>gegebenen Begriffe abgefragt. Dies geschieht <strong>durch</strong> Suchanfragen an die Webressource.<br />
Die daraufhin gelieferten Trefferangaben bilden die Häufigkeiten. Nach dem<br />
Durchlaufen aller Kombinationen von Begriffspaaren, ergibt sich <strong>ein</strong>e Begriff-Begriff-<br />
Kookkurrenzmatrix mit den jeweiligen Kookkurrenzhäufigkeiten.<br />
b1<br />
b2<br />
...<br />
bn<br />
b1<br />
cooc(b2,b1)<br />
...<br />
cooc(bn,b1)<br />
b2<br />
cooc(b1,b2)<br />
...<br />
cooc(bn,b2)<br />
Kookkurrenzmatrix<br />
...<br />
...<br />
...<br />
...<br />
bn<br />
cooc(b1,bn)<br />
cooc(b2,bn)<br />
...<br />
Assoziationsmaß<br />
b1<br />
b2<br />
...<br />
bn<br />
b1<br />
sig(b2,b1)<br />
...<br />
sig(bn,b1)<br />
b2<br />
sig(b1,b2)<br />
...<br />
sig(bn,b2)<br />
Assoziationsmatrix<br />
...<br />
...<br />
...<br />
...<br />
bn<br />
sig(b1,bn)<br />
sig(b2,bn)<br />
Abbildung 3.2: Berechnung der Assoziationsmatrix auf Grundlage der Kookkurrenzmatrix<br />
Aus der Kookkurrenzmatrix Matrix wird nun die Begriff-Begriff-Assoziationsmatrix<br />
berechnet (siehe Abb. 3.2), wobei die Einträge der Matrix die Assoziationsstärken<br />
zwischen den Begriffen darstellen. Bei der Berechnung werden die Häufigkeiten<br />
<strong>durch</strong> <strong>ein</strong> Assoziationsmaß in <strong>ein</strong>e Assoziationsstärke umgerechnet. Nachdem alle<br />
Assoziationsstärken berechnet wurden, werden die Einträge der Assoziationsmatrix<br />
entsprechend der Formel 3.2 normalisiert.<br />
b1<br />
b2<br />
...<br />
bn<br />
b1<br />
sig(b2,b1)<br />
...<br />
sig(bn,b1)<br />
b2<br />
sig(b1,b2)<br />
...<br />
sig(bn,b2)<br />
Assoziationsmatrix<br />
...<br />
...<br />
...<br />
...<br />
bn<br />
sig(b1,bn)<br />
sig(b2,bn)<br />
...<br />
Ähnlichkeitsmaß<br />
b1<br />
b2<br />
...<br />
bn<br />
b1<br />
sim(b2,b1)<br />
...<br />
sim(bn,b1)<br />
b2<br />
sim(b1,b2)<br />
...<br />
sim(bn,b2)<br />
Ähnlichkeitsmatrix<br />
...<br />
...<br />
...<br />
...<br />
...<br />
bn<br />
sim(b1,bn)<br />
sim(b2,bn)<br />
Abbildung 3.3: Berechnung der Ähnlichkeitsmatrix auf Grundlage der Assoziationsmatrix<br />
16<br />
...