Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
3 Das <strong>Verfahren</strong><br />
Im nächsten Schritt wird aus der Assoziationsmatrix die Begriff-Begriff-<br />
Ähnlichkeitsmatrix berechnet (siehe Abb. 3.3). Dabei stellt die Distanz der<br />
Begriffsvektoren der Assoziationsmatrix die Ähnlichkeit der Begriffe dar. Dabei<br />
dient <strong>ein</strong> Ähnlichkeitsmaß, in diesem Fall die City-Block-Metrik, zur Distanzberechnung.<br />
b1<br />
b2<br />
...<br />
bn<br />
b1<br />
sim(b2,b1)<br />
...<br />
sim(bn,b1)<br />
b2<br />
sim(b1,b2)<br />
...<br />
sim(bn,b2)<br />
Ähnlichkeitsmatrix<br />
...<br />
...<br />
...<br />
...<br />
bn<br />
sim(b1,bn)<br />
sim(b2,bn)<br />
...<br />
Graph<br />
sim(b1,b2)<br />
sim(b1,bn)<br />
Abbildung 3.4: Generierung des Graphen auf Grundlage der Ähnlichkeitsmatrix<br />
b1<br />
…<br />
b2<br />
bn<br />
sim(b2,bn)<br />
Um das nächste Vorgehen zu ver<strong>ein</strong>fachen, wird aus der Ähnlichkeitsmatrix <strong>ein</strong><br />
ungerichteter Graph generiert, wobei jeder Begriff <strong>ein</strong> Knoten darstellt (siehe Abb.<br />
3.4). Für jeden Eintrag der Ähnlichkeitsmatrix wird <strong>ein</strong>e Kante erstellt, der die<br />
beiden dazugehörigen Begriffe bzw. Knoten verbindet. Als Kantengewicht dient<br />
dabei ihr Ähnlichkeitswert.<br />
17