pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
durchgeführt werden müssen, um ein endgültiges Matching zu erhalten, <strong>und</strong> näher erläutert<br />
werden, an welcher Stelle <strong>und</strong> in welcher Form das Similarity Flooding bei SASMINT<br />
verwendet wird.<br />
Bevor in SASMINT Eingabedaten verarbeitet (also z.B. Schemata geladen) werden,<br />
werden Gewichte für alle Metriken <strong>und</strong> Algorithmen, die verwendet werden sollen, berechnet<br />
<strong>und</strong> entsprechend zugewiesen. Das geschieht standardmäßig durch Berechnung<br />
einer gewichteten Summer aller Metriken <strong>und</strong> Verfahren. Falls Bedarf besteht, kann hier<br />
auch ein Benutzer manuell Gewichte festlegen. Danach werden die Auswahlkriterien für<br />
die Ergebnisse des Matchings festgelegt. Hierbei sind Eingaben der Benutzer nötig, um<br />
Grenzwerte (Thresholds) festzulegen <strong>und</strong> zu bestimmen, ob alle Werte oberhalb dieser<br />
Grenzwerte ausgegeben werden sollen oder nur der jeweils größte.<br />
Nach diesen beiden Schritten werden die Schemata geladen <strong>und</strong> direkt dabei in gerichtete,<br />
azyklische Graphen überführt. In der anschließenden Vorverarbeitungsphase<br />
werden nacheinander die folgenden Operationen durchgeführt, ohne dass hier weiter<br />
darauf eingegangen werden soll:<br />
1. Eliminierung von stop words <strong>und</strong> Sonderzeichen<br />
2. Tokenization <strong>und</strong> Trennung von Wörtern<br />
3. Erweiterung von Abkürzungen<br />
4. Normalisierung von Termen in ihre Gr<strong>und</strong>form mit Lemmatisierung<br />
Nun folgt in SASMINT das eigentliche Matching, das in zwei Schritte eingeteilt ist.<br />
Zuerst werden die Schemata linguistisch verglichen, anschließend strukturell.<br />
Beim linguistischen Vergleich werden die Elemente der Schemata zunächst syntaktisch<br />
vergleichen, wozu verschiedenste Metriken herangezogen werden können (etwa Levenshtein<br />
Distanz, tf-idf-Werte oder Jaccard-Koeffizienten). Anschließend werden semantische<br />
Ähnlichkeiten berechnet, wobei auch hier diverse Methoden vorstellbar sind.<br />
Beim strukturellen Vergleich werden die Ähnlichkeiten der Schemata basierend auf<br />
ihrer Struktur berechnet. Hierbei werden die Ergebnisse des linguistischen Vergleichs<br />
als Eingabewerte verwendet. In dieser Phase findet auch das Similarity Flooding Verwendung,<br />
es sind aber auch weitere Verfahren denkbar. Werden hier mehrere Verfahren<br />
zusammen verwendet, wird als Ergebnis die gewichtete Summe der Ergebnisse aller Verfahren<br />
verwendet.<br />
Obwohl in der Matching-Phase das Similarity Flooding in unveränderter Form verwendet<br />
werden kann <strong>und</strong> auch wird, gibt es einen bedeutsamen Unterschied zwischen<br />
den Ähnlichkeitswerten, die bei SASMINT berechnet werden, <strong>und</strong> denen, die das Similarity<br />
Flooding liefert. Während beim Similarity Flooding linguistische Ähnlichkeiten –<br />
sofern sie überhaupt berechnet werden – lediglich als Anfangsähnlichkeiten in den Algorithmus<br />
einfließen, im Nachhinein aber die Ähnlichkeitswerte nicht weiter beeinflussen,<br />
geht SASMINT eine Stufe weiter. Hier werden die Ähnlichkeitswerte sim(a, b) zweier<br />
Elemente a <strong>und</strong> b in der Matching-Phase durch folgende Formel berechnet:<br />
sim(a, b) = w linguistisch · sm linguistisch (a, b) + w strukturell · sm strukturell (a, b)<br />
35