30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

durchgeführt werden müssen, um ein endgültiges Matching zu erhalten, <strong>und</strong> näher erläutert<br />

werden, an welcher Stelle <strong>und</strong> in welcher Form das Similarity Flooding bei SASMINT<br />

verwendet wird.<br />

Bevor in SASMINT Eingabedaten verarbeitet (also z.B. Schemata geladen) werden,<br />

werden Gewichte für alle Metriken <strong>und</strong> Algorithmen, die verwendet werden sollen, berechnet<br />

<strong>und</strong> entsprechend zugewiesen. Das geschieht standardmäßig durch Berechnung<br />

einer gewichteten Summer aller Metriken <strong>und</strong> Verfahren. Falls Bedarf besteht, kann hier<br />

auch ein Benutzer manuell Gewichte festlegen. Danach werden die Auswahlkriterien für<br />

die Ergebnisse des Matchings festgelegt. Hierbei sind Eingaben der Benutzer nötig, um<br />

Grenzwerte (Thresholds) festzulegen <strong>und</strong> zu bestimmen, ob alle Werte oberhalb dieser<br />

Grenzwerte ausgegeben werden sollen oder nur der jeweils größte.<br />

Nach diesen beiden Schritten werden die Schemata geladen <strong>und</strong> direkt dabei in gerichtete,<br />

azyklische Graphen überführt. In der anschließenden Vorverarbeitungsphase<br />

werden nacheinander die folgenden Operationen durchgeführt, ohne dass hier weiter<br />

darauf eingegangen werden soll:<br />

1. Eliminierung von stop words <strong>und</strong> Sonderzeichen<br />

2. Tokenization <strong>und</strong> Trennung von Wörtern<br />

3. Erweiterung von Abkürzungen<br />

4. Normalisierung von Termen in ihre Gr<strong>und</strong>form mit Lemmatisierung<br />

Nun folgt in SASMINT das eigentliche Matching, das in zwei Schritte eingeteilt ist.<br />

Zuerst werden die Schemata linguistisch verglichen, anschließend strukturell.<br />

Beim linguistischen Vergleich werden die Elemente der Schemata zunächst syntaktisch<br />

vergleichen, wozu verschiedenste Metriken herangezogen werden können (etwa Levenshtein<br />

Distanz, tf-idf-Werte oder Jaccard-Koeffizienten). Anschließend werden semantische<br />

Ähnlichkeiten berechnet, wobei auch hier diverse Methoden vorstellbar sind.<br />

Beim strukturellen Vergleich werden die Ähnlichkeiten der Schemata basierend auf<br />

ihrer Struktur berechnet. Hierbei werden die Ergebnisse des linguistischen Vergleichs<br />

als Eingabewerte verwendet. In dieser Phase findet auch das Similarity Flooding Verwendung,<br />

es sind aber auch weitere Verfahren denkbar. Werden hier mehrere Verfahren<br />

zusammen verwendet, wird als Ergebnis die gewichtete Summe der Ergebnisse aller Verfahren<br />

verwendet.<br />

Obwohl in der Matching-Phase das Similarity Flooding in unveränderter Form verwendet<br />

werden kann <strong>und</strong> auch wird, gibt es einen bedeutsamen Unterschied zwischen<br />

den Ähnlichkeitswerten, die bei SASMINT berechnet werden, <strong>und</strong> denen, die das Similarity<br />

Flooding liefert. Während beim Similarity Flooding linguistische Ähnlichkeiten –<br />

sofern sie überhaupt berechnet werden – lediglich als Anfangsähnlichkeiten in den Algorithmus<br />

einfließen, im Nachhinein aber die Ähnlichkeitswerte nicht weiter beeinflussen,<br />

geht SASMINT eine Stufe weiter. Hier werden die Ähnlichkeitswerte sim(a, b) zweier<br />

Elemente a <strong>und</strong> b in der Matching-Phase durch folgende Formel berechnet:<br />

sim(a, b) = w linguistisch · sm linguistisch (a, b) + w strukturell · sm strukturell (a, b)<br />

35

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!