30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

eines Schemas in einen Graphen. Im Quellcode des Testprogramms ist die Transformation<br />

wie in Kapitel 6 angedeutet in der Methoden transform_2 realisiert.<br />

Für die Vorverarbeitung zur Berechnung der Anfangsähnlichkeiten, wie sie in Kapitel<br />

7.3.3 - Kapitel 7.3.4 durchgeführt wird, werden Namensvergleiche von Knoten als<br />

Gr<strong>und</strong>lage verwendet. Für Attribute wird dabei nur der Attributname verglichen, auch<br />

wenn der Knoten mit „Relationsname.Attributname“ benannt ist.<br />

Bei der Transformation in [MGMR01] wurden neben der Art der Attribute auch deren<br />

Datentyp berücksichtigt. Datentypen können beim Matching eine wichtige Rolle spielen,<br />

da sie zusätzliche Informationen liefern können, welche Attribute zweier Relationen zu<br />

matchen sind.<br />

Im Rahmen dieser Arbeit wurde darauf verzichtet, Datentypen bei der Transformation<br />

zu berücksichtigen. Der Gr<strong>und</strong> für diese Entscheidung ist, dass bei den hier verwendeten<br />

Schemata die Datentypen kaum neue Informationen liefern, die beim Matching helfen<br />

könnten. Stattdessen würden dadurch die Graphen nur wieder umfangreicher werden,<br />

worunter die Übersichtlichkeit im Rahmen der Experimente leiden würde.<br />

Was bei den hier verwendeten Beispielen sinnvoller als die Berücksichtigung von Datentypen<br />

ist, ist das Berücksichtigen von Domänenwissen. Damit sind Informationen<br />

gemeint, die in der Domäne, der die zu matchenden Schemata zugeordnet sind, bekannt<br />

sind. Zum Beispiel kann für eine Domäne bekannt sein, dass zwei Begriffe synonym verwendet<br />

werden, wodurch Informationen für das Matching zugänglich werden, die sonst<br />

nicht vorhanden sind. Domänenwissen ist somit noch mächtiger als die Berücksichtigung<br />

von Datentypen, kann allerdings nicht so einfach automatisch mit berücksichtigt werden.<br />

Bei den hier durchgeführten Experimenten wird Domänenwissen in Kapitel 7.3.4 <strong>und</strong> Kapitel<br />

7.3.5 in Form von Korrekturen berücksichtigt, die vor bzw. nach einem Durchlauf<br />

des Algorithmus an den automatisch berechneten Anfangsähnlichkeiten vorgenommen<br />

werden.<br />

Im Rahmen der Experimente wurde neben der hier geschilderten Variante zur Transformation<br />

der Schemata auch noch mit einer weiteren experimentiert. Im Testprogramm<br />

kann diese Variante ausgewählt werden. Die Ergebnisse damit fielen alle schlechter aus<br />

als mit der hier verwendeten Variante, sodass nicht weiter darauf eingegangen werden<br />

soll.<br />

Verwendete Fixpunktformel<br />

In Kapitel 7.2 konnte festgestellt werden, dass sich die Ergebnisse, die das Similarity<br />

Flooding mit der Basis-Fixpunktformel liefert, durch Setzen der Anfangsähnlichkeiten<br />

kaum beeinflussen lässt, dieses aber mit der Fixpunktformel A möglich ist. Deshalb<br />

sollen die Tests in diesem Abschnitt mit Fixpunktformel A durchgeführt werden, um<br />

Hintergr<strong>und</strong>informationen der Schemata in Form von Anfangsähnlichkeiten mit in die<br />

Experimente einfließen lassen zu können.<br />

65

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!