pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
eines Schemas in einen Graphen. Im Quellcode des Testprogramms ist die Transformation<br />
wie in Kapitel 6 angedeutet in der Methoden transform_2 realisiert.<br />
Für die Vorverarbeitung zur Berechnung der Anfangsähnlichkeiten, wie sie in Kapitel<br />
7.3.3 - Kapitel 7.3.4 durchgeführt wird, werden Namensvergleiche von Knoten als<br />
Gr<strong>und</strong>lage verwendet. Für Attribute wird dabei nur der Attributname verglichen, auch<br />
wenn der Knoten mit „Relationsname.Attributname“ benannt ist.<br />
Bei der Transformation in [MGMR01] wurden neben der Art der Attribute auch deren<br />
Datentyp berücksichtigt. Datentypen können beim Matching eine wichtige Rolle spielen,<br />
da sie zusätzliche Informationen liefern können, welche Attribute zweier Relationen zu<br />
matchen sind.<br />
Im Rahmen dieser Arbeit wurde darauf verzichtet, Datentypen bei der Transformation<br />
zu berücksichtigen. Der Gr<strong>und</strong> für diese Entscheidung ist, dass bei den hier verwendeten<br />
Schemata die Datentypen kaum neue Informationen liefern, die beim Matching helfen<br />
könnten. Stattdessen würden dadurch die Graphen nur wieder umfangreicher werden,<br />
worunter die Übersichtlichkeit im Rahmen der Experimente leiden würde.<br />
Was bei den hier verwendeten Beispielen sinnvoller als die Berücksichtigung von Datentypen<br />
ist, ist das Berücksichtigen von Domänenwissen. Damit sind Informationen<br />
gemeint, die in der Domäne, der die zu matchenden Schemata zugeordnet sind, bekannt<br />
sind. Zum Beispiel kann für eine Domäne bekannt sein, dass zwei Begriffe synonym verwendet<br />
werden, wodurch Informationen für das Matching zugänglich werden, die sonst<br />
nicht vorhanden sind. Domänenwissen ist somit noch mächtiger als die Berücksichtigung<br />
von Datentypen, kann allerdings nicht so einfach automatisch mit berücksichtigt werden.<br />
Bei den hier durchgeführten Experimenten wird Domänenwissen in Kapitel 7.3.4 <strong>und</strong> Kapitel<br />
7.3.5 in Form von Korrekturen berücksichtigt, die vor bzw. nach einem Durchlauf<br />
des Algorithmus an den automatisch berechneten Anfangsähnlichkeiten vorgenommen<br />
werden.<br />
Im Rahmen der Experimente wurde neben der hier geschilderten Variante zur Transformation<br />
der Schemata auch noch mit einer weiteren experimentiert. Im Testprogramm<br />
kann diese Variante ausgewählt werden. Die Ergebnisse damit fielen alle schlechter aus<br />
als mit der hier verwendeten Variante, sodass nicht weiter darauf eingegangen werden<br />
soll.<br />
Verwendete Fixpunktformel<br />
In Kapitel 7.2 konnte festgestellt werden, dass sich die Ergebnisse, die das Similarity<br />
Flooding mit der Basis-Fixpunktformel liefert, durch Setzen der Anfangsähnlichkeiten<br />
kaum beeinflussen lässt, dieses aber mit der Fixpunktformel A möglich ist. Deshalb<br />
sollen die Tests in diesem Abschnitt mit Fixpunktformel A durchgeführt werden, um<br />
Hintergr<strong>und</strong>informationen der Schemata in Form von Anfangsähnlichkeiten mit in die<br />
Experimente einfließen lassen zu können.<br />
65