pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
den Benutzer berücksichtigt wurde, auch automatisch berücksichtigen lässt. Denkbar<br />
wären hier zum Beispiel eine Vorverarbeitung, die zum Teil auf domänenspezifischen<br />
Lexika <strong>und</strong> Thesauri basiert <strong>und</strong> daraus Anfangsähnlichkeiten ermittelt.<br />
Filterung der Ergebnisse<br />
Anschließend wäre die Filterung der Ergebnismenge näher zu untersuchen. Mit der Stable<br />
Marriage wurde im Rahmen dieser Arbeit ein möglicher Filter betrachtet, der aber nicht<br />
in jedem Fall geeignet ist. Ideal wäre es in diese Zusammenhang, wenn bereits anhand<br />
der Eingabewerte erkannt werden könnte, ob ein Filter geeignet ist oder nicht. Ob das<br />
möglich ist, wäre in Experimenten zu überprüfen.<br />
Ebenso stellt sich die Frage, welche Filter überhaupt geeignet sind, um die Ergebnismengen<br />
zu verkleinern. In Kapitel 4.4 wurden eine Reihe von Filtern vorgestellt. Diese<br />
müssten in weiteren Experimenten auf verschiedene Ergebnismengen des Similarity Flooding<br />
angewandt <strong>und</strong> verglichen werden, damit Aussagen darüber möglich sind, inwiefern<br />
ein Filter besser oder schlechter geeignet ist als ein anderer. Zusätzlich wäre auch hier<br />
interessant zu prüfen, ob bei bestimmten Eingaben bestimmte Filter besser geeignet sind<br />
als andere <strong>und</strong> ob das bereits an den Eingaben erkannt werden kann.<br />
Datenbankschemata als Eingabe<br />
Um das Similarity Flooding für Relationale Datenbankschemata einzusetzen, müssen<br />
auch hier noch einige Aspekte näher betrachtet werden. Zunächst ist die Transformation<br />
der Schemata in Graphen zu untersuchen. Zu überprüfen ist, ob andere Darstellungen<br />
der Schemata als Graphen zu allgemein besseren Ergebnisse führen als mit der im Rahmen<br />
dieser Arbeit verwendeten. Denkbar wäre es zum Beispiel, mehr Knoten für die<br />
Darstellung zu verwenden <strong>und</strong> so weniger Informationen in den Kantenmarkierungen zu<br />
speichern. Hier müssten also verschiedene Darstellungsweisen derselben Schemata experimentell<br />
verglichen werden, um so die optimale Transformation bzw. Darstellung der<br />
Schemata zu finden, sofern es eine solche gibt.<br />
Als nächstes wäre zu untersuchen, ob <strong>und</strong> wie Besonderheiten, die beim Matching der<br />
Schemata <strong>und</strong> deren Integration relevant sind, im Similarity Flooding zum Ausdruck<br />
gebracht werden können. Dazu gehören zum Beispiel Generalisierungen <strong>und</strong> Teilmengen-<br />
Beziehungen. Diese wurden in den Ergebnissen der Experimente bisher lediglich in Form<br />
von hohen Ähnlichkeitswerten erkannt. Hier ist zu überprüfen, ob es Möglichkeiten gibt,<br />
dass das Similarity Flooding solche Besonderheiten erkennt <strong>und</strong> entsprechend im Ergebnis<br />
kenntlich macht. Um das zu prüfen könnten etwa – wie bei der Vorverarbeitungsphase<br />
– domänenspezifische Lexika <strong>und</strong> Thesauri verwendet werden, um Ober- <strong>und</strong> Teilmengen<br />
zu ermitteln. Alternativ wäre zu klären, ob solche Beziehungen schon aus den Eingabe-<br />
Schemata zu erkennen sind.<br />
75