30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

den Benutzer berücksichtigt wurde, auch automatisch berücksichtigen lässt. Denkbar<br />

wären hier zum Beispiel eine Vorverarbeitung, die zum Teil auf domänenspezifischen<br />

Lexika <strong>und</strong> Thesauri basiert <strong>und</strong> daraus Anfangsähnlichkeiten ermittelt.<br />

Filterung der Ergebnisse<br />

Anschließend wäre die Filterung der Ergebnismenge näher zu untersuchen. Mit der Stable<br />

Marriage wurde im Rahmen dieser Arbeit ein möglicher Filter betrachtet, der aber nicht<br />

in jedem Fall geeignet ist. Ideal wäre es in diese Zusammenhang, wenn bereits anhand<br />

der Eingabewerte erkannt werden könnte, ob ein Filter geeignet ist oder nicht. Ob das<br />

möglich ist, wäre in Experimenten zu überprüfen.<br />

Ebenso stellt sich die Frage, welche Filter überhaupt geeignet sind, um die Ergebnismengen<br />

zu verkleinern. In Kapitel 4.4 wurden eine Reihe von Filtern vorgestellt. Diese<br />

müssten in weiteren Experimenten auf verschiedene Ergebnismengen des Similarity Flooding<br />

angewandt <strong>und</strong> verglichen werden, damit Aussagen darüber möglich sind, inwiefern<br />

ein Filter besser oder schlechter geeignet ist als ein anderer. Zusätzlich wäre auch hier<br />

interessant zu prüfen, ob bei bestimmten Eingaben bestimmte Filter besser geeignet sind<br />

als andere <strong>und</strong> ob das bereits an den Eingaben erkannt werden kann.<br />

Datenbankschemata als Eingabe<br />

Um das Similarity Flooding für Relationale Datenbankschemata einzusetzen, müssen<br />

auch hier noch einige Aspekte näher betrachtet werden. Zunächst ist die Transformation<br />

der Schemata in Graphen zu untersuchen. Zu überprüfen ist, ob andere Darstellungen<br />

der Schemata als Graphen zu allgemein besseren Ergebnisse führen als mit der im Rahmen<br />

dieser Arbeit verwendeten. Denkbar wäre es zum Beispiel, mehr Knoten für die<br />

Darstellung zu verwenden <strong>und</strong> so weniger Informationen in den Kantenmarkierungen zu<br />

speichern. Hier müssten also verschiedene Darstellungsweisen derselben Schemata experimentell<br />

verglichen werden, um so die optimale Transformation bzw. Darstellung der<br />

Schemata zu finden, sofern es eine solche gibt.<br />

Als nächstes wäre zu untersuchen, ob <strong>und</strong> wie Besonderheiten, die beim Matching der<br />

Schemata <strong>und</strong> deren Integration relevant sind, im Similarity Flooding zum Ausdruck<br />

gebracht werden können. Dazu gehören zum Beispiel Generalisierungen <strong>und</strong> Teilmengen-<br />

Beziehungen. Diese wurden in den Ergebnissen der Experimente bisher lediglich in Form<br />

von hohen Ähnlichkeitswerten erkannt. Hier ist zu überprüfen, ob es Möglichkeiten gibt,<br />

dass das Similarity Flooding solche Besonderheiten erkennt <strong>und</strong> entsprechend im Ergebnis<br />

kenntlich macht. Um das zu prüfen könnten etwa – wie bei der Vorverarbeitungsphase<br />

– domänenspezifische Lexika <strong>und</strong> Thesauri verwendet werden, um Ober- <strong>und</strong> Teilmengen<br />

zu ermitteln. Alternativ wäre zu klären, ob solche Beziehungen schon aus den Eingabe-<br />

Schemata zu erkennen sind.<br />

75

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!