30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Verwendete Schemata<br />

Für die Experimente in diesem Kapitel wurden acht verschiedene Schemata verwendet,<br />

von denen jeweils zwei zu einem Themenbereich gehören <strong>und</strong> entsprechend gematcht<br />

werden sollen. Diese sollen hier kurz erläutert werden. Die Schemata sowie ihre graphische<br />

Repräsentationen sind in Anhang B zu finden. Wie erwähnt wurden Datentypen<br />

hier weggelassen.<br />

1. Die ersten beiden zu matchenden Schemata sind unterschiedliche Darstellungen<br />

einer Musiksammlung. Schema 1 enthält dabei Informationen über CDs, Musikstücke<br />

<strong>und</strong> Interpreten sowie darüber. Schema 2 enthält zusätzlich Informationen<br />

über Produzenten <strong>und</strong> unterscheidet zwischen Alben <strong>und</strong> Samplern.<br />

Da es bei beiden Schemata um das Speichern einer Musiksammlung geht, gibt<br />

es hier eine Reihe von offensichtlichen Gemeinsamkeiten – etwa die Geburtsdaten<br />

in beiden INTERPRET-Relationen – <strong>und</strong> Unterschieden – etwa die Primärschlüssel<br />

der INTERPRET-Relationen der Schemata. Für die Experimente wesentlich<br />

interessanter sind allerdings die nicht-eindeutigen Punkte. So ließe sich<br />

die ENTHÄLT-Relation aus Schema 1 sowohl der ALBUMSONG- als auch der<br />

SAMPLERSONG-Relation aus Schema 2 sinnvoll zuordnen. Schema 1 ist also in<br />

Teilen eine Generalisierung von Schema 2, woraus sich für die Experimente die Frage<br />

ergibt, ob <strong>und</strong> wie das Similarity Flooding diese Generalisierung durch sinnvolle<br />

Matching-Kandidaten „ausdrücken“ kann.<br />

2. Die nächsten zu matchenden Schemata sind unterschiedliche Möglichkeiten, um Informationen<br />

über Reisen mit Bussen darzustellen. Die Schemata wurden dabei aus<br />

[IntDB10] entnommen. Schema 1 enthält Informationen über Städte, Busse, Tagestouren<br />

<strong>und</strong> darüber, wann welche Tour mit welchem Bus welche Stadt besucht.<br />

Schema 2 enthält zusätzlich weitere Informationen über die Fahrer der Busse, gibt<br />

aber keine Auskünfte darüber, welche Städte befahren werden, sondern nur, welche<br />

Länder.<br />

Schema 1 stellt extensional im Wesentlichen eine Teilmenge von Schema 2 dar,<br />

sodass in den Experimenten zu überprüfen ist, wie das Similarity Flooding damit<br />

umgeht <strong>und</strong> ob Matching-Kandidaten geliefert werden, die diese Teilmengen-<br />

Beziehung sinnvoll zum Ausdruck bringen.<br />

3. Bei den nächsten beiden Schemata handelt es sich um Informationen über Verlage.<br />

Schema 1 enthält Informationen über Autoren, Fotografen, Verlage, Artikel <strong>und</strong><br />

Zeitschriften sowie darüber, welche Artikel von welchem Autoren verfasst werden,<br />

welcher Fotograf Fotos dazu liefert <strong>und</strong> in welcher Zeitschrift welcher Artikel erscheint.<br />

Schema 2 enthält Informationen über Redakteure, freie Mitarbeiter <strong>und</strong><br />

Artikel <strong>und</strong> zusätzlich darüber, welche Gage ein Mitarbeiter für einen Artikel bekommt.<br />

Ähnlich wie bei den Musiksammlungs-Schemata sind hier Strukturen vorhanden,<br />

die bei einer Integration durch Generalisierungen gelöst werden müssten. FREI-<br />

66

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!