pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Verwendete Schemata<br />
Für die Experimente in diesem Kapitel wurden acht verschiedene Schemata verwendet,<br />
von denen jeweils zwei zu einem Themenbereich gehören <strong>und</strong> entsprechend gematcht<br />
werden sollen. Diese sollen hier kurz erläutert werden. Die Schemata sowie ihre graphische<br />
Repräsentationen sind in Anhang B zu finden. Wie erwähnt wurden Datentypen<br />
hier weggelassen.<br />
1. Die ersten beiden zu matchenden Schemata sind unterschiedliche Darstellungen<br />
einer Musiksammlung. Schema 1 enthält dabei Informationen über CDs, Musikstücke<br />
<strong>und</strong> Interpreten sowie darüber. Schema 2 enthält zusätzlich Informationen<br />
über Produzenten <strong>und</strong> unterscheidet zwischen Alben <strong>und</strong> Samplern.<br />
Da es bei beiden Schemata um das Speichern einer Musiksammlung geht, gibt<br />
es hier eine Reihe von offensichtlichen Gemeinsamkeiten – etwa die Geburtsdaten<br />
in beiden INTERPRET-Relationen – <strong>und</strong> Unterschieden – etwa die Primärschlüssel<br />
der INTERPRET-Relationen der Schemata. Für die Experimente wesentlich<br />
interessanter sind allerdings die nicht-eindeutigen Punkte. So ließe sich<br />
die ENTHÄLT-Relation aus Schema 1 sowohl der ALBUMSONG- als auch der<br />
SAMPLERSONG-Relation aus Schema 2 sinnvoll zuordnen. Schema 1 ist also in<br />
Teilen eine Generalisierung von Schema 2, woraus sich für die Experimente die Frage<br />
ergibt, ob <strong>und</strong> wie das Similarity Flooding diese Generalisierung durch sinnvolle<br />
Matching-Kandidaten „ausdrücken“ kann.<br />
2. Die nächsten zu matchenden Schemata sind unterschiedliche Möglichkeiten, um Informationen<br />
über Reisen mit Bussen darzustellen. Die Schemata wurden dabei aus<br />
[IntDB10] entnommen. Schema 1 enthält Informationen über Städte, Busse, Tagestouren<br />
<strong>und</strong> darüber, wann welche Tour mit welchem Bus welche Stadt besucht.<br />
Schema 2 enthält zusätzlich weitere Informationen über die Fahrer der Busse, gibt<br />
aber keine Auskünfte darüber, welche Städte befahren werden, sondern nur, welche<br />
Länder.<br />
Schema 1 stellt extensional im Wesentlichen eine Teilmenge von Schema 2 dar,<br />
sodass in den Experimenten zu überprüfen ist, wie das Similarity Flooding damit<br />
umgeht <strong>und</strong> ob Matching-Kandidaten geliefert werden, die diese Teilmengen-<br />
Beziehung sinnvoll zum Ausdruck bringen.<br />
3. Bei den nächsten beiden Schemata handelt es sich um Informationen über Verlage.<br />
Schema 1 enthält Informationen über Autoren, Fotografen, Verlage, Artikel <strong>und</strong><br />
Zeitschriften sowie darüber, welche Artikel von welchem Autoren verfasst werden,<br />
welcher Fotograf Fotos dazu liefert <strong>und</strong> in welcher Zeitschrift welcher Artikel erscheint.<br />
Schema 2 enthält Informationen über Redakteure, freie Mitarbeiter <strong>und</strong><br />
Artikel <strong>und</strong> zusätzlich darüber, welche Gage ein Mitarbeiter für einen Artikel bekommt.<br />
Ähnlich wie bei den Musiksammlungs-Schemata sind hier Strukturen vorhanden,<br />
die bei einer Integration durch Generalisierungen gelöst werden müssten. FREI-<br />
66