Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2.2 Datenintegration 19<br />
und Abbildungen zu den externen Schemata anderer Knoten. Durch die Abbildung wird also das<br />
„Netzwerk“ der Datenquellen aufgebaut.<br />
Das Problem hierbei ist, dass es kein integriertes Schema gibt, das als Referenzschema für einen<br />
LAV- oder GAV-Ansatz benutzt werden kann. Für solche Systeme ist die Kombination beider<br />
Ansätze in einem GLAV-Ansatz sinnvoll [Friedman et al., 1999]. Dennoch wird derzeit eine<br />
formale Darstellung für Peer-to-Peer-Systeme verwendet, die sich an den bekannten LAV- und<br />
GAV-Ansätzen zur Datenintegration orientiert [Halevy et al., 2003a; Calvanese et al., 2003].<br />
Eine Abbildung zwischen zwei Schemata (zwischen internem Schema und Peer-Schema eines<br />
Knotens oder zwischen Peer-Schemata verschiedener Knoten) wird formal durch die Formel<br />
q1 ❀ q2 dargestellt. Im allgemeinsten Fall bezeichnet ein qi jeweils eine Anfrage über ein Schema.<br />
Zu beachten ist hierbei, dass durch die Abbildungen eine zyklische Abhängigkeit zwischen<br />
den Knoten des Peer-to-Peer-Systems definiert werden kann. Interpretiert man die Abbildungen<br />
zwischen den Knoten und innerhalb eines Knotens z.B. als Datalog-Regeln, und wendet die<br />
üblichen Auswertungsstrategien an, so ist es möglich, dass die Auswertung aufgrund der zyklischen<br />
Abhängigkeiten nicht terminiert bzw. es kann nicht entschieden werden, ob ein Objekt im<br />
Ergebnis einer Anfrage enthalten ist oder nicht [Halevy et al., 2003a]. Dieser Fall wird z.B. in<br />
[Calvanese et al., 2003] betrachtet. Die Autoren schlagen eine spezielle Semantik zur Interpretation<br />
der Abbildungen vor, um auch bei zyklischen Abhängigkeiten zwischen den Knoten eine<br />
Anfrage beantworten zu können.<br />
In [Stuckenschmidt et al., 2002] beschränken die Autoren die Ausdrücke in einer Abbildung<br />
zwischen zwei Schemata auf atomare Ausdrücke. Zyklische Abhängigkeiten werden nicht angesprochen,<br />
da die Anfrageverarbeitung nur aus der Sicht eines Knotens betrachtet wird, d.h.<br />
ein Knoten erhält eine Anfrage eines anderen Knotens und muss zu dieser Anfrage ein Ergebnis<br />
liefern. Dabei ist das Problem zu beachten, dass dem Knoten nicht alle Konzepte bekannt sind,<br />
die in der Anfrage benutzt werden. Stuckenschmidt et al. schlagen daher eine Methode vor, die<br />
die unbekannten Konzepte durch bekannte Konzepte approximiert. Durch die Konstruktion einer<br />
Klassenhierarchie können obere und untere Schranken für ein Konzept angegeben werden, die<br />
als Approximation genutzt werden.<br />
Diese Approximation von unbekannten Konzepten ist eng mit den Arbeiten zur (semi-)automatischen<br />
Erkennung von semantischen Zusammenhängen zwischen Datenquellen in Peer-to-<br />
Peer-Systemen verknüpft. Die automatische Erkennung der Abhängigkeiten zwischen Datenquellen<br />
(und integriertem Schema, sofern es existiert) ist vor allem in einer dynamischen Umgebung<br />
mit sich häufig ändernden Datenquellen sinnvoll. Dies ist insbesondere bei Internet-<br />
Informationssystemen der Fall, da hier die Datenquellen vollkommen unabhängig sind und nicht<br />
von einer Organisation kontrolliert werden können. Die Erstellung der Abbildungen zwischen<br />
integriertem Schema und Datenquellen ist zur Zeit noch ein aufwendiger manueller Prozess, dessen<br />
Ergebnis die Qualität des Integrationssystems bestimmt. Entsprechende semi-automatische<br />
Verfahren werden derzeit entwickelt (siehe z.B. [König-Ries, 2000; Bergamaschi et al., 2001;<br />
Madhavan et al., 2001]).