18.11.2012 Aufrufe

Dokument 1 - RWTH Aachen University

Dokument 1 - RWTH Aachen University

Dokument 1 - RWTH Aachen University

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2.2 Datenintegration 19<br />

und Abbildungen zu den externen Schemata anderer Knoten. Durch die Abbildung wird also das<br />

„Netzwerk“ der Datenquellen aufgebaut.<br />

Das Problem hierbei ist, dass es kein integriertes Schema gibt, das als Referenzschema für einen<br />

LAV- oder GAV-Ansatz benutzt werden kann. Für solche Systeme ist die Kombination beider<br />

Ansätze in einem GLAV-Ansatz sinnvoll [Friedman et al., 1999]. Dennoch wird derzeit eine<br />

formale Darstellung für Peer-to-Peer-Systeme verwendet, die sich an den bekannten LAV- und<br />

GAV-Ansätzen zur Datenintegration orientiert [Halevy et al., 2003a; Calvanese et al., 2003].<br />

Eine Abbildung zwischen zwei Schemata (zwischen internem Schema und Peer-Schema eines<br />

Knotens oder zwischen Peer-Schemata verschiedener Knoten) wird formal durch die Formel<br />

q1 ❀ q2 dargestellt. Im allgemeinsten Fall bezeichnet ein qi jeweils eine Anfrage über ein Schema.<br />

Zu beachten ist hierbei, dass durch die Abbildungen eine zyklische Abhängigkeit zwischen<br />

den Knoten des Peer-to-Peer-Systems definiert werden kann. Interpretiert man die Abbildungen<br />

zwischen den Knoten und innerhalb eines Knotens z.B. als Datalog-Regeln, und wendet die<br />

üblichen Auswertungsstrategien an, so ist es möglich, dass die Auswertung aufgrund der zyklischen<br />

Abhängigkeiten nicht terminiert bzw. es kann nicht entschieden werden, ob ein Objekt im<br />

Ergebnis einer Anfrage enthalten ist oder nicht [Halevy et al., 2003a]. Dieser Fall wird z.B. in<br />

[Calvanese et al., 2003] betrachtet. Die Autoren schlagen eine spezielle Semantik zur Interpretation<br />

der Abbildungen vor, um auch bei zyklischen Abhängigkeiten zwischen den Knoten eine<br />

Anfrage beantworten zu können.<br />

In [Stuckenschmidt et al., 2002] beschränken die Autoren die Ausdrücke in einer Abbildung<br />

zwischen zwei Schemata auf atomare Ausdrücke. Zyklische Abhängigkeiten werden nicht angesprochen,<br />

da die Anfrageverarbeitung nur aus der Sicht eines Knotens betrachtet wird, d.h.<br />

ein Knoten erhält eine Anfrage eines anderen Knotens und muss zu dieser Anfrage ein Ergebnis<br />

liefern. Dabei ist das Problem zu beachten, dass dem Knoten nicht alle Konzepte bekannt sind,<br />

die in der Anfrage benutzt werden. Stuckenschmidt et al. schlagen daher eine Methode vor, die<br />

die unbekannten Konzepte durch bekannte Konzepte approximiert. Durch die Konstruktion einer<br />

Klassenhierarchie können obere und untere Schranken für ein Konzept angegeben werden, die<br />

als Approximation genutzt werden.<br />

Diese Approximation von unbekannten Konzepten ist eng mit den Arbeiten zur (semi-)automatischen<br />

Erkennung von semantischen Zusammenhängen zwischen Datenquellen in Peer-to-<br />

Peer-Systemen verknüpft. Die automatische Erkennung der Abhängigkeiten zwischen Datenquellen<br />

(und integriertem Schema, sofern es existiert) ist vor allem in einer dynamischen Umgebung<br />

mit sich häufig ändernden Datenquellen sinnvoll. Dies ist insbesondere bei Internet-<br />

Informationssystemen der Fall, da hier die Datenquellen vollkommen unabhängig sind und nicht<br />

von einer Organisation kontrolliert werden können. Die Erstellung der Abbildungen zwischen<br />

integriertem Schema und Datenquellen ist zur Zeit noch ein aufwendiger manueller Prozess, dessen<br />

Ergebnis die Qualität des Integrationssystems bestimmt. Entsprechende semi-automatische<br />

Verfahren werden derzeit entwickelt (siehe z.B. [König-Ries, 2000; Bergamaschi et al., 2001;<br />

Madhavan et al., 2001]).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!