Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Dokument 1 - RWTH Aachen University
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
142 6 Ein Verfahren zur qualitätsorientierten Datenintegration in DW-Systemen<br />
Liste von relationalen Attributen −→ X identifiziert. Darüber hinaus werden Angaben zu den Domänen<br />
der Attribute benötigt, die in der Regel aber automatisch aus den Metadaten der Datenquellen<br />
extrahiert werden können. Entsprechende Elemente zur Repräsentation der Attributdomäne sind<br />
schon im DW-Metamodell enthalten (siehe Konzept RelationalDomain in Abbildung 3.12).<br />
Definition 6.5 (Spezifikation einer Relation):<br />
Eine Relation r wird spezifiziert durch einen Ausdruck über ein konzeptuelles Modell M =<br />
〈C, R, A, D〉 der Form<br />
mit<br />
r( −→ X ) ← p1( −→ Z1), . . . , pn( −→ Zn) |<br />
domain(X1, D1), . . . , domain(Xk, Dk),<br />
identify([ −→ W1], Y1), . . . , identify([ −→<br />
Wm], Ym)<br />
i) pi und −→ Zi definiert wie in Definition 6.2 (iii)-vii)),<br />
ii) −→ X = {X1, . . . , Xk} ist eine Menge von relationalen Variablen,<br />
iii) −→ Zi ⊆ {Y1, . . . , Yl} ∪ {k1, . . . , ko}, wobei die Yi konzeptuelle Variablen und die ki Konstanten<br />
sind,<br />
iv) −→ X = � −→<br />
Wi mit m ≤ l, und<br />
i=1,...,m<br />
v) RD = {D1, . . . , Dk} ist eine Menge von relationalen Domänen. ✷<br />
Die Definition stellt sicher, dass für alle relationalen Variablen eine Domäne spezifiziert ist, und<br />
dass jede relationale Variable mindestens durch eine konzeptuelle Variable identifiziert wird. Dabei<br />
muss aber nicht jede konzeptuelle Variable durch eine relationale Variable identifiziert werden,<br />
da einige konzeptuelle Variablen (Ym+1, . . . , Yl) als existenz-quantifizierte Variablen benutzt<br />
werden können. Im Folgenden bezieht sich der Begriff „Anfrage“ auf den ersten Teil der Spezifikation<br />
einer Relation, die „Annotation“ bezeichnet den zweiten Teil mit den Zusatzinformationen<br />
über Domänen und Identifizierung.<br />
Alle Relationen werden also als Sicht auf das konzeptuelle Modell dargestellt, sowohl die im<br />
DW zu materialisierenden Relationen als auch die Relationen der Datenquellen. Der Vorteil dieser<br />
Vorgehensweise liegt in der deklarativen Spezifikation der Daten im DW. Der Informationsbedarf<br />
der DW-Benutzer wird durch eine Anfrage über das konzeptuelle Modell bestimmt, das<br />
eine semantikreiche Darstellung der vorhandenen Informationen gibt, unabhängig davon wie die<br />
Daten gespeichert sind.<br />
Damit die Daten in das DW geladen werden können, ist aber eine Definition der DW-Relationen<br />
als Anfrage über die Datenquellen erforderlich. Dafür ist einerseits ein Algorithmus notwendig,<br />
der die Anfrage über das konzeptuelle Modell in eine Anfrage über die Datenquellen umschreibt.<br />
Andererseits ist ein Mediator notwendig, der angibt, wie die Daten aus den Datenquellen zu<br />
integrieren sind.