Schriftliche Ausarbeitung zum Referat - Universität Konstanz
Schriftliche Ausarbeitung zum Referat - Universität Konstanz
Schriftliche Ausarbeitung zum Referat - Universität Konstanz
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Nachteile des Wrappings<br />
- Schlechtere Performance<br />
Der Zugriff auf die Datenquelle erfolgt beim Wrapping indirekt im Gegensatz <strong>zum</strong><br />
direkten Zugriff ohne Wrapping. Dadurch wird der Zugriff langsamer. Insbesondere<br />
bei Systemen mit hohen Zugriffszahlen kann die Effizienz der Wrapper daher<br />
entscheidend sein.<br />
- Aktualität der Wrapper erforderlich<br />
Mit Veränderungen der Anwendung müssen ggf. auch die Wrapper angepasst<br />
werden, da Aktualität der Wrapper Grundvoraussetzung für das Funktionieren des<br />
Abfragesystems ist. Daraus können zusätzliche Kosten entstehen, wenn das<br />
Wrapping-System nicht gut konzipiert wurde.<br />
3.5 Erzeugung von Wrappern<br />
Bislang gibt es noch keine Standards über die interne Architektur von Wrappern.<br />
Insbesondere ist nicht geregelt, wie ein Wrapper von einer Anwendung bzw. einem<br />
Middleware-System angesprochen werden soll, d. h. es gibt keine Vereinbarungen über die<br />
Abfragesprachen (seitens der Anwendung) oder das Datenmodell der Wrapper. Der<br />
Austausch von Wrappern oder Wrapperkomponenten zwischen Systemen ist damit noch<br />
weitgehend ausgeschlossen.<br />
Es wird jedoch intensiv an Ansätzen zur automatischen bzw. halbautomatischen Generierung<br />
von Wrappern, insbesondere für das Web, geforscht.<br />
Dies hängt damit zusammen, dass die Programmierung von Wrappern „von Hand“ eine Reihe<br />
von Nachteilen mit sich bringt:<br />
- Inhalt und Struktur der Quellen im Web variieren sehr stark. Das bedeutet, dass<br />
jeder benötigte Wrapper von Grund auf neu geschrieben werden muss, da eine<br />
Wiederverwendung nicht möglich ist. Dies ist besonders gravierend angesichts der<br />
Tatsache, dass Informationsintegrationssysteme mit möglichst guter Skalierbarkeit<br />
(ausgehend von mindestens 100 Quellen) angestrebt werden.<br />
- Die Struktur von Online-Informationen wechselt regelmäßig, so dass häufige<br />
Anpassungen nötig sind.<br />
- Manuelle Entwicklung und Pflege von Wrappern ist generell sehr arbeitsaufwendig<br />
und fehleranfällig.<br />
Systeme zur Generierung von Wrappern für das WWW verwenden in der Regel deklarative<br />
Informationsextraktionsregeln, die der Benutzer in einer dafür konzipierten Sprache eingeben<br />
oder anhand einer Beispielseite der zu wrappenden Quelle mit Hilfe eines graphischen<br />
Interfaces spezifizieren kann. Basierend auf den Regeln wird anschließend der Wrappercode<br />
automatisch generiert. Beispiele für solche System sind W4F [Sahuguet, Azavant 1999] und<br />
XWRAP [Liu, Pu, Han 2000], welches nachfolgend vorgestellt werden soll.<br />
3.6 Beispiel XWRAP: System zur Erzeugung von Wrappern<br />
Bei XWRAP handelt es sich um ein interaktives System zur halbautomatischen Konstruktion<br />
von Wrappern für Webquellen. Die zu konstruierenden Wrapper sind darauf ausgelegt,<br />
implizite Metadaten über Informationsinhalte in den HTML-Seiten der Quellen zu extrahieren<br />
9