23.11.2012 Aufrufe

Schriftliche Ausarbeitung zum Referat - Universität Konstanz

Schriftliche Ausarbeitung zum Referat - Universität Konstanz

Schriftliche Ausarbeitung zum Referat - Universität Konstanz

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Nachteile des Wrappings<br />

- Schlechtere Performance<br />

Der Zugriff auf die Datenquelle erfolgt beim Wrapping indirekt im Gegensatz <strong>zum</strong><br />

direkten Zugriff ohne Wrapping. Dadurch wird der Zugriff langsamer. Insbesondere<br />

bei Systemen mit hohen Zugriffszahlen kann die Effizienz der Wrapper daher<br />

entscheidend sein.<br />

- Aktualität der Wrapper erforderlich<br />

Mit Veränderungen der Anwendung müssen ggf. auch die Wrapper angepasst<br />

werden, da Aktualität der Wrapper Grundvoraussetzung für das Funktionieren des<br />

Abfragesystems ist. Daraus können zusätzliche Kosten entstehen, wenn das<br />

Wrapping-System nicht gut konzipiert wurde.<br />

3.5 Erzeugung von Wrappern<br />

Bislang gibt es noch keine Standards über die interne Architektur von Wrappern.<br />

Insbesondere ist nicht geregelt, wie ein Wrapper von einer Anwendung bzw. einem<br />

Middleware-System angesprochen werden soll, d. h. es gibt keine Vereinbarungen über die<br />

Abfragesprachen (seitens der Anwendung) oder das Datenmodell der Wrapper. Der<br />

Austausch von Wrappern oder Wrapperkomponenten zwischen Systemen ist damit noch<br />

weitgehend ausgeschlossen.<br />

Es wird jedoch intensiv an Ansätzen zur automatischen bzw. halbautomatischen Generierung<br />

von Wrappern, insbesondere für das Web, geforscht.<br />

Dies hängt damit zusammen, dass die Programmierung von Wrappern „von Hand“ eine Reihe<br />

von Nachteilen mit sich bringt:<br />

- Inhalt und Struktur der Quellen im Web variieren sehr stark. Das bedeutet, dass<br />

jeder benötigte Wrapper von Grund auf neu geschrieben werden muss, da eine<br />

Wiederverwendung nicht möglich ist. Dies ist besonders gravierend angesichts der<br />

Tatsache, dass Informationsintegrationssysteme mit möglichst guter Skalierbarkeit<br />

(ausgehend von mindestens 100 Quellen) angestrebt werden.<br />

- Die Struktur von Online-Informationen wechselt regelmäßig, so dass häufige<br />

Anpassungen nötig sind.<br />

- Manuelle Entwicklung und Pflege von Wrappern ist generell sehr arbeitsaufwendig<br />

und fehleranfällig.<br />

Systeme zur Generierung von Wrappern für das WWW verwenden in der Regel deklarative<br />

Informationsextraktionsregeln, die der Benutzer in einer dafür konzipierten Sprache eingeben<br />

oder anhand einer Beispielseite der zu wrappenden Quelle mit Hilfe eines graphischen<br />

Interfaces spezifizieren kann. Basierend auf den Regeln wird anschließend der Wrappercode<br />

automatisch generiert. Beispiele für solche System sind W4F [Sahuguet, Azavant 1999] und<br />

XWRAP [Liu, Pu, Han 2000], welches nachfolgend vorgestellt werden soll.<br />

3.6 Beispiel XWRAP: System zur Erzeugung von Wrappern<br />

Bei XWRAP handelt es sich um ein interaktives System zur halbautomatischen Konstruktion<br />

von Wrappern für Webquellen. Die zu konstruierenden Wrapper sind darauf ausgelegt,<br />

implizite Metadaten über Informationsinhalte in den HTML-Seiten der Quellen zu extrahieren<br />

9

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!