27.04.2014 Aufrufe

Kann hier auch als PDF-Dokument heruntergeladen werden.

Kann hier auch als PDF-Dokument heruntergeladen werden.

Kann hier auch als PDF-Dokument heruntergeladen werden.

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

April 2007 Unsere Archive Nr. 52 35<br />

wird ein so genannter Offline-Browser verwendet<br />

– derzeit das Open Source Produkt<br />

HTTrack. 8 Dieses Tool arbeitet sich sozusagen<br />

Link für Link durch das zu archivierende Objekt<br />

und kopiert jede Seite, wobei die interne Struktur<br />

der Website erhalten bleibt – das Ergebnis ist<br />

eine genaue Spiegelung des Originalangebots.<br />

Dabei sind verschiedene Konfigurationsmöglichkeiten<br />

möglich: So lässt sich beispielsweise<br />

einstellen, wie viele Ebenen eingesammelt <strong>werden</strong><br />

sollen, ob <strong>auch</strong> externe Links verfolgt <strong>werden</strong><br />

sollen, ob bestimmte Dateien oder Formate<br />

nicht abgespeichert <strong>werden</strong> sollen, welche maximale<br />

Größe die Dateien haben dürfen etc. Die<br />

eingesammelten Objekte <strong>werden</strong> direkt auf Archivservern<br />

im hbz abgelegt.<br />

Mit etwas Erfahrung funktioniert das Abspeichern<br />

im Allgemeinen recht gut. Mitunter treten<br />

jedoch Probleme auf, insbesondere bei Websites,<br />

die dynamisch generiert <strong>werden</strong> (meist mit<br />

Hilfe eines Content Management Systems). Aus<br />

technischen Gründen noch gänzlich ausgenommen<br />

müssen Online-Datenbanken bleiben.<br />

Inhalte von Datenbanken lassen sich freilich mit<br />

HTTrack oder ähnlichen Tools nicht abspeichern,<br />

ebensowenig wie sie von Suchmaschinen<br />

indexiert <strong>werden</strong> können – man spricht deshalb<br />

<strong>auch</strong> vom ‘Deep’ oder ‘Invisible Web’. Für die<br />

Übernahme ganzer Datenbanken müssen daher<br />

neue technische Konzepte in Kooperation mit<br />

den Betreibern erarbeitet <strong>werden</strong>.<br />

Für jede gespeicherte Netzpublikation <strong>werden</strong><br />

neben bibliographischen <strong>auch</strong> technische Metadaten<br />

erfasst bzw. automatisch vom System erzeugt<br />

(z. B. Dateigrößen und Formate). Diese<br />

Informationen stellen eine wichtige Voraussetzung<br />

für die eigentliche Langzeitarchivierung<br />

dar. Außerdem wird eine URN (Uniform Resource<br />

Name) vergeben, um einen dauerhaften<br />

Zugriff zu gewährleisten, <strong>auch</strong> wenn sich die<br />

Adresse des Archivobjekts einmal ändern sollte.<br />

Recherchemöglichkeiten<br />

Für die Konzeption von edoweb war der Gedanke<br />

grundlegend, dass Netzpublikationen aufgrund<br />

ihres neuartigen Charakters und ihrer großen<br />

Zahl anders zu erschließen sind <strong>als</strong> Gedrucktes.<br />

Die in elektronischen <strong>Dokument</strong>en<br />

mögliche Volltextsuche erlaubt es, den herkömmlichen<br />

Erschließungsaufwand zu reduzieren.<br />

Auch bei der Auswahl der relevanten Obdie<br />

Langzeitarchivierung eingehen können, muss<br />

im Einzelnen noch festgelegt <strong>werden</strong>.<br />

8 URL: .<br />

jekte soll Suchmaschinentechnologie zum Einsatz<br />

kommen. Im Projekt AULA soll die Suchmaschine<br />

FAST mittels der Ortslisten sowie des<br />

Schlagwortvokabulars aus der Rheinland-<br />

Pfälzischen Bibliographie so konditioniert <strong>werden</strong>,<br />

dass automatisch landeskundlich relevante<br />

Websites eingesammelt <strong>werden</strong>. 9 Durch diesen<br />

angestrebten hohen Grad an Automatisierung<br />

soll der Personalaufwand für den neuen Sammelauftrag<br />

in vertretbaren Grenzen gehalten<br />

<strong>werden</strong>. Die Reduktion der Erschließung für das<br />

einzelne Objekt erlaubt es außerdem, sich bei<br />

der Sammlung und Archivierung nicht allein auf<br />

qualitativ hochwertige Websites zu beschränken,<br />

sondern vielmehr einen landeskundlich repräsentativen<br />

Grundbestand anzubieten, wie er<br />

<strong>auch</strong> bisher Merkmal der Sammlungstätigkeit<br />

von Regionalbibliotheken war. Trotzdem besteht<br />

parallel dazu die Möglichkeit, qualitativ hochwertige<br />

Websites oder Pflichtexemplare formal<br />

und sachlich herkömmlich zu erschließen.<br />

Im Gegensatz zur Praxis in OPUS <strong>werden</strong> die<br />

Netzpublikationen direkt im Verbundkatalog erfasst.<br />

Dabei bleibt es bei der bisherigen Maxime,<br />

dass Websites nach geringeren Standards erschlossen<br />

<strong>werden</strong>. Erfasst <strong>werden</strong> der Titel in<br />

Vorlageform, freie Schlagwörter und der Verfasser<br />

oder – bei Webseiten üblicher – die herausgebende<br />

Körperschaft. Geplant ist, sofern<br />

nicht vorhanden, eine Ansetzung in der Gemeinsamen<br />

Körperschaftsdatei, der in deutschen Bibliothekswelt<br />

einheitlich gepflegten Normdatei.<br />

Zusätzlich wird jeder Titel nach den Hauptgruppen<br />

der Dewey Decimal Classification sowie<br />

nach der Systematik der Rheinland-Pfälzischen<br />

Bibliographie sachlich eingeordnet.<br />

Die ID-Nummer des Titelsatzes wird nun beim<br />

Hochladen des eingesammelten digitalen Objekts<br />

in den Medienserver in eine Erfassungsmaske<br />

eingetragen. Dadurch <strong>werden</strong> zum Einen<br />

die bibliographischen Metadaten aus dem Verbundkatalog<br />

mit dem Objekt verknüpft und in<br />

den Medienserver übernommen. Zum Anderen<br />

wird die Archiv-URL aus dem Medienserver in<br />

den Verbundkatalog übernommen und gewährleistet<br />

den direkten Zugriff <strong>auch</strong> von dort auf<br />

das Objekt. Eine Überspielung der Daten aus<br />

dem Verbundkatalog in den lokalen LBZ-<br />

Katalog erfolgt in regelmäßigen Abständen.<br />

Neben diesen Sucheinstiegen ist es zudem möglich,<br />

direkt im Medienserver im Bestand des<br />

9 Wegen der bislang noch fehlenden rechtlichen<br />

Grundlage (s. u.) befindet sich das Projekt in einer<br />

Warteposition.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!