Kann hier auch als PDF-Dokument heruntergeladen werden.
Kann hier auch als PDF-Dokument heruntergeladen werden.
Kann hier auch als PDF-Dokument heruntergeladen werden.
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
April 2007 Unsere Archive Nr. 52 35<br />
wird ein so genannter Offline-Browser verwendet<br />
– derzeit das Open Source Produkt<br />
HTTrack. 8 Dieses Tool arbeitet sich sozusagen<br />
Link für Link durch das zu archivierende Objekt<br />
und kopiert jede Seite, wobei die interne Struktur<br />
der Website erhalten bleibt – das Ergebnis ist<br />
eine genaue Spiegelung des Originalangebots.<br />
Dabei sind verschiedene Konfigurationsmöglichkeiten<br />
möglich: So lässt sich beispielsweise<br />
einstellen, wie viele Ebenen eingesammelt <strong>werden</strong><br />
sollen, ob <strong>auch</strong> externe Links verfolgt <strong>werden</strong><br />
sollen, ob bestimmte Dateien oder Formate<br />
nicht abgespeichert <strong>werden</strong> sollen, welche maximale<br />
Größe die Dateien haben dürfen etc. Die<br />
eingesammelten Objekte <strong>werden</strong> direkt auf Archivservern<br />
im hbz abgelegt.<br />
Mit etwas Erfahrung funktioniert das Abspeichern<br />
im Allgemeinen recht gut. Mitunter treten<br />
jedoch Probleme auf, insbesondere bei Websites,<br />
die dynamisch generiert <strong>werden</strong> (meist mit<br />
Hilfe eines Content Management Systems). Aus<br />
technischen Gründen noch gänzlich ausgenommen<br />
müssen Online-Datenbanken bleiben.<br />
Inhalte von Datenbanken lassen sich freilich mit<br />
HTTrack oder ähnlichen Tools nicht abspeichern,<br />
ebensowenig wie sie von Suchmaschinen<br />
indexiert <strong>werden</strong> können – man spricht deshalb<br />
<strong>auch</strong> vom ‘Deep’ oder ‘Invisible Web’. Für die<br />
Übernahme ganzer Datenbanken müssen daher<br />
neue technische Konzepte in Kooperation mit<br />
den Betreibern erarbeitet <strong>werden</strong>.<br />
Für jede gespeicherte Netzpublikation <strong>werden</strong><br />
neben bibliographischen <strong>auch</strong> technische Metadaten<br />
erfasst bzw. automatisch vom System erzeugt<br />
(z. B. Dateigrößen und Formate). Diese<br />
Informationen stellen eine wichtige Voraussetzung<br />
für die eigentliche Langzeitarchivierung<br />
dar. Außerdem wird eine URN (Uniform Resource<br />
Name) vergeben, um einen dauerhaften<br />
Zugriff zu gewährleisten, <strong>auch</strong> wenn sich die<br />
Adresse des Archivobjekts einmal ändern sollte.<br />
Recherchemöglichkeiten<br />
Für die Konzeption von edoweb war der Gedanke<br />
grundlegend, dass Netzpublikationen aufgrund<br />
ihres neuartigen Charakters und ihrer großen<br />
Zahl anders zu erschließen sind <strong>als</strong> Gedrucktes.<br />
Die in elektronischen <strong>Dokument</strong>en<br />
mögliche Volltextsuche erlaubt es, den herkömmlichen<br />
Erschließungsaufwand zu reduzieren.<br />
Auch bei der Auswahl der relevanten Obdie<br />
Langzeitarchivierung eingehen können, muss<br />
im Einzelnen noch festgelegt <strong>werden</strong>.<br />
8 URL: .<br />
jekte soll Suchmaschinentechnologie zum Einsatz<br />
kommen. Im Projekt AULA soll die Suchmaschine<br />
FAST mittels der Ortslisten sowie des<br />
Schlagwortvokabulars aus der Rheinland-<br />
Pfälzischen Bibliographie so konditioniert <strong>werden</strong>,<br />
dass automatisch landeskundlich relevante<br />
Websites eingesammelt <strong>werden</strong>. 9 Durch diesen<br />
angestrebten hohen Grad an Automatisierung<br />
soll der Personalaufwand für den neuen Sammelauftrag<br />
in vertretbaren Grenzen gehalten<br />
<strong>werden</strong>. Die Reduktion der Erschließung für das<br />
einzelne Objekt erlaubt es außerdem, sich bei<br />
der Sammlung und Archivierung nicht allein auf<br />
qualitativ hochwertige Websites zu beschränken,<br />
sondern vielmehr einen landeskundlich repräsentativen<br />
Grundbestand anzubieten, wie er<br />
<strong>auch</strong> bisher Merkmal der Sammlungstätigkeit<br />
von Regionalbibliotheken war. Trotzdem besteht<br />
parallel dazu die Möglichkeit, qualitativ hochwertige<br />
Websites oder Pflichtexemplare formal<br />
und sachlich herkömmlich zu erschließen.<br />
Im Gegensatz zur Praxis in OPUS <strong>werden</strong> die<br />
Netzpublikationen direkt im Verbundkatalog erfasst.<br />
Dabei bleibt es bei der bisherigen Maxime,<br />
dass Websites nach geringeren Standards erschlossen<br />
<strong>werden</strong>. Erfasst <strong>werden</strong> der Titel in<br />
Vorlageform, freie Schlagwörter und der Verfasser<br />
oder – bei Webseiten üblicher – die herausgebende<br />
Körperschaft. Geplant ist, sofern<br />
nicht vorhanden, eine Ansetzung in der Gemeinsamen<br />
Körperschaftsdatei, der in deutschen Bibliothekswelt<br />
einheitlich gepflegten Normdatei.<br />
Zusätzlich wird jeder Titel nach den Hauptgruppen<br />
der Dewey Decimal Classification sowie<br />
nach der Systematik der Rheinland-Pfälzischen<br />
Bibliographie sachlich eingeordnet.<br />
Die ID-Nummer des Titelsatzes wird nun beim<br />
Hochladen des eingesammelten digitalen Objekts<br />
in den Medienserver in eine Erfassungsmaske<br />
eingetragen. Dadurch <strong>werden</strong> zum Einen<br />
die bibliographischen Metadaten aus dem Verbundkatalog<br />
mit dem Objekt verknüpft und in<br />
den Medienserver übernommen. Zum Anderen<br />
wird die Archiv-URL aus dem Medienserver in<br />
den Verbundkatalog übernommen und gewährleistet<br />
den direkten Zugriff <strong>auch</strong> von dort auf<br />
das Objekt. Eine Überspielung der Daten aus<br />
dem Verbundkatalog in den lokalen LBZ-<br />
Katalog erfolgt in regelmäßigen Abständen.<br />
Neben diesen Sucheinstiegen ist es zudem möglich,<br />
direkt im Medienserver im Bestand des<br />
9 Wegen der bislang noch fehlenden rechtlichen<br />
Grundlage (s. u.) befindet sich das Projekt in einer<br />
Warteposition.