Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Software<br />
www.linux-magazin.de Bitparade 06/2013<br />
46<br />
Langzeitarchivierung<br />
Dauerlösung<br />
Digitale Dokumente der Zeitgeschichte sind flüchtiger als Stein, Pergament oder Papier. Drei Archivierungstools<br />
helfen gegen das Vergessen und sichern Internetauftritte. Mela Eckenfels, Heike Jurzik<br />
© Fedor Selivanov, 123rf.com<br />
Das Internet vergisst nichts! Von wegen,<br />
die durchschnittliche Lebensdauer einer<br />
Webseite beträgt laut Internet Archive<br />
nur 77 Tage [1]. Die Flüchtigkeit digitaler<br />
Informationen bereitet vor allem den Archiven<br />
Kopfzerbrechen, die zunehmend<br />
mit Hilfe dynamischer Webanwendungen<br />
publizieren. Stadt-, Regional- und Kommunalarchive<br />
sind nach den Archivgesetzen<br />
der Länder verpflichtet ihre Daten<br />
zu speichern, aber auch Instituts- oder<br />
Unternehmensarchive möchten solche Inhalte<br />
aufbewahren. Es reicht längst nicht<br />
mehr aus, einfache Backups der Internetpräsenz<br />
auf zukunftssicheren Medien<br />
zu speichern – in nur 20 Jahren dürfte<br />
selbst ein geschickter Admin ein heute<br />
zeitgemäßes Contentmanagement-System<br />
kaum installieren können.<br />
Viele Archive behelfen sich, indem sie<br />
einzelne relevante Seiten in Handarbeit<br />
als PDF-Dateien sichern [2]. Ein solches<br />
Vorgehen kann jedoch nicht mehr als eine<br />
Notlösung sein. Abhilfe versprechen auf<br />
Langzeitarchivierung spezialisierte Tools.<br />
Neben sehr teuren kommerziellen Lösungen<br />
werben auch einige Open-Source-<br />
Vertreter um die Gunst der Archivare.<br />
Httrack [3], die Netarchive Suite [4] und<br />
das Web Curator Tool [5] zeigen in dieser<br />
Bitparade unter Ubuntu 12.10 und auf<br />
einem Cloud-<strong>Linux</strong> (Amazon, basierend<br />
auf RHEL 5), wie sie digitale Informationen<br />
aufbewahren.<br />
Die Tester ließen die Werkzeuge Daten<br />
von unterschiedlichen Contentmanagement-Systemen,<br />
Blog- und Forensoftware<br />
erheben. Sie wählten eigene Webseiten,<br />
um sicherzustellen, dass der jeweilige<br />
Crawler auf alle Inhalte zugreifen durfte.<br />
E Httrack<br />
Den Auftakt macht das älteste Tool. Den<br />
unter der GPL veröffentlichten Offlinebrowser<br />
Httrack [3] gibt es bereits seit<br />
zehn Jahren. Er steht auf der Projektseite<br />
für <strong>Linux</strong>-, BSD- und Windows-Systeme<br />
zum Download bereit. Im Test trat die<br />
aktuelle Version 3.46 vom Juni 2012 an.<br />
Das in C programmierte Werkzeug benötigt<br />
für den Betrieb keine Datenbank.<br />
<strong>Linux</strong>-Anwender nutzen es entweder<br />
auf der Kommandozeile oder über ein<br />
Web interface. Zusätzlich ist ein in Qt implementiertes<br />
GUI namens Httraqt [6]<br />
verfügbar.<br />
Auf einem Standard-<strong>Linux</strong>-System ist<br />
Httrack schnell eingerichtet. Pakete für<br />
Debian, Ubuntu, Gentoo, Fedora, Red<br />
Hat und Mandriva bietet die Downloadseite.<br />
Auf einigen Distributionen, so auch<br />
auf dem Ubuntu-Testrechner, gibt es zwei<br />
Pakete – eins für das Kommandozeilentool<br />
(»httrack«) und eins für das Webinterface<br />
(»webhttrack«). Ersteres bietet<br />
zwei Betriebsarten: Entweder startet der<br />
Anwender über Eingabe von »httrack«<br />
den interaktiven Modus und beantwortet<br />
Fragen oder er gibt über Aufrufparameter<br />
seine Wünsche an. Die Manpage und der<br />
Befehl »httrack ‐‐help« listen die wichtigsten<br />
Optionen auf.<br />
Wiedererkennungswert?<br />
Das Webinterface fragt die gleichen Dinge<br />
ab wie das interaktive Shelltool. Zunächst<br />
möchte Httrack einen Projektnamen einrichten,<br />
danach ein Verzeichnis für das<br />
lokale Archiv. Benutzer geben nun die zu<br />
archivierende URL an und wählen aus,<br />
ob sie die Webseite mit oder ohne Hilfe<br />
des Assistenten spiegeln, nur die Zieldatei<br />
speichern, alle Links der URL spiegeln<br />
oder einfach nur die Links testen möchten.<br />
Um ein möglichst komplettes Archiv<br />
zu erhalten, empfiehlt sich die Arbeit mit<br />
dem Assistenten, der detaillierte Fragen<br />
stellt (siehe Abbildung 1).