26.02.2014 Aufrufe

Linux-Magazin Der Aufbruch (Vorschau)

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Software<br />

www.linux-magazin.de Bitparade 06/2013<br />

46<br />

Langzeitarchivierung<br />

Dauerlösung<br />

Digitale Dokumente der Zeitgeschichte sind flüchtiger als Stein, Pergament oder Papier. Drei Archivierungstools<br />

helfen gegen das Vergessen und sichern Internetauftritte. Mela Eckenfels, Heike Jurzik<br />

© Fedor Selivanov, 123rf.com<br />

Das Internet vergisst nichts! Von wegen,<br />

die durchschnittliche Lebensdauer einer<br />

Webseite beträgt laut Internet Archive<br />

nur 77 Tage [1]. Die Flüchtigkeit digitaler<br />

Informationen bereitet vor allem den Archiven<br />

Kopfzerbrechen, die zunehmend<br />

mit Hilfe dynamischer Webanwendungen<br />

publizieren. Stadt-, Regional- und Kommunalarchive<br />

sind nach den Archivgesetzen<br />

der Länder verpflichtet ihre Daten<br />

zu speichern, aber auch Instituts- oder<br />

Unternehmensarchive möchten solche Inhalte<br />

aufbewahren. Es reicht längst nicht<br />

mehr aus, einfache Backups der Internetpräsenz<br />

auf zukunftssicheren Medien<br />

zu speichern – in nur 20 Jahren dürfte<br />

selbst ein geschickter Admin ein heute<br />

zeitgemäßes Contentmanagement-System<br />

kaum installieren können.<br />

Viele Archive behelfen sich, indem sie<br />

einzelne relevante Seiten in Handarbeit<br />

als PDF-Dateien sichern [2]. Ein solches<br />

Vorgehen kann jedoch nicht mehr als eine<br />

Notlösung sein. Abhilfe versprechen auf<br />

Langzeitarchivierung spezialisierte Tools.<br />

Neben sehr teuren kommerziellen Lösungen<br />

werben auch einige Open-Source-<br />

Vertreter um die Gunst der Archivare.<br />

Httrack [3], die Netarchive Suite [4] und<br />

das Web Curator Tool [5] zeigen in dieser<br />

Bitparade unter Ubuntu 12.10 und auf<br />

einem Cloud-<strong>Linux</strong> (Amazon, basierend<br />

auf RHEL 5), wie sie digitale Informationen<br />

aufbewahren.<br />

Die Tester ließen die Werkzeuge Daten<br />

von unterschiedlichen Contentmanagement-Systemen,<br />

Blog- und Forensoftware<br />

erheben. Sie wählten eigene Webseiten,<br />

um sicherzustellen, dass der jeweilige<br />

Crawler auf alle Inhalte zugreifen durfte.<br />

E Httrack<br />

Den Auftakt macht das älteste Tool. Den<br />

unter der GPL veröffentlichten Offlinebrowser<br />

Httrack [3] gibt es bereits seit<br />

zehn Jahren. Er steht auf der Projektseite<br />

für <strong>Linux</strong>-, BSD- und Windows-Systeme<br />

zum Download bereit. Im Test trat die<br />

aktuelle Version 3.46 vom Juni 2012 an.<br />

Das in C programmierte Werkzeug benötigt<br />

für den Betrieb keine Datenbank.<br />

<strong>Linux</strong>-Anwender nutzen es entweder<br />

auf der Kommandozeile oder über ein<br />

Web interface. Zusätzlich ist ein in Qt implementiertes<br />

GUI namens Httraqt [6]<br />

verfügbar.<br />

Auf einem Standard-<strong>Linux</strong>-System ist<br />

Httrack schnell eingerichtet. Pakete für<br />

Debian, Ubuntu, Gentoo, Fedora, Red<br />

Hat und Mandriva bietet die Downloadseite.<br />

Auf einigen Distributionen, so auch<br />

auf dem Ubuntu-Testrechner, gibt es zwei<br />

Pakete – eins für das Kommandozeilentool<br />

(»httrack«) und eins für das Webinterface<br />

(»webhttrack«). Ersteres bietet<br />

zwei Betriebsarten: Entweder startet der<br />

Anwender über Eingabe von »httrack«<br />

den interaktiven Modus und beantwortet<br />

Fragen oder er gibt über Aufrufparameter<br />

seine Wünsche an. Die Manpage und der<br />

Befehl »httrack ‐‐help« listen die wichtigsten<br />

Optionen auf.<br />

Wiedererkennungswert?<br />

Das Webinterface fragt die gleichen Dinge<br />

ab wie das interaktive Shelltool. Zunächst<br />

möchte Httrack einen Projektnamen einrichten,<br />

danach ein Verzeichnis für das<br />

lokale Archiv. Benutzer geben nun die zu<br />

archivierende URL an und wählen aus,<br />

ob sie die Webseite mit oder ohne Hilfe<br />

des Assistenten spiegeln, nur die Zieldatei<br />

speichern, alle Links der URL spiegeln<br />

oder einfach nur die Links testen möchten.<br />

Um ein möglichst komplettes Archiv<br />

zu erhalten, empfiehlt sich die Arbeit mit<br />

dem Assistenten, der detaillierte Fragen<br />

stellt (siehe Abbildung 1).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!