Linux-Magazin Der Aufbruch (Vorschau)

Software 

www.linux-magazin.de Bitparade 06/2013 

46 

Langzeitarchivierung 

Dauerlösung 

Digitale Dokumente der Zeitgeschichte sind flüchtiger als Stein, Pergament oder Papier. Drei Archivierungstools 

helfen gegen das Vergessen und sichern Internetauftritte. Mela Eckenfels, Heike Jurzik 

© Fedor Selivanov, 123rf.com 

Das Internet vergisst nichts! Von wegen, 

die durchschnittliche Lebensdauer einer 

Webseite beträgt laut Internet Archive 

nur 77 Tage [1]. Die Flüchtigkeit digitaler 

Informationen bereitet vor allem den Archiven 

Kopfzerbrechen, die zunehmend 

mit Hilfe dynamischer Webanwendungen 

publizieren. Stadt-, Regional- und Kommunalarchive 

sind nach den Archivgesetzen 

der Länder verpflichtet ihre Daten 

zu speichern, aber auch Instituts- oder 

Unternehmensarchive möchten solche Inhalte 

aufbewahren. Es reicht längst nicht 

mehr aus, einfache Backups der Internetpräsenz 

auf zukunftssicheren Medien 

zu speichern – in nur 20 Jahren dürfte 

selbst ein geschickter Admin ein heute 

zeitgemäßes Contentmanagement-System 

kaum installieren können. 

Viele Archive behelfen sich, indem sie 

einzelne relevante Seiten in Handarbeit 

als PDF-Dateien sichern [2]. Ein solches 

Vorgehen kann jedoch nicht mehr als eine 

Notlösung sein. Abhilfe versprechen auf 

Langzeitarchivierung spezialisierte Tools. 

Neben sehr teuren kommerziellen Lösungen 

werben auch einige Open-Source- 

Vertreter um die Gunst der Archivare. 

Httrack [3], die Netarchive Suite [4] und 

das Web Curator Tool [5] zeigen in dieser 

Bitparade unter Ubuntu 12.10 und auf 

einem Cloud-Linux (Amazon, basierend 

auf RHEL 5), wie sie digitale Informationen 

aufbewahren. 

Die Tester ließen die Werkzeuge Daten 

von unterschiedlichen Contentmanagement-Systemen, 

Blog- und Forensoftware 

erheben. Sie wählten eigene Webseiten, 

um sicherzustellen, dass der jeweilige 

Crawler auf alle Inhalte zugreifen durfte. 

E Httrack 

Den Auftakt macht das älteste Tool. Den 

unter der GPL veröffentlichten Offlinebrowser 

Httrack [3] gibt es bereits seit 

zehn Jahren. Er steht auf der Projektseite 

für Linux-, BSD- und Windows-Systeme 

zum Download bereit. Im Test trat die 

aktuelle Version 3.46 vom Juni 2012 an. 

Das in C programmierte Werkzeug benötigt 

für den Betrieb keine Datenbank. 

Linux-Anwender nutzen es entweder 

auf der Kommandozeile oder über ein 

Web interface. Zusätzlich ist ein in Qt implementiertes 

GUI namens Httraqt [6] 

verfügbar. 

Auf einem Standard-Linux-System ist 

Httrack schnell eingerichtet. Pakete für 

Debian, Ubuntu, Gentoo, Fedora, Red 

Hat und Mandriva bietet die Downloadseite. 

Auf einigen Distributionen, so auch 

auf dem Ubuntu-Testrechner, gibt es zwei 

Pakete – eins für das Kommandozeilentool 

(»httrack«) und eins für das Webinterface 

(»webhttrack«). Ersteres bietet 

zwei Betriebsarten: Entweder startet der 

Anwender über Eingabe von »httrack« 

den interaktiven Modus und beantwortet 

Fragen oder er gibt über Aufrufparameter 

seine Wünsche an. Die Manpage und der 

Befehl »httrack ‐‐help« listen die wichtigsten 

Optionen auf. 

Wiedererkennungswert? 

Das Webinterface fragt die gleichen Dinge 

ab wie das interaktive Shelltool. Zunächst 

möchte Httrack einen Projektnamen einrichten, 

danach ein Verzeichnis für das 

lokale Archiv. Benutzer geben nun die zu 

archivierende URL an und wählen aus, 

ob sie die Webseite mit oder ohne Hilfe 

des Assistenten spiegeln, nur die Zieldatei 

speichern, alle Links der URL spiegeln 

oder einfach nur die Links testen möchten. 

Um ein möglichst komplettes Archiv 

zu erhalten, empfiehlt sich die Arbeit mit 

dem Assistenten, der detaillierte Fragen 

stellt (siehe Abbildung 1).

Vorherige Seite

Nächste Seite

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

52

53

54

55

56

57

58

59

60

61

62

63

66

67

68

69

70

71

72

76

77

78

79

80

81

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

Linux-Magazin Der Aufbruch (Vorschau)

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?