26.02.2014 Aufrufe

LinuxUser Apache-Alternativen: Websites aufsetzen und pflegen (Vorschau)

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

OCR mit Cuneiform<br />

PRAXIS<br />

Die wie Cuneiform selbst in Russland<br />

entwickelte Oberfläche<br />

YAGF setzt ebenfalls die Qt­Bibliotheken<br />

voraus <strong>und</strong> verlangt zusätzlich<br />

auch die Aspell­Wörterbücher<br />

als Voraussetzung. Letztere<br />

befinden sich in den Repositories<br />

aller gängigen Distributionen<br />

<strong>und</strong> lassen sich daher einfach<br />

über Synaptics, Yast & Co. installieren.<br />

Sie laden YAGF als Quellcode­Tarball<br />

[5] herunter.<br />

Lediglich Mandriva­Nutzer finden<br />

erneut vorkompilierte Pakete<br />

[6] in 32­ <strong>und</strong> 64­Bit­Ausführung<br />

<strong>und</strong> richten diese bequem per<br />

Mausklick ein. Die Routine legt<br />

einen entsprechenden Starter im<br />

Gnome­Menü Anwendungen | Grafik<br />

| Weitere an. Unter KDE finden<br />

Sie die Einträge der OCR­Oberflächen<br />

für Cuneiform­Qt <strong>und</strong> YAGF<br />

im Anwendungsstarter­Menü unter<br />

Alle Programme | Grafik.<br />

Da YAGF einen größeren Funktionsumfang<br />

bietet als Cuneiform­<br />

Qt <strong>und</strong> auch das automatisierte<br />

Scannen <strong>und</strong> Einlesen der Vorlagen<br />

mithilfe von Xsane unterstützt,<br />

zieht es bei der Installation<br />

– sofern nicht schon vorhanden –<br />

Xsane zusätzlich nach. Falls Sie<br />

YAGF manuell einrichten, empfiehlt<br />

es sich, Xsane ebenfalls<br />

nachzuinstallieren.<br />

auch die sprachenspezifischen<br />

Sonderzeichen korrekt<br />

erkennt (Abbildung<br />

A). Den eigentlichen<br />

Texterkennungsvorgang<br />

starten Sie durch<br />

Öffnen der gewünschten<br />

Bilddatei über den Schalter<br />

Open Image <strong>und</strong> einen<br />

anschließenden Mausklick<br />

auf die Schaltfläche<br />

Recognize Text.<br />

Sofern die Quelldatei in einem<br />

von Cuneiform nicht lesbaren Dateiformat<br />

vorliegt, quittiert das<br />

Programm dies mit einer Fehlermeldung.<br />

Sie müssen in diesem<br />

Fall die Bilddatei erst in ein passendes<br />

Format konvertieren, was<br />

mithilfe des in nahezu jeder<br />

Linux­Distribution vorhandenen<br />

Bildbearbeitungsprogramms<br />

Gimp schnell <strong>und</strong> zuverlässig geschieht.<br />

Im Test fiel auf, dass Cuneiform­Qt<br />

offenbar ausschließlich<br />

mit dem Bilddatei­Format<br />

BMP zurechtkommt. Andere Formate<br />

wie TIFF oder PNG monierte<br />

die Software als nicht lesbar.<br />

Auch das Ausgabeformat sollten<br />

Sie bereits vor dem Erkennen des<br />

Textes im Menü Settings | Configure…<br />

| Format: festlegen. Um bei<br />

der Weiterverarbeitung des erkannten<br />

Textes später möglichst<br />

flexibel zu bleiben, empfiehlt es<br />

sich hier, die Einstellungen HTML<br />

oder RTF zu wählen: Damit kommen<br />

so gut wie alle Textverarbeitungs­<br />

<strong>und</strong> Archivierungsprogramme<br />

problemlos zurecht.<br />

Nach Abschluss der Texterkennung<br />

zeigt die Software das Ergebnis<br />

absatzweise formatiert im<br />

rechten Rahmen des Programmfensters<br />

an (Abbildung B). Sie<br />

können somit sofort feststellen,<br />

ob das Ergebnis des Erkennungsdurchlaufs<br />

brauchbar ausfällt.<br />

Im Falle von zu fehlerbehafteten<br />

Ergebnissen empfiehlt es sich, die<br />

Scan­Vorlage mithilfe von Gimp<br />

nachzubearbeiten, indem Sie Ziffern­<br />

<strong>und</strong> Buchstabenränder<br />

schärfen oder das gesamte Bild<br />

skalieren. Dies lohnt sich insbesondere<br />

bei längeren Vorlagen<br />

A Bei Cuneiform-Qt<br />

gibt es nicht viel zu<br />

konfigurieren.<br />

GloSSAR<br />

OCR: Optical Character<br />

Recognition. Texterkennung<br />

in einer Bilddatei<br />

anhand von Zeichenmus<br />

tern. Dabei wertet<br />

ein OCR-Programm die<br />

vom Scanner eingelesenen<br />

Rastergrafiken<br />

aus <strong>und</strong> vergleicht<br />

die se mit den Zeichensätzen<br />

der internen Datenbank.<br />

Mo der ne OCR-<br />

Programme unterscheiden<br />

außerdem durch<br />

eine Kontextanalyse<br />

ähnliche Zeichen <strong>und</strong><br />

Ziffern <strong>und</strong> erhöhen damit<br />

die Erkennungsrate.<br />

B Die Oberfläche von<br />

Cuneiform-Qt benötigt<br />

keine Einarbeitung.<br />

Cuneiform-Qt<br />

Ein Klick auf den Cuneiform­Qt­<br />

Starter öffnet in geradezu atemberaubendem<br />

Tempo ein übersichtliches<br />

Fenster: Im oberen Bereich<br />

übernehmen eine Menüleiste<br />

mit gerade einmal drei Untermenüs<br />

<strong>und</strong> darunter drei Schaltflächen<br />

die komplette Programmsteuerung.<br />

Darunter residieren<br />

zwei vorerst leere Rahmen, in denen<br />

Cuneiform­Qt später den<br />

Quelltext <strong>und</strong> das Erkennungsergebnis<br />

anzeigt.<br />

Die drei Untermenüs File, Settings<br />

<strong>und</strong> Help geben sich äußerst<br />

spartanisch. Zum Einstieg nehmen<br />

Sie im Menü Settings | Configure…<br />

in den Auswahllisten Language:<br />

<strong>und</strong> Format: die nötigen Anpassungen<br />

vor, damit die Software<br />

www.linux-user.de<br />

04 | 11 49

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!