Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
OCR mit Cuneiform<br />
PRAXIS<br />
Die wie Cuneiform selbst in Russland<br />
entwickelte Oberfläche<br />
YAGF setzt ebenfalls die QtBibliotheken<br />
voraus <strong>und</strong> verlangt zusätzlich<br />
auch die AspellWörterbücher<br />
als Voraussetzung. Letztere<br />
befinden sich in den Repositories<br />
aller gängigen Distributionen<br />
<strong>und</strong> lassen sich daher einfach<br />
über Synaptics, Yast & Co. installieren.<br />
Sie laden YAGF als QuellcodeTarball<br />
[5] herunter.<br />
Lediglich MandrivaNutzer finden<br />
erneut vorkompilierte Pakete<br />
[6] in 32 <strong>und</strong> 64BitAusführung<br />
<strong>und</strong> richten diese bequem per<br />
Mausklick ein. Die Routine legt<br />
einen entsprechenden Starter im<br />
GnomeMenü Anwendungen | Grafik<br />
| Weitere an. Unter KDE finden<br />
Sie die Einträge der OCROberflächen<br />
für CuneiformQt <strong>und</strong> YAGF<br />
im AnwendungsstarterMenü unter<br />
Alle Programme | Grafik.<br />
Da YAGF einen größeren Funktionsumfang<br />
bietet als Cuneiform<br />
Qt <strong>und</strong> auch das automatisierte<br />
Scannen <strong>und</strong> Einlesen der Vorlagen<br />
mithilfe von Xsane unterstützt,<br />
zieht es bei der Installation<br />
– sofern nicht schon vorhanden –<br />
Xsane zusätzlich nach. Falls Sie<br />
YAGF manuell einrichten, empfiehlt<br />
es sich, Xsane ebenfalls<br />
nachzuinstallieren.<br />
auch die sprachenspezifischen<br />
Sonderzeichen korrekt<br />
erkennt (Abbildung<br />
A). Den eigentlichen<br />
Texterkennungsvorgang<br />
starten Sie durch<br />
Öffnen der gewünschten<br />
Bilddatei über den Schalter<br />
Open Image <strong>und</strong> einen<br />
anschließenden Mausklick<br />
auf die Schaltfläche<br />
Recognize Text.<br />
Sofern die Quelldatei in einem<br />
von Cuneiform nicht lesbaren Dateiformat<br />
vorliegt, quittiert das<br />
Programm dies mit einer Fehlermeldung.<br />
Sie müssen in diesem<br />
Fall die Bilddatei erst in ein passendes<br />
Format konvertieren, was<br />
mithilfe des in nahezu jeder<br />
LinuxDistribution vorhandenen<br />
Bildbearbeitungsprogramms<br />
Gimp schnell <strong>und</strong> zuverlässig geschieht.<br />
Im Test fiel auf, dass CuneiformQt<br />
offenbar ausschließlich<br />
mit dem BilddateiFormat<br />
BMP zurechtkommt. Andere Formate<br />
wie TIFF oder PNG monierte<br />
die Software als nicht lesbar.<br />
Auch das Ausgabeformat sollten<br />
Sie bereits vor dem Erkennen des<br />
Textes im Menü Settings | Configure…<br />
| Format: festlegen. Um bei<br />
der Weiterverarbeitung des erkannten<br />
Textes später möglichst<br />
flexibel zu bleiben, empfiehlt es<br />
sich hier, die Einstellungen HTML<br />
oder RTF zu wählen: Damit kommen<br />
so gut wie alle Textverarbeitungs<br />
<strong>und</strong> Archivierungsprogramme<br />
problemlos zurecht.<br />
Nach Abschluss der Texterkennung<br />
zeigt die Software das Ergebnis<br />
absatzweise formatiert im<br />
rechten Rahmen des Programmfensters<br />
an (Abbildung B). Sie<br />
können somit sofort feststellen,<br />
ob das Ergebnis des Erkennungsdurchlaufs<br />
brauchbar ausfällt.<br />
Im Falle von zu fehlerbehafteten<br />
Ergebnissen empfiehlt es sich, die<br />
ScanVorlage mithilfe von Gimp<br />
nachzubearbeiten, indem Sie Ziffern<br />
<strong>und</strong> Buchstabenränder<br />
schärfen oder das gesamte Bild<br />
skalieren. Dies lohnt sich insbesondere<br />
bei längeren Vorlagen<br />
A Bei Cuneiform-Qt<br />
gibt es nicht viel zu<br />
konfigurieren.<br />
GloSSAR<br />
OCR: Optical Character<br />
Recognition. Texterkennung<br />
in einer Bilddatei<br />
anhand von Zeichenmus<br />
tern. Dabei wertet<br />
ein OCR-Programm die<br />
vom Scanner eingelesenen<br />
Rastergrafiken<br />
aus <strong>und</strong> vergleicht<br />
die se mit den Zeichensätzen<br />
der internen Datenbank.<br />
Mo der ne OCR-<br />
Programme unterscheiden<br />
außerdem durch<br />
eine Kontextanalyse<br />
ähnliche Zeichen <strong>und</strong><br />
Ziffern <strong>und</strong> erhöhen damit<br />
die Erkennungsrate.<br />
B Die Oberfläche von<br />
Cuneiform-Qt benötigt<br />
keine Einarbeitung.<br />
Cuneiform-Qt<br />
Ein Klick auf den CuneiformQt<br />
Starter öffnet in geradezu atemberaubendem<br />
Tempo ein übersichtliches<br />
Fenster: Im oberen Bereich<br />
übernehmen eine Menüleiste<br />
mit gerade einmal drei Untermenüs<br />
<strong>und</strong> darunter drei Schaltflächen<br />
die komplette Programmsteuerung.<br />
Darunter residieren<br />
zwei vorerst leere Rahmen, in denen<br />
CuneiformQt später den<br />
Quelltext <strong>und</strong> das Erkennungsergebnis<br />
anzeigt.<br />
Die drei Untermenüs File, Settings<br />
<strong>und</strong> Help geben sich äußerst<br />
spartanisch. Zum Einstieg nehmen<br />
Sie im Menü Settings | Configure…<br />
in den Auswahllisten Language:<br />
<strong>und</strong> Format: die nötigen Anpassungen<br />
vor, damit die Software<br />
www.linux-user.de<br />
04 | 11 49