05.11.2013 Aufrufe

EasyLinux - Medialinx Shop

EasyLinux - Medialinx Shop

EasyLinux - Medialinx Shop

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Aktuell<br />

Neue Software<br />

„gscan2pdf“ – durchsuchbare PDFs aus Scans erstellen<br />

PDF ist das optimale Format zum Archivieren<br />

von Scans: Es bündelt und komprimiert viele<br />

Seiten. „gscan2pdf“ sorgt mit maschineller Zeichenerkennung<br />

dafür, dass Sie die PDFs auch<br />

nach Schlagwörtern durchsuchen können.<br />

✰ ✰ ✰ ✰ ✰<br />

Das Ärgerliche an eingescannten Dokumenten<br />

ist, dass sie keinen durchsuchbaren Text enthalten.<br />

Der Grund dafür ist, dass beim Scannen<br />

Bilder und keine Textdateien entstehen. Abhilfe<br />

schafft die als „Optical Character Recognition“<br />

(OCR) bekannte Technik der maschinellen Zeichenerkennung,<br />

für die es die Linux-Programme<br />

Cuneiform und Tesseract gibt.<br />

Beides sind aber Kommandozeilentools, die<br />

lediglich Text in einer einzelnen Bilddatei erkennen<br />

und in eine Textdatei schreiben. Das<br />

grafische Programm gscan2pdf nutzt Cuneiform<br />

oder Tesseract für die Texterkennung<br />

die Redaktion meint<br />

gscan2pdf überzeugt beim Erstellen von<br />

durchsuchbaren PDFs, die sich hervorragend<br />

für das Archivieren von Dokumenten<br />

eignen. Allerdings gleicht seine Scanfunktion<br />

die praktisch immer vorhandene Grautönung<br />

des Papiers nicht aus. Optisch professionelle<br />

PDFs entstehen daher nur,<br />

wenn gscan2pdf die mit anderen Programmen<br />

erzeugten Scans zu Sandwich-PDFs<br />

weiterverarbeitet.<br />

und bereitet das Ergebnis zu so genannten<br />

Sandwich-PDFs auf, bei denen eine unsichtbare<br />

Textebene über der eingescannten Bilddatei<br />

liegt (Abbildung 4).<br />

Schmackhaftes Sandwich<br />

Die Software kombiniert die originalgetreue<br />

Optik der gescannten Seiten mit der Durchsuchbarkeit<br />

von Textdateien. Das funktioniert<br />

in jedem PDF-Reader, der eine Suchfunktion<br />

mitbringt, also auch mi Okular und Evince.<br />

Die Hybrid-PDFs aus Bild- und unsichtbarer<br />

Textebene entstehen in gscan2pdf mit wenigen<br />

Mausklicks: Ein Klick auf das dritte Icon<br />

von rechts öffnet den Scandialog mit zahlreichen<br />

Einstellungen. Etliche davon betreffen<br />

nur Besitzer eines Einzugsscanners, der automatisch<br />

einen ganzen Stapel Vorlagen verarbeitet.<br />

Die Einstellung alle Seiten weist solche<br />

Scanner an, das ganze Magazin zu verwerten.<br />

Blatt für Blatt<br />

Besitzer eines normalen Flachbettscanners<br />

wählen dagegen die Option #: und geben im<br />

Zahlenfeld dahinter 1 ein. Der Scanner liest<br />

dann pro Klick auf den Scannen-Button eine<br />

Seite. Wer es schafft, eine neue Vorlage aufzulegen,<br />

während der Scanner zwischen den Seiten<br />

pausiert, darf auch die Anzahl aller zu<br />

scannenden Seiten einstellen und muss zwischendurch<br />

nicht mehr zur Maus greifen.<br />

Ist im nächsten Reiter Scanmodus die Option<br />

Scannen auf Knopfdruck aktiv, löst erst ein<br />

Druck auf eine der Tasten am Scanner den<br />

Scan aus. Allerdings funktioniert das unter<br />

Linux nicht mit jedem Modell. Wichtig sind<br />

noch die Einstellung Scan-Auflösung, die nicht<br />

unter 300 dpi liegen sollte, und der Scanmodus<br />

(Farbe/Graustufen/Schwarzweiß).<br />

Die Kästchen Bilder bereinigen und Texterkennung<br />

anwenden sind beim ersten Start aktiv.<br />

In der Zeile für die Texterkennung befindet<br />

sich ein Auswahlfeld für die auf dem Rechner<br />

installierten Zeichenerkennungs-Programme.<br />

Den besten Eindruck macht in letzter Zeit die<br />

von Google gesponserte Engine Tesseract, die<br />

Sie unter OpenSuse und Ubuntu über das<br />

gleichnamige Paket installieren. Für deutsche<br />

Texte ist die Spracheinstellung German in der<br />

Zeile darunter wichtig, sonst gibt es Probleme<br />

mit den Umlauten.<br />

Licht und Schatten<br />

Das Ergebnis der Scans fällt zwiespältig aus:<br />

Einerseits funktioniert die Texterkennung,<br />

ohne dass Sie sich mit Kommandozeilenprogrammen<br />

herumschlagen müssen. Die Textschicht<br />

ist auch ausreichend exakt über der<br />

Grafik platziert. Störend wirken aber die zackigen<br />

Ränder der hellgrauen Textbereiche vor<br />

den von der Software ausgeschnittenen leeren<br />

Bereichen. Zu allem Überfluss hat gscan2pdf<br />

auch noch Löcher in die Abbildung geschnitten.<br />

Darum ist es anzuraten, die Option Bilder<br />

bereinigen, die für das Freistellen der leeren<br />

Flächen verantwortlich ist, abzuschalten.<br />

Im Vergleich mit der Scansoftware Scan Tailor<br />

[2] enttäuscht die grafische Aufbereitung der<br />

Seiten, die sich auf das Herausschneiden freier<br />

Bereiche und ein Geraderichten des Scans beschränkt.<br />

Besonders stört, dass für Helligkeit<br />

und Kontrast nicht einmal manuelle Einstellungen<br />

vorhanden sind.<br />

Wer Wert auf reinweiße Ergebnisse legt,<br />

scannt daher am besten mit Scan Tailor oder<br />

XSane alle Seiten als einzelne Bilddateien in<br />

ein Verzeichnis. Diese lassen sich in gscan2pdf<br />

problemlos zu einem mehrseitigen Sandwich-<br />

PDF weiterverarbeiten.<br />

n<br />

Infos<br />

[1] gscan2pdf: http:// gscan2pdf.​<br />

sourceforge. net/ (http:// ezlx. de/ c4p5)<br />

[2] Scan Tailor: http:// scantailor.​<br />

sourceforge. net/ (http:// ezlx. de/ c4p6)<br />

Abb. 4: „gscan2pdf“ bettet mit Hilfe der OCR-Programme Cuneiform oder Tesseract maschinell<br />

erkannten Text in PDFs aus eingescannten Seiten ein.<br />

Software zum Artikel auf DVD:<br />

gscan2pdf<br />

16 www.easylinux.de<br />

<strong>EasyLinux</strong> 04/2012

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!