EasyLinux - Medialinx Shop
EasyLinux - Medialinx Shop
EasyLinux - Medialinx Shop
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Aktuell<br />
Neue Software<br />
„gscan2pdf“ – durchsuchbare PDFs aus Scans erstellen<br />
PDF ist das optimale Format zum Archivieren<br />
von Scans: Es bündelt und komprimiert viele<br />
Seiten. „gscan2pdf“ sorgt mit maschineller Zeichenerkennung<br />
dafür, dass Sie die PDFs auch<br />
nach Schlagwörtern durchsuchen können.<br />
✰ ✰ ✰ ✰ ✰<br />
Das Ärgerliche an eingescannten Dokumenten<br />
ist, dass sie keinen durchsuchbaren Text enthalten.<br />
Der Grund dafür ist, dass beim Scannen<br />
Bilder und keine Textdateien entstehen. Abhilfe<br />
schafft die als „Optical Character Recognition“<br />
(OCR) bekannte Technik der maschinellen Zeichenerkennung,<br />
für die es die Linux-Programme<br />
Cuneiform und Tesseract gibt.<br />
Beides sind aber Kommandozeilentools, die<br />
lediglich Text in einer einzelnen Bilddatei erkennen<br />
und in eine Textdatei schreiben. Das<br />
grafische Programm gscan2pdf nutzt Cuneiform<br />
oder Tesseract für die Texterkennung<br />
die Redaktion meint<br />
gscan2pdf überzeugt beim Erstellen von<br />
durchsuchbaren PDFs, die sich hervorragend<br />
für das Archivieren von Dokumenten<br />
eignen. Allerdings gleicht seine Scanfunktion<br />
die praktisch immer vorhandene Grautönung<br />
des Papiers nicht aus. Optisch professionelle<br />
PDFs entstehen daher nur,<br />
wenn gscan2pdf die mit anderen Programmen<br />
erzeugten Scans zu Sandwich-PDFs<br />
weiterverarbeitet.<br />
und bereitet das Ergebnis zu so genannten<br />
Sandwich-PDFs auf, bei denen eine unsichtbare<br />
Textebene über der eingescannten Bilddatei<br />
liegt (Abbildung 4).<br />
Schmackhaftes Sandwich<br />
Die Software kombiniert die originalgetreue<br />
Optik der gescannten Seiten mit der Durchsuchbarkeit<br />
von Textdateien. Das funktioniert<br />
in jedem PDF-Reader, der eine Suchfunktion<br />
mitbringt, also auch mi Okular und Evince.<br />
Die Hybrid-PDFs aus Bild- und unsichtbarer<br />
Textebene entstehen in gscan2pdf mit wenigen<br />
Mausklicks: Ein Klick auf das dritte Icon<br />
von rechts öffnet den Scandialog mit zahlreichen<br />
Einstellungen. Etliche davon betreffen<br />
nur Besitzer eines Einzugsscanners, der automatisch<br />
einen ganzen Stapel Vorlagen verarbeitet.<br />
Die Einstellung alle Seiten weist solche<br />
Scanner an, das ganze Magazin zu verwerten.<br />
Blatt für Blatt<br />
Besitzer eines normalen Flachbettscanners<br />
wählen dagegen die Option #: und geben im<br />
Zahlenfeld dahinter 1 ein. Der Scanner liest<br />
dann pro Klick auf den Scannen-Button eine<br />
Seite. Wer es schafft, eine neue Vorlage aufzulegen,<br />
während der Scanner zwischen den Seiten<br />
pausiert, darf auch die Anzahl aller zu<br />
scannenden Seiten einstellen und muss zwischendurch<br />
nicht mehr zur Maus greifen.<br />
Ist im nächsten Reiter Scanmodus die Option<br />
Scannen auf Knopfdruck aktiv, löst erst ein<br />
Druck auf eine der Tasten am Scanner den<br />
Scan aus. Allerdings funktioniert das unter<br />
Linux nicht mit jedem Modell. Wichtig sind<br />
noch die Einstellung Scan-Auflösung, die nicht<br />
unter 300 dpi liegen sollte, und der Scanmodus<br />
(Farbe/Graustufen/Schwarzweiß).<br />
Die Kästchen Bilder bereinigen und Texterkennung<br />
anwenden sind beim ersten Start aktiv.<br />
In der Zeile für die Texterkennung befindet<br />
sich ein Auswahlfeld für die auf dem Rechner<br />
installierten Zeichenerkennungs-Programme.<br />
Den besten Eindruck macht in letzter Zeit die<br />
von Google gesponserte Engine Tesseract, die<br />
Sie unter OpenSuse und Ubuntu über das<br />
gleichnamige Paket installieren. Für deutsche<br />
Texte ist die Spracheinstellung German in der<br />
Zeile darunter wichtig, sonst gibt es Probleme<br />
mit den Umlauten.<br />
Licht und Schatten<br />
Das Ergebnis der Scans fällt zwiespältig aus:<br />
Einerseits funktioniert die Texterkennung,<br />
ohne dass Sie sich mit Kommandozeilenprogrammen<br />
herumschlagen müssen. Die Textschicht<br />
ist auch ausreichend exakt über der<br />
Grafik platziert. Störend wirken aber die zackigen<br />
Ränder der hellgrauen Textbereiche vor<br />
den von der Software ausgeschnittenen leeren<br />
Bereichen. Zu allem Überfluss hat gscan2pdf<br />
auch noch Löcher in die Abbildung geschnitten.<br />
Darum ist es anzuraten, die Option Bilder<br />
bereinigen, die für das Freistellen der leeren<br />
Flächen verantwortlich ist, abzuschalten.<br />
Im Vergleich mit der Scansoftware Scan Tailor<br />
[2] enttäuscht die grafische Aufbereitung der<br />
Seiten, die sich auf das Herausschneiden freier<br />
Bereiche und ein Geraderichten des Scans beschränkt.<br />
Besonders stört, dass für Helligkeit<br />
und Kontrast nicht einmal manuelle Einstellungen<br />
vorhanden sind.<br />
Wer Wert auf reinweiße Ergebnisse legt,<br />
scannt daher am besten mit Scan Tailor oder<br />
XSane alle Seiten als einzelne Bilddateien in<br />
ein Verzeichnis. Diese lassen sich in gscan2pdf<br />
problemlos zu einem mehrseitigen Sandwich-<br />
PDF weiterverarbeiten.<br />
n<br />
Infos<br />
[1] gscan2pdf: http:// gscan2pdf.<br />
sourceforge. net/ (http:// ezlx. de/ c4p5)<br />
[2] Scan Tailor: http:// scantailor.<br />
sourceforge. net/ (http:// ezlx. de/ c4p6)<br />
Abb. 4: „gscan2pdf“ bettet mit Hilfe der OCR-Programme Cuneiform oder Tesseract maschinell<br />
erkannten Text in PDFs aus eingescannten Seiten ein.<br />
Software zum Artikel auf DVD:<br />
gscan2pdf<br />
16 www.easylinux.de<br />
<strong>EasyLinux</strong> 04/2012