16.12.2012 Aufrufe

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

8 Evaluation<br />

Im Bereich der off-line-basierten Suche in Handschriftdokumenten wäre die Verfügbarkeit<br />

an passenden Datenbanken weitaus höher. So existiert mit der IAM-Handwriting-Database<br />

[MB99, ZB00], bestehend aus 1.500 Seiten gescannten Textes <strong>von</strong> 500 verschiedenen Schreibern<br />

eine außergewöhnlich umfangreiche Basis für statistisch signifikante und miteinander<br />

vergleichbare Tests verschiedener Systeme zur Texterkennung oder -suche. Darüberhinaus ist<br />

es im off-line Bereich weitaus einfacher, selbst solche Datenbanken zu erstellen, da handschriftliche<br />

Dokumente auf Papier im Alltag weit verbreitet sind [SHS05] und zudem viele<br />

Bibliotheken historische Manuskripte archivieren [RKL + 02, RM03, GX04, BKD + 04].<br />

Eine Ausnahme unter den frei verfügbaren on-line Handschriftdatenbanken stellt die IAM-<br />

OnDB Datenbank [LB05b, LB05a] des Institutes für Informatik und angewandte Mathematik<br />

der <strong>Universität</strong> Bern dar. Diese Datenbank besteht aus Sätzen, die dem LOB Corpus [JNLG78]<br />

entstammen und an einem Whiteboard geschrieben wurden. Die Datenerfassung erfolgte mit<br />

dem eBeam System [Lui07] der Firma Luidia (siehe Abschnitt 3.3). Insgesamt 221 Personen<br />

schrieben zusammen mehr als 82.000 Worte, wobei darauf geachtet wurde, dass die Personen<br />

jeweils möglichst viele verschiedene Worte schrieben, was umgekehrt bedeutet, dass die<br />

einzelnen Personen kaum Worte wiederholten. 5 Dieser Umstand, der diese Datenbank möglicherweise<br />

für das Trainieren <strong>von</strong> Handschrifterkennungssystemen besonders geeignet macht<br />

[LB06], führt dazu, dass eine Suche nach wiederholten Wortvorkommen ein und derselben<br />

Person nur in wenigen Fällen möglich ist.<br />

Aus Mangel an geeigneten, öffentlich verfügbaren Datenbanken wurde für diese Arbeit eine<br />

eigene Sammlung <strong>von</strong> handschriftlichen on-line Dokumenten erstellt. In der Anfangszeit wurden<br />

die Testpersonen gebeten, Texte ihrer Wahl aus Zeitschriften oder Büchern abzuschreiben<br />

oder eigene Texte zu verfassen. Später diente ein systematischerer Testplan (siehe Anhang<br />

B) als Grundlage für die Schriftdatenerfassung. Als Geräte zur Erfassung der Schreibsignale<br />

dienten Schreibgeräte, die auf Basis dreier verschiedener physikalischer Effekte die Stiftposition<br />

bestimmen: die optische Erfassung der Schreiboberfläche (io Personal Digital Pen<br />

[Log07] der Firmal Logitech; siehe Abschnitt 3.1), die Messung der Laufzeitverzögerung des<br />

Schalls (PC Notes Taker [Peg07] der Firma Pegasus Technologies; siehe Abschnitt 3.3) sowie<br />

die Nutzung des elektromagnetischen Feldes einer speziellen Schreibunterlage (DigiMemo<br />

Digital Notepad [ACE07] der Firma ACE CAD; siehe Abschnitt 3.2). Für den einfachen Zugriff<br />

auf die Rohdaten der so erfassten Handschriftdaten wurden diese in einer Datenbank<br />

gespeichert. Das Datenmodell dazu ist in Anhang C näher beschrieben.<br />

Um die Evaluation des hier vorgestellten Retrievalsystems mittels der erstellten Dokumentdatenbank<br />

automatisieren zu können, ist es nötig, ein bestimmtes apriorisches Wissen, die so<br />

genannte Ground-Truth, zu definieren. Das heißt, es müssen für alle in der Evaluation gestellten<br />

Suchanfragen die erwarteten Treffer, also die relevanten Textstellen manuell ausgezeichnet<br />

werden. Hierfür kommt ein Zusatzmodul des Retrievalsystms zum Einsatz, das in Abbildung<br />

8.4 dargestellt ist. Zu sehen ist ein handschriftliches Dokument. Hervorgehoben sind die Positionen<br />

einer Auswahl <strong>von</strong> Wörtern.<br />

Die Ground-Truth-Informationen 6 für alle im Test verwendeten Suchanfragen sind in ei-<br />

5 »To acquire a database of handwritten sentences contained in the corpus we split the texts in the corpus into<br />

fragments of about 50 words each. [. . . ] To make sure that many different word samples are obtained from<br />

each writer, we have chosen these [. . . ] texts from different text categories in the LOB corpus.« [LB05b]<br />

6 Dokumentenkennung und Start- und Endzeitpunkt aller Vorkommen <strong>von</strong> für die Suche relevanten Worten,<br />

106

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!