Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
8 Evaluation<br />
Im Bereich der off-line-basierten Suche in Handschriftdokumenten wäre die Verfügbarkeit<br />
an passenden Datenbanken weitaus höher. So existiert mit der IAM-Handwriting-Database<br />
[MB99, ZB00], bestehend aus 1.500 Seiten gescannten Textes <strong>von</strong> 500 verschiedenen Schreibern<br />
eine außergewöhnlich umfangreiche Basis für statistisch signifikante und miteinander<br />
vergleichbare Tests verschiedener Systeme zur Texterkennung oder -suche. Darüberhinaus ist<br />
es im off-line Bereich weitaus einfacher, selbst solche Datenbanken zu erstellen, da handschriftliche<br />
Dokumente auf Papier im Alltag weit verbreitet sind [SHS05] und zudem viele<br />
Bibliotheken historische Manuskripte archivieren [RKL + 02, RM03, GX04, BKD + 04].<br />
Eine Ausnahme unter den frei verfügbaren on-line Handschriftdatenbanken stellt die IAM-<br />
OnDB Datenbank [LB05b, LB05a] des Institutes für Informatik und angewandte Mathematik<br />
der <strong>Universität</strong> Bern dar. Diese Datenbank besteht aus Sätzen, die dem LOB Corpus [JNLG78]<br />
entstammen und an einem Whiteboard geschrieben wurden. Die Datenerfassung erfolgte mit<br />
dem eBeam System [Lui07] der Firma Luidia (siehe Abschnitt 3.3). Insgesamt 221 Personen<br />
schrieben zusammen mehr als 82.000 Worte, wobei darauf geachtet wurde, dass die Personen<br />
jeweils möglichst viele verschiedene Worte schrieben, was umgekehrt bedeutet, dass die<br />
einzelnen Personen kaum Worte wiederholten. 5 Dieser Umstand, der diese Datenbank möglicherweise<br />
für das Trainieren <strong>von</strong> Handschrifterkennungssystemen besonders geeignet macht<br />
[LB06], führt dazu, dass eine Suche nach wiederholten Wortvorkommen ein und derselben<br />
Person nur in wenigen Fällen möglich ist.<br />
Aus Mangel an geeigneten, öffentlich verfügbaren Datenbanken wurde für diese Arbeit eine<br />
eigene Sammlung <strong>von</strong> handschriftlichen on-line Dokumenten erstellt. In der Anfangszeit wurden<br />
die Testpersonen gebeten, Texte ihrer Wahl aus Zeitschriften oder Büchern abzuschreiben<br />
oder eigene Texte zu verfassen. Später diente ein systematischerer Testplan (siehe Anhang<br />
B) als Grundlage für die Schriftdatenerfassung. Als Geräte zur Erfassung der Schreibsignale<br />
dienten Schreibgeräte, die auf Basis dreier verschiedener physikalischer Effekte die Stiftposition<br />
bestimmen: die optische Erfassung der Schreiboberfläche (io Personal Digital Pen<br />
[Log07] der Firmal Logitech; siehe Abschnitt 3.1), die Messung der Laufzeitverzögerung des<br />
Schalls (PC Notes Taker [Peg07] der Firma Pegasus Technologies; siehe Abschnitt 3.3) sowie<br />
die Nutzung des elektromagnetischen Feldes einer speziellen Schreibunterlage (DigiMemo<br />
Digital Notepad [ACE07] der Firma ACE CAD; siehe Abschnitt 3.2). Für den einfachen Zugriff<br />
auf die Rohdaten der so erfassten Handschriftdaten wurden diese in einer Datenbank<br />
gespeichert. Das Datenmodell dazu ist in Anhang C näher beschrieben.<br />
Um die Evaluation des hier vorgestellten Retrievalsystems mittels der erstellten Dokumentdatenbank<br />
automatisieren zu können, ist es nötig, ein bestimmtes apriorisches Wissen, die so<br />
genannte Ground-Truth, zu definieren. Das heißt, es müssen für alle in der Evaluation gestellten<br />
Suchanfragen die erwarteten Treffer, also die relevanten Textstellen manuell ausgezeichnet<br />
werden. Hierfür kommt ein Zusatzmodul des Retrievalsystms zum Einsatz, das in Abbildung<br />
8.4 dargestellt ist. Zu sehen ist ein handschriftliches Dokument. Hervorgehoben sind die Positionen<br />
einer Auswahl <strong>von</strong> Wörtern.<br />
Die Ground-Truth-Informationen 6 für alle im Test verwendeten Suchanfragen sind in ei-<br />
5 »To acquire a database of handwritten sentences contained in the corpus we split the texts in the corpus into<br />
fragments of about 50 words each. [. . . ] To make sure that many different word samples are obtained from<br />
each writer, we have chosen these [. . . ] texts from different text categories in the LOB corpus.« [LB05b]<br />
6 Dokumentenkennung und Start- und Endzeitpunkt aller Vorkommen <strong>von</strong> für die Suche relevanten Worten,<br />
106