16.12.2012 Aufrufe

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

8.2 Datenbank<br />

Für die Evaluierung der verschiedenen Varianten (Merkmalstypen und Parametrisierungen)<br />

des in dieser Arbeit entwickelten Handschriftsuchsystems im folgenden Kapitel sollen die<br />

Größen precision(τEER), recall(τEER), F1 und AUC bestimmt werden.<br />

8.2 Datenbank<br />

Zur Ermittlung der zuvor beschriebenen Qualitätsmaße für das in dieser Arbeit entwickelte<br />

Retrievalsystem wurde eine möglichst umfangreiche Sammlung <strong>von</strong> handschriftlichen online<br />

Dokumenten benötigt, also eine Testdatenbank. Um für diese Zwecke geeignet zu sein,<br />

muss eine Datenbank Textdokumente enthalten, in denen eine größere Anzahl <strong>von</strong> Worten,<br />

Wortgruppen, gezeichneten Symbolen und ähnlichen Eingaben wiederholt vorkommen, sodass<br />

nach diesen Wiederholungen gesucht werden kann. Des Weiteren dürfen diese Datenbanken<br />

nicht zu klein sein, damit die Evaluation eine statistische Signifikanz aufweist. In der<br />

Literatur sind eine Reihe <strong>von</strong> verfügbaren Handschriftdatenbanken erwähnt, die jedoch für<br />

andere Zwecke erstellt wurden und für eine Evaluierung des hier vorgestellten Systems aus<br />

verschiedenen Gründen zumeist nicht geeignet sind.<br />

Ein Teil der Datenbanken diente primär der Evaluierung <strong>von</strong> biometrischen Systemen zur<br />

stiftbasierten Authentifikation 4 , etwa die mit einer Videokamera erfasste Signaturdatenbank<br />

<strong>von</strong> Munich et al. [MP98], die PlataSign-Datenbank <strong>von</strong> Vielhauer et al. [ZV03, Vie04,<br />

SWV06], die Datenbanken des Wettbewerbs SVC 2004 (engl. Signature Verification Competition)<br />

[YCX + 04], die eNTERFACE’05-Biometrie-Datenbank [SPC + 05] oder der MYCT-<br />

Baseline-Corpus [OFS + 03, FFOG06].<br />

Andere öffentliche Handschriftdatenbanken bestehen nur aus separaten Buchstaben und<br />

Worten, jedoch nicht aus kompletten Texten. Beispiele sind die train_r01_v07 Datenbank<br />

[GSP + 94] des UNIPEN-Projektes, die Pendigits-Datenbank [AA96, AA01] oder die IRON-<br />

OFF Datenbank [VGLBK99]. Ziel dieser Datenbanken ist das Trainieren <strong>von</strong> Handschrifterkennungssystemen.<br />

Eine möglicherweise für den Zweck der Evaluierung des Retrievalsystems nützliche Quelle<br />

für Handschriftdokumente ist das Nakagawa Laboratory der <strong>Universität</strong> Tokio (TUAT – Tokyo<br />

University of Agriculture & Technology). Dort entstanden zwei Datenbanken (Kuchibue<br />

und Nakayosi), die Schriftproben <strong>von</strong> 120 beziehungsweise 163 Personen enthalten [JN01,<br />

OKON04, ON05]. Da jedoch die Texte mehrheitlich in japanischer Sprache und entsprechender<br />

Schrift verfasst sind (Abschriften aus japanischen Zeitungen), hat der Autor dieser Arbeit<br />

keine Möglichkeit, sinnvoll Suchanfragen zu stellen und die Resultate einer Suche zu bewerten,<br />

weswegen diese Datenbanken für die Evaluation in dieser Arbeit nicht verwendet werden<br />

können.<br />

Das <strong>von</strong> Jain und Namboodiri in [JN03] vorgestellte System zur Handschriftsuche wurde<br />

<strong>von</strong> den Autoren mit einer eigenen Datenbank getestet, die jedoch nicht öffentlich verfügbar<br />

ist. Zudem war die Datenbank, bestehend aus 3.872 Worten, aufgezeichnet <strong>von</strong> einer einzigen<br />

Person, sehr klein. Ähnliches gilt für die Datenbasis in [LT94], die aus Handschriftdaten <strong>von</strong><br />

lediglich zwei Personen besteht und ebenfalls nicht öffentlich ist.<br />

4 Verifikation oder Identifikation <strong>von</strong> Personen anhand ihrer Unterschrift, individuellen oder vorgegebenen Ziffernfolgen,<br />

Symbolen oder ähnlichen Eingaben.<br />

105

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!