Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Zusammenfassung - Otto-von-Guericke-Universität Magdeburg
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
8.2 Datenbank<br />
Für die Evaluierung der verschiedenen Varianten (Merkmalstypen und Parametrisierungen)<br />
des in dieser Arbeit entwickelten Handschriftsuchsystems im folgenden Kapitel sollen die<br />
Größen precision(τEER), recall(τEER), F1 und AUC bestimmt werden.<br />
8.2 Datenbank<br />
Zur Ermittlung der zuvor beschriebenen Qualitätsmaße für das in dieser Arbeit entwickelte<br />
Retrievalsystem wurde eine möglichst umfangreiche Sammlung <strong>von</strong> handschriftlichen online<br />
Dokumenten benötigt, also eine Testdatenbank. Um für diese Zwecke geeignet zu sein,<br />
muss eine Datenbank Textdokumente enthalten, in denen eine größere Anzahl <strong>von</strong> Worten,<br />
Wortgruppen, gezeichneten Symbolen und ähnlichen Eingaben wiederholt vorkommen, sodass<br />
nach diesen Wiederholungen gesucht werden kann. Des Weiteren dürfen diese Datenbanken<br />
nicht zu klein sein, damit die Evaluation eine statistische Signifikanz aufweist. In der<br />
Literatur sind eine Reihe <strong>von</strong> verfügbaren Handschriftdatenbanken erwähnt, die jedoch für<br />
andere Zwecke erstellt wurden und für eine Evaluierung des hier vorgestellten Systems aus<br />
verschiedenen Gründen zumeist nicht geeignet sind.<br />
Ein Teil der Datenbanken diente primär der Evaluierung <strong>von</strong> biometrischen Systemen zur<br />
stiftbasierten Authentifikation 4 , etwa die mit einer Videokamera erfasste Signaturdatenbank<br />
<strong>von</strong> Munich et al. [MP98], die PlataSign-Datenbank <strong>von</strong> Vielhauer et al. [ZV03, Vie04,<br />
SWV06], die Datenbanken des Wettbewerbs SVC 2004 (engl. Signature Verification Competition)<br />
[YCX + 04], die eNTERFACE’05-Biometrie-Datenbank [SPC + 05] oder der MYCT-<br />
Baseline-Corpus [OFS + 03, FFOG06].<br />
Andere öffentliche Handschriftdatenbanken bestehen nur aus separaten Buchstaben und<br />
Worten, jedoch nicht aus kompletten Texten. Beispiele sind die train_r01_v07 Datenbank<br />
[GSP + 94] des UNIPEN-Projektes, die Pendigits-Datenbank [AA96, AA01] oder die IRON-<br />
OFF Datenbank [VGLBK99]. Ziel dieser Datenbanken ist das Trainieren <strong>von</strong> Handschrifterkennungssystemen.<br />
Eine möglicherweise für den Zweck der Evaluierung des Retrievalsystems nützliche Quelle<br />
für Handschriftdokumente ist das Nakagawa Laboratory der <strong>Universität</strong> Tokio (TUAT – Tokyo<br />
University of Agriculture & Technology). Dort entstanden zwei Datenbanken (Kuchibue<br />
und Nakayosi), die Schriftproben <strong>von</strong> 120 beziehungsweise 163 Personen enthalten [JN01,<br />
OKON04, ON05]. Da jedoch die Texte mehrheitlich in japanischer Sprache und entsprechender<br />
Schrift verfasst sind (Abschriften aus japanischen Zeitungen), hat der Autor dieser Arbeit<br />
keine Möglichkeit, sinnvoll Suchanfragen zu stellen und die Resultate einer Suche zu bewerten,<br />
weswegen diese Datenbanken für die Evaluation in dieser Arbeit nicht verwendet werden<br />
können.<br />
Das <strong>von</strong> Jain und Namboodiri in [JN03] vorgestellte System zur Handschriftsuche wurde<br />
<strong>von</strong> den Autoren mit einer eigenen Datenbank getestet, die jedoch nicht öffentlich verfügbar<br />
ist. Zudem war die Datenbank, bestehend aus 3.872 Worten, aufgezeichnet <strong>von</strong> einer einzigen<br />
Person, sehr klein. Ähnliches gilt für die Datenbasis in [LT94], die aus Handschriftdaten <strong>von</strong><br />
lediglich zwei Personen besteht und ebenfalls nicht öffentlich ist.<br />
4 Verifikation oder Identifikation <strong>von</strong> Personen anhand ihrer Unterschrift, individuellen oder vorgegebenen Ziffernfolgen,<br />
Symbolen oder ähnlichen Eingaben.<br />
105