Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Weitere Magazine

Empfehlungen

Info

8 Evaluation Im Bereich der off-line-basierten Suche in Handschriftdokumenten wäre die Verfügbarkeit an passenden Datenbanken weitaus höher. So existiert mit der IAM-Handwriting-Database [MB99, ZB00], bestehend aus 1.500 Seiten gescannten Textes von 500 verschiedenen Schreibern eine außergewöhnlich umfangreiche Basis für statistisch signifikante und miteinander vergleichbare Tests verschiedener Systeme zur Texterkennung oder -suche. Darüberhinaus ist es im off-line Bereich weitaus einfacher, selbst solche Datenbanken zu erstellen, da handschriftliche Dokumente auf Papier im Alltag weit verbreitet sind [SHS05] und zudem viele Bibliotheken historische Manuskripte archivieren [RKL + 02, RM03, GX04, BKD + 04]. Eine Ausnahme unter den frei verfügbaren on-line Handschriftdatenbanken stellt die IAM- OnDB Datenbank [LB05b, LB05a] des Institutes für Informatik und angewandte Mathematik der Universität Bern dar. Diese Datenbank besteht aus Sätzen, die dem LOB Corpus [JNLG78] entstammen und an einem Whiteboard geschrieben wurden. Die Datenerfassung erfolgte mit dem eBeam System [Lui07] der Firma Luidia (siehe Abschnitt 3.3). Insgesamt 221 Personen schrieben zusammen mehr als 82.000 Worte, wobei darauf geachtet wurde, dass die Personen jeweils möglichst viele verschiedene Worte schrieben, was umgekehrt bedeutet, dass die einzelnen Personen kaum Worte wiederholten. 5 Dieser Umstand, der diese Datenbank möglicherweise für das Trainieren von Handschrifterkennungssystemen besonders geeignet macht [LB06], führt dazu, dass eine Suche nach wiederholten Wortvorkommen ein und derselben Person nur in wenigen Fällen möglich ist. Aus Mangel an geeigneten, öffentlich verfügbaren Datenbanken wurde für diese Arbeit eine eigene Sammlung von handschriftlichen on-line Dokumenten erstellt. In der Anfangszeit wurden die Testpersonen gebeten, Texte ihrer Wahl aus Zeitschriften oder Büchern abzuschreiben oder eigene Texte zu verfassen. Später diente ein systematischerer Testplan (siehe Anhang B) als Grundlage für die Schriftdatenerfassung. Als Geräte zur Erfassung der Schreibsignale dienten Schreibgeräte, die auf Basis dreier verschiedener physikalischer Effekte die Stiftposition bestimmen: die optische Erfassung der Schreiboberfläche (io Personal Digital Pen [Log07] der Firmal Logitech; siehe Abschnitt 3.1), die Messung der Laufzeitverzögerung des Schalls (PC Notes Taker [Peg07] der Firma Pegasus Technologies; siehe Abschnitt 3.3) sowie die Nutzung des elektromagnetischen Feldes einer speziellen Schreibunterlage (DigiMemo Digital Notepad [ACE07] der Firma ACE CAD; siehe Abschnitt 3.2). Für den einfachen Zugriff auf die Rohdaten der so erfassten Handschriftdaten wurden diese in einer Datenbank gespeichert. Das Datenmodell dazu ist in Anhang C näher beschrieben. Um die Evaluation des hier vorgestellten Retrievalsystems mittels der erstellten Dokumentdatenbank automatisieren zu können, ist es nötig, ein bestimmtes apriorisches Wissen, die so genannte Ground-Truth, zu definieren. Das heißt, es müssen für alle in der Evaluation gestellten Suchanfragen die erwarteten Treffer, also die relevanten Textstellen manuell ausgezeichnet werden. Hierfür kommt ein Zusatzmodul des Retrievalsystms zum Einsatz, das in Abbildung 8.4 dargestellt ist. Zu sehen ist ein handschriftliches Dokument. Hervorgehoben sind die Positionen einer Auswahl von Wörtern. Die Ground-Truth-Informationen 6 für alle im Test verwendeten Suchanfragen sind in ei- 5 »To acquire a database of handwritten sentences contained in the corpus we split the texts in the corpus into fragments of about 50 words each. [. . . ] To make sure that many different word samples are obtained from each writer, we have chosen these [. . . ] texts from different text categories in the LOB corpus.« [LB05b] 6 Dokumentenkennung und Start- und Endzeitpunkt aller Vorkommen von für die Suche relevanten Worten, 106
Abbildung 8.4: Ground-Truth-Manager Modul des Retrievalsystems 8.2 Datenbank ner Datenbank separat von den Handschriftrohdaten gespeichert (siehe Anhang C). Die für die Evaluation verwendete Datenbasis besteht aus 181 Dokumenten von 23 Personen (siehe Tabelle 8.1). Die Dokumente enthalten insgesamt 21.894 Wörter sowie 173 Symbole. 83 der Dokumente sind in deutscher, 51 in englischer Sprache und 41 in Urdu [Mah07], einer in Indien und Pakistan verwendeten Sprache. 158 verschiedene Begriffe oder Wortgruppen in insgesamt 1.632 Wiederholungen wurden mittels des Moduls aus Abbildung 8.4 manuell ausgezeichnet und für die Suche als Query sowie als Ground-Truth verwendet. Die Suche fand dabei personenweise separat statt, das heißt, es wurde nur innerhalb der Dokumente jeweils eines Benutzers gesucht. In Abbildung 8.5 ist das Systemschema aus Kapitel 4 (Abbildung 4.1) zu sehen, welches für die Evaluation um die entsprechenden Module erweitert wurde. ioPen DigiMemo Notes Taker gesamt Anzahl Schreiber 13 4 9 23 Anzahl Dokumente 72 22 87 181 Anzahl Worte 10.607 2.176 9.111 21.894 Anzahl Symbole 173 0 0 173 Anzahl der Suchanfragen 527 113 992 1.632 Wortgruppen und Symbolen Tabelle 8.1: Übersicht der Evaluationsdatenbasis 107
Seite 1 und 2:
Suche in on-line erfassten digitale
Seite 3:
Zusammenfassung In dieser Arbeit en
Seite 7 und 8:
Inhaltsverzeichnis Zusammenfassung
Seite 9 und 10:
Inhaltsverzeichnis 8.2 Datenbank .
Seite 11 und 12:
Tabellenverzeichnis 2.1 Vergleich d
Seite 13 und 14:
Abbildungsverzeichnis 1.1 Vergleich
Seite 15 und 16:
Abbildungsverzeichnis 8.3 Berechnun
Seite 17 und 18:
Algorithmenverzeichnis 1 Funktion z
Seite 19 und 20:
1 Einleitung Handwriting is civiliz
Seite 21 und 22:
1.2 Überblick über Schrift am Com
Seite 23 und 24:
1.2 Überblick über Schrift am Com
Seite 25 und 26:
1.4 Aufbau dieser Arbeit Das Kapite
Seite 27 und 28:
2 Verwandte Arbeiten I have seen th
Seite 29 und 30:
Die Gewichte wĉ0 bis wĉ13 werden
Seite 31 und 32:
2.1 Fremde Suchansätze 33 Personen
Seite 33 und 34:
2.1 Fremde Suchansätze Abbildung 2
Seite 35 und 36:
2.2 Beispielanwendungen des Pen-Com
Seite 37 und 38:
2.2 Beispielanwendungen des Pen-Com
Seite 39 und 40:
3 Gerätetypen und Datenformate Die
Seite 41 und 42:
3.1 Optische Positionsbestimung Abb
Seite 43 und 44:
3.1 Optische Positionsbestimung Abb
Seite 45 und 46:
3.2 Elektrostatische und elektromag
Seite 47 und 48:
3.2 Elektrostatische und elektromag
Seite 49 und 50:
Ultraschall− sensoren Ultraschall
Seite 51 und 52:
3.4 Resistive-Film-Technologie Abbi
Seite 53 und 54:
3.5 Elektromechanische Positionsbes
Seite 55 und 56:
3.5 Elektromechanische Positionsbes
Seite 57 und 58:
3.6 Dateiformate für On-line Hands
Seite 59 und 60:
3.6 Dateiformate für On-line Hands
Seite 61 und 62:
3.7 Zusammenfassung Einen anderen Z
Seite 63 und 64:
4 Aufbau des Systems Dieses Kapitel
Seite 65 und 66:
Such− anfrage Daten− speicherun
Seite 67 und 68:
5 Merkmalsgewinnung 1 (unbekannt) W
Seite 69 und 70:
x position y position 8500 8000 750
Seite 71 und 72:
5.1 Datenvorverarbeitung Algorithmu
Seite 73 und 74: y 2 1.5 1 0.5 0 −0.5 −1 −1.5
Seite 75 und 76: 5.2 Gitterbasierte Richtungsmerkmal
Seite 81 und 82: 5.2.2 Dreiecksgitter 5.2 Gitterbasi
Seite 83 und 84: 5.3 Lokale Schriftrichtung Algorith
Seite 85 und 86: 5.4 Lokale Schriftkrümmung 5.4 Lok
Seite 87 und 88: p 9 p p 8 10 p 7 p 6 p 11 p 5 p 12
Seite 89 und 90: 6 Suche mit Fehlern Auch der Erfind
Seite 91 und 92: 6.1 Ähnlichkeiten von Zeichenkette
Seite 93 und 94: 6.1 Ähnlichkeiten von Zeichenkette
Seite 95 und 96: 6.2 Approximative Stringsuche mitte
Seite 97 und 98: 6.2 Approximative Stringsuche mitte
Seite 99 und 100: 6.3 Alternative Suchalgorithmen der
Seite 101 und 102: 7 Fusion Vereint sind auch die Schw
Seite 103 und 104: Enrollment: Sensor Verifikation: Se
Seite 105 und 106: 7.1 Überblick über Biometrie und
Seite 107 und 108: 7.1 Überblick über Biometrie und
Seite 109 und 110: 7.2 Fusionsstrategien der Handschri
Seite 111 und 112: 7.2 Fusionsstrategien der Handschri
Seite 113 und 114: Such− anfrage Datenspeicherung Vo
Seite 115 und 116: 7.3 Zusammenfassung 7.3 Zusammenfas
Seite 117 und 118: 8 Evaluation Evaluation: Das Unwich
Seite 119 und 120: 8.1 Grundlagen Abbildung 8.1: Die M
Seite 121 und 122: 1 0 recall precision 1 precision sy
Seite 123: 8.2 Datenbank Für die Evaluierung
Seite 127 und 128: 8.3 Vorgehen bei der Evaluation Dok
Seite 129 und 130: ecall 1 0.8 0.6 0.4 0.2 precision,
Seite 131 und 132: 8.3 Vorgehen bei der Evaluation 8.3
Seite 133 und 134: 8.4 Zusammenfassung In Abbildung 8.
Seite 135 und 136: 9 Diskussion der Resultate Dieses K
Seite 137 und 138: 9.1 Resultate der Suche ohne Fusion
Seite 139 und 140: precision ioPen, directions based f
Seite 141 und 142: 9.1 Resultate der Suche ohne Fusion
Seite 143 und 144: 9.2 Resultate für Multi-Sample-Fus
Seite 145 und 146: 9.2 Resultate für Multi-Sample-Fus
Seite 147 und 148: 9.3 Resultate für multialgorithmis
Seite 149 und 150: 9.3 Resultate für multialgorithmis
Seite 151 und 152: 9.5 Resultate verwandter Suchverfah
Seite 153 und 154: 9.6 Zusammenfassung Das System von
Seite 155 und 156: 10 Fazit und Ausblick Der Anfang is
Seite 157 und 158: 10.3 Ausblick 10.3 Ausblick Neben d
Seite 159 und 160: A Notation Bezeichner Beschreibung
Seite 161 und 162: B Plan zur Schriftdatenerfassung
Seite 163 und 164: C Datenbankschema der Evaluationsum
Seite 165 und 166: D Resultate - tabellarisch Im Folge
Seite 167 und 168: Merkmale auf Basis der lokalen Schr
Seite 169 und 170: Merkmale auf Basis der lokalen Schr
Seite 171 und 172: Gitterbasierte Merkmale (Quadratgit
Seite 173 und 174: Gitterbasierte Merkmale (Dreicksgit
Seite 175 und 176:
Merkmale auf Basis der lokalen Schr
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Gitterbasierte Merkmale (Quadratgit
Seite 195 und 196:
D.2 Multi-Sample-Fusion ioPen DigiM
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
D.3 Multialgorithmische Fusion ioPe
Seite 207 und 208:
E Resultate - grafisch E.1 Ohne Fus
Seite 209 und 210:
Lokale Schriftrichtung precision pr
Seite 211 und 212:
precision precision precision 1 0.9
Seite 213 und 214:
Lokale Schriftkrümmung precision p
Seite 215 und 216:
Seite 217 und 218:
Lokale Schriftneigung precision pre
Seite 219 und 220:
Seite 221 und 222:
Dreiecksgitter precision precision
Seite 223 und 224:
Seite 225 und 226:
Seite 227 und 228:
Seite 229 und 230:
Seite 231 und 232:
E.2.2 Fusion auf Entscheidungsebene
Seite 233 und 234:
Lokale Schriftrichtung precision pr
Seite 235 und 236:
Seite 237 und 238:
Lokale Schriftkrümmung precision p
Seite 239 und 240:
Seite 241 und 242:
Lokale Schriftneigung precision pre
Seite 243 und 244:
Seite 245 und 246:
Seite 247 und 248:
Seite 249 und 250:
Seite 251 und 252:
1 0.8 F 0.6 1 0.4 0.2 1 0.8 F 0.6 1
Seite 253 und 254:
1 0.8 F 0.6 1 0.4 0.2 1 0.8 F 0.6 1
Seite 255 und 256:
Quadratische Gitter + lokale Schrif
Seite 257 und 258:
1 0.8 F 0.6 1 0.4 0.2 1 0.8 F 0.6 1
Seite 259 und 260:
Quadratische Gitter + lokale Schrif
Seite 261 und 262:
F 1 F 1 F 1 1 0.8 0.6 0.4 0.2 0.5 0
Seite 263 und 264:
F 1 F 1 F 1 1 0.8 0.6 0.4 0.2 0.54
Seite 265 und 266:
F Zeitaufwand der Merkmalsgewinnung
Seite 267 und 268:
G Entropie-τEER-Diagramme Die Diag
Seite 269 und 270:
optimal similarity threshold τ EER
Seite 271 und 272:
Literaturverzeichnis [AA96] ALIMOGL
Seite 273 und 274:
Literaturverzeichnis [Bru80] DE BRU
Seite 275 und 276:
Literaturverzeichnis Computer Scien
Seite 277 und 278:
Literaturverzeichnis [Fre74] FREEMA
Seite 279 und 280:
Literaturverzeichnis [Hir75] HIRSCH
Seite 281 und 282:
Literaturverzeichnis [JS06] JENSEN,
Seite 283 und 284:
Literaturverzeichnis [LGL06] LIAO,
Seite 285 und 286:
Literaturverzeichnis [Mor05] MORRIS
Seite 287 und 288:
Literaturverzeichnis [OKON04] ODA,
Seite 289 und 290:
Literaturverzeichnis [RMMK01] ROHL
Seite 291 und 292:
Literaturverzeichnis [SH04] SMITH,
Seite 293 und 294:
Literaturverzeichnis [Sti96] STIFEL
Seite 295 und 296:
Literaturverzeichnis Interest Group
Seite 297 und 298:
Literaturverzeichnis [Wob06] WOBBRO
Seite 299 und 300:
Sonstige Quellen [ACE07] ACE CAD EN
Seite 301 und 302:
Sonstige Quellen [Peg06] PEGASUS TE
Seite 303 und 304:
Eigene Veröffentlichungen [CSVV07]
Seite 305 und 306:
Index A Abtastung . . . . . . . . 2
Seite 307 und 308:
Lebenslauf Name Sascha Schimke (geb
Seite 309:
Selbständigkeitserklärung Ich erk
Alle anzeigen

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?