Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Weitere Magazine

Empfehlungen

Info

6 Suche mit Fehlern Buchstaben durch andere (»Alphsbet«). Lowrance und Wagner kombinierten diese Beobachtung mit dem von Levenshtein in [Lev66] eingeführten Editierabstand zur so genannten Damerau-Levenshtein-Distanz [LW75]. Neben den Operationen Einfügen, Löschen und Ersetzen wird also zusätzlich das Vertauschen von benachbarten Zeichen berücksichtigt. Die Bestimmung der Damerau-Levenshtein-Distanz kann auf ähnliche Weise erfolgen wie die des klassischen Editierabstandes (siehe Gleichungen 6.2 bis 6.6). Hierfür wird eine Distanzmatrix DT der Größe (m + 1) × (n + 1) bestimmt, mit m = |r| und n = |s|, für die gilt [Hyy01]: ⎧ i falls j = 0, ⎪⎨ j falls i = 0, DTi, j = DTi−1, j−1 falls ri = s j, ⎪⎩ min � � DTi−2, j−2,DTi−1, j,DTi, j−1 + 1 falls (i, j > 1) ∧ (ri−1...i R = s j−1... j), min � � DTi−1, j−1,DTi−1, j,DTi, j−1 + 1 sonst. (6.13) Der Ausdruck ri−1...i R steht für die Umkehrung der Teilzeichenkette ri−1...i. Es gilt also (ri−1...i R = s j−1... j) ⇔ (ri−1 = s j ∧ ri = s j−1). Die Damerau-Levenshtein-Distanz distanceDL zweier Zeichenketten r und s ergibt sich durch distanceDL(r,s) = DTm,n. Die Damerau-Levenshtein-Distanz ist keine Distanzfunktion im engeren Sinne, da die Dreiecksungleichung nicht erfüllt ist. Dies kann an einem einfachen Beispiel gezeigt werden [Boi01]: die Damerau-Levenshtein-Distanz der Zeichenketten »no« und »on« beträgt offensichtlich eins, ebenso wie die zwischen »on« und »orn«; der Abstand zwischen »no« und »orn« ist jedoch drei. 6.2 Approximative Stringsuche mittels dynamischer Programmierung Wie bereits erwähnt, wird die Suche nach Worten, nach Gruppen oder Teilen von Worten oder nach Symbolen in handschriftlichen Dokumenten dadurch realisiert, dass sowohl aus den Sucheingaben als auch aus den zu durchsuchenden Dokumenten Merkmale in Form von Sequenzen extrahiert (siehe Kapitel 5) und anschließend die Merkmalssequenzen der Dokumente durchsucht werden nach solchen Teilsequenzen (engl. subsequence oder substring), die mindestens eine festgelegte Ähnlichkeit oder, mit anderen Worten, höchstens eine festgelegte Distanz zur Merkmalssequenz der Sucheingabe haben; dies wird auch als Suche mit Fehlern (engl. fuzzy string searching) bezeichnet. Der naive Ansatz für diese Suche mit Fehlern wäre es, für jede Teilsequenz der Merkmalssequenzen der Dokumente die Ähnlichkeit zur Merkmalssequenz der Sucheingabe zu bestimmen. Da eine Sequenz der Länge l jedoch ∑ l i=1 i = l·(l+1) /2 voneinander verschiedene Teilsequenzen hat und die Bestimmung der Ähnlichkeit zweier Sequenzen, etwa mittels des Editierabstandes, eine quadratische Zeitkomplexität aufweist, ist sehr schnell einsichtig, dass dieser Ansatz nicht praktikabel ist. Um das Problem des naiven Ansatzes zu umgehen ist ein anderes Vorgehen nötig. Die einfachste Möglichkeit hierfür besteht darin, die Gleichungen 6.2 bis 6.6 zur Bestimmung des Editierabstandes wie folgt zu ändern [Sel80]: 76
6.2 Approximative Stringsuche mittels dynamischer Programmierung Di,0 = i (6.14) D0, j = 0 ⎧ ⎨ Di−1, j−1 + ⎫ d(i, j), ⎬ (6.15) mit Di, j d(i, j) = = min Di−1, j + ⎩ Di, j−1 + � 1 falls ri �= si 0 sonst 1, 1 ⎭ (6.16) (6.17) Wie im Falle des klassischen Editierabstandes ist D hierbei eine Distanzmatrix der Größe (m + 1) × (n + 1), wobei m = |r| die Länge der Merkmalssequenz r der Sucheingabe und n = |s| die Länge der Merkmalssequenz s eines Dokumentes ist. Die Elemente der Matrix D an der Stelle (i, j) enthalten den Editierabstand zwischen der Teilsequenz r1...i und einer Teilsequenz s ( j−k+1)... j der Länge k (mit k ∈ N), wobei der Wert k ohne weitere Berechnungen nicht bekannt ist. Daraus folgt, dass in der m-ten Zeile der Distanzmatrix in den Spalten j (mit 0 < j ≤ n) der Editierabstand zwischen der Merkmalssequenz der Sucheingabe und einem Teil der Dokumentsequenz, der an der Stelle j endet, zu finden ist. Diese m-te Zeile Dm,0...n soll im Folgenden kurz als Dm bezeichnet werden. Die Elemente der Zeile Dm können den Wert m nicht übersteigen, da, wie in Abschnitt 6.1.1 diskutiert wurde, der Editierabstand zweier Zeichenketten höchstens so groß ist, wie die Länge der längeren Zeichenkette. Bei der Suche einer kurzen Zeichenkette r in einer langen Zeichenkette s kann dieser maximale Editierabstand m = |r| an jeder Stelle j dadurch angenommen werden, dass r aus der leeren Zeichenkette λ in m Schritten erzeugt wird. Wenn, wie in Gleichung 6.15 geschehen, die Werte der 0-ten Spalte (i = 0) auf 0 gesetzt werden, bedeutet dies, dass bei der Suche nach der leeren Teilsequenz (r1...0 = λ) an jeder Stelle j der Dokumentsequenz s der Editierabstand gleich 0 ist. Dies ist der Grund für die Verwendbarkeit der Gleichungen 6.14 bis 6.17 als Suchfunktion; jede Stelle der Dokumentsequenz s kann theoretisch der Beginn einer Teilsequenz von s sein, die zu r eine hohe Ähnlichkeit aufweist. In Abbildung 6.3 ist das Beispiel einer Distanzmatrix D der Größe 8 × 23 (D0...7,0...22) für die Suche nach der Zeichenkette r = »prinzip« der Länge m = 7 in der Zeichenkette s = »dieerzeugungsprincipe« 3 der Länge n = 22 mit r,s ∈ A ∗ a...z dargestellt. Die unterste Matrixzeile (Dm) stellt den Editierabstand zwischen r und bestimmten Teilen von s dar. In diesem Beispiel ist insbesondere das Element D7,20 = 1 (hervorgehoben durch Fettdruck) interessant, da sich hier der beste Treffer findet, nämlich der Editierabstand zwischen r und s14...20 = »princip«. Das Ende j e = 20 des Treffers wird gefunden, indem nach dem Mini- mum der Zeile Dm gesucht wird. Um den Beginn j b = 14 des Treffers zu bestimmen, wird der so genannte optimale Alignment-Pfad gesucht, indem ausgehend von Dm, je die Matrix D nach oben und links elementweise nach möglichst kleinen Werten abgesucht wird, bis die Zeile D0 erreicht ist. Das Ziel hierbei ist es, herauszufinden, welche Entscheidung die min-Funktion in Gleichung 6.16 getroffen hat. 3 Eigentlich: »Die [. . . ] Erzeugungsprincipe, mit deren Hülfe [. . . ]« [Can83] 77
Seite 1 und 2:
Suche in on-line erfassten digitale
Seite 3:
Zusammenfassung In dieser Arbeit en
Seite 7 und 8:
Inhaltsverzeichnis Zusammenfassung
Seite 9 und 10:
Inhaltsverzeichnis 8.2 Datenbank .
Seite 11 und 12:
Tabellenverzeichnis 2.1 Vergleich d
Seite 13 und 14:
Abbildungsverzeichnis 1.1 Vergleich
Seite 15 und 16:
Abbildungsverzeichnis 8.3 Berechnun
Seite 17 und 18:
Algorithmenverzeichnis 1 Funktion z
Seite 19 und 20:
1 Einleitung Handwriting is civiliz
Seite 21 und 22:
1.2 Überblick über Schrift am Com
Seite 23 und 24:
1.2 Überblick über Schrift am Com
Seite 25 und 26:
1.4 Aufbau dieser Arbeit Das Kapite
Seite 27 und 28:
2 Verwandte Arbeiten I have seen th
Seite 29 und 30:
Die Gewichte wĉ0 bis wĉ13 werden
Seite 31 und 32:
2.1 Fremde Suchansätze 33 Personen
Seite 33 und 34:
2.1 Fremde Suchansätze Abbildung 2
Seite 35 und 36:
2.2 Beispielanwendungen des Pen-Com
Seite 37 und 38:
2.2 Beispielanwendungen des Pen-Com
Seite 39 und 40:
3 Gerätetypen und Datenformate Die
Seite 41 und 42:
3.1 Optische Positionsbestimung Abb
Seite 43 und 44: 3.1 Optische Positionsbestimung Abb
Seite 45 und 46: 3.2 Elektrostatische und elektromag
Seite 47 und 48: 3.2 Elektrostatische und elektromag
Seite 49 und 50: Ultraschall− sensoren Ultraschall
Seite 51 und 52: 3.4 Resistive-Film-Technologie Abbi
Seite 53 und 54: 3.5 Elektromechanische Positionsbes
Seite 55 und 56: 3.5 Elektromechanische Positionsbes
Seite 57 und 58: 3.6 Dateiformate für On-line Hands
Seite 59 und 60: 3.6 Dateiformate für On-line Hands
Seite 61 und 62: 3.7 Zusammenfassung Einen anderen Z
Seite 63 und 64: 4 Aufbau des Systems Dieses Kapitel
Seite 65 und 66: Such− anfrage Daten− speicherun
Seite 67 und 68: 5 Merkmalsgewinnung 1 (unbekannt) W
Seite 69 und 70: x position y position 8500 8000 750
Seite 71 und 72: 5.1 Datenvorverarbeitung Algorithmu
Seite 73 und 74: y 2 1.5 1 0.5 0 −0.5 −1 −1.5
Seite 75 und 76: 5.2 Gitterbasierte Richtungsmerkmal
Seite 81 und 82: 5.2.2 Dreiecksgitter 5.2 Gitterbasi
Seite 83 und 84: 5.3 Lokale Schriftrichtung Algorith
Seite 85 und 86: 5.4 Lokale Schriftkrümmung 5.4 Lok
Seite 87 und 88: p 9 p p 8 10 p 7 p 6 p 11 p 5 p 12
Seite 89 und 90: 6 Suche mit Fehlern Auch der Erfind
Seite 91 und 92: 6.1 Ähnlichkeiten von Zeichenkette
Seite 93: 6.1 Ähnlichkeiten von Zeichenkette
Seite 97 und 98: 6.2 Approximative Stringsuche mitte
Seite 99 und 100: 6.3 Alternative Suchalgorithmen der
Seite 101 und 102: 7 Fusion Vereint sind auch die Schw
Seite 103 und 104: Enrollment: Sensor Verifikation: Se
Seite 105 und 106: 7.1 Überblick über Biometrie und
Seite 107 und 108: 7.1 Überblick über Biometrie und
Seite 109 und 110: 7.2 Fusionsstrategien der Handschri
Seite 111 und 112: 7.2 Fusionsstrategien der Handschri
Seite 113 und 114: Such− anfrage Datenspeicherung Vo
Seite 115 und 116: 7.3 Zusammenfassung 7.3 Zusammenfas
Seite 117 und 118: 8 Evaluation Evaluation: Das Unwich
Seite 119 und 120: 8.1 Grundlagen Abbildung 8.1: Die M
Seite 121 und 122: 1 0 recall precision 1 precision sy
Seite 123 und 124: 8.2 Datenbank Für die Evaluierung
Seite 125 und 126: Abbildung 8.4: Ground-Truth-Manager
Seite 127 und 128: 8.3 Vorgehen bei der Evaluation Dok
Seite 129 und 130: ecall 1 0.8 0.6 0.4 0.2 precision,
Seite 131 und 132: 8.3 Vorgehen bei der Evaluation 8.3
Seite 133 und 134: 8.4 Zusammenfassung In Abbildung 8.
Seite 135 und 136: 9 Diskussion der Resultate Dieses K
Seite 137 und 138: 9.1 Resultate der Suche ohne Fusion
Seite 139 und 140: precision ioPen, directions based f
Seite 141 und 142: 9.1 Resultate der Suche ohne Fusion
Seite 143 und 144: 9.2 Resultate für Multi-Sample-Fus
Seite 145 und 146:
9.2 Resultate für Multi-Sample-Fus
Seite 147 und 148:
9.3 Resultate für multialgorithmis
Seite 149 und 150:
9.3 Resultate für multialgorithmis
Seite 151 und 152:
9.5 Resultate verwandter Suchverfah
Seite 153 und 154:
9.6 Zusammenfassung Das System von
Seite 155 und 156:
10 Fazit und Ausblick Der Anfang is
Seite 157 und 158:
10.3 Ausblick 10.3 Ausblick Neben d
Seite 159 und 160:
A Notation Bezeichner Beschreibung
Seite 161 und 162:
B Plan zur Schriftdatenerfassung
Seite 163 und 164:
C Datenbankschema der Evaluationsum
Seite 165 und 166:
D Resultate - tabellarisch Im Folge
Seite 167 und 168:
Merkmale auf Basis der lokalen Schr
Seite 169 und 170:
Seite 171 und 172:
Gitterbasierte Merkmale (Quadratgit
Seite 173 und 174:
Gitterbasierte Merkmale (Dreicksgit
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Gitterbasierte Merkmale (Quadratgit
Seite 195 und 196:
D.2 Multi-Sample-Fusion ioPen DigiM
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
D.3 Multialgorithmische Fusion ioPe
Seite 207 und 208:
E Resultate - grafisch E.1 Ohne Fus
Seite 209 und 210:
Lokale Schriftrichtung precision pr
Seite 211 und 212:
precision precision precision 1 0.9
Seite 213 und 214:
Lokale Schriftkrümmung precision p
Seite 215 und 216:
Seite 217 und 218:
Lokale Schriftneigung precision pre
Seite 219 und 220:
Seite 221 und 222:
Dreiecksgitter precision precision
Seite 223 und 224:
Seite 225 und 226:
Seite 227 und 228:
Seite 229 und 230:
Seite 231 und 232:
E.2.2 Fusion auf Entscheidungsebene
Seite 233 und 234:
Lokale Schriftrichtung precision pr
Seite 235 und 236:
Seite 237 und 238:
Lokale Schriftkrümmung precision p
Seite 239 und 240:
Seite 241 und 242:
Lokale Schriftneigung precision pre
Seite 243 und 244:
Seite 245 und 246:
Seite 247 und 248:
Seite 249 und 250:
Seite 251 und 252:
1 0.8 F 0.6 1 0.4 0.2 1 0.8 F 0.6 1
Seite 253 und 254:
1 0.8 F 0.6 1 0.4 0.2 1 0.8 F 0.6 1
Seite 255 und 256:
Quadratische Gitter + lokale Schrif
Seite 257 und 258:
1 0.8 F 0.6 1 0.4 0.2 1 0.8 F 0.6 1
Seite 259 und 260:
Quadratische Gitter + lokale Schrif
Seite 261 und 262:
F 1 F 1 F 1 1 0.8 0.6 0.4 0.2 0.5 0
Seite 263 und 264:
F 1 F 1 F 1 1 0.8 0.6 0.4 0.2 0.54
Seite 265 und 266:
F Zeitaufwand der Merkmalsgewinnung
Seite 267 und 268:
G Entropie-τEER-Diagramme Die Diag
Seite 269 und 270:
optimal similarity threshold τ EER
Seite 271 und 272:
Literaturverzeichnis [AA96] ALIMOGL
Seite 273 und 274:
Literaturverzeichnis [Bru80] DE BRU
Seite 275 und 276:
Literaturverzeichnis Computer Scien
Seite 277 und 278:
Literaturverzeichnis [Fre74] FREEMA
Seite 279 und 280:
Literaturverzeichnis [Hir75] HIRSCH
Seite 281 und 282:
Literaturverzeichnis [JS06] JENSEN,
Seite 283 und 284:
Literaturverzeichnis [LGL06] LIAO,
Seite 285 und 286:
Literaturverzeichnis [Mor05] MORRIS
Seite 287 und 288:
Literaturverzeichnis [OKON04] ODA,
Seite 289 und 290:
Literaturverzeichnis [RMMK01] ROHL
Seite 291 und 292:
Literaturverzeichnis [SH04] SMITH,
Seite 293 und 294:
Literaturverzeichnis [Sti96] STIFEL
Seite 295 und 296:
Literaturverzeichnis Interest Group
Seite 297 und 298:
Literaturverzeichnis [Wob06] WOBBRO
Seite 299 und 300:
Sonstige Quellen [ACE07] ACE CAD EN
Seite 301 und 302:
Sonstige Quellen [Peg06] PEGASUS TE
Seite 303 und 304:
Eigene Veröffentlichungen [CSVV07]
Seite 305 und 306:
Index A Abtastung . . . . . . . . 2
Seite 307 und 308:
Lebenslauf Name Sascha Schimke (geb
Seite 309:
Selbständigkeitserklärung Ich erk
Alle anzeigen

Zusammenfassung - Otto-von-Guericke-Universität Magdeburg

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?