Folien
Folien
Folien
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
S 2.1 Grundlagen der Graphemik und maschinelle Schrifterkennung<br />
Lernziel: Schrift als eigenes Zeichensystem, das mit strukturalistischen Methoden bearbeitet werden kann,<br />
allgemeine Vorstellung davon, was Schrifterkennung und Rechtschreibprüfung leisten muß<br />
1. Grundlagen der Graphemik<br />
Verallgemeinerung: Semiotik - Lehre von den Zeichen, Schrift (Graphemik) ist nur ein Sonderfall<br />
physikalische Verbindung (Kanal)<br />
Sender Empfänger<br />
(Sprecher) Mitteilung (Nachricht) (Hörer)<br />
(Schreiber) (Leser)<br />
Signal<br />
Sender Kodierung Dekodierung Empfänger<br />
Kode
Verschiedene Schriftsysteme:<br />
• Pictographie – Bilder<br />
• Ideographie - Begriffszeichen<br />
• Logographie - Symbole für Wörter, Sätze<br />
• Phonographie - Zeichen für Sprachlaute<br />
Piktogramme<br />
Bildzeichen, Bedeutung unmittelbar einsichtig, daher auch sprachunabhängig und international verwendbar<br />
Keilschriften, Hieroglyphen und die chinesische Schrift basieren in ihren Frühformen auf Piktogrammen
Ideogramme<br />
Ideogramme sind Graphiken, deren Bedeutung durch Konvention geregelt ist. Man muss lernen, was sie bedeuten.<br />
:-)
Logographie<br />
Ein Zeichen entspricht einem Wort oder einem Satz<br />
1, 2 , 3, 4, § %<br />
Hieroglyphen, stehen für Wörter oder für Silben
Wind Sonne Mond Sterne Wolken Regen<br />
Chinesische Wortzeichenzeichen<br />
Phonographie<br />
Die Schrift beruht auf der Aussprache, Erfindung des Alphabets, die kleinsten Zeichen sind nicht mehr<br />
bedeutungstragend.<br />
Der Stein von Rosetta, ca. 1960 vor Christus.<br />
Text in 3 verschiedenen Schriften: in Hieroglyphen, in Demotisch<br />
(eine einfachere Schrift, die sich aus den Hieroglyphen entwickelte)<br />
und in Griechisch.
Oben phönizisch „Ich, Mahdas, Sohn des Pene-<br />
Simlat, ein Mann aus Kition“; unten die griechische<br />
Wiedergabe „Noumenios aus Kition<br />
Braille Blindenschrift<br />
Arabisch
ussisch<br />
griechisch<br />
armenisch<br />
georgisch<br />
hebräisch - Israel<br />
amharisch - Äthiopien<br />
Übersicht : einige fremde Schriften
arabische Neskhi-Schrift<br />
hindi : Indien<br />
gudjerati : Indien<br />
tamil : Indien, Sri Lanka<br />
singhalesisch : Sri Lanka<br />
Burmesisch<br />
Laotisch<br />
Thai
Kambodjanisch<br />
Chinesisch<br />
Chinesisch<br />
Japanisch<br />
Japanisch<br />
Koreanisch<br />
Mongolisch
Definitonen analog zur Phonemik:<br />
GRAPHEM = kleinste bedeutungsunterscheidende Schrifteinheit im Sprachbewußtsein<br />
GRAPH = aktuelles Schriftzeichen, durch das ein Graph realisiert wird<br />
ALLOGRAPH = unterschiedliche Graphe, die dasselbe Graph realisieren, Graphemvarianten<br />
Allographie, bedingt durch verschiedene Fonts und durch den Kontext (Ligaturen, Schreibschrift)<br />
Wiederum strukturalistische Analyse<br />
Experiment, Minimalpaare, Austausch, Umstellung -> distinktive Opposition<br />
-> Distribution<br />
-> System
Maschinelles Lesen (Optical Character Recognition, OCR)<br />
• on-line Schreibschrifterkennung<br />
Schreiben mit einem speziellen Stift auf einer elektronischen Oberfläche.<br />
Die Koordinaten der fortlaufend geschriebenen Punkte werden in chronologischer Reihenfolge<br />
gespeichert.<br />
Dies ergibt eindimensionale Daten des Schreibvorgangs,<br />
• off-line Erkennung von Druck- und Schreibschrift<br />
Einscannen einer beschriebenen oder bedruckten Seite als Bild.<br />
Die zeitliche Komponente der Schriftentstehung fehlt hier.<br />
Es muss ein zweidimensionales Bild analysiert werden<br />
Technisch gehört OCR zum Gebiet der Mustererkennung (ähnlich wie die Erkennung<br />
gesprochener Sprache)<br />
Lexika<br />
Hidden Markov Modelle
Problem der Segmentierung: Welche Graphe enthält das Monatsfeld?
• Sequentiell ablaufende Erkennungsalgorithmen -<br />
arbeiten eine Liste von Beobachtungen, die sie mit einem bestimmten Wortmuster<br />
vergleichen, von links nach rechts ab.<br />
Am Schreibvorgang orientiert.<br />
• Wahrnehmungsorientierte Algorithmen -<br />
versuchen dagegen beliebige Buchstaben eines Wortbildes zu<br />
identifizieren.<br />
Als nähctses wrid ein Etnscheiudngsrpozess duchrlaufen, der die am sciherstn<br />
erknnten Buchstben mit mögilchen Bchstaben für die Lcken zwschen inen<br />
afuzfüllen versucht. Disos Verfahrin fukntioniert anlog zum meschnlichen<br />
Lesn, bei dem auch anhnd der hervorstechsten sichr erkanntn Bchstaben<br />
auf das ganze Wart geschlussen wird.<br />
Am Modell des menschlichen Lesevorgangs orientiert.