28.02.2013 Aufrufe

Folien

Folien

Folien

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

S 2.1 Grundlagen der Graphemik und maschinelle Schrifterkennung<br />

Lernziel: Schrift als eigenes Zeichensystem, das mit strukturalistischen Methoden bearbeitet werden kann,<br />

allgemeine Vorstellung davon, was Schrifterkennung und Rechtschreibprüfung leisten muß<br />

1. Grundlagen der Graphemik<br />

Verallgemeinerung: Semiotik - Lehre von den Zeichen, Schrift (Graphemik) ist nur ein Sonderfall<br />

physikalische Verbindung (Kanal)<br />

Sender Empfänger<br />

(Sprecher) Mitteilung (Nachricht) (Hörer)<br />

(Schreiber) (Leser)<br />

Signal<br />

Sender Kodierung Dekodierung Empfänger<br />

Kode


Verschiedene Schriftsysteme:<br />

• Pictographie – Bilder<br />

• Ideographie - Begriffszeichen<br />

• Logographie - Symbole für Wörter, Sätze<br />

• Phonographie - Zeichen für Sprachlaute<br />

Piktogramme<br />

Bildzeichen, Bedeutung unmittelbar einsichtig, daher auch sprachunabhängig und international verwendbar<br />

Keilschriften, Hieroglyphen und die chinesische Schrift basieren in ihren Frühformen auf Piktogrammen


Ideogramme<br />

Ideogramme sind Graphiken, deren Bedeutung durch Konvention geregelt ist. Man muss lernen, was sie bedeuten.<br />

:-)


Logographie<br />

Ein Zeichen entspricht einem Wort oder einem Satz<br />

1, 2 , 3, 4, § %<br />

Hieroglyphen, stehen für Wörter oder für Silben


Wind Sonne Mond Sterne Wolken Regen<br />

Chinesische Wortzeichenzeichen<br />

Phonographie<br />

Die Schrift beruht auf der Aussprache, Erfindung des Alphabets, die kleinsten Zeichen sind nicht mehr<br />

bedeutungstragend.<br />

Der Stein von Rosetta, ca. 1960 vor Christus.<br />

Text in 3 verschiedenen Schriften: in Hieroglyphen, in Demotisch<br />

(eine einfachere Schrift, die sich aus den Hieroglyphen entwickelte)<br />

und in Griechisch.


Oben phönizisch „Ich, Mahdas, Sohn des Pene-<br />

Simlat, ein Mann aus Kition“; unten die griechische<br />

Wiedergabe „Noumenios aus Kition<br />

Braille Blindenschrift<br />

Arabisch


ussisch<br />

griechisch<br />

armenisch<br />

georgisch<br />

hebräisch - Israel<br />

amharisch - Äthiopien<br />

Übersicht : einige fremde Schriften


arabische Neskhi-Schrift<br />

hindi : Indien<br />

gudjerati : Indien<br />

tamil : Indien, Sri Lanka<br />

singhalesisch : Sri Lanka<br />

Burmesisch<br />

Laotisch<br />

Thai


Kambodjanisch<br />

Chinesisch<br />

Chinesisch<br />

Japanisch<br />

Japanisch<br />

Koreanisch<br />

Mongolisch


Definitonen analog zur Phonemik:<br />

GRAPHEM = kleinste bedeutungsunterscheidende Schrifteinheit im Sprachbewußtsein<br />

GRAPH = aktuelles Schriftzeichen, durch das ein Graph realisiert wird<br />

ALLOGRAPH = unterschiedliche Graphe, die dasselbe Graph realisieren, Graphemvarianten<br />

Allographie, bedingt durch verschiedene Fonts und durch den Kontext (Ligaturen, Schreibschrift)<br />

Wiederum strukturalistische Analyse<br />

Experiment, Minimalpaare, Austausch, Umstellung -> distinktive Opposition<br />

-> Distribution<br />

-> System


Maschinelles Lesen (Optical Character Recognition, OCR)<br />

• on-line Schreibschrifterkennung<br />

Schreiben mit einem speziellen Stift auf einer elektronischen Oberfläche.<br />

Die Koordinaten der fortlaufend geschriebenen Punkte werden in chronologischer Reihenfolge<br />

gespeichert.<br />

Dies ergibt eindimensionale Daten des Schreibvorgangs,<br />

• off-line Erkennung von Druck- und Schreibschrift<br />

Einscannen einer beschriebenen oder bedruckten Seite als Bild.<br />

Die zeitliche Komponente der Schriftentstehung fehlt hier.<br />

Es muss ein zweidimensionales Bild analysiert werden<br />

Technisch gehört OCR zum Gebiet der Mustererkennung (ähnlich wie die Erkennung<br />

gesprochener Sprache)<br />

Lexika<br />

Hidden Markov Modelle


Problem der Segmentierung: Welche Graphe enthält das Monatsfeld?


• Sequentiell ablaufende Erkennungsalgorithmen -<br />

arbeiten eine Liste von Beobachtungen, die sie mit einem bestimmten Wortmuster<br />

vergleichen, von links nach rechts ab.<br />

Am Schreibvorgang orientiert.<br />

• Wahrnehmungsorientierte Algorithmen -<br />

versuchen dagegen beliebige Buchstaben eines Wortbildes zu<br />

identifizieren.<br />

Als nähctses wrid ein Etnscheiudngsrpozess duchrlaufen, der die am sciherstn<br />

erknnten Buchstben mit mögilchen Bchstaben für die Lcken zwschen inen<br />

afuzfüllen versucht. Disos Verfahrin fukntioniert anlog zum meschnlichen<br />

Lesn, bei dem auch anhnd der hervorstechsten sichr erkanntn Bchstaben<br />

auf das ganze Wart geschlussen wird.<br />

Am Modell des menschlichen Lesevorgangs orientiert.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!