21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Kapitel 1<br />

<strong>Ein</strong>leitung<br />

<strong>Ein</strong> Desideratum für die maschinelle Verarbeitung geschriebener Sprache ist<br />

ein Verfahren, das die einzelnen Elemente dieser Sprache eindeutig zu identifizieren<br />

und zu klassifizieren vermag. <strong>Ein</strong> solches Verfahren existiert noch nicht<br />

und kann in absehbarer Zeit auch nicht erwartet werden, da zum einen durch<br />

den produktiven Prozess der Wortbildung die Menge der Elemente nicht endlich<br />

ist, <strong>als</strong>o nie vollständig aufgezählt werden kann, zum anderen die Sprache<br />

selbst mit vielen Mehrdeutigkeiten aufwartet, die oftm<strong>als</strong> gar nicht disambiguiert<br />

werden sollen. Für den Menschen ist es ein Leichtes, Fehler zu verarbeiten,<br />

seien es Tippfehler in Texten, fehlende oder unbekannte Wörter, die durch<br />

den Kontext leicht verstanden werden können. Der Computer hingegen kann<br />

weder auf ein mentales <strong>Lexikon</strong> noch auf langfristig gelerntes Weltwissen zugreifen.<br />

<strong>Ein</strong>e notwendige Voraussetzung für ein Werkzeug, das auch dem Computer<br />

die Analyse von Sprache ermöglicht, ist eine Ressource, die Informationen zu<br />

den Elementen der Sprache enthält. Es sind für einen möglichst großen Teil der<br />

in geschriebenen und gesprochenen Texten vorkommenden <strong>Ein</strong>heiten Informationen<br />

zu Morphologie, Syntax, Semantik und Phonetik zu speichern, um z.B.<br />

die syntaktische Zerlegung der Texte zu ermöglichen (Parsing; benötigt Morphosyntax),<br />

die automatische Zusammenfassung oder das schnelle Auffinden<br />

bestimmter Informationen zu erleichtern (Information Retrieval; benötigt Morphologie,<br />

Semantik) oder das Aussprechen eines Textes durch einen Computer<br />

vornehmen zu lassen (Sprachsynthese; benötigt Morphologie, Phonetik).<br />

Zur Zeit sind keine sog. maschinenlesbaren Wörterbücher für das Deutsche<br />

verfügbar, die ein Werkzeug der skizzierten Art unterstützen. Überhaupt<br />

sind nur sehr wenige maschinell gespeicherte Wörterbücher zu finden, die über<br />

detaillierte Informationen für eine große Anzahl von in Texten vorkommenden<br />

Wörtern verfügen und anspruchsvolle NLP-Anwendungen unterstützen.<br />

Die Gründe dafür sind vielfältig: Zum einen muss ein hoher Aufwand getrieben<br />

werden, die geschätzten mehreren zehntausend Elemente, die sich durch die<br />

Regeln der Wortbildung und Flexion zu einigen Millionen verschiedenen Wort-<br />

1

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!