21.11.2013 Aufrufe

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

Ein Computerlinguistisches Lexikon als komplexes System

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

1.4 Ziele der Dissertation<br />

dem Morphologieprogramm einfacher ist. Die Abhängigkeiten der Module untereinander<br />

erschweren in diesen <strong>System</strong>en jedoch die <strong>Lexikon</strong>erweiterung und<br />

verhindern Transparenz.<br />

1.4 Ziele der Dissertation<br />

Die zentrale Fragestellung in dieser Dissertation lautet:<br />

Wie muss ein computerlinguistisches <strong>Lexikon</strong> beschaffen sein, um<br />

die maschinelle morphologische Analyse optimal zu unterstützen?<br />

Zunächst geht es darum, die <strong>Ein</strong>heiten zu identifizieren, die für die<br />

regelbasierte Behandlung morphologischer Phänomene benötigt werden.<br />

Die Zusammenhänge zwischen den <strong>Ein</strong>heiten müssen erkannt und mit den<br />

<strong>Ein</strong>heiten repräsentiert werden. Erst wenn ein Format gefunden ist, in dem sich<br />

eintragsübergreifende Zusammenhänge repräsentieren lassen, ist das <strong>Lexikon</strong><br />

unter Wahrung der Konsistenz pfleg- bzw. erweiterbar.<br />

Der Beitrag dieser Dissertation für die Forschung liegt in der Vorstellung<br />

einer flexiblen <strong>Lexikon</strong>struktur, der ein Modell für die Behandlung der in deutschen<br />

Gegenwartstexten vorkommenden morphologischen Phänomene zugrundeliegt.<br />

Während in der Wortbildungsliteratur seit langer Zeit die Phänomene<br />

(kontrovers) beschrieben werden, aber nicht in einem realisierten <strong>System</strong> auf<br />

ihre Praxistauglichkeit hin überprüft werden können, werden in den vorhandenen<br />

Morphologiesystemen für das Deutsche Phänomene wie Derivation und<br />

neoklassische Wortbildung entweder stiefmütterlich oder gar nicht behandelt.<br />

In dieser Arbeit werden sowohl die Phänomene benannt <strong>als</strong> auch die Möglichkeiten<br />

ihrer praktischen Behandlung vorgestellt.<br />

1.5 Empirische Basis<br />

Als Datenquelle wird in dieser Arbeit ein großes Zeitungskorpus verwendet, das<br />

geschriebene deutschsprachige Texte aus den Jahren 1988 bis 1994 umfasst<br />

(vgl. Tabelle 1.3). Es wird fortan in dieser Arbeit mit dem Kürzel HGC (Huge<br />

German Corpus) bezeichnet. Sofern es nicht anders erwähnt wird, beziehen sich<br />

alle Beispielwortformen und Angaben zu ihren Vorkommenshäufigkeiten auf<br />

das HGC.<br />

In Tabelle 1.3 sind die Bestandteile das HGC mitsamt der Anzahl der in ihnen<br />

enthaltenen Tokens aufgelistet. Das HGC umfasst 204 Millionen Tokens,<br />

die sich auf 3,2 Millionen verschiedene Typen (Types) verteilen. Für die weiteren<br />

Untersuchungen wird die Menge der betrachteten Tokens auf diejenigen<br />

7

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!