18.11.2013 Aufrufe

Der MOLEX-Generator

Der MOLEX-Generator

Der MOLEX-Generator

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Der</strong> <strong>MOLEX</strong>-<strong>Generator</strong><br />

Automatische Erzeugung von Flexionsformen<br />

Entstehung des <strong>MOLEX</strong>-<strong>Generator</strong>s<br />

• Arbeitsstelle Linguistische Datenverarbeitung (LDV) des Instituts für deutsche Sprache<br />

(IdS)<br />

• für Projekt PLIDIS wird morphologische Analyse von Eingabetexten gebraucht<br />

• Entscheidung gegen Programm, das morphologische Analyse durchführt<br />

• stattdessen Vollformenlexikon (<strong>MOLEX</strong>)<br />

<strong>MOLEX</strong><br />

• morphologisches Vollformenlexikon<br />

• soll alle Informationen enthalten, die Output einer morphologischen Analyse wären<br />

• Informationen sollen durch einen einfachen Lexikonzugriff abrufbar und für die<br />

anschließende Syntaxanalyse verfügbar sein<br />

Zwei Möglichkeiten<br />

1. nur Wortformen aus Anwendungsbereich von PLIDIS<br />

- manuelle/halbautomatische Erstellung der Einträge<br />

2. alle Wortformen des Deutschen<br />

- Entwicklung eines Programms, das alle flektierten Wortformen und ihre<br />

morphologische Beschreibung vollautomatisch findet<br />

Entscheidung für die 2. Möglichkeit (<strong>MOLEX</strong>-<strong>Generator</strong>)<br />

Funktionsweise des <strong>MOLEX</strong>-<strong>Generator</strong>s<br />

• Liste von Lexemen (Grundform) mit Flexionsklassenangabe<br />

• Flexionsklassen<br />

- Regeln, wie aus der Grundform die flektierten Formen zu bilden sind<br />

Generierung aller möglichen flektierten Formen des Lexems mit morphologischer<br />

Beschreibung<br />

Lexikon<br />

• Suche nach Lexikon mit folgenden Eigenschaften:<br />

- nicht allzu eingeschränkter Wortschatz<br />

- möglichst viele Hilfen für die Generierung von Substantiven, Verben und Adjektiven<br />

Wahrig, Deutsches Wörterbuch, 1968


• Übernahme der Klassifizierung des Wahrig<br />

• Hinzufügen fehlender Klassen<br />

Verben<br />

• unregelmäßige Verben:<br />

- 188 Klassen<br />

- nur ein paar Klassen müssen hinzugefügt werden<br />

• regelmäßige Verben:<br />

- nicht klassifiziert<br />

- Entwicklung einer neuen Systematik<br />

Substantive<br />

• „deutsche“ Substantive:<br />

- im Wahrig klassifiziert<br />

- es müssen noch einige Abfragen hinzugefügt werden<br />

• „nicht-deutsche“ Substantive:<br />

- im Wahrig nicht klassifiziert<br />

- Entwicklung eines eigenen Deklinationsschemas<br />

Adjektive<br />

• Entwicklung völlig neuer Klassen nötig<br />

• Angaben:<br />

- gewünschte Generierung für die einzelnen Steigerungsstufen<br />

- ggf. Umlautung von Komparativ und Superlativ<br />

• durch Prüfen der Auslaute/Suffixe lässt sich entscheiden, wie die flektierten Formen zu<br />

bilden sind<br />

Andere Wortarten<br />

• Adverbien, Artikel usw.<br />

• aus Lexikon übernommen<br />

• nicht produktiv müssen im Generierungsvorgang nicht bedacht werden<br />

Deklinationsklassensystem für Substantive<br />

• jede Deklinationsklasse bekommt eine 6-stellige Zeichenfolge:<br />

1 2 3 4 5 6<br />

Genus Kettung Grund- Singulardekli- Pluraldekliform<br />

u. Endung nationsmuster nationsmuster<br />

1. Genus: F/M/N/P<br />

F = Genus feminin<br />

M = Genus maskulin


N = Genus Neutrum<br />

P = Pluraletantum, z. B. Eltern<br />

2. Kettung Grundform und Endung: N/U/V/S/A/1/2/…/9<br />

N „normale Deklination“: einfache Kettung Grundform Bild Bild, Bild-es, Bild-e, Bild<br />

und Endung<br />

U Umlaut im Plural (bei „ß“ nach langem Vokal) Hahn Hähn-e<br />

Gruß Grüß-e<br />

V Umlaut im Plural (bei „ß“ nach kurzem Vokal) Baß Bäss-e<br />

S bei „ß“ nach kurzem Vokal Riß Riß, Riss-es, Riss-e, Riß<br />

A bei adjektivischer Deklination: Endungen bei Genus<br />

F an GF – 1 ketten, sonst an GF -2<br />

Alte Alt-e, Alt-en, Alt-en, Alt-e<br />

Beamter Beamt-e(r), Beamten,<br />

Beamt-en, Beamt-en<br />

1 Pluralendung an GF – 1 ketten Matrix Matri-zen<br />

2 Pluralendung an GF – 2 ketten Basis Bas-en<br />

… …<br />

9 Pluralendung an GF – 9 ketten<br />

3. + 4. Ziffer zwischen 01 und 14 für das Singulardeklinationsmuster<br />

00: Wort bildet keinen Singular (z. B. Kosten, Eltern, Repressalien)<br />

5. + 6. Ziffer zwischen 01 und 61 für das Pluraldeklinationsmuster<br />

00: Wort bildet keinen Plural (z. B. Treue, Polizei, Obst)<br />

Das Generierungsverfahren<br />

• Programmiersprache INTERLISP<br />

- für linguistische Problemstellungen besonders geeignet<br />

- interpretierende Sprache, daher komfortables Testen von Funktionen<br />

- in einem Programm können andere Programme erzeugt werden<br />

• Zweistufiger Generierungsprozess:<br />

1. aus jeder Generierungsregel wird ein ausführbares Programm erzeugt<br />

2. das Programm wird auf die Grundform eines Lexems angewandt<br />

Ergebnis: flektierte Form und morphologische Beschreibung<br />

Angaben über Kasus, Numerus, Genus usw.<br />

• bei Substantiven:<br />

- jeder flektierten Form wird eine Ziffer zugeordnet, aus der Kasus, Genus und Numerus<br />

zu entnehmen sind<br />

- Ziffer als Bitmuster aufgebaut

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!