Der MOLEX-Generator
Der MOLEX-Generator
Der MOLEX-Generator
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Der</strong> <strong>MOLEX</strong>-<strong>Generator</strong><br />
Automatische Erzeugung von Flexionsformen<br />
Entstehung des <strong>MOLEX</strong>-<strong>Generator</strong>s<br />
• Arbeitsstelle Linguistische Datenverarbeitung (LDV) des Instituts für deutsche Sprache<br />
(IdS)<br />
• für Projekt PLIDIS wird morphologische Analyse von Eingabetexten gebraucht<br />
• Entscheidung gegen Programm, das morphologische Analyse durchführt<br />
• stattdessen Vollformenlexikon (<strong>MOLEX</strong>)<br />
<strong>MOLEX</strong><br />
• morphologisches Vollformenlexikon<br />
• soll alle Informationen enthalten, die Output einer morphologischen Analyse wären<br />
• Informationen sollen durch einen einfachen Lexikonzugriff abrufbar und für die<br />
anschließende Syntaxanalyse verfügbar sein<br />
Zwei Möglichkeiten<br />
1. nur Wortformen aus Anwendungsbereich von PLIDIS<br />
- manuelle/halbautomatische Erstellung der Einträge<br />
2. alle Wortformen des Deutschen<br />
- Entwicklung eines Programms, das alle flektierten Wortformen und ihre<br />
morphologische Beschreibung vollautomatisch findet<br />
Entscheidung für die 2. Möglichkeit (<strong>MOLEX</strong>-<strong>Generator</strong>)<br />
Funktionsweise des <strong>MOLEX</strong>-<strong>Generator</strong>s<br />
• Liste von Lexemen (Grundform) mit Flexionsklassenangabe<br />
• Flexionsklassen<br />
- Regeln, wie aus der Grundform die flektierten Formen zu bilden sind<br />
Generierung aller möglichen flektierten Formen des Lexems mit morphologischer<br />
Beschreibung<br />
Lexikon<br />
• Suche nach Lexikon mit folgenden Eigenschaften:<br />
- nicht allzu eingeschränkter Wortschatz<br />
- möglichst viele Hilfen für die Generierung von Substantiven, Verben und Adjektiven<br />
Wahrig, Deutsches Wörterbuch, 1968
• Übernahme der Klassifizierung des Wahrig<br />
• Hinzufügen fehlender Klassen<br />
Verben<br />
• unregelmäßige Verben:<br />
- 188 Klassen<br />
- nur ein paar Klassen müssen hinzugefügt werden<br />
• regelmäßige Verben:<br />
- nicht klassifiziert<br />
- Entwicklung einer neuen Systematik<br />
Substantive<br />
• „deutsche“ Substantive:<br />
- im Wahrig klassifiziert<br />
- es müssen noch einige Abfragen hinzugefügt werden<br />
• „nicht-deutsche“ Substantive:<br />
- im Wahrig nicht klassifiziert<br />
- Entwicklung eines eigenen Deklinationsschemas<br />
Adjektive<br />
• Entwicklung völlig neuer Klassen nötig<br />
• Angaben:<br />
- gewünschte Generierung für die einzelnen Steigerungsstufen<br />
- ggf. Umlautung von Komparativ und Superlativ<br />
• durch Prüfen der Auslaute/Suffixe lässt sich entscheiden, wie die flektierten Formen zu<br />
bilden sind<br />
Andere Wortarten<br />
• Adverbien, Artikel usw.<br />
• aus Lexikon übernommen<br />
• nicht produktiv müssen im Generierungsvorgang nicht bedacht werden<br />
Deklinationsklassensystem für Substantive<br />
• jede Deklinationsklasse bekommt eine 6-stellige Zeichenfolge:<br />
1 2 3 4 5 6<br />
Genus Kettung Grund- Singulardekli- Pluraldekliform<br />
u. Endung nationsmuster nationsmuster<br />
1. Genus: F/M/N/P<br />
F = Genus feminin<br />
M = Genus maskulin
N = Genus Neutrum<br />
P = Pluraletantum, z. B. Eltern<br />
2. Kettung Grundform und Endung: N/U/V/S/A/1/2/…/9<br />
N „normale Deklination“: einfache Kettung Grundform Bild Bild, Bild-es, Bild-e, Bild<br />
und Endung<br />
U Umlaut im Plural (bei „ß“ nach langem Vokal) Hahn Hähn-e<br />
Gruß Grüß-e<br />
V Umlaut im Plural (bei „ß“ nach kurzem Vokal) Baß Bäss-e<br />
S bei „ß“ nach kurzem Vokal Riß Riß, Riss-es, Riss-e, Riß<br />
A bei adjektivischer Deklination: Endungen bei Genus<br />
F an GF – 1 ketten, sonst an GF -2<br />
Alte Alt-e, Alt-en, Alt-en, Alt-e<br />
Beamter Beamt-e(r), Beamten,<br />
Beamt-en, Beamt-en<br />
1 Pluralendung an GF – 1 ketten Matrix Matri-zen<br />
2 Pluralendung an GF – 2 ketten Basis Bas-en<br />
… …<br />
9 Pluralendung an GF – 9 ketten<br />
3. + 4. Ziffer zwischen 01 und 14 für das Singulardeklinationsmuster<br />
00: Wort bildet keinen Singular (z. B. Kosten, Eltern, Repressalien)<br />
5. + 6. Ziffer zwischen 01 und 61 für das Pluraldeklinationsmuster<br />
00: Wort bildet keinen Plural (z. B. Treue, Polizei, Obst)<br />
Das Generierungsverfahren<br />
• Programmiersprache INTERLISP<br />
- für linguistische Problemstellungen besonders geeignet<br />
- interpretierende Sprache, daher komfortables Testen von Funktionen<br />
- in einem Programm können andere Programme erzeugt werden<br />
• Zweistufiger Generierungsprozess:<br />
1. aus jeder Generierungsregel wird ein ausführbares Programm erzeugt<br />
2. das Programm wird auf die Grundform eines Lexems angewandt<br />
Ergebnis: flektierte Form und morphologische Beschreibung<br />
Angaben über Kasus, Numerus, Genus usw.<br />
• bei Substantiven:<br />
- jeder flektierten Form wird eine Ziffer zugeordnet, aus der Kasus, Genus und Numerus<br />
zu entnehmen sind<br />
- Ziffer als Bitmuster aufgebaut