Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse 

des Deutschen 

Dissertation 

zur Erlangung des akademischen Grades 

Doctor philosophiae (Dr. phil.) 

eingereicht an der Philosophischen Fakultät II 

der Universität Potsdam 

im August 1999 

von 

Thomas Hanneforth

Meinen Eltern gewidmet

Inhaltsverzeichnis 

1 EINFÜHRUNG ....................................................................................................................1 

1.1 Zielsetzung der Arbeit ..................................................................................................................................1 

1.2 Vorarbeiten und verwandte Arbeiten zur Computer-Morphologie ....................................................4 

1.2.1 Two-Level-Morphologie und ihre Vorläufer ...........................................................................................4 

1.2.2 Vorarbeiten aus dem Bereich der Lemmatisierung ............................................................................9 

1.2.3 Die Lemmatisierungskonzeption von Finkler & Neumann (1986) ................................................12 

1.2.4 Die objektorientierte Konzeption von Daelemans (1987) ................................................................15 

1.2.5 Lexikalische Regeln ...............................................................................................................................19 

1.3 Fazit.................................................................................................................................................................21 

1.4 Methodisches................................................................................................................................................22 

1.5 Zum Aufbau der Arbeit ..............................................................................................................................23 

2 MERKMALSSTRUKTUREN.......................................................................................... 24 

2.1 Typisierte Merkmalsstrukturen................................................................................................................24 

2.2 Typsysteme....................................................................................................................................................26 

2.2.1 Konstruktion von Typsystemen ..........................................................................................................27 

2.3 Subsumption.................................................................................................................................................28 

2.4 Beschreibungslogik .....................................................................................................................................29 

2.4.1 Semantik von Merkmalstermen...........................................................................................................32 

2.4.2 Normalformen........................................................................................................................................32 

2.5 Phrasenstrukturregeln ................................................................................................................................41 

3 WORTSYNTAX UND WORTSEMANTIK DES DEUTSCHEN.............................. 44 

3.1 Wortsyntax.....................................................................................................................................................44 

3.1.1 Flexion .....................................................................................................................................................44 

3.1.1.1 Modelle der Flexion .......................................................................................................................46 

3.1.1.2 Minimalistische Morphologie.......................................................................................................49 

3.1.2 Derivation und Komposition ...............................................................................................................55 

3.1.2.1 Strukturregeln.................................................................................................................................56 

3.1.2.2 Argumentvererbung ......................................................................................................................59 

3.2 Wortbildung im Deutschen .......................................................................................................................61 

3.2.1 Komposition ...........................................................................................................................................61 

3.2.2 Derivation ...............................................................................................................................................64 

3.2.2.1 Suffigierung.....................................................................................................................................64 

3.2.2.2 Präfigierung ....................................................................................................................................65 

3.2.2.3 Konversion ......................................................................................................................................67 

3.3 Wortsemantik................................................................................................................................................69 

3.3.1 Wortsemantik als Wissensrepräsentation ..........................................................................................69 

i

3.3.2 Wortsemantik als freie Anwendung semantischer Operationen....................................................75 

3.4 Das generative Lexikon ..............................................................................................................................82 

3.4.1 Struktur ...................................................................................................................................................82 

3.4.2 Generative Operationen........................................................................................................................87 

3.5 Resümee.........................................................................................................................................................88 

3.5.1 Vereinheitlichung von Komposition und Derivation?.....................................................................88 

3.5.2 Lexikalisierte Wortgrammatiken?.......................................................................................................89 

3.5.3 Ziele .........................................................................................................................................................90 

4 EIN MODELL EINES MORPHOLOGISCHEN ANALYSESYSTEMS .................. 91 

4.1 Die Organisation des Lexikons ................................................................................................................ 92 

4.2 Der segmentierende Automat................................................................................................................... 93 

4.2.1 Das Automatenmodell......................................................................................................................... 93 

4.3 Wortstrukturparsing................................................................................................................................... 99 

4.3.1 Das Parsverfahren .............................................................................................................................. 100 

4.3.2 Behandlung unbekannter Segmente ................................................................................................ 105 

4.3.2.1 Verfeinerungen............................................................................................................................ 108 

4.4 Behandlung der Allomorphie................................................................................................................. 110 

4.4.1 Kompilation der Allomorphe............................................................................................................ 113 

4.4.2 Behandlung von morphographematischen Kombinationsbeschränkungen.............................. 114 

4.5 Weitere Aspekte ........................................................................................................................................ 114 

4.5.1 Aktualisierung des Automaten ........................................................................................................ 114 

4.5.2 Interaktion mit dem Satzstrukturparser.......................................................................................... 116 

4.6 Zusammenfassung.................................................................................................................................... 117 

5 EINE MERKMALSBASIERTE BESCHREIBUNG EINIGER ASPEKTE DER 

MORPHOLOGIE IM DEUTSCHEN.............................................................................. 119 

5.1 Morphologische Typenhierarchie und Lexikon ................................................................................. 120 

5.1.1 Syntax ................................................................................................................................................... 120 

5.1.2 Semantik............................................................................................................................................... 124 

5.2 Derivation................................................................................................................................................... 132 

5.2.1 Syntax ................................................................................................................................................... 132 

5.2.2 Semantik............................................................................................................................................... 134 

5.2.2.1 -bar .............................................................................................................................................. 134 

5.2.2.2 -ung .............................................................................................................................................. 136 

5.2.2.3 -er .............................................................................................................................................. 138 

5.2.2.4 be- .............................................................................................................................................. 140 

5.2.2.5 Weitere Affixe .............................................................................................................................. 140 

5.3 Komposition............................................................................................................................................... 141 

5.3.1 Syntax ................................................................................................................................................... 141 

5.3.2 Semantik............................................................................................................................................... 143 

5.3.2.1 Interpretation von relationalen Komposita ............................................................................. 144 

5.3.2.2 Interpretation von Stereotyp-Komposita ................................................................................. 149 

ii

5.3.2.3 Interpretation von Komposita mit konzeptueller Relation ................................................... 151 

5.3.3 Fazit ...................................................................................................................................................... 154 

5.4 Flexion......................................................................................................................................................... 156 

5.4.1 Syntax ................................................................................................................................................... 156 

5.4.1.1 Merkmalsbasierte Flexion am Beispiel der Verbflexion ........................................................ 159 

5.4.1.2 Flexion anderer Kategorien........................................................................................................ 165 

5.4.2 Semantik............................................................................................................................................... 167 

5.5 Konversion ................................................................................................................................................. 170 

5.6 Unbekannte Wortteile.............................................................................................................................. 172 

5.7 Verwandte Arbeiten ................................................................................................................................. 174 

5.7.1 Antworth (1994) .................................................................................................................................. 174 

5.7.2 Ritchie et al. (1992).............................................................................................................................. 175 

5.8 Implementierung ...................................................................................................................................... 175 

6 ZUSAMMENFASSUNG................................................................................................ 176 

6.1 Was erzielt wurde und was nicht........................................................................................................... 176 

6.2 Typisierte Merkmalsstrukturen............................................................................................................. 177 

6.3 Wortzerlegung und -analyse................................................................................................................... 178 

LITERATURVERZEICHNIS ........................................................................................... 179 

ANHANG A: ANALYSEALGORITHMEN .................................................................. 187 

A.1 Konstruktion des Segmentierers .......................................................................................................... 187 

A.1.1 Konstruktion von Übergangs-, failure- und Ausgabefunktion.................................................... 187 

A.1.2 Umwandlung des parallelen Pattern-Matchers in einen DEA.................................................... 189 

ANHANG B: TYPENHIERARCHIE UND MERKMALSEINFÜHRUNG.............. 190 

ANHANG C: PROGRAMMCODE ................................................................................ 194 

C.1 Der Segmentierer ..................................................................................................................................... 194 

C.2 Der Chart-Parser....................................................................................................................................... 203 

C.3 CUF-Programmtext der morphologischen Grammatik..................................................................... 209 

iii

1 Einführung 

1.1 Zielsetzung der Arbeit 

Kapitel 1: Einführung 

Das Ziel der vorliegenden Arbeit besteht ganz allgemein darin, Architekturprinzipien eines 

Paradigmas der Informatik und neueren Computerlinguistik mit Theorien und Resultaten 

der generativen Grammatik in Verbindung zu bringen, um auf diese Weise einen neuen Ansatz 

zur Lösung von Problemen zu entwickeln, mit denen sich die Computerlinguistik beschäftigt. 

Konkret geht es um den Problemkreis der maschinellen morphologischen Analyse 

natürlicher Sprache, d.h. um die Entwicklung von Verfahren, die Wörter in ihre kleinsten 

Bestandteile zerlegen, um ihre syntaktischen und semantischen Eigenschaften zu bestimmen. 

Diese Art der Analyse ist erst relativ spät in das Zentrum des computerlinguistischen Interesses 

gerückt, was sich sicher auf die vorherrschende Stellung des Englischen in diesem Bereich 

und dessen wenig ausgeprägte Oberflächenmorphologie zurückführen läßt. Konsequenterweise 

wurden morphologische Regularitäten dadurch abgebildet, daß man sie „mit 

Silikon bewarf", wie es Anderson (1988) pointiert formuliert hat – sie also überhaupt nicht 

berücksichtigte und sog. Vollformenlexika verwendete, somit Lexika, die alle flektierten Formen 

einer bestimmten Grundform enthalten und deren morphosyntaktische Merkmale verzeichnen. 

Die Analyseverfahren waren dementsprechend einfach und beschränkten sich im 

Grunde auf einen reinen Lexikonzugriff, um die Wortform aufzufinden und deren relevante 

Merkmale zu erhalten. Da im Zuge der internationalen Ausbreitung der Computerlinguistik 

auch andere Sprachen, darunter auch solche mit ausgeprägteren morphologischen Phänomen, 

einer Analyse mit dem Computer zugänglich gemacht werden sollten, ergab sich jedoch 

die Notwendigkeit, bei der Merkmalsbestimmung von Wortformen mit Hilfe der offenkundigen 

und in jeder Grammatik verzeichneten Regeln der Flexion und Wortbildung 

diese Formen in ihre Bestandteile zu zerlegen. 

Vollformenlexika sind folglich aus mindestens zwei Gründen inadäquat. Aus technischer 

Sicht führen Vollformen eine erhebliche Redundanz in die Sprachbeschreibung ein, da an 

sich vorhersagbare Informationen an vielen Stellen im Lexikon dupliziert werden müssen. 

Zum einen hat das seinen Grund darin, daß die Anzahl der flektierten Formen einer Grundform 

gegenüber dieser um Größenordnungen höher sein kann. In mild flektierenden Sprachen 

wie dem Deutschen hält sich diese noch in Grenzen, wobei sich jedoch im Verbbereich 

einige Dutzend Flexionsformen zu einem einzelnen Verb wie beispielsweise singen bilden 

lassen. In anderen Sprachen wie dem Finnischen wird das Problem jedoch deutlicher, da 

finnische Verben bis zu 15.000 verschiedene Formen aufweisen können (nach Karlsson 

(1986)). In solchen Sprachen erreicht ein hinreichend großes Lexikon Dimensionen, die auch 

moderne Computer an die Grenzen ihrer Kapazität stoßen lassen. Zum anderen verzeichnet 

das Lexikon üblicherweise nicht nur morphosyntaktische Merkmale wie Person, Numerus, 

Tempus etc. zu den enthaltenen Einträgen, sondern auch Angaben zum syntaktischen und 

semantischen Verhalten der Form, beispielsweise in Form eines Subkategorisierungsrahmens 

mit thematischen Rollen und Kasuszuweisungseigenschaften. Flexionsparadigmen 

sind nun gerade dadurch definiert, daß alle in ihnen enthaltenen Formen über eine annähernd 

gleiche Bedeutung verfügen, diese aber in einem Vollformenlexikon jeder Form erneut 

zugeordnet werden muß. 

1


Dies führt über zum zweiten Grund der Inadäquatheit dieses Lexikontyps, der linguistischer 

Natur ist. Die Regelgeleitetheit vieler morphologischer Phänomene, also die Abhängigkeit 

bestimmer Formen untereinander, geht in dieser Konzeption verloren. 

Das Alternativmodell hierzu, das sog. Grundformenlexikon, vermeidet diese Probleme. Bei 

diesem Typ von Lexikon definiert man für jede Wortart ausgezeichnete Grundformen, die 

man im Lexikon zusammen mit Informationen über deren Kombinierbarkeit mit Flexionsaffixen 

u.ä. verzeichnet. Die Grundbedingung ist, daß sich mit Hilfe der Grundform und der 

Zusatzinformationen alle flektierten Formen und nur diese gewissermaßen »errechnen« lassen. 

Umgekehrt soll von einer konkreten Wortform auf ihre Grundform und deren Merkmale 

geschlossen werden können. Es ist einleuchtend, daß ein solches System von den morphologischen 

Regelmäßigkeiten der betreffenden Sprache in irgendeiner Weise Gebrauch 

machen muß, auch wenn dies auf sehr verschiedene Weise geschehen kann. Die hierbei gewählten 

Ansätze, von denen einige in Abschnitt 1.2 etwas detaillierter behandelt werden, 

lassen sich jedoch alle in das auch an anderen Stellen nützliche Spektrum zwischen Deklarativität 

und Prozeduralität einordnen. 

Grundformenlexika stellen nun zwar einen Fortschritt gegenüber der Verzeichnung aller 

Formen eines Wortes dar, weisen jedoch noch einige Mängel auf, auf die ich allerdings erst 

im 4. Kapitel zu sprechen kommen werde. 

Das Ziel dieser Arbeit ist es, ein Modell eines Programms zur morphologischen Analyse zu 

entwickeln und zu implementieren. Dieses soll auf einer ebenfalls zu entwickelnden Lexikonkonzeption 

beruhen, welche geeignet ist, morphologische Regularitäten konzis und elegant 

abzubilden. Das Gesamtprogramm soll so angelegt sein, daß es in einen größeren Systemzusammenhang 

eingebunden ist und folgende Aufgaben wahrnehmen kann: 

� Deflexion 

� De-Derivation und Dekomposition 

� Lexikalische Akquisition und morphologisches Lernen 

Auf den ersten Punkt der Deflexion bin ich schon im Kontext der Vollformenlexika eingegangen. 

Es geht hierbei um die Reduktion einer im Text erscheinenden Wortform auf eine 

Grundform, von der vorausgesetzt wird, daß sie im Lexikon verzeichnet ist, zum Zwecke 

der Bestimmung der für die Syntax relevanten Merkmale der Form. 

Die zweite Aufgabe des Morphologiesystems ist, den produktiven Wortbildungsprozessen 

der Komposition und Derivation im Deutschen gerecht zu werden, bei denen neue Wörter 

in regelgeleiteter Weise auf der Grundlage bereits bekannter Bestandteile gebildet werden. 

Auch hier wird davon ausgegangen, daß diese Bestandteile im Lexikon des Systems enthalten 

sind. 

Der dritte Punkt schließlich betrifft die Strategien, die gewählt werden können, falls die bei 

den beiden vorangegangen Punkten geforderte Bedingung des Enthaltenseins aller Bestandteile 

im Lexikon nicht mehr eingehalten werden kann. Es geht also um Methoden, wie die 

Arbeit des Analyseprogramms auch dann fortgesetzt werden kann, wenn Teile einer Wortform 

unbekannt sind. Darüber hinaus soll versucht werden, unter Ausnutzung sprachlichen 

Wissens über Bildungsregelmäßigkeiten von komplexen Wörtern ein Maximum an Information 

über solche Formen zu erschließen und für andere Systemkomponenten verwertbar 

zu machen. Aus Gründen der Beschränkung werden allerdings hierbei nur Informationen 

verwendet, die auf der Wortebene verfügbar sind, d.h. Informationen aus dem syntaktischen, 

semantischen und pragmatischen Kontext des ganz bzw. teilweise unbekannten 

Wortes werden nicht berücksichtigt. Beabsichtigt ist, daß die Morphologiekomponente eine 

2


Reihe von alternativen Interpretationen erzeugt, die Eingabe der anderen Systemkomponenten 

sind. 

Nachdem die Funktionalität des Analysemodells in grober Form festgelegt ist, möchte ich 

noch einige Worte zu den Prinzipien sagen, an denen sich das Modell orientiert. Diese sind: 

� Typisierung und Vererbung 

� Einbeziehung generativer Wortstrukturtheorien. 

Die Prinzipien der Typisierung und Vererbung, die in Kapitel 2 näher vorgestellt werden, 

sind wichtige Elemente im Paradigma der sog. Objektorientierung. Dieser Begriff spielt in der 

theoretischen und angewandten Informatik mittlerweile eine wichtige Rolle 1 und kann unter 

zwei verschiedenen Blickwinkeln gesehen werden. Einmal bezieht er sich auf Objektorientierung 

auf der Implementationsseite, also auf eine bestimmte Technik des Softwareentwurfs, 

die für sich in Anspruch nimmt, einen verbesserten Beitrag zur Wiederverwendbarkeit, 

Erweiterbarkeit etc. von Softwareprodukten zu machen. Dieser Aspekt ist für die Modellbildung 

innerhalb der Linguistik jedoch nicht so interessant. Wichtiger in diesem Zusammenhang 

ist die Objektorientierung auf der Ebene der Beschreibung. Hierbei wird versucht, 

schon bei der Konstruktion eines Modells einer bestimmten Domäne Datenelemente und 

Operationen zu einer syntaktischen Einheit zusammenzufassen. Möchte man ein Realsystem 

(beispielsweise ein Unternehmen) und die Beziehungen seiner Subsysteme untereinander 

innerhalb eines Computermodells abbilden (z.B. im Rahmen eines betrieblichen Führungssystems), 

so liegt es auf der Hand, diese Subkomponenten und deren interne Zustände als 

die Objekte auf der Modellebene anzusehen. 

Im Bereich der Linguistik liegt es nun nahe, die Wörter 2 einer Sprache und die daraus aufgebauten, 

komplexeren Strukturen als die relevanten Objekte der Beschreibungsebene zu rekonstruieren. 

Wörter legen ein bestimmtes syntaktisches und semantisches Verhalten an den 

Tag und haben einerseits idiosynkratische, andererseits aber auch vorhersagbare Eigenschaften. 

Faßt man diese Eigenschaften zu einer Einheit zusammen, so hat dies zum einen 

den Vorteil, daß damit die Informationen, die das Wort charakterisieren, an einer einzigen 

Stelle im Modell, der diesem Wort zugeordneten Klasse, repräsentiert sind. Möchte man 

dann eine der Eigenschaften eines Wortes ändern, so muß man das nur an einer Stelle tun. 

Zum anderen ist durch ein solches Wort-Objekt die Gesamtheit der zu beschreibenden Eigenschaften 

eines Wortes gegeben, und nicht nur die häufig im Vordergrund stehenden syntaktischen 

Eigenschaften. Ein Parsing-Verfahren, also ein Verfahren, welches die strukturellen 

Beziehungen von syntaktischen Symbolen (z.B. Wörtern oder Morphemen) untereinander 

maschinell rekonstruiert, kann hierbei schon beim Aufbau von Strukturen andere Informationsquellen 

(Semantik, Weltwissen etc.) nutzen und dadurch im Falle mehrdeutiger Strukturzuweisung 

fundiertere Entscheidungen treffen. 

Das Ziel objektorientierter Konzeptionen in der Sprachverarbeitung ist es somit, einen Beitrag 

zur Integration verschiedener sprachlicher und nichtsprachlicher Informationsquellen 

(Morphologie, Syntax, Semantik, Pragmatik) zu leisten und diese nicht in der sonst üblichen 

1 Objektorientierung wird beispielsweise diskutiert im Bereich der Wissensrepräsentation (Frame-basierte 

Systeme), Datenbanken (objektorientierte Datenbanken), Programmiersprachen, Aktorensysteme 

usw. 

2 Das hier vorgestellte Modell setzt noch eine Ebene tiefer an, nämlich auf der Ebene der Morph(em)e. 

Mehr dazu findet sich in Kapitel 4. 

3


Weise als relativ von einander unabhängige Systeme aufzufassen; 3 man kann daher auch 

von datenseitiger Integration dieser Systeme auf der Wortebene sprechen. 

Das andere Entwurfsprinzip betrifft die linguistische Seite der Aufgabenstellung. Bei der 

Konzeption des Analysemodells für zusammengesetzte Wörter im Deutschen versuche ich, 

intensiven Gebrauch von generativen Theorien der Wortbildung und Flexion zu machen. 

Diese Theorien haben in den letzten zehn Jahren mit Selkirk (1982), Höhle (1982), Toman 

(1987), Bierwisch (1989), Pustejovsky (1995) u.a. einen gewissen Reifegrad und ein damit 

verbundenes Beschreibungs- und Erklärungspotential erreicht, daß es ignorant wäre, von 

diesen Erkenntnissen keinen Gebrauch zu machen. Ich werde im Kapitel 5 zeigen, daß sich 

die Leistungsfähigkeit einer Morphologiekomponente durch Nutzung generativer Ideen 

beträchtlich steigern läßt. 

1.2 Vorarbeiten und verwandte Arbeiten zur Computer-Morphologie 

Dieser Abschnitt ist der kritischen Beleuchtung einiger Arbeiten gewidmet, die im weitesten 

Sinne als Vorarbeiten gelten können. Zunächst sei das seit Mitte der achtziger Jahre einflußreichste 

Computermodell der morphologischen Analyse vorgestellt. Anschließend wende 

ich mich einigen Arbeiten zur sog. Lemmatisierung zu, einem Problemkreis, der im deutschen 

Sprachraum in den 70iger Jahren einige Anstrengungen hervorgerufen hat. Zum Schluß 

möchte ich noch auf die Arbeit von Daelemans (1987) zu sprechen kommen, da diese die 

einzige mir bekannte Arbeit ist, die versucht, morphologische Analyse und Objektorientierung 

zusammenzuführen. 

1.2.1 Two-Level-Morphologie und ihre Vorläufer 

Der erste, der sich meines Wissens mit einem universellen, also sprachunabhängigen Modell 

der morphologischen Analyse beschäftigte, war Martin Kay (1977). Das Herzstück seines 

Analysemodells bildet ein Chart-Parser 4 , der im Verlauf der Analyse aufgrund von Regeln, 

die der generativen Phonologie (vgl. Chomsky/Halle (1968)) entlehnt sind, Kanten in seinen 

Chart aufnimmt. Ein Beispiel soll dies verdeutlichen (nach Kay (1977:141)): 

y 

t r i e d 

i 

+ 

e 

Abb. 1.1: Chart für die Deflexion von "tried" 

3 Wie dies beispielsweise die meisten theoretischen Modelle der Sprachkompetenz (z.B. Chomsky 

(1981)) aus verständlichen methodologischen Gründen tun. 

4 Eine ausführliche Charakterisierung des Chart-Parsings gibt beispielsweise Kay (1980). 

4 

+ 

e 

e 

d 

d


Der Chart besteht vor der Analyse nur aus den "trivialen" Kanten, die die Buchstaben des zu 

analysierenden Wortes verbinden. Im Verlauf der Analyse werden aufgrund der quasi-phonologischen 

Regel 

(1) ied� � y + ed� 

(� steht für ein Leerzeichen, also für das Wortende) weitere Kanten in den Chart eingeführt. 

Integriert in dieses Modell ist eine ökonomische Lexikonorganisation und ein Mechanismus, 

der die Anwendungsreihenfolge der Regeln der obengenannten Art regelt. 5 

Festzuhalten bleibt, daß dieser Ansatz wohl eher theoretisch als praktisch erfolgreich war; er 

war jedoch der erste, dem es gelang, ein deklaratives Moment, das aber prozedural interpretiert 

werden kann, in die morphologische Beschreibung einzuführen. 

Eine weitere Verbesserung morphologischer Analysemethoden bedeutete die Einführung 

der sog. Two-Level-Morphology durch Koskenniemi (1983), seinerzeit beeinflußt von unveröffentlichte 

Ideen von M. Kay und R. Kaplan, die erst 1994 in Druck gingen (Kaplan/Kay 

(1994)). Ausgehend von einer kurz angedeuteten Idee in Kay (1982) 6 verwendet Koskenniemi 

ebenfalls endliche, überführende Automaten (sog. Transducer) 7 , läßt diese jedoch nicht 

seriell wie Kay, sondern parallel operieren. Die der seriellen Transducer-Komposition eigenen 

expliziten oder impliziten Zwischenbänder, die jeweils nach der Anwendung einer Regel 

gebildet werden, fallen hierbei fort, somit auch das Problem der Regelanordnung. Es gibt 

nur zwei Bänder, dasjenige mit der Oberflächenform und dasjenige mit der zugrundeliegenden 

lexikalischen Form (durch Pluszeichen verbundene Morpheme); das parallele Operieren 

der jeweils für einzelne Regeln stehenden Transducer legt die Beziehungen oder auch 

Abweichungen fest, die zwischen den beiden Bändern vorliegen dürfen. Koskenniemi geht 

jedoch zunächst nicht von Transducern, sondern von einer Regelnotation aus, die erst später 

als Transducer abgebildet wird. Eine Two-Level-Regel hat die folgende Form: 

a:b op LC __ RC 

5 Die phonologische Konzeption von Chomsky/Halle (1968) macht ähnlich der generativen Syntaxtheorie 

Gebrauch von verschiedenen Beschreibungsebenen, die über Transformationen miteinander 

in Bezug gesetzt werden. Ähnlich wie in der Syntax stellt sich jedoch das Problem, in welcher Reihenfolge 

die Transformationsregeln bei der Ableitung der Oberflächenstruktur angewandt werden sollen. 

Dieses Problem ist bedeutsam für das weiter unten dargestellte Two-Level-Modell von Koskenniemi 

(1983). 

6 Kay (1982) schlägt vor, die einzelnen phonologischen Regeln als Transducer aufzufassen, die jeweils 

Beschränkungen zwischen der Oberflächenform und der zugrundeliegenden lexikalischen Form (den 

beiden Bändern des Transducers) abbilden. Das oben erwähnte Problem der Reihenfolge der Regelanordnung 

könnte durch eine festgelegte Kaskadierung der einzelnen Transducer gelöst werden. Da ein 

Theorem der Automatentheorie besagt (vgl. Reape/Thomson (1988)), daß eine Menge via Komposition 

verknüpfter endlicher Transducer äquivalent zu einem einzigen Transducer ist, ist es möglich, die 

Transducer-Kaskade durch einen einzigen Automaten zu ersetzen, der dann den bekannten Optimierungsverfahren 

für endliche Automaten (Zustandsminimierung) zugänglich ist. 

7 Formal ist ein Transducer ein 6-Tupel (Q, �, �, �, q0, F ), bei dem Q, q0 und F wie bei einem endlichen 

Automaten sind. � und � bilden die Alphabete der beiden Bänder, während � eine Abbildung von 

Q × (� � {�}) auf endliche Teilmengen von Q � � * realisiert. Man kann sich die Funktionsweise eines 

Transducers so vorstellen, daß er in einem Zustand Q i einer Kante, die mit einem Symbol aus � � {�} 

etikettiert ist, in einen Zustand Q j folgt und dabei einen String aus � * ausgibt. 

5


wobei a und b Alphabetsymbole der beiden Bänder sind, op aus der Menge { �, �, � } ist 

und LC und RC den linken bzw. rechten Kontext des durch __ veranschaulichten Symbolpaares 

auf der linken Regelseite bildet. Bei der Notation der Kontexte kann von Verkettung, 

Disjunktion und Kleene-Stern Gebrauch gemacht werden. Als Beispiel für eine konkrete Regel 

gebe ich eine Regel für das Englische wieder (vgl. Ritchie et al. (1992:152)): 

(2) +:e � { s:s x:x z:z } __ s:s 

Diese Regel, die die Bildung des Plurals von englischen Nomen beschreibt, besagt, daß ein + 

auf dem Lexikonband mit einem e auf dem Oberflächenband korrespondiert, gdw. es zwischen 

dem angegebenen linken Kontext (geschweifte Klammern stehen dabei für Disjunktion, 

eckige für Optionalität) und dem Symbol s auf dem Oberflächenband steht. Das Symbol 

+ steht für ein Morphemverknüpfungszeichen auf dem lexikalischen Band. Diese Regel 

leistet also einen Teil dessen, was die weiter oben wiedergegebene Regel von Kay leistet. Die 

Semantik der Operatoren � , � und � ist in Tabelle 1.1 wiedergegeben (vgl. Ritchie et al. 

(1992:26f)): 

� Context Restriction Das Symbolpaar links vom Operator kann nur in den rechts davon 

angegebenen Kontexten stehen. 

� Surface Coercion Ist der Kontext wie rechts angegeben und befindet sich das erste 

Symbol des Paares links auf dem Lexikonband, dann muß sich 

das zweite Paarsymbol auf dem Oberflächenband befinden. 

� Composite Bezeichnet die Kombination von � und �. 

Tabelle 1.1: Mögliche Operatoren in Two-Level-Regeln 

Der in der Regel verwendete �-Operator besagt also beispielsweise, daß, falls der angegebene 

Kontext vorliegt, das Paar +:e sich auf den beiden Bändern befinden muß und umgekehrt, 

wenn das Paar +:e vorliegt, der Kontext so wie angegeben beschaffen sein muß. 

Eine Besonderheit des Modells ist sein relationaler Charakter, also die Nichtdirektionalität 

der beiden Bänder. Es kann daher sowohl für die Analyse von Oberflächenformen in Morphemfolgen 

als auch für die Generierung von Oberflächenformen aus Morphemfolgen eingesetzt 

werden. Im Ansatz von Koskenniemi (1983) werden diese Regeln anschließend von 

Hand in parallelgeschaltete Transducer umgesetzt; Koskenniemi (1986) schlägt hierzu einen 

Regelcompiler vor. Ritchie et al. (1992:150ff) gehen einen etwas anderen Weg und erzeugen 

speziell interpretierte Automaten, um die zahlreichen Automatenübergänge zu vermeiden, 

die nur dazu dienen, einen „Neustart“ jeder TL-Regel zu ermöglichen, solange noch ihr linker 

Kontext abgearbeitet wird. Nach der Compilierung von obiger Beispielregel (2) resultiert 

beispielsweise der in Abbildung 1.2 wiedergegebene Automat (aus Ritchie et al. (1992:154)): 

s1 

s:s 

c:c 

z:z 

x:x 

LICENCE TERMINAL 

s:s 

s3 

+:e 

s4 

s:s 

s5 

s2 

h:h 

+:0 

s6 

6 

s:s 

ERROR 

Abb. 1.2: Korrespondierender Automat zu Regel (2) (unter einem speziellen Interpretationsalgorithmus)


Verbunden ist diese Konzeption mit einer bestimmten Lexikonorganisation. Das gesamte 

Lexikon wird in mehrere Teillexika aufgeteilt, die aufgrund einer durch das morphosyntaktische 

Verhalten der verschiedenen Morpheme definierten Äquivalenzrelation gebildet werden. 

Zu jedem Morphem im Lexikon wird notiert, welche Morphemklassen ihm in der 

Wortstruktur folgen können, also beispielsweise, welche Flexionsendungen nach einem bestimmten 

Stamm erlaubt sind. Hieraus ergibt sich implizit eine reguläre Grammatik, die die 

Kombinierbarkeit der Morpheme auf dem Lexikonband zusätzlich restringiert. 

Die Two-Level-Morphology ist für eine ganze Reihe von Sprachen implementiert worden, 

neben Finnisch und Englisch auch für „exotische“ Sprachen wie Altkirchenslawisch. Der 

Umfang der Regelmenge liegt dabei nach Koskenniemi/Church (1988:336) zwischen sieben 

(Englisch) und vierzig (klassisches Griechisch). Interessanterweise ist Deutsch bei den üblicherweise 

in der Literatur angeführten Sprachen nicht dabei. Das Two-Level-Modell ist 

wohl auch entgegen den Behauptungen des Autors kein Universalmodell, sondern vor allem 

aufgrund des Folgelexikamechanismus dafür geschaffen, die morphologischen Phänomene 

von sprachtypologisch gesehen agglutinierenden Sprachen wie Finnisch und Türkisch zu 

beschreiben. Bei diesen Sprachen gibt es eine 1-zu-1-Beziehung zwischen Morphem(kette) 

und Morphembedeutung, wobei die quasi-phonologischen Regeln (quasi, weil es ja Regeln 

sind, die auf der Orthographie beruhen, die erheblich von der Aussprache abweichen kann) 

nur noch gewisse Anpassungen bei der Juxtaposition der Morpheme vornehmen 

(beispielsweise Prozesse der Vokalharmonie). Wichtig ist hierbei, daß die Anwendung einer 

Regel nur durch das Symbolpaar links vom Operator und den linken und rechten Kontext 

determiniert wird. Andere Indizien können hierzu nicht herangezogen werden. Das Deutsche, 

als eine flektierend-fusionierende Sprache kennt jedoch nicht so viele Prozesse, die sich 

auf rein phonologische Gründe zurückführen lassen. Vielmehr ist die Wahl bestimmter 

Morpheme in vielen Fällen lexikalisch determiniert, beispielsweise bei Nomen die Wahl des 

Pluralmorphems durch die Flexionsklasse des Nomens. Ebenso müssen Umlautungen bei 

der Pluralbildung von Nomen im entsprechenden Lexikoneintrag verzeichnet sein, vgl. 

Wald – Wälder, Hund – Hunde, ähnliches gilt für die Wahl des Fugenmorphems bei Komposita, 

welches vom Vorderglied determiniert wird (vgl. Fanselow (1981:10f)). 8 Insbesondere 

sind bestimmte Endungen bedeutungsmäßig überladen, wie umgekehrt ein bestimmtes 

Merkmal wie Plural auf sehr verschiedene Weise realisiert werden kann. Was der Two- 

Level-Morphology m. a. W. fehlt ist die Einbeziehung von morphosyntaktischen Bedingungen 

und Merkmalen in den Analyseprozeß der Transducer. Im Finnischen liegen diese Informationen 

in indirekter Weise über die wechselseitige Abhängigkeit der Merkmale und 

die sie realisierenden Morpheme vor, doch ist dies eher als ein Spezialfall der Ausbuchstabierung 

morphologischer Merkmale aufzufassen. Dieser Mangel wurde wohl auch schon 

von Koskenniemi erkannt, da bestimmte Irregularitäten des Finnischen durch die Einführung 

arbiträrer diakritischer Zeichen auf der Lexikonbandebene aufgelöst wurden. Einige 

der Two-Level-Regeln nehmen dann auf diese Zeichen Bezug. Man kann dagegen einwenden, 

und dies ist auch getan worden, vgl. Bear (1988), daß hiermit Dinge zusammengewürfelt 

werden, die nicht zusammengehören und sich damit die Formulierung der Regeln kompliziert 

hat. 

8 Natürlich gibt es auch im Deutschen rein lautliche Modifikationen. Kandidaten für Two-Level-Regeln 

im Deutschen sind beispielsweise e-Erweiterung, e-Tilgung, e/i-Wechsel und Konsonantenwechsel 

bei der Verbkonjugation. Allerdings hängen diese Modifikationen häufig auch von syntaktischen 

Merkmalen ab: e/i-Wechsel betrifft beispielsweise die 2. und 3. Pers. Sing. Präs. Ind. und den Imp. 

Sing. 

7


Es gibt nun einige Ansätze, die sich dieser Probleme annehmen: Bear (1988) schlägt vor, bestimmte 

Irregularitäten des Englischen (beispielsweise ist der Plural von piano pianos und 

nicht pianoes.) dadurch in den Two-Level-Mechanismus zu integrieren, daß man Sonderfälle 

dieser Art explizit im Lexikon mit einem Merkmal markiert, so daß die normalerweise angewendete 

Pluralregel von Nomen auf -o (o + s � oes) nicht anwendbar ist. Trost (1990) setzt 

hierauf auf, ersetzt jedoch das prozedural interpretierte Regelmerkmal durch eine Unifikation 

der bis dahin aufgebauten Merkmalsstruktur für die Syntax des analysierten Wortes mit 

einem der Two-Level-Regel zugeordneten Filterterm. Gelingt diese Unifikation, so kann die 

Regel angewendet werden. Ist beispielsweise ein Nomen mit [Umlaut: +] für die Pluralbildung 

markiert, so wird nur die Two-Level-Regel verwendet, die ebenfalls mit [Umlaut: +] 

attribuiert ist. 

Eine andere Richtung für Probleme dieser Art schlagen Karttunen et al. (1992) ein: Sie schlagen 

vor, die morphologischen Merkmale von Morphemen nicht in einem Lexikoneintrag zu 

halten, sondern direkt auf das Lexikonband des Two-Level-Modells zu schreiben. Man 

würde dann beispielsweise auf dem Lexikonband nicht mehr try+s stehen haben, sondern 

try+3pers+sing. Auf diese Weise würde auch mit allomorphen Varianten verfahren werden. 

Der "Abstand" zwischen Oberflächen- und Lexikonband würde damit zwar vergrößert, 

die Autoren meinen jedoch, durch Komposition der Two-Level-Transducer mit dem gesamten 

Lexikon unter Vermittlung entsprechender Zwischenbänder die Größe des entstehenden 

Gesamttransducers in passablen Grenzen zu halten. Details hierzu finden sich in 

Karttunen et al. (1992) . 

Abramson (1992) schlägt vor, die prozedurale Interpretation der Two-Level-Regeln als 

Transducer außer acht zu lassen und die Regeln vielmehr als deklarativ spezifizierte Relation 

zwischen den beiden Bändern aufzufassen. Er veranschaulicht seine Idee durch die Angabe 

der für das Englische benötigten Two-Level-Regeln als Prolog-Klauseln und überläßt 

es dabei dem Prolog-System, den Pfad vom Ausgangszustand in einen Endzustand zu suchen. 

Am Ende dieser Übersicht zur Two-Level-Morphology möchte ich noch auf einige Probleme 

dieses Modells zu sprechen kommen, die generellerer Natur sind. 

� Zuallererst ist es Aufgabe des Computerlinguisten, bei der Regelspezifikation darauf zu 

achten, daß die Regeln nicht in unerwünschter Weise miteinander interagieren. Interaktion 

kann auf verschiedene Weise stattfinden; der „schlimmste” Fall ist beispielsweise 

der, wenn in zwei verschiedenen Regeln das gleiche Symbolpaar auftritt, der verwendete 

Operator « ist und die linken und rechten Kontexte sich gegenseitig ausschließen. Ein 

„intelligenter” Regelcompiler wäre zur Vermeidung solcher Fälle nützlich. 

� Der zweite Punkt betrifft die implizite reguläre Organisation des Lexikons, der sog. Folgelexikamechanismus, 

der zu eng an die Operation der Transducer geknüpft ist. Es könnte 

sich herausstellen, daß die dem Lexikon implizite reguläre Grammatik zu schwach ist, 

um alle morphologischen Prozesse aller Sprachen zu beschreiben. Und auch wenn dies 

nicht der Fall ist, so könnte eine Grammatik stärkeren Typs linguistisch doch transparenter 

sein. 9 Auf jeden Fall wäre es besser, den regulären Lexikonmechanismus durch 

Angabe einer entsprechenden Grammatik explizit zu machen. 

� Drittens überprüfen Transducer auf der Grundlage der Two-Level-Morphology prinzipiell 

nur die Zulässigkeit bzw. Nichtzulässigkeit von bestimmten Morphkombinationen. 

9 Eine Analogie zur Satzsyntax sei hier gezogen. Man könnte den beschränkten Charakter der Zentraleinbettung 

in natürlichen Sprachen beispielsweise durch eine reguläre Grammatik modellieren, die 

in die Satzsymbole hinein den Grad ihrer Einbettung kodiert. Die entsprechende kontextfreie Grammatik 

für das gleiche Phänomen wäre jedoch um einiges einfacher. 

8


Man kann jedoch der Ansicht sein, daß zu semantischen Interpretation von komplexen 

Wörtern, insbes. Komposita, auch die Struktur eines Wortes eine Rolle spielt. Der Transducer 

operiert hierzu jedoch auf der falschen Ebene, da seine Terminalsymbole Grapheme 

o.ä. sind, die für die Strukturermittlung auf der Ebene der Morpheme keine Rolle spielen. 

Darüber hinaus sind endliche Automaten bei Zugrundelegung einer rechtslinearen 

Grammatik lediglich in der Lage, nur rein rechtsverzweigende Strukturen zu erzeugen. 

Dies wird jedoch den verschiedenen strukturellen Möglichkeiten innerhalb der Komposition 

im Deutschen nicht gerecht. 

� Ein vierter Einwand ist von komplexitätstheoretischer Seite gemacht worden. Barton et al. 

(1987) haben durch Reduktion des (NP-vollständigen) Erfüllungsproblems für aussagenlogische 

Formeln (SAT) auf Automaten des Two-Level-Modells gezeigt, daß dieses NPhart 

ist. Dies kann im schlechtesten Fall zur Folge haben, daß die Analysezeit eines Two- 

Level-Erkennungsproblems exponentiell (oder schlechter) von seiner Länge abhängt. 

Auch wenn Koskenniemi/Church (1988) auf den artifiziellen Charakter eines SAT-Problems 

im Two-Level-Gewand hinweisen, so sollte dieses Resultat doch zu denken geben. 

Zum einen gibt es in einigen Sprachen tatsächlich Prozesse, die eine gewisse Ähnlichkeit 

mit der Belegung der aussagenlogischen Variablen mit Wahrheitswerten haben, beispielsweise 

Prozesse der Vokalharmonie, die über das ganze Wort verlaufen. Zum anderen 

haben morphologische Phänomene in natürlichen Sprachen anscheinend Besonderheiten, 

die exponentielle Analysezeiten bei menschlichen Hörern ausschließen, welche 

jedoch nicht im Rahmen des Two-Level-Modells ausgedrückt werden können. Die blinde, 

kombinatorische Suche, die für das exponentielle Laufzeitverhalten verantwortlich ist, 

kommt bei algorithmischen Analyseproblemen immer nur dann zur Anwendung, wenn 

absolut keine lokalen Kriterien zur Verfügung stehen, die bei der Lösungsfindung mit 

herangezogen werden können. 

Zusammenfassend kann man also festhalten, daß das Two-Level-Modell einerseits zu stark, 

andererseits auch wiederum zu schwach ist (siehe Einwand 2). Sein eklatantester Mangel ist 

m.E. jedoch seine Beschränkung auf rein morphographematische Phänomene und damit das 

Fehlen jeder transparenten Interaktion von im Lexikon verzeichneten morphosyntaktischen 

Merkmalen mit den Regel-Transducern. Das Ziel meines Modells ist, alle möglichen Informationsquellen 

bei der morphologischen Analyse auszunutzen, also Lexikon, Satzparser 

und Domänenwissen, und auf diese Weise die Beschränkung auf morphographematische 

Regularitäten zu überwinden. 

1.2.2 Vorarbeiten aus dem Bereich der Lemmatisierung 

In den siebziger Jahren wurde unter dem Stichwort Lemmatisierung vor allem in der Computerlinguistik 

im deutschen Sprachraum versucht, die Flexionsmorphologie unter Zugrundelegung 

einer prozeduralen Konzeption in einem Computermodell abzubilden. Stellvertretend 

für die Vielzahl der damaligen Bemühungen seien an dieser Stelle Dietrich (1973), 

Eggers et al. (1980), Hoeppner (1980) und Finkler/Neumann (1986) genannt. Zunächst muß 

geklärt werden, was unter Lemmatisierung verstanden wird: Lemmatisierung ist die Rückführung 

einer Wortform auf ein Lemma. Wortformen können einfache Wörter 

(Zeichenfolgen zwischen Leerzeichen) sein, jedoch auch mehrere Wörter umfassen, beispielsweise 

im Fall der periphrastischen Zeiten im Deutschen, wobei die die Wortform konstituierenden 

Wörter nicht notwendigerweise kontinuierlich angeordnet sein müssen. Ein 

Lemma L wird zunächst einmal verstanden als diejenige Menge von Wortformen w, die alle 

eine festgesetzte Menge von Prädikaten P erfüllen, formal: 

9


L = { w | P 1 (w) � P 2 (w) � ... � P n (w) } 

Zu klären ist, welcher Art die oben verwendeten Prädikate P i sind. Dietrich (1973:21f) klassifiziert 

diese Prädikate in semantische, paradigmatische und strukturale. Paradigmatische 

Eigenschaften sind Wortklassenzugehörigkeit und Flexionsklasse, zu den strukturalen zählen 

syntaktische Anforderungen einer Wortform an ihre Umgebung, beispielsweise der Valenzrahmen. 

Zu unterscheiden ist zwischen dem Lemma und dem Lemmanamen. Das Lemma ist, wie oben 

definiert, eine Menge von Wortformen, die in einem bestimmten Verhältnis zueinander stehen. 

Als Lemmanamen wählt man meist eine ausgezeichnete, merkmalsmäßig maximal 

unmarkierte Form (vgl. Gallmann (1990)) aus dem Lemma, die sog. Zitierform. Ziel der 

Lemmatisierung ist, Wortformen im Text auf diese Zitierform zurückzuführen und gleichzeitig 

ihre für die jeweilige Anwendung relevanten Merkmale zu bestimmen. Die hierbei 

verwendeten Verfahren sind durchweg operational, d.h. in den Analysemechansimus ist das 

sprachliche Wissen über Wortformen, Endungen einer Sprache etc. direkt hineinkodiert. 

Typischerweise wird ein Eingabewort von rechts nach links analysiert, wobei im allgemeinen 

abwechselnd Endungsgrapheme abgespalten und Lexikonzugriffe durchgeführt werden. 

Eine eigene Beschreibungsebene der sprachlichen Seite existiert nicht, das fertige Programm 

ist die Lemmatisierung. Der Kontrollfluß innerhalb dieses Programms wird üblicherweise 

durch Flußdiagramme dargestellt; Abb. 1.3 zeigt einen Ausschnitt aus Dietrich 

(1973: 172). 

Gegen die vorgeschlagenen Modelle und Methoden der Lemmatisierung können eine ganze 

Reihe von Einwänden gemacht werden. 

Zuallererst wird natürlich die selbst auferlegte Beschränkung auf die Behandlung der Flexion 

dem prinzipiell offenen Charakter der Lexika natürlicher Sprachen nicht gerecht. Verständlich 

ist dieses Defizit allerdings vor dem Hintergrund der Leistungsfähigkeit damaliger 

Rechenanlagen und dem Fehlen jeglicher konkreter Theorien zur Wortbildung. 

Ein weiterer Kritikpunkt läßt sich an der Prozeduralität der postulierten Modelle festmachen. 

Auch wenn diese generell begrüßt werden kann – Hockett (1954) hält die prozedurale 

Item-and-Process-Konzeption gegenüber dem (deklarativen) Item-and-Arrangement-Modell für 

überlegen – so stört doch ihr kaum restringierter Charakter. Wie oben schon beschrieben 

bestehen derartige Analyseverfahren nur aus einer Spezifikation des Kontrollflusses während 

der Analyse, der üblicherweise in Form eines Flußdiagrammes visualisiert wird. Die Verfahren 

selbst rekurrieren dabei nicht auf eine abstrakte Ebene eines der bekannten Automatenmodelle, 

um beispielsweise generelle Aussagen zur Kapazität und Komplexität zu machen, 

sondern überspringen diese Zwischenebene und beziehen sich gleich auf die zur Implementierung 

des Modells verwendeten Programmiersprache (bei den ersten Lemmatisierungsprogrammen 

war dies FORTRAN). Da Programmiersprachen dieser Art sämtlich turingmaschinenäquivalent 

sind, kommt das der Aussage gleich, daß Methoden zur morphologischen 

Analyse diese Kapazität zwingend aufweisen müssen. Nun sind nicht wenige Autoren (z.B. 

Gazdar (1985)) der Ansicht, daß sich die Modelle der morphologischen Analyse natürlicher 

Sprachen in Form von endlichen Automaten darstellen lassen (vgl. Abschnitt 1.2.1); es stellt 

sich also die Frage, warum man dann implizit Turingmaschinen dazu verwendet. 

Dem "Überfluß" an Prozeduralität in diesen Modellen steht ein Mangel an Deklarativität 

gegenüber. Die Lemmatisierungsalgorithmen der 70iger Jahre sind alle dadurch charakterisiert 

(vgl. z.B. Dietrichs (1973)), keine Unterscheidung zwischen Daten auf der einen Seite 

und Verfahren zur Manipulation dieser Daten auf der anderen Seite vorzunehmen. Dies 

führt dazu, daß es nur schwer möglich ist, die spezifizierten Algorithmen für die Analyse 

anderer Sprachen zu adaptieren. Darüber hinaus ist es unmöglich, innerhalb der Lemmati- 

10


sierungsverfahren ein Kernmodell zu isolieren, daß dann an die Erfordernisse der Untersuchung 

der morphologischen Strukturen verschiedener Sprachen angepaßt werden kann. 

Diese Lemmatisierungsalgorithmen sind m.a.W. nur auf eine Einzelsprache bezogen und 

lassen sich daher nicht als universelles Modell der morphologischen Analyse natürlicher 

Sprachen ansehen. Vor diesem Hintergrund ist erklärlich, warum das in Abschnitt 1.2.1 vorgestellte 

Modell der Two-Level-Morphologie theoretisch und auch praktisch so ein großer 

Erfolg war. Es ist von hinreichender Einfachheit und Universalität, bezieht Deklaratives in 

Form der Two-Level-Regeln ein und stützt sich auf ein Automatenmodell, daß hinsichtlich 

seiner generativen Kapazität und Komplexität gut untersucht ist. Die traditionellen Lemmatisierungsverfahren 

können diese Vorteile nicht für sich in Anspruch nehmen. 

Ein letzter Punkt betrifft die Übersichtlichkeit und Verständlichkeit der vorgeschlagenen 

Methoden. Das Verfolgen des Kontrollflusses fällt dem menschlichen Leser bei der Komplexität 

der Lemmatisierungsalgorithmen so schwer, daß es kaum möglich ist, die Richtigkeit 

des Verfahrens zu überprüfen. Dies ist nun natürlich ein generelles softwaretechnisches 

Problem; die Einführung objektorientierter Techniken, d.h. die syntaktische Kopplung von 

Daten und auf sie operierenden Prozeduren könnte jedoch in dieser Hinsicht Vorteile erwirken. 

Abb. 1.3: Ausschnitt aus dem Lemmatisierungsprogramm von Dietrich (1973) 

11


1.2.3 Die Lemmatisierungskonzeption von Finkler & Neumann (1986) 

Während die Arbeiten von Dietrich (1973) u.a. als typische Vertreter der Lemmatisierungsansätze 

in den 70iger Jahren aufgefaßt werden können, ist die Arbeit von Finkler und 

Neumann (1986) charakteristisch für die Auffassung von Lemmatisierung in den Jahren ab 

1980; sie soll daher hier kurz vorgestellt werden. 

Finkler & Neumann teilen zunächst den Gesamtbestand des Lexikons in zwei Teillexika auf. 

Das erste dieser Lexika wird Vollformenteil genannt und enthält nicht-endungsflektierende 

Wörter. Dazu zählen Wortformen, die überhaupt nicht flektieren (beispielsweise Adverbien, 

Präpositionen usw.) und solche, die nicht regelmäßig endungsflektiert sind (z.B. Pronomen, 

Artikel). Das zweite Lexikon, der sog. Grundformenteil, verzeichnet alle endungsflektierenden 

Wörter wie beispielsweise Nomen, Verben, Adjektive u.a. 

Der morphologische Analysealgorithmus schlägt die ihm übergebene Wortform zuerst einmal 

im Vollformenteil nach. Diese Vorgehensweise erspart das aufwendige und nicht von 

Erfolg gekrönte Unterfangen, nicht endungsflektierende Wörter einer Analyse zu unterziehen. 

Wird die Wortform im Vollformenteil gefunden und ist der korrespondierende Lexikoneintrag 

nicht mit einer speziellen Markierung versehen, die darauf hinweist, daß auch 

noch eine zur Vollform homographe endungsflektierende Grundform existiert, so ist der 

Analyseprozeß bereits beendet. Andernfalls beginnt die Grundformenbehandlung. Hierzu 

wird zunächst unter Ausnutzung von Informationen des weiter unten beschriebenen Endungsbaumes 

das längste Suffix der Wortform bestimmt, welches eine potentielle Flexionsendung 

des Stammes, also des verbliebenen Teils der Wortform sein kann. Ein Beispiel soll 

dies erläutern. Angenommen, die zu analysierende Wortform lautete fliegen. Diese Form 

kann unter Vernachlässigung der Groß/Kleinschreibung 10 entweder eine Konjugationsform 

des Verbs fliegen oder die Pluralform des Nomens Fliege sein. Die oben beschriebene Suffixabspaltung 

liefert die Zerlegung (flieg,en), da en die längstmögliche übereinstimmende 

und im Endungsbaum verzeichnete Flexionsendung ist. Ausgehend von dieser Zerlegung 

werden weitere Zerlegungen konstruiert, die sich aus der sukzessiven Verminderung der 

gefundenen Endung um einen Buchstaben und dessen Anhängen an den Stamm ergeben, 

im Beispielfall also (fliege,n) und (fliegen,nil). Enthält die zu analysierende Wortform einen 

Umlaut, so wird dieser tentativ auf den entsprechenden nichtumgelauteten Vokal reduziert 

(beispielsweise ä � a). Anschließend wird noch versucht, ein eventuell vorhandenes Partizip-II-Präfix 

(ge-) abzuspalten. Alle auf diese Weise gewonnenen Zerlegungen werden zusammen 

mit Informationen über Umlautreduktion und ge-Abspaltung der eigentlichen 

Analysefunktion übergeben, die die morphosyntaktischen Merkmale der Wortform bestimmt. 

Diese Funktion macht entscheidenen Gebrauch von dem schon mehrfach erwähnten 

Endungsbaum, bei dem es sich um einen erweiterten Trie oder Buchstabenbaum (vgl. Knuth, 

1973) handelt. Die Kanten dieses Endungsbaums sind mit Endungsgraphemen etikettiert, 

während einige Baumknoten einen speziellen Informationszeiger (Info-Ptr) enthalten, der, 

falls die Endungsgrapheme von der Wurzel des Baumes bis zu diesem Knoten eine zulässige 

Flexionsendung ergeben, auf die morphosyntaktischen Merkmale dieser Endung verweist. 

Ein Ausschnitt aus dem von Finkler/Neumann verwendeten Endungsbaums ist in Abb. 1.4 

10 Die Ausnutzung der Schreibung zur Auflösung derlei Ambiguitäten ist in ihrer Anwendbarkeit 

eingeschränkter, als dies auf den ersten Blick scheinen mag. Genaugenommen können nur Verfahren, 

die sich auf reine Deflexion beschränken und alle Aspekte der Wortbildung außer Acht lassen, dieses 

Kriterium heranziehen. Innerhalb von komplexen Wörtern (beispielsweise Komposita) gelten die 

Klein- bzw. Großschreibungskonventionen nicht mehr und können also auch nicht ausgenutzt werden. 

12


wiedergegeben (zur besseren Lesbarkeit sind die Endungen an den Baumkanten ausgeschrieben; 

die Endungen im Baum sind von hinten nach vorne zu lesen): 

E 

NDE 

ERE 

ENE 

SE 

TE 

ENDE 

NDERE 

TERE 

ENERE 

STE 

ETE 

13 

ENDERE 

ETERE 

NDSTE 

TSTE 

ENSTE 

ESTE 

ENDSTE 

ETSTE 

Abb. 1.4: Beispiel für einen Endungsbaum (aus Finkler/Neumann (1986:28)) 

Der Analysealgorithmus folgt nun solange den mit den Graphemen der potentiellen Endung 

markierten Kanten im Endungsbaum, bis diese abgearbeitet ist. Handelt es sich um 

eine im Deutschen zulässige Flexionsendung, so enthält der erreichte Baumknoten den besagten 

Informationszeiger, welcher auf einen Testbaum verweist, der nach Wortarten gruppiert 

die Bedingungen enthält, die der potentielle Stamm der Wortform erfüllen muß. Ein 

Ausschnitt dieses Bedingungsbaumes ist in Abb. 1.5 dargestellt. 

Info 

Nomen Adjektiv Verb Possessivpronomen 

Umlaut Nichtumlaut 

Flexionskl. er 

(sg (dat)) 

Abb. 1.5: Ausschnitt aus dem Bedingungsbaum (nach Finkler/Neumann (1986:29)) 

E 

T


Die zu testenden Bedingungen sind in der Abbildung durch Kursivsetzung gekennzeichnet. 

Der Informationsunterbaum unterhalb von -e ist folgendermaßen zu lesen: Die Endung -e ist 

für einen Stamm dann zulässig, wenn es sich bei ihm um ein Nomen handelt, bei dem keine 

Umlautreduktion durchgeführt wurde und das einer bestimmten Deklinationsklasse mit 

Namen er angehört. Sind alle diese Bedingungen erfüllt, so können die Endungsmerkmale 

der Wortform zu Singular Dativ bestimmt werden. Diese Merkmale werden mit den Merkmalen 

des Stammes vereinigt und als Ergebnis der Analyse ausgegeben. 

Aufgrund der Tatsache, daß alle Stamm-Endungs-Kombinationen der morphologischen 

Analyse unterzogen und dabei alle Bedingungen im Bedingungsbaum geprüft werden, erhält 

man im Beispielfall der Wortform fliegen sowohl die Nomen- als auch die Verblesart. 

Allomorphe Stämme werden in der Konzeption von Finkler/Neumann nicht regelgeleitet 

behandelt (wie beispielsweise bei Paulus (1986)), sondern sinnvollerweise als unterspezifizierte 

Einträge in das Grundformenlexikon aufgenommen. Diese Einträge enthalten zusätzliche 

Informationen darüber, für welche Wortformen der betreffende Stamm verwendet 

werden kann. Im Verlaufe der Analyse werden dann die beim Stamm verzeichneten Angaben 

mit den Zusatzinformationen des Allomorphs vereinigt und so ein vollständiger Lexikoneintrag 

für das Allomorph dynamisch erzeugt. 

Zur Kritik: Anders als in den weiter oben beschriebenen Lemmatisierungsentwürfen ist der 

Anteil der Prozeduralität im Modell von Finkler/Neumann stark vermindert zugunsten 

einem Mehr an Deklarativität bezüglich der Abbildung sprachlicher Sachverhalte. Es läßt 

sich zudem eine Trennung zwischen Analysemodell und den von der einzelnen Sprache abhängigen 

Daten ausmachen, so daß die Kritik einer zu starken Vermischung beider Ebenen 

hinfällig wird. Das Analysemodell ist prozedural und besteht aus dem Segmentierungsalgorithmus 

und den Funktionen, die den Endungsbaum traversieren und dabei zur Ermittlung 

der einer Endung zukommenden Merkmale die im Baum angegebenen Bedingungen prüfen. 

Der einzelsprachliche Anteil ist – abgesehen von der Umlautreduktion und ge-Abtrennung 

– vollständig im Lexikon und im Endungsbaum kodiert, so daß sich das Modell durch 

Ersetzung dieser Komponenten wahrscheinlich leicht auf die Analyse anderer, dem Deutschen 

ähnlicher Sprachen übertragen läßt. 

Dennoch sind Einwände zu machen, die die Repräsentation von agglutinierenden Aspekten 

der deutschen Flexion betreffen. Diese äußern sich in erster Linie bei komparierten und zusätzlich 

flektierten Adjektiven. Hierbei tritt nach einem Komparationsmorphem (-er oder - 

(e)st) zusätzlich noch ein Flexionsmorphem auf. Finkler/Neumann behandeln dieses Phänomen 

unter der Bezeichnung Mehrfachendungen dadurch, daß sie die zulässigen Morphemkombinationen 

von vornherein bestimmen und als Einheit in den Endungsbaum aufnehmen. 

Auch wenn sie dem Vorwurf der Merkmalsredundanz im Endungsbaum durch Einführung 

eines speziellen Verweismechanismus (Finkler/Neumann (1986:30)) entgehen, resultiert 

daraus jedoch eine erhebliche Vergrößerung des Baumes, wie sich leicht durch Vergleich 

des Endungsbaumes von Finkler/Neumann und seinem Automatenäquivalent in 

meiner Konzeption (vgl. Kapitel 4) feststellen läßt. In mild agglutierenden Sprachen mag 

dieses Verfahren noch akzeptabel sein, in Sprachen jedoch wie dem Finnischen halte ich eine 

derartige Auskompilation für problematisch. 

Zusammenfassend kann man festhalten, daß die Konzeption von Finkler/Neumann einen 

beträchtlichen Fortschritt gegenüber den rein prozeduralen Lemmatisierungsverfahren bedeutet. 

Die aus dem System VIE-LANG (vgl. Trost/Buchberger (1981)) übernommene Idee 

des Endungsbaums ist zudem so interessant und entwicklungsfähig, daß ich sie als Ausgangspunkt 

in meinem eigenen Modell verwende. 

14


1.2.4 Die objektorientierte Konzeption von Daelemans (1987) 

Eine Arbeit, die versucht, Techniken der Objektorientierung im Rahmen eines word-and-paradigm-Ansatzes 

für die morphologische Analyse nutzbar zu machen, ist die von Daelemans 

(1987). 

Daelemans Dissertation, die verschiedene Verfahren für unterschiedliche Aspekte der 

Sprachverarbeitung (morphologische Analyse und Synthese, Silbentrennung, automatische 

Fehlerkorrektur etc.) beschreibt, befaßt sich in Kapitel 3 mit der Abbildung der holländischen 

Morphologie innerhalb eines objektorientierten Systems. Daelemans unterscheidet 

zwischen einem Programm-Modul der morphologischen Synthese und einem solchen der 

morphologischen Analyse; beide Module sind unabhängig voneinander, können jedoch zusammen 

eingesetzt werden. 

Im Mittelpunkt des von Daelemans vorgestellten Modells der morphologischen Synthese 

steht die Abbildung des Flexionsverhaltens der regelmäßigen und unregelmäßigen holländischen 

Verben. Sein Synthesemodell ist in Abb. 1.6 wiedergegeben. 

AFFIXES STEMS 

MORPHOLOGICAL RULES 

WORD FORMS 

SPELLING RULES PHONOLOGICAL RULES 

SPELLING PRONUNCIATION 

Abb. 1.6: Daelemans Modell der morphologischen Synthese (1987:53) 

Morphologische Regeln erzeugen aus Wortstämmen und Flexionsaffixen zugrundeliegende 

lexikalische Repräsentationen 11 konkreter Wortformen, die dann mittels zweier Filter in eine 

geschriebene bzw. phonetische Form überführt werden können. Diese Filter enthalten Regeln 

ähnlich den phonologischen des Koskenniemischen Two-Level-Modells, die orthographische 

bzw. phonetische Modifikationen an den beteiligten Morphemen vornehmen. 

Um das unterschiedliche Verhalten der an der Verbkonjugation beteiligten Morpheme zu 

beschreiben, bedient sich Daelemans einer Vererbungshierarchie, die in Abb. 1.7 wiedergegeben 

ist. 

11 Lexikalische Repräsentationen können wie bei Koskenniemi (1984) neben den eigentlichen Morphemen 

auch Symbole zur Markierung von Morphemgrenzen und sog. Archiphoneme enthalten 

(Archiphoneme sind in der generativen Phonologie abstrakte Phoneme, die je nach lautlichen Kontext 

unterschiedlich realisiert werden können). 

15

FREE-MORPHEME 

WORD-FORM 

VERB-FORM 

MORPHEME 


BOUND-MORPHEME 

PREFIX SUFFIX 

PAST-PARTICIPLE-PREFIX PLURAL-SUFFIX 

PRESENT-SINGULAR-SUFFIX 

16 

PRESENT-PARTICIPLE-SUFFIX 

PAST-PARTICIPLE-SUFFIX 

Abb. 1.7: Die von Daelemans (1987:42) verwendete Lexikonhierarchie 

PAST-SINGULAR-SUFFIX 

Als Beschreibungssprache für diese Hierarchie verwendet Daelemans die Wissensrepräsentationssprache 

KRS; die Klassen werden dort durch sog. Konzepte ausgedrückt. Das Konzept 

REGULAR-VERB-LEXEME bildet den Kern seines Synthesemodells. Es dient dazu, das Konjugationsverhalten 

regelmäßiger Verben zu erfassen. Hierzu verfügt dieses Konzept über die 

Unterkonzepte PRESENT-SINGULAR-ONE, PRESENT-SINGULAR-TWO, PAST-PARTICIPLE usw., 

die als Prozeduren realisiert sind und die entsprechenden Verbformen aus einer in der Konzeptinstanz 

gespeicherten konkreten Verbwurzel "errechnen". Abb. 1.8 zeigt einen Ausschnitt 

aus der Definition des Konzepts REGULAR-VERB-LEXEME. 

(DEFCONCEPT REGULAR-VERB-LEXEME 

(A VERB-PARADIGM 

(CITATION-FORM (A STRING))) 

(PARADIGM (A CONCEPT-LIST 

(>>PRESENT-SINGULAR_ONE) 

(>>PRESENT-SINGULAR_TWO) 

(>>PRESENT-SINGULAR_THREE) 

. . . . . 

(>>PAST-PARTICPLE))) 

(ROOT (A MORPHEME)) 

. . . . . 

(PRESENT-SINGULAR-ONE 

(A VERBFORM) 

(FINITENESS FINITE) 

(TENSE PRESENT) 

(NUMBER SINGULAR) 

(PERSON THIRD) 

(LEXICAL-REPRESENTATION 

{ Apply the present-singular-one-rule 

to the citation form } )) 

Abb. 1.8: Definition von REGULAR-VERB-LEXEME (nach Daelemans (1987:43))


Diese Definition besagt folgendes: das Konzept REGULAR-VERB-LEXEME ist von VERB- 

PARADIGM abgeleitet, verfügt über eine Zitierform, eine Wurzel (ROOT) und eine Liste von 

Konzepten, die für das Paradigma des Verbs stehen. Diese Konzepte, von denen nur eines 

(PRESENT-SINGULAR-ONE) angedeutet ist, bestimmen aus der Verbwurzel mit Hilfe einer aus 

einer anderen Hierarchie stammenden morphologischen Regel die konkrete Verbform und 

deren Merkmale. Von dem Konzept REGULAR-VERB-LEXEME sind weitere Konzepte abgeleitet, 

die das Flexionsverhalten der unregelmäßigen Verben des Niederländischen beschreiben. 

In diesen Klassen werden Prozeduren von REGULAR-VERB-LEXEME überschrieben; beispielsweise 

die Prozedur Past-Participle bei den Ablautverben, bei denen das Partizip mit -en 

statt mit -t/-d gebildet wird. Ich möchte hier nicht weiter auf diese Verbhierarchie eingehen, 

da deutlich geworden sein sollte, wie Daelemans objektorientierte Techniken in Zusammenhang 

mit der Beschreibung morphologischer Regularitäten verwendet und stattdessen noch 

das Modell der morphologischen Analyse vorstellen. 

Der Grobaufbau dieses Modells ist in Abb. 1.9 dargestellt: 

Lexical Database 

Morphological 

Grammar 

Spelling or phoneme representation 

17 

Segmentation 

Dictionary 

Lookup 

List of segmentations 

Parsing 

List of analyses 

Abb. 1.9: Modell der morphologischen Analyse nach Daelemans (1987:58) 

Die Segmentierungsprozedur zerlegt rekursiv die zu analysierende Wortform in Teilketten 

und schlägt diese im Lexikon (lexical database) nach; Daelemans spezifiziert dieses Lexikon 

jedoch nicht näher. 

Da naive Segmentierungsalgorithmen aus komplexitätstheoretischer Sicht zu aufwendig 

sind, macht Daelemans bei der Zerlegung Gebrauch von einer Reihe von Heuristiken (vgl. 

Daelemans (1987:59f)): 

� Zeichenketten, die kürzer als der kürzeste oder länger als der längste Lexikoneintrag 

sind, werden nicht nachgeschlagen 

� Zeichenketten, die nicht den Bedingungen der holländischen Morphemstruktur genügen, 

werden ebenfalls nicht im Lexikon gesucht.


Nach Daelemans gelingt es mit Hilfe dieser Heuristiken, die Anzahl der Lexikonaufrufe in 

den Grenzen einer Funktion der Ordnung O(n) zu halten (n = Länge des Eingabewortes). 

Die möglichen Segmentierungen der Eingabekette werden an einen nachgeschalteten Parser 

übergeben. Dieser Parser, der in erster Linie für die Analyse von Komposita konzipiert ist, 

greift zurück auf eine morphologische Grammatik, die aus Regeln wie der in Abb. 1.10 wiedergegebenen 

besteht: 

Rule Noun = x + Noun 

If x = Noun 

Then x = one of Singular Noun, Plural Noun, Diminutive Plural Noun 

If x = Adjektive 

Then x = one of Normalform Adjective, Inflected Adjektive 

If x = Verb 

Then x = Present Singular First Verb 

Abb. 1.10: Regel der morphologischen Grammatik (vgl. Daelemans (1987:61)) 

Parser und Segmentierer sind als Prozeduren einem Konzept POSSIBLE-WORD-FORM zugeordnet. 

Die Funktionsweise des Parsers wird auch nicht näher beschrieben; es ist jedoch in 

Anbetracht der morphologischen Regeln anzunehmen, daß es sich um ein traditionelles, 

regelbasiertes Parsverfahren handelt. 

Weiter oben habe ich angedeutet, daß sich die Regeln des Parsers auf die Regularitäten der 

Komposition im Holländischen beziehen. Hieraus ergibt sich die Frage, wie flektierte Wortformen 

behandelt werden. 

Daelemans plädiert in diesem Zusammenhang dafür, alle flektierten Formen (also beispielsweise 

bei Verben alle Konjugationsformen) in das Lexikon aufzunehmen. Sein Argument 

für diese Ansicht geht in die Richtung, daß heutzutage die Speichertechnologien und 

Suchalgorithmen so ausgereift sind, daß es ohne Schwierigkeiten möglich ist, große Mengen 

an Wortformen einfach abzuspeichern, was eine vereinfachte morphologische Analyse, die 

sich auf die produktiven Aspekte der Wortbildung konzentriert, zur Folge habe. 

Dieser Standpunkt ist insofern interessant, als man ihm nicht den Vorwurf machen kann, er 

vernachlässige die Abbildung sprachlicher Regularitäten innerhalb des Systems. Daelemans 

schlägt nämlich vor, die Flexionsformen einer Grundform nicht manuell zu erstellen, sondern 

sie durch ein regelgeleitetes Synthesesystem, wie es weiter oben vorgestellt wurde, 

automatisch erzeugen zu lassen. 

Auch wenn diese Auffassung einiges für sich hat – Synthese ist im Bereich der Morphologie 

einfacher als Analyse –, so ergeben sich natürlich Probleme bei Sprachen wie dem Finnischen, 

wo die Anzahl der flektierten Formen sehr groß sein kann. Wollte man auf die vorgeschlagene 

Weise ein Vollformenlexikon mit einem realistischen Bestand an finnischen Verben 

erzeugen, so stieße man auch bei modernsten Rechnersystemen an die Grenzen ihrer 

Kapazität. 

Der nächste Einwand betrifft das Zerlegungsverfahren. Um den Parser, der auf Regeln wie 

der in Abb. 1.10 gezeigten basiert, einzusetzen, muß das zu analysierende Wort zunächst in 

seine morphematischen Bestandteile zerlegt werden. Daelemans (1987) verwendet hierzu 

einen extrem einfachen Algorithmus, der in seiner Grundform sukzessiv Teilzeichenketten 

vom Wortanfang her abspaltet, im Lexikon nachschlägt und diese Teilketten rekursiv einer 

weiteren Zerlegung unterwirft. Nun ist leicht zu sehen, daß eine Zeichenkette der Länge n 

2 n-1 verschiedene Dekompositionen in Teilstrings zuläßt. Wenn man als Beispiel die Zeichenkette 

abcd betrachtet, so erhält man als Zerlegungen { (abcd), (a,bcd), (ab,cd), (abc,d), (a,b,cd), 

18


(a,bc,d), (ab,c,d), (a,b,c,d) }, d.h. 8 = 2 4-1 Zerlegungen. 12 Ist nun jede Zerlegung auch nur mit 

einem Lexikonzugriff verknüpft, erhält man einen Algorithmus der Komplexität O(2 n ), d.h. 

man hätte es schon im Bereich der Morphologiekomponente mit exponentiellen Laufzeiten 

zu tun. Daelemans hat dieses Problem erkannt und verwendet daher die weiter oben bereits 

betrachteten Heuristiken, um nicht jede während der Segmentierung auftretende Teilkette 

im Lexikon nachschlagen zu müssen. Dazu ist natürlich zu sagen, daß Heuristiken dieser 

Art keine hundertprozentige Gültigkeit aufweisen, da beispielsweise im Deutschen durchaus 

monographematische Morpheme existieren, vgl. a- in asymmetrisch. Was schwerer wiegt, 

ist jedoch der Einwand, warum eine zwingend vorhandene Informationsquelle wie das Lexikon 

nicht aktiv für die Segmentierung eingesetzt wird. Das dies möglich ist, möchte ich in 

Kapitel 4 demonstrieren. 

Mein letzter Kritikpunkt betrifft den Status des Prinzips der Objektorientierung in den beiden 

Modellen (Synthese und Analyse). Während dieses Prinzip im Fall des Synthesemodells 

Teil der linguistischen Beschreibung ist, ist es bezüglich des Analysemodells nur ein softwaretechnisches 

Mittel zur Strukturierung des Programms. Bei dem Analysemodell handelt es 

sich m.a.W. um kein objektorientiertes System auf der Beschreibungsebene. 

Ohne die Leistung Daelemans schmälern zu wollen – seine Arbeit behandelt diesen Bereich 

ja nur als einen unter mehreren anderen der Sprachtechnologie –, so bleibt doch festzuhalten, 

daß eine objektorientierte Analysekonzeption mit ganz anderen Problemen konfrontiert 

ist als denjenigen, denen sich das Synthesemodell zu stellen hat, bei dem schließlich die Umsetzung 

der sprachlichen Seite in das Paradigma der Objektorientierung relativ nahe liegt 13 . 

1.2.5 Lexikalische Regeln 

Zum Schluß dieser Sichtung des Forschungstandes möchte ich noch auf eine Technik eingehen, 

die mit der Konzeption von Daelemans (1987) verwandt ist und fester Bestandteil des 

Methodeninventars von unifikationsbasierten Grammatikformalismen geworden ist (vgl. 

z.B. Shieber (1986) und Pollard/Sag (1987). 

Hiernach konstituieren lexikalische Regeln und die eigentlichen Lexikoneinträge das Lexikon. 

Lexikalische Regeln, die verwandt sind mit den Redundanzregeln in der Konzeption 

von Jackendoff (1975) 14 , bestehen aus einer Eingabespezifikation, die festlegt, auf welche 

Lexikonelemente die Regel angewendet werden kann und einer Ausgabespezifikation, die 

die Eigenschaften des aufgrund der Regelanwendung neu entstandenen Wortes festhält. 

Lexikalische Regeln erzeugen demnach aus einem vorhandenen Wort ein neues Wort. Entscheidend 

für diese lexikalischen Regeln sind variable Elemente in beiden Spezifikationen, 

mit deren Hilfe Eigenschaften des Ursprungswortes, die die Regel selbst nicht festlegt, auf 

das neue Wort überträgt. Wie man sieht, ist dies die gleiche Analyse-durch-Synthese-Idee 

wie bei Daelemans (1987). Lexikalische Regeln werden meist nicht nur für die Erzeugung 

von Flexionsformen verwendet, sondern auch für die Derivation von Basiskategorien und 

für Operationen wie der Passivierung. Abb. 1.11 zeigt eine solche Regel, die die Passivform 

eines transitiven Verbs erzeugt und gleichzeitig dessen Argumentliste verändert, während 

Abb. 1.12 die Erzeugung von be-Präfixverben aus Simplexverben demonstriert. 

12 Auch wenn man nur die verschiedenen Teilstrings über alle Zerlegungen hinweg betrachtet, kommt 

n 

man auf eine Zahl von �i = 

i�1 

n n ( ) �1 

, also eine Funktion der Ordnung O(n 

2 

2 ) . 

13 Dies ist Daelemans durchaus bewußt; vgl. Daelemans/De Smedt (1994:152) 

14 Wenn ich es recht verstehe, sind Jackendoffs Redundanzregeln inhärent relational, während die hier 

besprochenen lexikalischen Regeln eher prozedural aufzufassen sind. 

19

PHON 1 

PAST-PART 

2 

SYN|LOC|SUBCAT 


� 

PHON PSP ( 1 , 2 ) 

f 

SYN|LOC|SUBCAT 

, 4 > 

20 

graph 

syn 

head 

be-prefixable-Verb be-Verb 

� 

be� 

2 

1 

3 

> 

subcat < 3 , 4 > 

Abb. 1.12: Lexikalische Regel zur Argumentdiathese bei be-Verben (aus Dörfler/Hanneforth (1995)) 

Die Regel in Abb. 1.12 erfaßt den systematischen Zusammenhang zwischen einer ganzen 

Reihe von Simplexverben und ihren mit be- präfigierten Ableitungen, vgl. (3) 

(3) Er gießt [ NP Wasser] [ PP auf die Blumen] 

Er begießt [ NP die Blumen] [ PP mit Wasser] 

Die Eingabespezifikation links vom Pfeil legt u.a. fest, daß sie nur auf Verben der Klasse 

be-prefixable-Verb 15 anwendbar ist. 

Lexikalische Regeln dieser Art werden nun meist so verwendet, daß sie während einer 

Kompilationsphase offline auf alle passenden Lexikoneinträge angewendet werden und das 

Lexikon auf diese Weise erweitert wird, was mengentheoretisch einer Hüllenbildung gleichkommt. 

Die eigentliche morphologische Analyse besteht dann lediglich noch aus Lexikonzugriffen. 

Die Vor- und Nachteile dieser Methode sind im wesentlichen die gleichen wie bei der Konzeption 

von Daelemans (1987). Durch Ausdehnung des Verfahrens auf die eigentliche Wortbildung 

ergibt sich jedoch ein neues Problem. Während die Behandlung der Derivation noch 

praktikabel ist, stellt sich das Problem, daß die Komposition – anders als die Derivation 16 – 

durch rekursive Mechanismen charakterisiert ist, die es unmöglich machen, eine Obergrenze 

für die Maximallänge eines Kompositums festzulegen. M.a.W.: die Komposition ist im Deutschen 

potentiell unendlich, womit sich eine offline-Anwendung von lexikalischen Regeln 

von selbst verbietet. Wenn man also lexikalische Regeln zur Beschreibung von Flexion und 

Derivation verwenden möchte, so benötigt man in jedem Fall noch einen Mechanismus, der 

online die Analyse von Komposita vornimmt. Aber auch dann ergibt sich noch das Problem, 

wie zusammengesetzte Wörter wiederum in den Mechanismus der Flexion eingehen kön- 

15 Dies wird durch Zuordnung der betreffenden Verben zu dieser Klasse sichergestellt. 

16 Eine Ausnahme hierzu ist jedoch die Präfixableitung mit vor- oder anti-, die iteriert werden kann: 

z.B. Vorversion, Vorvorversion (vgl. Krieger (1994)).


nen, der schließlich vor der eigentlichen Analyse vonstatten geht. Als Lösung hierfür muß 

man davon ausgehen, daß beispielsweise die Komposition bereits flektierte Wortformen mit 

unflektierten Stämmen kombiniert. 

Ein weiteres Problem ergibt sich aus dem theoretischen Status der lexikalischen Regeln. Wie 

auch schon von Krieger (1994) bemerkt worden ist, fallen diese aus dem Rahmen der Unifikationsgrammatiken 

heraus. Ihre Struktur ist von gänzlich anderer Art als alle anderen Beschreibungsmittel 

dieses Grammatiktyps, weswegen ein Verzicht auf lexikalische Regeln zu 

größerer Durchsichtigkeit des Formalismus führen würde. 

Letztendlich stellt sich noch das Problem der Reihenfolge der Anwendung von kaskadenförmig 

anwendbaren Regeln. Dieses Problem erinnert an die Schwierigkeiten mit der Regelanwendung 

in frühen Versionen der Transformationsgrammatik, was mit dazu beigetragen 

hat, diese Grammatiken obsolet werden zu lassen. 

1.3 Fazit 

Welches Fazit ist aus der vorangegangenen Kurzdarstellung des Forschungsstandes zu ziehen, 

insbesondere vor dem Hintergrund des Ziels dieser Arbeit, ein einheitliches Analysemodell 

für alle wesentlichen Aspekte der Flexion und Wortbildung zu entwickeln? 

Bei den genuinen Analysemodellen sind die „Steinzeitmethoden“ der „algorithmischen Linguistik“ 

von vornherein auszuschließen, da sie ganz einfach heutigen Standards in bezug 

auf Deklarativität etc. (vgl. Kapitel 2) nicht genügen. Modernere Konzeptionen, wie beispielsweise 

die von Finkler/Neumann (1986), bieten Vorteile, wie beispielsweise Trennung 

von Daten und Algorithmus, sind jedoch noch allzu sehr dem Ziel der Lemmatisierung verhaftet. 

Die Two-Level-Morphologie stellt demgegenüber wiederum einen Fortschritt dar, da 

sie das Problem Deflexion in ein sauber definiertes Automatenmodell einbettet und somit 

auf Morphkombinatorik reduziert. Dennoch weist die Two-Level-Morphologie einige 

Nachteile auf: 

� Um grammatisch gesteuerte Two-level-Regeln zu realisieren, ist sie entweder auf eine 

Erweiterung des Formalismus oder auf arbiträre diakritische Zeichen auf dem Lexikonband 

angewiesen, dies zeigen auch existierende Implementationen. 

� Sie setzt auf einer Ebene zu tief an, da sie – zumindest in ihrer Originalform – wortinterne 

Strukturen, die für die Semantik von Wörtern von Belang sind, nicht identifizieren kann. 

Die Analyse-durch-Synthese-Modelle, hier vertreten durch die Konzeption von Daelemans 

(1987) und die Idee der lexikalischen Regeln, sind in linguistischer Hinsicht durchweg weiter 

entwickelt. Letztendlich müssen diese Ansätze jedoch vor dem Wortbildungsmittel der 

Komposition scheitern, da Komposition auf keinen Fall während einer Lexikonaufbau- bzw. 

Kompilationsphase abgehandelt werden kann. 

Die Schlußfolgerungen, die ich daraus ziehe, sehen folgendermaßen aus: 

� Da man ohnehin einer Parser benötigt, um Komposita zu analysieren, verzichtet man auf 

lexikalische Regeln und dergleichen und konzipiert diesen Parser auch im Hinblick von 

Flexion und Derivation; hieraus ergibt sich eine klarere Grundkonzeption. 

� Man benötigt mit Sicherheit ein mehrstufiges Analyseverfahren, um einerseits Wörter zu 

zerlegen und die Zulässigkeit von Morphemkombinationen zu überprüfen und andererseits 

syntaktische und semantische Beziehungen zwischen den isolierten Morphemen offenzulegen. 

Wünschenswert wäre es, diese verschiedenen Stufen nicht sequentiell hintereinander 

zu schalten, sondern eng miteinander zu verzahnen, um Restriktionen einer höheren 

Ebene bereits auf einer tieferen zur Verfügung zu haben. 

21

1.4 Methodisches 


Naturgemäß hat man bei der Realisierung eines natürlichsprachlichen Systems eine Reihe 

von Entwurfsentscheidungen zu treffen, die weitreichende und augenblicklich kaum zu 

übersehende Folgen haben können. Man ist daher gut beraten, schon vor der Modellierung 

einer Domäne auf dem Computer einen Kriterienkatalog aufzustellen, an dem verschiedene 

Formalismen und Vorgehensweisen gemessen und bewertet werden können. 

Vorschläge für derartige Kriterien wurden in der Literatur schon geäußert. In Shieber (1985: 

193ff.) werden beispielsweise drei Hauptkriterien vorgeschlagen: 

� Linguistic felicity: inwieweit eignet sich der Formalismus, Konzepte und Generalisierungen 

der linguistischen Beschreibung und Theoriebildung konzis auszudrücken? 

� Expressivness: ist der Formalismus ausdrucksstark genug, um die linguistisch motivierten 

Analysen auszudrücken? 

� Computational effectiveness: ist der Formalismus prozedural interpretierbar und, falls dies 

der Fall ist, von welcher Komplexität sind die interpretierenden Algorithmen? 

Aus diesen Hauptkriterien lassen sich eine Reihe von konkreteren Kriterien wie Deklarativität, 

Modularität, Einfachheit, Mächtigkeit, mathematische Erschlossenheit, Implementierbarkeit 

etc. ableiten. 

Die wesentliche Entwurfsentscheidung, die zu treffen ist, betrifft den Grundcharakter des 

Formalismus: soll er deklarativ, prozedural oder eine Kombination dieser beiden Extreme 

sein? Unbeschränkt prozedurale Konzeptionen scheiden aus einer Reihe von Gründen, die 

z.T. bereits in der Kritik an Alternativansätzen zur morphologischen Analyse zur Sprache 

kamen, von vornherein aus. Gegen sie ist einzuwenden: 

� sie sind bei den Komplexitäten, wie sie natürlichsprachliche Systeme im allgemeinen aufweisen, 

konzeptuell nicht durchsichtig genug und daher relativ schwer zu verstehen. 

� sie sind, wenn sie auf einer der üblichen Programmiersprachen beruhen, hinsichtlich ihrer 

Ausdrucksstärke viel zu unbeschränkt. 

Deklarative Konzeptionen sind aus einer ganzen Reihe von Gründen geeigneter, um 

sprachlichen Phänomenen gerecht zu werden. Damit sie jedoch in ein operationales Modell 

eingebettet werden können, müssen sie eine prozedurale Interpretation zulassen. Deklarativität 

bedeutet darüber hinaus, daß der Formalismus soweit mathematisch verstanden ist, 

daß detaillierte Aussagen über die Komplexität der Interpretationsalgorithmen möglich 

sind, da nur so ein Vergleich verschiedener Ansätze durch Abstraktion von Details durchführbar 

ist. Die beiden grundlegenden Formalismen, auf denen das hier vorgestellte Analysemodell 

basiert, sind nun: 

� endliche Automaten bzw. Transducer 

� typisierte Merkmalsstrukturen 

Während ein modifizierter endlicher Automat und eine Reihe von Transducern die Segmentierung 

von möglicherweise zusammengesetzten Wörtern vornehmen, dient eine 

Grammatik auf der Grundlage von typisierten Merkmalsstrukturen zusammen mit einem 

Chart-Parser zur Analyse der Wortstruktur und zur Bedeutungskonstruktion. Beide Formalismen 

sind sehr gut untersucht und (relativ) effizient zu implementieren, was sie zur ersten 

Wahl für die gestellte Aufgabenstellung werden ließ. 

22

1.5 Zum Aufbau der Arbeit 


Die restliche Arbeit gliedert sich in zwei weitere Teile und dem (unvermeidlichen) Kapitel 

„Zusammenfassung“: 

� Teil I: Grundlagen (Kapitel 2 und 3) 

� Teil II: Modellierung (Kapitel 4 und 5) 

Teil I wird zunächst die formalen und linguistischen Grundlagen für das Projekt legen. Kapitel 

2 führt in den gewählten Beschreibungsformalismus der typisierten Merkmalsstrukturen 

ein, während sich Kapitel 3 der linguistischen Seite der Aufgabenstellung zuwendet und 

einen Überblick über Theorien zur Wortbildung und Morphologie im generativen Rahmen 

gibt. In den sich anschließenden Kapiteln werde ich versuchen zu zeigen, wie diese Theorien 

innerhalb der Computerlinguistik gewinnbringend nutzbar gemacht werden können. 

Kapitel 4 in Teil II erläutert dann das Modell der morphologischen Analyse en detail und 

zeigt, wie generative Grammatiktheorien mit computerlinguistischen Fragestellungen verbunden 

werden können. Kapitel 5 beschreibt im Anschluß daran eine Morphologie- und 

Wortbildungsgrammatik und macht auch Aussagen darüber, welchen Beitrag sie für den 

Bereich des robusten Parsens leisten kann. 

Kapitel 6 schließlich versucht, kritisch der Frage nachzugehen, inwieweit die in Kapitel 1 

gestellten Ansprüche vom vorgestellten System erfüllt werden und welche Verbesserungsmöglichkeiten 

noch bestehen. 

23

2 Merkmalsstrukturen 

Kapitel 2: Merkmalsstrukturen 

Merkmalsstrukturen – auch Attribut-Wert-Strukturen genannt – haben sich nach einem Entwicklungsprozeß 

als lingua franca der heutigen Computerlinguistik herauskristallisiert. Sie 

bieten eine Reihe von Vorteilen (vgl. auch Shieber (1985)): 

• Deklarativität 

• Unabhängigkeit des Ergebnisses von der Berechnungsreihenfolge 

• Mathematische Erschlossenheit 

• Mächtigkeit 

Nicht zuletzt gibt es eine Reihe von hochentwickelten Werkzeugen – beispielsweise CUF 

(Dörre et al. (1996)) – die zur Entwicklung von Sprachverarbeitungsanwendungen zur Verfügung 

stehen. 

Diese Vorteile gaben den Ausschlag, das hier vorgestellte Modell ebenfalls auf der Grundlage 

von Merkmalsstrukturen – genauer typisierten Merkmalsstrukturen – zu entwerfen. Der 

nachfolgende Abriß der Theorie typisierter Merkmalsstrukturen orientiert sich an Carpenter 

(1992), ist jedoch nicht vollkommen voraussetzungslos gehalten. Shieber (1986) führt alle 

zum Verständnis notwendigen Begriffe ein, die hier aus Platzgründen nicht definiert werden 

können. 

2.1 Typisierte Merkmalsstrukturen 

Typisierte Merkmalsstrukturen stellen eine Verbesserung gegenüber untypisierten Merkmalsstrukturen 

(vgl. Shieber (1986)) dar: 

• In Verbindung mit festgelegten Typisierungs- und Appropriateness-Bedingungen (s.u.) 

kann für jede Merkmalsstruktur festgestellt werden, ob sie in einem wohldefinierten Sinn 

korrekt und vollständig ist. 

• Typisierung erlaubt, unzulässige Merkmale und Merkmalswerte zu erkennen. 

Aber auch aus implementatorischer Perspektive ergeben sich einige Vorteile: 

• Durch die Typisierung kann für jede Merkmalsstruktur während einer Kompilationsphase 

der von ihr beanspruchte Speicherplatz berechnet und beim Zugriff auf bestimmte 

Attribute von effizienten Record-Offset-Adressierungsverfahren Gebrauch gemacht 

werden. 

• Die wichtigste, jedoch aufwendige Operation in Zusammenhang mit Merkmalstrukturen, 

die der Unifikation (s.u.), kann in vielen Fällen vermieden werden, wenn die zu unifizierenden 

Strukturen typeninkompatibel sind, was sich durch eine einfache Tabellenoperation 

feststellen läßt. 

• Nicht zuletzt erleichtert Typisierung, analog zur Festlegung von Datentypen in imperativen 

Programmiersprachen wie Pascal, die Feststellung von semantischen Fehlern etc. 

während der Implementierungsphase eines Grammatikmodells. 

(Typisierte) Merkmalsstrukturen werden üblicherweise als endliche Automaten formalisiert. 

Eine typisierte Merkmalsstruktur über einer Menge von Typen Type und einer endlichen 

Menge von Merkmalen Feat ist dabei ein 4-Tupel F = , wobei gilt: 1 

1 Zur Notation: Typen werden immer fett und kursiv wiedergegeben, MERKMALE in Kapitälchen. 

24


• Q ist eine endliche Menge von Knoten (Zuständen); 

• q0 ∈ Q ist der Wurzelknoten (Startzustand); 

• θ : Q � Type ist eine (totale) Funktion, die jedem Knoten einen Typ zuordnet; 

• δ : Feat × Q � Q ist eine partielle Funktion. 

F sei die Menge aller typisierten Merkmalsstrukturen. 

Abb. 2.1 zeigt eine typisierte Merkmalsstruktur in Automatennotation. 

Abb. 2.1: Eine typisierte Merkmalsstruktur in Automatennotation 

Die Übergangsfunktion δ überführt Zustände und Merkmalsnamen in andere Zustände, d.h. 

Knoten im Graph. Sie kann in naheliegender Weise für sog. Pfade – Elemente aus Feat* - zu 

einer Funktion δ‘ verallgemeinert werden: 

1. δ‘ (ε , q) = q 

2. δ‘ (fπ , q) = δ‘(π, δ( f, q)) 

Meist werden Merkmalsstrukturen jedoch in sog. Matrix-Schreibweise repräsentiert; die 

Merkmalsstruktur aus Abb. 2.1 sähe dann wie folgt aus: 

CAT: vp 

HEAD: VFORM: finite 

phrase 

AGR: PERSON: 

NUMBER: 

head agr 

third 

plural 

Abb. 2.2: Eine typisierte Merkmalsstruktur in Matrixnotation 

Gilt für zwei verschiedene Pfade r und s δ’(r, q) = δ’(s, q), so heißen diese beiden Pfade reentrant. 

Reentranz wird in Matrixform durch sog. Tags wie 1 ausgedrückt, die am Ende der 

reentranten Pfade hinzugefügt werden. 

Manchmal ist es nötig, sich auf Substrukturen einer Merkmalsstruktur zu beziehen. Hierzu 

definiert man eine partielle Funktion @ : F × Feat � F mit den folgenden Eigenschaften: 

@ F = , falls δ(F, q0) = q0‘, Q’ ⊆ Q die Menge der von q0‘ erreichbaren 

Zustände ist und θ’ und δ’ entsprechend die Einschränkungen von θ und δ auf Q’ sind. Ist δ 

für q0 und F nicht definiert, so ist auch @ undefiniert. 

25


Die Menge der Typen Type wird zuvor festgelegt und ergibt sich aus einer Klassifikation der 

Objekte des Beschreibungsbereichs. Die dabei verwendeten Methoden sind Gegenstand des 

nächsten Abschnitts. 

2.2 Typsysteme 

Entscheidend ist, daß die einzelnen Typen aus Type nicht beziehungslos nebeneinander existieren, 

sondern – ähnlich wie bei den objektorientierten Programmiersprachen – in sog. 

Vererbungshierarchien organisiert sind. 

Abb. 2.3 zeigt eine solche Hierarchie, wie sie im Modell zur Beschreibung der verschiedenen 

Typen von morphologischen Formativen verwendet wird (vgl. Kapitel 5). 

unknown_stem 

simple_stem complex_stem 

simple_or_complex_stem 

linking_morph pre_syntactic_atom affix 

morph_object syntactic_atom 

morph_or_syn_object 

top 

infl_affix derivative 

suffix 

prefix 

Abb. 2.3: Ausschnitt aus einer Vererbungshierarchie zur Beschreibung der deutschen Morphologie 

Demnach weist beispielsweise der Typ affix die Subtypen suffix und prefix auf. 

Durch Kanten mittelbar oder unmittelbar verbundene Typen stehen – je nach Sichtweise – in 

einer Super- bzw. Subtypbeziehung zueinander. Ein allgemeinster Typ, üblicherweise Top 

(>) genannt, wird eingeführt, um einen Typ zu schaffen, der zu allen Typen des zu beschreibenden 

Bereichs in einer Supertypbeziehung steht; diese Beziehung wird auch als Subsumption 

bezeichnet. Hiernach subsumiert ein Typ A einen Typ B (symbolisch A v B), wenn A 

allgemeiner ist als B (also A ein Supertyp von B ist) bzw. B von A erbt. Top subsumiert demnach 

alle anderen Typen aus Type. 

Die Subsumptionsbeziehung bildet eine partielle Ordnung über Type und ist daher : 

1. reflexiv: ∀t: t v t 

2. antisymmetrisch: ∀s,t: s v t ∧ t v s → t = s 

3. transitiv: ∀s,t,u: s v t ∧ t v u → s v u 

26

2.2.1 Konstruktion von Typsystemen 


Es gibt nun eine Reihe unterschiedlicher Möglichkeiten, Typsysteme für Merkmalsstrukturen 

zu definieren. Die nachfolgend beschriebene definiert ein Typsystem als eine Menge von 

sog. Typformeln, die aus atomaren Typen und aussagenlogischen Konnektiven aufgebaut 

sind: 

Die Menge der Typformeln über einer Menge von atomaren Typen AtomType läßt sich als 

die kleinste Menge charakterisieren, die folgendes enthält: 

• Jeder atomare Typ aus AtomType ist eine Typformel. 

• Wenn T, T1 und T2 Typformeln sind, dann sind auch ¬T, (T1 ∧ T2), (T1 ∨ T2), (T1 ↔ T2), 

(T1 | T2) und (T1 → T2) Typformeln. 

In Typsystemen gebrauchte Typformeln lassen sich dabei in drei Gruppen einteilen: 

• Subtyp: T1 → T2 („T1 ist Subtyp von T2“) 

• Äquivalenz: T1 ↔ T2 („T1 und T2 sind äquivalent“) 

• Disjunktheit: T1 | T2 (die Typen T1 und T2 sind disjunkt) 

Eine Teilmenge der Typformeln heißt auch eine Menge von Typaxiomen bzgl. AtomType. 

Beispiel 2.1: 

Ein Ausschnitt der in Abb. 2.3 dargestellten Hierarchie kann durch folgende Typaxiome 

wiedergeben werden: 

morph_or_syn_object → > 

affix ↔ prefix | suffix 

suffix ↔ infl_affix | derivative 

Die Konnektive für Implikation, Äquivalenz und Disjunktheit lassen sich in üblicher Weise 

eliminieren: 

t1 → t2 ≡ ¬ t1 ∨ t2 

t1 ↔ t2 ≡ t1 → t2 ∧ t2 → t1 

t1 | t2 ≡ ( t1 ∨ t2 ) ∧ ¬ ( t1 ∧ t2 ) 

Ergänzt werden die Typaxiome durch eine Menge von Merkmalseinführungsaxiomen der Form 

(t, t1, ..., tn ∈ AtomType): 

t :: F 1 : t1 ∧ F 2 : t2 ∧ ... ∧ F n : tn 

Dieses Axiom hält fest, daß für den Typ t die Merkmale F 1 bis F n angemessen sind und der 

Wertebereich dieser Merkmale auf die Typen t1 bis tn beschränkt ist. Merkmalseinführungen 

vererben sich dabei auch auf alle Subtypen von t. Wird ein Merkmal F durch mehr als einen 

Typ eingeführt, so handelt es sich um ein sog. Polyfeature. Im weiteren soll jedoch davon 

abgesehen werden. 

27


Beispiel 2.2: 

In der morphologischen Grammatik werden für die Typen morph_or_syn_object und 

morph_object folgende Merkmalseinführungsaxiome definiert: 

morph_or_syn_object :: 

GRAPH: list ∧ 

SYN: syntax ∧ 

SEM: semantics 

morph_object :: 

MORPH: morph ∧ 

STRUCTURE: list 

Da morph_object ein Subtyp von morph_or_syn_object ist, erbt er dessen Merkmale. 

Die Erfüllbarkeit einer Typformel kann nun analog zum Erfüllungsbegriff der Aussagenlogik 

definiert werden, indem die atomaren Typen als atomare Formeln interpretiert werden. 

Eine Typformel T ist erfüllbar, wenn es eine Belegung M für die atomaren Typen aus T mit w 

bzw. f gibt, so daß M(T) = w ist; der Wahrheitswert komplexer Formeln bestimmt sich in 

bekannter Weise aus den Wahrheitswerten der Teilformeln und den Wahrheitstafeln der 

Konnektive; man schreibt in gewohnter Form auch M T. 

Mit Hilfe der Erfüllbarkeit läßt sich auch die Subsumptionsrelation v zwischen zwei Typen t1 

und t2 definieren. Es sei Σ das zugrundegelegte Typaxiomssystem, d.h. die Menge der 

Typaxiome. Man sagt, t1 subsumiert t2 in Σ, symbolisch t1 v t2, wenn die Formel t2 → t1 eine 

logische Folgerung aus Σ ist. 

Die Unifikation zweier Typen t1 und t2 – symbolisch t1 t t2 – ist definiert, wenn Σ ∪ { t1 ∧ t2 } 

erfüllbar ist; andernfalls gilt t1 t t2 = ? („?“ steht für den inkonsistenten Typ). 

2.3 Subsumption 

Nicht nur für Typen, sondern auch für Merkmalsstrukturen kann man eine Subsumptionsrelation 

definieren: Subsumption definiert dann eine partielle Ordnung über Merkmalsstrukturen 

hinsichtlich ihres Grads an Spezifizität. Intuitiv gesprochen subsumiert eine 

Merkmalsstruktur A eine andere Merkmalsstruktur B (notiert als A v B), wenn A allgemeiner 

ist als B oder - anders formuliert - wenn die Menge der von B charakterisierten Objekte des 

Diskursuniversums eine Teilmenge der von A beschriebenen bildet. Formal kann Subsumption 

als Homomorphismus zwischen zwei Merkmalsstrukturen definiert werden, die 

durch deterministische endliche Automaten gegeben sind. 

Definition 2.1: Subsumption zweier Merkmalsstrukturen 

Eine Merkmalsstruktur F = subsumiert eine Merkmalsstruktur F’ = 

gdw. es eine totale Funktion h: Q � Q’ gibt, so daß gilt: 

1. h(q0 ) = q’0 

2. θ(q ) v θ‘(h(q)) für alle q ∈ Q 

3. h(δ (F, q)) = δ‘(F, h(q)) für alle q ∈ Q und Merkmale F, für die δ(F, q) definiert ist. 

28

Beispiel 2.3: Subsumption 

AGR: PERS: 

sign 

in Automatendarstellung: 

agr 

und sign v phrase, agr v agr, 1 v 1 


1 

gdw. 

sign phrase 

PERS: 

AGR: 

NUM: 

agr 

phrase 

Die Subsumption zweier Merkmalsstrukturen wird demnach auf das Vorhandensein eines 

Homomorphismus und die im vorigen Abschnitt definierte Typensubsumption zurückgeführt. 

2.4 Beschreibungslogik 

An dieser Stelle angekommen könnte man nun versuchen, grammatische Prozesse und Phänomene 

durch typisierte Merkmalsstrukturen zu beschreiben. Es zeigt sich aber, daß Merkmalsstrukturen 

in mancher Ansicht zur adäquaten Beschreibung des Gegenstandsbereichs 

noch zu kurz greifen: 

1. Häufig tritt der Fall auf, daß Lexikoneinträge und phrasale Elemente hinsichtlich gewisser 

Merkmale wie beispielsweise Kasus unterspezifiziert, d.h. letztendlich disjunktiv spezifiziert 

sind. Dieser Disjunktion hinsichtlich der Merkmalswerte läßt sich ohne Erweiterung 

des formalen Apparats nur so begegnen, daß man sie auf die Gesamtstruktur überträgt, 

daß man also z.B. einer Wortform wie Haus mit Kasuswert Nominativ, Akkusativ 

oder Dativ statt einer Merkmalsstruktur drei verschiedene zuordnet, was natürlich dazu 

führt, daß gleichbleibende Merkmalswerte in unnötiger Weise dupliziert werden. Treten 

mehrere Disjunktionen an verschiedenen Fällen auf, so ergibt sich somit ein exponentielles 

Anwachsen der Zahl der Merkmalsstrukturen bei der Ausmultiplikation, was letztendlich 

zu schweren Verarbeitungsproblemen führt. 

29 

1 

sing


2. Die Möglichkeit, Merkmalswerte zu negieren, kann zur konzisen Beschreibung des Phänomenbereichs 

beitragen. Hierbei kann man zwei verschiedene Anwendungsbereiche 

unterscheiden (vgl. Carpenter (1992:111): 

• Abkürzende Negation: Eine Struktur [CASE: ¬gen] kann vor dem Hintergrund eines 

Typsystems - allerdings auf Kosten der Beschreibungskürze - durch eine endliche 

Disjunktion von Werten [CASE: nom ∨ acc ∨ dat] repräsentiert werden. Dieser abkürzende 

Gebrauch der Negation reduziert sich daher auf die Disjunktion. 

• Nicht-abkürzende Negation: Diese läßt sich nicht auf die beschriebene Weise reduzieren 

und wird dann verwendet, wenn ausgedrückt werden soll, daß zwei verschiedene 

Pfade in einer Struktur F in keiner Struktur F’, die F erweitert, reentrant, d.h. tokenidentisch 

werden können. 

Disjunktion und Negation können nun nicht ohne weiteres in den Formalismus der typisierten 

Merkmalsstrukturen integriert werden. Auf der anderen Seite waren diese Operationen 

von vornherein Bestandteil von Logiken wie der Aussagenlogik, so daß die Lösung für 

das oben beschriebene Integrationsproblem im Wechsel von der Ebene der Merkmalsstrukturen 

auf eine logische Ebene liegt. Hierzu haben Kasper und Rounds (1986) eine Beschreibungslogik 

für untypisierte Merkmalsstrukturen entwickelt; sie wird hier in der Version von 

Smolka (1992) wiedergegeben, die um Typen und Variablenbindungen erweitert worden ist. 

Die Formeln der Beschreibungslogik (auch Merkmalsterme bzw. feature terms genannt) bezüglich 

einer Menge Feat von Merkmalsnamen, einer Menge AtomType von atomaren Typen 

und einer Menge Var von Variablen sind gegeben durch die kleinste Menge Desc, die 

folgendes enthält: 

• > („Top“) 

• ? („Bottom“) 

• X (für alle X ∈ Var) 

• t für alle t ∈ AtomType 

• F : φ, wobei F ∈ Feat 

• ( φ ∧ ψ ) 

• ( φ ∨ ψ ) 

• X ≈ φ (X ∈ Var) 

• ¬ (φ) 

• π 1 = π 2 

• s(φ 1 ,..., φ n ) (für φ 1 ... φ n ∈ Desc, n ≥ 0) 

Bottom ? bezeichnet einen inkonsistenten Merkmalsterm, d.h. denotiert die leere Menge. 

Die Metasymbole φ und ψ bezeichnen Merkmalsterme, π1 und π2 sind Pfade aus Feat*. 

X ≈ φ repräsentiert die Bindung des Merkmalsterms φ an die Variable X; hiervon wird vor 

allen Dingen bei der Konstruktion von Normalformen (s.u.) Gebrauch gemacht. 

Teilformeln der Form π 1 = π 2 sind sog. Pfadgleichungen. Neben Variablen dienen sie dazu, 

reentrante Merkmalsstrukturen zu charakterisieren. 

Beispiel 2.4: 

F:a ∧ F = G hat in seinem Denotat beispielsweise 

folgende Merkmalsstruktur: 

30 

F: 1 a 

G: 1


Das Symbol s ist ein sog. Sortensymbol, welches durch Argumente parametrisiert werden 

kann. Sorten werden durch eine Menge von Sortenklauseln 

() ← 

eingeführt und können als Funktionen (doch s.u.) aufgefaßt werden, die in Abhängigkeit 

von ihren Parametern Merkmalsterme zurückgeben. Der eine Sorte s definierende Merkmalsterm 

T kann andere Sortensymbole oder auch direkt oder indirekt wiederum s enthalten; 

letzterer Typ von Sorte heißt auch rekursiv. Die Argumente einer Sortendefinition werden 

auch formale Parameter genannt. Die Verwendung einer Sorte in einem Merkmalsterm 

heißt auch Sortenaufruf, dessen Argumente werden aktuelle Parameter genannt. 

Zur Vereinfachung der in Abschnitt 2.4.2 beschriebenen Bildung von Normalformen werden 

noch folgenden Bedingungen für Sortendefinitionen festgelegt: 

a) Die formalen Parameter φ i einer Sortendefinition dürfen keine Disjunktionen enthalten. 

Dies ändert nichts an der Ausdrucksfähigkeit des Formalismus, da etwaige Disjunktionen 

durch alternative Klauseln einer Sortendefinition repräsentiert werden können. 

b) In den formalen Parametern vorkommende Variablen dürfen nicht negiert sein. 

c) Die φ i sowie der rechts von ← stehende Merkmalsterm sind selbst konsistent, d.h. denotieren 

nicht-leere Mengen (s.u.). 

Sorten werden nun in grammatischen Beschreibungen auf zweifache Weise eingesetzt: 

a) Nicht-rekursive Sorten spielen die Rolle der Templates von PATR-II (vgl. Shieber (1986a)), 

d.h. ein immer wiederkehrender Merkmalsterm T kann durch einen Funktionsaufruf 

einer Sorte s ersetzt werden, der genau zu T evaluiert. 

Beispiel 2.5: 

third_sing ← agr(3,sing) 

agr(Person,Number) ← SYN:HEAD:AGR:(PERSON:Person ∧ NUMBER:Number) 

lex(“kennt“) ← FORM:“kennt“ ∧ SYN:HEAD:CAT:verb ∧ third_sing 

b) Rekursive Sorten können dazu verwendet werden, Beziehungen in rekursiv spezifizierten 

Merkmalsstrukturen zu erfassen: 

Beispiel 2.6: 

append(elist, L) ← L 

append(HEAD:H ∧ TAIL:T, L) ← HEAD:H ∧ TAIL:append(T, L) 

Die Attribute HEAD und TAIL kodieren den Kopf bzw. Rest einer Liste. Beispielsweise wird 

die Liste [a,b,c] als HEAD:a ∧ TAIL:(HEAD:b ∧ TAIL:(HEAD:c ∧ TAIL:elist)) repräsentiert; elist 

steht dabei für die leere Liste. 

Sorten können darüber hinaus mit einer Typdeklaration der Form 

s(t1,...,tn) -> t 

versehen werden. Da die aktuellen und formalen Sortenparameter mit diesen Typen kompatibel 

sein müssen, können Typisierungsfehler frühzeitig schon während der Überset- 

zungsphase 

erkannt werden. 

31


Beispiel 2.7: 

Die oben beschriebene Sorte append/2 kann durch folgende Typdeklaration ergänzt werden: 

append(list, list) -> list 

Gibt man keine Typdeklaration an, so wird die Sorte implizit mit 

s(>,...,>) -> > 

typisiert. 

Sorten sehen wie Funktionen aus (sie werden daher in den folgenden Kapiteln auch immer 

wieder Funktionen genannt), sie sind aber Relationen, bei denen ein Argument, der Resultatparameter, 

besonders hervorgehoben ist. Sie sind keine Funktionen, da sie nichtdeterministisch 

sein können, also mehr als ein Ergebnis als „Funktionswert“ zurückgeben. 

2.4.1 Semantik von Merkmalstermen 

Eine Möglichkeit, Merkmalsterme zu interpretieren, sind sog. Merkmalsalgebren (engl. feature 

graph algebras): 

Eine (erweiterte) Merkmalsalgebra relativ zu einer Menge Feat von Merkmalen, einer Menge 

Type von Typen und einer Menge Sorts von Sortensymbolen ist ein Tripel , wobei 

D eine nicht-leere Menge und θ D eine totale Funktion der Form θ D : D � Type ist, die jedem 

Element aus D einen Typ zuweist. 

I, die Interpretationsfunktion, weist jedem Merkmal F aus Feat eine einstellige partielle 

Funktion I(F) 2 : D � D zu. Merkmale werden demnach als unäre Funktionen gesehen. Dar- 

über hinaus ordnet I jedem n-stelligen Sortensymbol s eine n+1-stellige Relation Rs zu; die 

letzte Argumentstelle dient zur Repräsentation des „Funktionsergebnisses“ einer Sorte. 

Setzt man nun D mit der Menge der typisierten Merkmalsstrukturen F gleich und fordert 

darüber hinaus, daß 

• F I (A) = A’ gdw. A@ F = A’ und 

• θ D (A) = θ(q0), falls A = 

gilt, so erhält man eine sog. Merkmalsgraphalgebra. Vor dem Hintergrund solcher Merkmalsgraphalgebren 

kann dann die Denonat einer Formel der Beschreibunglogik φ in Form einer 

Menge von Merkmalsgraphen (also Merkmalsstrukturen) angegeben werden. Für Einzelheiten 

dazu möchte ich auf Smolka (1992) und Carpenter (1992) verweisen. 

2.4.2 Normalformen 

Die von einem Merkmalsterm denotierte Menge kann, in Abhängigkeit von der gewählten 

Menge D, unendlich groß sein. Beispielsweise ist die von einem Typ list denotierte Menge 

unendlich und umfaßt alle Merkmalsgraphen, die entweder vom Typ elist (leere Liste) sind 

oder vom Typ nelist (nicht-leere Liste) mit den Merkmalen HEAD und TAIL. Damit stellt sich 

die Frage, wie man Mengen von Merkmalsgraphen auf endliche Weise charakterisiert (vgl. 

auch Johnson (1988, 1994)). Eine Möglichkeit hierzu ist natürlich der (endliche) Merkmalsterm 

selbst, wobei es zweckmäßig ist, ihn in eine Normalform, hier DNF, zu bringen, um 

festzustellen, ob er überhaupt eine nicht-leere Menge denotiert. Wenn dies der Fall ist, dann 

kann aus jedem Disjunkt der DNF direkt ein Merkmalsgraph in Matrixnotation abgelesen 

werden. 

2 I(F) wird im folgenden der Einfachheit halber als F I geschrieben. 

32


Dies leistet folgendes System von logischen Äquivalenzen (nach Carpenter (1992), adapiert 

an das verwendete aussagenlogische Typsystem und den Sortenmechanimus): 3 

1. Konnektive 

a) >∨ φ ≡ > >∧ φ ≡ φ 

b) ?∨ φ ≡ φ ? ∧ φ ≡ ? 

c) φ ∧ ψ ≡ ψ ∧ φ φ ∨ ψ ≡ ψ ∨ φ Kommutativität 

d) (φ ∧ ψ) ∧ ξ ≡ (φ ∧ ψ) ∧ ξ (φ ∨ ψ) ∨ ξ ≡ (φ ∨ ψ) ∨ ξ Assoziativität 

e) φ ∧ (ψ ∨ ξ) ≡ (φ ∧ ψ) ∨ (φ ∧ ξ) φ ∨ (ψ ∧ ξ) ≡ (φ ∨ ψ) ∧ (φ ∨ ξ) Distributivität 

f) φ ∧ φ ≡ φ φ ∨ φ ≡ φ Idempotenz 

g) (φ ∨ ψ) ∧ φ ≡ φ (φ ∧ ψ) ∨ φ ≡ φ Absorption 

h) ¬¬ φ ≡ φ Doppelte 

Negation 

i) ¬ (φ ∧ ψ) ≡ ¬ φ ∨ ¬ ψ ¬(φ ∨ ψ) ≡ ¬ φ ∧ ¬ ψ DeMorgan-Regeln 

j) ¬ (F : φ) ≡ ¬Domain(F) ∨ F :¬φ Merkmalsnegation 

Die unter 1a) - 1i) aufgeführten Äquivalenzen entsprechen denen der Aussagenlogik. 1j) regelt 

die Negation eines Merkmal-Wert-Paares. Da Merkmale partielle Funktionen denotieren, 

heißt ¬(F : φ), daß entweder F I auf den Objekten des Denotats dieser Formel nicht definiert 

ist, oder andernfalls zwar definiert ist, diese aber nicht in Objekte des Denotats von φ 

abbildet. Domain(F) ist der Typ, auf dem F und damit F I definiert ist. 

2. Pfadgleichungen 

a) 

b) 

π = π ≡ π = π 1 2 2 1 

π = π ∧ π = π ≡ 

1 2 2 3 

π = π ∧ π = π ∧ π = π 1 2 2 3 1 3 

Pfadsymmetrie 

Pfadtransitivität 

3. Pfad-Wert-Paare 

a) π 1 :(π 2 : φ) ≡ (π 1 π 2 ):φ ≡ π 1 π 2 :φ Pfadassoziativität 

b) π:? ≡ ? Inkonsistenz- 

propagierung 

c) π:φ ∧ π:ψ ≡ π:(φ ∧ ψ) π:φ ∨ π:ψ ≡ π:(φ ∨ ψ) Pfaddistributivität 

d) π:(π 1 = π 2 ) ≡ π:π 1 = π:π 2 

3b) sorgt für die Inkonsistenz eines Terms, der einen unter einem Pfad eingebetteten inkonsistenten 

Subterm enthält. 

4. Variablen 

a) π :X ∧ π :Y ∧ X ≈ Y ≡ 

1 2 

π :X ∧ π :Y ∧ π = π 1 2 1 2 

b) π :X ∧ π :X ≡ 

1 2 

π :X ∧ π = π 1 1 2 

c) π: X ∧ X ≈ φ ≡ π: (X ∧ φ) 

Eliminierung von 

Variablenbindungen 

Variablen-Pfad- 

Äquivalenz 

Eliminierung von VB 

d) X ≈ Y ≡ Y ≈ X Symmetrie von 


e) X ≈ Y ∧ Y ≈ Z ≡ 

Transitivität von 

X ≈ Y ∧ Y ≈ Z ∧ X ≈ Z 


3 φ, ψ, ξ bezeichnen beliebige Merkmalsterme; F, G ,... Merkmale; π, π1, π2 Pfade; X,Y, ... Variablen; 

t, t1, t2 ... Typen. 

33


f) X ≈ φ ∧ X ≈ ψ ≡ X ≈ (φ ∧ ψ) Konjunktion von 


g) X ≈ Y ∧ π: X ≡ X ≈ Y ∧ π: Y Substitution 

h) π: (X ≈ φ) ≡ π:> ∧ (X ≈ φ) Propagierung einer 

Variablenbindung 

Die Äquivalenzen 4a) bis 4c) zeigen, daß Variablenbindungen und das Vorkommen identischer 

Variablen zugunsten von Pfadgleichungen eliminiert werden können. 4h) zeigt, daß 

die Bindung einer Variablen an einen Merkmalsterm nicht von der Einbettungstiefe abhängt. 

Ein Beispiel soll einige der Äquivalenzen demonstrieren: 

Beispiel 2.8: 

Der Merkmalsterm F: X ∧ G:Y ∧ H: X ∧ X ≈ Y kann wie folgt transformiert werden: 

F: X ∧ G:Y ∧ X ≈ Y ∧ H: X ≡ (4a) 

F: X ∧ G:Y ∧ F = G ∧ H: X ≡ (4b) 

F: X ∧ G:Y ∧ F = G ∧ F = H ≡ (2a,b) 

F: X ∧ G:Y ∧ F = G ∧ F = H ∧ G = H 

5. Typen 

a) t1 ∧ t2 ≡ φ wobei 

φ = ? , falls t1 t t2 = ? 

φ = t1 , falls t1 t t2 ≠ ? und t2 v t1 

φ = t2 , falls t1 t t2 ≠ ? und t1 v t2 

φ = t1 ∧ t2, andernfalls 

5a) regelt die Umsetzung zweier Typen t1 und t2. Ist deren Unifikation definiert, so ist das 

Ergebnis t1 ∧ t2 , andernfalls ?. Subsumiert einer der Typen den jeweils anderen, so kann 

dieser Ausdruck auf den jeweils spezifischeren Typ reduziert werden. 

Beispiel 2.9: 

Vor dem Hintergrund des folgendes Typaxiomsystems 

affix ↔ prefix | suffix 

cat ↔ nominal | verbal 

gilt beispielsweise: 

affix ∧ suffix ≡ suffix 

suffix ∧ nominal ≡ suffix ∧ nominal 

prefix ∧ suffix ≡ ? 

34


6. Merkmalseinführung („Monofeatures“) 

a) F: φ ≡ t ∧ F :(φ ∧ t1) falls es ein Merkmalseinführungsaxiom 

t :: ... ∧ F : t1 ∧ ... gibt 

Die Äquivalenz 6a) regelt die Typisierung von Merkmalsstrukturen. Wird in einer Formel 

ein Merkmal F gebraucht, so wird zu dieser Formel derjenige Typ t konjugiert, dem dieses 

Merkmal angemessen ist. 6a) geht allerdings davon aus, daß jedes Merkmal von genau einem 

Typ eingeführt wird. Im Falle der oben erwähnten Polyfeatures muß die Äquivalenz 

folgendermaßen aussehen (vgl. auch König (1998)): 

6. Merkmalseinführung (allg. Fassung) 

a’) F : φ ≡ (t1 ∨ ... ∨ tn) ∧ F : φ ∧ 

(t1 → F : t1’) ∧ ... ∧ (tn → F : tn’ ) 4 

falls es Merkmalseinführungsaxiome 

t1 :: ... ∧ F : t1’ ∧ ... bis 

tn :: ... ∧ F : tn’ ∧ ... gibt 

Ein Merkmal F bewirkt demnach das Hinzufügen einer Disjunktion derjeniger Typen, die F 

einführen. In Abhängigkeit vom „zutreffenden“ Typ wird dann der Typ von F gemäß des 

Merkmalseinführungsaxioms festgelegt. 

Sortendefinitionen entsprechen in naheliegender Weise der Definition von Hornklauseln in 

Programmiersprachen wie Prolog, d.h. ein Sortenaufruf wird mit dem Kopf einer Sortendefinition 

in Übereinstimmung gebracht und dann durch den Rumpf der Definition ersetzt. 

Das Problem bei der Verwendung von Sorten ist, daß sich Bindungen von Merkmalstermen 

an die Variablen der formalen Sortenparametern auf den Merkmalsterm im Sortenrumpf 

auswirken können. Die Situation wird dadurch noch komplizierter, daß auch Bindungen 

über Variablen möglich sind, die in den aktuellen Parametern eines Sortenaufrufs und 

außerhalb davon vorkommen. 

Beispiel 2.10: 

Gegeben seien die folgenden Sortendefinitionen: 

s 1 (X ∧ G:b) ← X 

s 2 (F:a) ← G:b 

und die auszuwertenden Merkmalsterme: 

1. s 1 (F:a) 

2. X ∧ s 2 (X) 

Im Falle von 1. wird die Variable X an F:a ∧ G:b gebunden und im Rumpf substituiert, so daß 

der Term zu F:a ∧ G:b äquivalent ist. 

Bei 2. wird X durch den formalen Sortenparameter von s2 an F:a gebunden, so daß der Term 

zu F:a ∧ G:b evaluiert werden kann (s.u.). 

Die Sachlage wird auch noch dadurch komplexer, daß im Sortenaufruf Disjunktionen enthalten 

sein und Variablen in den formalen Sortenparametern und im Sortenrumpf mehrfach 

4 Die Implikationen können in der üblichen Weise eliminiert werden und dienen nur der größeren 

Anschaulichkeit. 

35


vorkommen können. Zudem ist die Bindung von Variablen an Terme nicht wie im herkömmlichen 

prädikatenlogischen Resolutionsverfahren (vgl. Chang/Lee (1973), Schöning 

(1989)) durch ihre feste Position innerhalb eines Terms festgelegt, sondern ergibt sich erst 

durch eine Normalisierung des Merkmalsterms. Dies soll im folgenden konkreter gemacht 

werden. 

7. Sorten 

a) s(φ 1 ,...,φ n ) ≡ 

(Eval(, s(ψ 1,1 ,..., ψ 1,n ) ← ψ 1 , s(t1,...,tn) -> t)) 

∨ .... ∨ 

(Eval(, s(ψ k,1 ,..., ψ k,n ) ← ψ k , s(t1,...,tn) -> t)) 

falls es Sortendefinitionen 

s(ψ 1,1 ,..., ψ 1,n ) ← ψ 1 bis 

s(ψ k,1 ,..., ψ k,n ) ← ψ k 

u. eine Typdeklaration für s 

s(t1,...,tn) -> t gibt 

Bevor die Funktion Eval genauer erläutert wird, benötigt man noch eine spezielle Version 

von disjunktiver Normalform, genannt VDNF, die es erlaubt, Variablenbindungen in den 

formalen Parametern einer Sortenklausel deutlich zu machen. Ein Merkmalsterm ist in 

VDNF, wenn er die Form φ 1 ∨ φ 2 ∨ ... ∨ φ k (k ≥ 1) hat und für jedes Disjunkt φ i (das aus einer 

Konjunktion von literalen Merkmalstermen (s.u.) besteht) gilt: 

• Es seien X 1 ... X m die Variablen unter den Konjunkten in φ i . 

Ist m > 0, dann hat φ i die Form [X 1 ∧ (φ i,1 ∧ ... ∧ φ i,l )] ∧ ... ∧ [X m ∧ (φ i,1 ∧ ... ∧ φ i,l )], andernfalls 

die Form φ i,1 ∧ ... ∧ φ i,l . Dies ist aufgrund der Assoziativität und Kommutativität von ∧ in 

jedem Falle möglich. 

• „Untergeordnete“ Konjunktionen sind aufgrund der Äquivalenz 3c) soweit wie möglich 

unter Pfade eingebettet. Beispielsweise wird F:a ∧ F:b zu F :(a ∧ b). 

• Terme der Form X ≈ φ wurden aufgrund der Äquivalenz 4c) beseitigt. 

Jedes maximale Konjunkt T der Form X ∧ (φ 1 ∧ ... ∧ φ l ) für l ≥ 1 (die φ i sind keine Variablen) 

heißt auch Variablenbindung für X bzgl. T. Ist l = 0, dann heißt die Variable ungebunden. Die 

Variablenbindung für X bzgl. eines Merkmalsterms ψ (=ψ 1 ∨ ... ∨ ψ k ) in VDNF, Bind(X, ψ), ist 

φ 1 ∨ ... ∨ φ m für alle Variablenbindungen X ∧ φ i in den ψ j (1 ≤ i ≤ k). Ist X ungebunden in ψ, 

dann ist Bind(X, ψ) = >. 

Schließlich ist die Variablenbindung für X bzgl. einer Menge S von Merkmalstermen in VDNF, 

formal BindS(X, S), die Konjunktion aller Bind(X,ψ) für ψ ∈ S. BindS wird gebraucht, um die 

Bindung einer Variablen X zu erfassen, die in mehr als einem formalen Parameter einer Sorte 

s vorkommt. 


Bind(X, (X ∧ F:a) ∨ (X ∧ G:b) ) = F:a ∨ G:b 

BindS(X, { (X ∧ F:a) ∨ (X ∧ G:b), X ∧ H:c } ) = ( F:a ∨ G:b ) ∧ H:c 

Es liegt auf der Hand, daß Variablenbindungen hier die gleiche Rolle wie die Variablensubstitution 

bei prädikatenlogischen Termen fester Stelligkeit spielen. 

Die Variablen in einer Sortendefinition s(ψ 1 ,...,ψ n ) ← ψ können in drei Gruppen eingeteilt 

werden: 

1. solche, die nur in ψ vorkommen 

2. solche, die nur in ψ 1 ,...,ψ n vorkommen 

3. solche, die in ψ und ψ 1 ,...,ψ n vorkommen 

36


Variablen der ersten Gruppe müssen bei der Auswertung eines Sortenaufrufs nicht besonders 

behandelt werden, solange sie nicht auch in dem Term auftreten, der den Sortenaufruf 

enthält; dem kann durch Variablenumbenennung begegnet werden. Die Variablen unter 2. 

können – wenn sie in mehr als einem der ψ i vorkommen –, zu Inkonsistenzen und damit 

einer Nichtanwendbarkeit einer Sortendefinition führen. Zusätzlich dazu müssen bei den 

Variablen unter 3. noch Substitutionen im Sortenrumpf durchgeführt werden. 

Es sei S eine Menge von Merkmalstermen. Vars(S) sei die Menge aller Variablen, die in den 

Termen in S vorkommen. 

Eval gibt einen Merkmalsterm zurück und ist wie folgt definiert: 

Algorithmus 2.1: Evaluation eines Sortenaufrufs 

Eingabe Die aktuellen Parameter φ ,...φ eines Sortenaufrufs, 

1 n 

eine Sortendefinition s(ψ ,..., ψ ) ← ψ und 

1 n 

eine Typdeklaration s(t1,...,tn) -> t 

Ausgabe Ein Mermalsterm 

Verfahren 1 

2 

function Eval(, s(ψ ,..., ψ ) ← ψ, -> t): Desc 

1 n 1 n 

begin 

3 

4 

Rename the variables in ψ ,...,ψ , ψ consistently 

1 n 

such that they have names which were never used before 

5 for i = 1 to n do begin 

6 

7 

8 end 

ϕ = VDNF(φ ∧ ψ ∧ ti) 

i i i 

if ϕ = ? then return(?) 

i 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

21 

end 

for all V ∈ Vars({ϕ 1 ,...,ϕ n }) do begin 

σ V = BindS(V,{ϕ 1 ,...,ϕ n }) 

if σ V = ? then return(?) 

if ψ contains V once then 

replace V in ψ by σ V 

else if ψ contains V more than once then 

replace the first occurence of V in ψ by V ∧ σ V 

if V ∈ Vars({φ 1 ,...φ n }) then 

let ψ = ψ ∧ V ≈ σ V 

end 

return(ψ) 

Algorithmus 2.1: Evaluierung eines Sortenaufrufs s(φ1,...φn) 

Die Schleife von 5-8 bildet die VDNF der Konjunktion von den korrespondierenden formalen 

und aktuellen Parametern mit dem für die jeweilige Argumentstelle gegebenen Typen. 

Resultiert daraus eine Inkonsistenz, so gibt Eval ebenfalls ? zurück, was die Nichtanwendbarkeit 

der gegebenen Sortendefinition signalisiert. Dies ist beispielsweise bei einem Sortenaufruf 

s(F:a) und einer Sortendefinition s(F:b) ← G:a der Fall, falls die Typen a und b nicht 

unifizierbar sind. 

In der Schleife von 10-18 wird dann für jede Variable V in den ϕ i deren Bindung σ V ermittelt. 

Erscheint V im Sortenrumpf ψ, so wird ihr erstes Auftreten durch σ V ersetzt; für die weiteren 

Vorkommen ist das nicht mehr nötig. Zusätzlich wird an das Ergebnis für jede Variable, die 

in den aktuellen Parametern ϕ i vorkam, ein Ausdruck der Form V ≈ σ V hinzugefügt, um 

Bindungen dieser Variablen in den den Sortenaufruf enthaltenden Term zu „tragen“, was im 

folgenden Beispiel noch einmal demonstriert werden soll: 

37



Gegeben seien die folgenden Sortendefinitionen s(F:a) ← G:b und der auszuwertende Merkmalsterm 

H:X ∧ s(X). Die Typisierung der Sorte s sei hier vernachlässigt. 

Ausgewertet wird: Eval(s(X), s(F:a) ← G:b , ... ) 

Variablenbindung für X: σ X = F:a 

Ergebnis von Eval: G:b ∧ X ≈ F:a, d.h. der Gesamtterm ist: H:X ∧ G:b ∧ X ≈ F:a 

Dies kann mit 4c) vereinfacht werden zu: H:(X ∧ F:a) ∧ G:b 

Man sieht daran, daß X ≈ φ nicht äquivalent zu X ∧ φ ist. Wäre dies der Fall, dann wäre das 

Ergebnis in Beispiel 2.12 gleich H:X ∧ G:b ∧ X ∧ F:a, ein zyklischer Term. 

Anstelle eines formalen Beweises, der wiederum außerhalb des Rahmens einer solchen 

Übersicht liegt, sollen nochmals die vier Basisfälle beim Sortenaufruf charakterisiert weren5 

d : 

SortenSorten- Resultat von 

Kommentar 

definitionaufruf Eval 

1. s(a) ← ψ s(a) ψ Die formalen Parameter und der Aufruf der 

Sorte enthalten keine Variablen 

⇒ der Aufruf wird literal durch den 

Sortenrumpf ersetzt 

2. s(a) ← ψ s(X) ψ ∧ X ≈ a Die formalen Parameter enthalten keine 

Variablen, anders als der Aufruf der Sorte. 

⇒ der Aufruf wird literal durch den Sortenrumpf 

ersetzt, hinzu tritt aber noch eine Aufzeichnung 

der Bindung von X, da X außerhalb 

des Sortenaufrufs auftreten kann. 

3. s(X) ← ψ[X] s(a) ψ[X/a] Eine Variable X aus einem formalen 

bzw. Parameter kommt im Rumpf der 

ψ[X/X ∧ a] Sortendefinition ein- oder mehrfach vor. Der 

aktuelle Parameter enthält keine Variable. 

⇒ Je nachdem ob X in ψ einfach oder mehrfach 

vorkommt, wird es durch a bzw. X ∧ a 

ersetzt. 

4. s(X) ← ψ[X] s(Y) ψ[X/Y] ∧ Y ≈ X Variablen kommen sowohl in den formalen 

bzw. als auch aktuellen Parametern vor. 

ψ[X/X∧Y] ∧ Y≈X ⇒ Je nachdem ob X in ψ einfach oder mehrfach 

vorkommt, wird es durch Y bzw. 

X ∧ Y ersetzt. 

Tabelle 2.1: Basisfälle bei der Verwendung einer Sorte 

5 ψ[X] bedeutet, daß X in ψ vorkommt. 

38


Das nächste Beispiel demonstriert nochmals die Fälle 2 und 4 von Algorithmus 2.1. 

Beispiel 2.13 

Der Sortenaufruf append(HEAD:a ∧ TAIL:elist, HEAD:b ∧ TAIL:elist) soll in DNF gebracht werden. 

Die Definition der Sorte append/2 sei hier nochmals wiedergegeben: 

append(elist, L) ← L 

append(HEAD:H ∧ TAIL:R, L) ← HEAD:H ∧ TAIL: append(R, L) 

Als Typdeklaration für append/2 wird angenommen: 

append(list,list) -> list (=T append ) 

append(HEAD:a ∧ TAIL:elist, HEAD:b ∧ TAIL:elist) ≡ 

(Eval(, append(elist, L) ← L, T append ) ∨ 

(Eval(, 

append(HEAD:H ∧ TAIL:R, L) ← HEAD:H ∧ TAIL: append(R, L), T append ) ≡ 

(wegen Inkonsistenz des ersten Disjunkts und 1b) 

Eval( , 

append(HEAD:H ∧ TAIL:R,L) ← HEAD:H ∧ TAIL: append(R, L), T append ) 

Die Normalisierung der Sortenargumente (Zeilen 5-8 von Algorithmus 2.1) liefert: 

ϕ 1 = nelist ∧ HEAD:(H ∧ a) ∧ TAIL:(R ∧ elist) 

ϕ 2 = L ∧ nelist ∧ HEAD:b ∧ TAIL: elist 

Die Variablenbindungen von σ H , σ R und σ L sind: 

σ H = a 

σ R = elist 

σ L = L ∧ nelist ∧ HEAD:b ∧ TAIL: elist 

Die Substitution im Sortenrumpf liefert: 

HEAD:a ∧ TAIL: append(elist, nelist ∧ HEAD:b ∧ TAIL: elist) 

Durch Anwendung von Eval auf den neuen Sortenaufruf ergibt sich daraus: 

HEAD:a ∧ TAIL:(HEAD:b ∧ TAIL:elist) 

Hieraus läßt sich folgende Merkmalsstruktur konstruieren: 

HEAD: a 

HEAD: b 

TAIL: TAIL: 

nelist 

nelist 

39 

elist


8. Totale Typisierung 

a) t ≡ t ∧ F 1 : t1 ∧ F 2 : t2 ∧ ... ∧ F n : tn falls es ein Merkmalseinführungsaxiom 

t :: F 1 :t1 ∧ F 2 :t2 ∧ ... ∧ F n :tn 

gibt 

Die unter 8. aufgeführte Äquivalenz entspricht dem Begriff der totalen Typisierung von Carpenter 

(1992); sobald also eine Formel einen Typ t enthält, werden alle Merkmale, die diesem 

Typ angemessen sind, hinzugefügt. Allerdings können Merkmalsterme vor dem Hintergrund 

einer Menge von Typaxiomen mit sog. appropriateness loops im Sinne von Carpenter 

(1992:98f) nicht total typisiert werden; solche liegen vor, wenn einem Typ t direkt oder indirekt 

ein Merkmal angemessen ist, das als Werterestriktion wiederum t aufweist, also beispielsweise 

t :: F : t. 

Hier würde ein Typisierungsalgorithmus, der 8. verwendet, in eine Endlosschleife geraten. 

Nicht jedes rekursive Typsystem führt allerdings zu diesen Problemen. Betrachtet man folgendes 

Typsystem für den Typ list: 

list ↔ elist | nelist 

nelist :: HEAD:> ∧ TAIL: list 

so sieht man, daß sich jede Formel, die die Merkmale HEAD bzw. TAIL enthält, total typisieren 

läßt. 


Der Merkmalsterm HEAD:a kann durch 6a) und 8a) wie folgt transformiert werden: 

HEAD:a ≡ 

HEAD:a ∧ nelist ≡ 

HEAD:a ∧ TAIL: list ∧ nelist 

Darüber hinaus kann noch eine weitere Transformation auf einen Merkmalsterm φ angewandt 

werden. Kommt eine Variable V in φ nur einmal vor, dann kann sie durch > ersetzt 

werden. Hierzu muß allerdings der Merkmalsterm in seiner Ganzheit betrachtet werden. > 

kann anschließend durch die Transformationen unter 1a) eliminiert werden. 

Ähnliches gilt für Variablenbindungen der Form X ≈ ψ. Kommt die Variable X nochmals 

(außerhalb einer anderen Variablenbindung) in einem Term φ vor, dann kann X ≈ ψ mittels 

4c) und 4h) eliminiert werden; tritt X nicht in φ auf, kann die Bindung auch entfernt werden. 


X ∧ HEAD:a ∧ TAIL: list ≡ > ∧ HEAD:a ∧ TAIL: list ≡ HEAD:a ∧ TAIL: list 

Es folgen noch einige Definitionen für später verwendete Begriffe: 

Definition 2.1: Normalisierter konjunktiver Merkmalsterm 

Ein normalisierter konjunktiver Merkmalsterm φ besteht aus einer Konjunktion von Literalen mit 

den folgenden Eigenschaften: 

• Literale sind Variablen, Typen, Pfad-Typ-Paare, Pfad-Variable-Paare und Pfadgleichungen. 

• Negationen sind so weit wie möglich unter Pfade eingebettet, d.h. sie stehen vor einzelnen 

Typen bzw. Variablen. Dies ist mit Hilfe von 1j) möglich. 

40


• φ und jeder seiner Subterme enthält ein Konjunkt mit dem Typ des (Sub)terms. 

• Einzeln vorkommende Variablen und Variablenbindungen wurden eliminiert. 

Aus derartigen Merkmalstermen kann auf einfache Weise eine Merkmalsstruktur M konstruiert 

werden: Pfad-Typ-Paare entsprechen den Pfaden von M, Pfad-Variable-Paare und 

Pfadgleichungen den Koreferenzen in M, Typen den Typen der Substrukturen. 

Definition 2.2: typenmaximaler Merkmalsterm 

Ein typenmaximaler Merkmalsterm φ ist ein normalisierter konjunktiver Merkmalsterm, für den 

zusätzlich gilt: Jeder in φ vorkommender Typ t ist maximal, d.h. hat selber keine Subtypen 

mehr. 


Vor dem Hintergrund der in Kapitel 5 verwendeten Typenhierarchie ist 

φ = SYN: (syntax ∧ HEAD: (noun ∧ CASE: case)) 

ein normaliserter konjunktiver Merkmalsterm. 

φ ist jedoch nicht typenmaximal, da case noch die Subtypen nom, acc, gen und dat aufweist. 

Typenmaximalität hat demnach etwas mit vollständiger Spezifikation einer Merkmalsstruktur 

zu tun. Dem Merkmalsterm φ in Beispiel 2.15 „fehlt“ noch ein Wert für Kasus. 

2.5 Phrasenstrukturregeln 

Merkmalsterme können aufgrund des Sortenmechanismus dazu verwendet werden, kontextfreie 

Phrasenstrukturregeln zu repräsentieren. Hierbei sind zwei generelle Vorgehensweisen 

möglich: 

a) Die Nichtterminalsymbole der kontextfreien Grammatik werden als Typen repräsentiert. 

b) Die Nichtterminalsymbole werden zu Sorten. 

Eine kontextfreie Regel X → Y1 Y2 ... Yk kann nach der ersten Möglichkeit wie folgt ausgedrückt 

werden: 

category ↔ x | y1 | y2 | ... | yk 

cat(append(S 1 , append(S 2 , ... append(S k ) ... )) ← 

x ∧ 

true(cat(S 1 ) ∧ y1 ) ∧ 

true(cat(S 2 ) ∧ y2 ) ∧ 

... ∧ 

true(cat(S k ) ∧ yk ) 

Lexikalische Einsetzungsregeln X→ w werden zu: 

cat([w]) ← x 

Die Sorte cat/1 ist eine Funktion cat: list � category, die eine Kette s auf ihre Kategorie C 

abbildet, falls C ⇒* s bezüglich der gegebenen Grammatik G gilt. 

Die Sorte true/1 ist wie folgt definiert: 

true(>) ← > 

41


d.h. true/1 ist eine konstante Funktion, die als Funktionswert die allgemeinste Beschreibung 

> (top) zurückliefert; ihr eigentlicher Zweck besteht darin, die Konsistenz ihres Funktionsarguments 

zu prüfen. 


Die Anfrage 

true(append(L1,L2) ∧ [a,b,c]) ∧ [L1,L2] 

ergibt alle Listen, die aus zwei Listen bestehen, deren Verkettung gerade [a,b,c] ergibt. Ohne 

die Verwendung von true/1 wäre dieser Term inkonsistent, da die Konjunktion von [a,b,c] 

und [L1,L2] inkonsistent ist. 

Das folgende Beispiel zeigt, wie eine kontextfreie Grammatik mit Hilfe von true/1 umgesetzt 

werden kann: 


Eine kontextfreie Grammatik G= 

wird zu 6 

category ↔ s | np | vp | v 

cat(append(L1, L2)) ← s ∧ true(cat(L1) ∧ np) ∧ true(cat(L2) ∧ vp) 

cat(append(L1, L2)) ← vp ∧ true(cat(L1) ∧ v) ∧ true(cat(L2) ∧ np) 

cat([“Hans“]) ← np 

cat([“Maria“]) ← np 

cat([“kennt“]) ← v 

Man kann auf die Verwendung von true/1 auch verzichten, wenn category ein Merkmal 

einführt, das die von der betreffenden Kategorie dominierten Teilbäume enthält. 


category ↔ s | np | vp | v 

category :: STRUCTURE: list 

cat(append(L1, L2)) ← 

s ∧ 

STRUCTURE: [np ∧ cat(L1), vp ∧ cat(L2)] 

6 Im folgenden wird die Prolog-Schreibweise für Listen verwendet, d.h. [] steht für elist und eine 

nicht-leere Liste nelist ∧ HEAD:H ∧ TAIL:T wird als [H|T] notiert. 

42


Der zweite Weg macht aus jedem Nichtterminalsymbol N der Grammatik ein einstelliges 

Sortensymbol: 

n(append(S 1 , append(S 2 , ... append(S k ) ... )) ← 

y1(S 1 ) ∧ 

y2(S 2 ) ∧ 

... ∧ 

yk(S k ) 

Lexikalische Einsetzungsregeln der Form N → w werden zu: 

n([w]) ← > 


Die Grammatik des vorangegangenen Beispiels wird dann wie folgt umgesetzt: 

s(append(L1, L2)) ← np(L1) ∧ vp(L2) 

vp(append(L1, L2)) ← v(L1) ∧ np(L2) 

np([“Hans“]) ← > 

np([“Maria“]) ← > 

v([“kennt“]) ← > 

Diese beiden Verfahren sind ohne weiteres verallgemeinerbar auf nichtatomare Nichtterminalsymbole, 

d.h. grammatische Kategorien in Form von Merkmalsstrukturen, die als Merkmalsterme 

repräsentiert werden. Ebenso kann das aufwendige append/2 durch effizientere 

Differenzlisten ersetzt werden. Hiervon wird im Kapitel 5 über die morphologische Grammatik 

Gebrauch gemacht. 

Regeln in merkmalsbasierten Grammatiken beziehen sich üblicherweise nicht nur auf die 

Verkettung von Zeichenketten, sondern instantiieren grammatische Kategorien, bauen 

Strukturen auf usw. Man kann sie daher in zwei Teile zergliedern: einen Teil, der die Verkettung 

der Teilstrings regelt und einen, der weitere Bedingungen für die diesen Teilstrings 

zugeordneten Strukturen spezifiziert: 

X → Y 1 Y 2 ... Y k : conditions(X, Y 1 ,Y 2 , ..., Y k ) 

Dies sei äquivalent zu: 

cat(P 0 ,P k ) ← 

x ∧ X ∧ 

true(cat(P 0 ,P 1 ) ∧ y1 ∧ Y 1 ) ∧ 

true(cat(P 1 ,P 2 ) ∧ y2 ∧ Y 2 ) ∧ 

... ∧ 

true(cat(P k-1 ,P k ) ∧ yk ∧ Y k ) ∧ 

conditions(X, Y 1 ,Y 2 , ..., Y k ) 

Beide Notationen werden in Kapitel 4 und 5 verwendet. 

43

Kapitel 3: Wortsyntax und Wortsemantik des Deutschen 

3 Wortsyntax und Wortsemantik des Deutschen 

Kapitel 3 faßt wesentliche theoretische Vorarbeiten aus den Bereichen Wortsyntax und 

Wortsemantik zusammen und beurteilt sie nach ihrer Brauchbarkeit für ein Analysemodell. 

Das Kapitel gliedert sich zunächst in die Gebiete Wortsyntax und Wortsemantik, wobei ersteres 

der traditionellen Aufteilung der Morphologie in die Bereiche Derivation und Komposition 

folgt. Ich möchte Flexion noch dazu nehmen, auch wenn dies inhaltlich ein anderer 

Prozeß ist. Die vorgeschlagene Aufgliederung ist nicht immer glücklich, gerade in Anbetracht 

von vereinheitlichenden Theorien wie die von Fanselow (1985) und Höhle (1982), hilft 

aber dennoch, etwas Struktur in den Komplex Morphologie im weiteren Sinne hereinzubringen. 

3.1 Wortsyntax 

Der Begriff Wortsyntax impliziert, daß man Wörter nicht als unanalysierte Einheiten auffaßt, 

sondern ihnen auf systematische Weise eine Struktur zuweist, die sowohl für ihre syntaktischen 

wie auch semantischen Eigenschaften ausschlaggebend ist. 

Wortsyntax in dem Sinne, daß man zusammengesetzte Wörter als strukturiert auffaßt, wird 

von der traditionellen Grammatik nur auf durch Komposition entstandene Wörter angewandt. 

Es ist jedoch in Anbetracht neuerer generativer Theorien sinnvoll, diesen Begriff 

auch auf die Bereiche der Flexion und Derivation auszudehnen. 

3.1.1 Flexion 

Unter Flexion soll hier – in Anlehnung an Gallmann (1994) – die Bereitstellung von Wortformen 

mit bestimmten Merkmalen verstanden werden. Diese „Definition“ ist nicht exakt 

und muß noch weiter präzisiert werden. Wortformen (grammatische Wörter in der Terminologie 

von Di Sciullo/Williams (1987)) sind Elemente einer aus drei Komponenten aufgebauten 

Relation L = �* � SYN-FEATURES � SEM. Die erste Komponente ist durch die Laut- 

bzw. Graphemkette (Signifiant-Merkmal) der Wortform gegeben, während die zweite bzw. 

dritte aus den grammatischen bzw. semantischen Merkmalen der Form (Signifié-Merkmalen) 

besteht. 

Beispiel 3.1: 

Die Wortform lachst ist durch folgendes Tupel gegeben: 

. 

Für die Graphemkette lachen gibt es hingegen drei Elemente in dieser Relation: 

, 

und 

. 

Wortformen dürfen daher nicht mit Laut- bzw. Graphemketten verwechselt werden. 

Die Teilrelation L mit festgelegter dritter Komponente wird auch als Lemma, Lexem oder Wort 

bezeichnet. Eine Funktion lemma ordnet einer Zeichenkette Z das Lemma von Z zu. Z heißt 

auch Zitier- oder Nennform und benennt das Lemma. Als Nennform kann selbstverständlich 

jeder beliebige Name gewählt werden; aus konventionellen Gründen verwendet man hierzu 

jedoch bestimmte, möglichst unmarkierte Wortformen aus dem Lemma, beispielsweise die 

Form Nominativ Singular bei Nomen oder die Infinitivform (bzw. den Stamm) bei Verben. 

44


Beispiel 3.2: 

Das Lemma der Zitierform lachen (lemma(‘lachen’)) ist die Menge der Wortformen 

L = { , 

... }. 

Möchte man Lemmata nicht lediglich extensional – also durch Aufzählung der Elemente – , 

sondern nicht-extensional charakterisieren, so benötigt man ein Kriterium, welches die Zugehörigkeit 

einer Wortform zu einem bestimmten Lemma festlegt. Traditionell wird hierfür 

die Bedeutung einer Wortform herangezogen: ein Lemma besteht demzufolge aus der Menge 

der Wortformen mit gleicher Bedeutung. Dieses Kriterium ist allerdings aus einer Reihe von 

Gründen nicht ausreichend, um Lemmata korrekt zu charakterisieren, z.B.: 

� die Formen lacht und lachte möchte man intuitiv im Lemma von lachen wissen, obwohl 

zwischen ihnen ein Bedeutungsunterschied besteht 

� es ist durchaus möglich, daß zwei Wortformen – im Fall von Synonymie – die gleiche 

Bedeutung zukommt, sie aber dennoch zu verschiedenen Lemmata gezählt werden sollten, 

z.B. Formen von rennen und laufen 

Das Zugehörigkeitskriterium muß also zugleich restriktiver – durch Angabe von gemeinsamen 

Signifiant-Merkmalen, beispielsweise eines gemeinsamen Stammes – als auch schwächer 

– durch Abschwächung von Bedeutungsgleichheit zu Bedeutungsähnlichkeit – gefaßt 

werden. 

Strukturiert man ein Lemma nach den Merkmalen, die in der zweiten Komponente der Relation 

L vorkommen, so erhält man ein Paradigma. Ein Paradigma ist nach traditioneller Auffassung 

eine mehrdimensionale Tabelle, deren Dimensionen durch die Anzahl verschiedener 

Kategorien wie Person, Numerus etc. gegeben sind. Ich möchte die Begriffe Lemma und 

Paradigma auseinanderhalten, da Paradigmen im Gegensatz zu Lemmata strukturiert sind: 

sie legen fest, welche Merkmale zur Unterscheidung von Wortformen herangezogen werden 

und definieren hierdurch die tabellenartige Struktur, die auch Paradigmenlücken, Nichtexistenz 

von Wortformen mit bestimmten Merkmalen, sichtbar macht. Während die SYN- 

FEATURES-Komponente einer Wortform noch weitere, nicht-distinktive Merkmale enthalten 

kann (z.B. Subkategorisierungsanforderungen), enthält die Tabelle des Paradigmas nur 

distinktive, d.h. dimensionsbildende Merkmale. 

Die Frage ist nun, welche Flexionskategorien man benötigt, um alle Wortformen, die man 

intuitiv in einem Paradigma vereinigen möchte, zu charakterisieren. 

Ich nehme, wiederum Gallmann teilweise (1994: Kap. 2.5) folgend, Merkmalskategorien an, 

die sich in zwei Gruppen unterteilen lassen: 

1. Morphosyntaktische Merkmale 

2. Wortartmerkmale 

Zu den morphosyntaktischen Merkmalen zählen u.a. Person, Numerus, Genus und Kasus. 

Die Wortart zählt zu den Flexionskategorien, da sich Flexion in Änderungen der Wortart 

bemerkbar machen kann, z.B. bei 

� Nominalisierungen: lachen – (das) Lachen 

� Substantivischer Verwendung von Adjektiven: der lachende Dritte 

Der Begriff Bereitstellung in obiger Definition von Flexion läßt offen, ob die Wortformen 

durch morphologische Aktivität entstehen oder durch einfaches Auslesen aus dem Lexikon 

gewonnen werden. Während man ersteres für regelmäßig gebildete Formen annehmen darf, 

45


dürfte letzteres für unregelmäßige bzw. suppletive Formen (z.B. die Flexionsformen von 

sein) der Fall sein. 

Gallmann (1994) führt noch die Gruppe der Selektionsmerkmale auf; diese scheinen mir jedoch 

im Deutschen nicht distinktiv zu sein. Gallmann führt als Beispiele Phänomene auf, die 

man besser syntaktisch erklärt, beispielsweise die Verwendung des Partizips II im Aktiv 

und im Passiv: 

(1) 

a) Der Mann hat die Frau geliebt. 

b) Die Frau wurde geliebt 

Gallmann verwendet Selektionsmerkmale, um diese beiden Verwendungsweisen zu unterscheiden 

und setzt somit für Partizipien wie geliebt zwei Wortformen an. Die systematische 

Homonymie beider Formen deutet m.E. jedoch auf einen Unterschied in der syntaktischen 

Verwendung einer einzigen Wortform geliebt hin, den man beispielsweise durch unterschiedliche 

Subkategorisierungseigenschaften der Hilfsverben haben und werden erklären 

kann, wie dies beispielsweise Heinz/Matiasek (1994) tun. 

3.1.1.1 Modelle der Flexion 

Hockett (1954) klassifizierte linguistische Modelle der Morphologie (er bezog sich aber auch 

auf die phrasale Syntax) in drei Gruppen: 

� Item-and-Arrangement-Modelle 

� Item-and-Process-Modelle 

� Word-and-Paradigm-Modelle 

Da der in Kapitel 4 und 5 beschriebene Ansatz – wie auch die meisten computerlinguistischen 

Modelle der morphologischen Analyse – der Item-and-Arrangement-Konzeption verhaftet 

sind, möchte ich hier nur auf diesen Typ näher eingehen. Der nächste Abschnitt wird 

allerdings ein interessantes Modell vorstellen, welches Eigenschaften der beiden anderen 

Modelle in sich vereinigt. 

Item-and-Arrangement-Modelle (z.B. Selkirk (1982)) fassen die grammatischen und semantischen 

Eigenschaften von komplexen Wörtern als Funktion der Anordnung und der Eigenschaften 

der nicht weiter zerlegbaren, morphematischen Grundbausteine auf. Dies führt im 

allgemeinen zur Zuweisung von Konstituentenstrukturen an zusammengesetzte (grammatische) 

Wörter, z.B.: 

(2) 

a) 

stamm affix 

frag st 

b) 

46 

stamm affix affix 

frag t est 

Die Konstituentenstrukturen implizieren die Angabe eines expliziten oder impliziten Regelsystems, 

mit denen sie erzeugt werden können. Explizite Regelsysteme sind von einer Reihe 

von Autoren vorgeschlagen worden; der für die Flexion relevante Teil der Version von Di 

Sciullo/Williams (1987:23) ist hier wiedergegeben:

(3) 


stem � stem af 

stem � af stem 

word � stem 

Regeln dieser Art sind – wie ihre Pendants aus der Satzsyntax – i.a. dem sog. Binaritätsprinzip 

verpflichtet, d.h. die rechten Seiten der Regeln enthalten höchstens zwei Kategorien. 

Im Versuch der weiteren Angleichung von phrasensyntaktischen und morphologischen 

Strukturen nimmt man weiterhin an, daß jede morphologische (Sub)Konstituente eine ausgezeichnete 

Tochter besitzt, die die wesentlichen Eigenschaften der Konstituente besitzt und 

daher Kopf der Konstituente genannt wird. Die merkmalsmäßige Übereinstimmung von einer 

Konstituente mit ihrem Kopf kann dann mit Hilfe einer Merkmalsperkolationskonvention 

(z.B. der Head Feature Convention der GPSG, Gazdar et al. (1985)) ausgedrückt werden. 

Während sich Auffassung der Köpfigkeit von Strukturen in der Satzsyntax noch relativ 

leicht nachvollziehen läßt, ist dies für morphologische Strukturen nicht ohne weiteres offensichtlich. 

Welcher Bestandteil von (2a) ist der Kopf? Für die Wahl des Stamms (frag-) spricht, 

daß das Gesamtwort ein Verb ist und auch seine semantischen Eigenschaften (u.a. den Argumentrahmen) 

augenscheinlich vom Stamm erbt. Für das Affix -st spricht, daß es anscheinend 

die morphosyntaktischen Merkmale Person und Numerus trägt, denen man in der 

Phrasensyntax sogar den Status von Satzköpfen (INFL etc.) einräumt. Offenkundig tragen 

Stamm und Affix gleichermaßen zu den syntaktischen und semantischen Eigenschaften des 

komplexen Wortes bei. Dies gilt auch beispielsweise in (2b), wenn man annimmt, daß -t- der 

Träger des Tempusmerkmals ist. 

Möchte man nun an der Köpfigkeit von flektierten Wörtern festhalten – aus größtenteils 

theorieinternen Gründen, wie ich meine – so bleibt einem nichts anderes übrig, als Köpfe 

einfach positionell festzumachen, wie dies u.a. Williams (1981:248) vorschlägt: 

(4) 

Righthand Head Rule (RHR): 

In morphology, we define the head of a morphologically complex word to be the righthand 

member of the word. 

Diese Regel ist nun kein grammatisches Prinzip, sondern eine empirische Generalisierung, 

die zumindest für die indoeuropäischen Sprachen zutrifft (vgl. jedoch Scalise (1988), der 

Gegenbeispiele im Italienischen beibringt). Trotz dieser positionellen Festlegung des Wortkopfes 

ist damit noch nicht das oben diskutierte Problem aus der Welt geschafft, daß verschiedene 

Morpheme Unterschiedliches zu den Gesamteigenschaften des Wortes beisteuern. 

Anhänger der Wortkonstituentenstrukturtheorie tragen dem durch Definition von komplexeren 

Merkmalsperkolationsbedingungen Rechnung, z.B. Selkirk (1982: 76): 

(5) 

a) If a head has a feature specification [�Fi], � � u, its mother node must be specified [�Fi], 

and vice versa. 

b) If a non-head has a feature specification [�Fj], and the head has the feature specification 

[uFj], then the mother node must have the feature specification [�Fj]. 

47


(‘[uF]’ bedeutet ‘unmarkiert für Merkmal F’). Diese Bedingungen, die im übrigen bei Di 

Sciullo/Williams (1987) unter der Bezeichnung relativized head 1 firmieren, besagen, daß sich 

Merkmale von Nichtköpfen nach oben vererben können, solange der Kopf nichts anderes 

über diese Merkmale aussagt, was sich technisch durch sog. Default-Unifikation realisieren 

läßt. In (2b) ist also z.B. der Stamm der KopfArgumentstruktur und der KopfKategorie, das Tempusaffix 

-t- der KopfTempus und das äußerste Flexionsaffix der KopfPerson/Numerus. 

Allerdings entleert man hierdurch natürlich den Begriff Kopf seines Sinngehalts, da zu fragen 

ist, welche Beschränkungen das Kopf-Prinzip den Wörtern überhaupt noch auferlegt. 

Zudem wird rein kontextuell und nicht intrinsisch, d.h. im Lexikon festgelegt, was ein Kopf 

in bezug auf ein bestimmtes Merkmal F ist. 

Akzeptiert man jedoch dieses Prinzip, so kann man, wie auch in der Phrasensyntax, die 

Phrasenstrukturkomponente prinzipiell eliminieren und durch Subkategorisierungsanforderungen 

der Köpfe ersetzen (vgl. z.B. Lieber (1980), Gallmann (1990)). Köpfe legen nun fest, 

welche Nicht-Köpfe zu ihnen hinzutreten können und welche Eigenschaften diese Nicht- 

Köpfe aufweisen müssen. Dies ist attraktiv, da eine gewisse Redundanz in Wortstrukturregeln 

und unabhängig davon notwendigen Kombinationsrestriktionen beseitigt wird, was zu 

einem theoretisch einfacheren Beschreibungsapparat und einer weitgehenden Lexikalisierung 

von Flexion (und Derivation) führt. 

Die Einführung des Kopfbegriffs in die Flexionsmorphologie ist nun – wie schon gesagt – 

nicht unproblematisch, insbesondere dann, wenn man die Flexionsstrukturregeln nicht als 

einen unabhängig vorhandenen Mechanismus betrachtet und ihn – wie skizziert - durch 

Subkategorisierungsanforderungen der Köpfe ersetzt. 

Zum ersten führt dies zu einem äußerst liberalen Begriff von Argument, oder wie auch immer 

man die Nicht-Köpfe auf der Wortebene nennen möchte. Man muß dann alle morphologischen 

Beziehungen als Beziehungen zwischen Kopf und Nicht-Kopf abbilden, was zu 

einigen Ungereimtheiten führt. Wie sollen beispielsweise semantische leere Morpheme behandelt 

werden, wie z.B. das Partizip-II-Präfix ge-? Als Kopf wird man es kaum ansehen 

können, folglich muß es etwas Subkategorisiertes sein, also ein „Argument“ oder ein Modifikator. 

Beide Alternativen sind jedoch nicht zufriedenstellend, da der Beitrag dieses Präfixes 

eben kein semantischer oder syntaktischer, sondern ein phonetischer ist. Das Problem stellt 

sich im übrigen auch bei der Komposition in bezug auf die sog. Fugenelemente. 

Diese Problemfälle können durch allgemeine kontextfreie Wortstrukturregeln vermieden 

werden, da hier die Beziehungen zwischen Schwesterkonstituenten nicht unbedingt durch 

weitere grammatische Grundprinzipien festgelegt werden und so eine größere deskriptive 

Adäquatheit erreicht werden kann. 

Die zweite Schwierigkeit ergibt sich daraus, daß sich, wie oben bereits zur Sprache kam, der 

starke Kopfbegriff der Syntax wohl nicht halten läßt. Relativierte Köpfe führen zu verhältnismäßig 

komplizierten Beziehungen zwischen den Wortbestandteilen. Beispielsweise wäre 

in der Wortform fragtest der Stamm frag- der KopfArgumentstruktur, -t- der KopfTempus und -est der 

KopfPerson/Numerus. Welche Elemente subkategorisieren nun welche anderen? Daß -t- den 

Stamm subkategorisiert, erscheint mir unplausibel, wird aber von einigen Autoren, auch 

solchen aus dem Bereich der Computerlinguistik, beispielsweise Trost (1991) angenommen. 

Ein dritter Punkt betrifft leere Köpfe, die zur Wahrung der Einheitlichkeit des ganzen Ansatzes 

notwendig zu sein scheinen. Es stellt sich z.B. die Frage, welche Komponenten in 

Wortformen wie warf (1./3. Pers. Prät.) Träger der Person- und Numerusmerkmale sind. 

Nimmt man an, daß der Verbstamm selbst hierfür markiert ist – was im Rahmen der Konzeption 

des relativierten Kopfs durchaus möglich ist, da in Formen wie warfst ein weiter 

1 Definition des relativierten Kopfs nach Di Sciullo/Williams (1987:26): „The headF [d.h. head für 

Merkmal F; m.E.] of a word is the rightmost element of the word marked for the feature F.“ 

48


rechts stehendes und für die betreffenden Merkmale spezifiziertes Affix die Oberhand gewinnt 

– so handelt man sich damit jedoch eine Inhomogenität im Lexikon ein, da dann einige 

Verbstämme im Lexikon mit Person- und Numerusmerkmalen verzeichnet sind und 

andere nicht. Die Alternative hierzu, leere Kategorien anzunehmen ist jedoch aus theoretischer 

wie parstechnischer Hinsicht unattraktiv. Theoretisch deshalb, da leere Kategorien 

hier basisgeneriert sind und nicht durch Bewegung entstehen und daher nicht durch ein 

anderes overtes Element lizensiert sind. Aus der Perspektive des Parsings sind leere Köpfe 

unerwünscht, da der Parser sie effizient nur mit Hilfe einer Top-Down-Komponente 

(beispielsweise den Zustandsautomaten eines LR(k)- oder Earley-Parsers) identifizieren 

kann, die wiederum eine Regelgrammatik voraussetzt. 

Im nächsten Abschnitt wird ein Mischmodell vorgestellt, welches einerseits Züge eines itemand-process-Modells, 

andererseits solche eines word-and-paradigm-Modells aufweist. 

3.1.1.2 Minimalistische Morphologie 

Der Begriff Minimalistische (Flexions-)Morphologie (vgl. z.B. Wunderlich (1992), Wunderlich/Fabri 

(1994), Fabri et al. (1994)) bezieht sich auf Ansätze, die nicht einfach nur deskriptiv 

angeben, welche Flexionsaffixe an welche Stämme herantreten können und welche morpho-syntaktischen 

Merkmale der resultierenden Wortform zukommen, sondern auf solche, 

die das Zustandekommen von Flexionsparadigmen aus einer Reihe von Wohlgeformtheitsprinzipien 

erklären. Man könnte daher, in Anlehnung an neuere grammatische Theorien, 

auch von prinzipienbasierter Morphologie reden. 

Im folgenden sollen kurz wesentliche Züge dieses Ansatzes vorgestellt und nach ihrer 

Brauchbarkeit für den Zweck der morphologischen Analyse, genauer der Deflexion, beurteilt 

werden. 

Das Lexikon des minimalistischen Modells enthält Stämme und Affixe. Verbale Flexionsaffixe 

werden als Funktoren mit phonetischer Matrix angesehen, die Verbstämme subkategorisieren, 

indem sie bestimmte Merkmalsspezifikationen des Verbstamms fordern. Hierzu verfügen 

die Affixe über eine Eingabebedingung, die die Anforderungen festhält, die ein zulässiger 

Verbstamm erfüllen muß. Affixe führen in einer Ausgabespezifikation neue Merkmale 

ein, die die komplexe Wortform aus Stamm und Affix erhält, wenn der Stamm die in der 

Eingabebedingung festgelegten Erfordernisse erfüllt. 

Tabelle 3.1 hält die Affixe fest, die für die Analyse des verbalen Flexionsverhaltens angenommen 

werden können (nach Fabri et al. (1994:5)). 

Affix Ausgabespezifikation Eingabebedingung 

1 (/e/) [+imp ] [–pret,-subj ] 

2 /te/ [+pret ] [ ] 

3 /e/ [+subj ] [ ] 

4 /t/ [+2,+pl ] [ ] 

5 /n/ [+pl ] [ ] 

6 /st/ [+2 ] [ ] 

7 /e/ [+1 ] [ ] 

8 /t/ [ ] [–pret, –subj, –pl ] 

9 /t/ [+part] [–pret, –subj, –pl ] 

10 /n/ [ ] [–agr] 

Tabelle 3.1: Verbale Flexionsaffixe 

Affix 2 (/te/) führt das Merkmal +pret bei der Flexion regelmäßiger Verben ein (Beispiel: 

(wir) fragten), Affix 3 verknüpft das Merkmal +subj (Konjunktiv) an das Affix /e/ (Beispiel: 

49


(sie) frage). Die Affixe 4 bis 8 sind für die Verbflexion im Präsens, Affix 9 für die Partizip-II- 

Bildung bei schwachen Verben und Affix 10 für den Infinitiv verantwortlich. 

Bei unregelmäßigen Verben enthält das Lexikon alle verschiedenen Verbstämme, zusammen 

mit einem Verweis auf die Zitierform (Infinitivform) des Lexems. Das Verb werfen weist beispielsweise 

folgende Stämme auf, die zusammen mit ihren Merkmalsspezifikationen in Tabelle 

3.2 aufgeführt sind: 

Stamm Merkmalsspezifikation 

werf- [+V] 

wirf- [+V] � ([–1] � [+imp]) 

warf- [+V, +pret] 

worfn 2 [+V, +part] 

würf- [+V, +subj, +pret] 

Tabelle 3.2: Stämme des Lemmas werfen 

Durch die Merkmale V, pret, part, subj, 1, 2, pl, agr, imp, die alle zweiwertig sind, sind 

Stämme und Affixe vollständig bestimmt; es gibt also keine weiteren Merkmale und insbes. 

keine Klassenmerkmale wie RegularVerb, IrregularVerb etc., vgl. Wunderlich (1992:4): 

„In the morphological system of a language, no arbitrary class features are used“ 

Zugelassen sind demnach nur sog. inhärente Klassenmerkmale, d.h. Merkmale, die man aus 

unabhängigen Gründen benötigt. 

Es ist leicht zu sehen, daß das System, welches Stämme und Affixe kombiniert, massiv übergeneriert, 

da die meisten Affixe keine Eingabebedingungen definieren und somit mit einer 

ganzen Reihe von Stämmen kompatibel sind. Unerwünschte Kombinationen werden daher 

durch eine Reihe von Prinzipien ausgeschlossen, die sich in vier verschiedene Gruppen unterteilen 

lassen (vgl. Fabri et al. (1994:23)): 

A) Prinzipien, die festlegen, was ein mögliches Affix ist: Unterspezifikation, Strikte 

Monotonität 

B) Prinzipien, die den möglichen Stamm-Affix-Kombinationen Beschränkungen auferlegen: 

Affix-Reihenfolge, Nicht-Redundanz, Feature Cooccurence Restrictions, Ein- und 

Ausgabespezifizität 

C) Prinzipien, die den Inhalt eines Paradigmas festlegen: Spezifizität und Simplizität 

D) Prinzipien, die die Struktur eines Paradigmas festlegen: Eindeutigkeit und Vollständigkeit 

1. Unterspezifikation: 

a) Die Ausgabespezifikation eines Affixes enthält nur Merkmale mit dem Wert „+“. 

b) Merkmale, die weder in der Eingabebedingung noch der Ausgabespezifikation eines Affixes 

erwähnt werden, haben den Default-Wert „–“. 

Prinzip 1a) hält fest, daß Affixe immer vom Default abweichende Werte einführen müssen, 

während 1b) diesen Default festlegt. 

2 Das Affix /n/, welches das Partizip II der starken Verben bildet, wird als nicht mehr produktiv angesehen 

und daher als Teil des Stamms betrachtet. 

50


Beispiel 3.3: 

Das Affix 6 in Tabelle 3.1 enthält als Ausgabe die Spezifikation [+2]. Da das Merkmal pl 

nicht erwähnt ist, hat es den Wert „–“. 

2. Strikte Monotonität: 

Affixe als morphologische Operatoren führen immer neue Informationen, d.h. positiv spezifizierte 

Merkmale ein. 

3. Affix-Reihenfolge 

Affixe (und auch Stämme) werden klassifiziert nach ihrer Position, die sie innerhalb einer 

gegebenen Affigierungshierarchie einnehmen (vgl. Wunderlich (1992)): 

Verb < Tempus < Modus < Numerus < Person 

An den Verbstamm treten also zunächst Affixe, die ein Tempus-Merkmal einführen, bevor 

Affixe mit Numerus- und Personmerkmalen hinzugenommen werden können. 

Beispiel 3.4: 

Die Form fragten (1./3. Pers. Pl. Prät.) ergibt sich folgendermaßen: 

(6) 

frag te n 

[+V] [+pret] [-2,+pl] 

Das Prinzip der Affix-Reihenfolge besagt, daß, falls eine Form – inhärent oder durch eine 

bereits durchgeführte Anwendung einer Affigierungsoperation – bereits für ein Merkmal m 

aus dieser Hierarchie spezifiziert ist, nur noch Affixe hinzutreten können, die Merkmale 

einführen, die rechts von m stehen. 

Prinzip 3 schließt beispielsweise aus, daß an den Stamm warf, der schon mit +pret markiert 

ist, noch das Präteritalaffix /t/ angehängt werden kann, welches ja das Merkmal +pret 

nochmals einführen würde. Hinzutreten können lediglich noch Affixe mit Person- und Numerusmerkmalen 

wie /n/, /st/ und /t/. 

4. Feature Cooccurence Restrictions (FCRs) 

Mit Beschränkungen dieser Art legt man fest, daß bestimmte Merkmale zwangsläufig mit 

bestimmten anderen auftreten, bzw. diese implizieren. Der minimalistische Ansatz geht von 

den in Tabelle 3.3 aufgeführten FCRs aus: 

1 [+part] � [–part] � [–agr] 

2 [+pret] � [–pret] � [+agr] 

3 [+V, +C] � [+2] 

4 [+1] � [–2] 

5 [+2] � [–1] 

Tabelle 3.3: Feature Cooccurence Restrictions 

Insbes. die drei letzten FCRs sind Stipulationen, da sie nicht als Konsequenz unabhängiger 

Prinzipien zu erhalten sind. 

51


5. Ein- und Ausgabespezifizität: 

Bei der Bildung von Stamm-Affix-Kombinationen werden spezifischere gegenüber weniger 

spezifischen Kombinationen bevorzugt: 

a) Wenn die Anwendung eines Affixes auf zwei verschiedene Eingaben das gleiche Ergebnis 

liefert, dann ziehe die spezifischere Eingabe vor. 

b) Wenn auf eine Eingabe zwei Affixe anwendbar sind, dann ziehe die Eingabe vor, die die 

spezifischere Ausgabe erzeugt. 

Beispiel 3.5: 

Die Form wirfst, die mit der Form werfst konkurriert, gewinnt aufgrund Prinzip 5a 

(Eingabespezifizität), da der Stamm wirf- durch seine Markierung –1 spezifischer als der 

Stamm werf- ist. 

Die Prinzipien der Gruppen C und D beziehen sich auf einen zentralen Punkt des minimalistischen 

Ansatzes, dem Paradigmen-Mechanismus. 

Ein Paradigma im Sinne des minimalistischen Modells ist eine mehrdimensionale, möglicherweise 

rekursive Tabelle (d.h. eine Tabelle, die in ihren Zellen weitere Tabellen enthalten 

kann), deren Dimensionen mit Merkmalen wie ±1, ±2, ±pl gegeben sind. Paradigmen befinden 

sich an der Schnittstelle zwischen Flexionsmorphologie und Satzsyntax, indem sie aufgrund 

ihrer Struktur spezifizieren, welche von keiner Affigierungsoperation erwähnten 

Merkmale noch als Default-Werte zu einer Stamm-Affix-Kombination hinzukommen können. 

Paradigmen werden merkmalsgetrieben aus der Ausgabespezifikation eines Affixes (oder 

Stammes) konstruiert. Das spezifischste Affix aus der Liste der möglichen Affixe – Affix 4 

aus Tabelle 3.1 – spannt eine Matrix auf, deren Dimensionen durch die Anzahl der positiv 

gegebenen Merkmale gegeben sind, also [+2] und [+pl]: 

(7) 

+2 

–2 

+pl –pl 

Formen konkurrieren nun um die Besetzung der Zellen des Paradigmas. Dabei gilt das Prinzip 

der Spezifizität und Simplizität: 

6. Spezifizität und Simplizität 

Bei der Besetzung von Paradigmenzellen werden einfachere bzw. spezifischere gegenüber 

komplexeren bzw. weniger spezifischen Formen vorgezogen. 

52


Beispiel 3.6: 

Im Fall der Flexion von werfen wird die Zelle durch die Form werft besetzt, da diese 

– dank ihres Affixes – die spezifischste Form ist. Die Formen wirfst und werfen werden dann, 

da sie weniger spezifisch sind, in die Zellen und eingefügt, woraus sich 

folgendes Teilparadigma ergibt: 

(8) +pl –pl 

+2 werf-t wirf-st 

–2 werf-n 

Aufgrund des Simplizitätsprinzips sind Formen wie werf-n-st für die Zelle ausgeschlossen. 

Affix 7 (/e/) aus Tabelle 3.1 eröffnet nun, da es explizit mit +1 und via Default mit –2 und -pl 

markiert ist, in der Zelle ein Subparadigma für die Werte +1 und –1. Die Form 

werfe, die durch ihr Affix -e mit +1 markiert ist, wird eingefügt, woraufhin die am wenigsten 

spezifische Form wirft in die Spalte des Paradigmas eingesetzt wird. Das fertige Paradigma 

sieht dann folgendermaßen aus: 

(9) 

+pl –pl 

+2 werf-t wirf-st 

–2 werf-n +1 werf-e 

–1 wirf-t 

Dieses Paradigma ist wiederum eingebettet in ein Paradigma, welches sich aus der Markierung 

des Stamms warf mit dem Merkmal +pret ergibt. 

Die Prinzipien der Gruppe D legen schließlich Wohlgeformtheitsbedingungen für Paradigmen 

fest: 

7. Vollständigkeit 

Jede Zelle eines Paradigmas muß belegt sein 

8. Eindeutigkeit 

Jede Zelle eines Paradigmas muß eindeutig belegt sein 

Die Erzeugung eines Paradigmas wird als ein Vorgang angesehen, der während einer Lernphase, 

also offline, nach einem generate-and-test-Modell abläuft. Die zur Verfügung stehenden 

Stämme und Affixe werden kombiniert und den verschiedenen Wohlgeformtheitsprinzipien 

unterworfen. Dabei ist zu beachten, daß insbes. die Spezifizitätsprinzipien nicht nur Informationen 

zu der gerade untersuchten Stamm-Affix-Kombination in Betracht ziehen, sondern 

Zugriff auf alle Affixe und auch auf alle Stämme des untersuchten Lemmas haben. Hierdurch 

wird die Paradigmenkonstruktion ein relativ aufwendiger Vorgang, der aber nach 

Meinung von Fabri et al. (1994:26) nicht ins Gewicht fällt, da er eben offline und nicht während 

der morphologischen Analyse vonstatten geht. Unklar bleibt nun, wie man sich die 

Verwendung eines mithilfe des eben vorgestellten Verfahrens gewonnenen Paradigmas 

während der online-Deflexion von Wörtern vorzustellen hat. Fabri et al. (1994:37) extrahieren 

53


aus dem gewonnenen Paradigma, beispielsweise des von werfen, die Information, welche 

Endungen auf welchen Stamm folgen können: 

Stamm kann gefolgt werden von 

warf -n, -t, -st, -0 

wirf st, -0 

werf -e, -n, -e-st, -e-t 

würfe -n, -t, -st, -0 

worf -n 

Tabelle 3.4: Stämme und mögliche Affixe, die nachfolgen können 

Dabei wird jedoch nicht gesagt, wie nun die flektierten Formen zu ihren morphosyntaktischen 

Merkmalen kommen. 

Nimmt man an, daß im Deutschen nicht alle (verbalen) Wortformen als Listeme im Lexikon 

verzeichnet sind und weiterhin, daß Paradigmen keine Epiphänomene sind und einen vom 

Lexikon unabhängigen Status haben – es demnach nur zwei verschiedene Paradigmen, je 

eines für regelmäßige und unregelmäßige Verben gibt –, so stellt sich das Problem der Zuordnung 

von bestimmten Verben zu diesen unterschiedlichen Paradigmentypen. Hier 

kommt man nicht daran vorbei, die Verben entsprechend zu klassifizieren, mithin Klassenmerkmale 

einzuführen. Darüber hinaus muß man bei den unregelmäßigen Verben die verschiedenen 

Stämme ebenfalls klassifizieren, um ihre Zuordnung zu den „richtigen“ Flexionsaffixen 

sicherzustellen. Fabri et al. (1994) verschleiern dies, da sie in ihrer Stamm-Affix- 

Tabelle (Tabelle 3.4) in der linken Spalte konkrete Verbstämme und nicht deren Äquivalenzklassen 

angeben, was aber bedeuten würde, daß die Informationen aus Tabelle 3.4 für jedes 

Verb dupliziert werden müßten; dies gilt jedoch nicht nur für die etwa 170 unregelmäßigen, 

sondern auch für die ungleich größere Zahl der regelmäßigen Verben. M.a.W.: ohne 

Einführung von Klassenmerkmalen erhält man eine höchst redundante Konzeption des 

Begriffs „Paradigma“. 

Wunderlich (1992:15) ist sich dieses Problems anscheinend bewußt und schlägt daher 

„generalisierte Paradigmen“ vor; hier ist beispielsweise das Präteritum-Paradigma der starken 

Verben angegeben: 

(10) 

+pl –pl 

+2 /st/ /t/ 

–2 /n/ 

Hier stellt sich natürlich sofort die Frage, was sich in der Zelle befindet: ein Nullaffix 

oder gar nichts? Nimmt man ein Nullaffix an, so führt man an dieser Stelle eine Entität 

ein, die man bisher, bei der Paradigmenkonstruktion, bewußt vermieden hat. 3 Nimmt man 

nichts an, so muß man einen Träger für die Merkmalskombination [–2, +pl] finden: dies 

kann jedoch nur der Stamm sein. Dieser Stamm, z.B. warf, muß folglich diese beiden 

Merkmale tragen, im Gegensatz zu der Annahme, daß er nur mit +pret markiert ist. Möchte 

man nun die anderen Formen des Paradigmas bilden, so müssen diese Merkmale jedoch 

außer Kraft gesetzt werden können, d.h. man benötigt dann einen Default-Mechanismus, 

beispielsweise Default-Unifikation (vgl. Bouma (1992)): 

3 vgl. Wunderlich/Fabri (1994:3): „Inflectional morphology is described in terms of affixes which have a 

phonological form and not in terms of abstract morphemes.“ [meine Hervorhebung] 

54


cat: V 

pers: 1 � 3 

head: agr: 

num: sg 

tense: pret 

warf + t 

55 

! 

head: agr: 

pers: 2 

num: pl 

Abb. 3.1: Anwendung von Default-Unifikation bei der Merkmalsbestimmung 

Der zweite Operand des Default-Unifikationsoperators t! 4 erhält hierbei Priorität, so daß sich 

seine Merkmale gegenüber den Merkmalen des ersten Operanden durchsetzen. 

Zusammenfassend halte ich die Konzeption der minimalistischen Morphologie für ein interessantes 

Modell der Paradigmenkonstruktion; sie ist jedoch für problematisch für die Aufgabenstellung 

der morphologischen Analyse. 

Der Ansatz hat Ähnlichkeit mit dem in Kapitel 1 vorgestellten objektorientierten Ansatz von 

Daelemans (1987), insofern, als ein Analyseproblem durch Generierung (hier Paradigmenelemente, 

dort vollständige Wortformen) gelöst wird. Man könnte also, Daelemans folgend, 

mit Hilfe des Paradigmenmechanismus alle verbalen Wortformen generieren und 

dann im Lexikon abspeichern. Dann greifen jedoch die Einwände, die ich auch gegen 

Daelemans Idee vorgebracht habe. Eine abgeschwächte Variante könnte beispielsweise das 

Paradigma eines Verbs dynamisch generieren, d.h. durch das Auftreten einer bestimmten 

Stammform des Verbs wird der Paradigmenmechanismus angestoßen; auch dies scheint mir 

zu aufwendig zu sein. 

Zusammenfassend bleibt festzuhalten, daß der Ansatz der minimalistischen Flexionsmorphologie 

eine Mischform zwischen verschiedenen Modellen ist. Der Mechanismus zur Paradigmenkonstruktion 

ist vom Typ item-and-process, die spätere Verwendung der Paradigmen 

läuft auf das word-and-paradigm-Modell hinaus. 

3.1.2 Derivation und Komposition 

Die Syntax der Derivation und Komposition sollen hier weitgehend gemeinsam behandelt 

werden, da die meisten neueren Theorien der Wortstruktur (z.B. Toman (1987), Höhle 

(1982)) sie als Ergebnis des gleichen Mechanismus ansehen. Unterschiede zwischen diesen 

beiden Wortbildungsarten werden, wie noch gezeigt wird, durch unterschiedliche Lexikoneinträge 

der beteiligten Morpheme erklärt. 

Für komplexe Wörter eine hierarchische Struktur anzunehmen ist nun keineswegs selbstverständlich 

5 . M.E. ist diese Annahme nur dann sinnvoll, wenn man von der Prämisse ausgeht, 

daß sich die semantische Interpretation zusammengesetzter Wörter kompositionell entlang 

ihrer internen Strukturierung ergibt. Auf diese Weise ist es dann z.B. möglich, die beiden 

Lesarten eines Kompositums wie Hochleistungscomputer strukturell zu fassen, vgl.: 

4 t! ist damit keine kommutative Operation. 

5 vgl. etwa Spencer (1991:189): „The idea that words have their own constituent structure has been 

predominant, to the extent of being taken for granted in some circles. However, it is not a necessary 

assumption, and [..] we will see approaches in which constituent structure plays a less prominent role 

or no role whatever.“

(11) a) 

A 

Hoch 


N 

N N 

leistungs 

N 

computer 

56 

b) 

Hoch 

N 

A N 

N 

leistungs 

N 

computer 

Die Bedeutung von (11a) könnte man umschreiben mit „hoher Leistungscomputer“, die von 

(11b) mit „Computer mit hoher Leistung“ (die präferierte Lesart). 

Eine semantisch induzierte Wortsyntax wird, eingeschränkt auf die Komposition, auch von 

der traditionellen Grammatik angenommen (z.B. Duden (1984: 440), ohne daß jedoch ihre 

semantische Bedingtheit offengelegt würde. 

Gründe für die Annahme einer autonomen wortsyntaktischen Komponente, analog der 

These der Autonomie der Syntax, sind nicht ohne weiteres beizubringen, da die Wortsyntax 

von erheblich geringerer Komplexität als die Satzsyntax ist. Darüber hinaus erklärt auch 

eine angenommene Wortsyntax nicht alle Aspekte der Morphologie, beispielsweise solche, 

die sich nicht durch bloße Morphemkonkatenation erklären lassen. Erwähnenswert ist hier 

z.B. die Konversion. 

Vor dem Hintergrund des Ziels dieser Arbeit, auch einen Beitrag zur maschinellen Interpretation 

von komplexen Wörtern zu leisten, möchte ich jedoch von der Arbeitshypothese 

ausgehen, daß man solchen Wörtern eine hierarchische Struktur zuweisen kann. Dies findet 

nicht zuletzt seinen pragmatischen Grund darin, daß Computer mit Strukturen weitaus besser 

umgehen können als mit Inhalten. 

3.1.2.1 Strukturregeln 

Hinsichtlich des Formats der strukturaufbauenden Regeln gibt es in der Literatur prinzipiell 

zwei Auffassungen: 

1. Wortstrukturregeln als auf Binarität eingeschränkte Regeln einer kontextfreien Grammatik. 

2. Wortstrukturregeln als Instanzen eines morphologischen X-Bar-Schemas. 

Vertreter der ersten Auffassung sind u.a Di Sciullo/Williams (1987) oder aus computerlinguistischer 

Anwendungsperspektive Thurmair (1986a, b). Di Sciullo/Williams (1987: 23) 

geben folgende Grammatik für die syntaktische Struktur englischer Wörter an: 

(12) 

a) stem � af stem 

b) stem � stem af 

c) word � af word 

d) word � word af 

e) word � stem 

f) word � word word 

Die Regeln (12a-f) sind für Flexion und Derivation zuständig, Regel (12f) für die Komposition. 

In ähnlicher Form könnte man auch eine Wortgrammatik für das Deutsche angeben. 

Der Ansatz von Di Sciullo/Williams nimmt darüber hinaus die Gültigkeit der Righthand 

Head Rule an, die jedoch in den Regeln selbst nicht explizit ist.


Demgegenüber geht die andere, u.a. von Toman (1987) und Selkirk (1982) vorgebrachte 

Sichtweise davon aus, daß der Begriff des morphologischen Kopfes bei der Formulierung 

von Strukturregeln im Zentrum stehen muß. Toman (1987) nimmt beispielsweise ein allgemeines 

X-Bar-Schema 

(13) X n � ... X n-1 ... 

an, welches durch eine zusätzliche Bedingung 

(14) Wenn n = 0, dann n–1 = 0 

für die Erzeugung von Wortstrukturen parametrisiert wird. Für (zusammengesetzte) Wörter 

wird demnach angenommen, daß sie X 0-Kategorien sind und wiederum aus solchen aufgebaut 

sind. Das X auf den beiden Seiten des Pfeils in (13) drückt dabei die Kopflinie aus, entlang 

der sich Merkmale eines Wortbestandteils an das Gesamtwort vererben. 

Während Toman durch sein Schema (13) zunächst noch 6 nicht-binäre Strukturen und damit 

solche, in denen der Kopf nicht peripher steht, zuläßt, beschränkt Selkirk ihr X-Bar-Schema 

durch Ausmultiplizierung (Selkirk 1982:16)): 

(15) N � N N 

N � A N 

N � V N 

N � P N 

A � N A 

A � A A 

A � P A 

V � P V 

Meiner Meinung nach gibt es jedoch eine ganze Reihe von Argumenten, die gegen eine 

Parallelisierung von Wort- und Satzsyntax mit Hilfe eines verallgemeinerten X-Bar-Schema 

sprechen: 

1. Köpfe in Wortstrukturen sind positionell – durch die Righthand Head Rule – nicht inhaltlich, 

d.h. aufgrund bestimmter Merkmale festgelegt. 

2. Der Kopfbegriff der Wortsyntax ist viel schwächer als der der Phrasensyntax, wenn man 

– was notwendig scheint – das Vorhandensein von relativierten Köpfen annimmt. 

3. Maximalität ist keine Kategorie der Wortsyntax; dementsprechend sind die „Komplemente“ 

von Wortköpfen nicht maximal. 

4. Überhaupt kann man kaum von Komplementen oder – negativ gefaßt – auch nur von 

Nicht-Köpfen sprechen, da fast jeder Bestandteil eines komplexen Wortes hinsichtlich 

eines bestimmten Merkmals zu den Gesamteigenschaften des Wortes beiträgt, m.a.W. 

ein Kopf ist. Hinzu kommt, daß ausgesprochen grammatische Beziehungen, wie es 

Kopf-Komplement-Beziehungen sind, auf der Wortebene eher selten anzutreffen sind; 

lediglich bei Rektionskomposita und Strukturen mit relationalem Zweitglied kann davon 

die Rede sein. 

5. Schließlich ist (13) nur ein Teil des für die Phrasensyntax angenommenen X-Bar-Schemas. 

Der fehlende Teil führt sog. Phrasenspezifikatoren ein, eine Kategorie, die auf der 

Wortebene vollständig fehlt. 

6 Toman ersetzt (13) später (S. 50) durch X n � ... X n-1 . 

[+N] 

57


Nimmt man nun die Gültigkeit der Righthand Head Rule von Williams (1981) an – wenn auch 

nur als empirische Generalisierung bezüglich einer gewissen Anzahl von Sprachen, dann 

muß man Abschied nehmen von Kategorien wie Suffix etc. wie in (16): 

(16) a) N 

V 

Kopier er 

b) A 

58 

V 

begeh bar 

da Strukturen wie diese gegen die angenommene Rechtsköpfigkeit verstoßen. Stattdessen ist 

man gezwungen, die Suffixe -er und -bar als Elemente der Klasse Nomen bzw. Adjektiv anzusehen, 

so daß für (16) folgende Strukturen resultieren: 

(17) a) N 

V N 

Kopier er 

b) 

A 

V A 

begeh bar 

Dieser Schluß ist nun keineswegs ad hoc, da die genannten und auch noch weitere Suffixe 

wie -ung, -heit/keit etc. nicht nur die Wortart des derivierten Worts bestimmt, sondern auch – 

bei Nomen – dessen Genus und Flexionsklasse. 

Der einzige Unterschied zwischen diesen Suffixen und „richtigen“ Nomen, Verben und 

Adjektiven scheint nunmehr lediglich darin zu bestehen, daß erstere im Lexikon mit dem 

Merkmal +gebunden spezifiziert sind. Dieses Merkmal ±gebunden darf allerdings kein vererbtes 

Kopfmerkmal im Sinne der head features der GPSG/HPSG sein, da es nicht auf das 

abgeleitete Wort übertragen werden darf. Hieraus kann man ersehen, daß, abgesehen von 

der Tatsache, ein morphologischer Kopf aufgrund seiner Relativität die morphologischen 

Eigenschaften des Gesamtwortes nur partiell bestimmt, er darüber hinaus nicht alle seine 

Merkmale vererben darf. Dies bedeutet, daß der Begriff des Kopfes selbst noch zu schwach 

ist, um alle Phänomene zu erklären; was man zusätzlich benötigt, ist also der Begriff des 

Kopfmerkmals. 

Stellt man die beiden vorgestellten Möglichkeiten zur Wortstrukturbildung gegenüber, so 

ergibt sich folgendes Bild: 

1. Der Formalismus des morphologischen X-Bar-Schemas ist eingeschränkter als der der 

kontextfreien Regeln. Eine Wortgrammatik auf der Grundlage des letzteren läßt sich jedoch 

leicht erweitern, um eine höhere deskriptive Adäquatheit zu erzielen; dies ist umso 

wichtiger, als es bei der maschinellen morphologischen Analyse ja darum geht, Regularitäten 

der Wortbildung der Gegenwartssprache abzubilden, die nicht in die eigentliche 

Wortsyntax fallen, beispielsweise Analogiebildungen. Diese Situation kann man auch in 

der Phrasensyntax wiederfinden, wo das X-Bar-Schema in den Bereich der Kerngrammatik 

i.S. von Chomsky (1981) fällt, die vollständige Grammatik der Gegenwartssprache 

aber viele Elemente aus der Peripherie enthält. 

2. Andererseits ist das X-Bar-Schema meist mit einer Lexikalisierung der Syntax gekoppelt: 

syntaktische Strukturen entstehen aus der Interaktion von aus dem Lexikon projizierten 

Informationen mit universellen Phrasenstrukturprinzipien. Für das morphologische X- 

Bar-Schema bedeutet dies, daß man die Anforderungen, die ein Kopf an seine Umgebung 

stellt, in seinem Lexikoneintrag festhalten muß.


3.1.2.2 Argumentvererbung 

Mit Argumentvererbung wird der Sachverhalt bezeichnet, daß abgeleitete Wörter häufig 

thematische Rollen vor ihrer Basis übernehmen. 

(18) 

a) Der Notar beurkundete den Grundstücksverkauf 

Agens Thema 

b) Die Beurkundung des Grundstücksverkaufs (durch den Notar) 

Thema (Agens) 

(19) 

a) Das Gericht überträgt das Nutzungsrecht an die Alteigentümer 

Agens Thema Benefizient 

b) Die Übertragung des Nutzungsrechts (durch das Gericht) an die Alteigentümer 

Thema (Agens) Benefizient 

(20) 

a) Die Funken entflammen das Material 

?? Thema 

b) Das Material ist (durch Funken) entflammbar 

Thema ?? 

Anscheinend werden in (18)-(20) die Thetarollen-Raster der zugrundeliegenden Verben an 

das Derivat vererbt. Die Thetarolle des Subjekts (Agens in (18) und (19), ?? in (20)) muß im 

abgeleiteten Wort nicht unbedingt realisiert werden; dies ist analog zur Passivierung in der 

Satzsyntax. 

Vererbt werden nur Thetarollen, nicht jedoch deren syntaktische Realisierung. Die Thema- 

Thetarolle des Akkusativobjekts in (19a) wird in (19b) beispielsweise als postnominaler Genitiv 

verwirklicht. Die syntaktische Realisierung einer Thetarolle muß also kompatibel sein 

mit den allgemeinen kategorialen Eigenschaften des Derivats. Nomina lassen z.B. nur Genitiv-Nominalphrasen 

und Präpositionalphrasen als Komplemente bzw. Modifikatoren zu, 

dementsprechend werden die Thetarollen des Basisverbs verwirklicht. 

Als Struktur kann man etwa für (19b) folgendes annehmen: 

(21) 

V N 

59 

N 

übertrag ung 

[ Agens, Thema, Benefizient ] 

Während der morphologische Kopf in (21) für Wortart und Genus des Derivats verantwortlich 

ist, stammt das Thetarollen-Raster vom Verb. Daß der linke Zweig für die Argumente 

des abgeleiteten Nomens verantwortlich ist, kann wieder mit der Annahme von relativierten 

Köpfen erklärt werden. Das Suffix -ung ist hinsichtlich des Merkmals Argumentstruktur nicht 

spezifiziert, so daß der nächste Zweig links davon, der dieses Merkmal hat, sich durchsetzt. 

Allerdings kann die Argumentstruktur durch morphologische Prozesse auch verändert 

werden; als Beispiel wären Kausativierungen zu nennen. 

In bestimmten Fällen kann Argumentvererbung nicht stattfinden (vgl. Toman (1987:61)):

(22) 

a) die Soldaten beobachten die Grenze 

b) die Beobachtung der Grenze 

c) *der Beobachtungsturm der Grenze 


Das Nomen Beobachtungsturm in der Nominalphrase in (22c) mit der Interpretation „Turm, 

von dem aus die Grenze beobachtet wird“, nicht in der Possessiv-Lesart, ist wie erwartet strukturiert: 

(23) [N [N [V Beobacht] [N ung(s)]] [N turm]] 

Mit großer Wahrscheinlichkeit ist der Kontrast in (22) darauf zurückzuführen, daß sich gebundene 

und freie Instanzen von Kategorien wie N nicht nur hinsichtlich eines Merkmals 

±gebunden unterscheiden, sondern darüber hinaus in ihrem semantischen Beitrag zum Gesamtwort. 

Während gebundene Kategorien (Suffixe) wie -ung nur die Bedeutung der ihnen 

vorangehenden Konstituente transformieren, machen freie Kategorien einen eigenständigen 

Beitrag zum Gesamtwort. Beispielsweise wird im Determinativkompositum Beobachtungsturm 

das Nomen Turm durch das Erstglied näher bestimmt. Die Nicht-Akzeptabilität von 

(22c) ist daher wahrscheinlich darauf zurückzuführen, daß 

(24) ??* der Turm der Grenze 

bereits nicht akzeptabel ist. 

Neben diesen Beschränkungen semantischer Natur gibt es weitere, die dem Anschein nach 

wieder syntaktisch zu erklären sind. Es gibt einen interessanten Kontrast zwischen den ung- 

Nominalisierungen von Verben mit Akkusativobjekt und solchen mit Dativobjekt. 

(25) 

a) Die Touristen vertreiben das Wild 

b) Die Vertreibung des Wilds 

(26) 

a) das Geräusch der Rasenmäher belästigt den Linguisten 

b) die Belästigung des Linguisten 

Die meisten der Verben mit Akkusativobjekt, die unter dem entsprechenden Satzbauplan im 

Duden (1984:607) verzeichnet sind, lassen eine Ableitung mit -ung zu. Dabei wird immer die 

Thetarolle, die das Akkusativobjekt trägt, an das Derivat vererbt. Demgegenüber ist ung- 

Derivation bei den Verben mit Dativobjekt fast nie möglich, vgl. 

(27) 

a) der Soldat gehorcht dem Befehl 

b) * die Gehorchung des Befehls 

Einige Verben mit Dativobjekt bilden ihre Nominalisierung durch Ableitung mit -e (vgl. 

Toman (1987:60)): 

(28) 

a) der Sohn hilft dem Vater 

b) die Hilfe des Vaters 

Ein Verb mit ähnlicher Semantik wie helfen, unterstützen, realisiert die Thetarolle Benefizient 

als Akkusativobjekt. 

(29) 

a) der Sohn unterstützt den Vater 

b) die Unterstützung des Vaters 

60


Während man (28b) nicht so interpretieren kann, daß dem Vater Hilfe zuteil wird 

(Benefizient-Rolle), ist dies in (29b) ohne weiteres möglich, wobei allerdings auch die andere 

Lesart nicht ausgeschlossen ist. 

Die Generalisierung, die man aus der oben dargestellten Datenlage bilden kann, ist folgende: 

unter Zugrundelegung der Unterscheidung zwischen lexikalischem und strukturellem 

Kasus (letzterer ergibt sich aus bestimmten Konfigurationen der Phrasenstruktur, ersterer 

ist in den Lexikoneinträgen verzeichnet) können zumindest bei der Nominalisierung mit 

-ung nur Argumente mit strukturellem Kasus vererbt werden. 

Argumentvererbung betrifft nun, wie in (20b) schon deutlich geworden ist, nicht alle Argumente 

der Basis gleichermaßen. Bei der bar-Suffigierung wird das ursprüngliche Objekt des 

Basisverbs vererbt, während das zugrundeliegende Subjekt fakultativ als Präpositionalphrase 

verwirklicht werden kann. Wenn das die richtige Erklärung für diesen Vorgang ist, 

so setzt das voraus, daß das Basisverb überhaupt eine Objektsthetarolle vergibt. Toman 

(1987) schlägt als Generalisierung vor, daß nur transitive Verben, also solche mit Akkusativobjekt, 

zum Gegenstand der Ableitung mit -bar gemacht werden können. Dieses Kriterium 

ist noch nicht ausreichend; daß auch semantische Faktoren eine Rolle spielen, wird im nächsten 

Abschnitt deutlich. 

Als Fazit dieses Abschnitts ergibt sich: 

1. Das Phänomen der Argumentvererbung wird auf syntaktische Weise durch einen Perkolationsmechanismus 

erklärt (es gibt auch andere Erklärungsversuche, s.u.) 

2. Suffixe sind i.a. transparent für die Vererbung von Argumenten. Einige Suffixe wie -bar 

sind jedoch nicht für alle Argumente gleichermaßen durchlässig. 

3. Vererbt werden thematische Rollen, nicht deren syntaktische Träger. Die syntaktische 

Realisierung der Rolle beim Derivat ergibt sich aus den Möglichkeiten, die einer Kategorie 

hierzu zur Verfügung stehen. Nomen z.B. erlauben als Argumente und Modifikatoren 

Nominalphrasen im Genitiv und Präpositionalphrasen, Verben darüber hinaus auch 

Nominalphrasen in den übrigen Kasus. 

3.2 Wortbildung im Deutschen 

Vor dem Hintergrund der Ideen, die in diesem und im letzten Abschnitt diskutiert wurden, 

möchte ich in diesem Abschnitt die Wortbildungstypen Komposition, Derivation und Konversion 

im Deutschen etwas detaillierter untersuchen. 

3.2.1 Komposition 

Die traditionelle Grammatik klassifiziert Komposita in drei Grundtypen: 

1. Determinativkomposita 

2. Kopulativkomposita 

3. Exozentrische Komposita 

Determinativkomposita bestehen aus zwei Teilen, dem Grundwort und dem Bestimmungswort, 

die beide komplex sein können. Das Grundwort bildet das Hinterglied des Kompositums 

und ist – aufgrund der Rechtsköpfigkeit deutscher Substantive – für die wesentlichen syntaktischen 

und semantischen Eigenschaften des Gesamtworts verantwortlich. Das in Erstgliedposition 

stehende Bestimmungswort bestimmt den durch das Zweitglied ausgedrückten 

Begriff näher. Determinativkomposita sind beispielsweise Datensicherheit und Speicherkapazität. 

61


Demgegenüber sind bei Kopulativkomposita Erst- und Zweitglied in semantischer Hinsicht 

gleichwertig, so daß Instanzen des Kompositatyps durch Konjunktion interpretiert werden. 

Ein Beispiel hierfür ist der schon klassisch zu nennende Dichterkomponist. 

Exozentrische Komposita (oder Possessivkomposita) wie beispielsweise Schafskopf schließlich 

drücken eine Eigenschaft aus, die meist einem Lebewesen zukommt. Sie sind stark lexikalisiert 

und daher kaum ein produktiver Wortbildungstypus im Deutschen; allerdings haben 

sie fast immer auch eine Lesart als Determinativkompositum. 

In der traditionellen Grammatik (z.B. Lühr (1986)) wie auch in moderneren generativen Ansätzen 

herrscht Konsens darüber, daß deutsche Komposita in der großen Mehrzahl binär 

aufgebaut sind; Ausnahmen hierzu sind Konstruktionen wie Scharping-Schröder-Konflikt u. 

dgl. Von den unter dieser Annahme denkbaren Strukturtypen, z.B. bei Komposita mit vier 

Gliedern, sind fünf Strukturtypen denkbar, für die sich allesamt Beispiele finden lassen: 

(30) 

a) b) c) d) e) 

N 

N 

N 

N 

N 

X 

N 

N 

X X X N X N 

X 

X 

N 

X 

X 

62 

X N 

Beispiele sind (z.T. nach Olsen (1986:55)): 

(31) 

a) Straßenverkehrszulassungsordnung, Luftwaffenstützpunkt 

b) Theaterwochenspielplan, Bezirksjahreshauptversammlung 

c) Rauschgifthändlerring, Bergbauwissenschaftsstudium, 

Trauerbegleitungsausbildungsschulung (ZEIT 16/1999) 

d) Bundeshauptstadtsumzug 

e) Jugendarbeitsschutzgesetz 

X 

X 

X 

X N 

X 

X 

X 

X 

X 

N 

X N 

Dies deutet darauf hin, daß keine syntaktischen Beschränkungen bei der Komposition existieren. 

7 Aus methodologischen Gründen nimmt man weiterhin an, daß die Komposition im 

Deutschen ein unbeschränkt rekursiver Prozeß ist, der lediglich in der Performanz seine 

Grenze findet. Dies vereinfacht – wie die analoge Annahme hierzu in der Satzsyntax – die 

Konstruktion der Grammatik. 

Eine wichtige Unterklasse der Determinativkomposita, deren Interpretation am ehesten 

grammatisch gesteuert zu sein scheint, sind die sog. Rektionskomposita. Als Zweitglied bei 

Instanzen dieser Klasse fungiert ein deverbales Derivat, beispielsweise eine er-Nominalisierung: 

(32) 

a) Zeitungsholer 

b) Wagenheber 

Der Name Rektionskomposita erklärt sich aus der Nähe zu den korrespondierenden syntaktischen 

Konstruktionen: 

7 Dies konnte auch experimentell gezeigt werden, vgl. Wisniewski/Gentner (1991). 

X

(33) 

a) x holt eine Zeitung 

b) x hebt den Wagen 


In (32a,b) sieht es so aus, als würde der verbale Bestandteil des Zweitglieds aufgrund der 

Transparenz des Suffixes eine Thetarolle an das Derivat vererben, die dann an das Erstglied 

zugewiesen wird. Interessant ist in diesem Zusammenhang (vgl. hierzu auch Abschnitt 

3.1.2.2), daß die Zweitglieder allein nicht grammatisch sind, vgl. 

(34) 

a) * Holer 

b) * Heber 

Auch eine externe Sättigung der Argumentstellen scheint nicht in Frage zu kommen, vgl. 

(35) 

a) * der Holer der Zeitung 

b) * der Heber des Wagens 

Eine Besonderheit der Komposition im Deutschen ist, daß zwischen Erst- und Zweitglied 

eines Kompositums häufig sog. Fugenelemente eingesetzt werden. Im Deutschen gibt es 8 

verschiedene Fugenelemente, die in Tabelle 3.5 zusammengefaßt sind (nach Eisenberg 

(1998:227ff.): 

Fugen– Anforderungen an das Vorderglied 

element 

� Standardfuge bei fast 75% aller Komposita 

e Verb: meist einfache Stämme mit stimmhaftem Obstruent 

en Nomen: schwache Maskulina 

ns/ens Nomen: stark lexikalisiert 

er Stämme mit Zahlwörtern 

es Nomen: Maskulina und Neutra mit (e)s-Genitiv 

n Nomen: schwache Maskulina; Femina mit Schwa-Auslaut 

s Nomen: regelmäßig nach Suffixen wie -keit/heit/igkeit, -tum, -schaft, -ung, -sal, 

und -ling; Deverbativa auf -en mit einfachem oder präfigiertem Verbstamm als 

Basis; maskulinen und femininen Ableitungen von Partikelverben 

Tabelle 3.5: Fugenelemente und ihre Eigenschaften 

Die Herkunft der Fugenelemente ist unterschiedlich. Teils handelt es sich um Flexive, teils 

werden sie aus prosodischen Gründen eingefügt. Fugenelemente zwischen Erst- und Zweitglied 

werden fast ausschließlich durch Eigenschaften des Erstglieds determiniert. Neben 

diesen Fugen gibt es nichtnative Fugen wie -ial (in Territorialverteidung) und sog. Substraktionsfugen 

(z.B. Wolldecke). 

Da der Anteil der Syntax am Mechanismus der Komposition nur vergleichsweise gering ist 

und Semantik, Konzeptwissen und Pragmatik eine ungleich größere Rolle spielen, ist dieser 

Wortbildungstyp Hauptgegenstand von Abschnitt 3.3. 

63

3.2.2 Derivation 


Dieser Abschnitt versucht, die Eigenschaften der wichtigsten Suffixe und Präfixe des Deutschen 

einigermaßen detailliert wiederzugeben; dabei beschränke ich mich auf die produktiven 

Wortbildungstypen. Die Darstellung orientiert sind im wesentlichen an Toman (1987: 

Kap. 3), Eisenberg (1998) und Olsen (1986). 

3.2.2.1 Suffigierung 

Tabelle 3.6 gibt eine Übersicht über die Eigenschaften der wichtigsten Suffixe des Deutschen 

und ihren Einfluß auf das Derivat. Einige der Suffixe, die später auch eine Rolle in der 

morphologischen Grammatik von Kapitel 5 spielen, werden noch etwas detaillierter beleuchtet. 

Suffix Kat. Anforderungen morphosyntaktische semantische 

an die Basis 

Auswirkung 

Auswirkung 

-heit/ N Adjektive; 

Festlegung von Genus Abstrakta-Bildung, 

-keit/ 

phonotaktische 

(feminin) und 

Resultat denotiert einen 

-igkeit Beschränkungen 

bestimmen, welches 

Allomorph gewählt wird 

Flexionsklasse 

Zustand 

-schaft N Nomen Bildung femininer Bildung von 

Nomen 

Personenkollektiva 

-ung N transitive Verben Festlegung von Genus Verbalabstraktion 

intransitive Verben mit (feminin) und 

Bildung von Nomina actionis 

oder ohne PP-Objekt Flexionsklasse 

(80%) 

Stammkomplexität Argumentvererbung Vorgang/Zustandsalternation 

irrelevant 

Bildung von Subjektivus bzw. 

nicht möglich: Verben 

mit Dativobjekten 

Objektivus 

-er N Verben Bildung maskuliner, Bildung von Nomina agenti, 

movierbarer Nomen Nomina instrumenti, 

Argumentvererbung Nomina acti 

-ismus N nicht-native Basis: 

Nomen, Adjektive 

(insbes. auf -al) 

Abstraktion 

-bar A transitive Verben Absorption bzw. Hinzufügung eines 

Rückstufung der 

Subjektsthetarolle 

Potentialitätsaspekts 

-el V native Nomen, Verben regelmäßige Flexion Hinzufügung eines iterativen 

und Adjektive 

Aspekts 

-er V native Nomen, Verben regelmäßige Flexion Hinzufügung eines iterativen 

und Adjektive 

Aspekts 

-ier / V N, (V), A 

regelmäßige Flexion „etwas zu Bed(N) machen“ 

-ifizier / überwiegend nicht-nativ, Deadjektivische Ableit- „etwas mit Bed(N) versehen“ 

-izier 

auch komplex 

ungen sind transitiv „etwas Bed(A) machen“ 

-ig V einfache Nomen und 

Adjektive 

regelmäßige Flexion 

-isier V Nomen und Adjektive transitive Verben mit 

regelmäßiger Flexion 

Affizierung, Effizierung 

-ist N Nomen Bildung maskuliner, Bildung von 

movierbarer Nomen Personenbezeichnungen 

Stereotyperschließung 

Tabelle 3.6: Einige native und nicht-native Suffixe des Deutschen und ihre Eigenschaften 

64


-er 

Das Suffix -er bildet mit einer verbalen Basis Nomina agenti (Arbeiter, Schneider), Nomina 

instrumenti (Büchsenöffner, Bleistiftspitzer) und Nomina acti (Jodler). Die Alternation zwischen 

Agens und Instrument findet sich in systematischer Weise auch schon bei den 

zugrundeliegenden Verben, vgl. Eisenberg (1998:265): 

(36) 

a) Karla öffnet die Tür mit dem Schlüssel 

b) Der Schlüssel öffnet die Tür 

Bei Nomina instrumenti scheint Argumentvererbung vorzuliegen, da die Argumentstelle 

des direkten Objekts bevorzugt kompositumsintern realisiert wird: 

(37) Nußknacker – *Knacker – ?*Knacker der Nüsse 

Ausgeschlossen für er-Nominalisierungen sind Psych-Verben (erstaunen, freuen), bei den für 

das Akkusativobjekt eine Selektionsbeschränkung auf Person existiert und ergative Verben 

(aufblühen, fallen). Zurückzuführen ist dies vermutlich auf die Aktionsart des Basisverbs. 

Neben den genannten Typen gibt es Ableitungen mit substantivischer Basis, die aber z.T. 

recht heterogen sind: Regensburger (Ortsname), Gewerkschafter (Institution) etc. 

-bar 

Die Generalisierung, die bezüglich der Ableitung mit -bar bereits in Abschnitt 3.1.2.2 diskutiert 

wurde, war die, daß nur transitive Verben als Basis möglich sind. Dies erklärt zunächst 

die folgenden Ungrammatikalitäten (vgl. Toman (1987:70)): 

(38) 

a) * Dieses Hotel ist schlafbar (schlafen, intransitiv) 

b) * Der Mann ist nicht helfbar (helfen, Dativobjekt) 

c) * Die Toten sind gedenkbar (gedenken, Genitivobjekt) 

Allerdings gibt es transitive Verben wie verbittern, enttäuschen und überraschen, die ebenfalls 

eine bar-Ableitung blockieren. Toman (1987) schlägt zur Erklärung dieser Daten daher ein 

semantisches Kriterium vor: das der Intentionalität. Transitive Verben, die eine intentionale 

Handlung ausdrücken, können danach zum Ausgangspunkt der Ableitung mit -bar gemacht 

werden. 

Argumentvererbung kann bei der bar-Ableitung auch hinsichtlich von Dativargumenten bei 

Verben mit dem Subkategorisierungsrahmen Subjekt – Dativobjekt – Akkusativobjekt stattfinden, 

da Dativargumente schließlich auch von Adjektiven (beispielsweise jdm. treu sein) subkategorisiert 

werden können (vgl. Toman (1987:78)): 

(39) 

a) Solche Gegenstände sind den Touristen leicht entwendbar 

b) Die Tat war dem Angeklagten nicht nachweisbar 

Zuletzt gibt es morphologische Beschränkungen: Verben, die auf -ig(en), -lich(en) oder -el(n) 

enden, können nicht durch -bar adjektiviert werden. 

3.2.2.2 Präfigierung 

Die Operation der Präfigierung unterscheidet sich formal von der Suffigierung, da Präfixe - 

wenn man an der positionellen Festlegung des Kopfes festhält – nicht der Kopf eines Wortes 

sein können. Hieraus ergeben sich einige Probleme. Es gibt nämlich eine Reihe von Präfixverben 

im Deutschen, deren Basis Nomen bzw. Adjektive sind (vgl. Olsen (1990:34)): 

65

(40) 

a) versalzen 

b) befeuchten, verdünnen 


Das Problem, welches sich hierbei stellt ist, auf welche Weise die verbalen Eigenschaften 

dieser Verben mit adjektivischer bzw. nominaler Basis zustande kommen. Die Präfixe ver- 

und be- können auch mit der Definition des relativierten Kopfes nicht Köpfe der Wortstrukturen 

sein, da die entsprechenden Basen bereits kategoriell festgelegt sind. 

Präfixe wie be-, ent-, er-, ver- und zer- weisen, wie Olsen (1990) zeigt, weder eine bestimmte 

Flexionsklasse (wie beispielsweise die verbalisierenden Suffixe) noch eine bestimmte Argumentstruktur 

auf, was gegen ihren Kopfstatus spricht. Theoretisch ist dies durchaus erfreulich, 

da dann die Right Hand Head Rule im Deutschen universell gelten würde. Zu lösen 

bleibt aber das Problem, was der verbalisierende Kopf in diesen Wörtern ist. Die Vorschläge 

hierzu reichen von Konversionsregeln, leeren V-Köpfen (Olsen (1991)) und der Annahme 

von semantischen, verbähnlichen Primitiven (Wunderlich (1987)). Allen diesen Ansätzen ist 

gemeinsam, daß sie das Problem nicht befriedigend zu lösen vermögen. 

Ein interessantes Muster ergibt sich bei der be-Präfigierung einer ganzen Reihe von 

deutschen Verben (vgl. auch Wunderlich (1987) und Dörfler et al. (1995)): 

(41) 

a) Hans staunte [PP über Peters neues Auto] 

b) Hans bestaunte [NP Peters neues Auto] 

(42) 

a) Sie gießt [NP Wasser] [PP auf die Blumen ] 

b) Sie begießt [NP die Blumen] [NP mit Wasser ] 

In (41) bewirkt die Präfigierung mit be-, daß die thematische Rolle Thema, die das Simplexverb 

staunen als Präpositionalphrase verwirklicht, bei bestaunen an eine Nominalphrase zugewiesen 

wird. Bei dreiwertigen Verben wie gießen/begießen in (42) kommt es neben dieser 

Änderung der syntaktischen Realisierung einer Thetarolle zu einer charakteristischen Veränderung 

in der Basisabfolge der Argumente. 

Schematisch lassen sich diese Modifikationen folgendermaßen darstellen: 

3-wertige be-Verben: 2-wertige be-Verben: 

Subjekt Akk.-Objekt Präp. Objekt/ 

Dativ objekt 

Basiv erb: Ag 

Be-Verb: Ag 

(Th) 

Lok 

66 

Lok 

(Th (mit)) 

Subjekt 

Ag 

Ag 

Th (Präp.) Präp.Objekt 

Abb. 3.2: Argumentdiathese bei der be-Präfigierung (aus Dörfler et al. (1995)) 

Th 

Akk.-Objekt 

Ein dritter Typus ist die Bildung von desubstantivischen Verben (vgl. Reifen – bereifen, Bild – 

bebildern). 

Be-Präfigierung stellt somit einen Sonderfall der Argumentvererbung dar. Eine Reihe von 

Präpositionen (z.B. durch) zeigen im übrigen ein ähnliches Verhalten. Die be-Präfigierung 

unterscheidet sich jedoch von der Präfixverbbildung mit Hilfe von Präpositionen, da sie 

immer ein agentivisches Basisverb erfordert. Ein ähnliches Verhalten legen im übrigen andere 

Verbpräfixe wie durch-, über- und um- an den Tag.


Tabelle 3.7 enthält einige weitere produktive Präfixe. 

Präfix Basis morphosyntaktische 

Auswirkung 

un- komplexe Adjektivstämme mit Stammmodifikation, d.h. das 

partizipialer oder suffigierter Derivat hat die gleiche 

Basis 

weniger produktiv: 

Nomenstämme 

Kategorie wie die Basis 

Ge- einfache Verbstämme + -Ge- hat Kopfeigenschaften: es 

Schwasilbe (Gesinge, Getue, bestimmt die Kategorie des 

Geheule) 

Derivats wie auch dessen 

Genus und Flexionstyp 

Tabelle 3.7: Einige Präfixe im Deutschen und ihre Eigenschaften 

67 

semantische 

Auswirkung 

Bildung eines 

Antonyms zur Basis 

Wiederholung des 

durch den Stamm 

ausgedrückten 

Vorgangs 

3.2.2.3 Konversion 

Als ein dritter Wortbildungtypus, der aus dem Rahmen der konkatenativen Morphologie 

und damit auch aus dem item-and-arrangment-Modell herausfällt, ist die sog. Konversion aufzufassen. 

Hierbei ändern Stämme ohne Hinzutreten von Affixen ihre Kategorie, beispielsweise 

(aus Olsen (1986:111)): 

(43) 

a) Schule – schulen, Schicht – schichten 

b) weit – weiten, kurz – kürzen 

c) schlafen – Schlaf, treffen – Treff 

Damit sind alle im Deutschen produktiven Konversionsmuster beschrieben, schematisch 

demnach: 

(44) 

a) N � V 

b) A � V 

c) V � N 

Die anderen drei möglichen Muster N � A, A � N, V � A sind im Deutschen nicht produktiv 

8 . 

Üblicherweise nicht als Gegenstand der Konversion werden Nominalisierungen von Infinitiven 

und die substantivische Verwendung von Adjektiven angesehen, da in diesen Fällen 

Flexionsaffixe mit übernommen werden. 

Prinzipiell gibt es vier Möglichkeiten, Konversion zu formalisieren: 

1. durch Annahme von phonetisch leeren Köpfen 

2. durch die Annahme, daß Morpheme kategoriell unterspezifiziert sind 

3. durch Annahme von unären Regeln X � Y 

4. durch Umkategorisierung 

8 Das zeigt auch ein Blick in die CELEX-Datenbank (Baayen et al. (1993)). Unter den knapp 9700 dort 

verzeichneten Adjektivlemmata war lediglich der Typ N � A 22 mal vertreten. Die anderen Möglichkeiten 

sind dort überhaupt nicht belegt. Nicht berücksichtigt sind dabei allerdings substantivische 

Verwendungen von Adjektiven, wie beispielsweise schwarz – (das) Schwarze. Hierbei handelt es sich 

jedoch möglicherweise um Ellipsen.


Gegen die ersten beiden Ansätze finden sich gewichtige Gegenargumente in Olsen 

(1986:113ff). Ich möchte noch kurz auf die beiden anderen eingehen, da sich hieraus methodologische 

Konsequenzen ergeben. 

Den Unterschied zwischen 3. und 4. kann man am Beispiel von weit (A) – weiten (V) strukturell 

folgendermaßen fassen: 

(45) a) b) 

V 

A 

weit 

V 

weit 

(45b) ist mit einem monotonen Formalismus wie dem in Kapitel 2 dargestellten nicht (ohne 

weiteres) kompatibel, da es nicht möglich ist, eine Merkmalsstruktur destruktiv durch eine 

andere zu ersetzen. Zudem ist es unter der Annahme, daß sich die semantische Interpretation 

entlang der Wortstruktur vollzieht, unklar, wie sich die Bedeutung von weiten als weit 

machen ergibt. Daher werden in der Wortgrammatik von Kapitel 5 unäre Konversionsregeln 

angesetzt. 

Als morphologische Restriktion für Konversion gilt, zumindest für nominale und adjektivische 

Basen, daß nur affixlose Stämme ihr unterworfen werden können. 

68

3.3 Wortsemantik 


In Abschnitt 3.1 wurde festgestellt, daß es durchaus möglich ist, Wörtern durch Anwendung 

einfacher, binär verzweigender Regeln hierarchische Strukturen zuzuweisen. Damit dies 

jedoch auch sinnvoll ist, müssen diese wortsyntaktischen Strukturen auch in die Interpretation 

des komplexen Wortes mit eingehen – denn dies muß das letztendliche Ziel jeder Theorie 

der Wortbildung sein. Kapitel 3.3 befaßt sich daher mit drei verschiedenen Theorien der 

Interpretation komplexer Wörter, die textuell danach geordnet sind, welchen Stellenwert sie 

der Syntax bei der Interpretation von Wortbildungen einräumen. Die erste, in Meyer (1993) 

vorgestellte Konzeption, nimmt nur sehr einfache Wortsyntaxregeln an und verlagert die 

Bürde der Interpretation auf das konzeptuelle System. Die zweite, von Gisbert Fanselow 

vertretene Theorie (z.B. Fanselow (85)), streicht Wortstruktur ganz aus dem Beschreibungsinventar 

zugunsten einfacher Merkmalsperkolationsprinzipien und erklärt den Mechanismus 

der Bedeutungskonstruktion durch einen u.a. durch diese Prinzipien beschränkten Prozeß 

der freien Anwendung von semantischen Grundoperationen. Der dritte hier dargelegte 

Ansatz, der von Pustejovsky (1995), ist eine Summe von Ideen aus Semantik und Wissensrepräsentation, 

die auch in den anderen Ansätzen ihre Rolle spielen. 

3.3.1 Wortsemantik als Wissensrepräsentation 

Die Arbeit von Meyer (1993) hat nicht den Gesamtbereich der Komposition zum Gegenstand, 

vielmehr richtet Meyer sein Hauptinteresse auf sog. novel noun-noun compounds, die er 

definiert als „non-lexicalized noun-noun compounds appearing as names for a certain concept provided 

by the text“ (Meyer (1993:XIV)). Anders als Rektionskomposita wie Autoverschrotter, 

deren Interpretation sich zum größten Teil noch auf der Grundlage von grammatischen 

Prozessen vollzieht, scheinen bei der Deutung dieser Art von Komposita überwiegend 

konzeptuelle Operationen eine Rolle zu spielen, was auch durch experimentelle 

Untersuchungen (vgl. Wisniewski/Gentner 1991) nahegelegt wird. Der Schluß, der hieraus 

für ein Modell zur Interpretation von NN-Komposita zu ziehen ist, ist der, daß ein solches 

Modell nicht ohne Bezug auf Konzeptwissen und im Weltwissen begründete Relationen 

zwischen Konzepten funktionieren kann. 

Um dem Rechnung zu tragen, konstruiert Meyer einen theoretischen Apparat, der auf drei 

Grundpfeilern ruht: 

� einer Variante der Zwei-Ebenen-Semantik von Bierwisch 

� der Diskursrepräsentationstheorie 

� Techniken der Wissensrepräsentation 

Die Zwei-Ebenen-Semantik mit ihrer Annahme einer im Lexikon verankerten zusätzlichen 

Ebene der semantischen Form ist nach Meinung des Autors geeignet, die Unterscheidung 

zwischen dem Kerngehalt eines Konzepts, von Meyer als lexical meaning bezeichnet, und 

seiner Erweiterung bezüglich einer bestimmten Äußerungssituation (utterance meaning) zu 

erklären. Diese Erweiterung von Konzepten – in der Terminologie der Zwei-Ebenen- 

Semantik conceptual shift – läßt sich anhand des Konzepts Museum mit seinen Lesarten Gebäude, 

Institution, Sammlung und Personal verdeutlichen: 

(46) 

a) Das Museum brannte ab (Gebäude) 

b) Das Museum zahlt schlecht (Institution) 

c) Das Museum war langweilig (Sammlung) 

d) Das Museum hat gestreikt (Personal) 

69


Hauptgrundlage von Meyers Modell ist eine auf die Erfordernisse der Kompositainterpretation 

zugeschnittene Version der Diskursrepräsentationstheorie, die in zwei Varianten auftritt: 

Die erste, DRLlex, ist als Menge von lexikalischen Diskursrepräsentationsstrukturen 

(DRSen) gegeben, die ihrerseits der Notation der semantischen Form von durch Nomina 

ausgedrückten Konzepten dienen. Eine lexikalische DRS ist ein Paar , wobei Ulex 

eine Menge von Variablen { x1,...,xn} und Conlex eine Menge von DRS-Bedingungen spezifiziert. 

DRS-Bedingungen sind im wesentlichen Relationskonstanten r(x1,...,xk) mit Variablen 

als Argumenten, Gleichsetzungen von Variablen (xi = xj) und rekursive Einbettungen von 

weiteren lexikalischen DRSen. Entscheidend jedoch für die Interpretation von Nomen, die 

Artefakte bezeichnen (wie z.B. Buch, Museum etc.), ist der sog. purpose-Operator �, 9 der dazu 

verwendet wird, mit einem Begriff eine Menge von typischen, kontextunabhängigen 

Zweckangaben 10 zu assoziieren. Am Beispiel des Nomens Museum soll dies näher erläutert 

werden. Die im Lexikon für Museum verzeichnete lexikalische DRS sieht folgendermaßen 

aus (Meyer (1993:92)): 

(47) 

� x 

x 

�(x,p) 

p= 

y e1 e2 

exhibiting(e1) 

informing(e2) 

theme(e1,y) 

theme(e2,y) 

Diese DRS repräsentiert eine Funktion von Individuen nach Wahrheitswerten, wobei die 

Variable x aus Ulex mit Hilfe des Operators � mit einer eingebetteten DRS K verknüpft wird, 

die die für Museen typischen Zweckbestimmungen enthält: Museen gehören zur Menge der 

ausstellenden und informierenden Entitäten, wobei der Gegenstand dieser Aktivitäten nicht 

weiter beschränkt ist, da mit der Themavariablen y keine weiteren Restriktionen verknüpft 

sind. 

Die zweite Variante der Diskursrepräsentationstheorie, DRLc, dient zur Repräsentation von 

konzeptuellem Wissen. Meyer gibt eine Übersetzungsfunktion an, die es ermöglicht, die 

Grundelemente (genauer: die TBOX-Elemente) von terminologischen Wissensrepräsentationssprachen 

(beispielsweise KL-ONE) in Ausdrücke von DRLc umzusetzen, um auf diese 

Weise einen einigermaßen einheitlichen Rahmen sowohl für die Repräsentation von lexikalischen 

Bedeutungen wie auch die Abbildung von Konzeptwissen zu erhalten. Nachstehend 

ist ein Teil des Gesamtkonzeptes von Museum, die Lesart Institution wiedergegeben (Meyer 

(1993:98)): 

9 Dieser Operator entspricht weitgehend der sog. telischen Rolle in der Qualia-Struktur von Pustejovsky 

(1995); s.u.. 

10 Stereotype Eigenschaften und Relationen in der Terminologie von Boase-Beier at al. (1984). 

70

museum-institution(b) 


� 

institution(b) 

e3 

organizes(b,e3) 

e4 

organizes(b,e4) 

n 

has-worker(b,n) 

71 

� 

� 

� 


z 

theme(e3,z) 

informing(e4) 

w 

theme(e4,w) 

� 

� 

museum-leader(n) 

Card(n) � 1 

Abb. 3.3: Teilkonzept „Institution“ des Gesamtkonzepts „Museum“ 

all(z) 

all(w) 

Das Gesamtkonzept von Museum beinhaltet darüber hinaus noch die Lesarten für Gebäude, 

Sammlung und Personal. 

DRLc ist die Gesamtmenge der sog. konzeptuellen DRSen, die wiederum Paare 

von Mengen von Diskursreferenten und Mengen von DRS-Bedingungen sind. Grundelemente 

der Syntax von konzeptuellen DRSen sind, neben den DRT-üblichen Konnektiven 

wie Implikation, Äquivalenz, Disjunktion und Negation und den mit ihrer Hilfe rekursiv 

eingebetteten konzeptuellen DRSen, Konzepte und Rollen. Konzepte sind in einer 

Subsumptionshierarchie organisiert. Das Konzept museum-institution wird beispielsweise 

durch die Bedingung institution(b) in Abb. 3.3 als Subkonzept des Konzepts institution definiert, 

was der Aussage gleichkommt, daß jede Instanz von museum-institution auch eine Instanz 

von institution ist. 

Konzepte sind untereinander durch Rollen - zweistellige Relationen - verbunden. Im Beispiel 

ist das Konzept museum-institution über die organizes-Rolle mit dem Konzept exibiting 

verbunden. 

Lexikalische und konzeptuelle DRSen sind über eine sog. confirmation-Relation miteinander 

in Beziehung gesetzt, die gleichzeitig die Semantik von lexikalischen DRSen bestimmt. Intuitiv 

ordnet diese Relation einer lexikalischen DRS (wie der in (47) angegebenen) die Menge 

von konzeptuellen DRSen zu, auf die sich die lexikalische DRS in verschiedenen Kontexten 

beziehen kann; im Falle von Museum sind dies die verschiedenen konzeptuellen Strukturen 

für die Lesarten Gebäude, Institution, Sammlung und Personal. 

In welcher Weise wird nun von diesem Apparat bei der Interpretation von NN-Komposita 

Gebrauch gemacht? 

Meyer nimmt einen mehrstufigen, durch einfache, binär verzweigende Syntaxregeln (N � 

N N) gesteuerten Algorithmus an, der schematisch in Abb. 3.4 wiedergegeben ist (Meyer 

(1993:147)) 11 : 

11 Ein ähnlicher Vorschlag findet sich auch schon in Boase-Beier et al. (1984).


Theta-role assignment 

fail or search for alternatives 

relation from lexical DRS of the head noun 

conceptually founded relations 

fail or search for alternatives 

Abb. 3.4: Schematischer Algorithmus zur kontextunabhängigen Interpretation von NN-Komposita 

Zunächst wird demnach versucht, eine Interpretation auf grammatischer Basis zu finden, 

indem untersucht wird, ob das Hinterglied ein relationales Nomen ist, welches eine Argumentstelle 

aufweist, die durch das Vorderglied gesättigt werden kann. Ist dies der Fall, dann 

wird die lexikalische DRS für das Vorderglied in die DRS des Hinterglieds eingebettet, so 

daß eine neue komplexe lexikalische DRS entsteht. Als Beispiel ist in Abb. 3.5 die DRS für 

Museumsfan angegeben. 

� x 

x y 

fan-of(x,y) 

! 

[z] 

�(z,p) 

p= 

z = y 

t e1 e2 


informing(e2) 

theme(e1,t) 

theme(e2,t) 

Abb. 3.5: DRS für „Museumsfan“ 

(„!“ ist der Generizitätsoperator, der ausdrücken soll, daß Modifizierer bei NN-Komposita 

häufig in ihrer generischen Lesart verstanden werden). Voraussetzung für die Anwendung 

dieser Interpretationsregel ist natürlich, daß die Selektionsbeschränkungen für die interne 

Argumentstelle des relationalen Nomens nicht verletzt werden; dies wird durch einen Test 

sichergestellt, der überprüft, ob eine der Argumentstellenbeschränkungen des Kopfes eines 

derjenigen Konzepte des Modifizierers subsumiert, die mit seiner lexikalischen DRS in besagter 

confirmation-Relation stehen. Fan weist keine Beschränkungen für sein internes Argument 

auf (man kann Fan von allem sein), während Sohn festlegt, daß sich sein internes 

Argument auf ein Subkonzept von menschlich bezieht. 

Nachdem der Interpretationsalgorithmus versucht hat, Deutungen auf der Grundlage einer 

Thetarollenzuweisung zu finden, prüft er nun im zweiten Schritt, ob sich eine Relation zwischen 

Vorder- und Hinterglied auf der Grundlage der mit den beteiligten DRSen mittels des 

�-Operators verknüpften Zweckangaben finden läßt. Hierbei wird aus dem durch die lexikalische 

DRS des Zweitgliedes denotierten Gesamtkonzept ein Teilkonzept herausgegriffen, 

72


welches das Denotat der durch den �-Operator eingebetteten Rollen enthält. Wenn das mit 

dem zweiten Argument dieser Rolle verknüpfte Konzept ein Konzept aus dem Gesamtkonzept 

der lexikalischen DRS des Erstgliedes subsumiert, dann kann die Interpretationsregel 

erfolgreich angewandt werden. 

Dieser zunächst kompliziert anmutende Sachverhalt soll beispielhaft am Kompositum Büchermuseum 

erläutert werden, dessen lexikalische DRS in Abb. 3.6 gezeigt ist. 

� x 

x u 

�(x,q) 

q= 

! 

y e1 e2 


informing(e2) 

theme(e1,y) 

theme(e2,y) 

y = u 

[w] 

�(w,p) 

p= 

w = u 

i j e3 e4 

mediating(e3) 

publishing-company-institution(i) 

publishing(e4) 

theme(e3,j) 

agent(e4,i) 

Abb. 3.6 Lexikalische DRS für „Büchermuseum“: 

Die u.a. mögliche Lesart „Institution, die über Bücher informiert“ erhält man folgendermaßen: 

aus dem durch die lexikalische DRS für Museum denotierten Gesamtkonzept – bestehend 

aus den Teilkonzepten für Gebäude, Institution (in Abb. 3.3 wiedergegeben), Sammlung und 

Personal – wählt man das Teilkonzept museum-institution aus. Dann sucht man eine Rolle aus 

diesem Konzept – theme(e4, w) in Abb. 3.3 – und betrachtet das mit dem zweiten Argument 

dieser Rolle (w) verbundene Konzept all, welches das allgemeinste Konzept in der Konzepthierarchie 

ist. Wenn dieses Konzept eines der durch das Nomen Buch ausgedrückten 

Konzepte (beispielsweise physical-object und information-carrier) subsumiert, was der Fall ist, 

dann ist das Ergebnis eine zulässige Interpretation. 

Sollte der Algorithmus bis jetzt gescheitert sein bzw. sollen noch weitere Interpretationsalternativen 

ermittelt werden, so versucht das Verfahren, Relationen zwischen den Kompositagliedern 

zu finden, die vollständig konzeptuell motiviert sind; hierbei gibt es erwartungsgemäß 

die größte Bandbreite an Interpretationsmöglichkeiten. 

Ist es nicht möglich, Relationen zwischen den beiden Gesamtkonzepten zu finden, so setzt 

sich die Suche in den übergeordneten Konzepten fort. Abhängig von der Art der Konzepte 

werden hier auch konzept- und domänenspezifische Relationen wie part-of, has-part, made-of, 

location etc. in Erwägung gezogen. Im Rahmen dieser Arbeit kann ich nicht weiter auf die 

vorgeschlagenen Möglichkeiten zur Relationenbestimmung eingehen; der interessierte Leser 

sei auf Kapitel 5.4 in Meyers Arbeit verwiesen. 

73


Obwohl Meyers Arbeit sehr fundiert den Zusammenhang von Wortsyntax, grammatisch 

und konzeptuell gesteuerter Interpretation rekonstruiert, gibt es doch einige Punkte, die 

kritisiert werden können: 

(i) Wie verhält sich Meyers Ansatz zu den wenigen Restriktionen die für NN-Komposita 

gelten (vgl. auch Olsen 1994)? 

1. Negation kann nicht Teil der erschlossenen Relation zwischen den beiden Kompositabestandteilen 

sein 

2. "Zu weit hergeholte Relationen" wie bei "Benzinfabrik = Fabrik, bei der zum Reinigen der Reaktionsbehälter 

Benzin verwendet wird" sind bei einer Interpretation im Nullkontext ausgeschlossen. 

Restriktion 1 wird von Meyer schon dadurch Rechnung getragen, daß die Syntax von DRSlex 

insbes. bei der Einbettung von DRSen mittels des �-Operators keine Negation zuläßt, was 

sich über die confirmation-Relation auch auf diejenigen konzeptuellen DRSen überträgt, die 

das Gesamtkonzept einer lexikalischen DRS wiedergeben. Negation kann somit bei Interpretationen 

auf der Grundlage einer stereotypen Relation keine Rolle spielen. 

Die Relationen, auf die sich Restriktion 2 bezieht, könnten sich entweder aus den mit der 

lexikalischen DRS verknüpften stereotypen Zweckangaben ergeben oder aus der mit Hilfe 

von DRSc abgebildeten Konzepthierarchie rekonstruiert werden. Die erste Möglichkeit ist 

jedoch ausgeschlossen, da stereotype Relationen nur prototypische Verwendungsweisen 

widerspiegeln können; die typische Verwendungsweise einer Fabrik ist beispielsweise die, 

daß in ihr etwas hergestellt wird. Somit können "zu weit hergeholte" Relationen nur durch 

die über der Konzepthierarchie operierenden dritten Interpretationsregel zustande kommen. 

Hier würden jedoch aufgrund einer von Meyer vorgeschlagenen Anordnung (S. 148) von 

verschiedenen Interpretationsstrategien zunächst weitaus plausiblere Interpretationen generiert, 

so daß Deutungen wie bei der erwähnten Benzinfabrik kaum möglich sind. 

(ii) Meyers zweite Interpretationsregel geht davon aus, daß nur stereotype Relationen aus 

dem Zweitglied des Kompositums bei der Deutung Verwendung finden können. Dies greift 

jedoch zu kurz, da in manchen Fällen auch stereotype Relationen aus dem Erstglied herangezogen 

werden wie z.B. in Dosenfisch (enthält(x, y)) oder Fabrikschuh (produziert(x, y)). Das 

von Meyer erfaßte Interpretationsmuster ist jedoch zugegebenermaßen das produktivere. 

(iii) In Übereinstimmung mit Boase-Beier et al. (1984:79) bin ich der Ansicht, daß die Ähnlichkeitsrelation 

(die beispielsweise bei der Interpretation von Samtstimme eine Rolle spielt), keine 

stereotype Relation sein kann. Sie ist jedoch meiner Meinung nach auch keine in der statischen 

Konzepthierarchie verankerte Relation, sondern eine, die aufgrund von Inferenzprozessen 

erschlossen wird. Inferenzprozesse läßt Meyer nun ausdrücklich zu, ohne jedoch explizit 

zu machen, auf welche Weise Hörer zu Deutungen auf der Grundlage der Ähnlichkeitsrelation 

kommen. 

(iv) Mein letzter Einwand betrifft Meyers formalen Apparat, insbes. seine Übersetzungfunktion 

von TBOX-Ausdrücken der zum Ausgangspunkt genommenen Wissensrepräsentationssprache 

nach Elementen aus DRLc. Es scheint mir nicht möglich, das vom Autor auf S. 77 

wiedergegebene Beispiel der TBOX-Konzeptrepräsentation von CAR in Ausdrücke von 

DRLc zu überführen. Bei den Übersetzungs- und mengentheoretischen Deutungsregeln fehlen 

insbes. diejenigen für die Definition von Konzepten (� und �). Konkret: aufgrund welcher 

Übersetzungsregeln kommt beispielsweise die auf Seite 79 abgebildete konzeptuelle 

DRS für CAR zustande. Darüber hinaus ist mir nicht klar geworden, wie man mit Hilfe dieses 

Übersetzungsapparates zu dreistelligen Relationen wie containment(t,x,y) (Meyer 

(1993:131)) gelangen kann. 

74


3.3.2 Wortsemantik als freie Anwendung semantischer Operationen 

In einer Reihe von Arbeiten hat Gisbert Fanselow (Fanselow 1985, 1987, 1988a, b) einen Ansatz 

vorgestellt, der in Kontrast zu den in Kapitel 3.1 behandelten, syntaxorientierten 

Theorien steht. Ausgangspunkt von Fanselow ist die Tatsache, daß auch eine postulierte 

syntaktische Struktur von Wörtern letztendlich dem Ziel dienen muß, eine Interpretation 

komplexer Wörter zu ermöglichen. Grundsätzlich gibt es jedoch zwei Möglichkeiten, 

Bedeutungen zu konstruieren: 

1. Die Interpretation vollzieht sich syntaxgesteuert, d.h. es gibt eine Reihe von Syntaxregeln 

zum Aufbau komplexer Wörter und jeder dieser Regeln ist eine semantische Operation 

zugeordnet, die kompositionell die Bedeutung der Konstituente aus ihren Teilen errechnet. 

2. Die Interpretation ist unabhängig von der syntaktischen Struktur des Wortes und ergibt 

sich durch Anwendung bestimmter semantischer Basisoperationen. 

Möglichkeit 1 wird im wesentlichen in Fanselow (1981) verfolgt. Auf der Grundlage des 

Ansatzes von Montague postulierte Fanselow dort etwa 30 Paare von Syntaxregel – 

semantischer Operation, um einen substantiellen Ausschnitt der Komposition im Deutschen 

zu beschreiben. Diese Vorgehensweise ist jedoch kritisiert worden (z.B. von Handwerker 

(1985)): 

� Dieses Grammatik/Interpretations-Fragment erfaßt nur deskriptiv die verschiedenen 

Interpretationsalternativen, gibt jedoch keine prinzipielle Antwort darauf, warum gerade 

diese Möglichkeiten realisiert sind und andere nicht. 

� Aufgrund der sehr armen Syntax von Komposita – im wesentlichen gibt es nur Regeln 

der Form X � Y X – werden demnach einer einzigen syntaktischen Struktur sehr viele 

verschiedene Interpretationsregeln zugeordnet, was letztlich natürlich ineffizient ist, zu 

unplausiblen Deutungen führt und der rule-by-rule-Konzeption von Montague zuwiderläuft. 

Sinnvoll ist eine syntaxgesteuerte Interpretationskomponente m.a.W. nur dann, wenn aus 

einer bestimmten syntaktischen Konstruktion eindeutig die anzuwendende semantische 

Regel folgt. 

Der Schlüssel zur Lösung dieses Zuordnungsproblems und damit Möglichkeit 2 liegt nun 

darin, daß das Repertoire der semantischen Grundoperationen in diesen Interpretationsregeln 

sehr beschränkt ist, was an einem Fanselow (1985:294) entnommenen Beispiel demonstriert 

werden soll: 

(48) 

For all compounds AB, if A denotes the property a and B denotes the property b, and 

if r is a two-place relation stereotypically associated with B, the AB denotes: 

�x (b(x) � r(�P(�y �z (a(y) � a(z) � P(y) � P(z) ))(x))) 

Regel (48) wird zur Interpretation von Komposita mit einer aus dem Zweitglied erschlossenen 

stereotypen Relation – beispielsweise Computerfabrik – herangezogen, dessen semantische 

Struktur als Funktion von Individuen zu Wahrheitswerten dann so aussieht: 

(49) 

�x (fabrik’(x) � produziert’(�P(�y �z (computer’(y) � computer’(z) � P(y) � P(z) ))(x))) 

M.a.W. eine Computerfabrik ist eine Fabrik, die mindestens zwei Computer produziert. 

Fanselows Schlüsselbeobachtung ist nun die, daß alle ähnlich gearteten Deutungsregeln aus 

dem folgenden Grundinventar aufgebaut sind: 

75

(50) 


a) Funktionalapplikation, d.h. Anwendung einer Funktion auf ein oder mehrere Argumente 

b) Konjunktion 

c) Pluralische Quantifikation 

d) Erschließen einer stereotypen Relation 

e) Existentielles Schließen einer Argumentstelle 

Die Operationen a) bis d) sind in (49) realisiert: Funktionalapplikation bei der Anwendung 

der stereotypen Relation r auf das Denotat des Erstglieds, Konjunktion bei der Verknüpfung 

des Denotats des Zweitglieds mit dieser Relation r, Pluralquantifikation in sehr rudimentärer 

Form durch die Forderung, daß es zwei Individuen y und z geben muß, die die Eigenschaft, 

die das Erstglied denotiert, erfüllen. Erschließen einer stereotypen Relation schließlich 

durch Einführung der Relation r aufgrund der Semantik des Zweitgliedes. 

Fanselow nimmt nun an, daß sich die Anwendung dieser Operationen frei ohne einen Bezug 

zur syntaktischen Struktur (die er in rudimentärer Form immer noch annehmen muß; mehr 

dazu weiter unten) vollzieht. Hierzu formuliert er folgendes Prinzip (Fanselow 1985: 295): 

(51) 

The interpretation of any compound can be obtained by a successive application of the simple, 

possibly universal processes given in [50] [im Original (8)]. 

Die Anwendung dieser Grundoperationen – die Fanselow im übrigen auch in der Satzsyntax 

annimmt – ist hier wie dort vollkommen frei. Da sich bei unbeschränkter Anwendung jedoch 

auch viele unzulässige Deutungen ergeben, müssen diese Prozesse wiederum beschränkt 

werden, ganz im Sinne des modularen Aufbaus der Syntaxtheorie im Anschluß an 

Chomsky (1981), der neben Generatormodulen wie der X-Bar-Theorie und der Transformation 

„Move �“ eine Reihe von Testmodulen wie der Kasus-, Theta- und Bindungstheorie 

annimmt. 

Diese Beschränkungen speisen sich aus wenigstens zwei Quellen: 

� Merkmalsperkolationsbedingungen 

� Einer Verbindung zwischen syntaktischen und typentheoretischen Kategorien 

Merkmalsperkolationsbedingungen (vgl. Kapitel 3.1.1.1) stellen nach Fanselow den letzten 

Rest syntaktischer Struktur auf der Ebene der Wörter her. Im wesentlichen geht es hierbei 

um die Gleichheit der Wortartmerkmale zwischen dem im Deutschen rechts stehenden Kopf 

und dem Gesamtwort. Das Zweitglied bestimmt demnach immer die syntaktische Kategorie 

und eine Reihe von weiteren Eigenschaften des zusammengesetzten Wortes. 

Die Verbindung zwischen syntaktischen und typentheoretischen Kategorien ist nun das 

Bindeglied zwischen Wortsyntax und Wortsemantik, das die syntaxgesteuerten Interpretationsregeln 

der vorhergehenden Konzeption in Fanselow (1981) ablöst. Hierzu wird eine 

Korrelation zwischen Kategorien und logischen Typen im Rahmen der Montague- 

Grammatik angenommen, die in Tabelle 3.8 wiedergegeben ist (frei nach Fanselow (1985: 

298)): 

76

Syntaktische 

Kategorie 

Nomen 

(Individuennomina) 


Typenlogische Kategorie 

 

77 

Informelle 

Umschreibung 

Einstellige Prädikate 

(Mengen) 

Beispiele 

Frau, Buch 

Relationale Nomen Zweistellige Relationen Bruder, Sohn 

Verben 

 

 

Adjektive 

 

Ein- bis dreistellige 

Relationen 

Ein- und zweistellige 

Relationen 

laufen, 

kennen, 

geben 

frei, 

treu 

Tabelle 3.8: Beziehung zwischen syntaktischen Typen und typenlogischen Kategorien 

Die Anwendung der semantischen Grundoperationen in (50) wird jetzt durch das folgende, 

universell geltende Prinzip eingeschränkt (nach Fanselow (1985:299)): 

(52) 

Kein Ergebnis der Anwendung der semantischen Operationen in (50) darf der Korrelation 

aus Tabelle 3.8 und den Bedingungen für die Verteilung von Wortartmerkmalen 

widersprechen; darüber hinaus muß die Konjunktion auf Konjunkte mit gleichem 

logischen Typ beschränkt werden. 

Wie die freie Anwendung der semantischen Operationen aus (50) mit den Restriktionen aus 

Tabelle 3.8 interagiert, möchte ich am Beispiel des Nomens Anwaltssohn darstellen, dessen 

syntaktische Struktur in (53) wiedergegeben ist: 

(53) 

N 

N N 

Anwalt Sohn 

� x anwalt'(x) �y 

�z 

sohn'(y,z) 

Aufgrund der Rechtsköpfigkeit deutscher Wortstrukturen ist das Gesamtwort ebenfalls ein 

Nomen und muß daher, nach Prinzip (50) und Tabelle 3.8, ein Prädikat bzw. eine 

zweistellige Relation denotieren. Durch freie Applikation der Operationen aus (50) sind u.a. 

folgende Interpretationen herstellbar: 

� �x (�y sohn’(x,y) � anwalt’(x)): Die zweite Argumentstelle von sohn’ wird existentiell geschlossen 

und, da jetzt beide Konjunkte von gleichem Typ sind – Funktionen von Individuen 

zu Wahrheitswerten –, können sie mit � verknüpft werden. Informell bedeutet dies: 

x ist ein Sohn von irgend jemandem und x ist Anwalt. Diese Lesart ist zwar nicht die präferierte, 

grundsätzlich jedoch nicht ausgeschlossen, vgl. 

(54) 

Ich hörte, daß gestern dein Anwaltssohn wieder mal zu Besuch war. (im Gegensatz zum 

Physikersohn) 

� �x �y (anwalt’(y) � sohn’(x,y)): Die offene Argumentstelle von �y anwalt’(y) wird existentiell 

geschlossen und die Funktion sohn’ auf die existenzquantifizierte Variable y angewandt, 

was die bevorzugte Lesart „x ist der Sohn eines Anwalts“ ergibt.


� �x ( �y sohn’(x,y) � anwalt’(x)): Alle Argumentstellen werden existentiell geschlossen und 

die Konjunktion der entstehenden Formeln gebildet. Die informelle Lesart hiervon lautet: 

„Der Sohn ist Anwalt“. Diese Deutung ist jedoch ausgeschlossen, da die Und-Verknüpfung 

zweier Sätze wiederum einen solchen ergibt, der logische Typ von Sätzen aber nicht 

mit dem Individuennomen zugeordneten Typ kompatibel ist. 

Obwohl Merkmals- und Typ-Kategorie-Beschränkungen viele unzulässige Interpretationen 

ausfiltern, gibt es eine ganze Reihe von Restriktionen, die durch diesen relativ grob arbeitenden 

Apparat nicht berücksichtigt werden können, beispielsweise 

� konzeptuelle Beschränkungen: die zweite Argumentstelle von Sohn ist z.B. auf Nomen 

mit dem Merkmal +menschlich festgelegt. 

� Beschränkungen, die sich aufgrund der Aktionsart von an Wortbildungsprozessen beteiligten 

Verben ergeben. 

Um seinen Ansatz zu rechtfertigen, muß Fanselow (1985) auch den Wortbildungstyp Derivation 

aus semantischer Perspektive sehen, d.h. auch die Derivation ist nicht von primär 

syntaktischer Natur, sondern ergibt sich wie die Komposition durch freies Applizieren semantischer 

Grundoperationen. 

Soll dieser semantisch-konzeptuelle Interpretationsansatz als Gegenmodell zu den syntaktischen 

Ansätzen etabliert werden, so muß er Aussagen zu den Daten machen, deren Erklärung 

letztere sich selbst als ihre Stärke anrechnen. Dies sind vor allem: 

� Argumentstrukturvererbung 

� Beschränkungen in der Produktivität von Wortbildungsprozessen 

Verfechter eines syntaktischen Ansatzes der Wortbildung versuchen, Datenpaare wie in (55) 

(55) 

a) die Mannschaft verliert das Spiel 

b) die Verlierer des Spiels 

durch Argumentvererbung (vgl. Kap. 3.1.2.2) in Beziehung zu setzen. Hiernach erhalten das 

Akkusativobjekt in (55a) und das Genitivkomplement in (55b) die gleiche Thetarolle 

(Thema), d.h. bei der Ableitung von transitiven Verben mit -er vererbt sich diese Argumentrolle 

vom Basisverb an das Derivat. Daneben wird auch die Agens-Thetarolle an das 

deverbale Nomen als externes Argument vererbt. 

Argumentvererbung wird von den Vertretern eines syntaktischen Ansatzes formal in der 

Weise rekonstruiert, daß als weitere semantische Operation die sog. Funktionalkomposition 

angenommen wird, d.h. es wird zugelassen, daß das Argument einer Funktion selbst eine 

Funktion sein kann, also noch offene Argumentstellen besitzt. Funktionalkomposition kann 

auch zur Deutung einiger modifizierender Ausdrücke in der phrasalen Syntax herangezogen 

werden, beispielsweise bei der Analyse von A-N-Konstruktionen wie (56) 

(56) der angebliche Mörder 

was sich als Anwendung der durch angeblich ausgedrückten Funktion auf die Funktion 

�x Mörder(x) analysieren läßt. 

Der Vorteil der Funktionalkomposition zur Analyse besteht darin, daß sie unerwünschte 

Redundanzen im Lexikon beseitigt (vgl. Moortgart (1986)). 

Beispiel: 

Das Suffix -er kann mit transitiven und intransitiven Verben verbunden werden, vgl. 

(57) 

a) rauchen – Raucher 

78

) verlieren – Verlierer 


Zur Analyse kann man zwei homophone er-Suffixe mit „leerer“ Semantik ansetzen, die 

mittels Funktionalapplikation auf die Übersetzung des jeweiligen Verbs angewendet 

werden: 

(58) 

Syntax Semantik 

er1-Regel: N � Vi er1 Ü(er1)(Ü(Vi)) = [�Pi Pi ]( Ü(Vi)) 

er2-Regel: N � Vt er2 Ü(er2)(Ü(Vt)) = [�Pt Pt]( Ü(Vt)) 

d.h. angewendet auf die Beispiele in (57): 

(59) 

a) Raucher: [�Pi Pi ]( �x rauch’) = �x rauch’(x) 

b) Verlierer: [�Pt Pt(x,y)]( �x �y verlier’) = �x �y verlier’(x,y) 

Statt dessen könnte auch nur ein er-Suffix angewendet werden, das durch Funktionalkomposition 

mit der Verbsemantik verknüpft wird. 

Zu erklären gilt es jedoch, warum Argumentvererbung in vielen Fällen blockiert ist, vgl. 

(60) * der Verhüter des Unfalls 

während, die wortinterne Sättigung ohne weiteres möglich ist: 

(61) der Unfallverhüter 

Im Rahmen der Konzeption von Fanselow (1988b) wird dieser Kontrast folgendermaßen 

erklärt: das Suffix -er verlangt für sein Argument das typenlogische Äquivalent eines intransitiven 

Verbs. Als Basisverben sind demzufolge nur intransitive Verben wie beispielsweise 

rauchen oder transitive Verben mit einer intransitiven Lesart (d.h. transitive Verben, bei denen 

die Objektsstelle existentiell geschlossen ist, wie bei essen) zugelassen. Das scheinbare 

Gegenbeispiel (55b) wird nun dadurch erklärt, daß aus dem deverbalen Nomen Verlierer 

wiederum eine stereotype Relation verlieren erschlossen wird, deren zweite Argumentstelle 

zur Bindung des Genitivkomplements dient. Evidenz hierfür liefert die Tatsache, daß 

Genitivkomplemente auch bei nicht-derivierten Nomen möglich sind, vgl. 

(62) 

a) der Autor des Romans 

b) der Verfasser des Romans 

Sowohl das Simplexnomen Autor wie das deverbale Nomen Verfasser lassen die Inferenz 

einer Relation schreiben zu, die zur Bindung des Komplements verwendet wird. Da das Erschließen 

der Relation i.a. keine allzu großen Schwierigkeiten macht, muß nun jedoch erklärt 

werden, warum (60) nicht möglich ist. Die Erklärung könnte darin liegen, daß Verben wie 

verhüten obligat transitiv sind und daher eine er-Nominalisierung nicht zulassen. Die Tatsache 

schließlich, daß in solchen Fällen eine kompositainterne Sättigung wie in (61) immer 

möglich scheint, ergibt sich daraus, daß hierdurch eine Intransitivierung des Verbs eintritt, 

welche die Ableitung mit -er möglich macht. Die aufgrund dieser semantischen Analyse 

rekonstruierte syntaktische Struktur sieht daher wie in (63) aus: 

(63) 

V 

N 

N V N 

Unfall verhüt er 

79


Allerdings ist eine intransitive Verbbasis noch keine hinreichende Bedingung für die Zulässigkeit 

einer Nominalisierung mit -er. Intransitive Verben wie ankommen, aufwachen, fallen 

usw. erlauben keine er-Ableitung (vgl. auch Abschnitt 3.4.1): 

(64) 

a) * Ankommer 

b) * Aufwacher 

c) * Faller 

Punktuelle Verben wie erblicken 12 , erschlagen, aufwachen gestatten i.a. keine er- Nominalisierung, 

wobei es jedoch Ausnahmen wie finden – Finder gibt. Die Ableitung mit -er ist auch bei 

der überwiegenden Zahl der ingressiven (erblühen, aufstehen, erklingen) und resultativen Verben 

(verblühen, verbrennen, ausklingen) nicht möglich; Ausnahmen hierbei wie Vollender müssen 

wohl durch Lexikalisierung „erklärt“ werden. Fanselow (1988b) schlägt zur Erklärung 

dieser Ableitungsblockierung vor, daß der semantische Beitrag von -er bei der Nominalisierung 

u.a. der ist, daß man die durch das Verb ausgedrückte Tätigkeit gewohnheitsmäßig 

ausübt. Punktuelle Verben lassen eine solche Interpretation jedoch kaum zu. Besser müßten 

sich daher Durativa wie blühen, schlafen, wohnen nominalisieren lassen, was interessanterweise 

mit Ausnahme von schlafen nicht geht. Die iterativen Verben wie beispielsweise sticheln, 

krabbeln, grübeln bestätigen jedoch diese Erklärung. 

Obwohl Fanselows Ansatz zunächst äußerst vielversprechend ist, gibt es doch einige z.T. 

erhebliche Kritikpunkte: 

1. Welche Konsequenzen hat die Verlagerung der Hauptlast von den Syntaxregeln zu den 

logischen Typen, die den Morphemen zugeordnet sind? Zunächst einmal wird die Wortsyntax 

im semantischen Ansatz von Fanselow keineswegs abgeschafft; sie ist vielmehr 

implizit in der typenlogischen Charakterisierung der verschiedenen syntaktischen Kategorien 

und explizit mit den Merkmalsperkolationsbedingungen präsent. Da sich nach 

traditioneller Auffassung der Montague-Semantik die semantischen Typen aus den syntaktischen 

Kategorien durch Anwendung einer einfachen Abbildungsvorschrift ergeben, 

setzt Fanselows Konzeption implizit eine wortinterne Strukturierung voraus, entlang der 

die semantischen Operationen angewendet werden. Dies bedeutet, daß die Syntax in gewisser 

Weise der Semantik „vorgeordnet“ ist und die Anwendung der semantischen 

Auswertung leitet. Nur dadurch kann u.a. verhindert werden, daß eine Funktion auf ein 

Argument appliziert werden kann, das dem syntaktischen Träger der Funktion nicht 

benachbart ist. Meiner Meinung nach argumentiert Fanselow nicht gegen die Annahme 

einer syntaktischen Struktur von Wörtern, sondern nur dagegen, daß a) diese Struktur 

autonom ist und unabhängigen Prinzipien folgt und b) die Wortsyntax und ihre 

Prinzipen in der Universalgrammatik verankert sind. 13 Fanselow folgt hier Chomsky 

(1982), der die Wortsyntax für so trivial hält, daß sie lediglich auf der Grundlage positiver 

Evidenz während des Spracherwerbs erlernt werden kann. 

2. Was ist nun – nachdem in 1. festgestellt wurde, daß eine wortsyntaktische Ebene weiterhin 

angenommen werden muß – der eigentliche Gehalt von G. Fanselows Ansatz? Leider 

bleibt von dieser äußerst interessanten Idee weniger übrig als zuvor angenommen. Zur 

Explizitmachung der Wortstruktur benötigt man zunächst einen Formalismus, der in der 

Lage ist, die Anforderungen, die ein syntaktischer Kopf an seine Umgebung stellt, in seiner 

syntaktischen Kategorie zu codieren. In Frage kämen hierzu Kategorialgrammatiken 

oder HPSG-ähnliche Formalismen, die in einer einem morphologischen Kopf zugeord- 

12 Die hier angeführten Verben entstammen dem Duden (1994:93). 

13 Gisbert Fanselow (p.M.) bestätigt diese Auffassung. 

80


neten Argumentliste zu sättigende Argumentstellen festhalten. Auf diese Weise ist es 

möglich, semantische Kombinationsbeschränkungen wieder auf syntaktische zurückzuführen. 

Anschließend kann das etwas ineffiziente generate-and-test-Verfahren des Ansatzes 

verbessert werden, indem Beschränkungen der Testphase in den Generator vorverlegt 

werden und somit so früh wie möglich zur Anwendung kommen. 

3. Wie wir weiter oben gesehen haben, kann sinnvollerweise zwischen stereotypen Relationen 

– diejenigen, die mit dem �-Operator in der Konzeption von Meyer (1993) verknüpft 

sind –, und Relationen, die eher konzeptuellen Ursprungs sind, unterschieden werden. 

Diese Unterscheidung findet keinen Reflex in Fanselows Ansatz, trivialerweise deshalb, 

da er – obgleich semantisch-konzeptuell orientiert – nur stereotype Relationen kennt. Eine 

Erweiterung um konzeptuelle Relationen scheint jedoch kein Problem darzustellen. 

4. Wenn man Fanselow (1987, 1988b) folgt, dann ist die Interpretation von Wort- wie von 

Phrasenstrukturen nicht eng an diese gebunden, sondern Teil des konzeptuellen Systems. 

Es gibt demnach nur eine solche Komponente, die in beiden Fällen nach exakt den gleichen 

Prinzipien arbeitet. Wie ist es aber dann zu erklären, daß diese Komponente sensitiv 

gegenüber der Unterscheidung wortintern – wortextern ist, die sich beispielsweise bei der 

Argumentvererbung bemerkbar macht: „[...] we are forced to conclude that obligatory 

arguments of verbs must be filled within the complex word itself [...]“ (Fanselow 

(1988b:40)). 

5. Fanselows Leugnung der Möglichkeit von Argumentvererbung ist bereits kritisiert worden, 

so u.a. von Reis (1983); diese Argumente sollen hier nicht wiederholt werden. Einen 

weiteren Einwand gegen Fanselow möchte ich jedoch noch hinzufügen; dieser ergibt 

sich, wenn man die in Abschnitt 3.2.2.2 dargestellte be-Präfigierung für einen produktiven 

und damit regelgeleiteten Prozeß hält. Das dort genannte Beispiel sei hier noch einmal 

wiederholt: 

(65) 

a) Sie gießt [NP Wasser] [PP auf die Blumen ] 

b) Sie begießt [NP die Blumen] [PP mit Wasser ] 

Bei der be-Präfigierung von dreiwertigen Verben kommt es zu einer charakteristischen 

Änderung der syntaktischen Realisierung der Objektsthetarollen. Fanselow schließt nun – 

wie oben dargestellt – Funktionalkomposition und damit Argumentvererbung aus dem 

Repertoire der für die Derivation zur Verfügung stehenden Operationen aus. Er bezieht 

sich zwar nur auf die Suffigierung, aber ich sehe nicht, warum seine Argumente nicht 

auch für die Präfigierung gelten sollten. Die m.E. systematische Beziehung zwischen be- 

und Simplexverb wird danach so hergestellt, daß aus dem be-Verb eine stereotype Relation 

erschlossen wird, die eben Argumente von einer bestimmten Art erfordert. Diese 

Relation kann in Beispiel (65b) jedoch nur gießen sein, nicht jedoch begießen, da das Verb, 

welches letztere ausdrückt, ja erst gebildet wird. Ist gießen jedoch die aus begießen erschlossene 

Relation, so bleibt ungeklärt, warum dessen Argumente in einer anderen Reihenfolge 

und syntaktisch in unterschiedlicher Weise verwirklicht werden. Die Argumentreihenfolge 

des Simplexverbs übertragen auf das be-Verb würde schließlich so aussehen: 

(66) * Sie begießt [PP mit Wasser ] [NP die Blumen] 

was jedoch nicht akzeptabel ist. Der Schluß, den ich daraus ziehe ist der, daß man das 

Phänomen der Argumentvererbung nicht gänzlich leugnen kann und daher im formalen 

semantischen Apparat auch eine Operation – Funktionalkomposition – benötigt, die dieses 

Phänomen rekonstruiert. 

81

3.4 Das generative Lexikon 

3.4.1 Struktur 


Ein sehr interessanter Versuch, eine einheitliche semantische Beschreibung aller Kategorien 

im Lexikon zu geben und der als eine elaborierte Synthese und Weiterentwicklung der zuvor 

vorgestellten Ideen angesehen werden kann, ist der von Pustejovsky (1991, 1995). Da 

dieser Ansatz in stark abgewandelter Form auch Grundlage der Analysen in Kapitel 5 ist, 

soll er an diese Stelle etwas ausführlicher dargestellt werden. 

Der Ausgangspunkt für Pustejovsky ist, ebenso wie bei Bierwisch (1983) und Meyer (1993), 

das Phänomen der Polysemie, d.h. daß die verschiedenen Lesarten mancher Wörter systematische 

Bezüge untereinander aufweisen. In Pustejovsky (1995:28) wird in erster Linie ein 

Subtyp der Polysemie, die sog. logische Polysemie betrachtet, die definiert wird als „a 

complementary ambiguity where there is no change in lexical category, and the multiple senses of the 

word have overlapping, dependent, or shared meanings.“ 

Traditionellerweise wird Polysemie im Lexikon durch eine Aufzählung der verschiedenen 

Lesarten behandelt – eine Methode, die Pustejovsky Sense Enumeration Lexicon nennt. Dabei 

erhält jede Lesart einen Eintrag, beispielsweise in Form einer Merkmalsstruktur, was am 

Beispiel von bank exemplifiziert wird (vgl. Pustejovsky (1995:34)): 

(67) 

CAT: 

GENUS: 

bank 1 

count_noun 

financial_institution 

82 

CAT: 

GENUS: 

bank 2 

count_noun 

shore 

Die gleiche Technik wird auch bei polysemen Nomen wie Museum usw. angewendet, d.h. 

jede Lesart erhält einen separaten Lexikoneintrag. 

Gegen diese Technik gibt es eine ganze Reihe von Einwänden (vgl. auch Pustejovsky 

(1995:39ff); das Hauptgegenargument ist natürlich das, daß die Gemeinsamkeiten der verschiedenen 

Lesarten im Fall von Polysemie – die Kernbedeutung nach Bierwisch (1983) – 

unausgedrückt bleiben. 

Wie sieht nun der Gegenentwurf von Pustejovsky aus? Lexikoneinträge sind hiernach hochstrukturierte 

Gebilde im Format der in Kapitel 2 betrachteten typisierten Merkmalsstrukturen 

(ein Umstand, der einer Verwendung dieser Konzeption in dieser Arbeit entgegenkommt). 

Ein solcher Lexikoneintrag weist zunächst vier Beschreibungsebenen auf: 

� Argumentstruktur 

� Qualia-Struktur 

� Ereignisstruktur 

� Vererbungsstruktur (lexical inheritance structure) 

Die Argumentstruktur ist gegeben durch eine Reihe von benannten Attributen (ARG1, ARG2 

usw.), deren Werte in vier verschiedene Argumenttypen klassifiziert werden: 

� True Arguments: Notwendig syntaktisch realisierte Parameter eines lexikalischen Kopfs, 

d.h. solche, die eine thematische Rolle tragen 

� Default Arguments: „Mitverstandene“ Argumente, d.h. existentiell gebundene Variablen 

in der dem lexikalischen Kopf zugeordneten, weiter unten näher beschriebenen Ereignisstruktur. 

� Shadow Arguments


� True Adjuncts: Modifikatoren, die vom lexikalischen Element nicht gefordert werden. 

Anhand des Verbs bauen können die ersten beiden Argumenttypen veranschaulicht werden: 

(68) 

ARGSTR: 

bauen 

ARG1: 

ARG2: 

D-ARG1: 

83 

animate_ind 

artifact 

material 

ARG1 und ARG2 beschreiben dabei Subjekt bzw. Objekt von bauen als belebtes Individuum 

bzw. Artefakt. Default-Argument ist ein Ausdruck vom Typ material, womit ausgedrückt 

wird, daß jeder Bauvorgang sich normalerweise eines Baumaterials bedient. Im Satz 

(69) Der Erfinder baut einen Automaten aus alten Bierdosen 

werden alle Argumente des Verbs durch passende Ausdrücke gebunden. 

Hervorhebenswert ist, daß die Argumentstruktur in dieser Konzeption semantischer Natur 

ist und folglich eine Art von konzeptueller Tiefenstruktur beschreibt. Es ist daher nicht notwendigerweise 

der Fall, daß „richtige“ Argumente (true arguments) auch syntaktisch realisiert 

werden müssen, was anhand der Argumentstruktur von Nomen verdeutlicht werden 

kann. 

(70) 

ARGSTR: ARG1: x: animal 

Vogel 

Nomen werden in der Prädikatenlogik üblicherweise als Funktionen von Individuen zu 

Wahrheitswerten repräsentiert, d.h. als einstellige Prädikate. In (69) wird dies durch die typisierte 

Variable x ausgedrückt. Allerdings wäre es besser, dieses referentielle Argument 

von den anderen Argumenten deutlicher zu unterscheiden, da es sich in vielfacher Weise 

anderes verhält; beispielsweise kann es – anders als nominale Argumente – unter ARG1, 

ARG2 etc. nicht mit morphosyntaktischen Merkmalen wie Kasus markiert werden. 

Eine in Pustejoysky (1995:132ff) skizzierte Realisierungstheorie ordnet dann diesen semantischen 

Argumenten ihre syntaktisch-kategoriale Realisierung zu; m.E. kann man hiermit aber 

nicht restfrei ideosynkratische Kasuszuweisungen u.ä. erklären, weswegen man kaum umhin 

kann, in die Angaben über die Argumente auch syntaktische Merkmale aufzunehmen. 

Die nächste Beschreibungsebene, Qualiastruktur genannt, kommt dem am nächsten, was 

normalerweise mit Techniken der Wissensrepräsentation erreicht wird. Hier wird festgelegt, 

wie die durch ein Wort ausgedrückten Konzepte untereinander und mit anderen Konzepten 

in Verbindung stehen. Die Qualiastruktur enthält vier Substrukturen (Rollen, roles genannt), 

die in Pustejovsky (1995:85f.)) wie folgt definiert und hier im Original wiedergegeben 

werden: 

1. CONSTITUTIVE: the relation between an object and its constituents, or proper parts. 

i. Material 

ii. Weight 

iii. Parts and component elements 

2. FORMAL: That which distinguishes the object within a larger domain. 

i. Orientation 

ii. Magnitude 

iii. Shape 

iv. Dimensionality

v. Color 

vi. Position 


3. TELIC: Purpose and function of the object. 

i. Purpose that an agent has in performing an act 

ii. Built-in function or aim which specifies certain activities 

4. AGENTIVE: Factors involved in the origin or „bringing about“ of an object. 

i. Creator 

ii. Artifact 

iii. Natural Kind 

iv. Causal Chain 

Auch wenn diese Untergliederung auf den ersten Blick plausibel erscheint, werden doch 

eine ganze Reihe von Fragen aufgeworfen, u.a.: 

1. Sind diese Unterscheidungen für die Wortbildung relevant? 

2. Beschreiben Sie nicht eher durch Nomen ausgedrückte Konzepte als durch Verben ausgedrückte 

Relationen? 

Zudem ist die „Unterbringung“ gewisser Relationen innerhalb der Qualia-Struktur, die 

schließlich den Weltwissensaspekt von lexikalischen Einheiten repräsentieren soll, innerhalb 

dieses Schemas manchmal ziemlich unklar. An welcher Stelle soll beispielsweise die Relation 

repräsentiert werden, die relationale Nomen wie Fan oder Sohn kennzeichnet? 

Doch zurück zur ersten Frage. Für die Wortbildung kann man diese Qualia-Rollen grob in 

zwei Gruppen unterteilen: FORMAL und CONSTITUTIVE auf der einen Seite, TELIC und 

AGENTIVE auf der anderen. Letztere entsprechen ungefähr dem, was bei Fanselow die stereotype 

Relation und bei Meyer der Purpose-Operator ist. Die telische Rolle eines Nomens wie 

Messer wird beispielsweise durch eine Relation schneiden belegt 14 : 

(71) 

ARGSTR: ARG1: x: tool 

QUALIA: 

Messer 

FORMAL: x 

TELIC: cut(e,x,y) 

Beim Kompositum Brotmesser z.B. belegt das Erstglied eine Argumentstelle (y) der telischen 

Relation schneiden. Die Variable y muß zudem noch in geeigneter Weise typisiert werden, 

um auf diese Weise die notwendigen Selektionsbeschränkungen zum Ausdruck zu bringen. 

Die beiden anderen Qualia-Rollen, FORMAL und CONSTITUTIVE entsprechen eher den allgemeinen 

konzeptuellen Relationen, die auch zur Wortinterpretation herangezogen werden 

können. Bei der Interpretation von Stahlmesser kann etwa die telische Relation von Messer 

aufgrund von Selektionsbeschränkungen (Stahl kann man normalerweise nicht mit Messern 

schneiden) nicht verwendet werden. Stattdessen wird die Interpretation „Messer aus (dem 

Material) Stahl“ bevorzugt, wobei die Relation „x ist aus dem Material y“ aus der formalen 

Rolle des Zweitglieds stammt. Das Kompositum Türklinke würde dementsprechend die 

CONSTITUTIVE-Rolle verwenden. Als Interpretationsheuristik könnte man also folgendes 

formulieren: 

14 Anmerkungen zum Beispiel: zur Frage, warum unter FORMAL die Variable x nochmal erscheint, s.u.; 

e steht für eine Ereignisvariable. Wie man übrigens erkennen kann, wird das „Mentalesische“ in der 

üblichen Weise mit dem Englischen identifiziert. 

84

(72) 


Probiere erst die Relationen unter TELIC und AGENTIVE, dann die unter FORMAL und 

CONSTITUTIVE aus. 

Wenn man dies noch um ein anderes „Prinzip“ erweitert, nämlich 

(73) 

Verwende zunächst die Einträge in der Argumentstruktur und dann erst die 

Relationen der Qualiastruktur, 

so kann man die in Boase-Beier at al. (1984) und auch in Meyer (1993) vorgeschlagene Interpretationshierarchie 

ziemlich genau rekonstruieren. 

Auf die zweite der oben gestellten Frage möchte ich im Zusammenhang mit der Ereignisstruktur 

zurück kommen. 

Ein weiteres Problem, was Pustejovsky m.E. nicht bedacht hat, ist das Phänomen der Argumentsättigung. 

Es ist wohl so, daß die in den unterschiedlichen Relationen der Qualia- 

Struktur manifestierten Argumentstellen wortintern und auch phrasal nur höchstens einmal 

verwendet werden können, was die folgenden Beispiele zeigen: 

(74) 

a) *Stahlstahlmesser 

b) *Stahlmesser aus Stahl 

c) Stahlbrotmesser 

d) Brotmesser aus Stahl 

Innerhalb des Interpretationsprozesses müssen „verwendete“ Argumente demnach entsprechend 

gekennzeichnet werden. Dies kann man etwa durch den geläufigen Mechanismus der 

Argumentlistenabarbeitung erreichen: Die zugänglichen Argumentstellen der Relationen 

befinden sich in einer Liste, die verkürzt oder unverändert während der Bottom-Up 

operierenden Interpretation an die Mutterkategorie weitergereicht wird; technische Details 

hierzu finden sich ebenfalls in Kapitel 5. Ähnlich muß natürlich auch mit den Elementen in 

der Argumentstruktur verfahren werden. 

Der Schwerpunkt der Konzeption von Pustejovsky (1995) liegt jedoch wie bereits erwähnt in 

einer adäquaten Behandlung der Polysemie, genauer gesagt der Repräsentation von regelgeleiteten 

Alternationen der folgenden Art (vgl. auch Pustejovsky (1995:92)): 

Alternation Beispiel 

Prozeß / Resultat Rettung, Verkauf 

Institution / Gebäude Museum, Bibliothek 

Individuum / Stoff Brot, Stahl 

Abb. 3.7: Typische Alternationen bei Nomen 

Da dies die Typisierung der referentiellen Argumentvariablen 15 betrifft, stellt sich die Frage, 

wie hiermit zu verfahren ist. Ein Typsystem wie das in Kapitel 2 vorgestellte böte zwei 

Möglichkeiten der Formalisierung dieser Alternatitionen: 

a) Typunifikation 

b) Typgeneralisierung 

Typunifikation hieße, daß die Typen der in Frage kommenden Alternanten einen gemeinsamen 

Subtyp aufwiesen, im Falle der Typen Institution und Gebäude also den Typ Institu- 

15 Pustejovsky unterscheidet wie oben angedeutet nicht zwischen referentiellen und syntaktischen 

Argumenten. 

85


tion_Gebäude, der dann der referentiellen Argumentstelle zugewiesen wird. Dies löst das 

Problem jedoch nicht, da dieser Typ nunmehr gleichzeitig beide Lesarten ausdrücken 

würde, was aber nicht der Fall ist, wie die in Abschnitt 3.3.2 gegebenen Sätze mit dem Beispiel 

Museum zeigen. Zudem blieben hier auch die Relationen zwischen den Lesarten unausgedrückt, 

im Beispielfall etwa substrat_für(Gebäude,Institution), weil es eben keine zwei 

verschiedenen Typen gibt, sondern nur ihren gemeinsamen Subtyp. 

Typgeneralisierung – also das referentielle Argument mit dem spezifischsten Supertyp der 

Ausgangstypen zu versehen – bietet auch keine Lösung, da dieser Supertyp u.U. im Vergleich 

zu den Ausgangstypen sehr viel unspezifischer sein könnte. 

Pustejovskys Antwort ist die Einführung eines speziellen Typkonstruktors, der aus zwei 

Typen �1 und �2 einen sog. dotted type �1 � �2 bildet; dieser ist der Typ des referentiellen Arguments 

von solchen Nomen wie Museum. Der FORMAL-Teil der Qualiastruktur enthält dann 

die Relationen, die zwischen den einfachen Typen gelten. Unter der Annahme der Assoziativität 

des dot-Operators kann dies auch noch auf weitere Lesarten ausgedehnt werden. Die 

nächste Abbildung zeigt die dem Nomen Museum zugeordnete Merkmalsstruktur 16 : 

(75) 

ARGSTR: 

Museum 

ARG1: x: building 

ARG2: y: institution 

QUALIA: FORMAL: in(y,x) 

TELIC: exibit(e,y,z:collection) 

Die nächste Substruktur des Qualia-Merkmals ist die Ereignisstruktur. Es sieht so aus, als 

würde sie in Pustejovsky (1995) nur Verben zukommen, obwohl man fragen könnte, ob sie 

nicht auch Prozeß/Resultat-Alternationen an den Tag legende Nominalisierungen wie Rettung 

eigen wäre. 

Die Ereignisstruktur dient dazu, die unterschiedlichen Aktionsarten von Verben zu erfassen. 

Unterschieden werden hier Zustände, Aktivitäten, und sog. Zustandsveränderungen. Letztere 

werden nochmals klassifiziert in accomplishment und achievement-Ereignisse. Die Aufnahme 

von Zuständen in die Ereignisstruktur ist eigentlich eine Fehlbenennung, soll aber im 

Augenblick nicht stören. Aktivitäten ausdrückende Verben wie arbeiten und laufen bezeichnen 

Ereignisse, die sich mehr oder weniger gleichförmig über ein bestimmtes Zeitintervall 

hinziehen. Zustandsveränderungen werden durch Verben ausgedrückt, bei denen eine Aktivität 

zu einem Abschluß gelangt. Zu unterscheiden sind hier Verben, bei denen dieser Abschluß 

augenblicklich erfolgt (wie finden und ankommen) und solche, bei denen dies eher 

graduell erfolgt (wie bei aufbauen und zerstören). 

Die Zugehörigkeit eines Verbs zu einer der obengenannten Klassen kann durch Modifikation 

der impliziten Ereignisvariablen mit Zeitadverbialen ermittelt werden (diese Tests sind 

aber lediglich als Heuristiken zu verstehen). So erlauben Aktivitätsverben eine Modifikation 

mit Zeitraumadverbialen, was bei achievement-Verben jedoch nicht möglich ist, vgl. 

16 In dieser, in Analogie zu einer Struktur in Pustejovsky (1995:101) gebildeten Merkmalsstruktur gibt 

es so manche Ungereimtheiten: Warum sind unter ARGSTR zwei Argumente angegeben, ganz so wie 

sonst bei transitiven Verben? Vielmehr müßte es doch so sein, daß das (einzige) referentielle Argument 

ein dotted type ist, der aus building und institution konstruiert wurde. Desweiteren ist nicht klar, 

warum die Relation in(y,x) unter FORMAL wiedergegeben wird; es ist nicht zu erkennen, wie dies mit 

der oben zitierten Definition der FORMAL-Rolle in Einklang zu bringen ist. Eine Konzeption, die diese 

Probleme vermeidet, wird in Kapitel 5 beschrieben. 

86

(76) Er fand seine Uhr eine Stunde lang 


Welche Rollen spielt die Ereignisstruktur bei der Wortbildung? Es sieht so aus, als könnten 

Aktivitätsverben wie arbeiten, krabbeln usw. ohne Einschränkung mit -er nominalisiert werden. 

Bei achievement-Verben scheint dies nicht zu funktionieren, vgl. *Ankommer. Auf der 

anderen Seite lassen sich Ereignisnominaliserungen gut auf der Grundlage von accomplishment-Verben 

mit ihrer charakteristischen Prozeß/Resultat-Alternation bilden, vgl. Rettung 

und Verkauf. Da er-Derivate überwiegend eine andere Alternation – die zwischen Agent 

und Instrument – an den Tag legen, ist zu erwarten, daß accomplishment-Verben eher nicht 

mit -er nominalisiert werden können; Beispiele wie *Aufbauer scheinen dies zu bestätigen 

(daß *Aufbauung und *Verkaufung nicht möglich sind, ist vermutlich durch Blockierung zu 

erklären). 

Allerdings gibt es hier viele Interferenzen mit der Lexikalisierung. Verben sind hinsichtlich 

der Neubildung nicht sonderlich produktiv (eine Ausnahme ist die Entstehung von Partikelverben), 

so daß sich die meisten derivationellen Bildungen auf der Basis von Simplexverben 

vollziehen. Dementsprechend gibt es hier auch sehr viele lexikalisierte Bildungen wie Sucher 

(Teil der Kamera), Zerstörer (Schiff) und Ausnahmen zu den erwähnten Regularitäten wie 

Finder. 

Über die letzte Beschreibungsebene, die Vererbungsstruktur, haben Pustejoysky und auch ich 

nicht allzuviel zu sagen. Die Grundidee hiervon ist, daß Konzepte nicht nur in einer eindimensionalen, 

sondern vielmehr mehrdimensionalen Hierarchie organisiert ist. Die Dimensionen 

werden hierbei durch die vier Substrukturen der Qualiastruktur aufgespannt; in verschiedenen 

Merkmalen IS_FORMAL, IS_CONSTITUTIVE etc. werden hinsichtlich der unterschiedlichen 

Hierarchien verschiedene Supertypen des betrachteten Konzepts festgehalten. 

Details finden sich in Pustejoysky (1995:144ff). 

3.4.2 Generative Operationen 

Welche Operationen operieren nun über den zuvor beschriebenen Merkmalsstrukturen? Im 

wesentlichen sind es die folgenden: 

1. Type Coercion 

2. Kokomposition 

3. Selektive Bindung 

Kokomposition und selektive Bindung (vgl. Pustejovsky (1995: Kapitel 7) spielen für die 

Mechanismen der Wortbildung keine besondere Rolle und werden deswegen nicht behandelt. 

Type Coercion wird (Pustejovsky (1995:111)) wie folgt definiert: 

A semantic operation that converts an argument to the type which is expected by a 

function, where it would otherwise result in an type error. 

Die Grundidee hiervon ist die, daß semantische Ausdrücke nicht allein mit einem Typ assoziiert 

sind, sondern mit einer Typenleiter, d.h. einer Hierarchie von Typen. 

Zwei Fälle können hierbei unterschieden werden: 

a) Subtype Coercion 

b) True Complement Coercion 

Subtype Coercion kann sehr elegant unter der Annahme einer Typenhierarchie, wie sie in Kapitel 

2 beschrieben wurde, abgebildet werden. Wenn beispielsweise ein Verb ein Argument 

vom Typ animate verlangt, die gefundene Nominalphrase aber den Typ human aufweist, 

dann ist dies ein Fall von subtype coercion, wenn man davon ausgeht, daß letzerer ein Subtyp 

von ersterem ist. 

87


True Complement Coercion beschreibt hingegen den Sachverhalt, daß zur Interpretation nicht 

die Elemente der Argumentstruktur, sondern Argumente von Relationen, die innerhalb der 

Qualiastruktur eines Wortes oder Wortbestandteiles, herangezogen werden. Beispiele aus 

dem phrasalen Bereich und der Wortbildung sind: 

(77) 

a) Theo hat das Buch gerade erst angefangen 

b) Nagelfabrik 

In beiden Fällen wird eine Argumentstelle der telischen Relation benutzt (bei a) lesen, bei b) 

herstellen), die an das Objekt bzw. das Worterstglied gebunden wird. 

Dies sollte nun fürs Erste genügen, um eine Vorstellung von den Interpretationsmechanismen, 

die innerhalb der Wortbildung wirksam sind, zu erhalten. Eine modifizierte, erweiterte 

und an die Wortbildung angepaßte Variante der Konzeption von Pustejovsky ist schließlich 

Gegenstand von Kapitel 5. 

3.5 Resümee 

3.5.1 Vereinheitlichung von Komposition und Derivation? 

Die augenscheinlichen Parallelen zwischen Eigenschaften der Komposition einerseits und 

Derivation andererseits – zu nennen sind hier nur Binarität und Rechtsköpfigkeit komplexer 

Strukturen – haben einige Autoren (wie z.B. Höhle (1982)) zu der Annahme geführt, daß 

beiden der gleiche Mechanismus zugrundeliegt und sie sich lediglich im beteiligten Material 

unterscheiden, genauer, hinsichtlich des Werts für ein Merkmal gebunden. Höhle (1982) führt 

als Argumente für diesen Standpunkt – auch Kompositionstheorie der Affigierung genannt 

– eine Reihe von Argumenten an (vgl. Höhle (1982:88ff.)): 

a) Bei Komposita wie bei Derivaten flektieren nur die Zweitglieder. 

b) Fugenelemente können bei beiden Wortbildungstypen zwischen die Glieder treten, vgl. 

Haltungsschäden vs. haltungslos. 

c) Die Daten zur Tilgung unter Koordination entsprechen sich, vgl. Herrenmäntel und 

-schuhe, erkenn- und begreifbar. 

d) Die Zulässigkeit von Argumentvererbung scheint bei beiden Typen weniger an der Unterscheidung 

Komposition – Derivation zu hängen als an Eigenschaften der beteiligten 

Morpheme. 

M.E. gibt es jedoch einige gewichtige Gegenargumente. Man muß zwar konzedieren, daß, 

wenn man sich auf die formalen Eigenschaften der beiden Wortbildungstypen beschränkt, 

Höhles Argumentation sehr plausibel erscheint. Andererseits sind seine Argumente ausschließlich 

morphologischer Natur, was, wie ich meine, der Sache nicht gerecht wird. Die 

These, die ich in dieser Arbeit vertrete (und die natürlich nicht neu ist) ist die, daß das Interessante 

an Wörtern nicht ihre Syntax ist, sondern ihre Interpretation. Diese ist, wie in Kapitel 

5 noch ausführlich diskutiert werden wird, bei den beiden betrachteten Wortbildungsoperationen 

jedoch grundverschieden. Derivation und Rektionskomposition zeigen noch eine 

weitgehende Kopplung von Formations- und Interpretationsregeln, was bei der allgemeinen 

Komposition nicht mehr der Fall ist. 

Man könnte nun versucht sein, zur Grenzziehung zwischen Komposition und Derivation 

nicht morphologische Merkmale wie �GEBUNDEN, sondern die semantische Interpretation 

dieser Konstruktionstypen heranzuziehen. Affixe hätten dieser Idee zur Folge keine eigene 

Semantik und ihr Beitrag bei der Wortbildung sei ein rein funktionaler. Frei vorkommende 

88


Morpheme andererseits verfügten über das volle, unter 3.3 und 3.4 vorgestellte Inventar der 

Argumentsättigung, Stereotyperschließung und Nutzung weiterer konzeptueller Relationen. 

Leider ist diese Ansicht auch nicht ganz zutreffend. Es gibt zumindest ein sehr produktives 

Suffix – -ist –, das als Basis Nomen nimmt und daraus Personenbezeichnungen bildet. Betrachtet 

man als Basis etwa Nomen, die Musikinstrumente wie 

(78) Gitarre, Horn, Flöte 

denotieren, so sieht man, daß bei den entsprechenden ist-Ableitungen anscheinend auch 

eine stereotype Relation, die des Spielens, zur Deutung benutzt wird. Ein Gitarrist, ist jemand, 

der berufsmäßig oder gelegentlich Gitarre spielt. Stereotype Relationen können demnach 

auch bei der Derivation eine Rolle spielen. 

Abschließend halte ich Höhles Theorie auch unter einer syntaktischen Perspektive für nicht 

ganz zutreffend, da der Wert eines Merkmals allein noch nicht für die Beschreibung der 

Phänomene ausreicht, was man sieht, wenn man sich etwa fragt, warum Derivationsaffixe 

immer rechts stehen müssen? Weitere Einwände, die hier nicht wiedergegeben werden können, 

finden sich in Reis (1983). 

3.5.2 Lexikalisierte Wortgrammatiken? 

Ein Trend in der heutigen Sprachwissenschaft generativer Tradition geht in Richtung zunehmender 

Lexikalisierung und Prinzipienbildung: Die Syntax wird verarmt, die Lexikonstruktur 

dagegen immer reicher. Der radikalste Standpunkt wird hierbei von der Kategorialgrammatik 

eingenommen, die sämtliche syntaktischen Regeln in den rekursiv aufgebauten 

lexikalischen Kategorien repräsentiert und nur noch zwei syntaktische Operationen (Vorwärts- 

und Rückwärtsapplikation) kennt. 

Eine interessante Frage ist nun: können die Ideen und Techniken der Lexikalisierung auch 

auf mögliche Wortgrammatiken angewendet werden? 

Hierzu muß zunächst bestimmt werden, was Lexikalisierung eigentlich bedeutet (vgl. König 

(1996:6)): 

Definition 3.1 Lexikalisierter Baum: 

Ein Baum T heißt lexikalisiert, wenn er mindestens ein Terminalsymbol enthält. 

Definition 3.2 Lexikalisierte Grammatik: 

Eine Grammatik G heißt lexikalisiert, wenn jeder ihrer lokalen Bäume 17 lexikalisiert ist. 

Grammatikmodelle wie die HPSG sind nach dieser Definition lexikalisiert, da die einem 

Zeichen S mit Kopf H zugeordnete SUBCAT-Liste L kategorialgrammatisch wie folgt zu interpretieren 

sind: H braucht die Elemente aus L um ein S zu erzeugen. 

Ist es nun sinnvoll, auch Wortgrammatiken als Kategorialgrammatiken oder im Stil der 

HPSG zu definieren? Die These, die ich an dieser Stelle vertreten möchte, ist die: Es ist trivialerweise 

möglich, bietet aber keinerlei Einsicht in die Natur der Wortbildung. 

Zur Begründung: Wir haben gesehen, daß die Wortbildung, zumindest im Deutschen, durch 

folgendes Motto charakterisiert werden kann: „Arme Syntax, reiche Semantik“. Es gibt, abgesehen 

von der Derivation 18 und vielleicht der Bildung von Rektionskomposita und N-N- 

Komposita mit relationalem Zweitglied praktisch keine Subkategorisierungsbeziehungen 

zwischen lexikalischen Wortbestandteilen. Natürlich kann man beispielsweise für Nomen 

17 Lokale Bäume sind hier Bäume, die aufgrund einer einzigen Phrasenstrukturregel gebildet werden 

können. 

18 Und hier kann man fragen, ob die Derivationssuffixe als eigenständige Einheiten im Lexikon eingetragen 

sind und nicht vielmehr synkategorematisch in Derivationsregeln erscheinen. 

89


alternative Subkategorisierungsrahmen annehmen, im System der HPSG etwa ein leerer 

Rahmen (das Nomen steht allein) und ein Rahmen, der ein anderes Nomen enthält (für N-N- 

Komposita). Dies ist aber vollkommen uninstruktiv, und das meine ich mit „trivialerweise“. 

Konversionsprozesse bilden eine weitere Schwierigkeit für rein lexikalisierte Wortgrammatiken, 

da wenig andere Möglichkeiten bleiben als unäre Regeln der Form X � Y zu verwenden. 

Man kommt also kaum umhin, solche Wortstrukturregeln wie N � N N anzunehmen 

und ansonsten soweit zu lexikalisieren, wie es sinnvoll ist. 

3.5.3 Ziele 

Zum Ende dieses dritten Kapitels möchte ich die Folgerungen zusammenfassen, die sich 

meiner Ansicht nach aus den zuvor dargestellten Ansätzen und der daran festgemachten 

Kritik ergeben. 

1. Wünschenswert ist eine einheitliche Beschreibung von Flexion, Derivation und Komposition. 

Im Bereich der Syntax scheint dies durch Annahme von syntaktischen Köpfen relativ 

unproblematisch zu sein, wenn auch die Flexion hierbei etwas aus dem Rahmen fällt 

und es neben der konkatenativen Morphologie eine Reihe von Operationen gibt, die sich 

nicht auf diese Weise integrieren lassen. Eine uniforme semantische Charaktersierung zu 

finden ist weitaus problematischer, da sich das Inventar der semantischen Operationen 

doch in wesentlicher Weise unterscheidet. Während der semantische Beitrag von Flexion 

und Derivation 19 in relativ vorhersagbarer Weise aus dem Kompositionalitätsprinzip 

folgt, spielen in der Komposition Operationen wie die Relationserschließung eine Rolle, 

die im eigentlichen Sinn nicht-kompositionell sind, da ja hier die Bedeutung eines komplexen 

Wortes nicht ausschließlich von der Bedeutung seiner Bestandteile und der Art ihrer 

Kombination festgelegt, sondern in wesentlicher Weise durch „unsichtbare“, erschlossene 

Komponenten bestimmt wird, die natürlich irgendwo Teil der Semantik der Bestandteile 

sind. Dieser Unterschied in der Semantik zwischen Komposition und Derivation 

ist m.E. ein Hauptargument gegen die Kompositionstheorie der Affigierung, die ihr 

Blickfeld zu sehr auf Parallelen in der Syntax beider Wortbildungstypen verengt. 

2. Syntaktische Regeln anzunehmen ist von der Literatur nicht widerlegt. Wie gezeigt 

wurde, gehen alle Ansätze der Wortsemantik von expliziten oder impliziten Wortstrukturregeln 

aus. Es ist daher legitim, in einem operationalen Modell der deutschen Wortbildung 

und Flexion von diesem Mittel Gebrauch zu machen, zumal es die maschinelle Verarbeitung 

wesentlich erleichtert. Darüber hinaus stimme ich mit Pustejovsky (1991) 20 

überein, daß die Annahme einer syntaktischen Struktur von Wörtern auch in theoretischer 

Hinsicht Vorteile bringt, beispielsweise beim Erfassen von Ambiguitäten. Die Ausführungen 

im letzten Abschnitt machen die Annahme wortsyntaktischer Regeln sogar 

mehr oder minder zwingend. 

3. Ein Computermodell der Wortbildung darf sich jedoch nicht allzusehr auf die syntaktische 

Beschreibung von komplexen Wörtern konzentrieren, sondern muß sein Schwergewicht 

auf den Interpretationsmechanismus legen, der zur Deutung zusammengesetzter 

Wörter notwendig ist. Daß hierzu konzeptuelles Wissen und damit eine Form der Wissensrepräsentation 

erforderlich ist, wurde von Meyer (1993) und auch Pustejovsky (1991, 

1995) in deutlicher Weise gezeigt. 

19 Von Phänomenen der Lexikalisierung (jetzt im anderen Wortsinn) soll hier abgesehen werden. 

20 „[...] without an appreciation of the syntactic structure of a language, the study of lexical semantics is bound 

to fail. There is no way in which meaning can be completely divorced from the structure that carries it.“ 

(Pustejovsky (1991:410)) 

90

Kapitel 4: Ein Modell eines morphologischen Analysesystems 

4 Ein Modell eines morphologischen Analysesystems 

Konzeptionell kann das Problem der morphologischen Analyse in zwei Teilschritte zerlegt 

werden: 

1. Ein erster Schritt zerlegt das möglicherweise komplexe Wort in seine bekannten, d.h. im 

Lexikon verzeichneten Teile. Dieser Vorgang, im weiteren Segmentierung, Zerlegung oder 

Partitionierung genannt, unterscheidet morphologische Analyseverfahren von solchen der 

Satzsyntax, die mit geschriebener Sprache arbeiten. Bei letzteren genügt ein einfacher 

Tokenizer, der aufgrund der einfachen operationalen Definition von Wort – ein Wort ist 

alles, was zwischen Leerzeichen steht – diese Wörter auffindet. 

2. Ein zweiter Schritt, der mittels einer strukturellen Analyse feststellt, in welchen konfigurationellen 

Beziehungen die gefundenen Segmente stehen und wie sich die Merkmale des 

Gesamtwortes aus den Merkmalen seiner Teile ergeben. 

Diese Untergliederung muß jedoch nicht zwangsläufig auch zu einer Sequentialität des Verfahrens 

führen, wie weiter unten deutlich wird. 

Die methodologische Grundlage des hier vorgestellten Modells bilden nun zwei Grundannahmen: 

• Die Segmentierungskomponente sollte so einfach und so effizient wie möglich sein; alle 

restlichen Aufgaben erledigt die strukturelle Analyse. 

• Soweit wie möglich sollen Techniken der Präkompilation genutzt werden, um einen 

möglichst großen Teil der Analyselast in der Kompilationsphase aufzufangen. 

Folgende Vorteile sollen sich aus einer derartigen Aufgabenteilung ergeben: 

• Die Effizienz der Segmentierung wird durch die Einfachheit des Algorithmus gesteigert. 

• Schnittstellenprobleme zwischen Segmentierungsverfahren und struktureller Analyse, 

die sich aufgrund der Verwendung unterschiedlicher Formalismen ergeben können, 

werden auf diese Weise vermieden 1 . 

Allerdings sind auch eventuelle Nachteile in Kauf zu nehmen: 

• Parsing ist im allgemeinen Fall komplexitätstheoretisch aufwendiger als das Erkennen 

von regulären Sprachen. 

• Parsverfahren für natürliche Sprachen neigen im allgemeinen zur Übergenerierung. 

Zum weiteren Aufbau dieses Kapitels: Abschnitt 4.2 geht auf die Funktionsweise des segmentierenden 

Automaten ein, während Abschnitt 4.3 sich dem verwendeten Parsverfahren 

widmet. Zunächst kommt aber die Organisation des Lexikons zur Sprache. 

1 Eine andere Möglichkeit der Vermeidung solcher Schnittstellenprobleme besteht darin, die 

Analyseautomaten im gleichen Formalismus zu repräsentieren wie die Wortgrammatik. Vgl. dazu 

beispielsweise die Arbeiten von Krieger et al. (1993). 

91


4.1 Die Organisation des Lexikons 

Bevor die Automatenkonzeption des Modells diskutiert wird, muß zunächst noch geklärt 

werden, was sinnvollerweise im Lexikon zu verzeichnen ist. Zu unterscheiden ist hier die 

Makrostruktur eines Lexikons von seiner Mikrostruktur. Erstere bezeichnet die äußere Organisationsform 

des Lexikons, was also aufgenommen wird und in welcher Form, wohingegen 

Mikrostruktur die Informationen und Attribute meint, die zu den einzelnen Einträgen verzeichnet 

sind. Die Mikrostruktur ist erst Gegenstand des folgenden Kapitels, in dem Typenhierarchie 

und Typisierungsspezifikationen dargelegt werden. 

Unter makrostruktureller Sichtweise enthält das Lexikon Objekte, die Paradigmen bzw. 

Lemmata verwandt sind, jedoch nicht vollkommen unter diese Begriffe fallen, und die hier 

(Eisenberg (1998) folgend) morphologische Paradigmen genannt werden. Diese enthalten unter 

einem Namen, der sich aus einer maximal unmarkierten Stammform ergibt und der als 

Hauptschlüssel in das Lexikon dient, u.U. eine Reihe weiterer, alternativer Stämme, die (wie 

bei regulären Lemmata auch) semantisch zusammenhängen und zu denen die Merkmale 

notiert sind, die ihnen selbst zukommen ebenso wie die Anforderungen, die sie an die wortsyntaktische 

Umgebung stellen. Bei unregelmäßigen Verben wären hier z.B. die allomorphen 

Stämme verzeichnet. Diese Stämme dienen wiederum als Unterschlüssel innerhalb des 

morphologischen Paradigmas. Ein zusammengesetzter Schlüssel wie z.B. werf/warf bezeichnet 

also eindeutig die Merkmale, die dem Stamm warf im Lexikon und Lemma von werf(en) 

zugeordnet sind. Der Unterschied zum normalen Paradigma ist der, daß dieses ja vollständige 

Wortformen und nicht nur Stämme enthält, diese Wortformen und ihre Merkmale hier 

jedoch erst durch die Analyse bestimmt werden, um die Probleme zu großer Paradigmentabellen 

etc. zu vermeiden. Bei den Elementen nichtflektierender Wortklassen ist das reduzierte 

Paradigma natürlich trivial, da es nur einen Eintrag enthält. Dadurch, daß das Lexikon 

Paradigmen enthält und nicht nur eine Auflistung einzelner Stammformen ist, wird es möglich, 

paradigmatische Beziehungen zwischen Stämmen zu repräsentieren. Davon getrennt ist 

jedoch die Indexstruktur, die zur morphologischen Analyse verwendet wird und in Form 

eines Automaten vorliegt, der in Abschnitt 4.2 genau beschrieben wird. 

Unter einer anderen Perspektive betrachtet, enthält das Lexikon Listeme im Sinne von Williams/Di 

Scuillo (1987); siehe auch Kapitel 3. Listeme sind danach all das, was man im Verlauf 

des Erwerbs einer Sprache an Vokabular erlernen muß, also neben Wörtern beispielsweise 

auch idiomatische Wendungen u.ä. 

Hier wird unter Listem folgendes verstanden: 

• Inhaltstragende Simplexwörter und ihre allomorphen Stämme 

• Funktionswörter 

• Flexionsaffixe 

• Derivationsaffixe 

• Zusammengesetzte Wörter, die semantisch verdunkelt, also nicht mehr kompositionell 

sind 

• Fugenelemente 

Zu jedem Element dieser Klassen werden dann die für die Analyse notwendigen Eigenschaften 

in Form von Merkmalsstrukturen notiert. 

Nachfolgend werden noch einige Begriffe erläutert, die im weiteren Verlauf der Arbeit eine 

Rolle spielen: 

92


Ein Morphem – in üblicher strukturalistischer Weise als kleinste bedeutungstragende Einheit 

definiert – kann bei gleichbleibender Bedeutung 2 eine Reihe verschiedener Oberflächenrealisationen, 

die sog. (Allo)Morphe, aufweisen, was auch als Allomorphie bezeichnet wird. Unter 

Basismorph wird im weiteren ein Stellvertreter aus der Menge der Allomorphe verstanden, 

der das Morphem benennt, wozu das kürzeste bzw. dasjenige Allomorph ausgewählt wird, 

welches die vergleichsweise allgemeinste Merkmalsbestimmung aufweist. 

4.2 Der segmentierende Automat 

Der Segmentierungsalgorithmus muß neben seiner Hauptaufgabe – dem effizienten Zerlegen 

eines Wortes – noch eine Reihe von weiteren Problemen lösen: 

1. Eine Reihe von zusammengesetzten Wörtern wie Staubecken, Wachstube, herzeigen etc. 

weist mehr als eine Segmentierung auf. Dies ist z.T. natürlich ein Problem der gewählten 

Repräsentationsebene – die orthographische Repräsentation ist ärmer als die phonetische 

–, stellt sich jedoch auch auf letzterer. Das Problem ist im übrigen keineswegs marginal, 

sondern ein Standardproblem jedes Ansatzes der morphologischen Analyse. Es ist 

manchmal überraschend, welche sinnvollen und unsinnigen Wortanalysen ein gänzlich 

mechanisches Verfahren erzeugt 3 ; dies ist durchaus parallel zu sehen mit dem Phänomen 

der sog. attachment ambiguities, die sich aufgrund alternativer Anbindungsmöglichkeiten 

von Adjunktpräpositionalphrasen ergeben. Ein menschlicher Leser ist sich dieser Ambiguitäten 

selten bewußt, da er sie semantisch und pragmatisch auflöst, ein vollständiger 

Parser jedoch bringt sie ausnahmslos an den Tag. 

2. Komplexe Wörter können Teile enthalten, die nicht im Lexikon aufgeführt sind. Dies 

sollte nicht zum Abbruch der Analyse führen und auch nicht die Erkennung der bekannten 

Wortteile beeinträchtigen. 

3. Morphkonkatenation führt häufig zu phonetischen Änderungen an den Morphgrenzen, 

die sich auch orthographisch niederschlagen; so wird beispielsweise bei der Präteritumsbildung 

von schwachen Verben auf –chn ein e nach dem Stamm eingefügt: rechn + t ⇒ 

rechnet. Solche Änderungen beschränken sich nicht ausschließlich auf Morphgrenzen, 

sondern können sich, wie z.B. bei der Pluralumlautung von Nomen, ausschließlich beim 

Stammvokal bemerkbar machen. 

Der nächste Abschnitt stellt ein Automatenmodell vor, das sich für jeden dieser Problembereiche 

um eine Lösung bemüht. 

4.2.1 Das Automatenmodell 

Bei der Konzeption der Teilkomponente, die die Segmentierung eines möglicherweise komplexen 

Wortes in seine Bestandteile vornimmt, waren folgende Kriterien ausschlaggebend: 

1. Das Analysemodell muß eine Trennung zwischen den verarbeiteten Daten (den Morphen 

bzw. Morphemen der zu analysierenden Sprache) und dem Algorithmus, der die 

Analyse durchführt, gewährleisten. Auch wenn nicht die Forderung erhoben werden 

soll, daß das Verfahren sich für alle natürlichen Sprachen eignet, so sollte es zumindest 

möglich sein, Sprachen, die dem Deutschen hinsichtlich Wortbildung und Flexion ähnlich 

sind, durch Austausch der Daten (also des Lexikons) zu analysieren. 

2 Dieses Kriterium ist nicht unproblematisch, da es von der „Trennschärfe“ des Bedeutungsbegriffs 

abhängt, etwa weil die Flexionskategorie „Plural“ Einfluß auf das Denotat eines Nomens nimmt. 

3 Beispielsweise die Zerlegung von Rinderbraten in Rind+erb+rat-en. 

93


2. Grundlage der Segmentierung soll ein wohlverstandenes Automatenmodell sein. 

3. Sämtliche mögliche Segmentierungen eines komplexen Wortes sollen gefunden werden. 

4. Die Segmentierung soll effizient, d.h. deterministisch und in linearer Zeit durchgeführt 

werden. 

5. Das Verfahren soll robust sein, d.h. im Fall fehlender Information – also bei Antreffen 

unbekannter Wortteile – die Analyse nicht scheitern lassen, sondern konstruktiv fortsetzen. 

6. Alle verfügbaren Informationen – wortsyntaktische und wortsemantische ebenso wie 

graphematisch/phonetische – sollen so früh wie möglich dazu verwendet werden, den 

Analysedurchlauf zu steuern und Alternativen, die letztendlich fehlschlagen, auszusondern. 

Kriterium 1 schließt zunächst einmal Verfahren aus, die, wie die in Kapitel 1 beschriebenen 

Lemmatisierungsansätze der siebziger Jahre, zu analysierende Daten in Form von Spezifikationen 

des Kontrolflusses fest in ein Programm „hineinverdrahten“. Wie bereits gesagt, 

verhindert eine solche Konzeption die Portierung eines Analysemoduls von einer Sprache in 

eine andere und verbirgt die evtl. vorhandenen Gemeinsamkeiten zwischen den Analyseverfahren 

verwandter Sprachen. 

Kriterium 2 läßt darüber hinaus nur Verfahren zu, die vollständig auf einem der bekannten 

Automatenmodelle basieren. Die Einhaltung dieses Kriterium hat einige Vorteile. Zum einen 

lassen sich präzise Aussagen über die Zeitkomplexität und die Kapazität des Verfahrens 

treffen, zum anderen bieten Automatenmodelle, insbesondere endliche Automaten, die 

Möglichkeit der Anbindung an die im Bereich der morphologischen Analyse überaus erfolgreiche 

Two-Level-Morphology. Durch dieses Kriterium werden also zumindest teilweise prozedurale 

Ansätze wie der von Finkler/Neumann (1986), bei dem die Wortzerlegung durch 

einzelsprachliche Regeln vorgenommen wird (Abtrennung des Präfixes ge- beim Partizip II 

etc.), ausgeschlossen 4 . 

Kriterium 3 ist selbstverständlich. Kriterium 4 wendet sich gegen Verfahren, die bei der 

Segmentierung auf allzu naive Algorithmen bzw. Heuristiken zurückgreifen, wie dies z.B. 

Daelemans (1987) tut. Die Frage ist, warum man, wenn man schon über ein Lexikon mit den 

Morphemen der zu behandelnden Sprache verfügt, trotzdem ein komplexes Wort in alle 

möglichen Zerlegungen segmentieren muß? M.a.W.: Bei der Zerlegung sollte dieses Lexikon 

schon aktiv miteinbezogen und nicht nur – gewissermaßen passiv – zum Nachschlagen der 

vorgeschlagenen Segmente herangezogen werden. 

Kriterium 5 ist in realen sprachverarbeitenden Anwendungen überaus wichtig, da man – 

auch wenn man die Wortbildung einmal ganz außer Acht läßt – kaum hoffen kann, ein vollständiges 

Morphemlexikon einsetzen zu können. 

Aus dem letzten Kriterium schließlich folgt, daß das Verfahren inkrementell ist, demnach 

keine Unterteilung in sequentiell angeordnete Analysestufen stattfindet, beispielsweise erst 

Segmentierung, dann (wort–)syntaktische Analyse und zuletzt Interpretation. 

Das hier vorgestellte Analysemodell erfüllt m.E. diese Kriterien. Die Grundidee ist, hier einer 

Idee von Aho/Corasick (1975) folgend – nämlich die der parallelen Schlüsselwortsuche in 

größeren Texten –, daß man die Suche nach im Lexikon verzeichneten Wortbestandteilen in 

einem komplexen Wort als ein solches paralleles Suchen nach Schlüsselworten auffaßt. Die 

Schlüsselworte sind dabei die verschiedenen Segmente des Wortes, das, worin gesucht wird, 

ist kein (evtl. sehr großer) Text, sondern das zu zerlegende Wort. Es ergibt sich jedoch 

4 Der andere Teil der Konzeption von Finkler/Neumann (1986) – die Suche in den Endungsbäumen – 

entspricht durchaus diesem Kriterium, da solche Bäume im Grunde deterministische, um eine 

Ausgabefunktion erweiterte endliche Automaten sind. 

94


hierbei das Problem, daß das Verfahren von Aho/Corasick nicht garantiert, daß die Segmente 

das Gesamtwort partitionieren; es ist vielmehr möglich, daß Segmente sich überlappen, 

dies ist ja geradezu der prototypische Fall der Anwendung dieses Automatentyps. 

Formal ist der segmentierende Automat durch ein 7-Tupel beschrieben. 

Die ersten fünf Tupelkomponenten sind wie beim (deterministischen) endlichen 

Automaten definiert: 

Σ dem Automatenalphabet (hier also aus den Symbolen der Zielsprache Deutsch 

{ a,...,z,ä,ö,ü,ß,-} bestehend) 

S eine Menge von Zuständen 

Q0 q0 ∈ S, dem Anfangszustand des Automaten 

goto eine (totale) Übergangsfunktion S × Σ � S ∪ { fail }; der Funktionswert ist , fail für 

alle Symbole aus Σ, für die kein Übergang definiert ist (entspricht der δ -Funktion 

eines endlichen Automaten) 

F F ⊆ S, der Menge der Endzustände des Automaten 

Hinzu kommen zwei weitere Funktionen: 

ƒ die sog. failure-Funktion S � S 

Σ* Σ* 

output die Ausgabefunktion oS : � 2 ; 

× 

die erste Komponente in einem 2-Tupel in output(s) ist der Name des 

morphologischen Paradigmas, die zweite enthält einen Schlüssel in dieses Paradigma. 

Bei trivialen Paradigmen ohne Allomorphie ist die zweite Komponente ε. 

Die nachfolgende Abbildung zeigt einen Beispielautomaten nach dem Einfügen der Lexeme 

tausch- 5 , Tausch, Stau, Staub, staun-, Becken, Ecke, –s– (Fugenelement) und -n (Flexiv). Unterschiede 

hinsichtlich Groß- und Kleinschreibung werden hierbei nicht berücksichtigt, da sie 

nicht signifikant sind: Einerseits werden normalerweise klein geschriebene Wörter am Satzanfang 

groß geschrieben, während das Umgekehrte bei Wörtern/Stämmen gilt, die innerhalb 

von komplexen Wörtern stehen. 

5 Um das Beispiel einfach zu halten, wird darauf verzichtet, in die Ausgabefunktion ein Schlüsselpaar 

aufzunehmen; es wird lediglich das im Automaten repräsentierte Morph angegeben. 

95

a) Die Übergangsfunktion goto 


s 1 2 3 4 5 6 7 8 9 10 11 

f(s) 0 0 0 7 0 0 0 1 2 3 13 

s 12 13 14 15 16 17 18 19 20 21 22 23 

f(s) 23 0 19 20 21 22 23 0 0 0 19 0 

b) Die failure-Funktion 

s 6 7 10 11 12 

output(s) {Tausch, tausch} {s} {Stau} {Staub} {staun, n} 

s 17 18 22 23 

output(s) {Ecke} {Becken, n} {Ecke} { n} 

c) Die Ausgabefunktion (∅ für alle nicht aufgeführten Zustände) 

Abb. 4.1: Der Beispielautomat 

Die Übergangsfunktion goto realisiert, wie man aus Abb. 4.1 ersehen kann, im wesentlichen 

eine Trie-Indexstruktur, mit der Ausnahme, daß für alle Symbole, für die es aus q0 (im Beispielfall 

Zustand 0) keinen Übergang in einen anderen Zustand gibt, ein zyklischer Übergang 

nach q0 existiert. Dieser Übergang stellt sicher, daß in jedem Operationszyklus des 

Automaten (s.u.) ein Symbol konsumiert wird, was für die Effizienz des Verfahrens von Bedeutung 

ist. 

Die failure-Funktion ist so konstruiert, daß im Falle einer Sackgasse bei der Analyse nicht 

ganz von vorn begonnen werden muß, sondern in einen Zustand übergewechselt werden 

kann, der einen möglicherweise erfolgreich fortsetzbaren Teil der bisherigen Analyse reflektiert. 

96


Beispiel 4.1: 

Die Zeichenfolge Wohnungstausch soll analysiert werden. Nach dem Finden des Segments 

Wohnung (dies ist im Automaten nicht gezeigt), befindet sich der Automat wieder im Zustand 

0 und folgt der Teilkette stau bis zum Zustand 10. Dieser Zustand weist für das nächste 

Symbol (s) keinen Übergang auf, woraufhin die failure-Funktion konsultiert wird, die als 

Ergebnis f(10) den Zustand 3 liefert. Der Automat befindet sich nun in einem Zustand, den er 

auch erreicht hätte, wenn er vom Zustand 0 ausgehend die Zeichenkette tau gelesen hätte. 

Die failure-Funktion kodiert m.a.W., welche Suffixe von Schlüsselwörtern (tau von Stau in 

Beispiel 4.1) wiederum Präfixe anderer Schlüsselwörter (tau von tausch) sind. Hierdurch muß 

jedes Zeichen in der Tat nur einmal gelesen werden. 

Die Ausgabefunktion output weist jedem Zustand eine möglicherweise leere Menge von 

Tripeln der Form zu, mit der intendierten Bedeutung, daß sich von den Wortpositionen 

i bis j ein Segment erstreckt, welches einen Verweis σ ins Lexikon darstellt. 

Der Algorithmus, der die im Lexikon verzeichneten Segmente eines Wortes findet und der 

veränderten Ausgabefunktion angepaßt ist, ist nachstehend wiedergegeben. Ein Operationszyklus 

ist hierbei ein einmaliger Durchlauf der for-Schleife, umfaßt demnach einen „erfolgreichen“ 

goto-Übergang und eine Anzahl (möglicherweise null) failure-Übergänge. 

Algorithmus 4.1: Suche nach Wortsegmenten 

Eingabe: Die zu analysierende Zeichenkette a1a2 ... an 

Ausgabe: Eine Menge von Tripeln der Form N × Σ* × N, beispielsweise , mit 

der Bedeutung, daß im Wort ein Segment mit Verweis staub von der Wortposition 

1 bis zur Position 5 gefunden wurde. 

Verfahren begin 

result := ∅ 

state := 0 

for i := 1 until n do begin 

while goto(state, ai) = fail do 

state := f(state) 

state := goto(state, ai) 

if output(state) ≠ ∅ then begin 

for each s ∈ output(state) do 

{*1*} result := result ∪ 

end 

end 

return result 

end 

Die Algorithmen zur Konstruktion der Übergangs-, Ausgabe- und failure-Funktion sind in 

Anhang A zu finden. 

Der Schlüssel zur effizienten Lösung des Problems der ambigen Zerlegungen ist in erster 

Linie das Zusammenspiel von Ausgabefunktion und failure-Funktion. Bei der Konstruktion 

der Ausgabefunktion (siehe Anhang A) findet eine Präkompilation möglicher Ambiguitäten 

statt, welche sich anhand des Zustands 18 im obigen Beispiel exemplifizieren läßt. Die Wert 

von output(18) ist {Becken,n}, was soviel bedeutet wie, daß in Zustand 18 bei Wortposition i 

ein Segment mit Verweis -n von i bis i und ein Segment mit Verweis Becken von i – 5 bis i 

gefunden wurde. Die Ausgabefunktion enthält diese beiden Zeichenketten, da -n ein echtes 

97


Suffix von Becken ist. Allgemeiner gefaßt enthält die Ausgabefunktion für einen Zustand s 

neben dem Eintrag σ, der von s charakterisiert wird (s.u.) auch alle echten Suffixe von σ. 

Beispiel 4.2: Analyse des Wortes „Staubecken“ 

Durchlaufene 

Zustandsfolge: 

Ausgegebene 

Segmente: 

0 7 8 9 10 11 13 

(=f(11)) 

14 15 16 17 18 

↓ ↓ ↓ ↓ ↓ 

s Stau Staub Ecke Becken,n 

Aho/Corasick (1975) haben gezeigt, daß bei einer Wortlänge von n höchstens 2n Zustände 6 

durchlaufen werden, d.h. das Durchlaufen der Automatenzustände ist von der Ordnung 

O(n). Die aufwendigste Operation des Algorithmus 4.1 ist die mit { *1* } gekennzeichnete 

Zeile. Im schlechtesten Fall muß die Ausgabefunktion für einen Zustand Verweise für alle in 

den Automaten eingefügten Morpheme ausgeben, d.h. der Algorithmus hat hierfür einen 

Zeitbedarf, der linear proportional zur Summe der Längen aller eingefügten Verweise ist 

(Aho/Corasick (1975), Theorem 3), wobei zu beachten ist, daß die Komplexität dieser Ausgabe 

nicht von n, der Länge des zu analysierenden Wortes abhängt. Dieser schlechteste Fall 

ist im Fall der Anwendung des Automaten für die morphologische Analyse sehr unwahrscheinlich 

(dies hieße nämlich, daß es einen Zustand s gibt, der eine Zeichenkette z charakterisiert, 

die alle Lexeme des Deutschen als Suffixe enthält). 

Eine weitere Frage ist noch zu klären: Ein Kriterium für die Konzeption des Analysemodells 

war, es auf einem der bekannten Automatenmodelle zu basieren, vorzugsweise auf dem 

Modell endlicher Automaten. Die failure-Funktion des segmentierenden Automaten scheint 

nun aus diesem Rahmen herauszufallen. Dies ist jedoch nicht der Fall, da es ohne weiteres 

möglich ist, den Automaten mit seiner failure-Funktion in einen deterministischen endlichen 

Automaten mit Ausgabefunktion umzuwandeln. Der entsprechende Algorithmus hierfür ist 

in Anhang A wiedergegeben. Der Grund, warum diese Determinisierung des Segmentierers 

nicht durchgeführt wird, ist der, daß sich dadurch die Anzahl der Zustandsübergänge stark 

erhöhen kann. Dies ist ein Umstand, der für das ursprüngliche Problem der Suche mit einer 

relativen kleinen Menge von Schlüsselwörtern in einem größeren Text ohne Relevanz ist, 

beim Problem von sehr vielen Schlüsselwörtern (in der Größenordnung einiger zehntausend) 

jedoch deutlich zu Buche schlagen kann. Beispiel 4.3 veranschaulicht die deterministische 

Version des Automaten aus Abb. 4.1. Die Determinisierung kommt durch Ausrechnen 

des Gesamteffekts der failure-Funktion zustande. 

Beispiel 4.3: Der Automat aus Abb. 4.1 als deterministischer Automat 

Die zu einer Relation umgewandelte δ-Funktion des deterministischen Automaten weist bei 

einem Alphabet S={ a-z, ä, ö, ü, ß, - } 744 Tupel auf, davon führen 132 zu Zuständen ungleich 

0. Demgegenüber enthalten goto- und failure-Funktion des Beispielautomaten zusammen 72 

Tupel, also ca. 1/10 davon. Die Ausgabefunktion ist in beiden Fällen gleich. 

6 Diese Zahl setzt sich zusammen aus n goto–Übergängen und höchstens n Aufrufen der failure– 

Funktion, da für jeden Zustand s der Zustand f(s) dem Startzustand „näher“ ist als s selbst. 

98


Ein Problem des Ansatzes scheint zu sein, daß komplexe Worte w in Ketten ασβ partitioniert 

werden, wobei σ ein im Lexikon verzeichnetes Morphem ist, α jedoch nicht im Lexikon vorkommt 

(β ∈ Σ*), beispielsweise die Zerlegung von Staub in S und taub, wobei S kein Lexikoneintrag 

zugeordnet ist. Was hier jedoch wie ein Problem des Algorithmus aussieht, erweist 

sich als Vorteil, wenn man annimmt, daß es sich bei α um ein zulässiges Morphem der 

zu analysierenden Sprache handelt, welches lediglich im verwendeten Lexikon nicht verzeichnet 

ist. Unbekannt sind in diesem Sinne also alle Segmente eines Wortes, die von keiner 

Partitionierung des Wortes erfaßt werden. Dieses Identifizieren von nicht im Lexikon verzeichneten 

Segmenten ist wesentlich für das mitverfolgte Ziel, auch Wörter mit unbekannten 

Teilen zu analysieren und wird durch den im nächsten Abschnitt beschriebenen Wortstrukturparser 

geleistet. 

4.3 Wortstrukturparsing 

Der Parser – als zweiter Teilschritt des hier vorgestellten Analyseverfahrens – erzeugt aus 

den gefundenen Wortsegmentierungen die von der Wortgrammatik definierten Wortstrukturen. 

Zwei Möglichkeiten sind denkbar, diesen Parser in den Analysevorgang zu integrieren: 

1. der üblichen Konzeption der Compilerkonstruktion folgend hat der Parser die Hauptkontrolle 

und ruft den Segmentierer auf, sobald der Parser ein neues Token in seine 

Analyse zu integrieren hat. 

2. der Segmentierer hat die Kontrolle über die Analyse und übermittelt sukzessiv gefundene 

Token an den Parser, der damit angefangene Analysen fortzusetzen versucht. 

Beide Grundstrategien sind mit einer gewünschten Inkrementalität des Gesamtverfahrens 

zunächst einmal vereinbar. Allerdings stellt sich bei Möglichkeit 1 das nicht einfach zu lösende 

Problem, daß der Segmentierer aufgrund seiner parallelen Operationsweise nicht immer 

nur ein Token zurückgibt, sondern möglicherweise auch mehrere, die in unterschiedliche 

Strukturbäume zu integrieren sind. So erscheint es zweckmäßiger, Zuflucht zu Möglichkeit 

2 zu nehmen, der zumal noch der Reiz des Unüblichen anhaftet. 

Allerdings schränkt diese Entscheidung die anwendbaren Parsstrategien ein. Da nun der 

Segmentierer den Parser steuert – abweichend also von Standardverfahren in vergleichbaren 

Problembereichen wie dem Compiling von Programmiersprachen – können nicht mehr alle 

Parsverfahren eingesetzt werden. Beispielsweise impliziert eine ausschließlich hypothesengetriebene 

Strategie, wie sie das Top-Down-Parsing charakterisiert, daß der Parser immer 

dann den Scanner zur Rückgabe eines neuen Symbols auffordert, wenn ersterer Regeln angewendet 

hat, die auf der rechten Regelseite Terminalsymbole enthalten. Sollen Parser und 

Scanner bezüglich der Steuerung im umgekehrten Verhältnis stehen, kommt nur ein wenigstens 

teilweise datengetriebenes (Bottom-up) Verfahren in Frage. Hierbei erzeugt der Scanner/Segmentierer 

ein neues Symbol, was im Zuge des Versuchs, dieses zu integrieren, zu 

rekursiv sich fortsetzenden Reduktionen führen kann, die schließlich im Erfolgsfalle beim 

Startsymbol enden. 

Geeignete Parsverfahren, die den hier gestellten Erfordernissen – zumindest teilweise Bottom-up-Strategie, 

Zugriff auf Zustandsinformationen und inkrementelle Vorgehensweise – 

entsprechen, sind Chart-Parsing und das auf der LR(k)-Technik beruhende Verfahren von 

Tomita (vgl. Tomita (1987)). Allerdings müßten auf den ersten Blick beide Verfahren aufgrund 

des prinzipiell nichtdeterministischen Charakters des Zerlegungsprozesses modifiziert 

werden, beispielsweise, indem jeder Zerlegungsalternative ein separater Parser zugeordnet 

wird. Da alternative Zerlegungen jedoch häufig gemeinsame Segmente an den glei- 

99


chen Wortpositionen aufweisen, entsteht hieraus indes ein Mehraufwand, der jedoch durch 

Anwendung der Grundidee des Chart-Parsings vermieden werden kann. Die Effizienz des 

Chart- bzw. Earley-Parsings ergibt sich schließlich in erster Linie daraus, daß über bereits 

analysierte Konstituenten Buch geführt wird. Verwendet man nun einen gemeinsamen Chart 

für alle Zerlegungsalternativen, so werden Wortteile, die in mehr als einer Segmentierung 

vorhanden sind, auch nur einmal analysiert. Hierzu sind jedoch leichte Änderungen des 

ursprünglichen Chart-Parsing-Algorithmus nötig, die Gegenstand des folgenden Abschnitts 

sind. 

4.3.1 Das Parsverfahren 

Wie zuvor erwähnt, wird die strukturelle Analyse durch einen Bottom-Up-Chart-Parser (der 

genau genommen ein Left-Corner-Parser mit Speicherung der Teilresultate ist) geleistet, der 

den Zerlegungen auf der Basis einer typisierten Unifikationsgrammatik, wie sie in Kapitel 2 

beschrieben wurde, Strukturen zuordnet. 

Wie bei allen Chart-Parsern lassen sich drei Grundoperationen – Shift, Expand und Complete 

– ausmachen, die jeweils auf eine zentrale Funktion Closure() zurückgreifen, die abhängig 

vom Status der Kante (aktiv bzw. passiv) die weiteren Schritte (Expansion oder Kombination) 

bestimmt. Zur Handhabung strukturierter Kategorien werden die üblichen Erweiterungen 

vorgenommen. Die Darstellungsform der Algorithmen lehnt sich an die in Naumann/Langer 

(1994:252ff.) an. Um den Besonderheiten des Wortstrukturparsings gerecht zu 

werden, wurde vor allem die Shift()-Funktion modifiziert. 

Eine Kante ist gegeben durch ein 4-Tupel 

< i, j, A → α • β, Condition > 

wobei i und j die Anfangs- bzw. Endpositionen des bereits analysierten Teils der Konstituente 

und A→ α β eine Regel der Unifikationsgrammatik ist, von der α bereits erkannt wurde. 

Da im verwendeten Grammatikformalismus (vgl. Kapitel 2) Regeln mit Bedingungen 

attribuiert werden können, die einerseits die Anwendbarkeit einer Regel prüfen und 

andererseits Variablenbindungen vornehmen, wird in der letzten Komponente des Tupels 

ein Verweis auf die mit der Regel A→ α β verknüpfte Bedingung gespeichert. Diese Bedingungen, 

die en detail erst im nächsten Kapitel besprochen werden, dienen dazu, allgemeine 

Aufbauprinzipien deutscher Wortstrukturen nichtredundant in die Analyse mit einzubeziehen. 

100


Algorithmus 4.2: Inkrementelles, Left-Corner-Chart-Parsing 

Eingabe: Ein Wortsegment s= 

Daten: Ein Chart Chart, vor Beginn der Analyse ist Chart = ∅ 

Eine Unifikationsgrammatik G 

Ein als zweistellige Relation Lex = Σ* × Desc gegebenes Lexikon 

Ausgabe: Ein aktualisierter Chart 

Verfahren procedure Shift() 

begin 

Chart := Chart ∪ UnknownSegments(i) 

for each ∈ Lex (B is a lexical category) do 

Closure() 

end; 

procedure Closure(k: ) 

begin 

if passive_edge(k) then begin 

k = 

/* apply Condition to the completed production */ 

k’ := Evaluate() 

if k’ = ? then 

return 

end 

else k’ := k 

Result := ∅ 

if ¬∃e ∈ Chart such that e subsumes k’ then begin 

/* make a copy of the edge */ 

k’’ := copy_edge(k’) 

/* add the copy to the Chart */ 

Chart := Chart ∪ { k’’ } 

if passive_edge(k’’) then begin 

Expand(k’’) 

Complete(k’’) 

end 

end 

end; 

procedure Expand() 

begin 

for each ∈ R do begin 

A* := A t A’ 

if A* ≠ ? then 

Closure() 

end 

end; 

procedure Complete(): 

begin 

for each ∈ Chart do begin 

A* := A t A’ 

if A* ≠ ? then 

Closure() 

end 

end; 

101


Interessanterweise muß das Standardverfahren des Chart-Parsings nicht geändert werden, 

um mit ambigen Zerlegungen umgehen zu können. Die Funktion Complete() bedient sich 

nur des Kriteriums, daß sich ein Segment, welches zur Erweiterung einer aktiven Kante untersucht 

wird, unmittelbar anschließt an die von der Mutterkategorie dieser Kante dominierte 

Folge von Terminalsymbolen. Ob daneben noch andere, überlappende Segmente existieren, 

spielt hierbei keine Rolle. 

Die Funktion Shift() erhält ein durch den Segmentierer identifiziertes Wortsegment7 , das in den aktuellen Chart integriert werden soll. Bevor dies jedoch geschieht, 

wird eine Funktion UnknownSegments() aufgerufen, die versucht, ausgehend von der Position 

des gefundenen Segments eventuell nötige Segmente vom Typ „unbekannt“ einzusetzen, 

die es erlauben, auch dann eine Analyse für das komplexe Wort zu finden, wenn nicht 

alle Teile im Listemlexikon verzeichnet sind. Diese Funktion wird weiter unten näher erläutert. 

Closure() testet eine übergebene Kante zunächst daraufhin, ob sie passiv 

ist. Ist das der Fall, so wird eine evtl. für sie definierte Bedingung ausgewertet, die, falls 

sie scheitert, zur Aussonderung der Kante führt, andernfalls jedoch Einfluß auf Variablenbindungen 

und -koreferenzen innerhalb der Merkmalsstrukturen in der Kante haben kann. 

Eine Einschränkung gegenüber den im Grammatikformalismus möglichen Bedingungen 

liegt darin, daß sie mit einer Kante selbst und nicht mit einzelnen Positionen innerhalb einer 

Kante verknüpft sind. Somit werden solche Bedingungen erst dann ausgewertet, wenn eine 

passive Kante dem Chart hinzugefügt wird, m.a.W. die zugrundeliegende Regel vollständig 

abgearbeitet wurde. Eine andere Vorgehensweise wäre durchaus möglich, wenn auch aufwendiger 

und für die zu verarbeitende Grammatik, die im wesentlichen binäre Regeln enthält, 

nicht besonders sinnvoll. 

Gelingt anschließend der Subsumptionstest, der bei Unifikationsgrammatiken das Kriterium 

der kategorialen Identität ersetzt, so fügt der Parser eine Kopie dieser Kante dem Chart 

hinzu und prüft dann (erneut), ob die Kante passiv ist. Kann dies positiv entschieden werden, 

so wird durch Expand() versucht, Regeln zu finden, die das Symbol auf der linken Regelseite 

als linke Ecke aufweisen. Expand() ist damit verantwortlich für den Aufbau „höherer“ 

Strukturen. 

Complete() schließlich versucht, zu einer passiven Kante solche aktive zu finden, die die passive 

Kante integrieren können. Complete() kann zu nicht-lexikalischen passiven Kanten führen, 

die dann via Expand() den Strukturaufbau in Richtung des Startsymbols vorantreiben. 

Um Strukturen effizient im Chart zu repräsentieren und sie später aus dem Chart zu rekonstruieren, 

bedient man sich der üblichen Techniken des structure sharings und local ambiguity 

packings (vgl. hierzu beispielsweise Naumann/Langer (1994: 140f, 202f)). Parsergebnisse 

werden 

als 6-Tupel repräsentiert. 

Beispiel 4.4: 

Ein Chart-Eintrag 

 

repräsentiert eine passive Kante mit Mutterkategorie complex_stem 8 und zwei Töchtern der 

Kategorie simple_stem. Diese Töchter, zusammen mit den Positionsinformationen, verweisen 

auf andere Kanten im Chart und werden verwendet, um aus dem Chart Strukturbäume 

zu generieren. 

7 Der Anfangsindex des Segments wird um eins vermindert, da beim Chart-Parsing die 

Symbolzwischenräume und nicht die Symbole selbst gezählt werden. 

8 Die Hierarchie der morphologischen Typen ist Gegenstand des nächsten Kapitels. 

102


Beispiel 4.5 verdeutlicht das Zusammenspiel von Segmentierer und Parser anhand eines 

Wortes mit mehr als einer Zerlegung. 

Beispiel 4.5: Strukturanalyse von „Staubecken“. 

Zur Vereinfachung des Beispiels wird angenommen, daß die Zerlegung 4a) aus Beispiel 4.2, 

die ein unbekanntes Segment „b“ enthält, nicht in die Strukturanalyse gelangt (vgl. auch 

Abschnitt 4.3.2). Der Analyse zugrundegelegt wird eine stark idealisierte Grammatik mit den 

beiden Regeln 

N → N N und N → N Naf 

wobei ein Nichtterminal X die Merkmalsstruktur [SYN:HEAD:CAT:X] abkürzt. 

Gefundene Segmente Hinzugefügte Kanten Operationen 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

103 

Shift 

Expand 

Complete 

Shift 

Expand 

Complete 

Shift 

Expand 

Complete 

Expand 

Shift 

Expand 

Complete 

Expand 

Shift 

Complete


Die Hauptfunktion des Parsers ist durch folgende Funktion Parse() gegeben: 

Eingabe Das zu analysierende Wort Word 

Ausgabe Eine Menge von Analysen 

Datenstrukturen 

Eine Wortgrammatik WordGrammar 

Eine Chart-Datenstruktur Chart 

Ein Segmentierer Segmentizer 

Verfahren function parse(Word:): 

begin 

Chart.Init_Chart 

% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i] 

Symbollist := atom_to_atomlist(Word) 

% shift the found segments into the chart 

Segmentizer.Insert_segments_into_chart(Symbollist,Word) 

% check whether it's necessary to insert "unknown"-segments 

% after the last lexical segment 

Chart.Complete_Chart(Word), 

% find all edges spanning the whole word 

return(Chart.Generate_Structures(WordGrammar.Startcat,|Word|)). 

end 

Die Funktion Insert_segments_into_chart() ist im wesentlichen durch Algorithmus 4.1 gegeben; 

lediglich die durch {*1} markierte Zeile wird durch einen Shift()-Aufruf für das Segment 

(s.o.) ersetzt. Die Funktion Complete_Chart() fügt weitere "unknown"-Segmente in den Chart 

ein, für den Fall, daß das zuletzt gefundene Segment kein Suffix des zu analysierenden 

Wortes ist. Generate_Structures() schließlich erzeugt alle möglichen Analysen aus dem Chart. 

Eine Prolog-Implementierung dieses Verfahrens befindet sich in Anhang C. 

4.3.2 Behandlung unbekannter Segmente 

Die Grundidee, Strukturanalyse eines Wortes auch dann fortzuführen, wenn Teile von ihm 

nicht im Lexikon aufgeführt sind, besteht darin, diese Wortteile als „unbekannt“ zu markieren, 

sie mit einer unterspezifizierten grammatischen Kategorie zu versehen und sie dann 

während des Wortstrukturparsings wie „normale“ lexikalische Segmente zu behandeln. 

Aufgrund der Nichtdirektionalität des gewählten Grammatikformalismus können diese 

speziellen Kanten dann mit Hilfe ihres Kontextes im Wort, der angewandten grammatischen 

Regeln und Prinzipien weiter instantiiert werden, so daß sie, wenn diese Instantiierung ein 

bestimmtes Maß erreicht hat, in einen speziellen Teil des Lexikons, der Morphemhypothesen 

enthält, aufgenommen werden können. 

Wie im nächsten, der Wortgrammatik gewidmeten Kapitel noch näher ausgeführt wird, sind 

im Lexikon alle Elemente der offenen Klassen, also der Klassen, die in der Hauptsache an 

der Wortbildung beteiligt sind, mit der morphologischen Kategorie simple_stem markiert, so 

daß auch unbekannte Wortteile dieser Kategorie zugeordnet werden. Der Grund für die 

Wahl gerade dieser Kategorie liegt natürlich darin, daß sich alle anderen Wortbildungskategorien 

wie Präfixe, Suffixe und Flexive ohne großen Aufwand vollständig im Lexikon erfassen 

lassen. 

104


Zunächst soll aber definiert werden, was unter einer Segmentierung verstanden werden soll: 

Definition 4.1: (Vollständige) Segmentierung 

Eine Segmentierung Ω einer Zeichenkette w ist eine Zerlegung s1s2...sk = w (k ≥ 1). Eine Segmentierung 

bzgl. eines Lexikons Lex = Σ* × Desc heißt vollständig, wenn für alle si gilt: 

∃E ∈ Lex (abgekürzt im folgenden mit si ∈ Lex). Ein Segment si heißt unbekannt bzgl. 

einer Segmentierung Ω = s1s2...sk, wenn 

a) si ∉ Lex 

b) i = 1 oder si-1 ∈ Lex 

c) i = k oder si+1 ∈ Lex 

d) si keinen Teilstring z ∈ Lex enthält. 

Für „unbekannt“-Segmente soll im folgenden die Kurzformen U-Segment bzw. U-Kante 

verwendet werden; für im Lexikon enthaltene Wortteile entsprechend L-Segment (L-Kante). 

Bedingungen b) und c) stellen sicher, daß U-Segmente entweder an den Wortenden auftreten 

oder an im Lexikon verzeichnete Segmente angrenzen. Bedingung d) soll gewährleisten, daß 

nicht "unnötig" lange Segmente als "unbekannt" postuliert werden, beispielsweise ein 

Kompositum AB, wenn A und B im Lexikon aufgeführt sind, AB jedoch nicht. 

Segmente für unbekannte Wortteile werden in den Chart eingetragen, nachdem ein weiteres 

Wortsegment gefunden wurde, das sich nicht an alle bereits bestehenden Segmentierungen 

im Chart anschließen läßt: 

Endpunkte bereits Neu gefundenes 

bestehender Segmentierungen Wortsegment 

Abb. 4.2: Einfügen neuer Wortsegmente 

U-Segmente dienen also dazu, die „Lücken“ zwischen im Lexikon aufgeführten Wortteilen 

zu schließen und werden nach folgendem Verfahren eingefügt: 

105


Algorithmus 4.3: Einfügen von im Lexikon nicht verzeichneter Wortsegmente 9 

Eingabe: Die Anfangsposition p des zuletzt gefundenen Wortsegment 

Ausgabe: Eine Menge von „unknown“- Kanten 

Daten: Das zu analysierende Wort w = a1a2...ak 

Verfahren 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

function UnknownSegments(): 

begin 

Q = { p }; Result = ∅; done = false 

Ordne alle Kanten k mit end(k) der Reihenfolge. 

while ¬done 

k sei eine Kante mit end(k) < p; 

wenn es einen Pfad von end(k) zu einem s ∈ Q gibt 

dann done := true 

sonst 

U_Segment := < end(k), unknown(ak+1...ap), p > 

wenn U_Segment alle heuristischen Tests erfolgreich passiert 

dann 

Result := Result ∪ { U_Segment } 

Q := Q ∪ { end(k) } 

return(Result) 

end 

Der Algorithmus prüft also ausgehend von der Anfangsposition des gerade eingefügten 

Wortsegments alle Segmente, die davor enden. Dies passiert solange, wie es keinen Pfad 

vom Ende des gerade betrachteten Segments zu einem der bereits verarbeiteten gibt, deren 

Endpositionen in der Menge Q gespeichert werden. 

Die Behauptung ist nun, daß jede Segmentierung, die durch Algorithmus 4.3 um U-Segmente 

ergänzt wurde, die Bedingungen von Definition 4.1 erfüllt. Darüber hinaus muß gezeigt 

werden, daß das Gesamtverfahren alle Segmentierungen herstellt, die Definition 4.1 

Genüge leisten. 

Zu zeigen ist daher folgendes: 

a) Algorithmus 4.3 erzeugt keine aufeinanderfolgenden U-Segmente U1 und U2 mit 

start(U2) = end(U1). 

b) es wird kein U-Segment eingefügt, so daß ap+1...aq ein L-Segment 

enthält. 

c) Algorithmus 4.3 ist vollständig, erzeugt also alle möglichen Segmentierungen nach Def. 

4.1. 

Zu a): Angenommen, Algorithmus 4.3 versucht, eine U-Kante zwischen k‘ und n einzufügen. 

Position k‘ ist demnach unverbunden mit n und allen Endpunkten von Kanten zwischen k‘ 

und n. Das Segment von n zu n‘ sei das gerade einzufügende L-Segment (d.h. p=n) und die 

Kante von k zu k‘ sei ebenfalls eine U-Kante. 

(1) 

k k‘ n n‘ 

9 start(k) und end(k) sind Funktionen, die zu einer gegebenen Kante k jeweils deren Start- bzw. End- 

punkt zurückgeben. 

106


Die Kante von k nach k‘ kann keine U-Kante sein. Wäre sie es, dann hätte der Algorithmus 

zuvor eine L-Kante von k‘ zu einer Position l mit k‘< l ≤ n eingefügt, da U-Kanten immer vor 

den gerade gefundenen L-Segmenten eingefügt werden. Dies widerspricht aber der Annahme, 

daß es keinen Pfad von k‘ zu einer Position l zwischen k‘ und n gibt, so daß Algorithmus 

4.3 die Zeilen 9-13 nicht erreicht hätte. Demnach ist die Kante von k nach k‘ eine L- 

Kante. 

Zu b): es wird kein U-Segment eingefügt, so daß ap+1...aq ein L-Segment 

enthält. Angenommen, eine gerade eingefügte U-Kante U von k bis k‘ enthielte ein L- 

Segment L von n zu n‘. In Abhängigkeit von der Position von L bzgl. U ergeben sich vier 

Fälle: a) n = k, n‘= k‘ b) n = k, n‘ < k‘ c) n > k, n‘ = k‘ und d) n > k, n‘ < k‘. Alle Möglichkeiten 

lassen sich mit dem gleichen Argument wie eben ausschließen, so daß L keine Teilkette von 

U sein kann. 

Zu c), Vollständigkeit: es reicht aus, folgenden Grenzfall zu betrachten; die anderen folgen 

aus der Transitivität der „verbunden“-Relation. Angenommen der Chart enthielte zwei L- 

Kanten L1 = (k , k‘) und L2 = (k‘‘, k‘‘‘) (k‘ < k‘‘) . L2 sei das zuletzt gefundene Wortsegment, es 

gibt keine U-Kante von k‘ nach k‘‘ und kein weiteres L-Segment zwischen L1 und L2: 

(2) 

k k‘ n k‘‘ k‘‘‘ 

Wenn Algorithmus 4.3 keine U-Kante zwischen k‘ und k‘‘ eingefügt hat, dann muß sich dazwischen 

ein Knoten n mit einer Kante (n, k‘‘) befinden, da das Verfahren beim ersten mit k‘‘ 

über einen Pfad verbundenen Knoten (also n) anhält. Diese Kante (n, k‘‘) kann keine L-Kante 

sein, da zwischen L1 und L2 laut Annahme keine weitere L-Kante „interveniert“. Angenommen 

also, sie wäre also eine U-Kante. Dann muß es aber noch eine weitere L-Kante k‘ – n 

geben, für die die U-Kante (n, k‘‘) eingefügt wurde, als p im Algorithmus 4.3 gleich k‘‘ war – 

ein weiterer Widerspruch zu der Annahme, daß sich zwischen L1 und L2 keine L-Kanten befinden. 

Hierdurch ist gezeigt worden, daß es in Algorithmus 4.3 ausreicht, das Einfügen von U- 

Kanten beim ersten „verbundenen“ Knoten zu beenden. 

4.3.2.1 Verfeinerungen 

Algorithmus 4.3 stellt zwar u.U. durch U-Segmente „aufgefüllte“ Segmentierungen her, behandelt 

aber alle L-Segmente formal gleich, d.h. beachtet nicht, ob es sich bei L-Segmenten, 

für die eine U-Kante eingeführt wird, um Stämme oder Affixe handelt. Hierdurch kann es in 

manchen Fällen zum Einfügen nicht angemessener U-Kanten kommen. 

Beispiel 4.5: 

Das Wort Baustein soll analysiert werden, wobei Bau und das Fugenelement s im Lexikon 

verzeichnet sind, Stein jedoch nicht. Vor der Komplettierung des Charts durch 

Complete_Chart() in der Funktion Parse() enthält der Chart die partielle Segmentierung 

 

Eine U-Kante wird eingefügt, was hier jedoch nicht gewünscht ist. 

107


Der Grund hierfür ist natürlich, daß das Fugenelement s zufällig ein Präfix des eigentlich als 

unbekannt anzusetzenden Wortteils stein ist. Darüber hinaus kann der Fall eintreten, daß 

Kandidaten für U-Kanten, die nicht den weiter unten dargelegten heuristischen Tests Genüge 

tun, erst gar nicht in den Chart eingefügt werden, mit dem Ergebnis, daß die gesamte 

Analyse durch den Chartparser scheitert. 

Es ist demnach wünschenswert, zwischen Affixen und Stämmen eine Gewichtung vorzunehmen. 

Hierzu ist eine Änderung an Definition 4.1 d) vorzunehmen: 

(3) 

si keinen Teilstring z ∈ Lex enthält, so daß die z zugeordnete Beschreibung Desc von 

simple_stem subsumiert wird. 

Algorithmus 4.3 ist dann entsprechend so anzupassen, daß er auf der Suche nach Anschlußpunkten 

alle Kategorien bis auf solche vom Typ simple_stem „überspringt“. 

Weiterhin kann man Heuristiken einsetzen, um die Anzahl der eingefügten U-Kanten zu 

minimieren; schließlich bedeutet jede solche Kante für den Parser einen erhöhten Analyseaufwand. 

Alle in Zeile 9 des Algorithmus postulierten Segmente werden daher einer zweistufigen 

heuristischen Filterung unterworfen, die unplausible Kandidaten zurückweist: 

1. Enthält das Lexikon Elemente der geschlossenen Klassen (also Flexive, Affixe etc.) vollständig, 

so kann ein unbekannter Wortteil einer der drei Hauptklassen zugeordnet werden, 

die an der Wortbildung partizipieren – Nomen, Verben und Adjektive. Führt man 

zudem eine Mindestlänge für unbekannte Teile ein - unter der Voraussetzung, daß Listeme 

mit kleinerer Länge sämtlich im Lexikon verzeichnet sind, kann man das Postulieren 

„zu kurzer“ Segmente vom Typ unbekannt verhindern. 

2. Die Graphemstruktur unbekannter Wortteile muß natürlich den Regularitäten des Silben- 

und Wortaufbaus im Deutschen unterliegen, die am besten wiederum in Form eines oder 

mehrerer endlicher Automaten (oder Two-Level-Transducer) repräsentiert werden, womit 

dann vorgeschlagene Segmente mit unzulässigen Konsonantenabfolgen usw. unterdrückt 

werden können. Dieses Vorgehen kann natürlich nicht exakt sein, da der unbekannte 

Wortteil selbst wiederum komplex sein kann, ohne daß seine Teile im Lexikon 

stehen. An den Morphgrenzen zwischen diesen Teilen sind jedoch Laut- und indirekt 

damit Graphemkombinationen erlaubt, die innerhalb eines Simplexwortes nicht möglich 

wären. Dem könnte damit begegnet werden, daß man einen Automaten einsetzt, der den 

Silbenaufbau deutscher Wörter korrekt abbildet und der ε-Übergänge oder Übergänge, 

die mit Fugensymbolen etikettiert sind von seinen Endzuständen in den Startzustand besitzt. 

Ein solche Automat akzeptiert somit Folgen von Simplexwörtern, deren Teile untereinander 

möglicherweise durch Fugensymbole getrennt sind. Die einfachste Möglichkeit 

besteht jedoch darin, eine vollständige Liste der Silben im Deutschen heranzuziehen und 

damit zu überprüfen, ob das vorgeschlagene Segment aus einer Folge dieser Silben besteht. 

Hierbei wird jedoch außer Acht gelassen, daß nicht alle Silben an allen Positionen 

im Wort auftreten können. Eine weitere Variante, die bei der Implementierung des hier 

vorgestellten Systems ebenfalls weiter verfolgt wurde, ist die, aus einem in maschinenlesbarer 

Form vorliegenden Lexikon – beispielsweise der CELEX-Datenbank (Baayen et 

al. (1993)) alle monomorphematischen Stämme und Wurzeln zu extrahieren und in Form 

eines Tries zum Überprüfen von als unbekannt postulierten Wortsegmenten zu verwenden. 

Dies engt die Hypothesen auf tatsächlich vorkommende Stämme ein, ohne daß für 

jeden dieser Stämme ein voll ausdifferenzierter Lexikoneintrag vorliegen müßte. Wählt 

man diesen Weg, so gibt es allerdings noch eine effizientere Alternative. Man könnte alle 

Simplexwörter, für die kein Lexikoneintrag existiert, ebenso gleich in den segmentieren- 

108


den Automaten einfügen, so daß der Schritt des Postulierens von „unbekannt“-Segmenten 

(beinahe) gänzlich unnötig wird. 

Diese Heuristiken garantieren in den meisten Fällen ein erfolgreiches Abschließen der Analyse, 

da in jedem Fall zwischen dem „letzten“ Segment im Chart mit der Kategorie 

simple_stem und dem gerade gefundenen Segment ein „unbekannt“-Segment eingesetzt 

wird. Scheitern kann diese Strategie nur dann, wenn sich das „unbekannt“-Segment strukturell 

nicht integrieren läßt, was angesichts des Aufbaus der Wortgrammatik eher unwahrscheinlich 

ist. 

Trotz aller Filterung legt das Verfahren doch noch ein gewissen Maß an Übergenerierung an 

den Tag, die vor allem durch unplausible „unbekannt“-Segmente bedingt ist. Eine mögliche 

heuristische Bewertungsfunktion von unterschiedlichen Segmentierungen könnte daher 

folgendermaßen aussehen: 

1. Ziehe Segmentierungen mit weniger Segmenten solchen mit mehr Segmenten vor. 

2. Weisen zwei Segmentierungen die gleiche Anzahl von Segmenten auf, dann präferiere 

diejenige mit der kleineren Zahl unbekannter Segmente. 

Eine geringere Anzahl von Segmenten bedeutet eine Maximierung der Länge der einzelnen 

Segmente und hat eine effizientere Strukturanalyse zur Folge. Zudem hat dies Vorteile bei 

zusammengesetzten Lexikalisierungen (Beispiel: Geizhals), wenn alle ihre Teile im Lexikon 

aufgeführt sind, da dann die lexikalisierte Lesart präferiert wird. 

Die zweite Heuristik, die Präferenz von Zerlegungen mit weniger unbekannten Teilen, führt 

weiterhin zur Reduzierung von Ambiguitäten, da der „unbekannt“-Segmenten zugeordnete 

Lexikoneintrag (vgl. Kapitel 5) naturgemäß hochgradig unterspezifiziert ist. 

Zur Erhaltung eines inkrementellen Verfahrens ist es jedoch notwendig, diese eher globalen 

Kriterien einer lokalen Verwendung zugänglich zu machen. Der geeignete Platz hierfür ist 

der Complete()-Schritt von Algorithmus 4.2, in dem eine passive Kante dazu verwendet wird, 

aktive Kanten weiter zu vervollständigen. Hierzu muß die Reihenfolge, mit der aktive 

Kanten betrachtet werden, so geändert werden, daß solche mit weniger unbekannten Segmenten 

zunächst den Vorzug erhalten, um auf diese Weise ein Best-First-Suchverfahren zu 

realisieren. Da Algorithmus 4.2 ansonsten eine Tiefensuche durchführt, ist garantiert, daß 

solche Kanten Teil von denjenigen zuerst erzeugten Strukturen werden, die den Chart so 

weit wie möglich abdecken. 

Interessant sind solche Heuristiken jedoch nur, wenn man nicht an einer vollständigen Ausgabe 

aller Analysen des Wortes interessiert ist. 

4.4 Behandlung der Allomorphie 

Das bisher entwickelte Verfahren segmentiert Wörtern effizient, bezieht dabei jedoch nur die 

orthographische Ebene mit ein und verweist die Behandlung der regelmäßigen Allomorphie 

10 letztendlich an das Lexikon. Dies ist natürlich aus zwei Gründen unbefriedigend: 

Zum einen geht durch bloße Auflistung der Allomorphe der Regelcharakter solcher Modifikationen 

verloren, zum anderen verzichtet man auf eine Informationsquelle, die bei unbekannten 

Wortteilen zur Einengung der Hypothesenmenge führen könnte. 

10 Hierzu gehören phonetische Änderungen wie beispielsweise Umlautung, e-Epenthese wie auch 

rein orthographische Modifikationen wie ß → ss bei der Pluralbildung (z.B. Prozeß - Prozesse) 

109


Ein geeigneter Kandidat zur Lösung dieses Mißstands ist die Two-Level-Morphology (s. a. Kapitel 

1) in einer ihrer elaborierten Varianten, beispielsweise der von Trost (1990) - m.E. der 

beste Vorschlag zur engen Kopplung von morphotaktischen und phonetischen Analysekomponenten. 

Wie bereits beschrieben, arbeitet dieser Ansatz mit Regeln, die zwischen 

konkreter Wortrealisierung und den zugrundeliegenden Morphemen vermitteln und in 2- 

Band-Transducer umgesetzt werden. Die Neuerung von Koskenniemi (1984) gegenüber früheren 

Ansätzen war die, die einzelnen Transducer aufgrund ihrer relativen Unabhängigkeit 

parallel zu schalten, so daß sich schematisch folgendes Bild ergibt: 

Oberflächenband 

a 

T T .... T 

1 2 n 

.... 

b 

Lexikonband 

Abb. 4.3: Parallel geschaltete Transducer 

Eine Oberflächenform, d.h. eine Zeichenkette auf dem Oberflächenband, wird dann akzeptiert, 

wenn alle Automaten sich nach dem Lesen der Symbolkette in einem Endzustand befinden 

und dabei gleich etikettierten Übergängen gefolgt sind. Parallel geschaltete Transducer 

akzeptieren damit die Schnittmenge der durch die einzelnen Automaten definierten 

Sprachen. 11 Aufgrund dieses Akzeptanzkriteriums muß dafür gesorgt werden, daß Symbole, 

auf die sich ein bestimmter Transducer nicht bezieht, von diesem dennoch konsumiert werden. 

Im der ursprünglichen Fassung der Two-Level-Morphology (vgl. Koskenniemi (1984)) ging 

mit der Segmentierung der Oberflächenform auch gleich die Anwendung eines endlichen 

Zustandsmechanismus auf die Morpheme des Lexikonbands einher. Dies wurde realisiert 

durch eine Unterteilung des Lexikons in Äquivalenzklassen und durch Aktivierung bzw. 

Deaktivierung einzelner Lexikonabschnitte aufgrund der bereits gefundenen Segmente. 

Diese auch als Folgelexikamechanismus bezeichnete Technik ist äquivalent zu einem endlichen 

Automaten bzw. einer Typ-3-Grammatik, macht diese jedoch nicht explizit. 

Die folgende Abbildung zeigt einen Transducer, der die e-Einfügung bei Verbstämmen, die 

auf bestimmte Konsonanten enden, realisiert: 

11 Ein Theorem der Theorie regulärer Relationen besagt, daß reguläre Relationen, bei denen beide 

Komponenten die gleiche Länge aufweisen, abgeschlossen sind unter Schnittmengenbildung. Das 

heißt, daß es prinzipiell möglich ist, alle Transducer zu einem einzigen zusammenzufassen (vgl. 

Reape/Thompson (1988), Kaplan/Kay (1994)). 

110


Abb. 4.4: (Vereinfachter) Transducer T1 zur Behandlung der e-Erweiterung bei Verbstämmen auf 

Dental bzw. Frikativ/Nasal vor Flexiven (die Endzustände sind grau dargestellt) 

Die Anwendbarkeit von Two-Level-Regeln hängt nun jedoch nicht nur von phonetischen 

bzw. graphematischen Gesichtspunkten ab, sondern auch von morphosyntaktischen. 

Beispiel 4.6: 

Die Kette WEINTEST darf nur in der Verblesart in wein+t+st zerlegt werden; bei der Nomenlesart 

muß die Segmentierung wein+test lauten. Groß- und Kleinschreibung wird, aus 

bereits erwähnten Gründen, nicht als Mittel zur Disambiguierung herangezogen. 

Der Notwendigkeit des Einbeziehung von grammatischer Information durch arbiträre diakritische 

Symbole oder gar Merkmale auf dem Lexikonband (vgl. Karttunen et al. (1992)) zu 

begegnen, erscheint sehr unelegant und schafft eine ganze Reihe von Schnittstellenproblemen, 

beispielsweise zu Lexikon und Parser. Sehr viel besser ist der Ansatz von Trost, bisher 

aufgebaute Strukturen im Merkmalsstrukturformat mit einer mit der Two-Level-Regel assoziierten 

Filterstruktur zu unifizieren und vom Gelingen dieser Operation die Anwendung 

der Regel abhängig zu machen. Im übrigen kann die Ungerichtetheit der hier verwendeten 

Unifikationsoperation im Fall von unbekannten Teilen dazu dienen, die hierfür aufgebaute 

partielle Merkmalsstruktur weiter zu instantiieren. 

Wie kann im vorliegenden Modell sinnvoll mit regelmäßiger Allomorphie umgegangen 

werden? Die Grundidee hierzu sieht folgendermaßen aus: 

1. Der Segmentierer enthält nach wie vor alle Allomorphe eines Morphems, diese werden 

jedoch nun durch Präprozessierung eingeführt. 

2. Der Parser prüft die Zulässigkeit von Morphkombinationen. 

Da der Segmentierer oberflächenorientiert arbeitet, muß er alle Allomorphe eines Morphems 

enthalten. Hierdurch fällt auch eine der Hauptaufgaben weg, die üblicherweise durch Two- 

Level-Automaten geleistet wird: die Reduktion einer Form auf dem Oberflächenband auf 

eine Reihe von Morphemen auf dem Lexikonband. 

Die morphosyntaktische Kombinierbarkeit der durch den Segmentierer gelieferten Morphe 

wird mit Hilfe der diesen zugeordneten Merkmalsstrukturen und den Regeln und Prinzipien 

111


der Wortgrammatik überprüft. Diese bezieht jedoch nur morphosyntaktische Merkmale, 

nicht jedoch die graphematische Form der beteiligten Morphe mit ein. Hierzu muß der 

Parser um einen geeigneten Mechanismus erweitert werden. 

Beispiel 4.7: 

Unter der Annahme, daß der Segmentierer den Verbstamm lieb und die Flexive -t- (Präteritumsaffix), 

-st bzw. -est enthält, muß ausgeschlossen werden, daß das System Formen wie 

*liebtst akzeptiert. 

4.4.1 Kompilation der Allomorphe 

Wie oben schon beschrieben enthält der segmentierende Automat alle Allomorphe der im 

Lexikon repräsentierten Morpheme. Diese werden mit Hilfe von sog. Allomorphieregeln erzeugt, 

die eine Verwandtschaft mit den in Kapitel 1 beschriebenen lexikalischen Regeln 

aufweisen, bei denen die gegen letztere erhobenen Einwände jedoch nicht greifen. Beispielsweise 

besteht das Problem der Anwendungsreihenfolge von Allomorphieregeln nicht, 

da Allomorphieregeln nur auf Elemente aus dem Morphemlexikon angewendet werden, ihr 

Ergebnis jedoch im Analyselexikon (Listemlexikon) gespeichert wird. 

Allomorphieregeln haben folgende formale Gestalt: 

FS_in ⇒ { FS_out1, FS_out2, ..., FS_outk } 

Eine derartige Regel kann auf ein Morphem M angewendet werden, wenn M mit FS_in unifizierbar 

ist. Das Ergebnis ist eine Menge von Einträgen, die in das Analyselexikon aufgenommen 

werden. Um die Übernahme von Informationen aus FS_in in diese Lexikoneinträge 

zu ermöglichen, sind Koreferenzen von Pfaden in FS_in und FS_Outi erlaubt. Allomorphieregeln 

dienen zur Abdeckung folgender Fälle von regelmäßiger Allomorphie: 

1. Stammumlautung bei Nomen, Verben und Adjektiven 

2. Stammelision bei Verben. 

Unregelmäßige Allomorphie (beispielsweise Ablaut bei starken Verben) wird einfach durch 

Auflisten der verschiedenen Stämme samt ihren Merkmalsbestimmungen abgedeckt. 

Abbildung 4.5 zeigt das Beispiel einer solchen (vereinfachten) Regel, die aus einem 

umlautenden Nomenstämmen zwei Stammmorphe herstellt, die mit Singular bzw. Plural 

markiert sind. 

GRAPH: 1 

SYN: 

2 

HEAD: CAT: N 

SEM: 3 

MORPH: 4 MFEAT: UMLAUT: + 

GRAPH: surface ( 1 ) 

SYN: 

2 

SEM: 3 

MORPH: 4 

HEAD: NUM: sg 

, 

GRAPH: f_umlaut( 1 ) 

SYN: 

2 

SEM: 3 

MORPH: 4 

HEAD: NUM: pl 

Abb. 4.5: Allomorphieregel zur Behandlung von Stammumlautung 

112


Beispielsweise wird aus einer Merkmalsstruktur mit dem GRAPH-Wert H$aus ($ kennzeichnet 

den umlautenden Vokal, der durch die Funktion f_umlaut durch seinen Umlaut ersetzt 

wird) die Pluralstammform Häus-. Die Markierung dieser Form mit dem Pluralmerkmal 

stellt sicher, daß sie nur mit Pluralflexiven kombiniert werden kann. Die andere Merkmalsstruktur 

beschreibt die Verwendung des Morphs (im Beispiel also Haus-) im Kontext von 

Flexiven mit dem Merkmal Singular. Surface ist eine Funktion, die die zur Kennzeichnung 

relevanter Grapheme verwendeten diakritischen Zeichen entfernt. 

4.4.2 Behandlung von morphographematischen Kombinationsbeschränkungen 

Die Markierung der durch die Allomorphieregeln erzeugten Morphe mit bestimmten 

Merkmalen stellt – zusammen mit den Regeln der Wortgrammatik – sicher, daß nur kompatible 

Morphe miteinander kombiniert werden können. Beispielsweise erfordert die rekursive 

Flexionsregel im nächsten Kapitel, daß die morphosyntaktischen Merkmale von Stamm und 

Flexiv miteinander unifiziert werden. Auf diese Weise werden unzulässige Wortformen wie 

*Hauser aufgrund der inkompatiblen Werte des Numerus-Merkmals ausgeschlossen. 

Was die Unifikation von Merkmalsstrukturen allerdings nicht leistet, ist der Ausschluß von 

in morphographematischer Hinsicht unzulässigen Morphkombinationen wie die in Beispiel 

4.7 erwähnten. Dies macht daher einen weiteren Mechanismus erforderlich, für dessen Realisierung 

zunächst einmal zwei grundsätzliche Möglichkeiten bestehen: Integration in die 

Wortgrammatik oder Integration in den Parser. 

Kombinationsbeschränkungen der genannten Art mit Hilfe der Wortgrammatik auszudrükken 

ist aus mindestens drei Gründen die theoretisch befriedigendere Möglichkeit: 

1. Um sie auszudrücken macht man ebenfalls von Merkmalsstrukturen und Unifikation 

Gebrauch, also von den Beschreibungsmitteln, die ohnehin notwendig sind. 

2. Es werden keine weiteren Automaten wie Two-Level-Transducer u.ä. mehr benötigt 

3. Der einzige Ort, an dem morphographematische Regularitäten ausgedrückt werden, sind 

die Allomorphieregeln. Sie werden so erweitert, daß sie die erzeugten Morphe mit den 

gewünschten Beschränkungen versehen. 

Da die Graphematik relativ ausdrucksarm ist, wäre es notwendig, hierzu die phonetische 

Ebene mit einzubeziehen, was aber außerhalb des gesteckten Rahmens dieser Arbeit liegt. 

Daß es jedoch möglich ist, phonetische und phonologische Regelmäßigkeiten mit Unifikations- 

bzw. constraint-basierten Formalismen abzubilden, zeigen die Arbeiten aus dem Bereich 

der computational phonology (z.B. Bird (1995)). 

Die andere Option, morphographematische Kombinationsbeschränkungen zu realisieren, ist, 

sie in Form von Automaten in den Parsvorgang zu integrieren. Dies könnte durch Hinzufügen 

von Zustandsinformationen dieser Automaten in die Kanten des Chart-Parsers bewerkstelligt 

werden, soll aber hier auch nicht weiter verfolgt werden. 

4.5 Weitere Aspekte 

4.5.1 Aktualisierung des Automaten 

Ein Ziel des Gesamtansatzes ist, ein robustes Analyseverfahren zu entwickeln, welches mit 

der notorischen Unvollständigkeit des Lexikons umgeht und daher in der Lage ist, unbekannte 

Wortteile nicht nur zu ignorieren, sondern diese zu identifizieren und unter Ausnut- 

113


zung von Regularitäten der unterschiedlichsten Art soviel Informationen wie möglich über 

sie zu erschließen. Sobald die so erzeugten unvollständigen Lexikoneinträge eine gewisses 

Maß an Spezifizität erreichen, kann man erwägen, sie in das Listemlexikon aufzunehmen, 

was eine Aktualisierung des Automaten nach sich ziehen muß. Die Frage ist nun, wie aufwendig 

dieser Vorgang ist, d.h. inwieweit eventuell sogar der ganze Automat davon betroffen 

sein kann. 

Die Aktualisierung der Übergangsfunktion goto ist unproblematisch, da hierbei höchstens so 

viele neue Zustände und Übergänge erzeugt werden müssen, wie das neu einzufügende 

Listem lang ist. Ist kein Präfix des neuen Listems im Automaten verzeichnet (gibt es also für 

das erste Wortsymbol keinen Übergang vom Startzustand des Automaten in einen anderen, 

vom Startzustand verschiedenen Zustand), so muß zudem aus der Startzustandsschleife der 

Übergang für das erste Wortsymbol entfernt werden. 

Die Neuanpassung der failure–Funktion ist u.U. aufwendiger. Über die Berechnung der 

Funktionswerte für die neu erzeugten Zustände hinaus können auch andere failure–Werte 

von einer Änderung betroffen sein. Das folgende Theorem charakterisiert die Zustände, für 

die die failure–Funktion geändert werden muß. Zuvor muß jedoch noch ein Hilfsbegriff eingeführt 

werden. 

Definition 4.2: Charakterisierung 

Ein Automatenzustand s charakterisiert eine Kette w, gdw. sich w aus der Verkettung der 

Label entlang des Pfads vom Startzustand zum Zustand s ergibt. Man schreibt hierfür auch 

String(s) = w. 

Theorem 4.1 

Das neu einzufügende Listem sei w = δβ, wobei δ (möglicherweise ε) der Teil sei, bei dem 

bereits vorhandene Übergänge verfolgt werden und β≠ε derjenige sei, für den neue Automatenzustände 

und -übergänge eingeführt werden müssen. Dann muß die failure-Funktion 

(außer für die Zustände, die für β eingefügt wurden) für genau die Zustände s aktualisiert 

werden, für die gilt: 

s charakterisiert eine Folge von Symbolen αδγ (α ≠ ε) und es gibt Ketten π (möglicherweise ε), 

so daß gilt: β=γπ. 

Beweisskizze: 

δ 

α 

q 

β 

γ π 

t 

δ p γ s 

Es gilt (vor und nach dem Einfügen der Zustände und Übergänge für β): failure(p) = q. Da 

allgemein gilt (aufgrund der Konstruktionsvorschrift von failure, siehe Anhang A): failure(δ*(r,σ)) 

= δ*(failure(r), σ), ist auch failure(s) = t (mit r = p und σ = γ ). 

Das Zustände wie s die einzigen sind, deren failure-Funktionswerte aktualisiert werden 

müssen, ist ebenfalls leicht zu sehen. 

114


Beispiel 4.8: 

In den Beispielautomaten aus Abb. 4.1 soll das Wort Taube eingefügt werden (δ=tau, β=be). 

Dann muß der Wert der failure-Funktion von Zustand 11 (charakterisiert staub, α=s, γ=b) 

aktualisiert werden. 

Für jedes α müssen somit failure-Werte von höchstens |β| Zuständen verändert werden. Im 

schlechtesten Fall (mit δ = ε) ist das neue Listem ein echtes Suffix jedes Pfads im Automaten, 

der in einem Zustand endet, für den die Ausgabefunktion ≠ ∅ ist. Dann muß die failure– 

Funktion für 

|β| * Anzahl Pfade 

Zustände im ursprünglichen Automaten neu berechnet werden. 

Ein Problem ist, wie man die Präfixe α im Automaten findet. Hier bieten sich zwei Möglichkeiten 

an, deren Wahl davon abhängt, wie häufig die Operation des Aktualisierens vorgenommen 

wird: 

• man verwendet entweder eine spezielle Indexstruktur oder 

• benutzt den Automaten selbst, die Präfixe aufzufinden. 

Bei einer Entscheidung für die letzte Möglichkeit müßte man alle Listeme im Lexikon nach 

den Ketten δγ absuchen. Mit Hilfe des Mechanismus zur Identifizierung von unbekannten 

Wortteilen ist es dann möglich, die verschiedenen Präfixe α zu rekonstruieren. Die Zeitkomplexität 

hiervon wäre O(L), wobei L die Summe der Längen aller Listeme ist. 

4.5.2 Interaktion mit dem Satzstrukturparser 

Eine Morphologiekomponente ist meist nur ein Bestandteil im Zusammenhang eines größeren 

sprachverarbeitenden Systems und steht normalerweise mit dem Satzstrukturparser in 

enger Interaktion. Der Umstand, daß auch die Wortstrukturanalyse auf einem Merkmalsformalismus 

beruht, macht es bei Wahl eines geeigneten „gemeinsamen Vokabulars“ möglich, 

die Schnittstelle zwischen beiden Subsystemen allein auf die ausgetauschten Merkmalsstrukturen 

zu begrenzen. Erwartungen, die ein zumindest partiell hypothesengetriebenes 

Verfahren über das nächste zu analysierende Wort aufbaut, reflektieren sich in einer Instantiierung 

von Merkmalen, die wiederum die morphologische Analyse steuern. Erwartet der 

Satzparser beispielsweise, daß das nächste Token ein Nomen ist, so führt das zu einer entsprechenden 

Instantiierung der Startkategorie des morphologischen Parsers und verhindert, 

daß Lesarten mit anderer Kategorie überhaupt erzeugt werden. Besonders interessant ist 

dieser Mechanismus wiederum in Verbindung mit Wörtern mit nicht im Lexikon verzeichneten 

Teilen, insbesondere dann, wenn der unbekannte Teil als letzter im Wort auftritt. Aufgrund 

der Rechtsköpfigkeit der Wortstrukturen kann mit den Informationsquellen, die der 

Morphologiekomponente zur Verfügung stehen, eher wenig über den unbekannten Teil 

inferiert werden. Erwartungen des Satzparsers über Eigenschaften des Gesamtworts gelangen 

über die morphologische Startkategorie und via structure sharing zum „unbekannten“ 

Kopf des Wortes und führen somit zu einer Einengung der durch die morphologische Analyse 

aufgestellten Hypothesen. 

115

4.6 Zusammenfassung 


Die nachfolgende Abbildung zeigt noch einmal die Zusammenhänge zwischen den im Verlauf 

des Kapitels vorgestellten Komponenten des morphologischen Analysesystems: 

Morphem- 

Lexikon 

Allomorphieregeln 

WortMorphgrammatik 

Lexikon 

erzeugen 

Präkompilation 

verwendet 

Eingabe: 

Zu analysierendes 

Wort 

paralleler 

Segmentierer 

Wortsegmente 

Wortstruktur- 

Parser 

Ausgabe: 

liefert 

Wortstrukturen 

Abb. 4.6: Architekturskizze des Analysesystems 

aktivieren 

Erzeugung von 

Segmenten 

für unbekannte 

Wortteile 

Zum Abschluß dieses Kapitels soll noch ein Vergleich zu zwei anderen morphologischen 

Analysesystemen gezogen werden, welche ebenfalls Segmentation, Two-Level-Morphology 

und Strukturanalyse auf der Grundlage einer Unifikationsgrammatik in sich vereinen. Die 

Rede ist vom LILOG/2LM-System (vgl. Schiller/Steffens (1991) und vom System von Ritchie 

et al. (1992), die hinsichtlich Lexikon, Segmentierung und Analyse folgende Unterschiede 

und Gemeinsamkeiten bezüglich des hier präsentierten Modells aufweisen. Zunächst zu 

LILOG/2LM: 

• Lexikon: LILOG/2LM verwendet zwei verschiedene Lexikontypen: ein Morph-Lexikon, 

welches zu jedem Morph die für die morphologische Verarbeitung benötigten Informationen 

notiert, und ein base lexicon, welches syntaktische und semantische Eigenschaften 

der Grundformen festhält. Das Morph-Lexikon, welches zum Analysezeitpunkt in Form 

eines Tries vorliegt, ist zudem in Abschnitte eingeteilt, die sich auf den Folgeklassenmechanismus 

des Parsers beziehen. Von den Autorinnen so genannte lexical rules vermitteln 

zwischen den Einträgen beider Lexika. M. E. sind diese lexikalischen Regeln doch von 

anderer Art als die in Kapitel 1.2.5 kritisierten, da sie nicht neue Lexikoneinträge aus bereits 

vorhandenen erzeugen, sondern lediglich die syntaktischen und semantischen In- 

116


formationen für einen Eintrag des Grundformenlexikons mit denen durch die morphologische 

Analyse gewonnenen mittels einer Unifikationsoperation zusammenführen. Im 

Prinzip kann auf diese Regeln verzichtet werden, beispielsweise durch eine genaue Klassenbildung 

und Verknüpfung von Typbedingungen (sog. recursive type constraints) mit 

bestimmten Typen. Auf diese Weise können aus einer Kategorisierung sich ergebende 

Implikationen für andere Merkmale und Werte (beispielsweise, daß Verben ein SUBCAT- 

Merkmal aufweisen) automatisch berücksichtigt werden. 

• Two-Level-Morphology: LILOG/2LM verwendet mit diakritischen Zeichen versehene 

Two-Level-Regeln. Obwohl dies sicherlich effizienter ist als der Gebrauch von Filtertermen, 

führt man doch neben den Merkmalsstrukturen eine weitere Beschreibungsebene 

ein und handelt sich zusätzlich Probleme der Interaktion dieser beiden Ebenen ein. Dies 

haben die Autorinnen auch erkannt, da sie schreiben: „We consider the implementation of 

such rule filters [Filterterme, TH] a necessary extension to the architecture of LILOG/2LM.“ 

(Schiller/Steffens (1991:125). 

• Strukturanalyse: LILOG/2LM benutzt Wortstrukturregeln auf Merkmalsstrukturbasis, 

die jedoch lediglich die Flexion beschreiben. Diese Regeln werden in Form eines „Morpho-Syntax-Baums“ 

repräsentiert, dessen Kanten mit nichtterminalen Kategorien etikettiert 

sind und die im Laufe einer Analyse potentielle Folgekategorien charakterisieren; 

Abb. 4.7 veranschaulicht das. 

adj_stem 

verb_stem 

comp_ending decl_ending 

verb_prefix verb_stem 

verb_fin_ending 

verb_fin_ending 

Abb. 4.7: Morpho-Syntax-Baum (aus Schiller/Steffens (1991:117)) 

Aufgrund seines endlichen Mechanismus ist ein solcher Baum jedoch nicht in der Lage, 

andere als rechtsrekursive Einbettungen abzubilden, die indes zur Beschreibung von 

Komposition und Derivation notwendig sind. 

Das andere hier interessante Modell, das von Ritchie et al. (1992), weist folgende Charakteristika 

auf: 

• Lexikon: Die Autoren verwenden ein Grundformenlexikon, welches anders als bei Schiller/Steffens 

(1991) nicht in einzelne Abschnitte untergliedert ist, die jeweils Morphe mit 

gleicher Distribution enthalten. Beschränkungen der Morphkombination werden somit 

nicht durch einen Folgeklassenmechanismus à la Koskenniemi, sondern durch eine unabhängige 

Wortgrammatik festgehalten, die auch rekursive Strukturen zuläßt (s.u.). Das 

zur Analyse bereitgestellte Lexikon entsteht durch einen Kompilationsschritt, bei dem 

lexical rules die durch den Lexikonautor definierten partiellen Einträge ergänzen bzw. 

ausmultiplizieren. Ähnlich wie bei LILOG/2LM könnten diese Regeln jedoch ersetzt 

117


werden durch eine hierarchische Strukturierung der lexikalischen Kategorien auf der 

Grundlage von (Default)Vererbung, rekursiven Typbeschränkungen und eines Paradigmenmechanismus, 

wie er im hier beschriebenen Modell verwendet wird. Aus dem Lexikon 

wird wie bei LILOG/2LM ein Trie erzeugt, der das Lexikonband der Two-Level- 

Komponente bildet. 

• Two-Level-Morphology: Das Modell verwendet Two-Level-Regeln, die durch einen 

Compiler in spezielle nichtdeterministische Transducer übersetzt werden, die wiederum 

während der Analyse von einem Interpreter benutzt werden. Da das von den Autoren 

beschriebene System im Hinblick auf das Englische konzipiert ist, verwundert es nicht, 

daß von Filtertermen oder äquivalenten Mechanismen kein Gebrauch gemacht wird. 

• Strukturanalyse: Die strukturelle Analyse vollzieht sich bezüglich einer Reihe von Wortstrukturregeln, 

denen der formalen Apparat der GPSG (vgl. Gazdar et al. (1985)) zugrundeliegt, 

d.h. typisierte Merkmalsstrukturen werden nicht verwendet. Ergänzt werden 

diese Regeln durch Perkolationsbeschränkungen, die Prinzipien wie das des „relativierten 

Kopfs“ realisieren. Segmentierer, die Two-Level-Komponente und der Chart-Parser 

arbeiten zur Vermeidung unsinniger Zerlegungen ineinander verzahnt, wobei letzterer 

die anderen Komponenten steuert. Das System kommt mit ambigen Zerlegungen zurecht, 

indem mit jeder dieser Zerlegungen der Zustand der Two-Level-Komponente nach der 

Analyse aller ihrer Symbole verknüpft ist. Nachteile legt der Ansatz von Ritchie et al. daher 

an den Tag, sobald Lexikoneinträge Disjunktionen enthalten, da diese von den Chart- 

Parsern i.a. durch Überführung in disjunktive Normalform beseitigt werden, was zur Einfügung 

mehrerer Chart-Kanten für ein gefundenes Morph(em) führt und damit die mit 

diesem verbundenen Automatenzustände dupliziert. Da in den Chart Wortsegmente eingehen 

und nicht Symbole der Oberflächenform, hat er keine lineare Struktur mehr, sondern 

präsentiert sich als gerichteter azyklischer Graph, was in Ritchie et al. (1991:164) am 

Beispiel von preached verdeutlicht wird. 

1 

pre 

2 

preach 

ache (N) 

ache (V) 

4 

3 

ed 

ed 

Abb. 4.8: Chart-Struktur für preached 

Für die Verarbeitung von Wörtern mit unbekannten Teilen wird schließlich keine erkennbare 

Vorsorge getroffen. 

Neben den genannten Abweichungen gibt es natürlich auch Gemeinsamkeiten der Modelle. 

Alle drei arbeiten mit Merkmalsstrukturen und Lexika in Form von Tries und sind dadurch 

gekennzeichnet, daß Steuerungsinformationen zwischen Parser und Segmentierer ausgetauscht 

werden, was zu einer effizienteren Analyse führt als rein serielle Verfahren. 

Das nächste Kapitel wendet sich der morphologischen Grammatik zu. 

118 

5


119

Kapitel 5: Eine merkmalsbasierte Beschreibung der Morphologie im Deutschen 

5 Eine merkmalsbasierte Beschreibung einiger Aspekte der 

Morphologie im Deutschen 

Der in Kapitel 4 dargelegte Analyseautomat zerlegt Wörter auf jede mögliche Weise in ihre 

Bestandteile und überprüft mit Hilfe eines aus der Grammatik gewonnenen Zustandsmechanismus 

bereits die Zulässigkeit der gefundenen Morph(em)abfolgen. Zerlegungen, die 

diesen Filter passieren, werden – parallel zur Segmentierung – durch einen erweiterten 

Chart-Parser analysiert. Dies geschieht relativ zu einer Grammatik, die in diesem Kapitel 

ausführlich erörtert wird. Ihre Darstellung erfolgt gewissermaßen bottom-up, d.h. ausgehend 

von den Lexikoneinträgen werden die Regeln erläutert, die diese zu immer größeren Gebilden 

zusammenfügen, bis schließlich die Ebene der vollständig spezifizierten einfachen oder 

komplexen Wörter erreicht wird. 

Als Gegenstand einer Theorie der Wortsyntax lassen sich drei Bereiche ausmachen: 

1. Kombinationsbeschränkungen: was sind zulässige Morphemkombinationen, was unzulässige? 

2. Präzedenzbeschränkungen: welche Morpheme müssen vor welchen anderen zu stehen 

kommen? 

3. Beschränkungen über Wortstrukturen: welche Art von Wortstrukturen sind für eine semantische 

Interpretation notwendig? 

Viele Standardansätze zur Beschreibung von Konstituentenstrukturen verwenden kontextfreie 

Grammatiken, die somit die ersten beiden oben genannten Beschränkungstypen in einem 

homogenen Formalismus fest inkorporieren. 

Gegen diese Ansätze ist eine Reihe von Argumenten vorgebracht worden, die letztlich zur 

Entwicklung von anderen Formalismen wie GPSG und HPSG geführt haben: 

• Dominanz und lineare Präzedenz allein durch starre Phrasenstrukturregeln auszudrükken 

führt zum Verlust von Beschreibungsadäquatheit, da es dann nicht mehr möglich ist, 

Generalisierungen über verschiedene Regeln zu formulieren. 

• Damit verwandt ist der Einwand, daß diese Verschmelzung auch anderen linguistischen 

Generalisierungen über Phrasenstrukturen wie X’-Schema, Kopf- und Subkategorisierungsprinzip 

etc. nicht gerecht wird. 

• Letztendlich führt der kontextfreie Ansatz zu einer großen Anzahl von sehr speziellen 

Konstruktionsregeln, deren Zusammenhang untereinander in keiner Weise ausgedrückt 

wird. 

Welche Konsequenzen ergeben sich hieraus für eine Beschreibung deutscher Wortstrukturen, 

deren hervorstechende Merkmale noch einmal kurz zusammengefaßt werden sollen: 

• Deutsche Wortstrukturen gehorchen einem abgewandelten Kopfprinzip, wobei unklar ist, 

ob dieses auch auf die Flexion ausgedehnt werden soll. Die Bestimmung des Kopfes wird 

dabei nicht ausschließlich inhaltlich aufgrund gemeinsamer Merkmale zweier in einem 

Dominanzverhältnis stehender Kategorien festgemacht, sondern positionell, d.h. Köpfe 

von Wortstrukturen im Deutschen sind Positionskategorien. Darüber hinaus können auch 

Nichtköpfe zu den Merkmalen einer Mutterkategorie beitragen, eine Tatsache, der man 

durch einen Default-Mechanismus, dem Begriff des relativierten Kopfes gerecht zu werden 

versucht. 

• Wortstrukturregeln im Deutschen sind im wesentlichen binär verzweigend, obwohl diese 

Analyse zu Problemen bei Komposita wie Lafontaine-Schröder-Konflikt führt. 

119


• Ausschließlich formalgrammatisch bedingte Beziehungen zwischen Wortbestandteilen 

sind selten und in der Literatur umstritten; am ehesten könnte man hierunter noch das 

Phänomen der Argumentvererbung bei Rektionskomposita und bestimmten Derivationsvorgängen 

erfassen. Ansonsten scheint die Deutung von komplexen Wörtern in wesentlicher 

Weise von nichtsyntaktischen Bedingungen abzuhängen. 

• Eine Zusammenfassung von Derivation und Komposition als unterschiedliche Aspekte 

eines zugrundeliegenden Prinzips ist aus formalen Gründen interessant, führt jedoch zu 

Problemen bei der Interpretation, die bei beiden Mechanismen unterschiedlich zu sein 

scheint. Darüber hinaus müssen bei einer vereinheitlichten Betrachtung Beschränkungen 

über die Abfolge von freien und gebundenen Kategorien wirksam sein. 

5.1 Morphologische Typenhierarchie und Lexikon 

5.1.1 Syntax 

Morphologische Objekte werden syntaktisch nach einer Typenhierarchie klassifiziert, die in 

der folgenden Abbildung wiedergegeben ist: 

unknown_stem 

simple_stem complex_stem 



linking_morph pre_syntactic_atom affix 

morph_object 

MORPH: morph 

infl_affix derivative 


GRAPH: list 

SYN: syntax 

SEM: semantics 

top 

suffix 

prefix 

syntactic_atom 

sign 

Abb. 5.1: Typenhierarchie zur Klassifizierung der morphologischen Kategorien 

phrase 

Unter einem Morph(ological) Object verstehe ich, der Terminologie von Williams/Di Sciullo 

(1987) folgend, ein aus Morphemen aufgrund von produktiven Formationsregeln aufgebautes 

morphologisches Gebilde mit interner Struktur. Auf der anderen Seite sind Elemente 

120


der Kategorie syntactic_atom die primitiven X 0-Kategorien der Syntax; sie weisen keine 

interne Struktur auf und besitzen nur noch Merkmale, die in der phrasalen Syntax relevant 

werden können. Subtypen der Kategorie morph_object sind u.a. die Typen affix und simple_or_complex_stem; 

letzterer besitzt Subtypen für einfache (simple_stem) oder zusammengesetzte 

Stämme bzw. Wurzeln (complex_stem). Eine besondere Rolle kommt der Klasse 

unknown_stem zu, mit der unbekannte Wortstämme klassifiziert werden. 

Mit Hilfe einer Reihe von Merkmalseinführungsaxiomen werden für diese einzelnen Typen 

Merkmale und für diese wiederum Werterestriktionen festgelegt, die sich an die Subtypen 

weiter vererben (diese sind in Abb. 5.1 unterhalb der Typen angegeben). Der Typ 

morph_or_syn_object führt die beiden Merkmale SYN und SEM ein, die sich an die Typen 

phrase – syntactic_atom und morph_object vererben; letzterer führt ein weiteres Merkmal 

MORPH mit Werterestriktion morph ein. Der Typ morph_object ist in der Typenhierarchie so 

definiert, daß seine erste Strukturebene wie in Abb. 5.2 aussieht (die Struktur unter SEM wird 

erst weiter unten näher behandelt): 1 

GRAPH: list(symbol) 

(FORM: symbol) 

SYN: 

SEM: 

MORPH: 

HEAD: 

ARGSTR: 

syntax 

morph_object 

semantics 

MFEAT: 

morph 


head 

argstr 

MHEAD: mhead 

mfeat 

MSUBCAT: morph_subcat 

Abb. 5.2: Merkmale des Typs morph_object 

Die der HPSG (vgl. Pollard & Sag (1987, 1994)) nachgebildeten Merkmale SYN und SEM repräsentieren 

die Worteigenschaften, die in der Phrasensyntax relevant sind. Unter SYN:HEAD: 

sind daher die morphosyntaktischen Merkmale wie Person, Numerus usw. verzeichnet. 

Demgegenüber befinden sich in der Struktur unter MORPH Merkmale, die nur für die 

Morphologie wesentlich sind. Unterschieden wird hier zwischen morphologischen 

Kopfmerkmalen (MORPH:MHEAD) – hierzu gehören Merkmale wie ±LATINATE und Angaben 

zur Deklinationsklasse (bei Nomen) – und anderen morphologischen Merkmalen (MFEAT), 

die keine Kopfmerkmale sind (z.B. das weiter unten erwähnte Merkmal COMPLETE). Hinzu 

kommt ein Merkmal MSUBCAT zur Wiedergabe morphologischer Subkategorisierungseigenschaften, 

das für die Affigierung verwendet wird. Das Merkmal GRAPH schließlich enthält 

eine graphematische Repräsentation des Stammmorphems bzw. die von morph_object dominierte 

Kette von Wortsegmenten. Die Struktur unter MORPH ähnelt der in Krieger (1994), 

1 Die Notationskonventionen seien hier noch einmal kurz wiederholt: Typen werden fett und kursiv, 

MERKMALE in Kapitälchen, Sorten kursiv und Variablen normal mit großem Anfangsbuchstaben 

wiedergegeben. 

121


anders als dort wird die Morphemkategorie jedoch nicht explizit durch ein Merkmal dargestellt, 

sondern durch die Typenhierarchie wiedergegeben. Das Merkmal STRUCTURE enthält 

in einer Liste die unmittelbaren Töchter von morph_object. 

Allen präterminalen Kategorien wie simple_stem, infl_affix usw. kommt darüber hinaus 

noch ein Merkmal FORM zu, das durch einen separaten Typ form_t eingeführt wird und die 

Grundform des morphologischen Paradigmas enthält. 

Syntaktische Atome auf der anderen Seite haben weder MORPH- noch STRUCTURE-Attribute, 

da morphologische Merkmale wie die interne Struktur eines Wortes für die Phrasensyntax 

nicht sichtbar sind (so jedenfalls die These). Die morphosyntaktischen Merkmale – in der 

Terminologie von Williams/Di Sciullo (1987) das gemeinsame Vokabular von Morphologie 

und Syntax – befinden sich unter SYN. Die Merkmale und Typen hierunter sind durch folgende 

Axiome definiert: 

(1) syntax :: HEAD: head ∧ ARGSTR: argstr 

head ↔ nominal | verbal | preposition 

head :: CAT: cat 2 

nominal ↔ noun | adjective | pronoun | determiner 

nominal :: CASE: case ∧ GENDER: gender 

adjective ::DEGREE: degree ∧ DECL: decl ∧ PRED: boolean 

verb → verbal 

verb ↔ verb_infl_or_imp | verb_infinitive 

verb_infl_or_imp ↔ verb_infl | verb_imp 

verb_infinitive ↔ verb_part | verb_inf_base 

verb_inf_base ↔ verb_inf | verb_zuinf 

verb_part ↔ verb_partI | verb_partII 

verb_infl_or_imp :: MOOD: mood 

verb_infl :: TENSE: tense 

preposition :: PFORM: symbol ∧ DP_CASE: case 

num_t ↔ verb_infl_or_imp ∨ nominal 

num_t :: NUM: num 

pers_t ↔ verb_infl ∨ nominal 

pers_t :: PERS: pers 

cat ↔ n | v | a | p |adv | d | pn 

case ↔ nom | gen | dat | acc 

pers ↔ first | second | third 

num ↔ sg | pl 

tense ↔ pres | pret 

mood ↔ ind | subjI | subjII | imp 

gender ↔ masc | fem | neut 

decl ↔ strong | weak | mixed 

degree ↔ pos | comp | sup 

2 Das Merkmal CAT ist eigentlich redundant, da es wesentlich differenzierter in der Typenhierarchie 

unter head ausgedrückt wird. Es dient lediglich der besseren Anschaulichkeit. 

122


Der Typ head wird zunächst einmal disjunktiv in nominale, verbale und präpositionale 

Köpfe partitioniert. Es wären hier noch weitere Disjunkte nötig, für die Zwecke der Wortgrammatik 

reicht es jedoch aus, sich auf diese drei zu beschränken. Vor allem der Typ verb 

wird dann in eine ganze Reihe von Subtypen zerlegt, je nachdem, ob es sich um ein flektiertes 

Verb (verb_infl), ein Verbpartizip (verb_partI oder verb_partII) und dgl. handelt. Diese 

Typen werden in den in Abschnitt 5.4 dargestellten Flexionsregeln verwendet. Die Verwendung 

der separaten Typen num_t und pers_t, die jeweils nur das entsprechende Merkmal 

einführen, macht eine Kreuzklassifikation der Typen in solche möglich, die die Merkmale 

PERS(ON) bzw. NUM(ERUS) tragen und solche, die dafür nicht gekennzeichnet sind. Die Unterteilung 

von case in seine vier offensichtlichen Subtypen wird in 5.4 noch etwas verfeinert. 

Unter SYN:ARGSTR wird die syntaktische und morphologische Argumentstruktur eines Kopfes 

festgelegt. Auch hier wird die Argumentstruktur von Verben von der von Nomen und 

Adjektiven unterschieden. Folgende Axiome sind hier festgelegt: 

(2) argstr ↔ verbal_argstr | nominal_argstr 

argstr :: 

DEFARGS: list(morph_or_syn_object) ∧ 

ADJUNCTS: list(morph_or_syn_object) ∧ 

ARGSTR_ORDER: list(morph_or_syn_object) 

verbal_argstr :: 

SUBJ: morph_or_syn_object_or_elist ∧ 

DIR_OBJ: morph_or_syn_object_or_elist ∧ 

INDIR_OBJ: morph_or_syn_object_or_elist ∧ 

PREP_OBJ: morph_or_syn_object_or_elist ∧ 

SENT_COMPL: morph_or_syn_object_or_elist ∧ 

nominal_argstr ↔ noun_argstr | adj_argstr 

nominal_argstr :: RELARG: morph_or_syn_object_or_elist 

adj_argstr :: INTARG: morph_or_syn_object_or_elist 

morph_or_syn_object_or_elist ↔ morph_or_syn_object | elist 

Zunächst einmal sind alle Werte in den verschiedenen Merkmalen zur Argumentstruktur 

unterspezifiziert bzgl. der Unterscheidung Wort – Phrase, d.h. ihre Werterestriktion ist 

morph_or_syn_object bzw. elist (empty list, für den Fall, daß ein Argument nicht vorhanden 

ist). Diese Unterspezifikation ist notwendig, da Argumente wortintern anders realisiert 

werden als wortextern, wie das Beispiel Renovierung zeigt. Das hier relationales Argument 

(RELARG) genannte Objekt von Renovierung wird phrasal als Nominalphrase verwirklicht, 

vgl. Renovierung der Bibliothek, wortintern jedoch als Nomen, vgl. Bibliotheksrenovierung. Beim 

Übergang in die Syntax wird schließlich der Typ verbliebener, d.h. wortintern nicht realisierter 

Argumente zu phrase angehoben (vgl. Abschnitt 5.4). 

Allen verschiedenen Kopftypen sind drei Merkmale gemeinsam: DEFARGS, ADJUNCTS und 

ARGSTR_ORDER. Default-Argumente sind (wie bei Pustejovsky (1995)) solche, die nicht unbedingt 

realisiert werden müssen, die jedoch eine Thetarolle in der unterliegenden Ereignisstruktur 

tragen. Bei Nomen sind dies oft durch Präpositionalphrasen ausgedrückte Subjekte, 

bei Verben Instrument-PPs. Die Standardreihenfolge der verschiedenen Argumente wird 

mittels des Attributs ARGSTR_ORDER festgehalten. 

123


Die Teilhierarchie unter MORPH ist folgendermaßen strukturiert: 

(3) morph :: MHEAD: mhead ∧ MFEAT: mfeat ∧ MSUBCAT: morph_subcat 

noun_mhead → mhead 

mhead :: LATINATE: boolean 

noun_mhead :: DECL_CLASS: decl_class 

morph_object_or_elist ↔ morph_object | elist 

mfeat :: 

COMPLEX: boolean ∧ % ist die Form komplex? 

COMPLETE: boolean ∧ % ist die Form flektionsmäßig vollständig ? 

UMLAUT: boolean ∧ % kann der Grundvokal umgelautet werden? 

DER: boolean ∧ % kann die Form für die Derivation verwendet werden? 

CMP: boolean ∧ % kann die Form für die Komposition verwendet werden? 

verb_mfeat → mfeat 

verb_mfeat :: 

SEP_VERB: boolean ∧ % handelt es sich um ein Partikelverb? 

V_PARTICLE: symbol % wenn ja, dann enthält dieses Merkmal den Partikel 

affix_subcat → morph_subcat 

affix_subcat :: NEEDS: morph_object_or_elist 

Wie oben bereits erwähnt, wird zwischen morphologischen Kopf- und Nicht-Kopfmerkmalen 

unterschieden. Merkmale wie DER und CMP dienen nach Eisenberg (1998) dazu, die verschiedenen 

Elemente eines morphologischen Paradigmas zu unterscheiden. Beispielsweise 

ist der Stamm sprung im Paradigma von spring- mit CMP:+ markiert, da diese Form die Kompositionsstammform 

ist. COMPLETE wird im Abschnitt über die Flexion näher erläutert. 

Der Typ morph_subcat mit seinem hier alleinigen Subtyp affix_subcat und dem damit verbundenen 

Merkmal NEEDS dient schließlich dazu, morphologische Kombinationsbeschränkungen 

zwischen freien und gebundenen Morphemen zu repräsentieren. Suffixe und Präfixe 

definieren unter NEEDS Anforderungen, die sie an das „subkategorisierte“ freie Morphem 

stellen. Gemeinsam mit dem im nächsten Abschnitt zur Derivation festgelegten morphologischen 

Subkategorisierungsprinzip dient das Merkmal auch dazu, die Vererbung von Argumenten 

von der Basis an das Derivat zu ermöglichen. 

5.1.2 Semantik 

Die Hierarchie, die die Typen unter SEM in Abb. 5.2 strukturiert, ist ausschnittsweise in (4) 

wiedergegeben. 

(4) semantics ↔ nominal_semantics | verbal_semantics 

semantics :: CONTENT: content 

nominal_semantics :: REFARG: simple_or_dotted_type 

verbal_semantics :: EXTARG: simple_type 

content ↔ lexical_content | operator_content 

lexical_content :: EVENTSTR: eventstr 

124


Hiernach wird die Semantik von nominalen Kategorien wie Nomen und Adjektiven auf der 

einen Seite von der von Verben auf der anderen unterschieden. Erstere weisen ein sog. referentielles 

Argument 3 (REFARG) auf, das anders als die unter ARGSTR definierten Argumente 

semantischer Natur ist, da es der durch λ-Abstraktion gebundenen Argumentstelle in der 

semantischen Repräsentation von Nomen entspricht, z.B. in λx Baum(x). Ähnlich wie das 

sog. externe Argument bei Verben ist es bei Derivations- und Flexionsprozessen in systematischer 

Weise mit anderen Argumenten in der Argumentstruktur korreliert, was in den entsprechenden 

Abschnitten dieses Kapitels verdeutlicht wird. 

Der Typ der Merkmale REFARG und EXTARG ist simple_or_dotted_type bzw. simple_type. Die 

Subtypen von simple_or_dotted_type zeigt die nächste Abbildung: 

uncountable 

individual 

simple_type 

TYPE:entity 

countable 

group 

GROUP_OF:countable 

simple_or_dotted_type 

dotted_type 

TYPES: listof(simple_type) 

TYPE_REL:listof(relations) 

Abb. 5.3: Strukturierung der Wertetypen von REFARG und EXTARG 

Der Typ simple_type unterteilt sich in die maximalen Typen uncountable, individual und 

group. Nomen mit REFARG:uncountable beziehen sich auf Massennomina, also Stoff- und 

Kollektivnomina, die dadurch gekennzeichnet sind, daß sie nicht in den Plural gesetzt werden 

können, ohne ihre Singularbedeutung regelgeleitet zu verändern und die auch im Singular 

ohne Artikel auftreten können. Während beispielsweise Stahl sich auf ein bestimmtes 

Material bezieht, bezieht sich Stähle auf eine Menge von Stahlsorten. Demgegenüber stehen 

die abzählbaren Entitäten individual und group; individual denotiert alle eindeutig individuierten 

Dinge, wohingegen group Mengen solcher Dinge umfaßt; die Natur dieser ist im 

Merkmal GROUP_OF festgehalten. GROUP_OF hat als Werterestriktion wiederum countable, so 

daß hierdurch auch Gruppen von Gruppen möglich werden, die bei Nomen wie Gruppe 

selbst, das bereits im Singular Mengen denotiert, aber auch im Zusammenhang mit den 

schon angesprochenen dotted types notwendig sind. Der Plural von Gruppe sähe als Merkmalsstruktur 

folgendermaßen aus: 

3 REFARG wurde auch deswegen eingeführt, um die Ungenauigkeiten in Pustejovskys (1995) Konzeption 

bzgl. des referentiellen Arguments zu beseitigen. 

125


TYPE: 1 entity 

TYPE: 1 

TYPE: 1 

GROUP_OF: GROUP_OF: 

individual 

group 

group 

Abb. 5.4: Plural von „Gruppe“ 

Aufgrund der Existenz des Typs individual kann jeder Merkmalsterm vom Typ group mittels 

der Äquivalenz 8 (Kapitel 2) vollständig typisiert werden. 

Es gibt andere Möglichkeiten, Gruppen und Individuen in Beziehung zu setzen: Link (1991) 

und Carpenter (1997) rekonstruieren Gruppen als Subtypen von Individuen, was folgendermaßen 

axiomatisiert werden könnte: 

(5) individual → simple_type 

simple_type :: TYPE: entity 

group → individual 

group :: GROUP_OF: individual 

Merkmalsterme vom Typ group könnten auch nach dieser Hierarchie vollständig typisiert 

werden, da keine appropriateness loop (vgl. Kapitel 2) vorliegt. 

Der Hauptgrund für die Wahl der anderen, oben beschriebenen Methode der Gruppenbildung 

liegt aber woanders. Eine methodische Leitlinie bei der Konstruktion der Wortgrammatik 

war, soweit wie möglich vom Mittel der Unterspezifikation Gebrauch zu machen. Beinahe 

alle vorgenommenen Typisierungen erfolgen auf disjunktive Art und Weise, d.h. ein 

Supertyp definiert seine Subtypen aufgrund einer Disjunktion. Andere Vorgehensweisen 

sind hier möglich, vgl. auch Carpenter (1992: Kap. 2), und in Fällen wie der Rekonstruktion 

des Kasussystems (s. Abschnitt 5.4) wurde auch von der konjunktiven Konstruktion Gebrauch 

gemacht. Disjunktive Typen machen es möglich, Generalisierungen über Supertypen 

zu formulieren, die sich qua Vererbung automatisch auch auf deren Subtypen erstrecken; die 

Typen countable oder morph_or_syn_object sind nur zwei Beispiele hierfür. 

Unterspezifikation des referentiellen Arguments wird u.a. in den Lexikoneinträgen von Individuennomen 

benutzt, also Nomen, die Mengen von Individuen im Singular und Mengen 

von Mengen von Individuen im Plural denotieren. Im Lexikon ist ihr referentielles Argument 

jedoch lediglich mit countable (unter)spezifiziert, wie das Beispiel in Abb. 5.5 zeigt 4 : 

4 Alle im weiteren Verlauf dargestellten Merkmalsstrukturen sind direkt aus der Ausgabe der in CUF 

implementierten morphologischen Grammatik entnommen. Die CUF-Terme wurden mit Hilfe der 

selbstgeschriebenen Prolog-Bibliotkek cuf2clig in das Eingabeformat des CLIG-Graphers transformiert 

(Konrad (1995, 1997)), der die Postscript-Ausgabe der graphischen Strukturen ermöglichte. 

126


FORM: Messer 

SYN: 

SEM: 

HEAD: 

ARGSTR: 

syn 

CAT: n 

GENDER: neut 

noun 

RELARG: 

DEFARGS: 

ARGSTR_ORDER: 

noun_argstr 

REFARG: TYPE: knife 

countable 

nominal_semantics 

MORPH: morph 

simple_stem 

Abb. 5.5: Lexikoneintrag von „Messer“ 

Die Typanhebung von countable zu individual bzw. group wird erst später während der 

Flexion durch das Hinzutreten des Numerus-Merkmals ausgelöst, was ausführlich in 5.4.2 

dargestellt wird. 

Fast ebenso wichtig wie Unterspezifikation ist jedoch das Kriterium der Unterscheidbarkeit 

von Typen. Beachtenswert ist, daß individual und group im System (5) durch Unifikation 

(Konjunktion mit einem anderen Merkmalsterm) nicht mehr zu unterscheiden sind. Es zeigt 

sich jedoch (wiederum muß ich auf Abschnitt 5.4.2 verweisen), daß Flexionsprozesse diese 

Differenzierung notwendig machen. Im System (5) könnte die Frage, welchen Subtyp von 

countable ein Merkmalsterm X aufweist, nicht durch Konjunktion mit GROUP_OF:entity (X ∧ 

GROUP_OF:entity) beantwortet werden, da dies auch für individiual gelingen würde. Diese 

Frage könnte nur durch einen Subsumptionstest entschieden werden (ein Term ist vom Typ 

group, wenn er von group subsumiert wird), der aber in den meisten Formalismen nicht zur 

Verfügung steht, nicht zuletzt deshalb, weil er schlecht mit der Semantik von konjunktiven 

Termen in Einklang zu bringen ist. Ich werde hierauf nochmals in Kapitel 6 zu sprechen 

kommen. 

Die hier gewählte Mengenrekonstruktion erlaubt die angesprochene Unterscheidung, da der 

Term individual ∧ group inkonsistent ist, d.h. jeder Merkmalsterm ist, falls er nicht mit 

countable unterspezifiziert ist, entweder vom Typ individual oder vom Typ group, aber 

nicht beides. 

Der Typ dotted_type, der schon in Kapitel 3.4 angesprochen wurde, dient dazu, die Polysemie 

von Nomen wie Museum, aber auch Brot usw. zu repräsentieren, die je nach Satzkontext 

mit verschiedenen Begriffen in Verbindung gebracht werden können. Diese verschiedenen 

Konzepte – simple types in der Terminologie des Systems in Abb. 5.3 – werden im Merkmal 

TYPES in Form einer Liste repräsentiert, da ich nicht die Einschränkung von Pustejovsky 

(1995) auf genau zwei Typen, die zusammen ein sog. lexical conceptual paradigm bilden, machen 

wollte. Möglicherweise bieten diese Paradigmen ein größeres Erklärungspotential; ich 

habe diese Idee jedoch nicht weiterverfolgt. 

Das Merkmal TYPE_REL(ATIONS) ersetzt das uneinheitlich verwendete FORMAL-Merkmal in 

Pustejovsky (1995) und dient dazu, die Beziehungen zwischen den einzelnen Subkonzepten 

unter TYPES in Form einer Liste von Relationen zu fassen. Nachfolgend ist ein Teil des Lexikoneintrags 

von Museum wiedergegeben: 

127


FORM: Museum 

SYN: 

HEAD: 

ARGSTR: 

syn 

SEM: REFARG: 

CAT: n 

GENDER: neut 

noun 

RELARG: 

DEFARGS: 

ARGSTR_ORDER: 

noun_argstr 

TYPES: 

TYPE_REL: 

dotted_type 


MORPH: morph 

simple_stem 

1 

2 

3 

5 

TYPE: institution 

countable 

TYPE: building 

countable 

TYPE: 4 human 

GROUP_OF: 

group 

TYPE: 4 

countable 

TYPE: 6 physical_entity 

GROUP_OF: 

group 

TYPE: 6 

countable 

RELCONST: contains 

RELARGS: 2 ,1 

relation 

RELCONST: work_for 

RELARGS: 3 ,1 

relation 

RELCONST: exhibits 

RELARGS: 1 ,5 

relation 

Abb. 5.6: Lexikoneintrag von „Museum“ 

Interessant ist u.U., daß REFARG in (4) mit simple_or_dotted_type typisiert ist, EXTARG jedoch 

lediglich mit simple_type. Möglicherweise gibt es im Deutschen keine Verben mit der Nomen 

wie Museum vergleichbaren polysemen Referenz. 

Lexikalische Kategorien weisen neben dem externen bzw. referentiellen Argument auch eine 

im weitesten Sinne zu verstehende Ereignisstruktur auf, deren Typisierungsaxiome in (6) 

dargestellt sind: 

(6) event ↔ activity | state 

eventstr ↔ activity_eventstr ∨ state_eventstr 

activity_eventstr :: 

EVENT: activity 

state_eventstr :: 

STATE: state 

128


transition_eventstr ↔ activity_eventstr ∧ state_eventstr 

transition_eventstr ↔ achievement | accomplishment 

transition_eventstr :: 

EVENTRESTR: eventrestr ∧ 

EVENTHEAD: event 

Der in Abschnitt 3.4.1 beschriebenen Klassifikation der Aktionsarten folgend wird die Ereignisstruktur 

eines Lexems (hier nicht-partitionierend 5 ) in die Subtypen activity_eventstr 

und state_eventstr unterteilt, die jeweils ein Merkmal EVENT bzw. STATE zur genaueren Angabe 

der Subereignisse aufweisen. Accomplishment- und achievement-Ereignisse sind im Gegensatz 

dazu zusammengesetzte Ereignisse, d.h. bestehen aus einer Aktivität und einem sich 

daran anschließenden Zustand. Das Merkmal EVENTRESTR gibt die zeitliche Anordnung von 

Ereignis und Zustand an; EVENTHEAD hält fest, welches Teilereignis fokussiert ist (vgl. hierzu 

auch Pustejovsky (1995:67ff). Zur Illustration ist in Abb. 5.7 der Lexikoneintrag für retten 

angegeben, dem u.a. entnommen werden kann, daß die Ereignisstruktur von retten aus zwei 

geordneten Teilereignissen besteht: einem Ereignis des Rettens mit den Rollen Agens, Thema 

und Instrument und einem Zustand, wo das Thema des erstens Ereignisses Argument eines 

Prädikats gerettet ist. Ereignisnominalisierungen wie Rettung können im übrigen auch genau 

diese beiden Sachverhalte ausdrücken. 

In Abb. 5.7 sieht man weiterhin, wie die Partizipanten der Ereignisse mit Elementen aus der 

syntaktischen Argumentstruktur verknüpft sind. Jede Ereignisrolle hat eine Selektionsbeschränkung 

(SEL_RESTR), die mit dem referentiellen Argument der jeweiligen NP oder PP aus 

der Argumentstruktur koindiziert ist. Die Rolle Instrument, vgl. 

(7) Der Parkwächter rettete die Kinder mit einem Seil aus dem Wasser 

kann hier durch ein Default-Argument wiedergegeben werden. Als Thetarollen habe ich die 

Standard-Rollen verwendet, die in einigen Fällen allerdings durch Subtyp-Bildung dem jeweiligen 

Ereignistyp angepaßt wurden (diese Rollen heißen in Dowty (1989) individuelle 

thematische Rollen und sind jeweils verbspezifisch; das Verb geben hätte beispielsweise eine 

Rolle Geber usw.). Die Annahme von Thetarollen ist natürlich nicht unproblematisch, wenn 

von ihnen das syntaktische und semantische Verhalten von Lexemen abhängig gemacht 

wird. Im Rahmen des hier dargelegten Systems haben sie allerdings fast immer nur argumentindizierende 

Funktion (vgl. Dowty (1989)). 

Das listenwertige Merkmal ARGSTR_ORDER schließlich enthält noch so etwas wie eine kanonische 

Reihenfolge der Elemente aus der Argumentstruktur. 

In den bisher gezeigten Merkmalsstrukturen erschienen weitere Typen wie human, institution, 

relation usw., die einer Konzepthierarchie entstammen, deren allgemeinster Typ entity 

ist. Diese weitere Hierarchie soll die verwendeten Begriffe ordnen und dient vor allem dazu, 

Generalisierungen über Selektionsbeschränkungen, wie sie bei der Komposition benutzt 

werden, auszudrücken. Ein Teil dieser Hierarchie ist wiederum in (8) auf S. 131 wiedergegeben. 

5 Unter Typenpartitionierung werden Typaxiome der Form t ↔ t1 | t2 | ... | tn verstanden. Der Typ t 

wird demnach in paarweise inkonsistente Subtypen zerlegt. Dies ist bei Typenaxiomen der Form t ↔ 

t1 ∨ t2 ∨ ... ∨ tn nicht der Fall, d.h. die Schnittmengen der Denotate zweier Subtypen müssen nicht leer 

sein (vgl. auch Kap. 2). Im Beispielfall darf keine Typenpartitionierung vorgenommen werden, da der 

Typ transition_eventstr ein gemeinsamer Subtyp von activity_eventstr und state_eventstr ist. 

129


FORM: rett 

SYN: 

SEM: 

HEAD: 

ARGSTR: 

syn 

CAT: v 

verb 

EXTARG: 2 

SUBJ: 1 

DIR_OBJ: 3 

INDIR_OBJ: 

PREP_OBJ: 

SYN: HEAD: 

SEM: 

SENT_COMPL: 

syn 

CAT: n 

CASE: struc_case 

noun 

REFARG: 2 TYPE: human 

countable 


morph_or_syn_object ∧ sign_elist 

SYN: HEAD: 

SEM: 

DEFARGS: 5 

syn 

CAT: n 

CASE: struc_case 

noun 

REFARG: 4 TYPE: animate_ind 

countable 



ARGSTR_ORDER: 1 ,3,5 

verbal_argstr 

CONTENT: EVENTSTR: 

verbal_semantics 

MORPH: morph 

simple_stem 

lexical_content 

SEM: REFARG: 6 TYPE: tool 

countable 



EVENT: 7 

STATE: 

EVENT_TYPE: rescue 

ROLES: 

event 

8 

ROLE: agent 

SEL_RESTR: 2 

role 

ROLE: theme 

SEL_RESTR: 4 

role 

ROLE: instrument 

SEL_RESTR: 6 

role 

RELCONST: rescued 

RELARGS: 8 

state 

EVENTRESTR: event_sequence 

EVENTHEAD: 7 

accomplishment 

Abb. 5.7: Lexikoneintrag von “retten” 

130


(8) entity ↔ physical_entity | abstract_entity 

physical_entity ↔ animate_ind | inanimate_ind 

animate_ind ↔ human | nonhuman 

nonhuman ↔ animal | plant 

inanimate_ind ↔ matter | physical_obj 

matter ↔ solid_state | liquid 

solid_state ↔ metal | stone | china | paper | glass 

liquid ↔ water | oil 

physical_obj ↔ book | musical_instrument | tool | food | place 

tool ↔ knife | cup | blade 

food ↔ bread | cake 

place ↔ building | room 

factory → building 

abstract_entity ↔ temporal | nontemporal 

event → temporal 

activity → event 

nontemporal ↔ abstract_obj | abstract_nonobj 

abstract_obj ↔ institution 

abstract_nonobj ↔ information | property | relation | collection 

text → information 

state → relation 

Diese Hierarchisierung ist nun weit davon entfernt, vollständig zu sein, sondern an die Beispiellexikoneinträge 

angepaßt; sie könnte durch weitere Kreuzklassifikation auch noch genauere 

Unterscheidungen zulassen. Welchen Typ man welcher Entität zuweist, ist bei genauerer 

Betrachtung auch weniger wichtig als man auf den ersten Blick annehmen würde. 

Entscheidender ist m.E., wie sich die Typen von Argumenten komplexer Wörter während 

verschiedener Wortbildungsprozesse auf die Typen ihrer Bestandteile beziehen lassen. 

Neben frei vorkommenden Lexemen enthält das Lexikon auch noch Einträge für Präfixe und 

Flexions-/Derivationssuffixe; allesamt werden sie in Form einer Sorte morph/1 repräsentiert. 

Bevor die morphologische Einsetzung erläutert wird, noch kurz etwas zum Aufbau der 

morphologischen Grammatik. Diese besteht aus Klauseln einer dreistelligen Sorte 

cat(Category, List0, List1) 

die mit cat(morph_or_syn_object, list, list) -> morph_or_syn_object typisiert ist. Das erste 

Argument von cat/3 ist die zu parsende Kategorie, die beiden letzten Argumente sind die 

Listen, deren Differenz die von ihr dominierten Wörter ergibt. Der Funktionswert von cat/3 

ist der dieser Kategorie zugeordnete Merkmalsterm. 

Die morphologische Einsetzung erfolgt durch zwei Klauseln von cat/3: 6 

6 Zur größeren Klarheit nochmals eine Erläuterung zu dieser Art von Sorten: bei einer rückwärtverkettenden 

Beweisstrategie (wie sie beispielsweise der zur Implementierung verwendete Formalismus 

CUF verwendet) wird die Variable Cat an den vollständigen Merkmalsterm des zu beweisenden Subziels 

gebunden. Dieser Merkmalsterm muß mit dem aus dem Morph-Lexikon für Graph ermittelten 

Merkmalsterm konsistent sein; in diesem Falle wird die normalisierte Konjunktion beider Terme 

zurückgegeben. 

131


(Regel Ia,b: morphologische Einsetzung) 

cat(Cat, [Graph|L], L) ← 

Cat ∧ morph(Graph) 

cat(Cat, L, L) ← 

Cat ∧ morph(nil) 

Die erste Klausel dient zur Einsetzung von an der Wortoberfläche realisierten Kategorien, 

die zweite zum Einsetzen leerer Kategorien (wie beispielsweise Flexiven), die durch der speziellen 

Konstante nil gekennzeichnet sind. 

5.2 Derivation 

5.2.1 Syntax 

Eine formale Integration von Komposition und Derivation ist aus vielen Gründen erstrebenswert, 

jedoch, wie ich schon an verschiedenen Stellen versucht habe zu zeigen, nicht 

ohne weiteres möglich. Vertreter dieser Idee müssen erklären, warum die meisten Derivationsaffixe 

rechts vom Stamm stehen müssen, warum beispielsweise *Ungumleit (statt Umleitung) 

nicht möglich ist. Ausflucht zu nehmen zu zweifelhaften Merkmalen wie POS(ITION) 

(mit Werten left und right), wie dies in Krieger (1994) geschieht, ist linguistisch natürlich 

nicht befriedigend und verschleiert als Pseudo-Erklärung die Angelegenheit eher. Mir ist 

keine Erklärung bekannt – vielleicht gibt es auch keine, da das die Sprache erwerbende Kind 

an positiven Evidenzen die richtige Unterscheidung festlegen kann – und daher nehme ich 

zwei Derivationsregeln an, eine für die Präfigierung und eine für die Suffigierung: 

(Regel II, Präfigierung) 

cat(complex_stem ∧ Stem, L0,L2) ← 

Stem ∧ 

true(cat(prefix, L0,L1) ∧ Prefix) ∧ 

true(cat(simple_or_complex_stem, L1,L2) ∧ Stem1) ∧ 

unified_head_features([Stem1]) ∧ 

morph_subcat_principle(Prefix, Stem1) ∧ 

GRAPH: diff(L0, L2) 7 ∧ 

STRUCTURE: [Prefix,Stem1] 

(Regel III, Suffigierung) 


Stem ∧ 


true(cat(linking_morph, L1,L2)) ∧ 

true(cat(derivative, L2,L3) ∧ Suffix) ∧ 

unified_head_features([Suffix]) ∧ 

morph_subcat_principle(Suffix, Stem1) ∧ 

GRAPH: diff(L0, L3) ∧ 

STRUCTURE: [Stem1,Suffix] 

7 diff/2 ist eine Funktion, die aus den zwei Argumentlisten deren Differenz berechnet und als Liste 

zurückgibt. 

132


Die Position des Affixes relativ zum Stamm ist durch die Regel selbst und eine Klassifizierung 

der Derivationsaffixe in Präfixe und Suffixe gegeben. Hervorhebenswert ist, daß diese 

Regeln aufgrund der Vererbungshierarchie jeweils zwei „herkömmliche“ Strukturregeln 

repräsentieren, eine für zusammengesetzte Stämme und eine für Simplexstämme. Hierdurch 

werden im übrigen auch strukturelle Ambiguitäten bei gleichzeitiger Prä- und Suffigierung 

erzeugt. Ein Wort wie Unrettbarkeit hat hiernach die Klammerungen [Un [Rettbarkeit]] und 

[unrettbar [keit]]. Beide Regeln sind darüber hinaus rekursiv, erlauben also beliebig viele Präfixe 

und Suffixe . Dies scheint bei der Präfigierung auch gerechtfertigt zu sein, man denke an 

Vor*version (vgl. Krieger (1994)) oder vor*letzer. Bei der Suffigierung scheint dies ausgeschlossen, 

vermutlich deshalb, weil Suffixe kategorieverändernd wirken und zusätzlich 

Kopfeigenschaften haben; hierdurch ist ausgeschlossen, daß sich eine Derivation selbst 

„füttert“. 

In beiden Regeln vererbt der jeweils am weitesten rechts stehende Wortbestandteil seine 

syntaktischen und semantischen Kopfmerkmale mit der Funktion unified_head_features/1 an 

die Mutterkategorie: 

(9) unified_head_features(HF) ← 

syn_head_features(HF) ∧ 

morph_head_features(HF) 

syn_head_features([]) ← > 

syn_head_features([SYN:HEAD: H|Rest]) ← 

SYN:HEAD: H ∧ syn_head_features(Rest) 

morph_head_features([]) ← > 

morph_head_features([MORPH:MHEAD: H|Rest]) ← 

MORPH:MHEAD: H ∧ morph_head_features(Rest) 

Die Sorten syn_head_features/1 und morph_head_features/1 und sind rekursiv, da bei der Flexion 

mehr als eine Kategorie zu den Kopfmerkmalen beiträgt (s.a. 5.4). 

Zentraler Teil beider Affigierungsregeln ist das sog. morphologische Subkategorisierungsprinzip 

(morph_subcat_principle/2). Ritchie et al. (1992), Antworth (1994) und Krieger (1994) folgend 

nehme ich an, daß Affixe ihre benachbarten Stämme subkategorisieren, sie demnach in ihrer 

lexikalischen Matrix Angaben zu syntaktischen und morphologischen Eigenschaften der 

Stämme machen, zu denen sie treten können. Ich verwende hierzu ein Merkmal NEEDS, das 

durch den Typ affix_subcat eingeführt wird. 

(10) affix_subcat → morph_subcat 


NEEDS hat den Wert elist, wenn eine Subkategorisierungsanforderung „gesättigt“ wurde und 

ist bei frei vorkommenden Morphemen unterspezifiziert; Merkmale wie ± GEBUNDEN 

erübrigen sich damit. 

Die Funktion morph_subcat_principle(Affix, Stamm) in den Regeln II und III ist relativ einfach: 

(11) morph_subcat_principle(MORPH:MSUBCAT:NEEDS: Stem ∧ 

SYN:ARGSTR: AffixSC ∧ SEM:Sem, Stem) ← 

MORPH:MSUBCAT:NEEDS: elist ∧ 

SYN:ARGSTR: AffixSC ∧ SEM: Sem. 

Die Funktion überprüft demnach, ob der Stamm den Anforderungen des Affixes entspricht 

und gibt dann die syntaktische Argumentstruktur und Semantik des Affixes als Wert 

zurück. Da Affixe selbst diese Eigenschaften nicht haben, kann dies nur dann korrekt sein, 

133


wenn das Affix die Werte, die der Stamm unter SYN:ARGSTR und SEM trägt, an sich zieht und 

in einer dem Affix entsprechenden Weise verändert. Dies wird im Lexikoneintrag des 

Affixes festgelegt (ausführliche Beispiele folgen weiter unten). 


Von welcher Art ist nun der semantische Beitrag von Affixen? Traditionellerweise werden 

Affixe als semantisch leere Operatoren betrachtet, die die Bedeutung des Stammes verändern. 

Um dies zu repräsentieren, habe ich folgende Typenaxiome zugrundegelegt: 

(12) content ↔ lexical_content | operator_content 

one_place_operator_struct → operator_content 

operator_content :: 

OPERATOR: operator 

one_place_operator_struct :: 

SCOPE: content 

operator ↔ one_place_operator | two_place_operator 

one_place_operator ↔ op_modality | op_negation | op_abstraction |op_identity 

op_modality ↔ op_possibility | op_necessity 

Der semantische Beitrag eines Affixes besteht demzufolge aus einem ein- oder zweistelligen 

Operator und seinem Wirkungsbereich: 

(13) OPERATOR: operator 

SCOPE: content 

one_place_operator_struct 

Da der Wert von SCOPE auf den Typ content eingeschränkt ist, der als Subtyp 

operator_content aufweist, können Operatoren ineinander verschachtelt werden, was bei 

Mehrfachsuffigierung (Beispiele: Unrettbarkeit, Freiheitlichkeit) auch geboten erscheint. 

Suffixe wie -ung leisten noch nicht mal einen funktionalen Beitrag und scheinen bloße Nominalisierer 

zu sein; bei ihnen könnte man einen Identitätsoperator annehmen. Ich habe es 

jedoch vorgezogen, in diesen Fällen die OPERATOR/SCOPE-Teilstruktur ganz wegzulassen. 

Betrachten wir im folgenden einige Beispiele. 

5.2.2.1 -bar 

Suffigierung mit -bar wurde schon in Krieger (1994) dargestellt; es wird hier der Vollständigkeit 

halber in meinem Grammatiksystem wiederholt. Abb. 5.8 zeigt den Lexikoneintrag 

für „bar“. Wie daraus ersichtlich, spezifiziert -bar im NEEDS-Merkmal Verben mit direktem 

Objekt. Via Koindizierung 3 wird die mit diesem Objekt verknüpfte Selektionsbeschränkung 

an das referentielle Argument des bar-Adjektivs vererbt und der semantische Gehalt 

des Verbs ( 2 ) in den Skopus des Möglichkeitsoperators gebracht. Das Subjekt des Verbs 

(genauer gesagt: sein SEM:REFARG-Wert) erscheint schließlich in der DEFARGS-Liste der Gesamtstruktur; 

hier kann es durch Regel VII beispielsweise als PP mit der Präposition von 

oder durch verwirklicht werden (s.a. 5.4). Die Werte von SYN:ARGSTR und SEM werden bei 

Anwendung der Suffigierungsregel durch das morphologische Subkategorisierungsprinzip 

vom Affix an das zusammengesetzte Adjektiv weitergereicht. 

134


FORM: bar 

SYN: 

SEM: 

HEAD: 

ARGSTR: 

syn 

MORPH: 

suffix 

CAT: a 

adjective 

INTARG: 

DEFARGS: 1 

ARGSTR_ORDER: 1 

adj_argstr 

REFARG: 3 simple_or_dotted_type 

CONTENT: 


SYN: HEAD: 

syn 

CAT: p 

SEM: 2 semantics 

DP_CASE: ldat 

PFORM: von 

preposition 


OPERATOR: op_possibility 

SCOPE: 4 content 


MSUBCAT: NEEDS: 

morph 

SYN: 

SEM: 

affix_subcat 

HEAD: 

ARGSTR: 

syn 

CAT: v 

verb 

CONTENT: 4 

semantics 

SUBJ: 

DIR_OBJ: 

SEM: 2 

INDIR_OBJ: 

PREP_OBJ: 

SENT_COMPL: 

verbal_argstr 


SEM: REFARG: 3 



morph_object_or_elist ∧ morph_or_syn_object 

Abb. 5.8: Lexikoneintrag von „bar“. 

Die Semantik eines komplexen Adjektivs wie rettbar sähe dann wie in der nächsten Abbildung 

gezeigt aus (einige Details wurden ausgelassen): 

SEM: 

REFARG: 3 

CONTENT: 

TYPE: animate_ind 

individual 




SCOPE: EVENTSTR: 



EVENT: 4 

STATE: 

EVENT_TYPE: rescue 

ROLES: 

event 

ROLE: agent 

SEL_RESTR: 2 

role 

RELCONST: rescued 

RELARGS: 5 

state 


Abb. 5.9: SEM-Wert von „rettbar“ 

135 

,5 


ROLE: theme 

SEL_RESTR: 3 

role 

, SEL_RESTR: 

role 

TYPE: tool 

countable


Logisch kann -bar so gedeutet werden, daß es die Ereignisstruktur eines Verbs in den Skopus 

des Möglichkeitsoperators bringt, vgl. 

(14) λx ◊ ∃e [event(e) ∧ type(e,rescue) ∧ theme(e,x)] 

5.2.2.2 -ung 

Wie schon mehrfach gesagt, bewirkt -ung die Nominalisierung der durch accomplishment- 

Verben ausgedrückten Ereignisse. Man kann dies nachbilden, indem man die Teilereignisse 

activity und state der verbalen Ereignisstruktur zu Elementen des dotted types des abgeleiteten 

Nominals macht. Der (etwas vereinfachte) Lexikoneintrag von -ung, der dies zusammen 

mit dem Subkategorisierungsprinzip bewerkstelligt, sieht folgendermaßen aus: 

(15) morph("ung") ← 

FORM:"ung" ∧ 

suffix ∧ 

SYN:HEAD:(noun ∧ CAT:n ∧ GENDER:fem) ∧ 

decl_class(dc_III,dc_III) ∧ 

MORPH:MSUBCAT:NEEDS: ( 

SYN:(HEAD: verb ∧ 

ARGSTR:(SUBJ: Subj ∧ DIR_OBJ: DirObj ∧ DEFARGS: Defargs ∧ 

INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] )) ∧ 

SEM:CONTENT:EVENTSTR: (accomplishment ∧ EVENT: E1 ∧ STATE: E2 )) ∧ 

SEM:REFARG:(dotted_type ∧ TYPES: [countable ∧ TYPE: E1, countable ∧ TYPE: E2]) ∧ 

( objectivus(Subj, DirObj, Defargs) ∨ 

subjectivus(Subj, DirObj, Defargs) ) 

Nominalisierungen mit -ung können auf zwei Weisen verstanden werden: als Subjektivus 

und als Objektivus (vgl. auch Eisenberg (1998)): 

(16) a) die Prüfung durch Beamte des BKA ergab ... 

b) die Prüfung der Beamten durch die Gauk-Behörde ergab ... 

Diese beiden Lesarten, die einem übrigens auch in den korrespondierenden Rektionskomposita 

wieder begegnen, werden durch die beiden Funktionen subjectivus/3 und objectivus/3 

erzeugt 8 : 

(17) subjectivus(SEM:SubjSem, DirObj, Defargs) ← 

SYN:ARGSTR:RELARG: (Rel ∧ SEM: SubjSem) ∧ 

SYN:ARGSTR:DEFARGS: [] ∧ 

SYN:ARGSTR:ARGSTR_ORDER: [Rel] 

objectivus(SEM:SubjSem, DirObj, Defargs) ← 

SYN:ARGSTR:RELARG: DirObj ∧ 

SYN:ARGSTR:DEFARGS: append(Defargs, [Subj ∧ SEM: SubjSem]) ∧ 

SYN:ARGSTR:ARGSTR_ORDER: append([DirObj], [Subj]) 

Die erste Funktion macht die Semantik des Verbsubjekts zur Semantik des relationalen Arguments. 

Die Subjektivus-Lesart läßt, anders als der Objektivus, keine Default-Argumente 

zu. Die objectivus-Funktion macht das direkte Objekt des Verbs zum internen der Nominali- 

8 Die Funktionen sind aus Gründen der Anschaulichkeit leicht vereinfacht. 

136


sierung und ergänzt die Liste der Default-Argumente um das Subjekt. Die nächste Abbildung 

zeigt die Subjektivus-Lesart von Prüfung. 

GRAPH: prüf , ung , $ 

SYN: 

SEM: 

NUM: sg 

HEAD: 

noun 

ARGSTR: 

syn 

REFARG: 

RELARG: 1 

DEFARGS: 

SYN: 

SEM: 

phrase 

ARGSTR_ORDER: 1 

noun_argstr 

TYPES: 

TYPE_REL: 

dotted_type 

CONTENT: no_content 



HEAD: noun 

syn 

3 TYPE: 

REFARG: 2 TYPE: human 

countable 


individual 

7 TYPE: 

individual 

EVENT_TYPE: check 

ROLES: 

4 

5 

6 

ROLE: agent 

SEL_RESTR: 2 

role 

ROLE: theme 

SEL_RESTR: 

role 


SEL_RESTR: 

role 

ACCESSIBLE_ROLES: 4 , 5 , 6 

event 

RELCONST: checked 

RELARGS: 5 

state 

RELCONST: event_sequence 

RELARGS: 3 , 7 

relation 

TYPE: entity 

simple_type 

TYPE: tool 

countable 

Abb. 5.10: Subjektivus-Lesart von „Prüfung“ 

Für suffixlose Ereignisnominalisierungen (z.B. verkaufen – Verkauf) ist ein ähnlicher Lexikoneintrag 

mit einem leeren Suffix wohl am einfachsten zu realisieren. 

137


5.2.2.3 -er 

Nominalisierungen von accomplishment-Verben mit -er erzeugen beim Derivat typische 

Agens-Instrument-Alternationen (vgl. Prüfer, Bohrer, Retter), sofern die Ereignisstruktur des 

Verbs eine Instrument-Rolle enthält. Ist dies nicht der Fall, wie z.B. bei Renovierer, so tritt in 

der Regel nur die Agens-Lesart hervor. 

Aktivitätsverben wie arbeiten und laufen erlauben ebenfalls Bildungen mit -er. Allen Verbtypen 

ist gemeinsam, daß das externe Argument des Verbs zum referentiellen Argument des 

Nomens wird. 

Der Lexikoneintrag von -er, der dies zu repräsentieren versucht, sieht so aus: 

(18) morph("er") ← 

FORM: "er" ∧ 

suffix ∧ 

SYN:HEAD: (noun ∧ CAT: n ∧ GENDER: masc) ∧ 

decl_class(dc_I,dc_II) ∧ 


SYN:HEAD: verb ∧ 

SYN:ARGSTR:(SUBJ: Subj ∧ DIR_OBJ: DirObj ∧ 

INDIR_OBJ:[] ∧ DEFARGS: DefArgs) ∧ 

SEM: Sem) ∧ 

process_or_accomplishment_verb(SEM: Sem) ∧ 

agent_instrument(SEM: Sem, Subj, DirObj, SYN:ARGSTR:DEFARGS: DefArgs) 

Die Funktion process_or_accomplishment_verb/1 prüft, ob es sich um den richtigen Verbtyp 

handelt; agent_instrument/4 ist eine Funktion, die das referentielle Argument des Nomens in 

Abhängigkeit vom Ereignistyp des Verbs realisiert und auf deren Wiedergabe ich hier verzichte 

(der geneigte Leser kann sich deren Aussehen mittlerweile bestimmt schon vorstellen; 

in Anhang C.3 findet sie sich zudem in der CUF-Implementierung dieser Grammatik). 

Abb. 5.11 zeigt die er-Nominalisierung eines Aktivitätsverbs, Abb. 5.12 die eines Accomplishment-Verbs. 

GRAPH: arbeit , er , $ 

SYN: 

SEM: 

HEAD: NUM: sg 

noun 

syn 

REFARG: 1 

CONTENT: 

TYPE: human 

individual 


SCOPE: 



EVENTSTR: EVENT: 



EVENT_TYPE: work 

ROLES: 2 

ROLE: worker 

SEL_RESTR: 1 

role 

ACCESSIBLE_ROLES: 2 

event 

activity_eventstr 

Abb. 5.11: Analyse von „Arbeiter“ 

138


GRAPH: prüf , er , $ 

SYN: 

SEM: 

HEAD: NUM: sg 

noun 

syn 

REFARG: TYPES: 

CONTENT: 

1 

2 

dotted_type 



TYPE: human 

individual 

TYPE: tool 

individual 





EVENT: 

STATE: 


ROLES: 

3 

4 

5 

ROLE: agent 

SEL_RESTR: 1 

role 

ROLE: theme 

SEL_RESTR: 

role 


SEL_RESTR: 2 

role 


event 


RELARGS: 4 

state 


Abb. 5.12: Analyse von „Prüfer“ 

TYPE: entity 

simple_type 

Wie aus Abb. 5.11 ersichtlich ist, befindet sich das „Arbeitsereignis“ im Skopus eines Möglichkeitsoperators. 

Der Grund dafür ist, daß ein Arbeiter üblicherweise auch dann Arbeiter 

genannt wird, wenn er gerade nicht arbeitet. Weitere Verwendungen des Möglichkeitsoperators 

finden sich im Abschnitt über die Komposition 5.3.2. 

Die Analyse von Prüfer in Abb. 5.12 zeigt im referentiellen Argument die Alternation von 

Agens und Instrument. 

Die habituelle Lesart, die den er-Nominalisierungen weiterhin zukommt, wird man wohl 

durch ein Bedeutungspostulat herstellen müssen. 

139


5.2.2.4 be- 

Auch wenn man sich darüber streiten kann, ob be- ein produktives Präfix ist 9 , so möchte ich 

doch die von einigen Autoren (vgl. Wunderlich (1987)) festgestellte Argumentalternation im 

hier verwendeten System formalisieren. (19) zeigt den Lexikoneintrag für die Variante von 

be-, die zu intransitiven Verben mit Präpositionalobjekt (z.B. staunen) treten kann: 

(19) morph("be") ← 

FORM: "be" ∧ 

prefix ∧ 



SYN:ARGSTR:(SUBJ: (S ∧ SEM:REFARG: SubjSem) ∧ 

DIR_OBJ:[] ∧ INDIR_OBJ:[] ∧ SENT_COMPL:[] ∧ 

PREP_OBJ:SEM:PO_Sem ∧ DEFARGS: Defargs) ∧ 

SEM:CONTENT: Cont ) ∧ 

SYN:ARGSTR:( 

SUBJ:S ∧ 

DIR_OBJ: (DO ∧ SYN:HEAD: (noun ∧ CASE: struc_case) ∧ SEM: PO_Sem) ∧ 

PREP_OBJ:[] ∧ INDIR_OBJ:[] ∧ SENT_COMPL:[] ∧ DEFARGS: Defargs) ∧ 

ARGSTR_ORDER: [S, DO] ) ∧ 

SEM:(EXTARG: SubjSem ∧ CONTENT: Cont) 

Das be-Präfix nimmt demnach die Semantik des Präpositionalobjekts und realisiert sie als 

Nominal mit strukturellem Kasus. 

Allerdings legen Präfigierungsregel zusammen mit dem Lexikoneintrag (19) beträchtliche 

Übergenerierung an den Tag. Möchte man diese vermeiden, so wäre es möglich, diejenigen 

Verben, die mit (19) kompatibel sind, mit einem Typ be_prefixable zu versehen, und in (19) 

unter MORPH:MSUBCAT:NEEDS diesen Typ mit anzugeben. Für die Wortbildung wäre dann 

zwar nichts gewonnen (es wäre ja möglich, zu allen diesen Verben ihr entsprechendes be- 

Verb auch gleich ins Lexikon aufzunehmen), man hätte jedoch eine regelgeleitete Beziehung 

in Form einer lexikalischen Redundanzregel eingeführt, die ihren Niederschlag in der solcherart 

veränderten Fassung von (19) finden würde. 

5.2.2.5 Weitere Affixe 

Andere in die Grammatik integrierte Affixe fallen in die gleichen Schemata wie die schon 

erwähnten. Das Präfix un- subkategorisiert Nomen und Adjektive und bringt deren Semantik 

in den Skopus eines Negationsoperators; -heit/keit drückt Abstraktheit durch einen Abstraktionsoperator 

aus. 

9 von den 165 be-Verben in Heilmanns Verb-Datenbank (1991) zeigen 20 zweiwertige und lediglich 5 

dreiwertige be-Verben diese Alternation. 

140


5.3 Komposition 

5.3.1 Syntax 

Für die Syntax von Komposita ist eine einzige Regel vorgesehen: 

(Regel IV, Komposition) 


Stem ∧ 


true(cat(linking_morph, L1,L2)) ∧ 


unified_head_features([Stem2]) ∧ 

semantics_construction(Stem1, Stem2) ∧ 

GRAPH: diff(L0,L3) ∧ 

structure: [Stem1,Stem2] 

Der Einfachheit halber wird das optionale Fugenelement linking_morph gleich zwischen 

Erst- und Zweiglied gesetzt und nicht erst, wie in Fanselow (1981), eine separate Erstgliedform 

konstruiert. Da nicht jedes Kompositum Fugenelemente enthält, kann linking_morph 

auch als leere Kategorie realisiert werden. Möchte man auf leere Fugenelemente verzichten, 

kann man noch ein zweites Schema ohne linking_morph annehmen. 

Unter strukturellen Gesichtspunkten erwähnenswert ist bei Regel IV zweierlei: 

1) Da simple_or_complex_stem ein Supertyp sowohl von simple_stem als auch von 

complex_stem ist, können diese Konstituenten auf der rechten Seite von Regel IV einfach 

oder selbst wiederum strukturiert sein. Regel IV repräsentiert demnach vier verschiedene 

Wortstrukturregeln. Die Mutterkategorie ist jedoch in jedem Fall vom Typ complex_stem, 

weist daher auch ein STRUCTURE-Merkmal auf, welches in Listenform (außer 

linking_morph) die unmittelbaren Konstituenten enthält. 

2) Regel IV führt Ambiguitäten ein und erlaubt somit, eine Kette von mehr als zwei Morphemen 

auf unterschiedliche Weise zu strukturieren. Rein strukturell induzierte Präferenzen 

hierfür scheinen zumindest für die deutsche Komposition nicht zu existieren. 

Die Funktion unified_head_features/1 stellt die Merkmalsperkolation zwischen der am 

weitesten rechts stehenden Tochterkategorie und der Mutter her. 

Die Interaktion zwischen Schemata und Typenhierarchie gewährleistet noch einen weiteren 

Punkt. Das Deutsche zeigt keine Binnenflexion, d.h. Komposita und Derivate können Flexionsaffixe 

nur ganz außen enthalten. Gegenbeispiele hierzu wie Müttergenesungswerk oder 

Professorenclub sind nur scheinbare, wie schon vielfach nachgewiesen wurde. Als Erstglieder 

kommen beispielsweise auch Formen vor, die nicht im Paradigma des entsprechenden 

Stamms (wie bei Navigationsoffizier 10 ) vorkommen. Darüber hinaus wird die vom Beispiel 

Professorenclub nahegelegte Erklärung, daß hier aus semantischen Gründen eine Erstgliedsform 

im Plural notwendig ist – die Mehrheit der Clubs haben schließlich mehr als ein Mitglied 

– durch Professorengattin widerlegt, es sei denn, Polygamie wäre erlaubt. Fanselow 

(1984) nimmt daher sogar an, daß Erstglieder von Komposita für das Merkmal Plural nicht 

10 Die folgenden Beispiele sind aus Fanselow (1985). 

141


markiert sind. Die vermeintliche Binnenflexion läßt sich sicher besser aus Mechanismen der 

Prosodie und Allomorphie erklären, die durch die Einfügung von Fugenelementen ausgelöst 

wird. 

Zum Ausschluß von Binnenflexion muß demnach sichergestellt werden, daß (im Sinne der 

Affigierungshierarchie, vgl. 5.4) vollständig oder teilweise flektierte Kategorien nicht wiederum 

in die Wortbildungsprozesse eingehen können; m.a.W.: eine hierarchische Anordnung 

der unterschiedlichen Operationen ist notwendig. Hierzu benötigt man ein formales 

Kriterium, welches die Information mit sich führt, ob ein Stamm bereits flektiert ist oder 

nicht. Die interne Struktur eines morphologischen Objekts kann im vorgestellten Ansatz 

hierzu nicht herangezogen werden, da Flexion keine Strukturen aufbaut und sich nur in einer 

zunehmenden Instantiierung der Merkmale unter SYN:HEAD bemerkbar macht. Die hier 

vorliegende Spezifikation kann auch nicht zur Bestimmung von Flekiertheit verwendet 

werden, da, wie unten in Abschnitt 5.4 deutlich wird, Stämme sehr unterschiedliche Merkmalsbestimmungen 

tragen, um sie innerhalb ihres Paradigmas zu identifizieren. Beispielsweise 

trägt der Stamm Mütter das Merkmal +PLURAL, um festzulegen, daß er nur mit pluralischen 

Flexiven wie -n kombiniert werden kann, und die Bestimmung CASE:¬dat. Die Form 

Müttern hingegen ist als Erstglied eines Kompositums nicht zugelassen, obwohl sie ebenfalls 

für Person und Kasus markiert ist. Anders formuliert heißt das: man sieht es Stämmen nur 

anhand ihrer Merkmale nicht an, ob sie flektiert sind oder nicht. Die Situation ist demnach 

ähnlich zu der, in der ich für die Annahme eines Merkmals COMPLETE argumentiere (s. Abschnitt 

5.4.1), um eine Unterscheidung zwischen Stammformen vornehmen zu können, die 

sonst nicht zu unterscheiden wären. Eine Lösungsmöglichkeit bestünde folglich darin, ein 

Merkmal INFLECTED anzunehmen, auf das das Kompositionsschema Bezug nähme. Es gibt 

allerdings die hier weiter verfolgte Alternative, die ein zusätzliches Merkmal vermeidet, 

allerdings um den Preis einer zusätzlichen Regel, der „Flexionsanhebungsregel“: 

(Regel V, Anhebung zur Flexion) 

cat(pre_syntactic_atom ∧ PSA, L0,L1) ← 

PSA ∧ 

true(cat(simple_or_complex_stem ∧ SYN:ARGSTR: Subcat ∧ SEM: Sem, L0,L1) ∧ 

Stem) ∧ 

unified_head_features([Stem]) ∧ 

SYN:ARGSTR: Subcat ∧ 

SEM: Sem ∧ 

GRAPH: diff(L0,L1) ∧ 

STRUCTURE: [Stem] 

Einfache bzw. zusammengesetzte Stämme können aufgrund von Regel V gewissermaßen 

spontan zu morphologischen Objekten der Kategorie pre_syntactic_atom werden und erben 

dabei die Werte des Stammes für SEM, SYN:HEAD und SYN:ARGSTR. 

Der Typ pre_syntactic_atom ist nun, und das ist entscheidend, trotz der weitgehenden formalen 

Übereinstimmung mit simple_or_complex_stem kein Subtyp von diesem, sondern 

befindet sich an anderer Stelle in der Hierarchie von Abb. 5.1; er wird daher nicht mehr von 

Regel IV erfaßt. Sobald für eine Stammform der durch Regel V vermittelte Übergang vorgenommen 

wurde, kann sie somit nicht mehr in das Kompositionsschema Eingang finden. 

Ableitungen, die Regel V innerhalb eines Kompositums verwenden, scheitern demzufolge, 

was auch das folgende Beispiel demonstriert. 

142


Beispiel 5.1 Ableitungen für „Professorenclub“: 

Inkorrekte Ableitung: 

pre_syntactic_atom 


simple_stem linking_morph simple_stem 

Professor 

en 

? 

club 

Korrekte Ableitung: 



simple_stem linking_morph simple_stem 

Professor 

complex_stem 

Die Kategorie pre_syntactic_atom ist dann ausschließlich Gegenstand der Flexionsregeln VI 

und VII. 


Für die Behandlung der Wortsemantik wurde als (sehr) grober Rahmen der Ansatz von Pustejovsky 

(1995) gewählt, der bereits in Kapitel 3.4 ausführlicher dargestellt wurde. 

Nach dem Versuch einer Klassifikation der verschiedenen Kompositionsformen wird das 

Verhalten der Elemente jeder Klasse exemplarisch an jeweils einem Beispiel untersucht. 

Eine mögliche Klassifikation (sie folgt in den Grundzügen Boase-Beier et al. (1984), fügt jedoch 

die m.E. notwendige Klasse der konzeptuell interpretierten Komposita hinzu) könnte 

folgendermaßen aussehen: 

1. Relationale Komposita: Komposita, die eine Relation im Erst- oder Zweitglied enthalten, 

wobei das jeweils andere Glied eine Argumentstelle dieser Relation füllt. 

2. Stereotyp-Komposita: Komposita, bei denen das Erst- oder Zweitglied eine über das Weltwissen 

zugängliche Relation bereitstellt, die als Stereotyp bezeichnet wird und eng mit 

dem korrespondiert, was bei Pustejovsky (1995) als telische Rolle und bei Meyer (1993) als 

Zweck-Operator χ bezeichnet wird. 

3. Komposita mit konzeptueller Relation: Als konzeptuelle Relationen werden solche bezeichnet, 

die nicht direkt aus den an der Komposition beteiligten Kategorien erschlossen werden, 

sondern vielmehr aus Eigenschaften des konzeptuellen Typs oder Supertyps des betreffenden 

Wortbestandteils. 

4. Kontextabhängige Komposita: Hiermit sind Komposita gemeint, deren Interpretation ohne 

Informationen aus dem Kontext, in dem das Komposition steht, nicht möglich ist. 

Intuitiv betrachtet nimmt die Kompositionalität von 1 bis 4 ab, dies hängt natürlich von einer 

genaueren Definition des Begriffs ab. Komposita des vierten Typs sind sicherlich nichtkompositionell 

zu nennen, da sie ohne Kontext nicht zu deuten sind. Dieser Typ wird an 

dieser Stelle deswegen auch nicht weiterverfolgt. 

Die Aufzählung dieser vier Arten läßt sich auch als Hierarchie ansehen, bei der – von oben 

nach unten betrachtet – lexikalisch-grammatische Faktoren bei der Interpretation immer 

weniger ins Gewicht fallen. 

Die hier betrachteten Klassen 1 bis 3 lassen sich vor dem Hintergrund des gewählten formalen 

Rahmens noch weiter unterteilen, so daß sich folgende Feingliederung ergibt: 

143 

en 

club


Relationale Komposita: • Rektionskomposita mit deverbalem Zweitglied 

• Komposita mit einem relationalem Nomen als Zweitglied 

• V-N-Komposita 

Stereotyp-Komposita: • N-N-Komposita, bei denen ein Konzepttyp des Erstglieds 

eine Argumentstelle in der stereotypen Rolle des Zweit- 

Komposita mit 

konzeptueller Relation: 

Tabelle 5.1: Klassifikation der Kompositionstypen 

glieds besetzt (oder umgekehrt) 

• N-N-Komposita, bei denen die Teilbedeutungen durch 

eine Relation in Beziehung gesetzt werden, die sich aus 

der Konzepthierarchie ergibt. 

Genaugenommen sind Stereotyp-Komposita natürlich ein Spezialfall der konzeptuell interpretierten. 

Sie werden dennoch als eigene Klasse geführt, weil ihre stereotype Relation „salienter“ 

ist als die Relationen der „Konzeptkomposita“. 

Entsprechend dieser Einteilung ist die Funktion semantics_construction/2 in Regel IV folgendermaßen 

definiert: 

(20) semantics_construction(Stem1, Stem2) ← 

argument_saturation(Stem1, Stem2) 

semantics_construction(Stem2, Stem1) ← 

stereotypical_relation(Stem1, Stem2) 

semantics_construction(Stem1,Stem2) ← 

conceptual_relation(Stem1, Stem2) 

Die nächsten drei Teilabschnitte werden alle genannten Interpretationsmöglichkeiten genauer 

untersuchen. 

5.3.2.1 Interpretation von relationalen Komposita 

Relationale Komposita im weiteren Sinne sind, wie oben schon gesagt, solche, die einen relationalen 

Bestandteil (Verb, Nomen, Präposition) im Erst- oder Zweitglied enthalten. Im 

engeren Sinne werden damit nur Interpretationen bezeichnet, bei denen ein Bestandteil auch 

tatsächlich eine Argumentstelle der Relation füllt. Relationale Komposita (im weiteren Sinn) 

haben fast immer auch nichtrelationale Lesarten, bei denen Relationsstellen beispielsweise 

existentiell gebunden werden, vgl. z.B. (21) 11 

(21) a) Wiesenverkauf (= Verkauf von Wiesen ⇒ relationale Lesart) 

b) Wiesenverkauf (= Verkauf von etwas auf der Wiese ⇒ nichtrelationale Lesart) 

Die Lesart (21b) käme nach der Gliederung in Tabelle 5.1 mit Hilfe einer konzeptuellen Relation 

zustande: Verkauf kann ein Ereignis bezeichnen, Ereignisse finden an Orten statt, eine 

Wiese ist ein Ort; die konzeptuelle Relation wäre demnach etwa: findet_statt(Ereignis, Ort). 

Der relationale Teil muß nicht unbedingt das Zweitglied sein, wie die Beispiele Schwimmente 

und Sprechvogel zeigen. Die gebundene Argumentstelle muß auch nicht immer ein Objekt des 

deverbalen Zweitglieds sein, wie Kindergeschrei zeigt. 

Die Interpretation wird durch zwei Klauseln der Funktion 

argument_saturation(SemanticArgument, SemanticFunctor) 

geleistet: (22) betrifft relationale Nomen als Zweitglieder, während sich (23) auf Verben an 

zweiter Position bezieht. 

11 Einige Beispiele stammen aus Boase-Beier et al. (1984). 

144


(22) argument_saturation( SYN:HEAD: noun ∧ SEM:REFARG: TypeOfArgument, 

SYN:HEAD: noun ∧ 

SYN:ARGSTR: (noun_argstr ∧ RELARG:SEM:REFARG: TypeOfHead ∧ 

DEFARGS: Defargs) ∧ 

SEM:(REFARG: Ref ∧ CONTENT: Cont) ← 

selectional_restrictions_fullfilled(TypeOfHead, TypeOfArgument) ∧ 

SEM:REFARG: Ref ∧ 

SYN:ARGSTR:(RELARG:[] ∧ DEFARGS: Defargs ∧ ARGSTR_ORDER:[]) ∧ 

SEM:CONTENT: Cont 

(23) argument_saturation( SYN:HEAD: noun ∧ SEM:REFARG: TypeOfArgument, 


SYN:ARGSTR: (verbal_argstr ∧ SUBJ: Subj ∧ 

DIR_OBJ:SEM:REFARG: SelRestrOfHead ∧ 

INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧ 

DEFARGS: Defargs) ∧ 

SEM:CONTENT: Cont) ← 

selectional_restrictions_fullfilled(SelRestrOfHead, TypeOfArgument) ∧ 

SYN:ARGSTR:(SUBJ: Subj ∧ DIR_OBJ:[] ∧ INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧ 

DEFARGS:[] ∧ ARGSTR_ORDER:[]) ∧ 

SEM:CONTENT:(OPERATOR: op_possibility ∧ SCOPE: Cont) 

In (22) wie (23) wird geprüft, ob der Typ des referentiellen Arguments des semantischen 

Arguments mit dem Typ in der offenen Argumentstelle des semantischen Funktors kompatibel 

ist 12 . Dies leistet die Funktion selectional_restrictions_fullfilled/2, die durch zwei Klauseln 

gegeben ist: 

(24) 

a) selectional_restrictions_fullfilled(Type, simple_type ∧ Type) ← > 

b) selectional_restrictions_fullfilled(Type, dotted_type ∧ TYPES:TypeList) ← 

member(Type,TypeList) 

Die Klauseln in (24) unterscheiden, ob der semantische Typ des Arguments ein simple_type 

oder ein dotted_type nach der Typenhierarchie aus Abb. 5.3 ist. Durch den Typ simple_type 

bleibt das Erstglied hinsichtlich der doppelten Dichotomie Individuum – Gruppe und zählbar – 

nicht zählbar unterspezifiziert, wie bereits in Fanselow (1984) vorgeschlagen wurde. Zur Demonstration 

zeigt Abb. 5.13 die dem Wort Messerfan zugeordnete Merkmalsstruktur: ein 

Messerfan kann ein Fan eines einzelnen Messers (vielleicht des speziellen Messers, welches 

Rambo bei sich trägt) oder einer Menge von Messern sein. Aufgrund der Numerus-Unmarkiertheit 

des Erstglieds 13 besteht m.E. auch kein Unterschied in der Interpretation von Buchfan 

und Bücherfan. Allerdings gibt es Numerus-Festlegungen für das Erstglied, die sich aufgrund 

des Weltwissens ergeben, wie z.B. bei Dorfbürgermeister. 

Abb. 5.14 auf Seite 147 zeigt am Beispiel des Wortes Messerprüfer die Anwendung von (23). 

Aufgrund der derivationellen Eigenschaften von -er ist dem referentiellen Argument des 

Zweitglieds Prüfer ein dotted type zugeordnet, der die Alternation zwischen Personenbezeichnung 

und Instrument ausdrückt. In der Ereignisstruktur des Kompositums füllt das 

12 Die Bezeichnungen semantisches Argument und semantischer Funktor beziehen sich auf die Parameter 

der Funktion argument_saturation/2. 

13 Für Numerus spezifizierte Erstglieder sind durch die „Flexionsanhebungsregel“ V ausgeschlossen. 

145


Erstglied Messer die thematische Rolle Thema. Warum die Ereignisstruktur im Skopus des 

Möglichkeitsoperators steht, wird weiter unten erläutert. 

GRAPH: messer , fan , $ 

SYN: 

SEM: 

HEAD: 

ARGSTR: 

syn 

CAT: n 

NUM: sg 

CASE: acc ∨ dat∨ nom 

GENDER: masc 

noun 

REFARG: 1 

CONTENT: 

RELARG: 

DEFARGS: 

ARGSTR_ORDER: 

noun_argstr 

TYPE: human 

individual 



EVENTSTR: STATE: 


RELCONST: fan_of 

RELARGS: 

state 

state_eventstr 

1 

TYPE: knife 

countable 

Abb. 5.13: Analyse von „Messerfan“ 

Anders liegt der Fall bei einem semantischen Argument mit einem dotted type (24b). Hier 

wird geprüft, ob unter den den dotted type konstituierenden einfachen Typen ein Element ist, 

welches mit der Selektionsbeschränkung der zu schließenden Relationenposition kompatibel 

ist. Dies ist erforderlich, da sich die Typenbeschränkung nicht auf den gesamten zusammengesetzten 

Typ des semantischen Arguments beziehen muß. Betrachten wir zwei Beispiele: 

Buch und Museum haben als referentielle Argumente jeweils zusammengesetzte Typen 

(dotted types): bei Buch gibt es eine Alternation zwischen physikalischem Objekt und den 

Informationen des Buchinhalts, bei Museum u.a. die Lesarten „Gebäude“ und „Institution“. 

Während Buchfan als „Fan von bestimmten Gegenständen“ und „Fan von Buchinhalten“ 

interpretiert werden kann, erlaubt Museumsrenovierung nur die Deutung, daß hierbei ein 

Gebäude renoviert wurde; die andere Möglichkeit ist aufgrund der Selektionsbeschränkungen, 

die renovieren seinem direkten Objekt auferlegt, ausgeschlossen. Genau dieser Sachverhalt 

wird durch (24b) ausgedrückt. 

Bei allen Komposita, die aufgrund der in Tabelle 5.1 aufgeführten Interpretationsvarianten 

zustande kommen, handelt es sich um Determinativkomposita. In den Interpretationsfunktionen 

(22) und (23) – wie auch bei den anderen, die in diesem Abschnitt noch vorgestellt 

werden – wird dies durch Vererbung des referentiellen Arguments vom Zweitglied auf die 

Mutterkategorie erzielt; Abb. 5.13 verdeutlicht auch dies 14 . 

14 Als Platzgründen ist das STRUCTURE-Merkmal in allen hier abgebildeten Merkmalsstrukturen unter- 

drückt. 

146


(22) und (23) führen übrigens zusammen mit der Derivations- und Kompositionsregel eine 

strukturelle Ambiguität bei deverbalen relationalen Komposita ein. Präterminalfolgen der 

Form N + V + Suffix werden als [[N + V] + Suffix] oder als [N + [V + Suffix]] strukturiert. 

Interessanterweise sind – abgesehen von den strukturellen Unterschieden – die Merkmalsstrukturen 

der Wurzelkategorien gleich; ich habe es vorgezogen, mich nicht für eine der 

Strukturen zu entscheiden. 

GRAPH: messer , prüf , er , $ 

SYN: 

SEM: 

HEAD: NUM: sg 

noun 

syn 


CONTENT: 

1 

2 

dotted_type 



TYPE: human 

individual 

TYPE: tool 

individual 





EVENT: 

STATE: 


ROLES: 

3 

4 

5 

ROLE: agent 

SEL_RESTR: 1 

role 

ROLE: theme 

SEL_RESTR: 

role 


SEL_RESTR: 2 

role 


event 


RELARGS: 4 

state 


Abb. 5.14: Analyse von „Messerprüfer“ 

TYPE: knife 

countable 

Wie sind nun V-N-Komposita wie Hackmesser, Horchgerät, Frankiermaschine 15 zu interpretieren? 

Ich habe sie unter die relationalen Komposita subsumiert, da auch ihre Deutung etwas 

mit der Argumentstruktur – genauer gesagt: der Ereignisstruktur – eines Lexems zu tun hat. 

Die Differenz zu den zuvor genannten relationalen Komposita besteht jedoch darin, daß 

diese Argumentstruktur vom Erstglied des zusammengesetzten Wortes stammt und der Typ 

des semantischen Funktors des Zweitglieds meist ein Werkzeug oder Instrument charakterisiert, 

zumindest dann, wenn dieser Typ sich auf ein Artefakt bezieht. M.a.W.: der Unterschied 

zu den anderen Typen der relationalen Interpretation besteht darin, daß das referenti- 

15 Die Beispiele stammen aus der CELEX-Datenbank, die immerhin über 1200 einfache V-N-Komposita 

verzeichnet, die allerdings nicht immer richtig klassifiziert wurden. 

147


elle Argument des Gesamtworts vom Zweitglied stammt, der semantische Funktor jedoch 

vom Erstglied. 

Wie kann die Bedeutung von V-N-Komposita umschrieben werden? Eine Paraphrase ist 

meiner Ansicht nach die NP „ein N, mit dem es möglich ist, zu V-en“. Eine Frankiermaschine 

wäre demnach eine Maschine, mit der es möglich ist, etwas zu frankieren. Wenn diese Analyse 

korrekt ist, dann sieht der dritte Fall von argument_saturation/2 folgendermaßen aus: 

(25) argument_saturation( SYN:HEAD: verb ∧ SEM:CONTENT: (Content ∧ EVENTSTR: Eventstr), 

SYN:HEAD: noun ∧ SYN:ARGSTR: (noun_argstr ∧ RELARG:[]) ∧ 

SEM:REFARG: Ref) ← 

true(role(Eventstr) ∧ Ref) ∧ 

SEM:REFARG:Ref ∧ 

SYN:ARGSTR: (RELARG:[] ∧ DEFARGS:[] ∧ ARGSTR_ORDER:[]) ∧ 

SEM:CONTENT: (OPERATOR: op_possibility ∧ SCOPE: Content) 

Die Funktion überprüft mit Hilfe der Sorte role/1, die nichtdeterministisch eine Rolle aus der 

Ereignisstruktur des Verbs zurückgibt, ob deren Selektionsbeschränkungen mit denen des 

referentiellen Arguments des Zweitglieds kompatibel sind. Es sind hierbei prinzipiell alle 

Rollen zulässig, wie die Beispiele Animiermädchen (Agens) und Ausziehtisch (Thema) zeigen. 

Bei den V-N-Komposita, die in der CELEX-Datenbank verzeichnet sind, ist allerdings die 

Instrument-Rolle die am häufigsten verwendete. Abb. 5.15 zeigt die Analyse von „Hackmesser“: 

GRAPH: hack , messer , $ 

SYN: 

SEM: 

HEAD: noun 

syn 

REFARG: 1 

CONTENT: 

TYPE: knife 

individual 


SCOPE: 






EVENT_TYPE: hack 

ROLES: 

event 


ROLE: agent 

SEL_RESTR: 

role 

ROLE: theme 

SEL_RESTR: 

role 


SEL_RESTR: 1 

role 

TYPE: human 

countable 

Abb. 5.15: Analyse von „Hackmesser“ 

TYPE: physical_entity 

simple_type 

Diese Form der semantischen Analyse ist demnach analog zur Derivation mit -bar und -er . 

Im nächsten Abschnitt werde ich dafür argumentieren, daß es neben diesen „konstruktiven“ 

Verwendungen des Möglichkeitsoperators auch einen „lexikalischen Möglichkeitsoperator“ 

gibt. 

148


5.3.2.2 Interpretation von Stereotyp-Komposita 

Es ist meiner Ansicht nach schwerlich zu bestreiten, daß manche Lexeme wie Fabrik eine 

Interpretation mit einer stereotypen Relation geradezu aufdrängen. Die CELEX-Datenbank 

verzeichnet im Falle von Fabrik sechs zusammengesetzte Bildungen – Munitionsfabrik, Papierfabrik, 

Schokoladenfabrik, Strumpffabrik, Textilfabrik, Tuchfabrik – und alle haben eine deutlich 

bevorzugte Lesart, bei der Erst- und Zweitglied über eine Relation produzieren miteinander 

in Verbindung gesetzt werden. In welcher Weise ist diese Relation, die bei Meyer (1993) 

Purpose-Operator und bei Pustejovsky (1995) telische Rolle heißt, in einem Lexem repräsentiert? 

Es wäre nun relativ einfach, hierfür ein Merkmal PURPOSE anzunehmen und es an geeigneter 

Stelle unter SEM zu plazieren. Allerdings scheint die Angelegenheit einen weiteren 

Gedanken wert zu sein. Stereotype Relation bedeutet meiner Ansicht nach so etwas wie eine 

lexikalisch verankerte Möglichkeit. In Hinblick auf das Beispiel Fabrik heißt das, daß es möglich 

ist, daß eine Fabrik etwas produziert. Sie muß dies nicht tun, auch eine stillgelegte Fabrik ist 

vermutlich nach common sense Verständnis immer noch eine Fabrik. Ich repräsentiere daher 

die stereotype Relation als eine lexikalisch verankerte Ereignisrelation, die im Skopus des 

Möglichkeitsoperators steht. Abb. 5.16 zeigt die SEM:CONTENT-Teilstruktur von Fabrik. 


SCOPE: 




EVENT_TYPE: produce 

ROLES: 

3 

4 

ROLE: worker 

SEL_RESTR: 

role 

ROLE: produced 

SEL_RESTR: 

role 

ACCESSIBLE_ROLES: 3 , 4 

event 


TYPE: human 

countable 

TYPE: physical_entity 

simple_type 

Abb. 5.16 : SEM:CONTENT-Substruktur von „Fabrik“ 

Das Merkmal ACCESSIBLE_ROLES hält die noch ungebundenen thematischen Rollen in der 

Ereignisstruktur in Form einer Liste fest. Dieser Mechanismus entspricht in etwa einer 

λ-Abstraktion über die Rollen der Ereignisrelation und hält daher fest, welche Rollen noch 

gebunden werden können. Notwendig ist dies, um Komposita wie *Messermesserfabrik 

auszuschließen, bei denen eine Rolle mehrfach gebunden wurde. 

Eine weitere Überlegung rechtfertigt diese Analyse von stereotyper Relation zumindest in 

Rahmen des hier gewählten Typsystems. Meyer und Pustejovsky folgend gehe ich davon 

aus, daß nur Artefakte über eine solche stereotype Relation verfügen. Man kann sich nun 

fragen, ob es Wortbildungsmechanismen gibt, die Einfluß auf die Struktur unter 

SEM:CONTENT haben und die möglicherweise mit der Verwendung dieser Substruktur als 

Träger der stereotypen Relation in Konflikt geraten können. Determinativkomposition kann 

nicht diesen Effekt haben, da der Wert von SEM:CONTENT entweder vom Erstglied oder vom 

Zweitglied an das Kompositum übergeht. Derivation mit nominalisierenden Suffixen schafft 

im allgemeinen Nomen, die Ereignisse oder Personenbezeichnungen und nicht Artefakte 

bezeichnen. Wenn dies doch geschieht, z.B. bei der er-Ableitung von prüfen mit der Instrument-Lesart, 

dann übernimmt das Derivat die Ereignisstruktur des Verbs, die sich ebenfalls 

149


im Skopus des Möglichkeitsoperators befindet. M.a.W.: die Interpretation von deverbalen 

relationalen Komposita und Stereotyp-Komposita erfolgt in sehr ähnlicher Weise. Nachfolgend 

ist die Interpretationsregel für Stereotyp-Komposita unter diesen Annahmen wiedergegeben: 

(26) stereotypical_relation( SYN:HEAD:noun ∧ SEM:REFARG: RefargOfArg, 

SYN:HEAD:noun ∧ SEM:REFARG: Ref ∧ 

SEM:CONTENT:( OPERATOR: OP ∧ SCOPE:EVENTSTR:EVENT: ( 

EVENT_TYPE: EventType ∧ ROLES: Roles ∧ 

ACCESSIBLE_ROLES: AccessibleRoles )) ∧ 

SYN:ARGSTR: Argstr ∧ SEM:CONTENT: Cont) ← 

delete(SEL_RESTR: SelectionRestrictionsOfRole, AccessibleRoles, RestRoles) ∧ 

selectional_restrictions_fullfilled(SelectionRestrictionsOfRole, RefargOfArg) ∧ 

SYN:ARGSTR: Argstr ∧ SEM:REFARG: Ref ∧ 

SEM:CONTENT:( OPERATOR: OP ∧ SCOPE:EVENTSTR:EVENT: ( 

EVENT_TYPE: EventType ∧ 

ROLES: Roles ∧ 

ACCESSIBLE_ROLES: RestRoles) ) 

Der zweite Parameter von stereotypical_relation/2 ist dem Teil des Kompositums zugeordnet, 

aus dem die Relation erschlossen wird. Deren noch zugängliche Rollen werden bestimmt 

und dann geprüft, ob eine dieser Rollen mit den Selektionsbeschränkungen, die für das referentielle 

Argument des semantischen Arguments gelten, kompatibel ist; dies erfolgt durch 

die in (24) wiedergegebene Funktion selectional_restrictions_fullfilled/2. delete/3 ist wie member/2 

definiert, nur daß, nachdem eine passende Rolle gefunden wurde, alle übrigen Rollen 

im letzten Argument (RestRoles) zurückgegeben werden. Diese verbleibenden Rollen werden 

dann die neuen zugänglichen Rollen des N-N-Kompositums unter ACCESSIBLE_ROLES. 

Alle übrigen semantischen Eigenschaften des Zweitglieds werden durch (26) an das Kompositum 

vererbt. Die nächste Abbildung zeigt die Analyse von Messerfabrik: 

SEM: 


dotted_type 

1 

TYPE: factory 

individual 

TYPE: 2 human 

TYPE: 2 

GROUP_OF: 

individual 

group 


ROLES: 

EVENT: 

EVENTSTR: 

CONTENT: SCOPE: 





EVENT_TYPE: produce 

3 

ROLE: worker 

SEL_RESTR: 1 

role 

ROLE: produced 

SEL_RESTR: 

role 

ACCESSIBLE_ROLES: 3 

event 


TYPE: knife 

countable 

Abb. 5.17: SEM-Wert von „Messerfabrik“ 

150


In Abb. 5.17 sieht man, wie die produced-Rolle durch das referentielle Argument von Messer 

gefüllt worden ist. Das Numerus-Merkmal bleibt in der üblichen Weise unterspezifiziert. Die 

Substruktur unter TYPE: knife ist noch umfangreicher, wie der nächste Abschnitt zeigt. 

5.3.2.3 Interpretation von Komposita mit konzeptueller Relation 

Die hier vorgeschlagene Klasse der konzeptuell interpretierten Komposita deckt sich nicht 

mit der in Boase-Beier et al. (1984) so genannten Klasse der »Komposita mit Grundrelation«. 

Als Grundrelationen werden dort Relationen wie LOC(AL), AUS, UND und ÄHN(LICH) 

bezeichnet. Meiner Ansicht nach muß man hier differenzieren: Relationen wie LOC und 

AUS hängen mit den durch Lexeme ausgedrückten Konzepten und deren Superkonzepten 

zusammen, während UND und ÄHN sich möglicherweise aus dem Interpretationsapparat 

selbst ergeben, weil schwer vorstellbar ist, daß unser Weltwissen Informationen darüber 

enthält, welche Dinge welchen anderen Dingen ähneln; hier scheinen vielmehr Inferenzprozesse 

vorzuliegen. 

Die konzeptuell gesteuerte Interpretation von Wiesenverkauf in seiner nicht relationalen Lesart 

»Verkauf von etwas auf einer Wiese« ergibt sich meiner Ansicht nach aus folgendem 

Mechanismus: 

• Verkauf als Ereignisnominalisierung weist event als Konzepttyp auf; 

• Mit dem Typ event ist eine Relation takes_place_at(place) verknüpft ; 

• Der Konzepttyp von Wiese erfüllt die Beschränkungen für das Argument dieser Relation. 

Wie kann man derartige Interpretationsmechanismen im gewählten formalen Rahmen 

nachbilden? Da hier konzeptuelles Wissen im Spiel ist, muß man eine Möglichkeit finden, 

dieses Wissen auch zu repräsentieren. Als natürlicher Ort hierfür bietet sich die schon benutzte 

Konzepthierarchie an, die die durch die Lexeme ausgedrückten Begriffe in grober 

Weise vorstrukturiert. Durch Einführung weiterer Merkmale können feinkörnigere Differenzierungen 

erzielt werden, wie (27) zeigt: 

(27) physical_entity :: 

PHYSICAL_STATE: physical_state ∧ 

CONSISTS_OF: list ∧ 

HAS_PARTS: list 

temporal :: 

TAKES_PLACE_AT: place 

Eine Instanz von physical_entity hat demnach Attribute für den Aggregatzustand, für das 

Material und die Teile, aus denen es besteht; eine Instanz des Typs temporal, der Supertyp 

von event und activity ist, weist ein Merkmal für den Ort auf, an dem der zeitliche Ablauf 

stattfindet. 

Allerdings sind aussagenlogische Typsysteme nicht stark genug, um die Art von Wissensrepräsentation 

zu ermöglichen, die benötigt wird. Diese Typsysteme dürfen keine Variablen 

enthalten und auch keine Sorten, die aber gerade benötigt würden, um Relationen zu repräsentieren. 

Die Lösung für dieses Problem sind sog. rekursive Typenconstraints (vgl. Carpenter 

(1992)), bei denen ein Typ mit einem beliebigen Merkmalsterm versehen werden kann: 

(28) Const: AtomType � Desc 

Const ist demnach eine Funktion, die einem atomaren Typ σ einen Merkmalsterm φ der Beschreibungslogik 

zuordnet. Die intendierte Bedeutung davon ist, daß jede Instanz von σ mit 

φ unifizierbar sein muß. Die nächste Abbildung zeigt Const(knife): 

151


(29) knife ∧ 

PHYSICAL_STATE: solid ∧ 

CONSISTS_OF: [uncountable ∧ TYPE: metal] ∧ 

HAS_PARTS: [individual ∧ TYPE: blade] 

In (29) wird ausgesagt, daß ein Messer von festem Aggregatzustand ist, aus Metall besteht 

und eine Klinge als Teil besitzt. In der Terminologie der Wissensrepräsentation sind dies 

Default-Eigenschaften (vgl. Reimer (1991)). 

Die Interpretation konzeptueller Komposita würde dann auf diese Eigenschaften zurückgreifen. 

Das Wort Stahlmesser könnte entweder mit dem CONSISTS_OF-Merkmal von knife 

oder mit dem gleichen Merkmal von Const(blade) interpretiert werden, d.h. als ein »Messer 

aus Stahl« oder als ein »Messer mit einer Klinge aus Stahl« 16 . 

Allerdings muß unter diesen Voraussetzungen die Interpretationsregel Informationen darüber 

haben, welche Merkmale mit einem Typ verknüpft sind, denn die Merkmale der verschiedenen 

Typen können natürlich unterschiedlich sein. Die Merkmale von Instanzen von 

temporal aus (27) und physical_entity sind beispielsweise disjunkt. 

Abhilfe schafft hier ein weiteres Merkmal SUBCONCEPTS, das beim obersten Typ der Konzepthierarchie 

(entity) eingeführt wird und für jeden Typ festhält, welche Merkmale für eine 

konzeptuelle Interpretation zur Verfügung stehen. (29) sieht dann wie folgt aus: 

(30) knife ∧ 

PHYSICAL_STATE: solid ∧ 

CONSISTS_OF: [uncountable ∧ TYPE: metal ∧ Metal] ∧ 

HAS_PARTS: [individual ∧ TYPE: blade ∧ Blade] ∧ 

SUBCONCEPTS: [Metal, Blade] 

Der nächste Ausschnitt zeigt noch das Typenconstraint von temporal: 

(31) temporal ∧ 

TAKES_PLACE_AT: [individual ∧ TYPE: place ∧ Place] ∧ 

SUBCONCEPTS: [Place] 

Da Typenconstraints in dieser Art und Weise in der Beschreibungslogik nicht integriert sind, 

werden sie mittels einer Sorte concept/1 realisiert. 

Unter Voraussetzung dieser Festlegungen ist die Interpretationsregel für „Konzeptkomposita“ 

nun relativ einfach, da sie lediglich auf das für alle Konzepttypen einheitliche 

SUBCONCEPTS-Attribut zurückgreifen muß: 

(32) conceptual_relation( SYN:HEAD: noun ∧ SEM:REFARG: RefArgOfArg, 

SYN:HEAD: noun ∧ SEM:REFARG: RefArgOfFunctor ∧ 

SYN:ARGSTR: Argstr ∧ SEM:CONTENT: Cont) ← 

SEM:REFARG: type_relation(type_concept(RefArgOfArg), 

type_concept(RefArgOfFunctor)) ∧ 

SYN:ARGSTR: Argstr ∧ 

SEM:CONTENT: Cont 

Die Funktion type_relation/2 in (32) konstruiert das referentielle Argument des N-N-Kompositums, 

indem sie versucht, den Konzepttyp des Erstglieds mit einer Argumentstelle einer 

16 Typen, die in Constraints verwendet werden (wie hier blade) können auch wiederum Typen- 

constraints zugeordnet sein. 

152


konzeptuellen Relation des Zweitglieds in Übereinstimmung zu bringen. Da sowohl Erstglied 

als auch Zweitglied einfache oder zusammengesetzte Typen haben können, müssen 

vier Fälle unterschieden werden, die durch die nichtdeterministische Sorte type_concept/1 

abgedeckt werden. type_concept/1 extrahiert aus zusammengesetzten Typen die Teiltypen 

und ist in (33) wiedergegeben: 

(33) type_concept(simple_type ∧ Simple_type ∧ TYPE: Type) ← 

Simple_type ∧ 

TYPE: concept(Type) 

type_concept(dotted_type ∧ TYPES: TypeList) ← 

member(Simple_type ∧ TYPE: Type, TypeList) ∧ 

Simple_type ∧ TYPE: concept(Type) 

Type_concept/1 greift auf die Typenconstraints zurück, die in Form von concept/1 vorliegen 

und wie (30) oder (31) aussehen. Die Funktion type_relation/2 vereinfacht sich damit zu (34): 

(34) type_relation( simple_type ∧ ArgType, 

Simple_Type ∧ TYPE:SUBCONCEPTS: ConceptList) ← 

member(ArgType, ConceptList) ∧ 

Simple_Type 

Die Sorte type_relation/2 versucht demnach den Konzepttyp des Arguments in der 

SUBCONCEPTS-Liste des semantischen Funktors zu finden und instantiiert die entsprechende 

Argumentposition dabei mit diesem Konzepttyp. 

Ein Nebeneffekt des Typenconstraint-Mechanismus ist, daß sich mit ihm auf einfache Weise 

die beispielsweise von Meyer (1993) vorgeschlagene Relationensuche in Superkonzepten 

nachbilden läßt. Da ein Typ wie knife auch mit allen seinen Supertypen wie entity, physical_entity, 

tool etc. kompatibel ist 17 , können auch deren (allgemeinere) Typenconstraints zur 

Interpretation herangezogen werden. Man muß dazu nur dafür sorgen, daß spezifischere 

Typen vor weniger spezifischen Typen ausgewertet werden, was sich allerdings nur unter 

Kenntnis der Beweisstrategie und dementsprechender Anordnung der Klauseln von concept/1 

erzielen läßt. 

Die nächsten beiden Abbildungen demonstrieren die beschriebenen Techniken. Abb. 5.18 

zeigt die Merkmalsstruktur von Stahlmesser in der Deutung »Messer aus Stahl«, während 

Abb. 5.19 die Analyse von Fabrikverkauf in der nicht-relationalen Lesart (z.B. »Fabrikverkauf 

von Gummibärchen«) wiedergibt. Letztere Analyse kommt dadurch zustande, daß Verkauf 

eine affixlose Ereignisnominalisierung ist und mit seinem (zusammengesetzten) referentiellen 

Argument auf ein Ereignis (vom Typ event) bzw. einen Zustand referiert. Event ist nun 

ein Subtyp von temporal, mit dem das in (31) wiedergegebene Constraint verbunden ist. 

Dessen Merkmal TAKES_PLACE_AT wird schließlich zur Interpretation benutzt, da factory ein 

Subtyp von place ist. Eine Vorkehrung zur Vermeidung doppelter „Belegungen“ von Relationsargumenten 

wie in *Stahlstahlmesser“ ist übrigens aus Darstellungsgründen in diesem 

Mechanismus nicht realisiert. Etwas derartiges ist jedoch nötig, da es sich hierbei um keine 

pragmatische Einschränkung der Art handelt, daß hier ein Sachverhalt doppelt ausgedrückt 

würde; dies kann an der Nicht-Akzeptabilität von *Stahlmetallmesser und *Stahlsteinmesser 

abgelesen werden. Jede Argumentstelle einer konzeptuellen Relation kann anscheinend nur 

durch ein Argument gebunden werden. 

17 vgl. den Ausschnitt der Typenhierarchie in (8). 

153

5.3.3 Fazit 


GRAPH: stahl , messer , $ 

SYN: 

SEM: 

NUM: sg 

HEAD: 

noun 

ARGSTR: RELARG: 

noun_argstr 

syn 

REFARG: 1 TYPE: 

CONTENT: 

individual 

PHYSICAL_STATE: hard 

CONSISTS_OF: 

HAS_PARTS: 

knife 


SCOPE: 






TYPE: 

PHYSICAL_STATE: hard 

steel 

uncountable 

TYPE: blade 

individual 

EVENT_TYPE: cut 

ROLES: 

2 

3 

4 

ROLE: agent 

SEL_RESTR: 

role 

ROLE: patient 

SEL_RESTR: 

role 


SEL_RESTR: 1 

role 


activity 


TYPE: human 

countable 

TYPE: PHYSICAL_STATE: soft 

physical_entity 

simple_type 

Abb. 5.18: Analyse von „Stahlmesser“ 

Die bei der Komposition wirksamen Interpretationsmechanismen ähneln denen im Ansatz 

von Fanselow (vgl. 3.3.2), stehen aber auch im Gegensatz zu diesem. Die Deutung ist nicht 

vollkommen frei, sondern bezieht frühzeitig die Kategorien der beteiligten Stämme mit ein, 

da diese gewisse Interpretationen zumindest nahelegen. So wird versucht, N-N-Komposita 

mit deverbalem Kopf und V-N-Komposita durch Argumentbindung zu interpretieren, während 

bei N-N-Komposita mit nominalen Kopf stereotype und konzeptuelle Relationen herangezogen 

werden. Eine Gemeinsamkeit mit Fanselows Ansatz ist jedoch, daß sich die Interpretationsalternativen 

überlappen, also durchaus mehrere Deutungen für ein Kompositum 

erzeugt werden können. Die Frage ist, wie die unterschiedliche Plausibilität der einzelnen 

Interpretationen in deduktiv ausgerichteten Formalismen ausgedrückt werden kann. 

Dies ist nun nicht ohne weiteres möglich, da die einzelnen Lösungen eines Parsingproblems 

voneinander unabhängig sind. Man kann lediglich Einfluß auf die Reihenfolge nehmen, in 

der die Lösungen gefunden werden. 

154


GRAPH: fabrik , verkauf , $ , $ 

NUM: sg 

HEAD: 

noun 

SYN: 

ARGSTR: RELARG: 

SEM: 

SEM: 

syn 

noun_argstr 

REFARG: TYPE: 

individual 

HEAD: noun 

SYN: 

syn 

phrase 

EVENT_TYPE: sell 

ROLES: 

REFARG: 1 TYPE: entity 

simple_type 


2 

3 

4 

ROLE: agent 

SEL_RESTR: 

role 

ROLE: theme 

SEL_RESTR: 1 

role 

ROLE: goal 

SEL_RESTR: 

role 

TAKES_PLACE_AT: 

TYPE: human 

countable 

TYPE: human 

countable 

TYPE: factory 

individual 


activity 

CONTENT: no_content 



Abb. 5.19: Eine Lesart von „Fabrikverkauf“ 

Die semantische Interpretation durch semantics_construction/2 geht immer davon aus, daß 

der semantische Funktor – sei es nun die Ereignisstruktur eines Verbs, eine stereotype oder 

konzeptuelle Relation – immer mit dem Zweitglied zusammenfällt. Sollen auch Relationen 

aus dem Erstglied verwendet werden, dann müssen die entsprechenden Interpretationsfunktionen 

leicht verändert werden. Diese Änderung betrifft in erster Linie die Tatsache, daß 

in diesen Fällen referentielles Argument und semantischer Funktor nicht mehr aus dem 

gleichen Kompositumsteil herstammen. 

Zum Schluß: ein noch nicht ganz gelöstes Problem betrifft die Position einer evtl. vorhandenen 

stereotypen Relation im Gesamtsystem. Wie man an (30) erkennen kann, befindet sie 

sich nicht unter den konzeptuellen Eigenschaften eines Typs, sondern unter SEM:CONTENT im 

Skopus des Möglichkeitsoperators. Dafür gibt es zwei Gründe: Zum einen hat sie m.E. einen 

anderen Status als die konzeptuellen Relationen. Während diese in einem gewissen Sinne 

mehr oder weniger notwendige Konzepteigenschaften widerspiegeln (ein Messer hat 

prototypisch eine Klinge etc.), hat die stereotype Relation den Charakter einer bloßen Möglichkeit: 

ein Messer würde sicher auch dann Messer genannt werden, wenn es noch niemals 

zum Schneiden verwendet worden ist. Der andere Grund hängt mit den zusammengesetzten, 

polysemen Typen zusammen. Wenn Fabrik z.B. die Typen Gebäude und Belegschaft hat 

und beiden Konzepten jeweils eine eigene stereotype Relation zukommt, dann müßte der 

155


polyseme Typ „Fabrik“ über beide Relationen verfügen. Da Fabrik m.E. aber nur eine solche 

Relation hat – die des Produzierens (die nicht mit den Typen Gebäude und Belegschaft assoziiert 

ist) – muß sie außerhalb der Konzepthierarchie, d.h. beim Lexem Fabrik definiert sein. 

5.4 Flexion 

5.4.1 Syntax 

Die größte Herausforderung für eine Wortsyntax (nicht Wortsemantik) des Deutschen ist 

meiner Ansicht nach die Abbildung der Kombinationsbeschränkungen, die durch die Flexionsparadigmen 

gegeben sind. Diese Paradigmen sind ein konzeptionell einfaches Mittel, 

Beziehungen zwischen unterschiedlichen Formen eines Wortes herzustellen, lassen sich jedoch 

auf keine einfache Weise für die Lösung des Analyseproblems heranziehen. Computerlinguistische 

Ansätze, wie beispielsweise der von Krieger et al. (1993), die Paradigmen in 

einem merkmalsbasierten Formalismus rekonstruieren, machen keine Angaben darüber, 

welche Rolle Paradigmen bei der Analyse spielen könnten. Dies ist natürlich unbefriedigend, 

da sich die Computerlinguistik auch um die operationale Interpretation ihrer Konstrukte 

kümmern sollte. 

Eine Möglichkeit zur Nutzbarmachung von Paradigmen für die Zwecke der morphologischen 

Analyse besteht darin, sie als etwas zu verstehen, aus dem mit Hilfe eines Zwischenschritts 

eine invertierte Relation konstruiert werden kann, die einzelnen Morphen eine 

Menge alternativer Merkmalsbündel zuweist. Allen Formen gemeinsame Merkmale, beispielsweise 

die für Semantik und Argumentstruktur, werden auf diese Weise nur einmal 

spezifiziert, durch den Zwischenschritt jedoch an alle Elemente der erzeugten Relation weitergegeben. 

Beispiel 5.2: 

Aus dem Präsens-Indikativ-Paradigma der regelmäßigen Verben 

kann folgende Relation gewonnen werden: 

sg pl 

1 e en 

2 st t 

3 t en 

Flexiv Merkmale 

e { } 

st { } 

t { , } 

en { , } 

Dieses an sich triviale Verfahren kompliziert sich lediglich dann, wenn Paradigmenzellen, 

beispielsweise beim Präteritumsparadigma der unregelmäßigen Verben, keine phonetisch 

realisierten Affixe enthalten. Hier könnten dann phonetisch leere Flexive angenommen werden, 

mit denen Chart-Parser ohne größere Schwierigkeiten zurechtkommen würde. Darüber 

hinaus ist es möglich, durch Annahme einiger Beschränkungen, die weiter unten erläutert 

werden, die Überspezifikation der Flexionsaffixe wieder zu beseitigen. 

156


Durch Einführung dieses Umformungsschritts behält man Paradigmen als organisationsstiftende 

Elemente neben den eigentlichen Lexikoneinträgen bei, kann sie jedoch aus der 

eigentlichen Analyse heraushalten, die nur auf die invertierte Relation Bezug nimmt. 

Nun müssen die Kombinationsbeschränkungen, die die zum Ausgangspunkt genommenen 

generalisierten Paradigmen ausdrücken, in einer „Flexionsgrammatik“ realisiert werden. 

Hierfür kontextfreie Regeln anzusetzen führt letztlich zu einer Vielzahl von Konstruktionsregeln 

und setzt darüber hinaus eine sehr genaue Klassifizierung der einzelnen Flexive voraus, 

auf die sich diese Regeln beziehen. Konzeptionell einfacher ist es, diese Kombinationsbeschränkungen 

in das Lexikon zu verlagern, die Klassifikation der Flexive so weit wie 

möglich implizit mit Hilfe ohnehin notwendiger Merkmale vorzunehmen und zusätzlich nur 

eine einzige, allerdings übergenerierende Regel anzunehmen, die jedoch durch drei Bedingungen 

wieder eingeschränkt wird: 

(Regel VI’, 1. Fassung) 

cat(pre_syntactic_atom ∧ PSA, L0, L2) ← 

PSA ∧ 

true(cat(pre_syntactic_atom, L0, L1)) ∧ 

true(cat(infl_affix, L1, L2)) ∧ 

GRAPH: diff(L0, L2) 

Im übrigen weist der Typ pre_syntactic_atom, wie morph_object und seine Subtypen und 

anders als syntactic_atom, noch ein MORPH-Merkmal auf. Wie syntactic_atom jedoch enthält 

er kein STRUCTURE-Attribut mehr, da ich – abweichend von Autoren wie Trost (1990) – 

nicht annehme, daß die Operation der Flexion Strukturen aufbaut. Diese wären m.E. semantisch 

nicht mehr deutbar und damit schwindet die letzte Motivation für Wortstrukturen. 

In der dargelegten Form erlaubt diese rekursive Regel (zusammen mit der Terminierungsregel 

V), beliebig viele Flexionsaffixe an einen möglicherweise komplexen Stamm o.ä. anzuhängen. 

Im Deutschen heißt beliebig jedoch höchstens zwei, beispielsweise bei der Bildung 

der Präteritumsformen der regelmäßigen Verben wie lieb-t-en, so daß diese Rekursion drastisch 

eingeschränkt werden muß. Dies leisten folgende drei Beschränkungen: 

(35) 

i. Nur vollständig spezifizierte Wortformen können als syntaktische Atome fungieren, 

d.h. X 0 

-Elemente von maximalen Projektionen bilden. 

ii. Die Einführung von Merkmalen wird durch die transitive Hülle einer irreflexiven 

Relation < festgelegt, die durch folgende Elemente gegeben ist und eine partielle Ordnung 

definiert (s. a. Wunderlich (1992)): 

Kategorie < Tempus Kategorie < Komparation 

Komparation < Kasus Tempus < Modus 

Modus < Numerus Numerus < Person 

Person < Kasus 

Ein Affix F darf demzufolge nur dann zu pre_syntactic_atom hinzutreten, wenn F für 

ein Merkmal B spezifiziert ist, so daß es in pre_syntactic_atom ein Merkmal A gibt, 

für das gilt: A < B. 

Diese Definition fordert also nicht, daß alle hinzukommenden Merkmale „neu“ sind, 

sondern daß lediglich eines der Merkmale des Affixes F noch nicht vorhanden war. 

Der Sinn dieser Lockerung der ursprünglichen Fassung in Wunderlich (1992) wird 

weiter unten deutlich werden. 

iii. Die Merkmale von pre_syntactic_atom und infl_affix müssen miteinander unifiziert 

werden können, d.h. die Merkmalswerte müssen kompatibel sein. 

157


Bedingung 35 i) verhindert, daß noch nicht vollständig spezifizierte morphologische Objekte 

syntaktisch wirksam werden. Wie weiter unten erläutert wird, kann dies durch einen Filter 

sichergestellt werden, der im technischen Sinn die Typenmaximalität einer typisierten Merkmalsstruktur 

überprüft. 

Bedingung 35 ii) gewährleistet, daß die Rekursion nach endlich vielen Schritten endet, da 

das Inventar der Morphologie nur endlich viele Merkmale enthält und jeder Affigierungsschritt 

mindestens ein solches Merkmal einführt und aufgrund der Irreflexivität der Relation 

kein Merkmal hinzutreten lassen darf, welches bereits vorhanden war; dies gilt natürlich nur 

dann, wenn nicht gleichzeitig auch ein neues Merkmal eingeführt wird. Die Position des Flexionsaffixes 

(rechts außen) ist bereits durch Regel VI’ festgelegt. 

Bedingung 35 iii) schließt sich widersprechende Merkmale aus –35 ii) läßt diese ja zunächst 

zu – und beantwortet auch die Frage, welches der beiden Elemente den Kopf des komplexen 

morphologischen Objekts bildet: keines von beiden. Beide Elemente tragen, ähnlich wie bei 

der Definition des relativierten Kopfs, zum Endergebnis bei. Zu beachten ist jedoch, daß die 

vorgenommene Unifikation keine Defaults und Prioritäten annimmt und daher auch scheitern 

kann. Bedingung 35 iii) ist darüber hinaus entscheidend für die „richtige“ Zuordnung 

von Stämmen und Flexiven, was weiter unten deutlich wird. 

Bedingungen 35 ii) und 35 iii) können mit den zwei Funktionen affix_order_constraint/2 und 

unified_head_features/1 realisiert werden: 

(Regel VI’’, 2. Version) 

cat(pre_syntactic_atom ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA, L0, L2) ← 

PSA ∧ 

true(cat(pre_syntactic_atom, L0, L1) ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA1) ∧ 

true(cat(infl_affix, L1, L2) ∧ Infl) ∧ 

affix_order_constraint(PSA1, Infl) ∧ 

unified_head_features([PSA1, Infl]) ∧ 


Regel VI’’ hält fest, daß die syntaktischen Kopfmerkmale des Flexivs mit den Kopfmerkmalen 

des Flexionsaffixes kompatibel sein müssen, was in natürliche Weise durch typisierte 

Unifikation definiert werden kann. 

Unifizierbarkeit ist auch das Kriterium für die Merkmale unter MHEAD (diese werden von 

unified_head_features/1 mit erfaßt, vgl. S. 133), die in der Syntax keine Rolle spielen, jedoch 

zur Wiedergabe bestimmter Kombinationsbeschränkungen herangezogen werden müssen. 

Beispielsweise werden hier für Nomen und die Nomen eigenen Flexionsaffixe die entsprechenden 

Deklinationsklassen angegeben. Die Merkmale unter MORPH:MHEAD sind zwar arbiträre 

Klassenmerkmale im Sinne von Wunderlich (1992), es ist jedoch schwer zu sehen, wie 

man ohne sie auskommen könnte. Dies muß auch kein Widerspruch zu Wunderlich sein, da 

es ihm um die Beschreibung produktiver Paradigmen geht, im Rahmen einer einigermaßen 

vollständigen morphologischen Beschreibung der deutschen Flexion jedoch auch nicht länger 

produktive Muster berücksichtigt werden müssen. 

Im übrigen zeigt sich in dieser Regel eine Reihenfolgeabhängigkeit der Funktionen 

affix_order_constraint/2 und unified_head_features/1; affix_order_constraint/2 muß vor der Unifikationsoperation 

evaluiert werden, nach der Unifikation der Kopfmerkmale kann die 

Funktion nicht mehr erfüllt werden, da dann PSA1 und Infl identisch sind. Die tieferliegende 

Ursache dafür ist, daß affix_order_constraint/2 auf einem nicht-monotonen Subsumptionstest 

beruht. Tests auf Merkmalsinstantiierungen sind daher nicht ohne weiteres in einen 

monotonen Formalismus integrierbar. 

158


Neben der Überprüfung der Kompatibilität der Kopfmerkmale sorgt Regel VI‘‘ noch für die 

Vererbung der Argumentstruktur und der Semantik des linken Wortbestandteils an die 

nächsthöhere Kategorie. 

Bedingung 35 i) schließlich muß als Filter beim Übergang von der Morphologie zur Syntax 

(m.a.W. beim Übergang von pre_syntactic_atom zu syntactic_atom) wirksam werden, so 

daß eine vollständige Merkmalsspezifikation sichergestellt ist. Vollständigkeit bestimmt sich 

hier relativ zum Typ der Merkmalsstruktur am Ende des Pfades SYN:HEAD und korrespondiert 

mit dem Begriff der Typenmaximalität einer Merkmalsstruktur. Dieser Übergang wird 

durch folgende Regel abgebildet: 

(Regel VII’, vorläufig) 

cat(syntactic_atom ∧ SA, L0, L1) ← 

SA ∧ 

true(cat(pre_syntactic_atom, L0, L1) ∧ PSA) ∧ 

type_maximal(value_of_syn_head(PSA)) ∧ 

syn_head_features([PSA]) ∧ 

arg_structure_realisation(PSA) ∧ 


Die Funktion arg_structure_realisation/1 schließlich realisiert die syntaktische und semantische 

Argumentstruktur und wird unter 5.4.2 näher ausgeführt 

Der folgende Abschnitt wird sich konkret mit den Merkmalsbestimmungen für verbale 

Wortformen befassen, um die Grundidee des Ansatzes klarer zu machen. Leider wird sich 

hier auch zeigen, daß die Regeln VI’’ und VII‘‘ noch nicht in ihren jeweils letzten Fassungen 

vorliegen. 

5.4.1.1 Merkmalsbasierte Flexion am Beispiel der Verbflexion 

Da Verben im Deutschen die umfangreichsten Flexionsparadigmen aufweisen und darüber 

hinaus bei der Flexion unterschiedliche Grade an Regularität an den Tag legen, stellen sie die 

größten Anforderungen an die Spezifikation der Kombinationsbeschränkungen, die für 

Stammform und Flexiv gelten. Diese Kombinationsbeschränkungen sind im wesentlichen 

durch die Unifizierbarkeit der Kopfmerkmale und durch die Affigierungshierarchie gegeben. 

Hierzu müssen sowohl Flexionsaffixe als auch Stammformen in geeigneter Weise mit 

Merkmalen und Merkmalswerten versehen werden, wobei zwei Zielvorstellungen zugrunde 

liegen: 

1. Die Merkmalsspezifikation für Stämme und Affixe soll minimal sein, d.h. nach Möglichkeit 

sollen nur Merkmale verwendet werden, die man aus unabhängigen Gründen ohnehin 

benötigt. Ähnliches gilt für die Stärke der verwendeten Mechanismen. Vom Mittel der 

Unterspezifikation soll daneben, wenn immer möglich, Gebrauch gemacht werden. 

2. Das Analyseverfahren soll natürlich ein Entscheidungsverfahren sein: es soll alle zulässigen 

Formen erfolgreich analysieren und die nicht zulässigen zurückweisen. 

Konkret auf die Verbflexion bezogen sollte zudem die sehr große Ähnlichkeit der Paradigmen 

für die regelmäßige und unregelmäßige Flexion – die Flexionsendungen sind nahezu 

die gleichen – ohne Rückgriff auf ein Klassenmerkmal hierfür ausgedrückt werden. Des 

weiteren sollen auch Regelmäßigkeiten innerhalb der Paradigmen (beispielsweise bei der 1. 

und 3. Pers. Plural) ausgenutzt werden. 

Tabelle 5.2 zeigt zunächst die Verbflexionsaffixe samt ihren Merkmalsbestimmungen (nach 

Duden (1984)). 

159


Verbflexiv Merkmalsspezifikation unter SYN:HEAD: 

-e verb_infl ∧ CAT:v ∧ ((PERS:1 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:ind ) ∨ 

(PERS:(1∨3)∧NUM:sg∧TENSE:pres∧MOOD:subjI)∨(PERS:(1∨3)∧NUM:sg ∧ TENSE:pret)) 

-(e)st verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:sg ∧ MOOD:(ind ∨ subjII) 

-(e)t verb_infl ∧ CAT:v ∧ TENSE:pres ∧ MOOD:ind ∧ 

((PERS:2 ∧ NUM:pl) ∨ (PERS:3 ∧ NUM:sg)) 

-et verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:pl ∧ TENSE:pret 

-est verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:subjI 

-et verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:pl ∧ TENSE:pres ∧ MOOD:subjI 

-∅ verb_infl ∧ CAT:v ∧ PERS:(1 ∨ 3) ∧ NUM:sg ∧ TENSE:pret 

-(e)n verb_infl ∧ CAT:v ∧ PERS: (1 ∨ 3) ∧ NUM:pl 

-∅- verb_infl ∧ CAT:v ∧ MOOD:(ind ∨ subjI) 

-(e)t- verb_infl ∧ CAT:v ∧ TENSE:pret ∧ MOOD:(ind ∨ subjII) 

-(e)n verb_inf_base ∧ CAT:v 

-(e)nd verb_partI ∧ CAT:v 

-(e)t verb_partII ∧ CAT:v 

-(e) verb_imp ∧ CAT:v ∧ NUM:sg 

-(e)t verb_imp ∧ CAT:v ∧ NUM:pl 

Tabelle 5.2: Merkmalsspezifikation der Verbflexionsaffixe 

Die Merkmalsspezifikationen in Tabelle 5.2 sind auf ein Zusammenspiel mit den Flexionsregeln 

VI’’ und VII’ ausgerichtet. Zu beachten ist ferner, daß auch phonetisch leere Endungen 

verzeichnet sind, da sie zur Einfachheit des Gesamtsystems beitragen. 

Wie sehen nun diese Merkmalsbelegungen für die Stammformen aus und wie stellt man die 

Zuordnungen zwischen konkreten Stämmen und ihren Merkmalen her? 

Zunächst müssen dazu die Stammformen klassifiziert werden 18 , was sich bei Verben durch 

Partitionierung aller verschiedenen Verbparadigmen in diejenigen Teilparadigmen ergibt, 

die jeweils die gleiche Stammform verwenden. Tabelle 5.3 zeigt, welche verschiedenen 

Stammformen hierbei unterschieden werden können und welche Spezifikation hinsichtlich 

der SYN:HEAD-Merkmale diese Formen tragen. 

Diese Bestimmungen, die durch eine Sorte vform/1 repräsentiert werden, sind recht komplex, 

jedoch notwendig, um dem kontingenten Aufbau der Verbparadigmen im Deutschen 

gerecht zu werden. Vform(0) bezieht sich dabei auf regelmäßige Verben, deren Stammform 

allein mit CAT:v markiert ist und die entweder nur ein Flexiv oder das Präteritumsaffix -t- 

mit nachfolgenden Flexiv zu sich nimmt. Die anderen Formen 1 bis 7 partitionieren das Paradigma 

der unregelmäßigen Verben in Teilparadigmen, bei denen jeweils die gleiche Stammform 

zur Anwendung kommt. Vform(4) beispielsweise definiert das Präteritums-Teilparadigma 

der unregelmäßigen Verben. Abb. 5.20 zeigt diese Klassifikation für die Formen 1 bis 

7 in graphischer Form (ähnliche Darstellungen für die romanischen Sprachen finden sich übrigens 

in Holl (1988)). 

18 Diese Klassifikation verwendet (mit einer Ausnahme des unten besprochenen Merkmals 

MORPH:MFEAT:COMPLETE) zunächst nur Flexionsmerkmale, die man ohnedies voraussetzt. 

160


Sorte Merkmalsbestimmung unter SYN:HEAD 

Farbe in 

Abb. 5.3 

vform(0) verb ∧ CAT:v 

vform(1) verb ∧ CAT:v ∧ ((NUM:pl ∧TENSE:pres ) ∨ (TENSE:pres∧MOOD:subjI) ∨ >) 

vform(2) MORPH:MFEAT:COMPLETE: minus ∧ 

CAT:v ∧ PERS:1 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD: ind 

vform(3) MORPH:MFEAT:COMPLETE: minus ∧ 

verb ∧ CAT:v ∧ PERS: (2 ∨ 3) ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:ind 

vform(4) verb ∧ CAT:v ∧ TENSE:pret ∧ MOOD:ind 

vform(5) verb ∧ CAT:v ∧ TENSE:pret ∧ MOOD:subjII 

vform(6) verb_partII ∧ CAT:v 

vform(7) verb_imp ∧ CAT:v ∧ MOOD:imp 

/ 

Tabelle 5.3: Klassifikation und Merkmalsspezifikation der verschiedenen Verbstammformen 

1 

sg 2 

3 

1 

pl 2 

3 

pres pret 

ind subjI ind subjII 

inf partI partII imp sg imp pl 

Abb. 5.20: Graphische Darstellung der Formenklassifikation 

Es zeigt sich jedoch ein generelles Problem, das sich veranschaulichen läßt am Beispiel von 

vform(3), die für die Formen im 2/3. Pers. Sing. Präs. Ind. verantwortlich ist und bei einigen 

unregelmäßigen Verben wie beispielsweise werfen mit einem eigenen Stamm verknüpft wird 

(wirf). Stämme dieser Art sind bereits mit allen Merkmalsausprägungen versehen, die für 

morphologische Objekte dieses Typs vorgesehen sind; im Sinne der Flexionsregel VI'’ sind 

sie daher maximal. Diese Maximalität ist notwendig, damit unzulässige Formen wie z.B. 

*wirfe (unzulässige Kombination des Stamms mit dem Affix -e, welches als 1. Pers. markiert 

ist) ausgeschlossen werden können. Nichtsdestoweniger können jedoch noch die Endungen - 

st bzw. -t zur Bildung vollständiger Verbformen (z.B. wirfst) hinzutreten. 

Unter der Prämisse, daß sowohl Merkmalsbestimmungen als auch Kombinationsbeschränkungen 

ohne Rückgriff auf arbiträre Klassenmerkmale beschrieben werden sollen, läßt sich 

das Problem auch aus einer allgemeineren Perspektive betrachten – einer Perspektive, die 

Bezug nimmt auf den mehrdimensionalen Charakter von Paradigmen. Der informelle Gedankengang 

zum Nachweis der Notwendigkeit willkürlicher Klassenmerkmale für die 

deutsche Verbmorphologie unter den genannten Voraussetzungen sieht folgendermaßen 

aus: 

161


Sollen Kombinationsbeschränkungen mit Hilfe einer Menge M von Merkmalen, die aus unabhängigen 

Gründen benötigt werden, festgehalten werden, so muß man hierfür mindestens 

ein Merkmal F verwenden, das natürlich aus M stammen muß. Dies setzt jedoch voraus, daß 

F noch nicht für andere Zwecke eingesetzt wurde, denn ein Merkmal kann nicht gleichzeitig 

zwei unterschiedliche Sachverhalte repräsentieren. Faßt man nun Paradigmen als 

mehrdimensionale Tabellen auf, so muß ein solches Merkmal (unter Ausnutzung der 

Möglichkeit der Unterspezifikation) dann nicht angegeben werden, wenn die Stammformen 

entlang der durch F eröffneten Dimension die gleichen Kombinationsbeschränkungen aufweisen. 

Sobald eine Stammform jedoch nur bestimmte Zellen in dieser Dimension belegt, 

müssen alle zur Verfügung stehenden Merkmale (d.h. alle Merkmale, die das Paradigma 

konstituieren) zur Beschreibung dieser Zellen eingesetzt werden, was kein Merkmal mehr 

freiläßt, um Kombinationsbeschränkungen zu repräsentieren. Dies ist nun an verschiedenen 

Stellen im Paradigma der unregelmäßigen Verben der Fall, beispielsweise im gerade genannten 

Fall. 

Zur Lösung dieses Problems muß man also weitere Merkmale annehmen. Die Frage ist nur, 

auf welche Weise dies geschehen soll. Eine naheliegende Möglichkeit ist die Einführung von 

Subkategorisierungslisten, in denen für jede Stammform die Eigenschaften der nachfolgenden 

Flexive festgehalten werden, oder – dazu äquivalent – eine kategorialgrammatische 

Notation, die zwischen Eingabe- und Ausgabespezifikation (ähnlich wie in der Konzeption 

von Wunderlich (1992)) unterscheidet. Subkategorisierungslisten sind nun eine sehr generelle 

Methode, die Voll- bzw. Unvollständigkeit von Kategorien zu charakterisieren und es 

bleibt fraglich, ob man einen so starken Mechanismus, der immerhin Gebrauch von rekursiven 

Merkmalsstrukturen macht und daher auch Phänomene beschreiben könnte, die nicht 

auftreten, überhaupt benötigt. Mir scheint ein zusätzliches Merkmal ±COMPLETE angemessener, 

welches genau den Sachverhalt ausdrückt, daß eine Stammform zwar bereits vollständig 

spezifiziert ist, sie dennoch noch Affixe zu sich nimmt. Dieses Merkmal, das im Regelfall 

unterspezifiziert bleibt, ist zugegebenermaßen rein stipulativ (jedoch auch nicht mehr als 

Subkategorisierungslisten), hat jedoch den Vorteil, daß die Merkmalsbestimmungen für 

Stämme und Affixe weiterhin ohne die die Komplexität beträchtlich erweiternde morphologische 

Subkategorisierungslisten auskommen und der prinzipielle Charakter der Flexionsregeln 

VI‘‘ und VII‘ gewahrt bleibt, die nun in ihrer jeweils letzten Fassung wiedergegeben 

werden. 

(Regel VI, Endfassung) 

cat(pre_syntactic_atom ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA, L0, L2) ← 

PSA ∧ 

true(cat(pre_syntactic_atom, L0, L1) ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA1) ∧ 

true(cat(infl_affix, L1, L2) ∧ Infl) ∧ 

affix_order_constraint(value_of_complete_path(PSA1), PSA1, IA) ∧ 

unified_head_features([PSA1, Infl]) ∧ 


Der Bedingungsteil für die Flexionsregel ist komplexer geworden und ist so beschaffen, daß 

der Merkmalswert COMPLETE:minus nur ein einziges Mal verwendet werden kann. Dies leistet 

eine neue Funktion affix_order_constraint/3, die als erstes Argument den Wert des Pfades 

MORPH:MFEAT:COMPLETE erhält, und folgendermaßen definiert ist: 

(36) affix_order_constraint(plus, PSA, IA) ← affix_order_constraint(PSA, IA) 

affix_order_constraint(Value, PSA, IA) ← subsumes(minus, Value) 

162


(36) besagt, daß im Falle von COMPLETE: minus auf den Test mit affix_order_constraint/2 verzichtet 

wird. Dies muß durch die (Meta-)Operation eines Subsumptionstest festgestellt werden, 

da die Unifikation auch mit einem unterspezifizierten COMPLETE-Wert erfolgreich wäre. 

(Regel VII) 

cat(syntactic_atom ∧ SA, L0, L1) ← 

SA ∧ 

true(cat(pre_syntactic_atom, L0, L1) ∧ MORPH:MFEAT:COMPLETE: plus ∧ PSA) ∧ 

type_maximal(value_of_syn_head(PSA)) ∧ 

syn_head_features([PSA]) ∧ 

arg_structure_realisation(PSA) ∧ 


Neben dem Test auf Typenmaximalität wird geprüft, ob das Merkmal COMPLETE mit dem 

Wert plus unifizierbar ist. Da der Wert nie explizit auf plus gesetzt wird und daher boolean 

sein muß, ist dies entweder aufgrund der Unterspezifikation im Morph-Lexikon oder durch 

mindestens einmalige Anwendung von Regel VI der Fall. 

Bei Regel VII werden schließlich nur noch die syntaktischen Kopfmerkmale an 

syntactic_atom vererbt, da dieser Typ per Definition über keine morphologischen Merkmale 

mehr verfügt. 

Im letzten Schritt werden nun konkrete Verbstämme mit den Formsorten aus Tabelle 5.3 (die 

als Abkürzung für die Beschreibung rechts davon aufzufassen sind), in Beziehung gesetzt. 

Ist eine konkrete Verbstammform für mehrere Teilparadigmen einschlägig, so wird dies 

durch Disjunktion ausgedrückt. Beispiel 5.3 veranschaulicht diese Zuordnung anhand von 

Verben mit unterschiedlichem Flexionsverhalten. 

Beispiel 5.3: 

Das Verb werfen weist die Maximalanzahl unterschiedlicher Stämme im Deutschen auf (Ablaut, 

e/i-Wechsel und Umlaut im Konjunktiv). Wie Wunderlich (1992) betrachte ich das Partizip-II-Suffix 

-en als nicht mehr produktiv, so daß es dem Stamm zugerechnet werden kann. 

Die Zuordnung von Stämmen und Formsorten zeigt folgende Tabelle: 

werf wirf warf würf worfen 

vform(1) ∨ vform(2) vform(3) ∨ vform(7) vform(4) vform(5) vform(6) 

Umlaut im Präs. Sing. der 2./3. Person zeigt das Verb tragen. Abweichend von werfen wird 

diese Stammform jedoch nicht für den Imperativ Sing. verwendet, so daß sich folgende Zuordnung 

ergibt: 

trag träg trug trüg tragen 

vform(1) ∨ vform(2) ∨ vform(7) vform(3) vform(4) vform(5) vform(6) 

Das Verb schreiben besitzt drei verschiedene Stämme: schreib, schrieb und schrieben. Als 

Merkmalsbestimmungen ergeben sich demnach: 

schreib schrieb schrieben 

vform(1) ∨ vform(2) ∨ vform(3) ∨ vform(7) vform(4) ∨ vform(5) vform(6) 

163


Regelmäßiges Verben wie lieben werden einfach der Funktion vform(0) zugeordnet. Suppletive 

Paradigmen wie die von sein und haben erfaßt man am besten in Form von einer Reihe 

von Vollformeinträgen. 

Beispiele 5.4 und 5.5 verdeutlichen nun, wie die Merkmalsspezifikationen der Verbflexive 

und Verbstämme unter Vermittlung der Flexionsregeln miteinander interagieren. Da das 

morphologische Analyseproblem als Entscheidungsproblem aufgefaßt wird, muß neben der 

Generierung der „richtigen“ Wortformen auch die Erzeugung von unzulässigen verhindert 

werden. 

Beispiel 5.4: Zulässige Wortformen: 

1) Analyse von lachen 

Die Unifikation der Merkmale unter SYN:HEAD von lach- und -en ergibt folgende Merkmalsstrukturen: 

a) b) c) 

CAT: v 

PERS: 

NUM: 

TENSE: pres 

MOOD: 

verb_infl 

1 ∨ 3 

pl 

ind ∨ subjI 

CAT: v 

PERS: 

NUM: 

TENSE: tense 

MOOD: 

verb_infl 

1 ∨ 3 

pl 

mood 

Struktur b) wird durch die Maximalitätsbedingung ausgefiltert. 

2) Analyse von lachten: 

Hierfür wird folgende wohlgeformte Struktur erzeugt: 




lach 

CAT: v 

verbal 



infl_affix 

t 

TENSE: pret 

MOOD: ind ∨ subjII 

verb_infl 

infl_affix 

en 

PERS: 1 ∨ 3 

NUM: pl 

verb_infl 

CAT: v 

verb_inf_base 

Die SYN:HEAD-Merkmale von syntactic_atom ergeben sich durch Unifikation der drei angegebenen 

Merkmalsstrukturen. 

3) Analyse von werfe/wirfst: 

Aufgrund der Spezifikation von werf/wirf mit COMPLETE:minus kann das Flexiv hinzutreten. 

164


Beispiel 5.5: ausgeschlossene Verbformen: 

Verbform Ausschlußgrund 

*lachenen Die Merkmale des zweiten en-Flexivs erfüllen die Funktion 

affix_order_constraint/3 nicht, da seine Werte bei pre_syntactic_atom bereits 

spezifiziert sind. 

*lachent Die Merkmale, die das Präteritumsaffix -t- hinzufügen könnte, liegen in der 

Affigierungshierarchie vor den Merkmalen Person und Numerus 

*wirfe Die Unifikation der SYN:HEAD-Merkmale von Stamm und Flexiv scheitert 

*werf Der Stamm werf ist mit vform(1) ∨ vform(2) klassifiziert. vform(1) ist nicht vollständig 

bzgl. der für verb_infl definierten Merkmale und verfällt somit dem 

Maximalitätsfilter. 

vform(2) trägt das Merkmal COMPLETE: minus und macht daher die Anwendung 

von Regel VII unmöglich. 

*werfte Die Unifikation der HEAD-Merkmale von Stamm (TENSE:pres) und Flexiv 

(TENSE:pret) scheitert. 

*warfte Das Affix -t- kann nur Merkmale hinzufügen, die am Stamm bereits spezifiziert 

sind. 

*geworfent der Stamm worfen ist schon mit allen notwendigen Merkmalen versehen; das 

Partizip-II-Suffix kann keine neuen Merkmale hinzufügen. 

Zirkumfigierung, die zumindest für die Partizip-II-Bildung (und evtl. noch in anderen Fällen, 

vgl. Eisenberg (1998:401)) anzusetzen ist, läßt sich leider nicht so einfach in dieses 

Schema integrieren, zumal es hier noch Einschränkungen silbischer und morphologischer 

Art gibt: ge- tritt nur vor Verben mit Betonung auf der ersten Silbe (also nicht vor präfigierte 

Verben oder solcher fremdsprachiger Herkunft) und wird bei Partikelverben nach dem Partikel 

eingefügt. Es ist daher einfacher, hier spezielle Regeln zu formulieren, die diese Besonderheiten 

berücksichtigen . 

Ein Problem der Verbflexion muß noch in angemessener Weise gelöst werden. Es betrifft den 

Eingang von Partizipformen in die Adjektivflexion, beispielsweise geliebt – geliebte. Erklärungen 

dieses Phänomens sind mir nicht bekannt; die einzigen Untersuchungen hierzu 

betreffen die Vererbung der Verbargumente an das Adjektiv bzw. die Restriktionen, die 

hierfür gelten (vgl. z.B. Toman (1986). Es bleibt daher nichts anderes übrig, als hierfür Umkategorisierungsregeln 

anzunehmen, die selbstverständlich weder einem wortsyntaktischen 

X’-Schema noch einem Kopfmerkmalsprinzip gehorchen. Konversion wird in Abschnitt 5.5 

näher behandelt. 

5.4.1.2 Flexion anderer Kategorien 

Die Regeln VI und VII sind auch auf die Flexion von Nomen und Adjektiven anwendbar (die 

übrigen Wortarten, die Flexionsverhalten an den Tag legen – Pronomen, Determinatoren etc. 

– werden besser als Vollformen der Klasse syntactic_atom im Lexikon verzeichnet). 

Bei der Nomenflexion wird man kaum ohne eine Klassifizierung in Deklinationsklassen 

auskommen, wie sie in jeder deskriptiven Grammatik (z.B. Duden (1984)) vorgenommen 

wird. Solche Klassenmerkmale stehen jedoch (wie erwähnt) nicht unbedingt in Widerspruch 

mit Wunderlich (1992), da der Gegenstand von Wunderlichs Theorie m.E. nur die Konstruktion 

produktiver Paradigmen ist, einige der Nomenflexionsparadigmen jedoch nicht 

mehr produktiv sind (vgl. dazu Eisenberg (1998)). Da die Deklinationsklasse, der ein Nomen 

angehört, ein Kopfmerkmal ist, wird für sie ein entsprechender Wert unter MORPH:MHEAD 

165


verzeichnet. Die (nicht unproblematische) Annahme von phonetisch leeren Flexiven vereinfacht 

auch hier die Merkmalsspezifikation. Tabelle 5.4 führt beispielhaft die Bestimmungen 

für Stämme und Flexive einer Deklinationsklasse auf. 

Stamm/Flexiv Merkmalsbestimmung 

z.B. Apfel SYN:HEAD:(CAT:n ∧ NUM:sg ∧ gen:masc) ∧ 

MORPH:(MHEAD:DECL_CLASS: (DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II) ∧ 

MFEAT:UMLAUT:plus) 

z.B. Äpfel SYN:HEAD:(CAT:n ∧ NUM:pl ∧ gen:masc) ∧ 

MORPH:(MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II) ∧ 

MFEAT:UMLAUT:plus) 

∅ SYN:HEAD:(NUM:(sg ∨ pl) ∧ CASE:¬gen) ∧ 

MORPH:MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II) 

-s SYN:HEAD:(NUM:sg ∧ CASE:gen) ∧ 


-n SYN:HEAD:(NUM:pl ∧ CASE:gen) ∧ 


Tabelle 5.4: Merkmalsbestimmungen für Stämme und Flexive der Deklinationsklasse S1/P2 (Duden (1984)) 

Die Flexion von Adjektiven ist wiederum etwas komplexer, zumindest dann, wenn man 

Komparation unter Flexion subsumiert. Dies ist natürlich nicht unproblematisch, da die Bildung 

von Komparativen und Superlativen Änderungen in der Semantik und Argumentstruktur 

des Basismorphems nach sich zieht, was die Bedeutungsinvarianz als Kriterium der 

Paradigmenbildung in Frage stellt. Dieses Kriterium ist jedoch bereits hinsichtlich der Pluralbildung 

zweifelhaft. 

Die folgende Tabelle zeigt einige Adjektivflexive: 

Flexiv Merkmalsbestimmung unter SYN:HEAD 

∅ adjective ∧ DEGREE: pos 

-er adjective ∧ DEGREE: comp 

-st adjective ∧ DEGREE: sup 

-em adjective ∧ NUM: sg ∧ CASE: dat ∧ GENDER: (masc ∨ neut ) ∧ DECL: strong 

Tabelle 5.5: Einige Adjektivflexive 

Da auch Adjektive Allomorphie an den Tag legen, muß wie im Verbbereich eine Formenklassifikation 

vorgenommen werden. Unterschieden wird zwischen aform(0), bei denen der 

gleiche Stamm für Positiv, Komparativ und Superlativ verwendet wird (beispielsweise bei 

schön), aform(1), die nur für den Positiv verwendet wird (z.B. rot) und aform(2), die für die 

restlichen Steigerungsformen heranzogen wird (z.B. röt). Suppletion wie bei gut – besser – 

besten wird wiederum durch Auflistung im Vollformenbereich des Lexikons behandelt. 

Die Adjektivflexion mit ihren ausgeprägten Synkretismen – 24 Wortformen fallen auf nur 

fünf Endungen – zeigt übrigens einen gewissen Konflikt zwischen Unterspezifikation und 

Typenmaximalität. Beim Plural von Adjektiven würde man sicher erwägen, das Genus- 

Merkmal unterspezifiziert zu lassen, da alle drei Genera die gleiche Endung aufweisen. Dies 

darf aber nicht erfolgen, da sonst die Formen den Maximalitätsfilter nicht passieren. Es bleibt 

demnach nichts anderes übrig, als einen Typ durch die vollständige Disjunktion aller seiner 

maximalen Subtypen zu ersetzen, im Beispielfall also gender mit masc ∨ fem ∨ neut 

anzugeben. 

166



Flexionsprozesse haben natürlich Einfluß auf die Semantik eines Lexems. Beispielsweise 

wird Tempus im Rahmen der Montague-Semantik mit Hilfe zweier Satzoperatoren P und F 

realisiert. Das Problem ist, daß diese Operatoren Sätze als Argumente nehmen, auf der 

Ebene der Morphologie aber nur Prädikate zur Verfügung stehen, woraus die bekannten 

Klammerparadoxien entstehen. Ich möchte hier nicht weiter darauf eingehen, sondern nur 

zeigen, wie man den Einfluß des Numerus-Merkmals auf die Semantik eines Nomens, genauer 

gesagt eines Individuennomens, im gewählten methodischen Rahmen ausdrücken 

kann. 

Die Sorte arg_structure_realisation/1 in Regel VII übernimmt die Aufgabe, beim Übergang zu 

syntactic_atom die syntaktische (unter SYN:ARGSTR) wie auch die semantische Argumentstruktur 

(unter SEM:REFARG bzw. SEM:EXTARG) in einer Weise zu realisieren, daß sie in der 

Satzsyntax verwendet werden kann. Beispielsweise ist die Referenz des referentiellen Arguments 

im Lexikoneintrag von Individuennomen unterspezifiziert bzgl. der Unterscheidung 

Individuum–Gruppe, ebenso wie der morphologische Status von Elementen unter 

SYN:ARGSTR neutral in bezug auf die Opposition syntactic_atom – phrase ist. Beim Übergang 

von der Wortbildung zur Syntax müssen diese Unterspezifikationen jedoch in richtiger 

Weise durch Typenanhebung aufgelöst werden, was eben die verschiedenen Klauseln von 

arg_structure_realisation/1 leisten: 

(37) 

a) arg_structure_realisation(PSA ∧ SYN:HEAD:(verb ∧ NUM: Num) ∧ 

SEM:(EXTARG: Ext ∧ CONTENT: Content)) ← 

type_shift_args_to_phrase(PSA) ∧ 

SEM:EXTARG:type_shift(Num, Ext) ∧ 

SEM:CONTENT: Content 

b) arg_structure_realisation(PSA ∧ SYN:HEAD: verb_infinitive ∧ SEM: Sem) ← 


SEM: Sem 

c) arg_structure_realisation(PSA ∧ SYN:HEAD: (nominal ∧ NUM: Num) ∧ 

SEM:(REFARG: Ref ∧ CONTENT: Content) ) ← 


SEM:REFARG: type_shift(Num, Ref) ∧ 

SEM:CONTENT: Content 

Die Variable PSA steht jeweils für den der Tochter von syntactic_atom zugeordneten 

Merkmalsterm. (37a) regelt die Realisierung des externen Arguments von Verbformen, die 

für Numerus spezifiziert sind (also alle Formen bis auf die infinitivischen Formen wie Infinitiv 

mit oder ohne zu, Partizip I und II). In Abhängigkeit vom Wert von NUM wird das externe 

Argument durch die weiter unten erläuterte type_shift/2-Funktion realisiert. 

(37b) erfaßt alle anderen der in (37a) nicht berücksichtigten infinitivischen Verbformen, die 

in der Hierarchie der Kopftypen (siehe (1) auf S. 122) genau durch den disjunktiven Typ 

verb_infinitive repräsentiert werden. Die syntaktischen Argumente werden zu Phrasen angehoben 

(durch type_shift_args_to_phrase/1); der Struktur unter SEM wird unverändert an 

syntactic_atom weitergegeben. 

167


(37c) bezieht sich auf die beiden nominalen Kategorien Nomen und Adjektiv und verwirklicht 

deren referentielle Argumente in Abhängigkeit von der Ausprägung des Numerus- 

Merkmals. 

Wie sehen nun die verschiedenen Klauseln der Funktion type_shift/2 aus? 

(38) 

(a) type_shift(sg, Type ∧ individual ∧ IS_GROUP: minus) ← Type 

(b) type_shift(sg, Type ∧ uncountable ∧ IS_GROUP: minus) ← Type 

(c) type_shift(sg, Type ∧ group ∧ IS_GROUP: plus) ← Type ∧ GROUP_OF: individual 

(d) type_shift(sg, dotted_type ∧ TYPE_REL:TR ∧ TYPES:Types) ← 

dotted_type ∧ TYPE_REL:TR ∧ 

TYPES: type_shift_all_subtypes(sg, Types) 

(e) type_shift(pl, NonGroup ∧ IS_GROUP: minus ∧ TYPE: T) ← 

NonGroup ∧ GROUP_OF: (individual ∧ TYPE: T) 

(f) type_shift(pl, Group ∧ group ∧ IS_GROUP:plus ∧ TYPE:T) ← 

Group ∧ GROUP_OF: (TYPE:T ∧ GROUP_OF: (individual ∧ TYPE:T)) 

(g) type_shift(pl, dotted_type ∧ TYPE_REL: TR ∧ TYPES: Types) ← 

dotted_type ∧ TYPE_REL: TR ∧ 

TYPES: type_shift_all_subtypes(pl, Types) 

(38 a-d) sind für die Typenanhebung im Singular verantwortlich. Das in den Lexikoneinträgen 

der entsprechenden Nomen spezifizierte Merkmal IS_GROUP legt fest, ob das Nomen 

schon im Singular eine Menge denotiert. Das ist bei Mengen bezeichnenden Nomen mit einfachen 

Typen wie Gruppe, Menge usw. der Fall, aber auch bei Nomen wie Fabrik mit einem 

dotted type, bei dem ein Dot-Typ sich ebenfalls auf eine Menge bezieht (vgl. die Fabrik streikt, 

d.h. die Menge der Werktätigen streikt). (38d) betrifft gerade diesen Fall von dotted types im 

Singular, bei dem die Funktion type_shift_all_subtypes/2 einfach rekursiv auf die Elemente in 

der TYPES-Liste angewendet wird. 

(39) type_shift_all_subtypes(Num, []) ← [] 

type_shift_all_subtypes(Num, [Type|Types]) ← 

[type_shift(Num, T ∧ ¬uncountable)|type_shift_all_subtypes(Num, T)] 

type_shift_all_subtypes(pl, [uncountable|Types]) ← 

type_shift_all_subtypes(pl, Types) 

Im Plural (38 e-g) funktioniert das Ganze völlig analog, mit dem Unterschied, daß 

type_shift_all_subtypes/2 Subtypen vom Typ uncountable ignoriert. Dies ist nötig, um die unterschiedliche 

Referenz von Massenomina im Singular und Plural abzubilden: während sie 

im Singular die typische Alternation zwischen Individuum und Stoff an den Tag legen, können 

sie im Plural nur noch Mengen von Individuen bezeichnen (vgl. das Paar Brot – Brote). 

Klauseln (38 e-g) würden übrigens verhindern, daß Nomen mit einfachem Typ uncountable 

in den Plural gesetzt werden, falls es solche Nomen überhaupt gibt. 

Die nachstehende Abbildung demonstriert die Wirkung von type_shift/2 am Beispiel des 

Singulars und Plurals von Fabrik. 

168

GRAPH: fabrik 

SYN: 

SEM: 

CAT: n 


NUM: sg 

HEAD: CASE: acc ∨ dat ∨ gen∨ nom 

ARGSTR: 

syn 

REFARG: 

GENDER: fem 

noun 

RELARG: 

DEFARGS: 

ARGSTR_ORDER: 

noun_argstr 

TYPES: 

TYPE_REL: 

dotted_type 

CONTENT: content 



1 

2 

TYPE: building 

individual 

TYPE: 3 human 

TYPE: 3 

GROUP_OF: 

individual 

group 

RELCONST: work_in 

RELARGS: 

relation 

4 

ROLE: worker 

SEL_RESTR: 2 

role 

ROLE: location 

SEL_RESTR: 1 

role 

GRAPH: fabrik , en 

SYN: 

SEM: 

CAT: n 

NUM: pl 

HEAD: CASE: acc ∨ dat ∨ gen∨ nom 

ARGSTR: 

syn 

REFARG: 

GENDER: fem 

noun 

RELARG: 

DEFARGS: 

ARGSTR_ORDER: 

noun_argstr 

TYPES: 

TYPE_REL: 

dotted_type 

CONTENT: content 



1 

3 

TYPE: 2 building 

TYPE: 2 

GROUP_OF: 

individual 

group 

TYPE: 4 human 

TYPE: 4 

GROUP_OF: GROUP_OF: 

TYPE: 4 

individual 

group 

group 

RELCONST: work_in 

RELARGS: 

relation 

5 

ROLE: worker 

SEL_RESTR: 3 

role 

ROLE: location 

SEL_RESTR: 1 

Abb. 5.21: Typenanhebung des referentiellen Arguments bei einem polysemen Nomen 

Die Funktion type_shift_args_to_phrase/1 in (37) realisiert auf der anderen Seite die syntaktische 

Argumentstruktur von Lexemen. Sie ist durch Klauseln wie (40) 

(40) type_shift_args_to_phrase(SYN:ARGSTR:(AS ∧ noun_argstr ∧ RELARG: R ∧ DEFARGS: DA)) ← 

SYN:ARGSTR:(AS ∧ 

RELARG: realize_relarg(R) ∧ 

DEFARGS: realize_default_arguments(DA)) 

gegeben, die – abhängig von den unterschiedlichen Argumentstrukturtypen – Kasus und 

andere Eigenschaften der Argumente spezifizieren. Im Fall von (40) wird realize_relarg/1 

durch die Klauseln 

(41) realize_relarg(Rel) ← phrase ∧ Rel ∧ SYN:HEAD:(noun ∧ CASE:gen) 

realize_relarg(Rel) ← phrase ∧ Rel ∧ p(ldat,von) 

realize_relarg(Rel) ← phrase ∧ Rel ∧ p(lacc,durch) 19 

definiert. Das relationale Argument eines Nomens kann demzufolge phrasal als Genitiv-NP 

oder als PP mit den Präpositionen von bzw. durch verwirklicht werden. 

19 p(Case, PForm) ← SYN:HEAD: (CAT: p ∧ PFORM: PForm ∧ DP_CASE: Case) 

169 

role


Die Sorte realize_default_arguments/1 in (40) bezieht sich auf die Default-Argumente, die in 

der hier dargelegten Grammatikversion nur auf den Typ phrase angehoben werden. Denkbar 

wären aber weiterreichende Operationen. 

Bei der Argumentrealisierung wird auch der Kasus der Argumente festgelegt. Wie unter 5.1 

schon einmal kurz angedeutet, sind die Subtypen von case etwas komplizierter als zuvor 

dargestellt. Ich verwende hier die Hierarchie von Heinz/Matiasek (1994), die folgendermaßen 

strukturiert ist: 

(42) case ↔ syntactic_case ∨ morphological_case 

morphological_case ↔ nom ∨ gen ∨ dat ∨ acc 

syntactic_case ↔ lex_case ∨ struc_case 

lgen ↔ gen ∧ lex_case 

ldat ↔ dat ∧ lex_case 

lacc ↔ acc ∧ lex_case 

snom ↔ nom ∧ struc_case 

sgen ↔ gen ∧ struc_case 

sacc ↔ acc ∧ struc_case 

Dies ist übrigens eine der wenigen Teilhierarchien im Gesamtsystem, wo nicht von einer rein 

disjunktiven Typisierungsmethode Gebrauch gemacht wird. Die Grundidee ist, zwischen 

morphologischem und syntaktischem Kasus zu unterscheiden. Letzterer zerfällt in 

strukturellen Kasus, der davon abhängt, in welcher strukturellen Konfiguration (Subjekt, 

Objekt, relationales Argument) sich das Argument befindet, und lexikalischen Kasus, bei 

dem das nicht der Fall ist. Letzterer muß in den Lexikoneinträgen mit lgen, ldat und lacc 

angegeben werden, während der strukturelle Kasus mit dem Wert struc_case unterspezifiziert 

bleibt. Hinsichtlich der Wortbildung bietet es Vorteile, mit dieser Unterspezifikation zu 

arbeiten, da bei der Derivation Argumente unter Wortartwechsel vererbt werden. Wäre ein 

Argument hier schon mit dem Kasus versehen, den es später in der Satzsyntax hat, so müßte 

dieser bei jeder Vererbung des Arguments entsprechend geändert werden. 

Die erste Klausel von realize_relarg/1 in (41) verdeutlicht das Zusammenwirken der verschiedenen 

Kasustypen. Im Lexikoneintrag wird das relationale Argument eines Nomens mit 

CASE: struc_case spezifiziert, während realize_relarg/1 hierfür CASE: gen festlegt. Beide Typen 

sind miteinander kompatibel, da sie einen gemeinsamen Join – sgen – in der Hierarchie aufweisen. 

5.5 Konversion 

Für die Konversion setze ich eine Umkategorisierungsregel an, die, da Konversion ein relativ 

heterogener Bereich ist, in eine gewisse Anzahl von Einzelregeln „verzweigt“. 

Im folgenden möchte ich eine Einzelregel etwas näher erläutern: die zur Bildung sog. 

Faktitiva-Verben aus Adjektiven (weit – weiten). Während andere Regeln in etwa diesem 

Muster folgen, verhält sich die Entstehung von Adjektiven aus Partizipien etwas anders: 

1. Die Partizipien sind vor der Umkategorisierung zu Adjektiven im Sinne der Flexionsregeln 

voll flektiert, d.h. typenmaximal. Dies ist bei den anderen Konversionsformen nicht 

der Fall. 

2. Zumindest bei der Adjektivbildung auf der Basis des Partizips II kommt es zu Änderungen 

in der Argumentstruktur, wie sie sonst nur bei der Derivation zu beobachten sind. 

Die Argumentstruktur ist auch dafür maßgeblich, daß nicht alle Adjektivierungen möglich 

sind, vgl. Toman (1987:377): 

170


(43) 

a) der gehaßte Hausmeister 

b) der gefallene Engel 

c) *das geschlafene Krokodil 

Es sieht so aus, als könnten nur transitive oder unakkusativische Verben Basis für die 

Bildung von Adjektiven aus den jeweiligen Partizip-II-Formen sein, wobei das interne 

Argument des Verbs dabei zum referentiellen des Adjektivs wird. 

Sollen beide Konversionstypen durch eine einzige Strukturregel erfaßt werden, so muß man 

einen gemeinsamen Nenner für alle von der konvertierten Kategorie dominierten Kategorien 

finden. Da die Bildung von Verbpartizipien als Flexion aufgefaßt wird, kann dieser Typ nur 

pre_syntactic_atom sein: 

(Regel VIII, Konversion) 

cat(simple_stem ∧ Stem, L0,L1) ← 

Stem ∧ 

true(cat(pre_syntactic_atom, L0,L1) ∧ Stem1) ∧ 

stem_conversion(Stem1) ∧ 

GRAPH: diff(L0, L1) ∧ 

STRUCTURE: [Stem1] 

Hinter stem_conversion/1 verbergen sich die oben erwähnten Einzelregeln. Nachstehend der 

Fall der Faktitiva-Verben: 

(44) stem_conversion(SYN:HEAD:adjective ∧ SEM:(REFARG:Ref ∧ CONTENT:Cont)) ← 

SYN:HEAD:(verb ∧ CAT:v) ∧ 

SEM:CONTENT: (two_place_operator_struct ∧ OPERATOR: op_causation ∧ 

CAUSER: Causer ∧ SCOPE: Cont ) ∧ 

SYN:ARGSTR: SUBJ: (Arg1 ∧ n(struc_case) ∧ 

SEM:REFARG: (Causer ∧ countable(animate_ind ))) ∧ 

SYN:ARGSTR:DIR_OBJ:(Arg2 ∧ n(struc_case) ∧ SEM:REFARG:Ref) ∧ 

SYN:ARGSTR:(INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧ DEFARGS:[]) ∧ 

SYN:ARGSTR:ARGSTR_ORDER:[Arg1, Arg2] 20 

Die Regel bewirkt folgendes: die Bildung von Verben aus Adjektiven wie weit oder schwarz 

wird verstanden als: “y bewirkt, daß A(x) gilt”, im Falle von schwärzen also: 

λyλx cause(x, black(y)). 

In stem_conversion/1 wird dies dadurch nachgebildet, indem die Struktur, die das Adjektiv 

unter SEM:CONTENT trägt, in den Skopus eines Operators op_causation übernommen und ein 

neues Argument Causer konstruiert wird, das zum Subjekt des neu gebildeten Verbs wird. 

Die Selektionsbeschränkungen, die für das referentielle Argument des Adjektivs gelten, 

vererben sich an das direkte Objekt des Verbs. Abb. 5.22 zeigt die Merkmalsstruktur von 

“schwärzen”. 

20 Die Sorten n/1 und countable/1 sind Templates und folgendermaßen definiert: 

n(Case) ← SYN:HEAD: (noun ∧ CAT: n ∧ CASE: Case) 

countable(OfType) ← COUNTABLE ∧ TYPE: OfType ∧ IS_GROUP: minus 

171


GRAPH: schwärz , en 

SYN: 

SEM: 

CAT: v 

HEAD: 

verb_inf 

ARGSTR: 

syn 

EXTARG: 2 

CONTENT: 

SUBJ: 1 

DIR_OBJ: 3 

CAT: n 

SYN: HEAD: CASE: snom 

noun 

SEM: 

phrase 

syn 

REFARG: 2 TYPE: animate_ind 

countable 


CAT: n 

SYN: HEAD: CASE: sacc 

noun 

SEM: 

phrase 

syn 

ARGSTR_ORDER: 1 , 3 

verbal_argstr 

OPERATOR: op_causation 

CAUSER: 2 

SCOPE: 



5.6 Unbekannte Wortteile 

REFARG: 4 TYPE: physical_entity 

countable 


EVENTSTR: STATE: 


two_place_operator_struct 

RELCONST: black 

RELARGS: 4 

state 

state_eventstr 

Abb. 5.22: Analyse von „schwärzen“ 

Erfreulicherweise muß an der morphologischen Grammatik nichts geändert werden, um mit 

unbekannten Wortteilen umzugehen. Der Segmentierer markiert einen nicht im Lexikon 

verzeichneten Wortteil w mit unknown, was den Wortparser dazu veranlaßt, es mit der minimalen 

Spezifikation 

(45) unknown ∧ FORM:“unknown(w)“ ∧ SYN:HEAD: (noun ∨ adjective ∨ verb) 

zu versehen. Der spezielle Typ unknown dient hier dazu, den unbekannten Wortteil von den 

anderen im Wort zu unterscheiden. Die Spezifikation unter SYN:HEAD umfaßt gerade die 

offenen Wortklassen, da sich die geschlossenen Klassen ohne großen Aufwand vollständig 

angeben lassen. 

Ist das unbekannte Wortsegment nicht das letzte im Wort, so stehen die Chancen gut, aufgrund 

der in der Grammatik festgeschriebenen Regularitäten Informationen über diesen 

Wortteil per Unifikation zu gewinnen. Abb. 5.23 zeigt dies am Beispiel des Wortes „schumi- 

172


sierbar“, bei dem korrekt festgestellt wurde, daß es sich bei „schumisier-“ um ein Verb handelt 

(viele Substrukturen wurden unterdrückt). 

FORM: schumisier 

SYN: 

SEM: 

HEAD: CAT: v 

verb 

syn 

GRAPH: 1 schumisier , bar 

SYN: 

SEM: 

HEAD: 2 

syn 

CAT: a 

NUM: sg 

adjective 

REFARG: 3 individual 



GRAPH: 1 

SYN: 

SEM: 4 

HEAD: 2 

syn 

REFARG: 3 



GRAPH: 1 

SYN: 

SEM: 4 

HEAD: 2 

syn 

complex_stem 

EXTARG: simple_or_dotted_type 


unknown_stem 

FORM: bar 

SYN: 

SEM: 4 

HEAD: 2 

syn 

derivative 

Abb. 5.23: Ein Beispiel für ein Wort mit einem unbekannten Wortteil 

Es ergeben sich hieraus jedoch auch Probleme. Zum einen sind alle Parser, auch der Top- 

Down- oder Bottom-up-Chartparser, beim Parsen mit merkmalsbasierten Grammatiken anfällig 

für Endlosschleifen. Das Problem läßt sich natürlich darauf zurückführen, daß bei 

Verwendung von rekursiven Merkmalstrukturen (für Listen, Gruppen und dgl.), die Anzahl 

der grammatischen Kategorien nicht mehr endlich ist, das Terminieren dieser Parser aber auf 

der Endlichkeit der Menge der Nichtterminalsymbole beruht. Dem kann auf zweifache 

Weise begegnet werden: es könnten mehrere Lexikoneinträge für unknown–Segmente angegeben 

werden, bei denen insbesondere die Werte der rekursiven Merkmale disjunktiv auf 

endlich viele Werte reduziert werden. Schließlich haben lexikalische Köpfe im Regelfall nicht 

100 Default-Argumente, sondern vielleicht höchstens zwei. Oder man führt in den Chart- 

Parser sog. Restriktoren ein (vgl. Shieber (1985a)), die rekursive Merkmale bei der Hüllenbildung 

ignorieren, was effektiv einer endlichen Äquivalenzklassenbildung bzgl. der 

grammatischen Kategorien gleichkommt. 

173


Das zweite Problem der Methode, unbekannte Wortteile unterspezifiziert dem Parser zu 

präsentieren, besteht in der Vielzahl der möglichen Analysen. Hier bietet sich der (in Kapitel 

4 schon einmal angedeutete) Weg an, Informationen, die ein (robuster) Satzparser über die 

syntaktische Umgebung des als Ganzes unbekannten Wortes gewinnen kann, über eine passende 

Instantiierung des Startsymbols der Wortgrammatik in die morphologische Analyse 

einzuspeisen. Überhaupt kann die robuste Verarbeitung unbekannter Wörter nicht Aufgabe 

der Morphologiekomponente allein sein. Und hier liegt gerade ein Vorteil in der Tatsache, 

daß sich satzsyntaktische und wortsyntaktische Repräsentationen des gleichen Formalismus 

bedienen. 

Die errechneten Strukturen für Stämme vom Typ unknown_stem könnten gespeichert und 

bei Erreichen einer bestimmten Vorkommenshäufigkeit ihre Generalisierung berechnet werden, 

d.h. der spezifischste Merkmalsterm, der alle gespeicherten Merkmalsterme subsumiert. 

5.7 Verwandte Arbeiten 

5.7.1 Antworth (1994) 

Antworth (1994) verwendet neben einem Two-Level-Segmentierer eine unifikationsbasierte 

morphologische Grammatik auf der Grundlage des (nichttypisierten) PATR-II-Formalismus 

(Shieber (1984)). PATR kennt neben sog. Templates, die nicht-rekursiven Sorten des hier verwendeten 

Systems entsprechen und vor allem der Übersichtlichkeit des Lexikonaufbaus 

dienen, und um Pfadgleichungen erweiterte kontextfreie Regeln. Pfadgleichungen treten in 

zwei Formen auf: in Gestalt von = zur Festlegung von Merkmalswerten am 

Ende von Pfaden und in der Form = zur Angabe von Reentranzen. Nachstehend 

ist ein (in der Notation leicht angepaßter) Ausschnitt von Antworths Wortgrammatik 

für das Englische wiedergegeben: 

(46) 

R1 Word → Stem Infl 

= 

= 

= 

= < Infl TENSE> 

= < Infl AFORM> 

R2 Stem → Stem1 Suffix 

= 

= 

= 

= 

= 

= 

Regel R1 bezieht sich auf die Flexion. Genau ein Flexiv tritt zu einem Stamm, den es subkategorisiert 

( = ); gleichzeitig legt es die Kategorie des flektierten 

Wortes fest ( = ). Ähnliches gilt für Suffix in der Suffigierungsregel 

R2; Affixe fungieren demnach wie Slash-Kategorien der Kategorialgrammatik. 

Für die Analyse von Komposita wird keine erkennbare Vorsorge getroffen (wohl weil sie im 

Englischen durch die Satzanalyse übernommen werden kann), ebensowenig wie eine semantische 

Repräsentation für abgeleitete Stämme erzeugt wird. 

5.7.2 Ritchie et al. (1992) 

174


Im Ansatz von Ritchie et al. (1992) werden Wortstrukturregeln in einem an der GPSG orientierten 

Formalismus ausgedrückt und kategorielle Repräsentationen als Vektoren von Attribut-Wert-Paaren 

repräsentiert. (47) zeigt die Flexionsregel (Ritchie et al. (1992:83)): 

(47) [BAR 0] → [BAR 0], [FIX SUF] 

Zusammen mit den Beispiellexikoneinträgen für cup und +s 

(48) cup: [BAR 0, V –, N +, PLU –] 

+s: [BAR –1, FIX SUF, V –, N +, PLU +] 

und einem Word-Head Convention genannten Prinzip zur Perkolation von Kopfmerkmalen 

ergibt sich Wortstruktur (49): 

(49) 

[BAR 0, V-, N +, PLU +] 

[BAR 0, V-, N +, PLU -] [BAR -1, FIX SUF, V-, N +, PLU +] 

cup +s 

Wie man sieht, wird hier der Default-Mechanismus des relativierten Kopfs herangezogen (das 

Merkmal PLU + des Flexivs hat Vorrang vor dem PLU – des Stamms), was leere Flexionsaffixe 

für die Singularformen zumindest für diesen Fall unnötig macht, einen aber gleichzeitig 

auch der Möglichkeit beraubt, mit Hilfe der Unifikation von Kopfmerkmalen die Zulässigkeit 

von Morphemkombinationen zu überprüfen. 

Mittels der Word-Daughter Convention werden Merkmale wie SUBCAT auch von Nichtköpfen 

an das Gesamtwort vererbt, eine Word-Sister Convention regelt ähnlich wie das in 5.2.1 dargestellte 

morphologische Subkategorisierungsprinzip das Verhältnis von Affixen und Stämmen. 

Anders als im Modell von Antworth (1994) wird auch die N-N-Komposition durch 

Verwendung von Regeln berücksichtigt, die immer ausschließlich linksverzweigende Wortstrukturen 

erzeugen, demnach nicht ambig sind, auf der anderen Seite natürlich Analysen 

ausschließen, wie die Autoren selbst einräumen (Ritchie et al. (1992:198)). 

Die Semantik von komplexen Wörtern bleibt wie im Entwurf von Antworth unberücksichtigt. 

5.8 Implementierung 

Ich habe fast alle Teile der morphologischen Grammatik im Stuttgarter CUF-Formalismus 

(Dörre et al. (1996)) implementiert. CUF besteht aus einem Compiler, der Merkmalsterme 

nach Prolog übersetzt und einem Interpreter, der Anfragen ausführt und im wesentlichen 

eine disjunktive Normalform der Anfrage herstellt. Die experimentelle Grammatik umfaßt 

ca. 3000 Zeilen, davon sind ca. 1/3 Lexikoneinträge von knapp 30 Stämmen und 10 Affixen, 

dazu kommen noch Flexive. Das System läuft unter Unix und Linux und analysiert komplexe 

Wörter mit drei bis vier Teilen auf einem 300 MHz-Pentium-PC in ein bis fünf Sekunden. 

Der CUF-Programmtext ist in Anhang C.3 wiedergegeben. 

175

6 Zusammenfassung 

Kapitel 6: Zusammenfassung 

In diesem abschließenden Kapitel werden nochmals einige wesentliche Aspekte der dargestellten 

Konzeption kritisch unter die Lupe genommen und mit einem kurzen Fazit bedacht. 

6.1 Was erzielt wurde und was nicht 

Das vorangegangene Kapitel versuchte, auf der Grundlage heutiger Wortbildungstheorien 

einen formalen Rahmen zu konstruieren, in dem Hypothesen wie Argumentvererbung usw. 

ausgedrückt werden können. Mit diesem Rahmen selbst ist vermutlich kein linguistischer 

Erkenntnisgewinn verbunden, höchstens der, daß aufgrund der formalisierten Darstellung 

jetzt genauere Aussagen über den Gegenstand möglich sind und dank der Implementierung 

auch der Computer zum Test der Hypothesen herangezogen werden kann. 

Man kann sich natürlich fragen, ob überhaupt erwartet werden kann, empirische Vorhersagen 

mit Hilfe eines Formalismus zu gewinnen, der aufgrund seiner Möglichkeit, rekursive 

Merkmalsstrukturen zu bilden, turingmaschinenäquivalent ist (vgl. Johnson (1988)). Allerdings 

habe ich von diesen rekursiven Mechanismen eher geringen Gebrauch gemacht: anstelle 

rekursiver Argumentlisten gibt es ausdifferenzierte Argumentstrukturen und da wo 

Listen verwendet wurden, z.B. bei Default-Argumenten, können sie ohne weiteres durch 

nicht-rekursive Strukturen ersetzt werden. Der Einwand indessen, den ich im ersten Kapitel 

gegen lexikalische Regeln wegen ihrer Möglichkeit gemacht habe, beliebige funktionale Zusammenhänge 

zu repräsentieren, fällt wieder auf mich zurück, da erstens Allomorphieregeln 

verwendet wurden – die so etwas Ähnliches sind wie lexikalische Regeln auf Morphebene – 

und zweitens mit Hilfe des morphologischen Subkategorisierungsprinzip in Verbindung mit 

den Affix-Lexikoneinträgen ebenfalls relativ willkürliche Zusammenhänge zwischen Basis 

und Derivat konstruiert werden könnten. Auf der Haben-Seite steht allerdings, daß 

hierdurch einer notwendigen grammatischen Beschreibung der Wortbildung der ihr gebührende 

Raum verschafft werden konnte. 

Bei der Konstruktion der Grammatik habe ich versucht, mich von einem gewissen Minimalismus 

leiten zu lassen, der sich in zwei Facetten äußert: erstens, vermittels Vererbungshierarchien 

Dinge so weit wie möglich unterspezifiziert zu lassen und möglichst Supertypen 

betreffende Generalisierungen zu machen, und zweitens, mit möglichst wenigen Regelschemata 

auszukommen, ohne jedoch den Verbiegungen von Autoren wie Krieger (1994) zu folgen, 

die versuchen, alles ins Korsett eines HPSG-Nachbaus zu pressen. 

Meine Konzeption führte indes zu linguistischen Neuerungen wie der Kategorie 

pre_syntactic_atom (die bisher bestimmt noch kein Linguist entdeckt hat), die aber ein formaler 

Reflex der augenscheinlichen Hierarchisierung von morphologischen Prozessen ist 

(vgl. Scalise (1988a)). Wenn es durch Umformung gelingen würde, die Kompositionsregel IV 

in das Operatorgrammatikformat (vgl. Aho/Ullman (1972)) zu überführen, dann könnte 

man auf solche Kategorien verzichten und sie durch eine Präzedenztabelle mit Einträgen für 

die verschiedenen Affixe ersetzen, die dann den Parser bei seiner Analyse steuert. 

Viele der Analysen, die in Kapitel 5 vorgestellt wurden, sind zugegebenermaßen etwas grob 

und erreichen nicht die „Trennschärfe“, die beispielsweise in Fanselow (1981) erreicht 

wurde. Allerdings war das Ziel dieser Arbeit auch etwas breiter gesteckt: neben einer vereinheitlichten 

syntaktischen und (einfachen) semantischen Beschreibung von Wortbildung 

und Flexion wurde der Gesamtentwurf auch noch in ein Modell der morphologischen Analyse 

eingebettet und ein kleiner Beitrag zur Robustheit gemacht. Dies geht über das hinaus, 

176


was andere Unterfangen dieser Art wie das von Ritchie et al. (1992) oder Antworth (1994) 

erzielten. 

6.2 Typisierte Merkmalsstrukturen 

Was bringen Grammatiken auf der Grundlage typisierter Merkmalsstrukturen? Sicherlich 

erzwingen sie bei ihrer Konstruktion größere Genauigkeit und mehr Reflexion über die Ontologie 

des Gegenstandsbereiches. Ob der von einigen Autoren wie Carpenter (1992) behauptete 

Effizienzgewinn der typisierten Unifikation gegenüber ihrem untypisierten Pendant 

tatsächlich eintritt – schließlich muß eine aufwendige Unifikationsoperation nicht 

durchgeführt werden, wenn schon die Ausgangstypen nicht kompatibel sind – darf indessen, 

vor allem bei überwiegend disjunktiv definierten Hierarchien bezweifelt werden. Meist 

werden hierbei Kategorien unifiziert, die entweder vom gleichen Typ sind oder in einer Super–Subtyp-Beziehung 

zueinander stehen. 

Weitere Probleme von typisierten Formalismen im präsentierten Kontext sind: 

• Wie im letzten Kapitel schon einmal kurz angedeutet, gibt es einen Zielkonflikt zwischen 

Unterspezifikation einerseits und der Notwendigkeit, Typen voneinander unterscheidbar 

zu machen andererseits. Ein maximal unterscheidbares Typensystem benutzt keine 

Hierarchisierung in Subtypen; die einzelnen Typen sind durch Unifikation auseinanderzuhalten. 

Dafür ist keine Unterspezifikation über Typen hinweg möglich. Auf der anderen 

Seite stehen Typsysteme mit ausgeprägter hierarchischer Ordnung, in denen Sub- 

und Supertypen durch Unifikation nicht voneinander zu trennen sind. Dies gelingt nur 

durch eine nicht-monotone Subsumptionsoperation, die aber der Monotonie als einer 

wünschenswerten Eigenschaft eines logischen Systems zuwiderläuft, wie folgendes Beispiel 

noch einmal verdeutlicht: 

t ↔ a | b 

s1 ← X ∧ t ∧ (X v b) ∧ X ∧ a 

s2 ← X ∧ a ∧ (X v b) ∧ X ∧ t 

Die Sorten s1 und s2 sind nicht äquivalent. 

• Wie ebenfalls im letzten Kapitel deutlich wurde, sind Merkmalsstrukturen nicht geeignet, 

Wissensrepräsentationsformalismen zu ersetzen, obwohl sie ja mit diesen eng verwandt 

sind. Möchte man sich, wie bei den Kompositadeutung mittels einer konzeptuellen 

Relation in der Typenhierarchie von den spezifischeren Typen zu ihren Supertypen 

bewegen, so erreicht man dies allenfalls durch eine geschickte Anordnung der Sorten im 

Programmtext, nicht aber auf prinzipielle Weise. Auch sind hierbei keine Inferenzen 

möglich. Hilfreich wäre bei der gewählten Logik gewesen, wenn sie über rekursive Typenconstraints 

verfügen würde, wie sie in Systemen wie ALE (Carpenter/Penn (1994)) 

und TROLL (Gerdemann et al. (1995)) integriert sind. Mit diesem Hilfsmittel wäre es 

möglich, einen guten Teil der notwendigen Wissensrepräsentation in die Typenconstraints 

zu verlagern. Letztlich aber wird man bei einem realistischen Weltwissensfragment 

nicht umhin können, auf einen der üblichen frame-basierten Wissensrepräsentationsformalismen 

auszuweichen, mit dem auch prozedurales Wissen abgebildet werden 

kann (vgl. Reimer (1991)). 

• Zum Schluß: Unifikation scheitert oder sie scheitert nicht. Es gibt keine „Zwischenwerte“, 

mit denen die graduelle Akzeptabilität einer Analyse ausgedrückt werden 

177


könnte und somit auch keine Gewichtung der Analysen nach Plausibilität stattfinden 

kann. 

Vielleicht ist der nichtmodulare Aufbau von Unifikationsgrammatiken, die Unmöglichkeit, 

bei nichttrivialen Systemen die Konsequenzen kleinster Änderungen vorherzusehen, ihre 

exponentielle Komplexität und ihr Alles-oder-Nichts-Charakter der Grund für das in letzter 

Zeit wiedererwachte Interesse an Analysemethoden auf der Grundlage von endlichen Automaten 

(vgl. den Sammelband von Roche und Schabes (1997) dazu). Mir fällt es allerdings 

schwer zu sehen, wie eine Wortgrammatik mit semantischer Repräsentation mittels solcher 

Methoden zu bewerkstelligen sein könnte. 

6.3 Wortzerlegung und -analyse 

An einigen Stellen – bei der Darstellung der Präfixverben und der -heit/-keit Alternation – ist 

sichtbar geworden, daß man auch bei der morphologischen Analyse auf Informationen bzgl. 

Silbenstruktur und Wortakzent zurückgreifen muß. Die Frage ist, in welcher Weise diese 

Informationen in ein Gesamtsystem integriert werden sollten. Zwei Wege bieten sich an: 

man benutzt Verfahren wie die Two-Level-Morphology, in deren Automaten man solche Informationen 

hineinkodiert, oder man bereichert die morphologische Grammatik um Typen 

und Merkmale zur Repräsentation phonetischer und phonologischer Sachverhalte, wie dies 

im Rahmen der constraint-based phonology (Bird (1995)) erfolgt. Ich plädiere für die zweite 

Alternative, da sie Schnittstellenprobleme vermeidet und nur einen einzigen Formalismus 

zur Darstellung des sprachlichen Wissens verwendet. Man muß sich allerdings im klaren 

darüber sein, daß man es dann nur noch mit einem reinem item-and-arrangement-Ansatz zu 

tun hat und Aspekte einer item-and-process-Konzeption, wie sie dem TLM-Modell innewohnen, 

vernachlässigt. 

178

Literaturverzeichnis 


Abramson, H. (1992): »A Logic Programming View of Relational Morphology. Proc. of 

COLING-92, S. 850-854. 

Aho, Alfred V.; Corasick, Margaret J. (1975): »Efficient String Matching: An Aid to 

Bibliographic Search«. Comm. ACM 18:6 (1975), S. 333-340. 

Aho, Alfred V.; Ullman, Jeffrey D. (1972): The Theory of Parsing, Translating, and Compiling. 

Vol. I: Parsing. Prentice-Hall: Englewood Cliffs. 

Anick, Peter; Artemieff, Susanne (1992): »A High-level Morphological Description 

Language Exploiting Inflectional Paradigms«. Proc. of COLING-92, S. 67-73. 

Antworth, Evan L. (1994): »Morphological Parsing with a Unification-based Word 

Grammar«. North Texas Natural Language Processing Workshop, University of Texas. 

Aronoff, Mark (1976): Word Formation in Generative Grammar. Cambridge, Mass.: MIT Press. 

Baayen, R. H.; Piepenbrock, R.; van Rijn, H. (1993): The CELEX Lexical Database (CD-ROM). 

Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA. 

Barton, G. Edward; Berwick, Robert C.; Ristad, E.S. (1987): Computational Complexity and 

Natural Language. MIT Press, Cambridge, Mass. 

Bear, John (1988): »Morphology with Two-Level Rules and Negative Rule Features«. Proc. of 

COLING-88, S.28-31. 

Bierwisch, Manfred (1983): »Semantische und konzeptuelle Repräsentation lexikalischer 

Einheiten«. In: R. Ruzicka; W. Motsch (Hrsg.): Untersuchungen zur Semantik. Berlin: 

Akademie Verlag. 

Bierwisch, Manfred (1989): »Event Nominalization: Proposals and Problems«. In: 

Linguistische Studien, Reihe A Arbeitsberichte, Bd. 194 (Zentralinstitut für 

Sprachwissenschaft der Akademie der Wissenschaften der DDR), S. 1-73. 

Bird, Steven (1995): Computational Phonology. A constraint-based approach. Cambridge 

University Press, Cambridge. 

Black, Alan W.; van de Plassche, J.; Williams, B. (1991): »Analysis of Unknown Words 

through Morphological Decomposition«. Proc. of the 5th Conference of the European 

Chapter of the ACL (1991), S. 101-106. 

Boase-Beier, Jean; Toman, J.; Brekle, H.E.; Beier, D.; Stöhr, I. (1984): Endbericht DFG-Projekt 

„Nominalkomposita“. Arbeitsbericht Nr. 41, Juli 1984, Regensburg. 

Bußmann, Hadumod ( 2 1990): Lexikon der Sprachwissenschaft. Stuttgart: Kröner. 

Calder, Jonathan (1989): »Paradigmatic Morphology«. Proc. of the 4th Conference of the 

European Chapter of the ACL (1989), S. 58-65. 

179


Carpenter, Robert (1992): The Logic of Typed Feature Structures. Cambridge Tracts in 

Theoretical Computer Science 32. Cambridge: Cambridge University Press. 

Carpenter, Robert (1997): Type-Logical Semantics. Cambridge: MIT Press. 

Carpenter, Robert; Penn, Gerald (1994): The Attribute Logic Engine. Version 2.0.1. User’s 

Guide. Carnegie Mellon University, Pittsburgh. 

Chang, Chin-Liang; Lee, Richard Char-Tung (1973): Symbolic Logic and Mechanical Theorem 

Proving. Boston: Academic Press. 

Chomsky, Noam (1965): Aspects of the Theory of Syntax. Cambridge, Mass.: MIT Press. 

Chomsky, Noam (1981): Lectures on Government and Binding. Dordrecht: Foris. 

Chomsky, Noam (1985): Knowledge of Language. New York: Praeger. 

Chomsky, Noam; Halle, Morris (1968): The Sound Pattern of English. New York: Harper & 

Row. 

Daelemans, Walter (1987): Studies in Language Technology: An Object-Oriented Computer Model 

of Morphophonological Aspects of Dutch. Dissertation, Katholieke Universiteit Leuven. 

Daelemans, Walter; De Smedt, Koenraad (1994 ): »Default Inheritance in an Object-Oriented 

Representation of Linguistic Categories «. International Journal of Human-Computer 

Studies 41 (1994), 149-177 

Dietrich, Rainer (1973): Automatische Textwörterbücher: Studien zur maschinellen Lemmatisierung 

verbaler Wortformen des Deutschen. Tübingen: Niemeyer. 

Dörre, Jochen; Dorna, Michael; Schneider, K. (1996): The CUF User’s Manual. Institut für 

maschinelle Sprachverarbeitung, Universität Stuttgart. 

Di Sciullo, Anna-Maria; Williams, Edwin (1987): On the Definition of Word. Linguistic 

Inquiry Monograph No.14. Cambridge, Mass.: MIT Press. 

Dörfler, Andreas; Hanneforth, Thomas (1995): »Morphologische Analyse und 

Argumentstrukturberechnung«. In: Hitzenberger, L. (Hrsg.): Angewandte 

Computerlinguistik. Hildesheim: Olms. 

Dowty, David R. (1989): »On the Semantic Content of the Notion of ‘Thematic Role’«. In: 

Chierchia, G.; Partee, Barbara H. und Turner, R. (Hrsg.): Properties, Types and Meaning. 

Vol II. Semantic Issues. Dordrecht: Kluwer. S. 69-129. 

Dowty, David R.; Wall, R. E.; Peters, S. (1981): Introduction to Montague Semantics. Dordrecht: 

Reidel. 

Duden (1984 4): Duden: Die Grammatik. Unentbehrlich für richtiges Deutsch. 4. Auflage, 

Mannheim: Bibliographisches Institut. 

180


Earley, Jay (1970): »An Efficient Context-Free Parsing Algorithm«. Comm. ACM 13:2, S. 94- 

102. 

Eggers, Hans; Luckhardt, H.-D.; Maas, H.-D.; Weissgerber, M. (1980): SALEM: Ein Verfahren 

zur automatischen Lemmatisierung deutscher Texte. Tübingen: Niemeyer. 

Eisenberg, Peter (1998): Grundriß der deutschen Grammatik: Das Wort. Stuttgart: Metzler. 

Fabri, Ray; Rumpf, C.; Urbas, M.; Walther, M. (1995): A Computational Model of Minimalist 

Morphology. Arbeiten des SFB 282 (Theorie des Lexikons), Nr.62, 1995. 

Fanselow, Gisbert (1981): Zur Syntax und Semantik der Nominalkomposition. Tübingen: 

Niemeyer. 

Fanselow, Gisbert (1985): »What is a cossible complex word?« In: Toman, Jindrich (Hrsg.): 

Studies in German Grammar, Dordrecht:Foris, S.289-322. 

Fanselow, Gisbert (1987): »Gemeinsame Prinzipien der Wort- und Phrasengrammatik«. In: 

Asbach-Schnitker, Brigitte; Roggenhofer, J. (Hrsg.): Neuere Forschungen zur 

Wortbildung und Historiographie der Linguistik, Tübingen: Narr, S. 177-196. 

Fanselow, Gisbert (1988a): »'Word Syntax' and Semantic Principles«. In: Booij, G.; van 

Marle, J. (Hrsg.): Yearbook of Morphology, 1988, Foris, Dordrecht, S. 95-122. 

Fanselow, Gisbert (1988b): »Word Formation and the Human Conceptual System«. In: 

Linguistische Studien, Reihe A Arbeitsberichte, Bd. 179 (Zentralinstitut für 

Sprachwissenschaft der Akademie der Wissenschaften der DDR), S. 31-52 . 

Finkler, Wolfgang; Neumann, Günter (1986): MORPHIX: Ein hochportabler Lemmatisierungsmodul 

für das Deutsche. Universität des Saarlandes, KI-Labor Bericht Nr. 8, Juli 1986. 

Gallmann, Peter (1990): Kategoriell komplexe Wortformen. Das Zusammenwirken von Morphologie 

und Syntax bei der Flexion von Nomen und Adjektiv. Tübingen: Niemeyer. 

Gazdar, Gerald; Klein, E.; Pullum, G.K.; Sag, I. (1985): Generalized Phrase Structure Grammar. 

Oxford: Basil Blackwell. 

Gazdar, Gerald (1985): »Review Article: Finite State Morphology«. Linguistics 23 (1985), S. 

597-607. 

Gerdemann, Dale (1994): »Complement Inheritance as Subcategorization Inheritance«. In: 

Nerbonne, John; Netter, K.; Pollard, C. (Hrsg.): German in Head-Driven Phrase Structure 

Grammar, 1994, CSLI, S. 341-363. 

Gerdemann, Dale; Götz, T.; Griffith, J.; Kesper, S.; Morawietz, F. (1995): Troll Manual. 

Seminar für Sprachwissenschaft, Universität Tübingen. 

Handwerker, B. (1985): »Review of Fanselow (1981)«. Beiträge zur Geschichte Der Deutschen 

Sprache und Literatur 107, S. 114-117. 

181


Heilmann, Axel (1991): Argumentstruktur. Arbeitspapiere des SFB 340: "Sprachtheoretische 

Grundlagen der Computerlinguistik", Nr.15. 

Heinz, Wolfgang; Matiasek, Johannes (1994): »Argument Structure and Case Assignment in 

German«. In: Nerbonne, John; Netter, K.; Pollard, C. (Hrsg.): German in Head-Driven 

Phrase Structure Grammar, 1994, CSLI, S. 199-236 

Hockett, Charles F. (1954): »Two Models of Grammatical Description«. Word 10 (1954), S. 

210-234. 

Höhle, Tilmann (1982): »Über Komposition und Derivation: zur Konstituentenstruktur von 

Wortbildungsprodukten im Deutschen«. Zeitschrift für Sprachwissenschaft 1 (1982), S. 

76-112. 

Hoeppner, Wolfgang (1980): Derivative Wortbildung der deutschen Gegenwartssprache und ihre 

algorithmische Analyse. Tübingen: Narr. 

Holl, Alfred (1988): Romanische Verbalmorphologie und relationentheoretische mathematische 

Linguistik. Tübingen: Niemeyer. 

Hopcroft, John E.; Ullman, J.D. (1979): Introduction to Automata Theory, Languages and 

Computation. Reading, Mass.: Addison-Wesley. 

Jackendoff, Ray (1975): »Morphological and Semantic Regularities in the Lexicon«. Language 

Vol. 51, No. 3 (1975), S. 639-671. 

Johnson, Mark (1988): Attribute-Value Logic and the Theory of Grammar. Stanford: CSLI. 

Johnson, Mark (1994): »Two Ways of Formalizing Grammars«. Linguistics and Philosophy 17, 

1994, S. 221-248. 

Karlsson, Fred (1986): »A Paradigm-Based Morphological Analyzer«. In: Karlsson, F. (Hrsg.): 

Papers from the Fifth Scandinavian Conference of Computational Linguistics. Helsinki, Dez. 

1985, S.95-112. 

Karttunen, Lauri; Kaplan, Ronald M.; Zaenen, Annie (1992): »Two-Level-Morphology with 

Composition«. Proc. of COLING-92, S. 141-148. 

Kasper, R.; Rounds, W. (1986): »A Logical Semantics for Feature Structures«. Proc. ACL 1986, 

S. 257-266. 

Kay, Martin (1977): »Morphological and Syntactic Analysis«.In: Zampolli, A. (Hrsg.): 

Linguistic Structures Processing (1977), S. 131-234. 

Kay, Martin (1980): »Algorithm Schemata and Data Structures in Syntactic Processing«. In: 

Grosz, Barbara J.; Sparck Jones, Karen; Webber, Bonnie Lynn (Hrsg.): Readings in Natural 

Language Processing, 1986, Los Altos: Morgan Kaufmann, S. 35-70. 

Kay, Martin (1982): »When Meta-Rules are not Meta-Rules«. In: Sparck-Jones, K; Wilks, Y. 

(Hrsg.): Automatic Natural Language Processing. 

182


Kaplan, Ronald M.; Kay, Martin; (1994): »Regular Models of Phonological Rule Systems«. 

Computational Linguistics (1994), S. 331-379. 

Karttunen, Lauri (1984): »Features and Values«. In: Proceedings of COLING 84, S. 28-33. 

Knuth, Donald E. (1973): The Art of Computer Programming. Volume 3: Searching and Sorting. 

Reading, Mass.: Addison-Wesley. 

König, Esther (1996): Introduction to Categorial Grammars. Manuskript, Institut für 

maschinelle Sprachverarbeitung, Universität Stuttgart. 

König, Esther (1998): A CUF Tutorial. Manuskript, Institut für maschinelle 

Sprachverarbeitung, Universität Stuttgart. 

Konrad, Karsten (1995): The CLIG Grapher for Linguistic Data Structures. Unveröffentl. 

Manuskript, Universität des Saarlandes, Saarbrücken. 

Konrad, Karsten (1997): Extending CLIG: Interaction and User Defined Graphics. Unveröffentl. 

Manuskript, Universität des Saarlandes, Saarbrücken. 

Koskenniemi, Kimmo; Church, Kenneth W. (1988): »Complexity, Two-Level Morphology 

and Finnish.« Proc. of COLING-88, S. 335-339. 

Koskenniemi, Kimmo (1984): »A General Computational Model for Word-Form Recognition 

and Production«. Proc. of COLING-84, S. 178-181. 

Koskenniemi, Kimmo (1986): »Compilation of Automata from Morphological Two-Level 

Rules.« Papers from the 5th Scandinavian Conference on Computational Linguistics 

(Universität Helsinki), 1986. 

Krieger, Hans-Ulrich (1994): »Derivation without Lexical Rules«. In: Rupp, C.J.; Rosner, 

M.A.; Johnson, R.L. (Hrsg): Constraints, Language and Computation. 1994, Academic 

Press, S. 277-313. 

Krieger, Hans-Ulrich; Nerbonne, J.; Pirker, H. (1993): Feature-Based Allomorphy. Research 

Report 93-28, Deutsches Forschungszentrum für Künstliche Intelligenz. 

Lieber, Rochelle (1980): The Organization of the Lexicon. PhD Dissertation, MIT. 

Link, Godehard (1991): »Plural«. In: Wunderlich, D. und von Stechow, A. (Hrsg.): Handbook 

of Semantics. Berlin: de Gruyter. 

Lühr, Rosemarie (1986): Neuhochdeutsch. München: Fink. 

Meyer, Ralf (1993): Compound Comprehension in Isolation and in Context. The Contribution of 

Conceptual and Discourse Knowledge to the Comprehension of German Novel Noun-Noun 

Compounds. Tübingen: Niemeyer. 

Moortgat, Michael (1986): »Compositionality and the Syntax of Words«. In: Groenendijk, 

Jereon; de Jongh, Dick; Stokhof, Martin (Hrsg.): Foundations of Pragmatics and Lexical 

Semantics, Dordrecht: Foris, S. 41-62. 

183


Naumann, Sven; Langer, H. (1994): Parsing. Stuttgart: Teubner. 

Olsen, Susan (1986): Wortbildung im Deutschen. Stuttgart: Kröner. 

Olsen, Susan (1990): »Zur Suffigierung und Präfigierung im verbalen Bereich des 

Deutschen«. Papiere zur Linguistik Nr. 42 (Heft 1/1990). 

Olsen, Susan (1991): »Empty Heads as the Source of Category Change in Word Structures«. 

Papiere zur Linguistik 44/45, Heft 1/2 (1991) S. 109-130 

Olsen, Susan (1994): Theoretische Schwerpunkte in der Morphologie. Vorlesungsskript, 

Universität Stuttgart, Sommersemester 1994. 

Paulus, Dietrich (1986): Ein Programmpaket zur morphologischen Analyse. Informatik- 

Diplomarbeit (1986), Universität Erlangen-Nürnberg. 

Pollard, Carl; Sag, I.A. (1987): Information-based Syntax and Semantics. Chicago: CSLI. 

Pustejovsky, James (1991): »The Generative Lexicon«. Computational Linguistics 17 (4), 1991, 

S. 409-441. 

Pustejovsky, James (1991): »The Syntax of Event Structure«. Cognition 41 (1991), S. 47-81. 

Pustejovsky, James (Hrsg.) (1993): Semantics and the Lexicon. Dordrecht: Kluwer. 

Pustejovsky, James (1993): »Type Coercion and Lexical Selection«. In: Pustejovsky, J. (Hrsg.): 

Semantics and The Lexicon. 

Pustejovsky, James (1995): The Generative Lexicon. Cambridge, Mass.: MIT Press. 

Reape, M.; Thompson, H. (1988): »Parallel Intersection and Serial Composition of Finite 

State Transducers«. Proc. of COLING-88, S.535-539. 

Reimer, Ulrich (1991): Einführung in die Wissensrepräsentation. Stuttgart: Teubner. 

Reis, Marga (1983): »Gegen die Kompositionstheorie der Affigierung«. Zeitschrift für 

Sprachwissenschaft 2,1 (1983), S.110-131. 

Riehemann, Susanne (1994): Morphology and the Hierarchical Lexicon. Manuskript, Stanford 

University. 

Ritchie, Graeme D.; Russell, G. J.; Black, A. W.; Pulman, S. G. (1992): Computational 

Morphology: Practical Mechanisms for the English Lexicon. Cambridge, Mass.: MIT Press. 

Roche, Emmanuel; Schabes, Yves (1997, Hrsg.): Finite-State Language Procressing. 

Cambridge, Mass.: MIT Press. 

Rounds, William C.; Kapser, R. (1986): »A Complete Logical Calculus for Record Structures 

Representing Linguistic Information«. 

Scalise, Sergio: (1988a): »Inflection and Derivation«. Linguistics 26 (1988). 

184


Scalise, Sergio: (1988b): »The Notion of 'Head' in Morphology«. In: Booij, G.; van Marle, J. 

(Hrsg.): Yearbook of Morphology. Foris, Dordrecht, S: 229-246. 

Schiller, Anne; Steffens, P. (1991): »Morphological Processing in the Two-Level-Paradigm«. 

In: O.Herzog, C.-R.Rollinger (Hrsg.): Text Understanding in LILOG. Berlin: Springer, 

S.122-126. 

Schöning, Uwe (1989): Logik für Informatiker. Mannheim: BI Wissenschaftsverlag. 

Selkirk, Elisabeth O. (1982): The Syntax of Words. Cambridge, Mass.: MIT Press. 

Shieber, Stuart M. (1985): »Criteria for Designing Computer Facilities for Linguistic 

Analysis«. Linguistics 23. S. 189-211. 

Shieber, Stuart M. (1985a): »Using Restrictions to Extend Parsing Algorithms for Complex- 

Feature-Based Formalisms«. In : Proceedings of the 23th Annual Meeting of the 

Association for Computational Linguistics, S. 145-152. 

Shieber, Stuart M. (1986a): »The Design of a Computer Language for Linguistic 

Information«. Proc. COLING 1986, S. 211-215. 

Shieber, Stuart M. (1986): Introduction to Unification-based Grammar Formalisms. Chicago: 

CSLI. 

Spencer, Andrew (1991): Morphological Theory. Oxford: Blackwell. 

Smolka, Gerd (1992): »Feature Constraint Logics for Unification Grammars«. Journal of Logic 

Programming, vol. 12, S. 51-87. 

Thurmair, G. (1986a): »Ein morphologisches Prozessorfragment zur Erzeugung von 

Grundformen mithilfe von Lernverfahren«. In: Schwarz, C.; Thurmair, G. (Hrsg.): 

Informationslinguistische Texterschließung. Olms, Hildesheim. S. 8-31 

Thurmair, G. (1986b): »Eine maschinelle morphologische Analyse des Deutschen« . In: 

Schwarz, C.; Thurmair, G. (Hrsg.): Informationslinguistische Texterschließung. Olms, 

Hildesheim, S. 66-107 

Toman, Jindrich (1986): »A (Word-)Syntax for Participles«. Linguistische Berichte 105, S. 367 - 

408. 

Toman, Jindrich ( 2 1987): Wortsyntax: Eine Diskussion ausgewählter Probleme deutscher 

Wortbildung. Tübingen: Niemeyer. 

Tomita, M. (1987): »An Efficient Augemented Context-free Parsing Algorithm«. 

Computational Linguistics 13,1/2, S. 31-46. 

Trost, Harald (1990): »The Application of the Two-Level Morphology to Nonconcatenative 

German Morphology.« Proceedings of COLING-90, S. 371-376. 

Trost, Harald; Buchberger, E. (1981): Lexikon, morphologische Analyse und Synthese im System 

VIE-LANG. Bericht 81-02. Institut für Medizinische Kybernetik, Universität Wien. 

185


Ullman, Jeffrey D. (1988): Principles of Database and Knowledge-Base Systems. Volume I: 

Classical Database Systems. Rockville, Maryland: Computer Science Press. 

Williams, Edwin (1981): »On the notions of ‘lexically related’ and ‘head of a word’«. 

Linguistic Inquiry, 12, S.245-274. 

Wisniewski, E.J./Gentner, D. (1991): „On the Combinatorial Semantics of Noun Pairs: Minor 

and Major Adjustments to Meaning“. In: G.B. Simpson (Hrsg.): Understanding Word 

and Sentence, Elsevier, North-Holland, S. 241-284. 

Wunderlich, Dieter (1987): »An Investigation of Lexical Composition: the Case of German 

be- Verbs«. Linguistics 25 (1987), S. 283 - 332. 

Wunderlich, Dieter (1992): A Minimalist Analysis of German Verb Morphology. Arbeiten des 

SFB 282 »Theorie des Lexikons« Nr.21, Mai 1992. 

Wunderlich, Dieter; Fabri, Ray (1994): Minimalist Morphology: An Approach to Inflection. 

Manuskript, Universität Düsseldorf. 

186

Anhang A: Algorithmen 

Anhang A: Analysealgorithmen 

Dieser Anhang enthält die Algorithmen zur Konstruktion des segmentierenden Automatens. 

A.1 Konstruktion des Segmentierers 

A.1.1 Konstruktion von Übergangs-, failure- und Ausgabefunktion 

Nachfolgend sind die (leicht adaptierten, da teilweise in eine objektorientierte Form gebrachten) 

Originalalgorithmen von Aho/Corasick (1975) aufgeführt. Alle weiteren Algorithmen 

in diesem Anhang machen ebenfalls Gebrauch der objektorientierten 

Notationsweise. 

Algorithmus A.1: Konstruktion der Übergangsfunktion 

Eingabe: Eine Menge von Schlüsselwörtern (Listemen) S = { s1s2 ... sn}. 

Das Alphabet � und der Anfangszustand startstate des Automaten 

Ausgabe Übergangsfunktion g und teilweise berechnete Ausgabefunktion output. 


newstate := startstate 

for i := 1 to n do 

insert(si); 

for all a � � such that g(startstate,a) = fail do 

g(startstate,a) := startstate 

end; 

procedure insert(a1a2 ... ak); 

begin 

state := startstate; 

for i := 1 to k do begin 

if g(state,ak) = fail then begin 

newstate := NewState(); 

g(state,ak) := newstate; 

state := newstate 

end 

else 

state := g(state,ak); 

end; 

output(state) := { a1a2 ... ak } 

end; 

Algorithmus A.1: Konstruktion der Übergangsfunktion (nach Aho/Corasick (1975:336)) 

Algorithmus A.1 erhält eine Menge von Zeichenketten und fügt diese der Reihe nach ein. 

Anschließend wird für alle Alphabetsymbole, für die es vom Startzustand keinen Übergang 

in einen anderen Zustand gibt, ein Übergang zurück zum Startzustand eingefügt. Diese 

Schleifen stellen sicher, daß der Automat bei jedem Zustandswechsel ein Eingabesymbol 

187


konsumiert und sind darüber hinaus dafür zuständig, unbekannte Teile in der Eingabekette 

zu überspringen. 

Zum Einfügen einzelner Zeichenketten dient die Prozedur insert. Ausgehend vom Startzustand 

des Automaten wird in jedem aktuellen Zustand geprüft, ob es für das gerade betrachtete 

Eingabesymbol einen Übergang in einen anderen Zustand gibt. Ist dies der Fall, so 

wechselt der Automat in diesen Zustand, andernfalls wird mit Hilfe der Funktion NewState 

ein neuer, bisher noch nicht existierender Zustand erzeugt und die Übergangsfunktion um 

einen Übergang in diesen Zustand erweitert. Für den nach Abarbeitung der Eingabekette 

erreichten Zustand wird in der Ausgabefunktion output diese Eingabekette eingetragen. 

Algorithmus A.2: Konstruktion der failure-Funktion 

Eingabe: Übergangsfunktion g und Ausgabefunktion output aus Algorithmus A.1. 

Das Alphabet � und der Anfangszustand startstate des Automaten 

Ausgabe: failure-Funktion failure und die vervollständigte Ausgabefunktion output. 


queue := Queue.new; 

for each a � � such that g(startstate,a) = s � startstate do begin 

queue.enqueue(s); 

failure(s) := startstate 

end; 

while queue.nonempty do begin 

r := queue.dequeue; 

for each a � � such that g(r,a) = s � fail do begin 

queue.enqueue(s); 

state := failure(r); 

while g(state,a) = fail do 

state := failure(state); 

failure(s) := g(state,a); 

output(s) := output(s) � output(failure(s)) 

end 

end; 

end; 

Algorithmus A.2: Konstruktion der failure- und Ausgabefunktion (nach Aho/Corasick (1975:336)) 

Zur Zwischenspeicherung von noch nicht bearbeiteten Zuständen wird eine Queue (Last-In- 

Last-Out-Struktur) verwendet, die mit den Zuständen initialisiert wird, die vom Startzustand 

des Automaten durch einen Übergang erreichbar sind und die nicht identisch mit dem 

Startzustand selbst sind. Als Funktionswert der failure-Funktion wird für jeden dieser Zustände 

der Startzustand eingetragen, da, falls ein Übergang für irgendein Symbol in einem 

dieser Zustände nicht definiert ist, der Zustand, in dem die Analyse fortgesetzt werden 

kann, eben der Startzustand ist. 

Eine anschließende while-Schleife verarbeitet nun die Queue solange, bis sie leer wird. 

Hierzu wird ein Zustand r am Kopf der Queue entnommen und alle Zustände s, die von r 

erreicht werden können, in die Queue aufgenommen. Für diese wird der Wert der failure- 

Funktion aufgrund der failure-Funktionswerte der bereits verarbeiteten Zustände berechnet. 

188


A.1.2 Umwandlung des parallelen Pattern-Matchers in einen DEA 

Algorithmus A.3 formalisiert die Umwandlung eines parallelen Pattern-Matchers, wie ihn 

Algorithmus A.1 erzeugt, in einen deterministischen endlichen Automaten (DEA). 

Algorithmus A.3: Determinisierung eines parallelen Pattern-Matchers 

Eingabe: goto- und failure-Funktion eines Pattern-Matchers 

Ausgabe: Der Pattern-Matcher als deterministischer endlicher Automat 


queue := Queue.emptyQueue 

for each a � � do begin 

�(startstate,a) := goto(startstate,a) 

if goto(startstate,a) � startstate then 

queue.enqueue(g(startstate,a)) 

end; 

end 

while queue � empty do begin 

r := queue.dequeue; 

for each a � � do 

if s = g(r,a) � fail then begin 

queue.enqueue(s) 

delta(r,a) := s 

end else 

delta(r,a) := delta(failure(r),a) 

end 

Algorithmus A.3: Konstruktion der failure- und Ausgabefunktion (nach Aho/Corasick (1975:336)) 

189

Anhang B: Typenhierarchie und Merkmalseinführung 


Allgemeines 

Der allgemeinste Typ > (top) wird unterteilt in afs (atomic feature structure) und cfs (complex 

feature structure); nur cfs und seine Subtypen können Merkmale haben. 

Listen sind entweder leer (elist) oder nicht leer (nelist); im letzten Fall haben sie Merkmale 

für Listenkopf und Listenrest. Strings sind Zeichenketten in doppelten Anführungszeichen. 

> � afs | cfs 

string � afs 

list � elist | nelist 

nelist :: ´F´: top � ´R´: list 

Morphologische Hierarchie 

morph_or_syn_object � cfs 

morph_or_syn_object � morph_object | sign 

morph_or_syn_object :: GRAPH: list(letter) � SYN: syntax � SEM: semantics 

morph_object � simple_or _complex_stem | linking_morph | pre_syntactic_atom | affix 

morph_object :: MORPH: morph 

sign � syntactic_atom | phrase 

simple_or _complex_stem � simple_stem | complex_stem 

simple_or _complex_stem :: STRUCTURE: list(morph_object) 

affix � prefix | suffix 

suffix � infl_affix | derivative 

simple_stem � unknown_stem 

form_t � suffix � prefix � simple_stem 

form_t :: FORM: string 

Hierarchie unter SYN: 

syntax :: HEAD: head � ARGSTR: argstr 

head � nominal | verbal | preposition 

head :: CAT: cat 

nominal � noun | adjective | pronoun | determiner 

nominal :: CASE: case � GENDER: gender 

adjective ::DEGREE: degree � DECL: decl � PRED: boolean 

verb � verbal 

verb � verb_infl_or_imp | verb_infinitive 

verb_infl_or_imp � verb_infl | verb_imp 

verb_infinitive � verb_part | verb_inf_base 

verb_inf_base � verb_inf | verb_zuinf 

verb_part � verb_partI | verb_partII 

190

verb_infl_or_imp :: MOOD: mood 

verb_infl :: TENSE: tense 


preposition :: PFORM: afs_ymbol � DP_CASE: case 

num_t � verb_infl_or_imp � nominal 

num_t :: NUM: num 

pers_t � verb_infl � nominal 

pers_t :: PERS: pers 

cat � n | v | a | p |adv | d | pn 

case � syntactic_case � morphological_case 

morphological_case � nom � gen � dat � acc 

syntactic_case � lex_case � struc_case 

lgen � gen � lex_case 

ldat � dat � lex_case 

lacc � acc � lex_case 

snom � nom � struc_case 

sgen � gen � struc_case 

sacc � acc � struc_case 

pers � first | second | third 

num � sg | pl 

tense � pres | pret 

mood � ind | subjI | subjII | imp 

gender � masc | fem | neut 

decl � strong | weak | mixed 

degree � pos | comp | sup 

Hierarchie unter SYN:AGRSTR: 

argstr � verbal_argstr | nominal_argstr 

argstr :: 

DEFARGS: list(morph_or_syn_object) � 

ADJUNCTS: list(morph_or_syn_object) � 

ARGSTR_ORDER: list(morph_or_syn_object) 


SUBJ: morph_or_syn_object_or_elist � 

DIR_OBJ: morph_or_syn_object_or_elist � 

INDIR_OBJ: morph_or_syn_object_or_elist � 

PREP_OBJ: morph_or_syn_object_or_elist � 

SENT_COMPL: morph_or_syn_object_or_elist � 

nominal_argstr � noun_argstr | adj_argstr 

nominal_argstr :: RELARG: morph_or_syn_object_or_elist 

adj_argstr :: INTARG: morph_or_syn_object_or_elist 

morph_or_syn_object_or_elist � sign | elist 

191

Hierarchie unter MORPH: 


morph :: MHEAD: mhead � MFEAT: mfeat � MSUBCAT: morph_subcat 

noun_mhead � mhead 

mhead :: LATINATE: boolean 

noun_mhead :: DECL_CLASS: decl_class 

morph_object_or_elist � morph_object | elist 

mfeat :: 

COMPLEX: boolean � % ist die Form komplex? 

COMPLETE: boolean � % ist die Form flektionsmäßig vollständig ? 

UMLAUT: boolean � % kann der Grundvokal umgelautet werden? 

DER: boolean � % kann die Form für die Derivation verwendet werden? 

CMP: boolean � % kann die Form für die Komposition verwendet werden? 

verb_mfeat � mfeat 

verb_mfeat :: 

SEP_VERB: boolean � % handelt es sich um ein Partikelverb? 

V_PARTICLE: afs_symbol % wenn ja, dann enthält dieses Merkmal den Partikel 

affix_subcat � morph_subcat 


Hierarchie unter SEM: 

semantics � nominal_semantics | verbal_semantics 

semantics :: CONTENT: content 

nominal_semantics :: REFARG: simple_or_dotted_type 

verbal_semantics :: EXTARG: simple_type 

content � lexical_content | operator_content 

lexical_content :: EVENTSTR: eventstr 

simple_or_dotted_type � simple_type | dotted_type 

simple_type � countable | uncountable 

simple_type :: TYPE: entity 

countable � individual | group 

countable :: IS_GROUP: boolean 

group :: GROUP_OF: countable 

dotted_type :: TYPES: list � TYPE_REL: list 

content � lexical_content | operator_content 

one_place_operator_struct � operator_content 

operator_content :: OPERATOR: operator 

one_place_operator_struct :: SCOPE: content 

operator � one_place_operator | two_place_operator 

one_place_operator � op_modality | op_negation | op_abstraction |op_identity 

192


op_modality � op_possibility | op_necessity 

event � activity | state 

eventstr � activity_eventstr � state_eventstr 

activity_eventstr :: EVENT: activity 

state_eventstr :: STATE: state 

transition_eventstr � activity_eventstr � state_eventstr 

transition_eventstr � achievement | accomplishment 

transition_eventstr :: EVENTRESTR: eventrestr � EVENTHEAD: event 

Konzepthierarchie unter TYPE: 

entity � physical_entity | abstract_entity 

physical_entity � animate_ind | inanimate_ind 

animate_ind � human | nonhuman 

nonhuman � animal | plant 

inanimate_ind � matter | physical_obj 

matter � solid_state | liquid 

solid_state � metal | stone | china | paper | glass 

liquid � water | oil 

physical_obj � book | musical_instrument | tool | food | place 

tool � knife | cup | blade 

food � bread | cake 

place � building | room 

factory � building 

abstract_entity � temporal | nontemporal 

event � temporal 

activity � event 

nontemporal � abstract_obj | abstract_nonobj 

abstract_obj � institution 

abstract_nonobj � information | property | relation | collection 

text � information 

state � relation 

Diverses 

role ::ROLE: thetarole � SEL_RESTR: simple_or_dotted_type 

thetarole � agent | patient | theme | instrument | experiencer | goal | source | location | 

beneficiary | dont_know 

agent � exhibiter | producer | worker | lender 

theme � exhibited | produced | lended_thing 

dont_know � substratum | organisation 

relation_or_elist � relation | elist 

relation ::RELCONST: afs_symbol � RELARGS: list 

accessible_relation :: ACCESSIBLE_ARGS: list 

event :: EVENT_TYPE: afs_symbol � ROLES: list � ACCESSIBLE_ROLES: list 

193

Anhang C: Programmcode 


Anhang C enthält die Programmtexte der Analyseautomaten und der morphologischen 

Grammatik. In C.1 ist der Segmentierer dokumentiert, in C.2 der unifikationsbasierte Chart- 

Parser. 

C.3 gibt die CUF-Implementierung der morphologischen Grammatik wieder. 

C.1 Der Segmentierer 

/********************************************************************************************************************************* 

File: segment.pl 

Language: Sicstus Prolog 3.5 

Author: Thomas Hanneforth, University of Potsdam, Germany 

Date: Feb. 98 

Desc.: implements the segmenting automation 

*********************************************************************************************************************************/ 

:- ensure_loaded([library(lists)]). 

:- [utils]. 

:- [automat]. % Alphabet and start state of the segmentizer 

/********************************************************************************************************************************* 

parse_word(Word:,Structures:) 

Top level predicate of the word parser; calls predicates init_chart/0, shift/1 in 

wordchart.pl 

Use word_segmentation/2 if you are only interested in the known 

segments of Word 

*********************************************************************************************************************************/ 

parse_word(Word,Structures) :- 

init_chart, 


atom_to_atomlist(Word,Symbollist), 

startstate(StartState), 

% shift the found segments into the chart 

insert_segments_into_chart(Symbollist,StartState,1,Word), 

% check whether it's necessary to insert "unknown"-segments 

% after the last lexical segment 

complete_chart(Word), 

startcat(Startcat), 

length(Symbollist,Wordlength), 

% find all edges spanning the whole word 

generate_structures(Startcat,Wordlength,Structures). 

194


/********************************************************************************************************************************* 

insert_segments_into_chart(Symbollist:, 

State:,Pos:,Word:): 

Segmentizes the word given in Symbollist into the known segments 

(determined by the lexicon) and inserts them via shift/3 into the chart. 

*********************************************************************************************************************************/ 

insert_segments_into_chart([],_State,_Index,_Word). 

insert_segments_into_chart([Letter|Restletters],State,I,Word) :- 

non_failure_state(State,Letter,NonFailState), 

transition(NonFailState,Letter,NewState), 

output(NewState,WordList), 

(WordList = [] -> % is the output function defined ? 

true 

; 

% yes, so convert the items in output into segments 

( word_to_segment_conversion(WordList,I,Segments), 

shift_all(Segments,Word) % insert all segments into the chart 

) 

), 

J is I + 1, 

insert_segments_into_chart(Restletters,NewState,J,Word). 

/********************************************************************************************************************************* 

shift_all(Segment:, Word:) 

inserts all segments into the chart; Word is the word to be analyzed 

*********************************************************************************************************************************/ 

shift_all([],_Word). 

shift_all([Segment|Segments],Word) :- 

shift(Segment,Word), 

(morphdebug(on) -> 

( write('Inserted segment:'), write(Segment), nl, nl, 

complete_edges, nl, 

incomplete_edges, nl, 

get0(_) 

) 

; 

true 

), 

shift_all(Segments,Word). 

/********************************************************************************************************************************* 

word_segmentation(Atomlist:,Segments:) 

Standalone predicate 

segmentizes Word into Segments 

e.g. 'rechnest' becomes (with suitable lexicon entries): [seg(1,rechn,5),seg(6,st,8)] 

*********************************************************************************************************************************/ 

word_segmentation(Word,Segments) :- 


atom_to_atomlist(Word,Symbollist), 


word_segmentation(Symbollist,StartState,1,[],ReverseSegments), 

% reverse the segment list 

reverse(ReverseSegments,Segments). 

195


/********************************************************************************************************************************* 

word_segmentation(Atomlist:,Startstate:, 

Index:,Segments:) 

*********************************************************************************************************************************/ 

word_segmentation([],_State,_Index,Seg,Seg). 

word_segmentation([Letter|Rest],State,I,SegsSoFar0,Segments) :- 

non_failure_state(State,Letter,NonFailState), 

transition(NonFailState,Letter,NewState), 

output(NewState,WordList), 

(WordList = [] -> % is the output function defined ? 

SegsSoFar1 = SegsSoFar0 

; 

% yes, so convert the items in output into segments 

( word_to_segment_conversion(WordList,I,NewSegments), 

append(NewSegments,SegsSoFar0,SegsSoFar1) 

) 

), 

J is I + 1, 

word_segmentation(Rest,NewState,J,SegsSoFar1,Segments). 

/********************************************************************************************************************************* 

non_failure_state(State:,Letter:,NonFailState:) 

NonFailState = State if there is transition from State with Letter 

*********************************************************************************************************************************/ 

non_failure_state(State,Letter,State) :- 

transition(State,Letter,NewState), 

NewState \== fail, 

!. 

non_failure_state(State0,Letter,State) :- 

transition(State0,Letter,fail), % no transition 

f(State0,State1), % failure function 

non_failure_state(State1,Letter,State). 

/********************************************************************************************************************************* 

transition(State1:,Char:,State2:): 

State2 is the state which is reachable from State1 with Char. 

if there isn't a transition then State2 = fail 

*********************************************************************************************************************************/ 

transition(State1,AlphabetSymbol,fail) :- 

\+ tr(State1,AlphabetSymbol,_), 

!. 

transition(State1,AlphabetSymbol,State2) :- 

tr(State1,AlphabetSymbol,State2). 

/********************************************************************************************************************************* 

output(State:,WordList:): 

Returns a list of morphs if the analysers output function is defined, 

otherwise the empty list. 

*********************************************************************************************************************************/ 

output(State,Wordlist) :- 

(o(State,Wordlist) -> 

true 

; 

Wordlist = []). % function undefined 

196


/********************************************************************************************************************************* 

File: automat.pl 

Description: Definition of the alphabet and the start state of the segmentizer 

Date: March 98 

/********************************************************************************************************************************* 

startstate(s0). 

/********************************************************************************************************************************* 

automation_alphabet(Alphabet:): 

Defines the alphabet of the segmentizer 

*********************************************************************************************************************************/ 

automation_alphabet([a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z,'-','ä','ö','ü','ß']). 

/********************************************************************************************************************************* 

File: gen_segment.pl 

Language: Sicstus Prolog 3.5 

Author: Thomas Hanneforth, University of Potsdam, Germany 

Date: Feb. 98 

Desc.: Creates the segmenting automation 

The main predicate is create_automation/0 which compiles a 

pattern matching machine (see Aho/Corasick (1975) for details) 

out of the lexicon entries 

*********************************************************************************************************************************/ 

:- dynamic 

tr/3, % transition function entry 

f/2, % failure function entry 

o/2. % output function entry 

:- unknown(_,fail). 

:- ensure_loaded([library(lists)]). 

:- [queues,sicsutls]. % Sicstus 

:- [automat]. % Alphabet of the automation 

:- [os_spec]. % Operating system specific stuff 

/********************************************************************************************************************************* 

create_automation/0: 

top level predicate for the compiler 

*********************************************************************************************************************************/ 

create_automation :- 

nl, write('% Compiling segmentizer ...'), nl, 

clear_db, 

process_lex_entries, 

startstate_completition, 

construct_failure_function, 

% for reasons of efficiency this is done after all words are processed. 

write_automation, 

segmentizer_information(States,Transitions,Finalstates), 

write('% Morph segmentizer created and saved.'), nl, 

format("% ~d states, ~d transitions, ~d final states.", [States,Transitions,Finalstates]), 

nl, nl. 

/********************************************************************************************************************************* 

clear_db /0: 

Removes all dynamic predicate clauses 

*********************************************************************************************************************************/ 

clear_db :- 

abolish(tr/3), 

abolish(f/2), 

abolish(o/2). 

197


/********************************************************************************************************************************* 

process_lex_entries/0: 

Adds all lexicon entries to the automation and constructs 

the failure function afterwards 

*********************************************************************************************************************************/ 

process_lex_entries :- 

(--->(Word,_Desc)), % extract lexicon entry 

\+ (Word = unknown(_W)), % special entry 'unknown' isn't inserted 

add_to_automation(Word), % insert Word into the automation 

fail. 

process_lex_entries. 

/********************************************************************************************************************************* 

startstate_completition/0: 

adds a transition for all symbols from startstate to startstate for 

which no transition is defined yet 

*********************************************************************************************************************************/ 

startstate_completition :- 

automation_alphabet(Alphabet), 

startstate(Start), 

add_start_transitions(Alphabet,Start). 

add_start_transitions([],_Start). 

add_start_transitions([AlphabetSymbol|RestAlphabet],Start) :- 

transition(Start,AlphabetSymbol,State), 

((State = fail) -> 

add_transition(Start,AlphabetSymbol,Start) 

; 

true % a transition is already there, so do nothing 

), 

add_start_transitions(RestAlphabet,Start). 

/********************************************************************************************************************************* 

construct_failure_function/0: 

constructs the failure function of the segmentizer. 

*********************************************************************************************************************************/ 

construct_failure_function :- 

automation_alphabet(Alphabet), 

startstate(Start), 

make_queue(Queue), 

% initialize the queue 

queue_startstates(Alphabet,Start,Queue,NewQueue), 

process_queue(NewQueue,Alphabet). 

/********************************************************************************************************************************* 

queue_startstates(Alphabet:,Start:,Queue1,Queue2): 

Adds all states to Queue for which there are transitions to a state not equal 

to Start 

*********************************************************************************************************************************/ 

queue_startstates([],_Start,Queue,Queue). 

queue_startstates([AlphabetSymbol|RestAlphabet],Start,Queue0,Queue) :- 

transition(Start,AlphabetSymbol,NewState), % should never fail 

((NewState = Start) -> 

Queue1 = Queue0 

; 

( enqueue(NewState,Queue0,Queue1), 

assert(f(NewState,Start)) 

)), 

queue_startstates(RestAlphabet,Start,Queue1,Queue). 

198


process_queue(Queue,_Alphabet) :- 

empty_queue(Queue), 

!. 

process_queue(Queue,Alphabet) :- 

dequeue(Queue,State,Queue1), % dequeue new state 

process_alphabet(Alphabet,State,Queue1,Queue2), 

process_queue(Queue2,Alphabet). 

/********************************************************************************************************************************* 

process_alphabet(Alphabet,State,Queue1,Queue) :- 

Process all alphabet symbols relative to the recently dequeued 

state State 

State = R; NewState = S 

*********************************************************************************************************************************/ 

process_alphabet([],_State,Queue,Queue). 

process_alphabet([Sym|RestAlphabet],R,Queue1,Queue) :- 

transition(R,Sym,S), 

((S = fail) -> % only non-fail states are processed 

( Queue2 = Queue1 ) % do nothing 

; 

( enqueue(S,Queue1,Queue2), % enqueue state S 

f(R,State), % State = failure(R) 

non_failure_state(State,Sym,NonFailState), 

transition(NonFailState,Sym,State1), 

assert(f(S,State1)), 

output(State1,Wordlist), 

(Wordlist = [] -> % function undefined? 

true % yes -> do nothing 

; 

(output(S,OldWordlist), 

(OldWordlist = [] -> % function undefined? 

true % yes -> completely new entry 

; 

retract(o(S,_)) % no -> remove old one 

), 

union(OldWordlist,Wordlist,NewWordlist), 

assert(o(S,NewWordlist)) 

)))), 

process_alphabet(RestAlphabet,R,Queue2,Queue). 

199


/********************************************************************************************************************************* 

write_automation/0: 

extracts the information about transitions, failure and output of the 

database and writes it to three files 

*********************************************************************************************************************************/ 

write_automation :- 

% create transitions file 

filename(morphsegfile,MorphSegFile), 

open(MorphSegFile,write,File), 

write(File,'% Morph segmentizer definition file.'), 

nl(File), 

write(File,'% This is a generated file.'), 

nl(File), nl(File), 

write_transition_func(File), 

% create failure function file 

write_failure_func(File), 

% create output function file 

write_output_func(File), 

close(File). 

write_transition_func(File) :- 

write(File,'% Transition function'), 


transition(State1,Char,State2), 

State2 \== fail, 

write_canonical(File,tr(State1,Char,State2)), 

write(File,.), nl(File), 

fail. 

write_transition_func(_File). 

write_failure_func(File) :- 


write(File,'% Failure function'), 

nl(File), 

f(State1,State2), 

write(File,f(State1,State2)), write(File,.), nl(File), 

fail. 

write_failure_func(_File). 

write_output_func(File) :- 


write(File,'% Output function'), 

nl(File), 

o(State,Wordlist), 

write(File,'o('),write(File,State), 

write(File,',['), 

write_quoted(Wordlist,File), 

write(File,']).'), nl(File), 

fail. 

write_output_func(_File). 

200


/********************************************************************************************************************************* 

write_quoted(List:,Filename:: 

Writes the terms in List into the File "Filename" such that all atoms are quoted 

*********************************************************************************************************************************/ 

write_quoted([],_File) :- 

!. 

write_quoted([Word/Lemma],File) :- 

write(File,''''), write(File,Word), write(File,''''), 

write(File,/), 

write(File,''''), write(File,Lemma), write(File,''''), 

!. 

write_quoted([Word/Lemma|Rest],File) :- 

write(File,''''), write(File,Word), write(File,''''), 

write(File,/), 

write(File,''''), write(File,Lemma), write(File,''''), 

write(File,','), 

write_quoted(Rest,File). 

/********************************************************************************************************************************* 

add_to_automation(Word/Lemma): 

inserts Word into the trie-like transition graph 

*********************************************************************************************************************************/ 

add_to_automation(Word/Lemma) :- 

name(Word,CharList), % convert word to character list 

char_atom_list(CharList,AtomCharList), % convert char list to atoms 


add_to_trie(AtomCharList,Word,Lemma,StartState). 

% insert Word into the trie 

add_to_trie([],Word,Lemma,State) :- 

add_output(State,Word,Lemma). % update output function 

add_to_trie([Char|Chars],Word,Lemma,State) :- 

newstate(State,Char,NewState,Result), 

add_to_trie(Chars,Word,Lemma,NewState). 

/********************************************************************************************************************************* 

newstate(State:,Char:,NewState:,Result:) 

constructs a new transition from State with Char if there isn't alreday one. 

*********************************************************************************************************************************/ 

newstate(State,Char,NewState,old_transition) :- 

transition(State,Char,NewState), % there is already a transition 


!. 

newstate(State,Char,NewState,new_transition) :- 

transition(State,Char,fail), % no transition, 

gensym(s,NewState), % so construct a new state 

add_transition(State,Char,NewState). % and add a new transition 

201


/********************************************************************************************************************************* 

non_failure_state(State,Letter,NonFailState) 

NonFailState = State if there is transition from State with Letter 

*********************************************************************************************************************************/ 

non_failure_state(State,Letter,State) :- 

transition(State,Letter,NewState), 


!. 

non_failure_state(State0,Letter,State) :- 

transition(State0,Letter,fail), % no transition 

f(State0,State1), % failure function 

non_failure_state(State1,Letter,State). 

/********************************************************************************************************************************* 

transition(State1,Char,State2): 

State2 is the state which is reachable from State1 with Char. 

if there isn't a transition then State2 = fail 

*********************************************************************************************************************************/ 

transition(State1,AlphabetSymbol,fail) :- 

\+ tr(State1,AlphabetSymbol,_), 

!. 

transition(State1,AlphabetSymbol,State2) :- 

tr(State1,AlphabetSymbol,State2). 

add_transition(State1,AlphabetSymbol,State2) :- 

assert(tr(State1,AlphabetSymbol,State2)). 

/********************************************************************************************************************************* 

add_output(State:,Word:,Lemma:): 

*********************************************************************************************************************************/ 

add_output(State,Word,Lemma) :- 

(o(State,_) -> % is the output function for State already defined ? 

(retract(o(State,Entries)), % yes: add word to the value of the output function 

union([Word/Lemma],Entries,NewEntries), 

assert(o(State,NewEntries))) 

; 

assert(o(State,[Word/Lemma]))). % no: create a new entry for of the output function 

/********************************************************************************************************************************* 

output(State:,WordList:): 

Returns a list of morphs if the analysers output function is defined, 

otherwise the empty list. 

*********************************************************************************************************************************/ 

output(State,Wordlist) :- 

(o(State,Wordlist) -> true ; Wordlist = []). 

/********************************************************************************************************************************* 

segmentizer_information(States:,Transitions:,Finalstates:): 

Determinines some information about the newly created NDA 

*********************************************************************************************************************************/ 

segmentizer_information(States,Transitions,Finalstates) :- 

findall(*,tr(_,_,_),L1), length(L1,Transitions), 

findall(*,f(_,_),L2), length(L2,States0), 

States is States0 + 1, findall(*,o(_,_),L3), length(L3,Finalstates). 

202

C.2 Der Chart-Parser 


/********************************************************************************************************************************* 

Datei: wordchart.pl 

Beschreibung: Inkrementeller Chartparser für ambige Segmentierungen 

Als Grundlage dient die Implementation von Dörre/Naumann/Langer 

Autor: Thomas Hanneforth 

*********************************************************************************************************************************/ 

:- use_module(library(terms)). % for subsume_chk/2 

:- op(1150,xfx,--->). % Operator für lexikalische Einsetzung 

:- op(1150,xfx,==>). 

:- op(1160,xfx,conditions). 

:- op(1170,fx,rule). 

/********************************************************************************************************************************* 

edge(Start,End,LHS,ClosedRHS,OpenRHS,PartitionPositions,Conditions) 

*********************************************************************************************************************************/ 

:- dynamic edge/7. 

/********************************************************************************************************************************* 

init_chart/0: 

prepares the chart 

*********************************************************************************************************************************/ 

init_chart :- 

clear_chart, 

startcat(StartCat), 

expand(0,StartCat). % expand the start symbol 

clear_chart :- 

retractall(edge(_,_,_,_,_,_,_)). 

/********************************************************************************************************************************* 

shift(Seg:,Word:) 

Inserts Seg into the chart and generate all edges involving this segment 

Word is the word to be analyzed 

*********************************************************************************************************************************/ 

shift(seg(Begin,LexEntry,End),Word) :- 

Begin0 is Begin - 1, 

% check whether is's necessary to insert "unknown" segments 

add_unknown_segments(Begin0,Word), 

% find a lexical insertion rule 

(LexEntry ---> Cat), 

closure(Begin0,End,Cat,[term(LexEntry)],[],[End],true), 

fail. 

shift(_Seg,_Word). 

203


/********************************************************************************************************************************* 

complete_chart(Word:) 

Check whether is's necessary to insert "unknown" segments 

at the end of the chart 

*********************************************************************************************************************************/ 

complete_chart(Word) :- 

atom_length(Word,WordLen), 

add_unknown_segments(WordLen,Word). 

/********************************************************************************************************************************* 

closure(Begin:,End:,Cat:,Closed:, 

Open:,Positions:,Conditions) 

Depending on the active/inactive status the edge is either expanded or 

used to complete other edges 

*********************************************************************************************************************************/ 

closure(Begin,End,Cat,RHS,[],Positions,Conditions) :- % inactive edge 

store(edge(Begin,End,Cat,RHS,[],Positions,Conditions)), 

% try to complete active edges with the inactive one 

complete(Begin,End,Cat). 

closure(Begin,End,Cat,Closed,[Next|Rest],Positions,Conditions) :- % active edge 

store(edge(Begin,End,Cat,Closed,[Next|Rest],Positions,Conditions)), 

expand(End,Next). 

/********************************************************************************************************************************* 

complete(Begin:,End:,CompleteCat:) 

tries to extend active edges waiting for CompleteCat 

*********************************************************************************************************************************/ 

complete(Begin,End,Cat) :- 

edge(Begin0,Begin,LHS,Closed0,[Cat|Open],Positions,Conditions), 

append(Closed0,[Cat],Closed), % move the dot to the right 

append(Positions,[End],NewPositions), 

closure(Begin0,End,LHS,Closed,Open,NewPositions,Conditions), 

fail. 

complete(_Begin,_End,_Cat). 

/********************************************************************************************************************************* 

expand(Position:,LHS:) 

asserts an active edge for every rule starting with LHS 

*********************************************************************************************************************************/ 

expand(Position,LHS) :- 

% find a suitable phrase/word structure rule 

applicable_rule(LHS,RHS,Conditions), 

closure(Position,Position,LHS,[],RHS,[],Conditions), 

fail. 

expand(_Position,_LHS). 

/********************************************************************************************************************************* 

applicable_rule(LHS:,RHS:,Conditions:): 

Looks for a applicable rule 

*********************************************************************************************************************************/ 

applicable_rule(LHS,RHS,Conditions) :- 

(rule (LHS ==> RHS) conditions Conditions). 

/********************************************************************************************************************************* 

store(Edge:) 

Version without subsumptions check 

store(edge(Begin,End,Cat,Closed,Open,Positions)) :- 

\+ edge(Begin,End,Cat,Closed,Open,Positions), 

assert(edge(Begin,End,Cat,Closed,Open,Positions)). 

*********************************************************************************************************************************/ 

204

store(edge(Begin,End,Cat,Closed,Open,Positions,_)) :- 

edge(Begin,End,Cat0,Closed0,Open0,_,_), 

subsumes_chk(Cat0,Cat), 

subsumes_chk(Closed0,Closed), 

subsumes_chk(Open0,Open), 

!, fail. 


% special case: completed edges => test for the conditions 

store(edge(Begin,End,Cat,Closed,[],Positions,Conditions)) :- 

call(Conditions), 

assert(edge(Begin,End,Cat,Closed,[],Positions,Conditions)). 

store(edge(Begin,End,Cat,Closed,Open,Positions,Conditions)) :- 

Open \== [], 

assert(edge(Begin,End,Cat,Closed,Open,Positions,Conditions)). 

/********************************************************************************************************************************* 

Structure generation 

*********************************************************************************************************************************/ 

/********************************************************************************************************************************* 

generate_structure(Cat:,Wordlen:, 

Structures:, 

Collect all structures for the word 

*********************************************************************************************************************************/ 

generate_structures(StartCat,Wordlen,Structures) :- 

findall( desc(FS,Structure), 

generate_structure(0,Wordlen,StartCat,Structure,FS), 

Structures). 

/********************************************************************************************************************************* 

generate_structure(From:,To:,Mother:,Structure:, 

FS:): 

Generate a single structure in the chosen representation format 

*********************************************************************************************************************************/ 

% Case 1: Terminal symbols 

generate_structure(From,To,Mother,Structure,Mother) :- 

edge(From,To,Mother,[term(Word/_Lemma)],[],_Positions,_), 

make_lextree(Mother,Word,Structure). 

% Case 2: Terminal symbols of type unknown 


edge(From,To,Mother,[term(unknown(Unknown))],[],_Positions,_), 

name(Unknown,UnknownList), 

concat(["unknown(",UnknownList,")"],Charlist), 

name(UnknownNode,Charlist), 

make_lextree(Mother,UnknownNode,Structure). 

% Case 3: Nonterminal symbols 


edge(From,To,Mother,Closed,[],Positions,_), 

structure_of_subconstituents(Closed,From,Positions,StructuresList), 

make_pstree(Mother,StructuresList,Structure). 

structure_of_subconstituents([],_From,_Positions,[]). 

structure_of_subconstituents([Cat|RestCats],From,[Pos|RestPos],[Struct|Rest]) :- 

generate_structure(From,Pos,Cat,Struct,_), 

structure_of_subconstituents(RestCats,Pos,RestPos,Rest). 

/********************************************************************************************************************************* 

Different structure building primitives 

*********************************************************************************************************************************/ 

205

* 

% draw notation 

make_lextree(Mother,Word,Structure) :- 

Structure =.. [Mother,Word]. 

make_pstree(Mother,Daughters,Structure) :- 

Structure =.. [Mother|Daughters]. 

*/ 

% wishtree notation I 

%make_lextree(Mother,Word,Mother/[-Word]). 

%make_pstree(Mother,Daughters,Mother/Daughters). 


% wishtree notation II 

make_lextree(Mother,Word,MotherCat/[-Word]) :- 

Mother =.. [MotherCat|_]. 

make_pstree(Mother,Daughters,MotherCat/Daughters) :- 

Mother =.. [MotherCat|_]. 

/* 

% linguistic structures notation 

make_lextree(Mother,Word,[Mother,[Word]]). 

make_pstree(Mother,Daughters,[Mother|Daughters]). 

*/ 

206


/********************************************************************************************************************************* 

Handling of lexical gaps 

*********************************************************************************************************************************/ 

/********************************************************************************************************************************* 

add_unknown_segments(EndPos:,Word:) 

Determines segments of type unknown starting at positions before Endpos 

*********************************************************************************************************************************/ 

add_unknown_segments(EndPos,Word) :- 

unknown_cat(UnknownCat), 

% find all end positions of edges which are less than 

% the start position of the current segment 

find_incomplete_edges(EndPos,UnknownCat,Poslist0), 

% determine the segments which are ignored 

ignore_list(Ignorelist), 

% check whether potential unknown-type segments contain lexical items 

check_candidates(Poslist0,EndPos,Ignorelist,Poslist1), 

% apply heuristics on the unknown-type segments 

apply_heuristics(Poslist1,EndPos,Word,Poslist), 

% finally add all segments which have passed all the tests 

insert_unknown_segments(Poslist,EndPos,UnknownCat,Word). 

/********************************************************************************************************************************* 

check_candidates(PoslistIn:,EndPos:, 

Ignorelist:,PoslistOut:) 

Check whether potential unknown-type segments contain lexical items 

*********************************************************************************************************************************/ 

check_candidates([],_EndPos,_Ignorelist,[]). 

check_candidates([Startpos|Restpos1],EndPos,Ignorelist,Result) :- 

% test 

(lexical_segments_within(Startpos,EndPos,Ignorelist) -> 

Result = Restpos2 

; 

Result = [Startpos|Restpos2] 

), 

check_candidates(Restpos1,EndPos,Ignorelist,Restpos2). 

lexical_segments_within(StartPos,EndPos,Ignorelist) :- 

findall(*, 

(edge(S,E,_,[term(W/L)],[],_,_), 

S >= StartPos, E =< EndPos, 

\+ member(W,Ignorelist)), 

L), 

\+ (L = []). 

/********************************************************************************************************************************* 

apply_heuristics(PoslistIn:,EndPos:,Word:,PoslistOut:): 

This predicate is the right place to impose further, heuristic restrictions 

on the unknown-type segments to be inserted. 

Currently it prevents the insertion of segments with one ore two characters. 

Additional heuristics: 

- Testing the phonetic wellformedness of the candidate segment (with a 2LMA) 

*********************************************************************************************************************************/ 

%apply_heuristics(Poslist,_EndPos,Poslist). 

apply_heuristics([],_EndPos,_Word,[]). 

apply_heuristics([Startpos|Restpos1],EndPos,Word,Result) :- 

(heuristic_tests(Startpos,EndPos,Word) -> 

Result = [Startpos|Restpos2] 

; 

Result = Restpos2 % ignore 

), 

apply_heuristics(Restpos1,EndPos,Word,Restpos2). 

207


/********************************************************************************************************************************* 

heuristic_tests(Startpos,EndPos,Word): 

Currently it prevents the insertion of segments with one ore two characters 

and tests for the phonetic wellformedness of the candidate segment. 

*********************************************************************************************************************************/ 

heuristic_tests(Startpos,EndPos,Word) :- 

length_test(Startpos,EndPos), 

phonetic_wellformedness(Startpos,EndPos,Word). 

length_test(Startpos,EndPos) :- 

% test whether the length of the candidate segment is greater than 2 

EndPos - Startpos > 3. 

phonetic_wellformedness(Startpos,EndPos,Word) :- 

Length is EndPos - Startpos, 

substring(Word,Unknown,Startpos,Length), 

% check candidate segment against the list of syllables 

syllable_check(Unknown). 

********************************************************************************************************************************** 

insert_unknown_segments(Positions:,End:,UnknownCat:,Word:) 

Inserts finally the unknown-type segments by doing a closure on each 

Positions is a list of start positions 

*********************************************************************************************************************************/ 

insert_unknown_segments([],_EndPos,_UnknownCat,_Word). 

insert_unknown_segments([Begin|RestPos],EndPos,UnknownCat,Word) :- 

shift_unknown(Begin,EndPos,UnknownCat,Word), 

insert_unknown_segments(RestPos,EndPos,UnknownCat,Word). 

shift_unknown(Begin,EndPos,UnknownCat,Word) :- 

Length is EndPos - Begin, 

substring(Word,Unknown,Begin,Length), 

closure(Begin,EndPos,UnknownCat,[term(unknown(Unknown))],[],[EndPos],true). 

shift_unknown(_Begin,_EndPos,_UnknownCat,_Word). 

/********************************************************************************************************************************* 

find_incomplete_edges(Begin,UnknownCat,Edgelist) 

 

*********************************************************************************************************************************/ 

find_incomplete_edges(Begin,Unknown_cat,Edgelist) :- 

findall( End, 

(edge(_,End,_,_,[Unknown_cat|_],_,_), End < Begin), 

Edgelist0), 

remove_duplicates(Edgelist0,Edgelist). 

208


C.3 CUF-Programmtext der morphologischen Grammatik 

/*************************************************************************************************************** 

Name: morph.cuf 

Author: Thomas Hanneforth 

Date: July 1998 - August 1999 

Description: CUF-Implementation of the morphological grammar 

To try the examples use "?- run(Number)" where 

Number is one of the arguments of testword at the 

end of this file 

****************************************************************************************************************/ 

control_file(morph). 

/*************************************************************************************************************** 

**************************************************************************************************************** 

Type hierarchy and feature introduction 

**************************************************************************************************************** 

****************************************************************************************************************/ 

/*************************************************************************************************************** 

Morphologial hierarchy 

****************************************************************************************************************/ 

morph_or_syn_object = morph_object | sign. 

morph_or_syn_object :: 

graph: list, 

syn: syn, 

sem: semantics, 

structure: list. 

sign = syntactic_atom | phrase. 

syntactic_atom :: 

constituents: dtr_t. % for debugging only 

morph_object = simple_or_complex_stem | linking_morph | pre_syntactic_atom | affix. 

morph_object :: 

morph: morph. 

pre_syntactic_atom :: dtrs: dtr_t. % for debugging only 

simple_or_complex_stem = simple_stem | complex_stem. 

complex_stem :: 

dtrs: dtr_t. 

affix = prefix | suffix. 

suffix = infl_affix | derivative. 

simple_stem = unknown_stem. 

form_t = suffix ; prefix ; simple_stem. 

form_t :: 

form: string. 

209


/*************************************************************************************************************** 

Syn: hierarchy 

****************************************************************************************************************/ 

syn :: 

head: head, 

argstr: argstr. 

head = nominal | verbal | preposition. 

head :: 

cat: cat. 

preposition :: 

pform: afs_symbol, 

dp_case: case. 

nominal = noun | adjective | pronoun | determiner. 

nominal :: 

case: case, 

gender: gender. 

adjective :: 

degree: degree, 

decl: decl, 

pred: boolean. 

verbal = verb. 

verb = verb_infl_or_imp | verb_infinitive. 

verb_infl_or_imp = verb_infl | verb_imp. 

verb_infinitive = verb_part | verb_inf_base. 

verb_inf_base = verb_inf | verb_zuinf. 

verb_part = verb_partI | verb_partII. 

verb_infl_or_imp :: 

mood: mood. 

verb_infl :: 

tense: tense. 

num_t = verb_infl_or_imp ; nominal. 

num_t :: 

num: num. 

pers_t = verb_infl ; nominal. 

pers_t :: 

pers: pers. 

cat ; pers ; num ; tense ; mood ; gender ; decl ; degree ; boolean ; t_decl_class < cfs. 

cat = n | v | a | p |adv | d | pn. 

%case = nom | gen | dat | acc. % see below 

pers = first | second | third. 

num = sg | pl. 

tense = pres | pret. 

mood = ind | subjI | subjII | imp. 

gender = masc | fem | neut. 

decl = strong | weak | mixed. 

degree = pos | comp | sup. 

boolean = plus | minus. 

t_decl_class = dc_I | dc_II | dc_III | dc_IV | dc_V | dc_VI | dc_all_the_rest. 

210

% Case hierarchy after Heinz/Matiasek 

case < cfs. 

case = syntactic_case ; morphological_case. 

morphological_case = nom ; gen ; dat ; acc. 

syntactic_case = lex_case ; struc_case. 

lgen = gen & lex_case. 

ldat = dat & lex_case. 

lacc = acc & lex_case. 

snom = nom & struc_case. 

sgen = gen & struc_case. 

sacc = acc & struc_case. 

% MORPH morphological features 

morph :: 

mhead: mhead, 

mfeat: mfeat, 

msubcat: morph_subcat. 

% MHEAD contains morphological head features 

mhead = noun_mhead. 

mhead :: 

latinate: boolean, 

complex: boolean. 

noun_mhead :: 

decl_class: decl_class. 


% MFEAT contains morphological nonhead features 

mfeat :: 

complete: boolean, % is the form inflectionally complete? 

umlaut: boolean, % the base vowel can be umlauted 

flex: boolean, % the form can be used for inflection 

der: boolean, % the form can be used for derivation 

cmp: boolean, % the form can be used for composition 

conf: boolean, % the form can be used for confixation 

prefixable_with_ge: boolean, % for verbs: base verb has a prefix or particle 

suffixed: boolean, % the form underwent suffixation 

sep_verb: boolean, % for verbs: is it a particel verb? 

v_particle: afs_symbol. % for verbs: the particle 

decl_class :: 

decl_class_sg: t_decl_class, % noun inflection class singular 

decl_class_pl: t_decl_class. % noun inflection class plural 

% ARGSTR: syntactic subcategorisation 

argstr = verbal_argstr | nominal_argstr. 

argstr :: 

defargs: list, % of morph_or_syn_object 

adjuncts: list, % of morph_or_syn_object 

argstr_order: list. % of morph_or_syn_object 


subj: sign_elist, 

dir_obj: sign_elist, 

indir_obj: sign_elist, 

prep_obj: sign_elist, 

sent_compl: sign_elist. 

nominal_argstr = noun_argstr | adj_argstr. 

211

nominal_argstr :: 

relarg: sign_elist. 

adj_argstr :: 

intarg: sign_elist. 

sign_elist = sign | elist. 

morph_object_or_elist = morph_object | elist. 

morph_subcat = affix_subcat. 

affix_subcat :: 

needs: morph_object_or_elist. 

% tree structure 

dtr_t = unary_branching | binary_branching. 

unary_branching :: dtr: top. 

binary_branching :: ldtr: top, rdtr: top. 


/*************************************************************************************************************** 

Sem: hierarchy 

****************************************************************************************************************/ 

semantics = verbal_semantics | nominal_semantics. 

semantics :: 

content: content. 

nominal_semantics :: 

refarg: simple_or_dotted_type. 

verbal_semantics :: 

extarg: simple_or_dotted_type. 

content < cfs. 

content = lexical_content | operator_content | no_content. 

lexical_content :: 

eventstr: eventstr. 

one_place_operator_struct < operator_content. 

operator_content :: 

operator: operator. 

one_place_operator_struct :: 

scope: content. 

two_place_operator_struct < one_place_operator_struct. 

two_place_operator_struct = causation_struct | conjunct_struct. 

causation_struct :: 

causer: simple_or_dotted_type. 

operator < cfs. 

operator = one_place_operator | two_place_operator. 

one_place_operator = op_modality | op_negation | op_abstraction | op_causation. 

op_modality = op_possibility | op_necessity. 

212

eventstr < cfs. 

eventstr = activity_eventstr ; state_eventstr. 

activity_eventstr :: 

event: activity. 

state_eventstr :: 

state: relation. 

transition_eventstr = activity_eventstr & state_eventstr. 

transition_eventstr = achievement | accomplishment. 

transition_eventstr :: 

eventrestr: eventrestr, 

eventhead: event_or_state. 


%accomplishment = ingressive_accomplishment | egressive_accomplishment. 

event_or_state = event ; state. 

eventrestr < cfs. 

eventrestr = event_overlap | event_ordered_overlap | event_sequence | event_inclusion. 

simple_or_dotted_type = simple_type | dotted_type. 

% Old version of groups 

%simple_type = non_group_type | group. 

%non_group_type = individual | uncountable. 

% New version uses underspecifiaction: groups are subtypes of individuals 

%simple_type = individual | uncountable. 

%simple_type :: 

% type: entity. 

%group < individual. 

%group :: 

% group_of: individual. 

% Yet another (final?) version of groups 

simple_type = countable | uncountable. 

simple_type :: 

type: entity. 

countable = individual | group. 

countable :: 

is_group: boolean. % this is a hack 

group :: 

group_of: countable. 

dotted_type :: 

types: list, % of semantics 

type_rel: list. % of relations 

thetarole < cfs. 

thetarole = agent | patient | theme | instrument | experiencer | 

goal | source | location | beneficiary | dont_know. 

213

agent = exhibiter | producer | worker | lender. 

theme = exhibited | produced | lended_thing. 

dont_know = substratum | organisation. 

relation_or_elist = relation | elist. 

relation :: 

relconst: top, % afs_symbol, 

relargs: list. 

accessible_relation :: 

accessible_args: list. 

role :: 

role: thetarole, 

sel_restr: simple_or_dotted_type. 


/*************************************************************************************************************** 

Conceptual hierarchy 

****************************************************************************************************************/ 

entity < cfs. 

entity = physical_entity | abstract_entity. 

physical_entity = animate_ind | inanimate_ind. 

animate_ind = human | nonhuman. 

nonhuman = animal | plant. 

inanimate_ind = matter | physical_obj. 

matter = solid_state | liquid. 

solid_state = metal | stone | china | paper | glass. 

metal = steel | copper. 

liquid = water | oil. 

physical_obj = book | musical_instrument | tool | food | place. 

tool = knife | cup | blade. 

food = bread | cake. 

place = building | room | area. 

factory < building. 

abstract_entity = temporal | nontemporal. 

event < temporal. 

activity < event. 

nontemporal = abstract_obj | abstract_nonobj. 

abstract_obj = institution. 

abstract_nonobj = proposition | information | property | relation | collection. 

text < information. 

relation = state | accessible_relation. 

/*************************************************************************************************************** 

Features of concepts 

****************************************************************************************************************/ 

entity :: 

subconcepts: list. % of simple_type 

physical_entity :: 

physical_state: physical_state, 

consists_of: list, % of matter 

has_parts: list. % of simple_type 

temporal :: 

takes_place_at: simple_type. 

event :: 

event_type: afs_symbol, 

roles: list, 

accessible_roles: list. 

214

physical_state < cfs. 

physical_state = solid | fluid | gaseous. 

solid = hard | soft. 


/*************************************************************************************************************** 

**************************************************************************************************************** 

Morphological grammar rules 

**************************************************************************************************************** 

****************************************************************************************************************/ 

/*************************************************************************************************************** 

Rule I: morph insertion 

****************************************************************************************************************/ 

cat(Cat, [Graph]) := 

Cat & 

morph(Graph). 

% empty cat 

%cat(linking_morph & Cat, []) := 

% Cat. 

/*************************************************************************************************************** 

Rule VII: Morphology-syntax-interface 

syntactic_atom --> pre_syntactic_atom 

****************************************************************************************************************/ 

cat(syntactic_atom & SA, L) := 

SA & 

true(cat(pre_syntactic_atom, L) & PSA) & 

type_maximal(syn_head(PSA)) & 

syn_head_features([PSA]) & 

true(PSA & morph:mfeat:complete:plus) & 

argument_realisation(PSA) & 

graph: L & 

structure:[PSA]. % for tree construction 

/*************************************************************************************************************** 

Rule V: Stem insertion 

pre_syntactic_atom --> simple_or_complex_stem 

****************************************************************************************************************/ 

cat(pre_syntactic_atom & PSA, L) := 

PSA & 

unified_head_features([Stem]) & 

true(cat(simple_or_complex_stem, L) & Stem) & 

argument_inheritance(Stem) & 

semantics(Stem) & 

dtrs:dtr:Stem & % for debugging only 

graph: L & 

structure:[Stem]. 

/*************************************************************************************************************** 

Rule VI: Inflection 

pre_syntactic_atom --> pre_syntactic_atom infl_affix 

****************************************************************************************************************/ 

cat(pre_syntactic_atom & PSA, L) := 

PSA & 

215


split(L,L1,L2) & 

unified_head_features([PSA1, IA]) & 

true(cat(infl_affix, L2) & IA) & 

true(cat(pre_syntactic_atom, L1) & PSA1) & 

affix_order_constraint(PSA1, IA) & 

argument_inheritance(PSA1) & 

infl_semantics(PSA1, IA) & 

dtrs:(ldtr:PSA1 & rdtr:IA) & % for debugging only 

graph: L & 

structure:[PSA1,IA]. 

/*************************************************************************************************************** 

Rule IIIa: Derivation/Suffixation with link morph 

complex_stem --> simple_or_complex_stem linking_morph suffix 

****************************************************************************************************************/ 

cat(complex_stem & Stem, L) := 

Stem & 

split3(L,L1,Link,L2) & 

true(cat(linking_morph, Link)) & 

unified_head_features([Suffix]) & 

morph_subcat_principle(Suffix, Stem1) & 

true(cat(derivative, L2) & Suffix) & 

true(cat(simple_or_complex_stem, L1) & Stem1) & 

morph:mfeat:suffixed:plus & 

dtrs:(ldtr:Stem1 & rdtr:Suffix) & % for debugging only 

graph: L & 

structure:[Stem1,Suffix]. 

/*************************************************************************************************************** 

Rule IIIb: Derivation/Suffixation without link morph 

complex_stem --> simple_or_complex_stem suffix 

****************************************************************************************************************/ 


Stem & 


unified_head_features([Suffix]) & 

morph_subcat_principle(Suffix, Stem1) & 

true(cat(derivative, L2) & Suffix) & 


morph:mfeat:suffixed:plus & 

dtrs:(ldtr:Stem1 & rdtr:Suffix) & % for debugging only 

graph: L & 

structure:[Stem1,Suffix]. 

/*************************************************************************************************************** 

Rule II: Derivation/Prefixation 

complex_stem --> prefix simple_or_complex_stem 

****************************************************************************************************************/ 


Stem & 


unified_head_features([Stem1]) & 

true(cat(prefix, L1) & Prefix) & 

morph_subcat_principle(Prefix, Stem1) & 


dtrs:(ldtr:Prefix & rdtr:Stem1) & % for debugging only 

graph: L & 

structure:[Prefix,Stem1]. 

216


/*************************************************************************************************************** 

Rule IVa: Composition with link morph 

complex_stem --> simple_or_complex_stem linking_morph simple_or_complex_stem 

****************************************************************************************************************/ 


Stem & 

split3(L,L1,Link,L2) & 

true(cat(linking_morph, Link)) & 



semantics_construction(Stem1,Stem2) & 


dtrs:(ldtr:Stem1 & rdtr:Stem2) & % for debugging only 

graph: L & 

structure:[Stem1,Stem2]. 

/*************************************************************************************************************** 

Rule IVb Composition without link morph 

complex_stem --> simple_or_complex_stem simple_or_complex_stem 

****************************************************************************************************************/ 


Stem & 




semantics_construction(Stem1,Stem2) & 


dtrs:(ldtr:Stem1 & rdtr:Stem2) & % for debugging only 

graph: L & 

structure:[Stem1,Stem2]. 

/*************************************************************************************************************** 

Rule VIIIa: Participle conversion 

simple_or_complex_stem --> pre_syntactic_atom 

****************************************************************************************************************/ 

cat(simple_or_complex_stem & Stem, L) := 

Stem & 

verb_participle_to_adjective(VerbParticiple,Syn_Head_VerbPart) & 

true(cat(pre_syntactic_atom, L) & VerbParticiple) & 

% check whether the stem is a participle of the right type 

value_instantiated(Syn_Head_VerbPart, VerbParticiple) & 

dtrs:dtr:VerbParticiple & % for debugging only 

graph: L & 

structure:[VerbParticiple]. 

/*************************************************************************************************************** 

Rule VIIIb: Conversion 

simple_or_complex_stem --> simple_stem 

****************************************************************************************************************/ 

cat(simple_or_complex_stem & Stem, L) := 

Stem & 

stem_conversion(Stem1) & 

true(cat(simple_stem, L) & Stem1) & 

dtrs:dtr:Stem1 & % for debugging only 

graph: L & 

structure:[Stem1]. 

217


/*************************************************************************************************************** 

Some conversion rules 

****************************************************************************************************************/ 

% past particple: verbs with a direct object 

verb_participle_to_adjective(syn:(head:(_Verb & verb & cat:v) & 

argstr:(dir_obj:sem:refarg:Ref & indir_obj:IO & 

defargs:Defargs)) & 

sem_content(Cont), 

syn:head:verb_partII) := 

complex_stem & 

adj & 

argstr_refarg(Ref) & 

argstr_intarg(IO) & 

defargs(Defargs) & 

argstr_order(append(delete_elist([IO]),Defargs)) & 

sem_content(Cont). 

% past particple: verbs with an unaccusative subject 

% missing 

% present particple of verbs 

verb_participle_to_adjective(syn:(head:(_Verb & verb & cat:v) & 

argstr:(subj:sem:refarg:Ref & dir_obj:DO & 

indir_obj:_IO & prep_obj:_PO & sent_compl:_SC & 


sem_content(Cont), 

syn:head:verb_partI) := 

complex_stem & 

adj & 


argstr_intarg(DO) & 


argstr_order([]) & 


/*************************************************************************************************************** 

Stem conversion 

****************************************************************************************************************/ 

% causation: A -> V 

stem_conversion(syn:head:(adjective & cat:a) & sem_content(Cont) & 

argstr_refarg(Ref) ) := 

verb(verb) & 

sem_content(two_place_operator_struct & operator:op_causation & 

causer:Causer & scope:Cont) & 

argstr_subj(Arg1 & n(struc_case) & 

argstr_refarg(Causer & countable(animate_ind))) & 

argstr_dirobj(Arg2 & n(struc_case) & argstr_refarg(Ref)) & 

argstr_indirobj([]) & 

argstr_prepobj([]) & 

argstr_sentcompl([]) & 

argstr_order([Arg1,Arg2]) & 

defargs([]). 

218


/*************************************************************************************************************** 

**************************************************************************************************************** 

Semantics construction 

All clauses of semantics_construction and their subpredicates must define: 

sem:refarg, sem:content, syn:argstr 

**************************************************************************************************************** 

****************************************************************************************************************/ 

/*************************************************************************************************************** 

semantics_construction/3: 

Tries to find a semantic relation between the two stems. There are ?? cases: 

a) The first stem is an argument of the second 

b) There is a stereotypical relation projected by the second part of the 

compound between them 

c) There is a stereotypical relation projected by the first part of the 

compound between them 

d) There is a general conceptual relation between them 

e) There is a base relation between them 

****************************************************************************************************************/ 

% case 1: Stem1 is a semantic argument which satisfies 

% the restrictionsof the semantic functor of Stem2 

semantics_construction(Stem1,Stem2) := 

argument_saturation(Stem1,Stem2). 


stereotypical_relation(Stem1,Stem2). 


conceptual_relation(Stem1,Stem2). 

%semantics_construction(Stem1,Stem2) := 

% theta_role_merge(Stem1,Stem2). 

/*************************************************************************************************************** 

argument_saturation/2 tries to interpret the first component of a compound 

as an argument of the second. 

It is assumed that the first component isn't semantically specified for 

plural 

****************************************************************************************************************/ 

% N-N-compound with a relational head, e.g. "Messerfan" or "Museumsfan" 

argument_saturation(syn:head:noun & sem:refarg:TypeOfArgument, 

syn:head:noun & 

syn:argstr:(noun_argstr & relarg:sem:refarg:TypeOfHead & 

defargs:Defargs) & 


sem_content(Cont)) := 

selectional_restrictions_fullfilled(TypeOfHead,TypeOfArgument) & 


argstr_relarg([]) & 




% N-N-compound with a deverbal head 

argument_saturation(syn:head:noun & sem:refarg:TypeOfArgument, 

syn:head:(verb & cat:v) & 

syn:argstr:(verbal_argstr & subj:Subj & 

dir_obj:sem:refarg:SelRestrOfHead & 

indir_obj:[] & prep_obj:[] & sent_compl:[] & 

defargs:_Defargs) & 

219


sem_content(Cont)) := 

selectional_restrictions_fullfilled(SelRestrOfHead,TypeOfArgument) & 

argstr_subj(Subj) & 

argstr_dirobj([]) & 





defargs([]) & 

sem_content(operator:op_possibility & scope:Cont). 

% V-N-compound: Second part fills a role in the event structure of the verb 

% e.g. "Hackmesser" 

argument_saturation(syn:head:verb & sem_content(Cont) & 

sem:content:eventstr:Eventstr, 


syn:argstr:(noun_argstr & relarg:[] & defargs:Defargs) & 

argstr_refarg(Ref)) := 

true(a_role_in_eventstr(Eventstr) & Ref) & 






/*************************************************************************************************************** 

selectional_restrictions_fullfilled/2 tries to collapse argument type and 

relarg type. There are two cases: 

1) argument has a simple type 

a) of uncountable or individual 

b) of group 

2) argument has a dotted type 

****************************************************************************************************************/ 

selectional_restrictions_fullfilled(Type, simple_type & Type) := 

top. 

selectional_restrictions_fullfilled(Type, dotted_type & types:TypeList) := 

member(Type,TypeList). 

/* 

% Old version: individual or group distinction is enforced, left underspecified 

% in the version above 

%selectional_restrictions_fullfilled(Type, individual & Type) := 

% top. 

%selectional_restrictions_fullfilled(Type, uncountable & Type) := 

% top. 

%selectional_restrictions_fullfilled(Type, group & type:T & group_of:type:T & Type) := 

% top. 

*/ 

/*************************************************************************************************************** 

stereotypical_relation(SemanticArgument,SemanticHead): 

Tries to find a role in the telic relation of the second parameter whose 

selectional restrictions are compatible with the selectional restrictions of 

the referential argument of the first parameter. 

If a matching role was found it is removed from the accessible roles list 

****************************************************************************************************************/ 

stereotypical_relation( syn:head:noun & sem:refarg:RefargOfArg, 

syn:head:noun & argstr_refarg(Ref) & 

220


sem:content:(scope:eventstr:event: 

(event_type:EventType & 

accessible_roles:AccessRoles & 

roles:Roles) & 

operator:OP) & 

syn:argstr:ArgStr & 

sem_content(_Cont)) := 

member(sel_restr:SelRestrOfRole, AccessRoles, RestRoles) & 

selectional_restrictions_fullfilled(SelRestrOfRole, RefargOfArg) & 

syn:argstr:ArgStr & 


sem:content:(scope:eventstr:event:( 

event_type:EventType & 

roles:Roles & 

accessible_roles:RestRoles) & 

operator:OP). 

/*************************************************************************************************************** 

conceptual_relation(SemanticHead,SemanticArgument): 

****************************************************************************************************************/ 

conceptual_relation(syn:head:noun & sem:refarg:RefArgOfArg, 

syn:head:noun & sem:refarg:RefArgOfFunctor & 

syn:argstr:Argstr & sem_content(Cont)) := 

argstr_refarg(type_relation(type_concept(RefArgOfArg), 

type_concept(RefArgOfFunctor))) & 

syn:argstr:Argstr & 


/*************************************************************************************************************** 

type_relation(RefArgOfArg,RefArgOfFunctor): 

tries to find a conceptual relationship between the two types and constructs 

the new referential argument of the head noun 

****************************************************************************************************************/ 

type_relation(simple_type & ArgType, Simple_Type & type:subconcepts: ConceptList) := 

member(ArgType, ConceptList) & 

Simple_Type. 

/*************************************************************************************************************** 

theta_role_merge(SemanticHead,SemanticArgument): 

tries to unify the referential arguments of the two components. I´ve only 

implemented the A-N-case. I assume that adjectives never have a dotted type. 

****************************************************************************************************************/ 

theta_role_merge(syn:head:adjective & argstr_refarg(RefargOfArg) & 

sem_content(_ContAdj), 

syn:head:noun & argstr_refarg(RefargOfHead) & 

syn:argstr:AS & sem_content(_ContNoun)) := 

selectional_restrictions_fullfilled(RefargOfArg,RefargOfHead) & 

argstr_refarg(RefargOfHead) & 

syn:argstr:AS & 

sem_content(_Cont). 

221


/*************************************************************************************************************** 

**************************************************************************************************************** 

Lexicon 

**************************************************************************************************************** 

****************************************************************************************************************/ 

morph(string) -> top. 

index_table(morph/1). 

index_table(sem/1). 





/*************************************************************************************************************** 

Noun stems 

****************************************************************************************************************/ 

morph("bibliothek") := 

form: "Bibliothek" & 

simple_stem & 

noun(fem) & 

decl_class(dc_III,dc_III) & 

no_arguments & 

sem("Bibliothek"). 

morph("museum") := 

form: "Museum" & 

simple_stem & 

noun(neut) & 

singular & 

decl_class(dc_I,top) & 


sem("Museum"). 

morph("fabrik") := 

form: "Fabrik" & 

simple_stem & 

noun(fem) & 



sem("Fabrik"). 

morph("buch") := 

form: "Buch" & 

simple_stem & 

noun(neut) & 

singular & 

decl_class(dc_I,dc_IV) & 

morph_feat(der:plus & cmp:plus & flex:plus) & 


sem("Buch"). 

morph("buech") := 

form: "Buch" & 

simple_stem & 

noun(neut) & 

plural & 

morph_feat(der:minus & cmp:plus & flex:plus) & 


222


sem("Buch"). 

morph("messer") := 

form: "Messer" & 

simple_stem & 

noun(neut) & 

decl_class(dc_I,dc_II) & 


sem("Messer"). 


morph("sohn") := 

form: "Sohn" & 

simple_stem & 

noun(masc) & 

singular & 

decl_class(dc_I,dc_I) & 

argstr_relarg(Arg & /* n(struc_case) & */ 

argstr_refarg(OfWhom & individual(human)) ) & 

argstr_order([Arg]) & 

defargs([]) & 

sem("Sohn", OfWhom). 

morph("soehn") := 

form: "Söhn" & 

simple_stem & 

noun(masc) & 

plural & 


argstr_relarg(Arg & /* n(struc_case) & */ 

argstr_refarg(OfWhom & individual(human)) ) & 


defargs([]) & 

sem("Sohn", OfWhom). 

morph("fan") := 

form: "Fan" & 

simple_stem & 

noun(masc) & 

decl_class(dc_I,dc_V) & 

argstr_relarg(Arg & argstr_refarg(OfWhat & simple_type(entity))) & 


defargs([]) & 

sem("Fan", OfWhat). 

morph("stahl") := 

form: "Stahl" & 

simple_stem & 

noun(masc) & 



sem("Stahl"). 

morph("wasser") := 

form: "Wasser" & 

simple_stem & 

noun(neut) & 

singular & 


223


sem("Wasser"). 

morph("waesser") := 

form: "Wasser" & 

simple_stem & 

noun(neut) & 

plural & 



sem("Wasser"). 

morph("brot") := 

form: "Brot" & 

simple_stem & 

noun(neut) & 



sem("Brot"). 

morph("tasse") := 

form: "Tasse" & 

simple_stem & 

noun(masc) & 



sem("Tasse"). 

morph("horn") := 

form: "Horn" & 

simple_stem & 

noun(neut) & 



sem("Horn"). 

morph("streik") := 

form: "Streik" & 

simple_stem & 

noun(masc) & 

decl_class(dc_I,dc_V) & 


sem("Streik"). 


/*************************************************************************************************************** 

Adjective stems 

****************************************************************************************************************/ 

morph("frei") := 

form: "frei" & 

simple_stem & 

adj & 

argstr_intarg([]) & 


defargs([]) & 

sem("frei"). 

224

morph("schoen") := 

form: "schön" & 

simple_stem & 

adj & 



defargs([]) & 

sem("schoen"). 


/*************************************************************************************************************** 

Verb stems 

****************************************************************************************************************/ 

morph("rett") := 

form: "rett" & 

simple_stem & 

verb(verb) & 

morph_feat(prefixable_with_ge:plus) & 


argstr_refarg(Ag & countable(human))) & 

argstr_dirobj(Arg2 & n(struc_case) & 

argstr_refarg(Th & countable(animate_ind))) & 




argstr_order([Arg1,Arg2,Arg3]) & 

defargs([Arg3 & argstr_refarg(Inst & countable(tool))]) & 

sem("rett",Ag,Th,Inst). 

morph("renovier") := 

form: "renovier" & 

simple_stem & 

verb(verb) & 

morph_feat(prefixable_with_ge:minus) & 




argstr_refarg(Th & countable(building))) & 





defargs([]) & 

sem("renovier",Ag,Th). 

morph("pruef") := 

form: "prüf" & 

simple_stem & 

verb(verb) & 





argstr_refarg(Th & simple_type(entity))) & 






sem("pruef",Ag,Th,Inst). 

225


morph("verkauf") := 

form: "verkauf" & 

simple_stem & 

verb(verb) & 





argstr_refarg(Th & simple_type(entity))) & 

argstr_indirobj(Arg3 & n(struc_case) & 

argstr_refarg(Goal & countable(human))) & 




defargs([]) & 

sem("verkauf",Ag,Th,Goal). 

morph("giess") := 

form: "giess" & 

simple_stem & 

verb(verb) & 



argstr_refarg(countable(human))) & 


argstr_refarg(uncountable(liquid))) & 


argstr_prepobj(Arg3 & p(acc,auf) & 

argstr_refarg(simple_type(physical_entity))) & 



defargs([]) & 

sem("giess"). 

morph("staun") := 

form: "staun" & 

simple_stem & 

verb(verb) & 






argstr_prepobj(Arg2 & p(acc,'über') & 

argstr_refarg(Th & countable(physical_entity))) & 



defargs([]) & 

sem("staun",Ag,Th). 

morph("bau") := 

form: "bau" & 

simple_stem & 

verb(verb) & 



argstr_refarg(Ag & countable(animate_ind))) & 


argstr_refarg(Th & countable(building))) & 


226





defargs([Arg3 & argstr_refarg(M & simple_type(solid_state))]) & 

sem("bau",Ag,Th,M). 

morph("bohr") := 

form: "bohr" & 

simple_stem & 

verb(verb) & 





argstr_refarg(Th & countable(top))) & % $$ "hole" 




defargs([Arg3 & argstr_refarg(Tool & countable(tool)), 

Arg4 & argstr_refarg(Loc & countable(physical_entity))]) & 

argstr_order([Arg1,Arg3,Arg2,Arg4]) & 

sem("bohr",Ag,Th,Tool,Loc). 

morph("arbeit") := 

form: "arbeit" & 

simple_stem & 

verb(verb) & 








defargs([]) & 

argstr_order([Arg1]) & 

sem("arbeit",Ag). 

morph("hack") := 

form: "hack" & 

simple_stem & 

verb(verb) & 





argstr_refarg(Th & simple_type(physical_entity))) & 






sem("hack",Ag,Th,Inst). 

/*************************************************************************************************************** 

Special entry for unknown_stems 

****************************************************************************************************************/ 

morph("$unknown$") := 

form: "unknown" & 

227

unknown_stem & 

syn:head:verb & 

sem:extarg:top & 

syn:argstr:defargs:[]. 

morph("$unknown$") := 

form: "unknown" & 

unknown_stem & 


sem:refarg:simple_type & 

syn:argstr:defargs:[]. 


/*************************************************************************************************************** 

Derivational affixes: 

Every affix must deliver the following 

syn:argstr, sem:refarg (if appropriate), sem:content 

****************************************************************************************************************/ 

morph("bar") := % ok 

form: "bar" & 

suffix & 

adj & 

morph_subcat(syn:(head:(verb & cat:v) & 

argstr:(subj:sem:SubjSem & dir_obj:argstr_refarg(R) & 

indir_obj:[] & prep_obj:[] & sent_compl:[])) & 

sem_content(Cont)) & 

argstr_order([DefArg]) & 

defargs([DefArg & (p(lacc,durch) ; p(ldat,von)) & sem:SubjSem]) & 

argstr_refarg(R) & 



morph("er") := % ok 

form: "er" & 

suffix & 

noun(masc) & 


morph_subcat(syn:(head:(verb & cat:v) & 

argstr:(subj:Subj & dir_obj:DO & indir_obj:[] & defargs:DefArgs)) & 

sem:Sem) & 

process_or_accomplishment_verb(sem:Sem) & 

agent_instrument(sem:Sem, Subj, DO, syn:argstr:defargs:DefArgs). 

morph("ung") := % ok 

form:"ung" & 

suffix & 

noun(fem) & 


morph_subcat(syn:(head:cat:v & 

argstr:(subj:S & dir_obj:DO & defargs:Defargs & 

indir_obj:[] & prep_obj:[] & sent_compl:[])) & 

sem_content(eventstr:(accomplishment & event:E1 & state:E2 & 

eventrestr:Restr))) & 

argstr_refarg(dotted_type([Activity & countable(E1), State & countable(E2)], 

[relation(Restr,[Activity,State])])) & 

( 

objectivus(S, DO, Defargs) ; subjectivus(S, DO, Defargs) 

) & 

sem:content:no_content. 

228


% -ung for intransitive verbs with prepositional objects 

morph("ung") := % ok 

form:"ung" & 

suffix & 

noun(fem) & 



argstr:(subj:sem_content(SubjSem) & dir_obj:[] & indir_obj:[] & 

prep_obj:(PO & ~ elist) & 

sent_compl:[])) & 


eventrestr:Restr) )) & 

argstr_order([PO,DefArg]) & 

argstr_relarg(PO) & 



defargs([DefArg & sem_content(SubjSem)]) & 


morph("$") := % event nominalisation with empty affix 

form:"" & 

suffix & 

noun(masc) & 



argstr:(subj:sem:SubjSem & dir_obj:sem:DO_Sem & 

indir_obj:sem:IO_Sem & 

prep_obj:[] & sent_compl:[] & defargs:_Defargs)) & 


eventrestr:Restr))) & 



argstr_relarg(Rel & n(struc_case) & sem:DO_Sem) & 

defargs([Def1 & p(lacc,an) & sem:IO_Sem, Def2 & p(lacc,durch) & sem:SubjSem]) & 

argstr_order([Rel,Def1,Def2]) & 


morph("heit") := 

morph("heit/keit"). 

morph("keit") := 

morph("heit/keit"). 

morph("heit/keit") := % ok 

form: "heit/keit" & 

suffix & 

noun(fem) & 


morph_subcat(syn:head:cat:a & sem:refarg:R & sem_content(Cont)) & 

argstr_relarg(Arg & syn:top & sem:refarg:R) & 


defargs([]) & 

argstr_refarg(countable(property)) & 

sem_content(operator:op_abstraction & scope:Cont). 

morph("ist") := 

form: "ist" & 

suffix & 

noun(masc) & 

decl_class(top,top) & 

229


morph_subcat(syn:head:noun & sem:refarg:_R & sem_content(Cont)) & 



defargs([]) & 

argstr_refarg(countable(human)) & 

sem_content(Cont). %% $$ korrigieren 

morph("un") := 

form: "un" & 

prefix & 

morph_subcat(syn:head:(adjective & cat:a) & 

syn:argstr:(intarg:Rel & defargs:Defargs) & 

sem:refarg:Ref & 

sem_content(Cont) & 

empty_morph_subcat) & 


argstr_intarg(Rel) & 

argstr_order(delete_elist([Rel])) & 


sem_content(operator:op_negation & scope:Cont). 

morph("un") := 

form: "un" & 

prefix & 

morph_subcat(syn:head:(noun & cat:n) & 

syn:argstr:(relarg:Rel & defargs:Defargs) & 

sem:refarg:Ref & 

sem_content(Cont) & 

empty_morph_subcat) & 


argstr_relarg(Rel) & 

argstr_order(delete_elist([Rel])) & 


sem_content(operator:op_negation & scope:Cont). 

% be- for verbs with direct and prepositional object 

morph("be") := 

form: "be" & 

prefix & 


argstr:(subj:(S & sem:refarg:SubjSem) & dir_obj:sem:DO_Sem & 

indir_obj:[] & prep_obj:sem:PO_Sem & sent_compl:[] & 



syn:argstr:(subj:S & 

dir_obj:(DO & n(struc_case) & sem:PO_Sem) & 

prep_obj:(PO & p(acc,mit) & sem:DO_Sem) & 

indir_obj:[] & sent_compl:[]) & 

argstr_order([S,DO,PO]) & 

argstr_extarg(SubjSem) & 



% be- for verbs with only a prepositional object 

morph("be") := 

form: "be" & 

prefix & 


230


argstr:(subj:(S & sem:refarg:SubjSem) & dir_obj:[] & 

indir_obj:[] & prep_obj:sem:PO_Sem & 

sent_compl:[] & defargs:Defargs)) & 


syn:argstr:(subj:S & 

dir_obj:(DO & n(struc_case) & sem:PO_Sem) & 

prep_obj:[] & indir_obj:[] & sent_compl:[] & defargs:Defargs) & 

argstr_order([S,DO]) & 

argstr_extarg(SubjSem) & 


morph("ge") := 

form: "ge" & 

prefix & 

morph_subcat(syn:(Syn & head:(verb & cat:v)) & 

morph:Morph & 

sem:Sem & 

morph_feat(prefixable_with_ge:plus)) & 

syn:(Syn & head:verb_partII) & 

morph:Morph & 

sem:Sem. 

/*************************************************************************************************************** 

Inflectional suffixes (after Duden (1984)) 

****************************************************************************************************************/ 

% nouns, S1 

morph("$") := 

form: "" & 

n_infl_affix & singular & case(nom;acc;dat) & 

decl_class(dc_I,top). 

morph("s") := 

form: "s" & 

n_infl_affix & singular & case(gen) & 

decl_class(dc_I,top). 

% nouns, S2 

morph("$") := 

form: "" & 

n_infl_affix & singular & case(nom) & 

decl_class(dc_II,dc_III). 

morph("en") := 

form: "en" & 

n_infl_affix & singular & case(acc;dat;gen) & 

decl_class(dc_II,dc_III). 

% nouns, S3 

morph("$") := 

form: "" & 

n_infl_affix & singular & case(nom;acc;dat;gen) & 

decl_class(dc_III,~dc_IV). 

% nouns, P1 

morph("e") := 

form: "e" & 

n_infl_affix & plural & case(acc;nom;gen) & 

decl_class(~dc_II,dc_I). 


231

form: "en" & 

n_infl_affix & plural & case(dat) & 

decl_class(~dc_II,dc_I). 


% nouns, P2 

morph("$") := 

form: "" & 


decl_class(~dc_II,dc_II). 

morph("n") := 

form: "n" & 


decl_class(~dc_II,dc_II). 

% nouns, P3 


form: "en" & 

n_infl_affix & plural & case(acc;nom;dat;gen) & 

decl_class(top,dc_III). 

morph("n") := 

form: "n" & 

n_infl_affix & plural & case(acc;nom;dat;gen) & 

decl_class(top,dc_III). 

% nouns, P4 

morph("er") := 

form: "er" & 


decl_class(dc_I,dc_IV). 

morph("ern") := 

form: "ern" & 


decl_class(dc_I,dc_IV). 

% nouns, P5 

morph("s") := 

form: "s" & 

n_infl_affix & plural & case(acc;nom;gen;dat) & 

decl_class(~dc_II,dc_V). 

% verb inflectional affixes 

morph("e") := 

form: "e-1" & 

v_infl_affix(verb_infl) & 

syn:head:((pers:first & num:sg & tense:pres & mood:ind ) ; 

(pers:(first;third) & num:sg & tense:pres & mood:subjI) ; 

(pers:(first;third) & num:sg & tense:pret)). 

morph("st") := 

form: "st-1" & 


syn:head:(pers:second & num:sg & mood:(ind;subjII)). 

morph("est") := 

form: "est-1" & 

232



syn:head:(pers:second & num:sg & mood:(ind ; subjII)). 

morph("et") := 

form: "et-1" & 


syn:head:(tense:pres & mood:ind & 

((pers:second & num:pl) ; (pers:third & num:sg))). 

morph("t") := 

form: "t-1" & 


syn:head:(tense:pres & mood:ind & 

((pers:second & num:pl) ; (pers:third & num:sg))). 




syn:head:(pers:second & num:pl & tense:pret). 

morph("est") := 

form: "est-2" & 


syn:head:(pers:second & num:sg & tense:pres & mood:subjI). 




syn:head:(pers:second & num:pl & tense:pres & mood:subjI). 

morph("$") := 

form: "$-1" & 


syn:head:(pers:(first;third) & num:sg & tense:pret). 


form: "en-1" & 


syn:head:(pers:(first;third) & num:pl). 

morph("n") := 

form: "n-1" & 


syn:head:(pers:(first;third) & num:pl). 

morph("$") := 

form: "$-2" & 


syn:head:(tense:pres & mood:(ind;subjI)). 




syn:head:(tense:pret & mood:(ind;subjII)). 

morph("t") := 

form: "t-2" & 


syn:head:(tense:pret & mood:(ind;subjII)). 


233

form: "en-2" & 

v_infl_affix(verb_inf_base). 

morph("n") := 

form: "n-2" & 

v_infl_affix(verb_inf_base). 

morph("end") := 

form: "end-1" & v_infl_affix(verb_partI). 

morph("nd") := 

form: "nd-1" & v_infl_affix(verb_partI). 


form: "et-5" & v_infl_affix(verb_partII). 

morph("t") := 

form: "t-3" & v_infl_affix(verb_partII). 

morph("$") := 

form: "$-3" & v_infl_affix(verb_imp & num:sg). 

morph("e") := 

form: "e-2" & v_infl_affix(verb_imp & num:sg). 


form: "et-6" & v_infl_affix(verb_imp & num:pl). 

morph("t") := 

form: "t-4" & v_infl_affix(verb_imp & num:pl). 

% Linking morphemes 

morph("$") := 

linking_morph. 

morph("s") := 


morph("er") := 



/*************************************************************************************************************** 

**************************************************************************************************************** 

Semantics 

**************************************************************************************************************** 

****************************************************************************************************************/ 

sem("Bibliothek") := 

argstr_refarg( 

dotted_type([countable(institution) & Inst & no_subconcepts, 

countable(building) & Building & no_subconcepts, 

group_of(human) & Staff & no_subconcepts, 

group_of(book & Book) & Collection & no_subconcepts], 

[relation(substratum_for, 

[role(substratum,Building), 

role(top,Inst)]), 

relation(work_for, 

234


[role(worker,Staff), 

role(organisation,Inst)]), 

relation(exhibits, 

[role(exhibiter,Inst), 

role(exhibited,Collection)]) 

] )) & 

purpose_relation( 

lend, 

[role(lender,Staff),role(lended_thing,countable(Book))], 

[Book]). 

sem("Museum") := 


dotted_type([countable(institution) & Inst & no_subconcepts, 

countable(building) & Building & no_subconcepts, 

group_of(human) & Staff & no_subconcepts, 

group_of(physical_entity & ExhibitedThing) & Collection & 

no_subconcepts 

], 

[relation(contains,[Building,Inst]), 

relation(work_for,[Staff,Inst]), 

relation(exhibits,[Inst,Collection]) ] )) & 


exhibits, 

[role(exhibiter,Inst), role(exhibited,countable(ExhibitedThing))], 

[ExhibitedThing]). 

sem("Fabrik") := 


dotted_type([countable(factory) & Building & no_subconcepts, 

group_of(human) & Staff & no_subconcepts], 

[relation(work_in, 

[Who & role(worker,Staff),role(location,Building)])])) & 


produce, 

[Who, role(produced, simple_type(physical_entity) & Produced)], 

[Produced] ). 

sem("Buch") := 


dotted_type([countable(book) & Book & no_subconcepts, 

uncountable(text) & Text & no_subconcepts], 

[relation(substratum_for, [Book,Text])] )) & 


read, 

[role(agent,countable(human)), role(theme,Text)], 

[]). 

sem("Messer") := 

argstr_refarg(countable(knife) & Tool) & 


cut, 

[role(agent,countable(human)), 

role(patient,simple_type(physical_entity & physical_state:soft) & What), 

role(instrument,Tool)], 

[What] ). 

235


sem("Sohn",OfWhom) := 

argstr_refarg(countable(human) & Who & no_subconcepts) & 

state(relation(son_of,[Who,OfWhom])). 

sem("Fan",OfWhat) := 

argstr_refarg(countable(human) & Who & no_subconcepts) & 

state(relation(fan_of,[Who,OfWhat])). 

sem("Stahl") := 

argstr_refarg(uncountable(steel & physical_state:hard) & no_subconcepts) & 


sem("Wasser") := 

argstr_refarg(uncountable(water) & no_subconcepts) & 


sem("Brot") := 


dotted_type( 

[Ind & countable(bread) & no_subconcepts, 

Mass & uncountable(bread) & no_subconcepts], 

[relation(made_of,[Ind,Mass])])) & 


sem("Tasse") := 

argstr_refarg(countable(cup) & Cup & no_subconcepts) & 


drink, 

[role(agent,countable(human)), 

role(theme,uncountable(liquid) & What), 

role(instrument,Cup)], 

[What] ). 

sem("Horn") := 

argstr_refarg(countable(musical_instrument) & no_subconcepts) & 


sem("Streik") := 

argstr_refarg(countable(event) & no_subconcepts). % $$ 

sem("frei") := 

argstr_refarg(countable(animate_ind) & Who) & 

state(relation(free,[Who])). 

sem("schoen") := 

argstr_refarg(countable(physical_entity) & Who) & 

state(relation(beautiful,[Who])). 

sem("rett",Ag,Th,Inst) := 

transition_event( 

accomplishment, 

E1 & activity & 

236


event(rescue,[role(agent,Ag), R & role(theme,Th), role(instrument,Inst)]), 

relation(rescued,[R]), 

event_sequence, 

E1). 

sem("bau",Ag,Th,Mat) := 




event(build,[role(agent,Ag), role(top,Mat)]), 

relation(exists,[role(theme,Th)]), 


E1). 

sem("renovier",Ag,Th) := 




event(renovate,[role(agent,Ag), Theme & role(theme,Th)]), 

relation(renovated,[Theme]), 


E1). 

sem("pruef",Ag,Th,Inst) := 




event(check,[role(agent,Ag), 

R & role(theme,Th), 

role(instrument,Inst)]), 

relation(checked,[R]), 


E1). 

sem("verkauf",Ag,Th,Goal) := 




event(sell,[role(agent,Ag), 

What & role(theme,Th), 

ToWhom & role(goal,Goal)]), 

relation(possesses,[ToWhom,What]), 


E1). 

sem("arbeit",Ag) := 

process(work,[role(worker,Ag)]). 

sem("staun",Ag,Th) := 

state(relation(to_be_astonished,[role(experiencer,Ag),role(theme,Th)]) ). 

sem("bohr",Ag,Th,Inst,Loc) := 




event(drill,[role(agent,Ag), 

R & role(theme,Th), 

237

sem("giess") := 

sem:semantics. 


role(instrument,Inst)]), 

relation(exists,[R,Loc]), 


E1). 

sem("hack",Ag,Th,Inst) := 

process(hack,[role(agent,Ag), role(theme,Th), role(instrument,Inst)]). 

/*************************************************************************************************************** 

**************************************************************************************************************** 

Concepts 

**************************************************************************************************************** 

****************************************************************************************************************/ 

concept(entity) -> entity. 

concept(knife & Knife) := 

Knife & 

physical_state: hard & 

consists_of: [Material & uncountable(metal)] & 

has_parts: [individual(blade)] & 

subconcepts: [Material]. 

concept(temporal & Temporal) := 

Temporal & 

type_of(Temporal) & 

takes_place_at: (Place & individual(place)) & 

subconcepts: [Place]. 

concept(entity & Entity) := 

Entity & 

subconcepts: []. 

/*************************************************************************************************************** 

**************************************************************************************************************** 

Principles 

**************************************************************************************************************** 

****************************************************************************************************************/ 

/*************************************************************************************************************** 

head-feature-inheritance 

****************************************************************************************************************/ 

unified_head_features(HF) := 

syn_head_features(HF) & 

morph_head_features(HF). 

syn_head_features([syn:head:H]) := syn:head:H. 

syn_head_features([syn:head:H, syn:head:H]) := syn:head:H. 

morph_head_features([morph:mhead:H]) := morph:mhead:H. 

morph_head_features([morph:mhead:H, morph:mhead:H]) := morph:mhead:H. 

238

* Commented out because of the danger of loops 

syn_head_features([]) := top. 

syn_head_features([syn:head:H|Rest]) := 

syn:head:H & syn_head_features(Rest). 


morph_head_features([]) := top. 

morph_head_features([morph:mhead:H|Rest]) := 

morph:mhead:H & morph_head_features(Rest). 

*/ 

/*************************************************************************************************************** 

morph_subcat_principle(Affix,Stem): 

checks whether Stem is morphologically subcategorised by Affix and 

returns the semantics and argument structure of the affix 

****************************************************************************************************************/ 

morph_subcat_principle( morph:msubcat:needs:Stem & syn:argstr:AffixSC & sem:Sem, 

Stem) := 

syn:argstr:AffixSC & 

morph:msubcat:needs:[] & 

sem:Sem. 

/*************************************************************************************************************** 

selector functions 

****************************************************************************************************************/ 

syn_head(syn:head:Head) := 

Head. 

roles_of_event(event:roles:Roles) := 

Roles. 

semantics(sem:Sem) := 

sem:Sem. 

infl_semantics(sem:Sem,_) := 

sem:Sem. 

type_concept(simple_type & Simple_type & type:Type) := 

Simple_type & 

type: concept(Type). 

type_concept(dotted_type & types:TypeList) := 

member(Simple_type & type:Type, TypeList) & 

Simple_type & type: concept(Type). 

/*************************************************************************************************************** 

****************************************************************************************************************/ 

% for derivation with -ung: 

subjectivus(sem:SubjSem, _DO, _Defargs) := 

argstr_relarg(Rel & sem:SubjSem) & 

argstr_order([Rel]) & 

defargs([]). 

% Realisation of default arguments sounds odd: 

% "die Überprüfung der Beamten mit dem Meßgerät ..." 

% with the intended reading "die Beamten prüfen ... 

239


objectivus(sem:SubjSem, DO, Defargs) := 

argstr_relarg(DO) & 

argstr_order(append(delete_elist([DO]),[Subj])) & 

defargs(append(Defargs,[Subj & sem:SubjSem])). 

/*************************************************************************************************************** 

agent_instrument: construct a dotted type for the agent/instrument alternation 

****************************************************************************************************************/ 

agent_instrument(sem:content:eventstr:EventStr, _S, DO, _DefArgs) := 

sem:refarg:types:[agent_thetarole(EventStr), instrument_thetarole(EventStr)] & 

sem_content(operator:op_possibility & scope:eventstr:EventStr) & 


argstr_order(delete_elist([DO])) & 

defargs([]). 

% accomplishment verb with agent-role alone 

agent_instrument(sem:content:eventstr:EventStr, _S, DO, _DefArgs) := 

no_instrument_thetarole(roles_of_event(EventStr)) & 

argstr_refarg(agent_thetarole(EventStr)) & 




defargs([]). 

% process verb 

agent_instrument(sem:content:eventstr:(activity_eventstr & ~accomplishment & 

~ achievement & EventStr), 

_S, DO, _DefArgs) := 

argstr_refarg(agent_thetarole(EventStr)) & 




defargs([]). 

process_or_accomplishment_verb(sem_content(eventstr:(activity_eventstr & ~achievement))) := 

top. 

% 

% agent_thetarole: check the event structure for the presence of an agent subject 

% 

%agent_thetarole(accomplishment & event:roles:Roles) := 

% member(role:agent & sel_restr:Type, Roles) & 

% Type. 

agent_thetarole(activity_eventstr & event:roles:Roles) := 

member(role:agent & sel_restr:Type, Roles) & 

Type. 

% 

% instrument_thetarole: check the event structure for the presence of an instrument 

% 

instrument_thetarole(activity_eventstr & event:roles:Roles) := 

member(role:instrument & sel_restr:Type, Roles) & 

Type. 

experiencer_thetarole(achievement & event:roles:Roles) := 

240


member(role:experiencer & sel_restr:Type, Roles) & 

Type. 

no_instrument_thetarole([]) := 

top. 

no_instrument_thetarole([role: ~instrument|RestRoles]) := 

no_instrument_thetarole(RestRoles). 

% return non-deterministically a role of the given event structure 

a_role_in_eventstr(activity_eventstr & event:roles:Roles) := 

member(sel_restr:Type, Roles) & 

Type. 

/*************************************************************************************************************** 

affix_order_constraint 

****************************************************************************************************************/ 

affix_order_constraint(top, top) := 

top. 

affix_precedes_star(Head1,Head2) := 

affix_precedes(Head1,Head2). 

affix_precedes_star(Head1,Head2) := 

affix_precedes(Head1,Head) & 

affix_precedes(Head,Head2). 

% it's necessary to code this in Prolog 

affix_precedes(cat:cat, tense:tense) := top. 

affix_precedes(cat:cat, degree:degree) := top. 

affix_precedes(degree:degree, case:case) := top. 

affix_precedes(tense:tense, mood:mood) := top. 

affix_precedes(mood:mood, num:num) := top. 

affix_precedes(num:num, pers:pers) := top. 

affix_precedes(pers:pers, case:case) := top. 

/*************************************************************************************************************** 

SYN:HEAD:-maximality: check whether the syn:head:-features - depending 

on the category - are complete 

****************************************************************************************************************/ 

% nouns 

type_maximal(Head) := 

value_instantiated(cat:n & 

num:(sg;pl) & 

case:(nom;acc;gen;dat) & 

gender:(fem;masc;neut), 

Head). 

% inflected verbs 


value_instantiated(cat:v & 

num:(sg;pl) & 

pers:(first;second;third) & 

tense:(pres;pret) & 

mood:(ind;imp;subjI;subjII), 

Head). 

% infinitive verbs 


241


value_instantiated(verb_inf_base & cat:v, Head). 

% verb particple 


value_instantiated(verb_part & cat:v, Head). 

% verb imperative forms 


value_instantiated(verb_imp & cat:v & num:(sg;pl), Head). 

% adjectives 


value_instantiated(cat:a, Head). 

% last resort 

%type_maximal(top) := top. 

/*************************************************************************************************************** 

Principles concerning argument structure 

****************************************************************************************************************/ 

argument_inheritance(syn:argstr:Subcat) := 

syn:argstr:Subcat. 

% argument realisation of infinitival verb forms (participles, infinitives ...) 

% => do nothing 

argument_realisation(PSA & argstr_extarg(Ext) & syn:head:verb_infinitive) := 

argstr_extarg(Ext) & 

type_shift_args_to_phrase(PSA) & 

semantics(PSA). 

% argument realisation of inflected verbs 

% => type shift the external argument 

argument_realisation(PSA & argstr_extarg(Ext) & syn:head:(verb & num:Num)) := 

argstr_extarg(type_shift(Num,Ext)) & 


semantics(PSA). 

% argument realisation of singular nouns with simple or dotted type 

% => type shift the referential argument 

argument_realisation(PSA & argstr_refarg(Ref & simple_or_dotted_type) & 

syn:head:(noun & cat:n & num:sg) & 

sem_content(Cont) ) := 

argstr_refarg(type_shift(sg,Ref)) & 



% argument realisation of singular adj with simple or dotted type 


argument_realisation(PSA & argstr_refarg(Ref & simple_or_dotted_type) & 

syn:head:(adjective & cat:a & num:sg) & 

sem_content(Cont) ) := 


argstr_refarg(type_shift(sg,Ref)) & 


242


% argument realisation of plural nominals with simple type or dotted type 


argument_realisation(PSA & syn:head:(nominal & num:pl) & 

argstr_refarg(Ref) & sem_content(Cont) ) := 


argstr_refarg(type_shift(pl,Ref)) & 


/*************************************************************************************************************** 

type_shift_args_to_phrase/1: shift the type of all arguments to phrase and 

realise their cases and categories 

****************************************************************************************************************/ 

% nouns 

type_shift_args_to_phrase(syn:argstr:(AS & noun_argstr & relarg:Rel & defargs:DA)) := 

syn:argstr:(AS & 

relarg:realize_relarg(Rel) & 

defargs:realize_default_arguments(DA) 

). 

% adjectives 

type_shift_args_to_phrase(syn:argstr:(AS & adj_argstr & intarg:Int & defargs:DA)) := 

syn:argstr:(AS & 

intarg:realize_intarg(Int) & 

defargs:realize_default_arguments(DA) 

). 

% verbs 

type_shift_args_to_phrase(syn:argstr:(AS & verbal_argstr & subj:Subj & dir_obj:DO & 

indir_obj:IO & prep_obj:PO & sent_compl:SC & 

defargs:DefArgs )) := 

syn:argstr:( 

AS & 

subj:realize_subject(Subj) & 

dir_obj:realize_direct_object(DO) & 

indir_obj:realize_indirect_object(IO) & 

prep_obj:realize_prep_object(PO) & 

sent_compl:realize_sent_compl(SC) & 

defargs:realize_default_arguments(DefArgs) 

). 

realize_relarg(Rel) := phrase & Rel & syn:head:(noun & cat: n & case:sgen). 

realize_relarg(Rel) := phrase & Rel & p(ldat,von). 

%realize_relarg(Rel) := phrase & Rel & p(lacc,durch). 

realize_relarg([]) := []. 

realize_intarg(Int) := phrase & Int. 

realize_intarg([]) := []. 

realize_subject(Subj & syn:head:(cat:n & case:struc_case)) := 

phrase & Subj & syn:head:case:snom. 

realize_subject([]) := []. 

realize_direct_object(DirObj & syn:head:(cat:n & case:struc_case)) := 

phrase & DirObj & syn:head:case:sacc. 

realize_direct_object([]) := []. 

realize_indirect_object(InDirObj) := phrase & InDirObj. 

realize_indirect_object([]) := []. 

243

ealize_prep_object(PO) := phrase & PO. 

realize_prep_object([]) := []. 

realize_sent_compl(SC) := phrase & SC. 

realize_sent_compl([]) := []. 


% agentive default arg may be realised as a PP 

realize_default_arguments([]) := top. 

realize_default_arguments([phrase]) := top. 

realize_default_arguments([phrase,phrase]) := top. 

realize_default_arguments([phrase,phrase,phrase]) := top. 

%realize_default_arguments([]) := 

% top. 

%realize_default_arguments([phrase|Rest]) := 

% realize_default_arguments(Rest). 

/*************************************************************************************************************** 

type_shift(Number,SimpleOrDottedType): shift a type to a group type. 

****************************************************************************************************************/ 

type_shift(sg, Type & individual & is_group:minus) := 

Type. 

type_shift(sg, Type & uncountable) := 

Type. 

type_shift(sg, Type & group & is_group:plus) := 

% value_instantiated(group_of:top, Type) & 

Type & group_of:individual. 

type_shift(sg, dotted_type & type_rel:TR & types:Types) := 

dotted_type & 

type_rel:TR & 

types:type_shift_all_subtypes_sg(Types). 

% simple type, countable, plural 

type_shift(pl, Ind & is_group:minus & type:T) := 

Ind & 

group_of:(individual & type:T). 

% simple type, group, plural 

type_shift(pl, Group & group & is_group:plus & type:T) := 

Group & 

group_of:(type:T & group_of:(individual & type:T)). 

% dotted type, plural 

type_shift(pl, dotted_type & type_rel:TR & types:Types) := 

dotted_type & 

type_rel:TR & 

types:type_shift_all_subtypes_pl(Types). 

type_shift_all_subtypes_sg([]) := []. 

type_shift_all_subtypes_sg([Type|Types]) := 

[type_shift(sg,Type)|type_shift_all_subtypes_sg(Types)]. 

244


%type_shift_all_subtypes_sg([T]) := [simple_type & type_shift(sg,T)]. 

%type_shift_all_subtypes_sg([T1,T2]) := 

% [simple_type & type_shift(sg,T1),simple_type & type_shift(sg,T2)]. 

%type_shift_all_subtypes_pl([T]) := [simple_type & type_shift(pl,T)]. 

%type_shift_all_subtypes_pl([T1,T2]) := 

% [simple_type & type_shift(pl,T1),simple_type & type_shift(pl,T2)]. 

type_shift_all_subtypes_pl([]) := []. 

type_shift_all_subtypes_pl([Type|Types]) := 

[type_shift(pl,Type)|type_shift_all_subtypes_pl(Types)]. 

% ignore uncountable in plural 

type_shift_all_subtypes_pl([uncountable|Types]) := 

type_shift_all_subtypes_pl(Types). 

/*************************************************************************************************************** 

**************************************************************************************************************** 

Lexicon templates 

**************************************************************************************************************** 

****************************************************************************************************************/ 

noun(Gender) := syn:head:(noun & cat:n & gender:Gender). 

verb(VForm) := syn:head:(verb & VForm & cat:v). 

adj := syn:head:(adjective & cat:a). 

n(Case) := syn:head:(noun & cat:n & case: Case). 

p(Case,PForm) := syn:head:(cat:p & pform: PForm & dp_case: Case). 

n_infl_affix := infl_affix & syn:head:cat:n. 

v_infl_affix(VType) := infl_affix & syn:head:(cat:v & VType). 

plural := syn:head:num:pl. 

singular := syn:head:num:sg. 

case(Case) := syn:head:case:Case. 

% Verb stems for irregular verbs 

verbstem(0) := 

verb(top). 


verb(top) ; 

verb(num:pl & tense:pres) ; 

verb(tense:pres & mood:subjI). 


verb(pers:first & num:sg & tense:pres & mood:ind) & 

morph_feat(complete:minus). 


verb(pers:(second;third) & num:sg & tense:pres & mood:ind) & 

morph_feat(complete:minus). 


verb(tense:pret & mood:ind). 


verb(tense:pret & mood:subjII). 


verb(verb_partII). 

245


verb(verb_imp & mood:imp). 


decl_class(DC_sg,DC_pl) := 

morph:mhead:decl_class:(decl_class_sg: DC_sg & decl_class_pl: DC_pl). 

morph_feat(Morph_feat) := 

morph:mfeat:Morph_feat. 

prefixable_with_ge(Bool) := 

morph:mfeat:prefixable_with_ge:Bool. 

morph_subcat(MorphObject) := 

morph:msubcat:needs:MorphObject. 

simple_type(OfType) := 

simple_type & type:OfType. 

individual(OfType) := 

individual & type:OfType. 

countable(OfType) := 

countable & type:OfType & is_group:minus. 

uncountable(OfType) := 

uncountable & type:OfType. 

group_of(Type) := 

group & type:Type & group_of:type:Type & is_group:plus. 

dotted_type(Types,Type_Relations) := 

types: Types & type_rel: Type_Relations. 

transition_event(Type,E1,E2,EventRestr,EventHead) := 

sem_content(eventstr:(Type & event:(activity & E1) & state:(state & E2) & 

eventrestr:EventRestr & eventhead:EventHead)). 

process(Type,Roles) := 

sem_content(eventstr:event:(activity & event(Type,Roles))). 

state(Rel) := 

sem_content(eventstr:state:(state & Rel)). 

relation(RelConst,RelArgs) := 

relconst:RelConst & relargs:RelArgs. 

accessible_relation(RelConst,RelArgs,AccessibleArgs) := 

relation(RelConst,RelArgs) & 

accessible_args:AccessibleArgs. 

purpose_relation(RelConst,RelArgs,_AccessibleArgs) := 

sem:content:(operator:op_possibility & 

scope:(lexical_content & 

eventstr:event:event(RelConst,RelArgs) 

) 

). 

246

event(Type,Roles) := 

event_type:Type & 

roles:Roles & 

accessible_roles: listcopy(Roles). 


telic_roles(sem_content(operator:op_possibility & 

scope:(lexical_content & 

eventstr:event:roles:Roles ))) := 

Roles. 

sem_content(Content) := 

sem:content:Content. 

has_part(Part) := 

relation(has_part,[Part]). 

consists_of(Material) := 

relation(consists_of,[Material]). 

container_for(What) := 

relation(container_for,[What]). 

no_subconcepts := type:subconcepts:[]. 

unknown(_) := "$unknown$". 

/*************************************************************************************************************** 

subcategorisation 

****************************************************************************************************************/ 

argstr([Subj,DirObj,IndirObj,PrepObj,SentCompl]) := 

argstr_subj(Subj) & 

argstr_dirobj(DirObj) & 

argstr_indirobj(IndirObj) & 

argstr_prepobj(PrepObj) & 

argstr_sentcompl(SentCompl). 

argstr_refarg(Type) := sem:refarg:Type. 

argstr_extarg(Type) := sem:extarg:Type. 

argstr_subj(Sign & sem:refarg:Sem) := syn:argstr:subj:Sign & sem:extarg:Sem. 

argstr_dirobj(Sign) := syn:argstr:dir_obj:Sign. 

argstr_indirobj(Sign) := syn:argstr:indir_obj:Sign. 

argstr_prepobj(Sign) := syn:argstr:prep_obj:Sign. 

argstr_sentcompl(Sign) := syn:argstr:sent_compl:Sign. 

argstr_relarg(Sign) := syn:argstr:(noun_argstr & relarg:Sign). 

argstr_intarg(Sign) := syn:argstr:(adj_argstr & intarg:Sign). 

argstr_order(OrderList) := syn:argstr:argstr_order:OrderList. 

defargs(Arglist) := syn:argstr:defargs:Arglist. 

adjuncts(Adjuncts) := syn:argstr:adjuncts:Adjuncts. 

247


no_arguments := argstr_relarg([]) & argstr_order([]) & defargs([]). 

empty_morph_subcat := morph:msubcat:needs:[]. 

/*************************************************************************************************************** 

Theta roles 

****************************************************************************************************************/ 

role(Thetarole,RoleArg) := 

role:Thetarole & 

sel_restr:RoleArg. 

agent(Type) := role(agent, Type). 

patient(Type) := role(patient, Type). 

instrument(Type) := role(instrument, Type). 

experiencer(Type) := role(experiencer, Type). 

goal(Type) := role(goal, Type). 

source(Type) := role(source, Type). 

theme(Type) := role(theme, Type). 

location(Type) := role(location, Type). 

beneficiary(Type) := role(beneficiary, Type). 

/*************************************************************************************************************** 

**************************************************************************************************************** 

Testing 

**************************************************************************************************************** 

****************************************************************************************************************/ 

% Note: due to the incomplete proof strategy of CUF the empty inflectional 

% categories are explicitly marked with "$" 

% main test predicate 

test(No) := 

cat(syntactic_atom & 

syn:head:cat:cat & 

syn:argstr:argstr & 

sem:content:content, 

testword(No)). 

% inflection 

testword(1) := ["bibliothek","$"]. 

testword(2) := ["bibliothek","en"]. 

testword(3) := ["buch","$"]. 

testword(4) := ["buech","er"]. 

testword(5) := ["buech","ern"]. 

testword(6) := ["rett","en"]. 

testword(7) := ["giess","en"]. 

testword(8) := ["staun","en"]. 

testword(9) := ["rett","$","en"]. 

testword(10) := ["rett","et","en"]. 

testword(11) := ["rett","et","est"]. 

testword(12) := ["messer","$"]. 

testword(13) := ["sohn","$"]. 

testword(14) := ["soehn","e"]. 

testword(15) := ["messer","n"]. 

testword(16) := ["fabrik","en"]. 

testword(17) := ["arbeit","$","en"]. 

testword(18) := ["renovier","t"]. 

testword(19) := ["ge","renovier","t"]. % * 

testword(20) := ["ge","rett","et"]. 

248

testword(21) := ["rett","end"]. 

testword(22) := ["fan","$"]. 

testword(23) := ["fan","s"]. 

testword(24) := ["ge","pruef","t"]. 

testword(25) := ["brot","$"]. 

testword(26) := ["brot","e"]. 

testword(27) := ["wasser","$"]. 

testword(28) := ["fabrik","$"]. 

testword(29) := ["museum","$"]. 

testword(50) := ["frei"]. 

testword(51) := ["schoen"]. 


% derivation: suffixation 

testword(100) := ["rett","bar"]. 

testword(101) := ["rett","ung","$"]. 

testword(102) := ["rett","ung","en"]. 

testword(103) := ["frei","ung","$"]. % * [-ung subkategorisiert Verben] 

testword(104) := ["giess","ung","$"]. % * [-ung subkategorisiert trans. Verben] 

testword(105) := [""]. 

testword(106) := ["frei","heit","$"]. 

testword(107) := ["arbeit","er","$"]. 

testword(108) := ["bohr","er","$"]. 

testword(109) := ["pruef","er","$"]. 

testword(110) := ["rett","er","$"]. 

testword(111) := ["pruef","ung","$"]. 

testword(112) := ["rett","bar","keit","$"]. 

testword(113) := ["fall","er","$"]. % * (Lexikoneintrag fehlt) 

testword(114) := ["be","staun","er","$"]. 

testword(115) := ["renovier","er","$"]. 

testword(116) := ["renovier","bar","keit","$"]. 

testword(117) := ["fall","bar","keit","$"]. % * 

testword(118) := ["renovier","ung","$"]. 

testword(119) := ["verkauf","$","$"]. 

testword(120) := ["horn","ist","$"]. 

% derivation: prefixation 

testword(200) := ["un","frei"]. 

testword(201) := ["be","giess","en"]. 

testword(202) := ["be","staun","en"]. 

% derivation: suffixation + prefixation 

testword(300) := ["be","staun","bar","keit","$"]. 

testword(301) := ["be","staun","bar"]. 

testword(302) := ["un","rett","bar"]. 

testword(303) := ["un","rett","bar","keit","$"]. 

% conversion 

testword(400) := ["",""]. 

testword(401) := ["schoen","en"]. 

% composition: NN with relational head 

testword(500) := ["messer","fan","$"]. 

testword(501) := ["messer","sohn","$"]. % * because of selectional restrictions of Sohn 

testword(550) := ["museum","s","fan","$"]. 

testword(551) := ["buch","fan","$"]. 

testword(552) := ["buech","er","fan","$"]. 

249

% relational V 

testword(580) := ["hack","messer","$"]. 


% composition: NN with deverbal head 

testword(600) := ["buech","er","pruef", "er", "$"]. 

testword(601) := ["buch","pruef", "er", "$"]. 

testword(602) := ["messer","pruef", "er", "$"]. 

testword(603) := ["buch","pruef", "ung","$"]. 

testword(604) := ["bibliothek","s","renovier","ung","$"]. 

testword(605) := ["fabrik","verkauf","$","$"]. % has also a conceptual reading 

testword(606) := ["museum","s","verkauf","$","$"]. 

% composition: NN with stereotypical relation 

testword(700) := ["museum","s","buch","$"]. 

testword(701) := ["buch","museum","$"]. 

testword(702) := ["buech","er","museum","$"]. 

testword(703) := ["buech","er","verkauf","$","$"]. 

testword(704) := ["buech","er","fabrik","$"]. % ok 

testword(705) := ["messer","fabrik","$"]. % ok 

testword(706) := ["brot","fabrik","$"]. % ok 

testword(707) := ["brot","messer","$"]. % ok 

testword(708) := ["fabrik","streik","$"]. 

testword(709) := ["wasser","tasse","$"]. 

testword(710) := ["buch","verkauf","$","$"]. 

% composition: NN with general relation 

testword(800) := ["stahl","messer","$"]. 

testword(801) := [""]. 

testword(802) := ["museums","s","bibliothek","$"]. 

testword(803) := ["buech","er","bibliothek","$"]. % * aus semant. Gründen 

testword(804) := ["stahl","bohr","er","$"]. 

% composition & derivation 

testword(900) := ["buech","er","be","staun","er","$"]. 

% base relation 

testword(950) := ["schoen","tasse","$"]. % this is an artificial example 

% words with unknown parts 

testword(1000) := [unknown("schumisier"),"bar"]. 

testword(1001) := [unknown("umleit"),"ung","$"]. 

testword(1002) := [unknown("haendl"),"er","$"]. 

/* 

% composition: N-N 

testword(502) := ["museum","s","kosten","$"]. 

testword(504) := ["museum","s","streik","$"]. 

testword(505) := ["tasse","n","museum","$"]. 

testword(507) := ["streik","museum","$"]. % * 

testword(514) := ["fabrik","buch","$"]. 

% General relations 

test_word(300) := ['Tasse',n,'Tisch']. 

250

% Composition & Derivation 

test_word(600) := [rett,ung,s,'Kosten']. 

test_word(601) := ['Kosten',rechn,ung,en]. 

test_word(603) := ['Tisch',rechn,er]. 

*/ 


/*************************************************************************************************************** 

********************************************************************************** 

Utils 

Note: all normally recursive predicates like append etc. are reduced to a finite 

set of special cases to prevent loops 

********************************************************************************** 

****************************************************************************************************************/ 

foreign(value_instantiated(intern,intern) -> (-extern)). 

foreign(value_not_instantiated(intern,intern) -> (-extern)). 

foreign(is_of_type(intern,intern) -> (-extern)). 

foreign(is_of_type_group(intern) -> (-extern)). 

foreign(is_of_type_individual(intern) -> (-extern)). 

foreign(type_of(intern) -> (-extern)). 

true(top) := top. 

split([X1,X2], [X1], [X2]) := top. 

split([X1,X2,X3], [X1,X2], [X3]) := top. 

split([X1,X2,X3], [X1], [X2,X3]) := top. 

split([X1,X2,X3,X4], [X1,X2,X3], [X4]) := top. 

split([X1,X2,X3,X4], [X1,X2], [X3,X4]) := top. 

split([X1,X2,X3,X4], [X1], [X2,X3,X4]) := top. 

split([X1,X2,X3,X4,X5], [X1], [X2,X3,X4,X5]) := top. 

split([X1,X2,X3,X4,X5], [X1,X2], [X3,X4,X5]) := top. 

split([X1,X2,X3,X4,X5], [X1,X2,X3], [X4,X5]) := top. 

split([X1,X2,X3,X4,X5], [X1,X2,X3,X4], [X5]) := top. 

split([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4,X5], [X6]) := top. 

split([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4], [X5,X6]) := top. 

split([X1,X2,X3,X4,X5,X6], [X1,X2,X3], [X4,X5,X6]) := top. 

split([X1,X2,X3,X4,X5,X6], [X1,X2], [X3,X4,X5,X6]) := top. 

split([X1,X2,X3,X4,X5,X6], [X1], [X2,X3,X4,X5,X6]) := top. 

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5,X6], [X7]) := top. 

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5], [X6,X7]) := top. 

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4], [X5,X6,X7]) := top. 

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3], [X4,X5,X6,X7]) := top. 

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2], [X3,X4,X5,X6,X7]) := top. 

split([X1,X2,X3,X4,X5,X6,X7], [X1], [X2,X3,X4,X5,X6,X7]) := top. 

split3([X1,X2,X3], [X1], [X2], [X3]) := top. 

split3([X1,X2,X3,X4], [X1], [X2], [X3,X4]) := top. 

split3([X1,X2,X3,X4], [X1,X2], [X3], [X4]) := top. 

split3([X1,X2,X3,X4,X5], [X1], [X2], [X3,X4,X5]) := top. 

split3([X1,X2,X3,X4,X5], [X1,X2], [X3], [X4,X5]) := top. 

split3([X1,X2,X3,X4,X5], [X1,X2,X3], [X4], [X5]) := top. 

split3([X1,X2,X3,X4,X5,X6], [X1], [X2], [X3,X4,X5,X6]) := top. 

251


split3([X1,X2,X3,X4,X5,X6], [X1,X2], [X3], [X4,X5,X6]) := top. 

split3([X1,X2,X3,X4,X5,X6], [X1,X2,X3], [X4], [X5,X6]) := top. 

split3([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4], [X5], [X6]) := top. 

split3([X1,X2,X3,X4,X5,X6,X7], [X1], [X2], [X3,X4,X5,X6,X7]) := top. 

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2], [X3], [X4,X5,X6,X7]) := top. 

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3], [X4], [X5,X6,X7]) := top. 

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4], [X5], [X6,X7]) := top. 

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5], [X6], [X7]) := top. 

testsplit(L) := split(L,L1,L2) & [L1,L2]. 

testsplit3(L) := split3(L,L1,L2,L3) & [L1,L2,L3]. 

% 

% delete_elist(List): delete all occurences of elist from List 

% 

delete_elist([]) := []. 

delete_elist([[]]) := []. 

delete_elist([A & ~elist]) := [A]. 

%delete_elist([]) := []. 

%delete_elist([elist|T]) := delete_elist(T). 

%delete_elist([A & ~elist|T]) := [A|delete_elist(T)]. 

append([],L) := L. 

append([X],L) := [X|L]. 

append([X,Y],L) := [X,Y|L]. 

append([X,Y,Z],L) := [X,Y,Z|L]. 

member(X,[X]) := top. 

member(X,[_,X]) := top. 

member(X,[X,_]) := top. 

member(X,[X,_,_]) := top. 

member(X,[_,X,_]) := top. 

member(X,[_,_,X]) := top. 

member(X,[X,_,_,_]) := top. 

member(X,[_,X,_,_]) := top. 

member(X,[_,_,X,_]) := top. 

member(X,[_,_,_,X]) := top. 

% member-predicate that returns the list without the found element X 

member(X,[X],[]) := top. 

member(X,[A1,X],[A1]) := top. 

member(X,[X,A1],[A1]) := top. 

member(X,[X,A1,A2],[A1,A2]) := top. 

member(X,[A1,X,A2],[A1,A2]) := top. 

member(X,[A1,A2,X],[A1,A2]) := top. 

member(X,[X,A1,A2,A3],[A1,A2,A3]) := top. 

member(X,[A1,X,A2,A3],[A1,A2,A3]) := top. 

member(X,[A1,A2,X,A3],[A1,A2,A3]) := top. 

member(X,[A1,A2,A3,X],[A1,A2,A3]) := top. 

%append([],L) := L. 

%append([H|T],L) := [H|append(T,L)]. 

%member(X,[X|_]) := top. 

%member(X,[_|R]) := member(X,R). 

% create a copy of the list 

listcopy([]) := []. 

listcopy([H|T]) := [H|listcopy(T)]. 

252

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?