11.02.2013 Aufrufe

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

Aspekte der morphologischen Analyse des Deutschen - Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Aspekte</strong> <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong><br />

<strong>des</strong> <strong>Deutschen</strong><br />

Dissertation<br />

zur Erlangung <strong>des</strong> akademischen Gra<strong>des</strong><br />

Doctor philosophiae (Dr. phil.)<br />

eingereicht an <strong>der</strong> Philosophischen Fakultät II<br />

<strong>der</strong> <strong>Universität</strong> Potsdam<br />

im August 1999<br />

von<br />

Thomas Hanneforth


Meinen Eltern gewidmet


Inhaltsverzeichnis<br />

1 EINFÜHRUNG ....................................................................................................................1<br />

1.1 Zielsetzung <strong>der</strong> Arbeit ..................................................................................................................................1<br />

1.2 Vorarbeiten und verwandte Arbeiten zur Computer-Morphologie ....................................................4<br />

1.2.1 Two-Level-Morphologie und ihre Vorläufer ...........................................................................................4<br />

1.2.2 Vorarbeiten aus dem Bereich <strong>der</strong> Lemmatisierung ............................................................................9<br />

1.2.3 Die Lemmatisierungskonzeption von Finkler & Neumann (1986) ................................................12<br />

1.2.4 Die objektorientierte Konzeption von Daelemans (1987) ................................................................15<br />

1.2.5 Lexikalische Regeln ...............................................................................................................................19<br />

1.3 Fazit.................................................................................................................................................................21<br />

1.4 Methodisches................................................................................................................................................22<br />

1.5 Zum Aufbau <strong>der</strong> Arbeit ..............................................................................................................................23<br />

2 MERKMALSSTRUKTUREN.......................................................................................... 24<br />

2.1 Typisierte Merkmalsstrukturen................................................................................................................24<br />

2.2 Typsysteme....................................................................................................................................................26<br />

2.2.1 Konstruktion von Typsystemen ..........................................................................................................27<br />

2.3 Subsumption.................................................................................................................................................28<br />

2.4 Beschreibungslogik .....................................................................................................................................29<br />

2.4.1 Semantik von Merkmalstermen...........................................................................................................32<br />

2.4.2 Normalformen........................................................................................................................................32<br />

2.5 Phrasenstrukturregeln ................................................................................................................................41<br />

3 WORTSYNTAX UND WORTSEMANTIK DES DEUTSCHEN.............................. 44<br />

3.1 Wortsyntax.....................................................................................................................................................44<br />

3.1.1 Flexion .....................................................................................................................................................44<br />

3.1.1.1 Modelle <strong>der</strong> Flexion .......................................................................................................................46<br />

3.1.1.2 Minimalistische Morphologie.......................................................................................................49<br />

3.1.2 Derivation und Komposition ...............................................................................................................55<br />

3.1.2.1 Strukturregeln.................................................................................................................................56<br />

3.1.2.2 Argumentvererbung ......................................................................................................................59<br />

3.2 Wortbildung im <strong>Deutschen</strong> .......................................................................................................................61<br />

3.2.1 Komposition ...........................................................................................................................................61<br />

3.2.2 Derivation ...............................................................................................................................................64<br />

3.2.2.1 Suffigierung.....................................................................................................................................64<br />

3.2.2.2 Präfigierung ....................................................................................................................................65<br />

3.2.2.3 Konversion ......................................................................................................................................67<br />

3.3 Wortsemantik................................................................................................................................................69<br />

3.3.1 Wortsemantik als Wissensrepräsentation ..........................................................................................69<br />

i


3.3.2 Wortsemantik als freie Anwendung semantischer Operationen....................................................75<br />

3.4 Das generative Lexikon ..............................................................................................................................82<br />

3.4.1 Struktur ...................................................................................................................................................82<br />

3.4.2 Generative Operationen........................................................................................................................87<br />

3.5 Resümee.........................................................................................................................................................88<br />

3.5.1 Vereinheitlichung von Komposition und Derivation?.....................................................................88<br />

3.5.2 Lexikalisierte Wortgrammatiken?.......................................................................................................89<br />

3.5.3 Ziele .........................................................................................................................................................90<br />

4 EIN MODELL EINES MORPHOLOGISCHEN ANALYSESYSTEMS .................. 91<br />

4.1 Die Organisation <strong>des</strong> Lexikons ................................................................................................................ 92<br />

4.2 Der segmentierende Automat................................................................................................................... 93<br />

4.2.1 Das Automatenmodell......................................................................................................................... 93<br />

4.3 Wortstrukturparsing................................................................................................................................... 99<br />

4.3.1 Das Parsverfahren .............................................................................................................................. 100<br />

4.3.2 Behandlung unbekannter Segmente ................................................................................................ 105<br />

4.3.2.1 Verfeinerungen............................................................................................................................ 108<br />

4.4 Behandlung <strong>der</strong> Allomorphie................................................................................................................. 110<br />

4.4.1 Kompilation <strong>der</strong> Allomorphe............................................................................................................ 113<br />

4.4.2 Behandlung von morphographematischen Kombinationsbeschränkungen.............................. 114<br />

4.5 Weitere <strong>Aspekte</strong> ........................................................................................................................................ 114<br />

4.5.1 Aktualisierung <strong>des</strong> Automaten ........................................................................................................ 114<br />

4.5.2 Interaktion mit dem Satzstrukturparser.......................................................................................... 116<br />

4.6 Zusammenfassung.................................................................................................................................... 117<br />

5 EINE MERKMALSBASIERTE BESCHREIBUNG EINIGER ASPEKTE DER<br />

MORPHOLOGIE IM DEUTSCHEN.............................................................................. 119<br />

5.1 Morphologische Typenhierarchie und Lexikon ................................................................................. 120<br />

5.1.1 Syntax ................................................................................................................................................... 120<br />

5.1.2 Semantik............................................................................................................................................... 124<br />

5.2 Derivation................................................................................................................................................... 132<br />

5.2.1 Syntax ................................................................................................................................................... 132<br />

5.2.2 Semantik............................................................................................................................................... 134<br />

5.2.2.1 -bar .............................................................................................................................................. 134<br />

5.2.2.2 -ung .............................................................................................................................................. 136<br />

5.2.2.3 -er .............................................................................................................................................. 138<br />

5.2.2.4 be- .............................................................................................................................................. 140<br />

5.2.2.5 Weitere Affixe .............................................................................................................................. 140<br />

5.3 Komposition............................................................................................................................................... 141<br />

5.3.1 Syntax ................................................................................................................................................... 141<br />

5.3.2 Semantik............................................................................................................................................... 143<br />

5.3.2.1 Interpretation von relationalen Komposita ............................................................................. 144<br />

5.3.2.2 Interpretation von Stereotyp-Komposita ................................................................................. 149<br />

ii


5.3.2.3 Interpretation von Komposita mit konzeptueller Relation ................................................... 151<br />

5.3.3 Fazit ...................................................................................................................................................... 154<br />

5.4 Flexion......................................................................................................................................................... 156<br />

5.4.1 Syntax ................................................................................................................................................... 156<br />

5.4.1.1 Merkmalsbasierte Flexion am Beispiel <strong>der</strong> Verbflexion ........................................................ 159<br />

5.4.1.2 Flexion an<strong>der</strong>er Kategorien........................................................................................................ 165<br />

5.4.2 Semantik............................................................................................................................................... 167<br />

5.5 Konversion ................................................................................................................................................. 170<br />

5.6 Unbekannte Wortteile.............................................................................................................................. 172<br />

5.7 Verwandte Arbeiten ................................................................................................................................. 174<br />

5.7.1 Antworth (1994) .................................................................................................................................. 174<br />

5.7.2 Ritchie et al. (1992).............................................................................................................................. 175<br />

5.8 Implementierung ...................................................................................................................................... 175<br />

6 ZUSAMMENFASSUNG................................................................................................ 176<br />

6.1 Was erzielt wurde und was nicht........................................................................................................... 176<br />

6.2 Typisierte Merkmalsstrukturen............................................................................................................. 177<br />

6.3 Wortzerlegung und -analyse................................................................................................................... 178<br />

LITERATURVERZEICHNIS ........................................................................................... 179<br />

ANHANG A: ANALYSEALGORITHMEN .................................................................. 187<br />

A.1 Konstruktion <strong>des</strong> Segmentierers .......................................................................................................... 187<br />

A.1.1 Konstruktion von Übergangs-, failure- und Ausgabefunktion.................................................... 187<br />

A.1.2 Umwandlung <strong>des</strong> parallelen Pattern-Matchers in einen DEA.................................................... 189<br />

ANHANG B: TYPENHIERARCHIE UND MERKMALSEINFÜHRUNG.............. 190<br />

ANHANG C: PROGRAMMCODE ................................................................................ 194<br />

C.1 Der Segmentierer ..................................................................................................................................... 194<br />

C.2 Der Chart-Parser....................................................................................................................................... 203<br />

C.3 CUF-Programmtext <strong>der</strong> <strong>morphologischen</strong> Grammatik..................................................................... 209<br />

iii


1 Einführung<br />

1.1 Zielsetzung <strong>der</strong> Arbeit<br />

Kapitel 1: Einführung<br />

Das Ziel <strong>der</strong> vorliegenden Arbeit besteht ganz allgemein darin, Architekturprinzipien eines<br />

Paradigmas <strong>der</strong> Informatik und neueren Computerlinguistik mit Theorien und Resultaten<br />

<strong>der</strong> generativen Grammatik in Verbindung zu bringen, um auf diese Weise einen neuen Ansatz<br />

zur Lösung von Problemen zu entwickeln, mit denen sich die Computerlinguistik beschäftigt.<br />

Konkret geht es um den Problemkreis <strong>der</strong> maschinellen <strong>morphologischen</strong> <strong>Analyse</strong><br />

natürlicher Sprache, d.h. um die Entwicklung von Verfahren, die Wörter in ihre kleinsten<br />

Bestandteile zerlegen, um ihre syntaktischen und semantischen Eigenschaften zu bestimmen.<br />

Diese Art <strong>der</strong> <strong>Analyse</strong> ist erst relativ spät in das Zentrum <strong>des</strong> computerlinguistischen Interesses<br />

gerückt, was sich sicher auf die vorherrschende Stellung <strong>des</strong> Englischen in diesem Bereich<br />

und <strong>des</strong>sen wenig ausgeprägte Oberflächenmorphologie zurückführen läßt. Konsequenterweise<br />

wurden morphologische Regularitäten dadurch abgebildet, daß man sie „mit<br />

Silikon bewarf", wie es An<strong>der</strong>son (1988) pointiert formuliert hat – sie also überhaupt nicht<br />

berücksichtigte und sog. Vollformenlexika verwendete, somit Lexika, die alle flektierten Formen<br />

einer bestimmten Grundform enthalten und <strong>der</strong>en morphosyntaktische Merkmale verzeichnen.<br />

Die <strong>Analyse</strong>verfahren waren dementsprechend einfach und beschränkten sich im<br />

Grunde auf einen reinen Lexikonzugriff, um die Wortform aufzufinden und <strong>der</strong>en relevante<br />

Merkmale zu erhalten. Da im Zuge <strong>der</strong> internationalen Ausbreitung <strong>der</strong> Computerlinguistik<br />

auch an<strong>der</strong>e Sprachen, darunter auch solche mit ausgeprägteren <strong>morphologischen</strong> Phänomen,<br />

einer <strong>Analyse</strong> mit dem Computer zugänglich gemacht werden sollten, ergab sich jedoch<br />

die Notwendigkeit, bei <strong>der</strong> Merkmalsbestimmung von Wortformen mit Hilfe <strong>der</strong> offenkundigen<br />

und in je<strong>der</strong> Grammatik verzeichneten Regeln <strong>der</strong> Flexion und Wortbildung<br />

diese Formen in ihre Bestandteile zu zerlegen.<br />

Vollformenlexika sind folglich aus min<strong>des</strong>tens zwei Gründen inadäquat. Aus technischer<br />

Sicht führen Vollformen eine erhebliche Redundanz in die Sprachbeschreibung ein, da an<br />

sich vorhersagbare Informationen an vielen Stellen im Lexikon dupliziert werden müssen.<br />

Zum einen hat das seinen Grund darin, daß die Anzahl <strong>der</strong> flektierten Formen einer Grundform<br />

gegenüber dieser um Größenordnungen höher sein kann. In mild flektierenden Sprachen<br />

wie dem <strong>Deutschen</strong> hält sich diese noch in Grenzen, wobei sich jedoch im Verbbereich<br />

einige Dutzend Flexionsformen zu einem einzelnen Verb wie beispielsweise singen bilden<br />

lassen. In an<strong>der</strong>en Sprachen wie dem Finnischen wird das Problem jedoch deutlicher, da<br />

finnische Verben bis zu 15.000 verschiedene Formen aufweisen können (nach Karlsson<br />

(1986)). In solchen Sprachen erreicht ein hinreichend großes Lexikon Dimensionen, die auch<br />

mo<strong>der</strong>ne Computer an die Grenzen ihrer Kapazität stoßen lassen. Zum an<strong>der</strong>en verzeichnet<br />

das Lexikon üblicherweise nicht nur morphosyntaktische Merkmale wie Person, Numerus,<br />

Tempus etc. zu den enthaltenen Einträgen, son<strong>der</strong>n auch Angaben zum syntaktischen und<br />

semantischen Verhalten <strong>der</strong> Form, beispielsweise in Form eines Subkategorisierungsrahmens<br />

mit thematischen Rollen und Kasuszuweisungseigenschaften. Flexionsparadigmen<br />

sind nun gerade dadurch definiert, daß alle in ihnen enthaltenen Formen über eine annähernd<br />

gleiche Bedeutung verfügen, diese aber in einem Vollformenlexikon je<strong>der</strong> Form erneut<br />

zugeordnet werden muß.<br />

1


Kapitel 1: Einführung<br />

Dies führt über zum zweiten Grund <strong>der</strong> Inadäquatheit dieses Lexikontyps, <strong>der</strong> linguistischer<br />

Natur ist. Die Regelgeleitetheit vieler morphologischer Phänomene, also die Abhängigkeit<br />

bestimmer Formen untereinan<strong>der</strong>, geht in dieser Konzeption verloren.<br />

Das Alternativmodell hierzu, das sog. Grundformenlexikon, vermeidet diese Probleme. Bei<br />

diesem Typ von Lexikon definiert man für jede Wortart ausgezeichnete Grundformen, die<br />

man im Lexikon zusammen mit Informationen über <strong>der</strong>en Kombinierbarkeit mit Flexionsaffixen<br />

u.ä. verzeichnet. Die Grundbedingung ist, daß sich mit Hilfe <strong>der</strong> Grundform und <strong>der</strong><br />

Zusatzinformationen alle flektierten Formen und nur diese gewissermaßen »errechnen« lassen.<br />

Umgekehrt soll von einer konkreten Wortform auf ihre Grundform und <strong>der</strong>en Merkmale<br />

geschlossen werden können. Es ist einleuchtend, daß ein solches System von den <strong>morphologischen</strong><br />

Regelmäßigkeiten <strong>der</strong> betreffenden Sprache in irgendeiner Weise Gebrauch<br />

machen muß, auch wenn dies auf sehr verschiedene Weise geschehen kann. Die hierbei gewählten<br />

Ansätze, von denen einige in Abschnitt 1.2 etwas detaillierter behandelt werden,<br />

lassen sich jedoch alle in das auch an an<strong>der</strong>en Stellen nützliche Spektrum zwischen Deklarativität<br />

und Prozeduralität einordnen.<br />

Grundformenlexika stellen nun zwar einen Fortschritt gegenüber <strong>der</strong> Verzeichnung aller<br />

Formen eines Wortes dar, weisen jedoch noch einige Mängel auf, auf die ich allerdings erst<br />

im 4. Kapitel zu sprechen kommen werde.<br />

Das Ziel dieser Arbeit ist es, ein Modell eines Programms zur <strong>morphologischen</strong> <strong>Analyse</strong> zu<br />

entwickeln und zu implementieren. Dieses soll auf einer ebenfalls zu entwickelnden Lexikonkonzeption<br />

beruhen, welche geeignet ist, morphologische Regularitäten konzis und elegant<br />

abzubilden. Das Gesamtprogramm soll so angelegt sein, daß es in einen größeren Systemzusammenhang<br />

eingebunden ist und folgende Aufgaben wahrnehmen kann:<br />

� Deflexion<br />

� De-Derivation und Dekomposition<br />

� Lexikalische Akquisition und morphologisches Lernen<br />

Auf den ersten Punkt <strong>der</strong> Deflexion bin ich schon im Kontext <strong>der</strong> Vollformenlexika eingegangen.<br />

Es geht hierbei um die Reduktion einer im Text erscheinenden Wortform auf eine<br />

Grundform, von <strong>der</strong> vorausgesetzt wird, daß sie im Lexikon verzeichnet ist, zum Zwecke<br />

<strong>der</strong> Bestimmung <strong>der</strong> für die Syntax relevanten Merkmale <strong>der</strong> Form.<br />

Die zweite Aufgabe <strong>des</strong> Morphologiesystems ist, den produktiven Wortbildungsprozessen<br />

<strong>der</strong> Komposition und Derivation im <strong>Deutschen</strong> gerecht zu werden, bei denen neue Wörter<br />

in regelgeleiteter Weise auf <strong>der</strong> Grundlage bereits bekannter Bestandteile gebildet werden.<br />

Auch hier wird davon ausgegangen, daß diese Bestandteile im Lexikon <strong>des</strong> Systems enthalten<br />

sind.<br />

Der dritte Punkt schließlich betrifft die Strategien, die gewählt werden können, falls die bei<br />

den beiden vorangegangen Punkten gefor<strong>der</strong>te Bedingung <strong>des</strong> Enthaltenseins aller Bestandteile<br />

im Lexikon nicht mehr eingehalten werden kann. Es geht also um Methoden, wie die<br />

Arbeit <strong>des</strong> <strong>Analyse</strong>programms auch dann fortgesetzt werden kann, wenn Teile einer Wortform<br />

unbekannt sind. Darüber hinaus soll versucht werden, unter Ausnutzung sprachlichen<br />

Wissens über Bildungsregelmäßigkeiten von komplexen Wörtern ein Maximum an Information<br />

über solche Formen zu erschließen und für an<strong>der</strong>e Systemkomponenten verwertbar<br />

zu machen. Aus Gründen <strong>der</strong> Beschränkung werden allerdings hierbei nur Informationen<br />

verwendet, die auf <strong>der</strong> Wortebene verfügbar sind, d.h. Informationen aus dem syntaktischen,<br />

semantischen und pragmatischen Kontext <strong>des</strong> ganz bzw. teilweise unbekannten<br />

Wortes werden nicht berücksichtigt. Beabsichtigt ist, daß die Morphologiekomponente eine<br />

2


Kapitel 1: Einführung<br />

Reihe von alternativen Interpretationen erzeugt, die Eingabe <strong>der</strong> an<strong>der</strong>en Systemkomponenten<br />

sind.<br />

Nachdem die Funktionalität <strong>des</strong> <strong>Analyse</strong>modells in grober Form festgelegt ist, möchte ich<br />

noch einige Worte zu den Prinzipien sagen, an denen sich das Modell orientiert. Diese sind:<br />

� Typisierung und Vererbung<br />

� Einbeziehung generativer Wortstrukturtheorien.<br />

Die Prinzipien <strong>der</strong> Typisierung und Vererbung, die in Kapitel 2 näher vorgestellt werden,<br />

sind wichtige Elemente im Paradigma <strong>der</strong> sog. Objektorientierung. Dieser Begriff spielt in <strong>der</strong><br />

theoretischen und angewandten Informatik mittlerweile eine wichtige Rolle 1 und kann unter<br />

zwei verschiedenen Blickwinkeln gesehen werden. Einmal bezieht er sich auf Objektorientierung<br />

auf <strong>der</strong> Implementationsseite, also auf eine bestimmte Technik <strong>des</strong> Softwareentwurfs,<br />

die für sich in Anspruch nimmt, einen verbesserten Beitrag zur Wie<strong>der</strong>verwendbarkeit,<br />

Erweiterbarkeit etc. von Softwareprodukten zu machen. Dieser Aspekt ist für die Modellbildung<br />

innerhalb <strong>der</strong> Linguistik jedoch nicht so interessant. Wichtiger in diesem Zusammenhang<br />

ist die Objektorientierung auf <strong>der</strong> Ebene <strong>der</strong> Beschreibung. Hierbei wird versucht,<br />

schon bei <strong>der</strong> Konstruktion eines Modells einer bestimmten Domäne Datenelemente und<br />

Operationen zu einer syntaktischen Einheit zusammenzufassen. Möchte man ein Realsystem<br />

(beispielsweise ein Unternehmen) und die Beziehungen seiner Subsysteme untereinan<strong>der</strong><br />

innerhalb eines Computermodells abbilden (z.B. im Rahmen eines betrieblichen Führungssystems),<br />

so liegt es auf <strong>der</strong> Hand, diese Subkomponenten und <strong>der</strong>en interne Zustände als<br />

die Objekte auf <strong>der</strong> Modellebene anzusehen.<br />

Im Bereich <strong>der</strong> Linguistik liegt es nun nahe, die Wörter 2 einer Sprache und die daraus aufgebauten,<br />

komplexeren Strukturen als die relevanten Objekte <strong>der</strong> Beschreibungsebene zu rekonstruieren.<br />

Wörter legen ein bestimmtes syntaktisches und semantisches Verhalten an den<br />

Tag und haben einerseits idiosynkratische, an<strong>der</strong>erseits aber auch vorhersagbare Eigenschaften.<br />

Faßt man diese Eigenschaften zu einer Einheit zusammen, so hat dies zum einen<br />

den Vorteil, daß damit die Informationen, die das Wort charakterisieren, an einer einzigen<br />

Stelle im Modell, <strong>der</strong> diesem Wort zugeordneten Klasse, repräsentiert sind. Möchte man<br />

dann eine <strong>der</strong> Eigenschaften eines Wortes än<strong>der</strong>n, so muß man das nur an einer Stelle tun.<br />

Zum an<strong>der</strong>en ist durch ein solches Wort-Objekt die Gesamtheit <strong>der</strong> zu beschreibenden Eigenschaften<br />

eines Wortes gegeben, und nicht nur die häufig im Vor<strong>der</strong>grund stehenden syntaktischen<br />

Eigenschaften. Ein Parsing-Verfahren, also ein Verfahren, welches die strukturellen<br />

Beziehungen von syntaktischen Symbolen (z.B. Wörtern o<strong>der</strong> Morphemen) untereinan<strong>der</strong><br />

maschinell rekonstruiert, kann hierbei schon beim Aufbau von Strukturen an<strong>der</strong>e Informationsquellen<br />

(Semantik, Weltwissen etc.) nutzen und dadurch im Falle mehrdeutiger Strukturzuweisung<br />

fundiertere Entscheidungen treffen.<br />

Das Ziel objektorientierter Konzeptionen in <strong>der</strong> Sprachverarbeitung ist es somit, einen Beitrag<br />

zur Integration verschiedener sprachlicher und nichtsprachlicher Informationsquellen<br />

(Morphologie, Syntax, Semantik, Pragmatik) zu leisten und diese nicht in <strong>der</strong> sonst üblichen<br />

1 Objektorientierung wird beispielsweise diskutiert im Bereich <strong>der</strong> Wissensrepräsentation (Frame-basierte<br />

Systeme), Datenbanken (objektorientierte Datenbanken), Programmiersprachen, Aktorensysteme<br />

usw.<br />

2 Das hier vorgestellte Modell setzt noch eine Ebene tiefer an, nämlich auf <strong>der</strong> Ebene <strong>der</strong> Morph(em)e.<br />

Mehr dazu findet sich in Kapitel 4.<br />

3


Kapitel 1: Einführung<br />

Weise als relativ von einan<strong>der</strong> unabhängige Systeme aufzufassen; 3 man kann daher auch<br />

von datenseitiger Integration dieser Systeme auf <strong>der</strong> Wortebene sprechen.<br />

Das an<strong>der</strong>e Entwurfsprinzip betrifft die linguistische Seite <strong>der</strong> Aufgabenstellung. Bei <strong>der</strong><br />

Konzeption <strong>des</strong> <strong>Analyse</strong>modells für zusammengesetzte Wörter im <strong>Deutschen</strong> versuche ich,<br />

intensiven Gebrauch von generativen Theorien <strong>der</strong> Wortbildung und Flexion zu machen.<br />

Diese Theorien haben in den letzten zehn Jahren mit Selkirk (1982), Höhle (1982), Toman<br />

(1987), Bierwisch (1989), Pustejovsky (1995) u.a. einen gewissen Reifegrad und ein damit<br />

verbundenes Beschreibungs- und Erklärungspotential erreicht, daß es ignorant wäre, von<br />

diesen Erkenntnissen keinen Gebrauch zu machen. Ich werde im Kapitel 5 zeigen, daß sich<br />

die Leistungsfähigkeit einer Morphologiekomponente durch Nutzung generativer Ideen<br />

beträchtlich steigern läßt.<br />

1.2 Vorarbeiten und verwandte Arbeiten zur Computer-Morphologie<br />

Dieser Abschnitt ist <strong>der</strong> kritischen Beleuchtung einiger Arbeiten gewidmet, die im weitesten<br />

Sinne als Vorarbeiten gelten können. Zunächst sei das seit Mitte <strong>der</strong> achtziger Jahre einflußreichste<br />

Computermodell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> vorgestellt. Anschließend wende<br />

ich mich einigen Arbeiten zur sog. Lemmatisierung zu, einem Problemkreis, <strong>der</strong> im deutschen<br />

Sprachraum in den 70iger Jahren einige Anstrengungen hervorgerufen hat. Zum Schluß<br />

möchte ich noch auf die Arbeit von Daelemans (1987) zu sprechen kommen, da diese die<br />

einzige mir bekannte Arbeit ist, die versucht, morphologische <strong>Analyse</strong> und Objektorientierung<br />

zusammenzuführen.<br />

1.2.1 Two-Level-Morphologie und ihre Vorläufer<br />

Der erste, <strong>der</strong> sich meines Wissens mit einem universellen, also sprachunabhängigen Modell<br />

<strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> beschäftigte, war Martin Kay (1977). Das Herzstück seines<br />

<strong>Analyse</strong>modells bildet ein Chart-Parser 4 , <strong>der</strong> im Verlauf <strong>der</strong> <strong>Analyse</strong> aufgrund von Regeln,<br />

die <strong>der</strong> generativen Phonologie (vgl. Chomsky/Halle (1968)) entlehnt sind, Kanten in seinen<br />

Chart aufnimmt. Ein Beispiel soll dies verdeutlichen (nach Kay (1977:141)):<br />

y<br />

t r i e d<br />

i<br />

+<br />

e<br />

Abb. 1.1: Chart für die Deflexion von "tried"<br />

3 Wie dies beispielsweise die meisten theoretischen Modelle <strong>der</strong> Sprachkompetenz (z.B. Chomsky<br />

(1981)) aus verständlichen methodologischen Gründen tun.<br />

4 Eine ausführliche Charakterisierung <strong>des</strong> Chart-Parsings gibt beispielsweise Kay (1980).<br />

4<br />

+<br />

e<br />

e<br />

d<br />

d


Kapitel 1: Einführung<br />

Der Chart besteht vor <strong>der</strong> <strong>Analyse</strong> nur aus den "trivialen" Kanten, die die Buchstaben <strong>des</strong> zu<br />

analysierenden Wortes verbinden. Im Verlauf <strong>der</strong> <strong>Analyse</strong> werden aufgrund <strong>der</strong> quasi-phonologischen<br />

Regel<br />

(1) ied� � y + ed�<br />

(� steht für ein Leerzeichen, also für das Wortende) weitere Kanten in den Chart eingeführt.<br />

Integriert in dieses Modell ist eine ökonomische Lexikonorganisation und ein Mechanismus,<br />

<strong>der</strong> die Anwendungsreihenfolge <strong>der</strong> Regeln <strong>der</strong> obengenannten Art regelt. 5<br />

Festzuhalten bleibt, daß dieser Ansatz wohl eher theoretisch als praktisch erfolgreich war; er<br />

war jedoch <strong>der</strong> erste, dem es gelang, ein deklaratives Moment, das aber prozedural interpretiert<br />

werden kann, in die morphologische Beschreibung einzuführen.<br />

Eine weitere Verbesserung morphologischer <strong>Analyse</strong>methoden bedeutete die Einführung<br />

<strong>der</strong> sog. Two-Level-Morphology durch Koskenniemi (1983), seinerzeit beeinflußt von unveröffentlichte<br />

Ideen von M. Kay und R. Kaplan, die erst 1994 in Druck gingen (Kaplan/Kay<br />

(1994)). Ausgehend von einer kurz angedeuteten Idee in Kay (1982) 6 verwendet Koskenniemi<br />

ebenfalls endliche, überführende Automaten (sog. Transducer) 7 , läßt diese jedoch nicht<br />

seriell wie Kay, son<strong>der</strong>n parallel operieren. Die <strong>der</strong> seriellen Transducer-Komposition eigenen<br />

expliziten o<strong>der</strong> impliziten Zwischenbän<strong>der</strong>, die jeweils nach <strong>der</strong> Anwendung einer Regel<br />

gebildet werden, fallen hierbei fort, somit auch das Problem <strong>der</strong> Regelanordnung. Es gibt<br />

nur zwei Bän<strong>der</strong>, dasjenige mit <strong>der</strong> Oberflächenform und dasjenige mit <strong>der</strong> zugrundeliegenden<br />

lexikalischen Form (durch Pluszeichen verbundene Morpheme); das parallele Operieren<br />

<strong>der</strong> jeweils für einzelne Regeln stehenden Transducer legt die Beziehungen o<strong>der</strong> auch<br />

Abweichungen fest, die zwischen den beiden Bän<strong>der</strong>n vorliegen dürfen. Koskenniemi geht<br />

jedoch zunächst nicht von Transducern, son<strong>der</strong>n von einer Regelnotation aus, die erst später<br />

als Transducer abgebildet wird. Eine Two-Level-Regel hat die folgende Form:<br />

a:b op LC __ RC<br />

5 Die phonologische Konzeption von Chomsky/Halle (1968) macht ähnlich <strong>der</strong> generativen Syntaxtheorie<br />

Gebrauch von verschiedenen Beschreibungsebenen, die über Transformationen miteinan<strong>der</strong><br />

in Bezug gesetzt werden. Ähnlich wie in <strong>der</strong> Syntax stellt sich jedoch das Problem, in welcher Reihenfolge<br />

die Transformationsregeln bei <strong>der</strong> Ableitung <strong>der</strong> Oberflächenstruktur angewandt werden sollen.<br />

Dieses Problem ist bedeutsam für das weiter unten dargestellte Two-Level-Modell von Koskenniemi<br />

(1983).<br />

6 Kay (1982) schlägt vor, die einzelnen phonologischen Regeln als Transducer aufzufassen, die jeweils<br />

Beschränkungen zwischen <strong>der</strong> Oberflächenform und <strong>der</strong> zugrundeliegenden lexikalischen Form (den<br />

beiden Bän<strong>der</strong>n <strong>des</strong> Transducers) abbilden. Das oben erwähnte Problem <strong>der</strong> Reihenfolge <strong>der</strong> Regelanordnung<br />

könnte durch eine festgelegte Kaskadierung <strong>der</strong> einzelnen Transducer gelöst werden. Da ein<br />

Theorem <strong>der</strong> Automatentheorie besagt (vgl. Reape/Thomson (1988)), daß eine Menge via Komposition<br />

verknüpfter endlicher Transducer äquivalent zu einem einzigen Transducer ist, ist es möglich, die<br />

Transducer-Kaskade durch einen einzigen Automaten zu ersetzen, <strong>der</strong> dann den bekannten Optimierungsverfahren<br />

für endliche Automaten (Zustandsminimierung) zugänglich ist.<br />

7 Formal ist ein Transducer ein 6-Tupel (Q, �, �, �, q0, F ), bei dem Q, q0 und F wie bei einem endlichen<br />

Automaten sind. � und � bilden die Alphabete <strong>der</strong> beiden Bän<strong>der</strong>, während � eine Abbildung von<br />

Q × (� � {�}) auf endliche Teilmengen von Q � � * realisiert. Man kann sich die Funktionsweise eines<br />

Transducers so vorstellen, daß er in einem Zustand Q i einer Kante, die mit einem Symbol aus � � {�}<br />

etikettiert ist, in einen Zustand Q j folgt und dabei einen String aus � * ausgibt.<br />

5


Kapitel 1: Einführung<br />

wobei a und b Alphabetsymbole <strong>der</strong> beiden Bän<strong>der</strong> sind, op aus <strong>der</strong> Menge { �, �, � } ist<br />

und LC und RC den linken bzw. rechten Kontext <strong>des</strong> durch __ veranschaulichten Symbolpaares<br />

auf <strong>der</strong> linken Regelseite bildet. Bei <strong>der</strong> Notation <strong>der</strong> Kontexte kann von Verkettung,<br />

Disjunktion und Kleene-Stern Gebrauch gemacht werden. Als Beispiel für eine konkrete Regel<br />

gebe ich eine Regel für das Englische wie<strong>der</strong> (vgl. Ritchie et al. (1992:152)):<br />

(2) +:e � { s:s x:x z:z } __ s:s<br />

Diese Regel, die die Bildung <strong>des</strong> Plurals von englischen Nomen beschreibt, besagt, daß ein +<br />

auf dem Lexikonband mit einem e auf dem Oberflächenband korrespondiert, gdw. es zwischen<br />

dem angegebenen linken Kontext (geschweifte Klammern stehen dabei für Disjunktion,<br />

eckige für Optionalität) und dem Symbol s auf dem Oberflächenband steht. Das Symbol<br />

+ steht für ein Morphemverknüpfungszeichen auf dem lexikalischen Band. Diese Regel<br />

leistet also einen Teil <strong>des</strong>sen, was die weiter oben wie<strong>der</strong>gegebene Regel von Kay leistet. Die<br />

Semantik <strong>der</strong> Operatoren � , � und � ist in Tabelle 1.1 wie<strong>der</strong>gegeben (vgl. Ritchie et al.<br />

(1992:26f)):<br />

� Context Restriction Das Symbolpaar links vom Operator kann nur in den rechts davon<br />

angegebenen Kontexten stehen.<br />

� Surface Coercion Ist <strong>der</strong> Kontext wie rechts angegeben und befindet sich das erste<br />

Symbol <strong>des</strong> Paares links auf dem Lexikonband, dann muß sich<br />

das zweite Paarsymbol auf dem Oberflächenband befinden.<br />

� Composite Bezeichnet die Kombination von � und �.<br />

Tabelle 1.1: Mögliche Operatoren in Two-Level-Regeln<br />

Der in <strong>der</strong> Regel verwendete �-Operator besagt also beispielsweise, daß, falls <strong>der</strong> angegebene<br />

Kontext vorliegt, das Paar +:e sich auf den beiden Bän<strong>der</strong>n befinden muß und umgekehrt,<br />

wenn das Paar +:e vorliegt, <strong>der</strong> Kontext so wie angegeben beschaffen sein muß.<br />

Eine Beson<strong>der</strong>heit <strong>des</strong> Modells ist sein relationaler Charakter, also die Nichtdirektionalität<br />

<strong>der</strong> beiden Bän<strong>der</strong>. Es kann daher sowohl für die <strong>Analyse</strong> von Oberflächenformen in Morphemfolgen<br />

als auch für die Generierung von Oberflächenformen aus Morphemfolgen eingesetzt<br />

werden. Im Ansatz von Koskenniemi (1983) werden diese Regeln anschließend von<br />

Hand in parallelgeschaltete Transducer umgesetzt; Koskenniemi (1986) schlägt hierzu einen<br />

Regelcompiler vor. Ritchie et al. (1992:150ff) gehen einen etwas an<strong>der</strong>en Weg und erzeugen<br />

speziell interpretierte Automaten, um die zahlreichen Automatenübergänge zu vermeiden,<br />

die nur dazu dienen, einen „Neustart“ je<strong>der</strong> TL-Regel zu ermöglichen, solange noch ihr linker<br />

Kontext abgearbeitet wird. Nach <strong>der</strong> Compilierung von obiger Beispielregel (2) resultiert<br />

beispielsweise <strong>der</strong> in Abbildung 1.2 wie<strong>der</strong>gegebene Automat (aus Ritchie et al. (1992:154)):<br />

s1<br />

s:s<br />

c:c<br />

z:z<br />

x:x<br />

LICENCE TERMINAL<br />

s:s<br />

s3<br />

+:e<br />

s4<br />

s:s<br />

s5<br />

s2<br />

h:h<br />

+:0<br />

s6<br />

6<br />

s:s<br />

ERROR<br />

Abb. 1.2: Korrespondieren<strong>der</strong> Automat zu Regel (2) (unter einem speziellen Interpretationsalgorithmus)


Kapitel 1: Einführung<br />

Verbunden ist diese Konzeption mit einer bestimmten Lexikonorganisation. Das gesamte<br />

Lexikon wird in mehrere Teillexika aufgeteilt, die aufgrund einer durch das morphosyntaktische<br />

Verhalten <strong>der</strong> verschiedenen Morpheme definierten Äquivalenzrelation gebildet werden.<br />

Zu jedem Morphem im Lexikon wird notiert, welche Morphemklassen ihm in <strong>der</strong><br />

Wortstruktur folgen können, also beispielsweise, welche Flexionsendungen nach einem bestimmten<br />

Stamm erlaubt sind. Hieraus ergibt sich implizit eine reguläre Grammatik, die die<br />

Kombinierbarkeit <strong>der</strong> Morpheme auf dem Lexikonband zusätzlich restringiert.<br />

Die Two-Level-Morphology ist für eine ganze Reihe von Sprachen implementiert worden,<br />

neben Finnisch und Englisch auch für „exotische“ Sprachen wie Altkirchenslawisch. Der<br />

Umfang <strong>der</strong> Regelmenge liegt dabei nach Koskenniemi/Church (1988:336) zwischen sieben<br />

(Englisch) und vierzig (klassisches Griechisch). Interessanterweise ist Deutsch bei den üblicherweise<br />

in <strong>der</strong> Literatur angeführten Sprachen nicht dabei. Das Two-Level-Modell ist<br />

wohl auch entgegen den Behauptungen <strong>des</strong> Autors kein Universalmodell, son<strong>der</strong>n vor allem<br />

aufgrund <strong>des</strong> Folgelexikamechanismus dafür geschaffen, die <strong>morphologischen</strong> Phänomene<br />

von sprachtypologisch gesehen agglutinierenden Sprachen wie Finnisch und Türkisch zu<br />

beschreiben. Bei diesen Sprachen gibt es eine 1-zu-1-Beziehung zwischen Morphem(kette)<br />

und Morphembedeutung, wobei die quasi-phonologischen Regeln (quasi, weil es ja Regeln<br />

sind, die auf <strong>der</strong> Orthographie beruhen, die erheblich von <strong>der</strong> Aussprache abweichen kann)<br />

nur noch gewisse Anpassungen bei <strong>der</strong> Juxtaposition <strong>der</strong> Morpheme vornehmen<br />

(beispielsweise Prozesse <strong>der</strong> Vokalharmonie). Wichtig ist hierbei, daß die Anwendung einer<br />

Regel nur durch das Symbolpaar links vom Operator und den linken und rechten Kontext<br />

determiniert wird. An<strong>der</strong>e Indizien können hierzu nicht herangezogen werden. Das Deutsche,<br />

als eine flektierend-fusionierende Sprache kennt jedoch nicht so viele Prozesse, die sich<br />

auf rein phonologische Gründe zurückführen lassen. Vielmehr ist die Wahl bestimmter<br />

Morpheme in vielen Fällen lexikalisch determiniert, beispielsweise bei Nomen die Wahl <strong>des</strong><br />

Pluralmorphems durch die Flexionsklasse <strong>des</strong> Nomens. Ebenso müssen Umlautungen bei<br />

<strong>der</strong> Pluralbildung von Nomen im entsprechenden Lexikoneintrag verzeichnet sein, vgl.<br />

Wald – Wäl<strong>der</strong>, Hund – Hunde, ähnliches gilt für die Wahl <strong>des</strong> Fugenmorphems bei Komposita,<br />

welches vom Vor<strong>der</strong>glied determiniert wird (vgl. Fanselow (1981:10f)). 8 Insbeson<strong>der</strong>e<br />

sind bestimmte Endungen bedeutungsmäßig überladen, wie umgekehrt ein bestimmtes<br />

Merkmal wie Plural auf sehr verschiedene Weise realisiert werden kann. Was <strong>der</strong> Two-<br />

Level-Morphology m. a. W. fehlt ist die Einbeziehung von morphosyntaktischen Bedingungen<br />

und Merkmalen in den <strong>Analyse</strong>prozeß <strong>der</strong> Transducer. Im Finnischen liegen diese Informationen<br />

in indirekter Weise über die wechselseitige Abhängigkeit <strong>der</strong> Merkmale und<br />

die sie realisierenden Morpheme vor, doch ist dies eher als ein Spezialfall <strong>der</strong> Ausbuchstabierung<br />

morphologischer Merkmale aufzufassen. Dieser Mangel wurde wohl auch schon<br />

von Koskenniemi erkannt, da bestimmte Irregularitäten <strong>des</strong> Finnischen durch die Einführung<br />

arbiträrer diakritischer Zeichen auf <strong>der</strong> Lexikonbandebene aufgelöst wurden. Einige<br />

<strong>der</strong> Two-Level-Regeln nehmen dann auf diese Zeichen Bezug. Man kann dagegen einwenden,<br />

und dies ist auch getan worden, vgl. Bear (1988), daß hiermit Dinge zusammengewürfelt<br />

werden, die nicht zusammengehören und sich damit die Formulierung <strong>der</strong> Regeln kompliziert<br />

hat.<br />

8 Natürlich gibt es auch im <strong>Deutschen</strong> rein lautliche Modifikationen. Kandidaten für Two-Level-Regeln<br />

im <strong>Deutschen</strong> sind beispielsweise e-Erweiterung, e-Tilgung, e/i-Wechsel und Konsonantenwechsel<br />

bei <strong>der</strong> Verbkonjugation. Allerdings hängen diese Modifikationen häufig auch von syntaktischen<br />

Merkmalen ab: e/i-Wechsel betrifft beispielsweise die 2. und 3. Pers. Sing. Präs. Ind. und den Imp.<br />

Sing.<br />

7


Kapitel 1: Einführung<br />

Es gibt nun einige Ansätze, die sich dieser Probleme annehmen: Bear (1988) schlägt vor, bestimmte<br />

Irregularitäten <strong>des</strong> Englischen (beispielsweise ist <strong>der</strong> Plural von piano pianos und<br />

nicht pianoes.) dadurch in den Two-Level-Mechanismus zu integrieren, daß man Son<strong>der</strong>fälle<br />

dieser Art explizit im Lexikon mit einem Merkmal markiert, so daß die normalerweise angewendete<br />

Pluralregel von Nomen auf -o (o + s � oes) nicht anwendbar ist. Trost (1990) setzt<br />

hierauf auf, ersetzt jedoch das prozedural interpretierte Regelmerkmal durch eine Unifikation<br />

<strong>der</strong> bis dahin aufgebauten Merkmalsstruktur für die Syntax <strong>des</strong> analysierten Wortes mit<br />

einem <strong>der</strong> Two-Level-Regel zugeordneten Filterterm. Gelingt diese Unifikation, so kann die<br />

Regel angewendet werden. Ist beispielsweise ein Nomen mit [Umlaut: +] für die Pluralbildung<br />

markiert, so wird nur die Two-Level-Regel verwendet, die ebenfalls mit [Umlaut: +]<br />

attribuiert ist.<br />

Eine an<strong>der</strong>e Richtung für Probleme dieser Art schlagen Karttunen et al. (1992) ein: Sie schlagen<br />

vor, die <strong>morphologischen</strong> Merkmale von Morphemen nicht in einem Lexikoneintrag zu<br />

halten, son<strong>der</strong>n direkt auf das Lexikonband <strong>des</strong> Two-Level-Modells zu schreiben. Man<br />

würde dann beispielsweise auf dem Lexikonband nicht mehr try+s stehen haben, son<strong>der</strong>n<br />

try+3pers+sing. Auf diese Weise würde auch mit allomorphen Varianten verfahren werden.<br />

Der "Abstand" zwischen Oberflächen- und Lexikonband würde damit zwar vergrößert,<br />

die Autoren meinen jedoch, durch Komposition <strong>der</strong> Two-Level-Transducer mit dem gesamten<br />

Lexikon unter Vermittlung entsprechen<strong>der</strong> Zwischenbän<strong>der</strong> die Größe <strong>des</strong> entstehenden<br />

Gesamttransducers in passablen Grenzen zu halten. Details hierzu finden sich in<br />

Karttunen et al. (1992) .<br />

Abramson (1992) schlägt vor, die prozedurale Interpretation <strong>der</strong> Two-Level-Regeln als<br />

Transducer außer acht zu lassen und die Regeln vielmehr als deklarativ spezifizierte Relation<br />

zwischen den beiden Bän<strong>der</strong>n aufzufassen. Er veranschaulicht seine Idee durch die Angabe<br />

<strong>der</strong> für das Englische benötigten Two-Level-Regeln als Prolog-Klauseln und überläßt<br />

es dabei dem Prolog-System, den Pfad vom Ausgangszustand in einen Endzustand zu suchen.<br />

Am Ende dieser Übersicht zur Two-Level-Morphology möchte ich noch auf einige Probleme<br />

dieses Modells zu sprechen kommen, die generellerer Natur sind.<br />

� Zuallererst ist es Aufgabe <strong>des</strong> Computerlinguisten, bei <strong>der</strong> Regelspezifikation darauf zu<br />

achten, daß die Regeln nicht in unerwünschter Weise miteinan<strong>der</strong> interagieren. Interaktion<br />

kann auf verschiedene Weise stattfinden; <strong>der</strong> „schlimmste” Fall ist beispielsweise<br />

<strong>der</strong>, wenn in zwei verschiedenen Regeln das gleiche Symbolpaar auftritt, <strong>der</strong> verwendete<br />

Operator « ist und die linken und rechten Kontexte sich gegenseitig ausschließen. Ein<br />

„intelligenter” Regelcompiler wäre zur Vermeidung solcher Fälle nützlich.<br />

� Der zweite Punkt betrifft die implizite reguläre Organisation <strong>des</strong> Lexikons, <strong>der</strong> sog. Folgelexikamechanismus,<br />

<strong>der</strong> zu eng an die Operation <strong>der</strong> Transducer geknüpft ist. Es könnte<br />

sich herausstellen, daß die dem Lexikon implizite reguläre Grammatik zu schwach ist,<br />

um alle <strong>morphologischen</strong> Prozesse aller Sprachen zu beschreiben. Und auch wenn dies<br />

nicht <strong>der</strong> Fall ist, so könnte eine Grammatik stärkeren Typs linguistisch doch transparenter<br />

sein. 9 Auf jeden Fall wäre es besser, den regulären Lexikonmechanismus durch<br />

Angabe einer entsprechenden Grammatik explizit zu machen.<br />

� Drittens überprüfen Transducer auf <strong>der</strong> Grundlage <strong>der</strong> Two-Level-Morphology prinzipiell<br />

nur die Zulässigkeit bzw. Nichtzulässigkeit von bestimmten Morphkombinationen.<br />

9 Eine Analogie zur Satzsyntax sei hier gezogen. Man könnte den beschränkten Charakter <strong>der</strong> Zentraleinbettung<br />

in natürlichen Sprachen beispielsweise durch eine reguläre Grammatik modellieren, die<br />

in die Satzsymbole hinein den Grad ihrer Einbettung kodiert. Die entsprechende kontextfreie Grammatik<br />

für das gleiche Phänomen wäre jedoch um einiges einfacher.<br />

8


Kapitel 1: Einführung<br />

Man kann jedoch <strong>der</strong> Ansicht sein, daß zu semantischen Interpretation von komplexen<br />

Wörtern, insbes. Komposita, auch die Struktur eines Wortes eine Rolle spielt. Der Transducer<br />

operiert hierzu jedoch auf <strong>der</strong> falschen Ebene, da seine Terminalsymbole Grapheme<br />

o.ä. sind, die für die Strukturermittlung auf <strong>der</strong> Ebene <strong>der</strong> Morpheme keine Rolle spielen.<br />

Darüber hinaus sind endliche Automaten bei Zugrundelegung einer rechtslinearen<br />

Grammatik lediglich in <strong>der</strong> Lage, nur rein rechtsverzweigende Strukturen zu erzeugen.<br />

Dies wird jedoch den verschiedenen strukturellen Möglichkeiten innerhalb <strong>der</strong> Komposition<br />

im <strong>Deutschen</strong> nicht gerecht.<br />

� Ein vierter Einwand ist von komplexitätstheoretischer Seite gemacht worden. Barton et al.<br />

(1987) haben durch Reduktion <strong>des</strong> (NP-vollständigen) Erfüllungsproblems für aussagenlogische<br />

Formeln (SAT) auf Automaten <strong>des</strong> Two-Level-Modells gezeigt, daß dieses NPhart<br />

ist. Dies kann im schlechtesten Fall zur Folge haben, daß die <strong>Analyse</strong>zeit eines Two-<br />

Level-Erkennungsproblems exponentiell (o<strong>der</strong> schlechter) von seiner Länge abhängt.<br />

Auch wenn Koskenniemi/Church (1988) auf den artifiziellen Charakter eines SAT-Problems<br />

im Two-Level-Gewand hinweisen, so sollte dieses Resultat doch zu denken geben.<br />

Zum einen gibt es in einigen Sprachen tatsächlich Prozesse, die eine gewisse Ähnlichkeit<br />

mit <strong>der</strong> Belegung <strong>der</strong> aussagenlogischen Variablen mit Wahrheitswerten haben, beispielsweise<br />

Prozesse <strong>der</strong> Vokalharmonie, die über das ganze Wort verlaufen. Zum an<strong>der</strong>en<br />

haben morphologische Phänomene in natürlichen Sprachen anscheinend Beson<strong>der</strong>heiten,<br />

die exponentielle <strong>Analyse</strong>zeiten bei menschlichen Hörern ausschließen, welche<br />

jedoch nicht im Rahmen <strong>des</strong> Two-Level-Modells ausgedrückt werden können. Die blinde,<br />

kombinatorische Suche, die für das exponentielle Laufzeitverhalten verantwortlich ist,<br />

kommt bei algorithmischen <strong>Analyse</strong>problemen immer nur dann zur Anwendung, wenn<br />

absolut keine lokalen Kriterien zur Verfügung stehen, die bei <strong>der</strong> Lösungsfindung mit<br />

herangezogen werden können.<br />

Zusammenfassend kann man also festhalten, daß das Two-Level-Modell einerseits zu stark,<br />

an<strong>der</strong>erseits auch wie<strong>der</strong>um zu schwach ist (siehe Einwand 2). Sein eklatantester Mangel ist<br />

m.E. jedoch seine Beschränkung auf rein morphographematische Phänomene und damit das<br />

Fehlen je<strong>der</strong> transparenten Interaktion von im Lexikon verzeichneten morphosyntaktischen<br />

Merkmalen mit den Regel-Transducern. Das Ziel meines Modells ist, alle möglichen Informationsquellen<br />

bei <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> auszunutzen, also Lexikon, Satzparser<br />

und Domänenwissen, und auf diese Weise die Beschränkung auf morphographematische<br />

Regularitäten zu überwinden.<br />

1.2.2 Vorarbeiten aus dem Bereich <strong>der</strong> Lemmatisierung<br />

In den siebziger Jahren wurde unter dem Stichwort Lemmatisierung vor allem in <strong>der</strong> Computerlinguistik<br />

im deutschen Sprachraum versucht, die Flexionsmorphologie unter Zugrundelegung<br />

einer prozeduralen Konzeption in einem Computermodell abzubilden. Stellvertretend<br />

für die Vielzahl <strong>der</strong> damaligen Bemühungen seien an dieser Stelle Dietrich (1973),<br />

Eggers et al. (1980), Hoeppner (1980) und Finkler/Neumann (1986) genannt. Zunächst muß<br />

geklärt werden, was unter Lemmatisierung verstanden wird: Lemmatisierung ist die Rückführung<br />

einer Wortform auf ein Lemma. Wortformen können einfache Wörter<br />

(Zeichenfolgen zwischen Leerzeichen) sein, jedoch auch mehrere Wörter umfassen, beispielsweise<br />

im Fall <strong>der</strong> periphrastischen Zeiten im <strong>Deutschen</strong>, wobei die die Wortform konstituierenden<br />

Wörter nicht notwendigerweise kontinuierlich angeordnet sein müssen. Ein<br />

Lemma L wird zunächst einmal verstanden als diejenige Menge von Wortformen w, die alle<br />

eine festgesetzte Menge von Prädikaten P erfüllen, formal:<br />

9


Kapitel 1: Einführung<br />

L = { w | P 1 (w) � P 2 (w) � ... � P n (w) }<br />

Zu klären ist, welcher Art die oben verwendeten Prädikate P i sind. Dietrich (1973:21f) klassifiziert<br />

diese Prädikate in semantische, paradigmatische und strukturale. Paradigmatische<br />

Eigenschaften sind Wortklassenzugehörigkeit und Flexionsklasse, zu den strukturalen zählen<br />

syntaktische Anfor<strong>der</strong>ungen einer Wortform an ihre Umgebung, beispielsweise <strong>der</strong> Valenzrahmen.<br />

Zu unterscheiden ist zwischen dem Lemma und dem Lemmanamen. Das Lemma ist, wie oben<br />

definiert, eine Menge von Wortformen, die in einem bestimmten Verhältnis zueinan<strong>der</strong> stehen.<br />

Als Lemmanamen wählt man meist eine ausgezeichnete, merkmalsmäßig maximal<br />

unmarkierte Form (vgl. Gallmann (1990)) aus dem Lemma, die sog. Zitierform. Ziel <strong>der</strong><br />

Lemmatisierung ist, Wortformen im Text auf diese Zitierform zurückzuführen und gleichzeitig<br />

ihre für die jeweilige Anwendung relevanten Merkmale zu bestimmen. Die hierbei<br />

verwendeten Verfahren sind durchweg operational, d.h. in den <strong>Analyse</strong>mechansimus ist das<br />

sprachliche Wissen über Wortformen, Endungen einer Sprache etc. direkt hineinkodiert.<br />

Typischerweise wird ein Eingabewort von rechts nach links analysiert, wobei im allgemeinen<br />

abwechselnd Endungsgrapheme abgespalten und Lexikonzugriffe durchgeführt werden.<br />

Eine eigene Beschreibungsebene <strong>der</strong> sprachlichen Seite existiert nicht, das fertige Programm<br />

ist die Lemmatisierung. Der Kontrollfluß innerhalb dieses Programms wird üblicherweise<br />

durch Flußdiagramme dargestellt; Abb. 1.3 zeigt einen Ausschnitt aus Dietrich<br />

(1973: 172).<br />

Gegen die vorgeschlagenen Modelle und Methoden <strong>der</strong> Lemmatisierung können eine ganze<br />

Reihe von Einwänden gemacht werden.<br />

Zuallererst wird natürlich die selbst auferlegte Beschränkung auf die Behandlung <strong>der</strong> Flexion<br />

dem prinzipiell offenen Charakter <strong>der</strong> Lexika natürlicher Sprachen nicht gerecht. Verständlich<br />

ist dieses Defizit allerdings vor dem Hintergrund <strong>der</strong> Leistungsfähigkeit damaliger<br />

Rechenanlagen und dem Fehlen jeglicher konkreter Theorien zur Wortbildung.<br />

Ein weiterer Kritikpunkt läßt sich an <strong>der</strong> Prozeduralität <strong>der</strong> postulierten Modelle festmachen.<br />

Auch wenn diese generell begrüßt werden kann – Hockett (1954) hält die prozedurale<br />

Item-and-Process-Konzeption gegenüber dem (deklarativen) Item-and-Arrangement-Modell für<br />

überlegen – so stört doch ihr kaum restringierter Charakter. Wie oben schon beschrieben<br />

bestehen <strong>der</strong>artige <strong>Analyse</strong>verfahren nur aus einer Spezifikation <strong>des</strong> Kontrollflusses während<br />

<strong>der</strong> <strong>Analyse</strong>, <strong>der</strong> üblicherweise in Form eines Flußdiagrammes visualisiert wird. Die Verfahren<br />

selbst rekurrieren dabei nicht auf eine abstrakte Ebene eines <strong>der</strong> bekannten Automatenmodelle,<br />

um beispielsweise generelle Aussagen zur Kapazität und Komplexität zu machen,<br />

son<strong>der</strong>n überspringen diese Zwischenebene und beziehen sich gleich auf die zur Implementierung<br />

<strong>des</strong> Modells verwendeten Programmiersprache (bei den ersten Lemmatisierungsprogrammen<br />

war dies FORTRAN). Da Programmiersprachen dieser Art sämtlich turingmaschinenäquivalent<br />

sind, kommt das <strong>der</strong> Aussage gleich, daß Methoden zur <strong>morphologischen</strong><br />

<strong>Analyse</strong> diese Kapazität zwingend aufweisen müssen. Nun sind nicht wenige Autoren (z.B.<br />

Gazdar (1985)) <strong>der</strong> Ansicht, daß sich die Modelle <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> natürlicher<br />

Sprachen in Form von endlichen Automaten darstellen lassen (vgl. Abschnitt 1.2.1); es stellt<br />

sich also die Frage, warum man dann implizit Turingmaschinen dazu verwendet.<br />

Dem "Überfluß" an Prozeduralität in diesen Modellen steht ein Mangel an Deklarativität<br />

gegenüber. Die Lemmatisierungsalgorithmen <strong>der</strong> 70iger Jahre sind alle dadurch charakterisiert<br />

(vgl. z.B. Dietrichs (1973)), keine Unterscheidung zwischen Daten auf <strong>der</strong> einen Seite<br />

und Verfahren zur Manipulation dieser Daten auf <strong>der</strong> an<strong>der</strong>en Seite vorzunehmen. Dies<br />

führt dazu, daß es nur schwer möglich ist, die spezifizierten Algorithmen für die <strong>Analyse</strong><br />

an<strong>der</strong>er Sprachen zu adaptieren. Darüber hinaus ist es unmöglich, innerhalb <strong>der</strong> Lemmati-<br />

10


Kapitel 1: Einführung<br />

sierungsverfahren ein Kernmodell zu isolieren, daß dann an die Erfor<strong>der</strong>nisse <strong>der</strong> Untersuchung<br />

<strong>der</strong> <strong>morphologischen</strong> Strukturen verschiedener Sprachen angepaßt werden kann.<br />

Diese Lemmatisierungsalgorithmen sind m.a.W. nur auf eine Einzelsprache bezogen und<br />

lassen sich daher nicht als universelles Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> natürlicher<br />

Sprachen ansehen. Vor diesem Hintergrund ist erklärlich, warum das in Abschnitt 1.2.1 vorgestellte<br />

Modell <strong>der</strong> Two-Level-Morphologie theoretisch und auch praktisch so ein großer<br />

Erfolg war. Es ist von hinreichen<strong>der</strong> Einfachheit und Universalität, bezieht Deklaratives in<br />

Form <strong>der</strong> Two-Level-Regeln ein und stützt sich auf ein Automatenmodell, daß hinsichtlich<br />

seiner generativen Kapazität und Komplexität gut untersucht ist. Die traditionellen Lemmatisierungsverfahren<br />

können diese Vorteile nicht für sich in Anspruch nehmen.<br />

Ein letzter Punkt betrifft die Übersichtlichkeit und Verständlichkeit <strong>der</strong> vorgeschlagenen<br />

Methoden. Das Verfolgen <strong>des</strong> Kontrollflusses fällt dem menschlichen Leser bei <strong>der</strong> Komplexität<br />

<strong>der</strong> Lemmatisierungsalgorithmen so schwer, daß es kaum möglich ist, die Richtigkeit<br />

<strong>des</strong> Verfahrens zu überprüfen. Dies ist nun natürlich ein generelles softwaretechnisches<br />

Problem; die Einführung objektorientierter Techniken, d.h. die syntaktische Kopplung von<br />

Daten und auf sie operierenden Prozeduren könnte jedoch in dieser Hinsicht Vorteile erwirken.<br />

Abb. 1.3: Ausschnitt aus dem Lemmatisierungsprogramm von Dietrich (1973)<br />

11


Kapitel 1: Einführung<br />

1.2.3 Die Lemmatisierungskonzeption von Finkler & Neumann (1986)<br />

Während die Arbeiten von Dietrich (1973) u.a. als typische Vertreter <strong>der</strong> Lemmatisierungsansätze<br />

in den 70iger Jahren aufgefaßt werden können, ist die Arbeit von Finkler und<br />

Neumann (1986) charakteristisch für die Auffassung von Lemmatisierung in den Jahren ab<br />

1980; sie soll daher hier kurz vorgestellt werden.<br />

Finkler & Neumann teilen zunächst den Gesamtbestand <strong>des</strong> Lexikons in zwei Teillexika auf.<br />

Das erste dieser Lexika wird Vollformenteil genannt und enthält nicht-endungsflektierende<br />

Wörter. Dazu zählen Wortformen, die überhaupt nicht flektieren (beispielsweise Adverbien,<br />

Präpositionen usw.) und solche, die nicht regelmäßig endungsflektiert sind (z.B. Pronomen,<br />

Artikel). Das zweite Lexikon, <strong>der</strong> sog. Grundformenteil, verzeichnet alle endungsflektierenden<br />

Wörter wie beispielsweise Nomen, Verben, Adjektive u.a.<br />

Der morphologische <strong>Analyse</strong>algorithmus schlägt die ihm übergebene Wortform zuerst einmal<br />

im Vollformenteil nach. Diese Vorgehensweise erspart das aufwendige und nicht von<br />

Erfolg gekrönte Unterfangen, nicht endungsflektierende Wörter einer <strong>Analyse</strong> zu unterziehen.<br />

Wird die Wortform im Vollformenteil gefunden und ist <strong>der</strong> korrespondierende Lexikoneintrag<br />

nicht mit einer speziellen Markierung versehen, die darauf hinweist, daß auch<br />

noch eine zur Vollform homographe endungsflektierende Grundform existiert, so ist <strong>der</strong><br />

<strong>Analyse</strong>prozeß bereits beendet. An<strong>der</strong>nfalls beginnt die Grundformenbehandlung. Hierzu<br />

wird zunächst unter Ausnutzung von Informationen <strong>des</strong> weiter unten beschriebenen Endungsbaumes<br />

das längste Suffix <strong>der</strong> Wortform bestimmt, welches eine potentielle Flexionsendung<br />

<strong>des</strong> Stammes, also <strong>des</strong> verbliebenen Teils <strong>der</strong> Wortform sein kann. Ein Beispiel soll<br />

dies erläutern. Angenommen, die zu analysierende Wortform lautete fliegen. Diese Form<br />

kann unter Vernachlässigung <strong>der</strong> Groß/Kleinschreibung 10 entwe<strong>der</strong> eine Konjugationsform<br />

<strong>des</strong> Verbs fliegen o<strong>der</strong> die Pluralform <strong>des</strong> Nomens Fliege sein. Die oben beschriebene Suffixabspaltung<br />

liefert die Zerlegung (flieg,en), da en die längstmögliche übereinstimmende<br />

und im Endungsbaum verzeichnete Flexionsendung ist. Ausgehend von dieser Zerlegung<br />

werden weitere Zerlegungen konstruiert, die sich aus <strong>der</strong> sukzessiven Vermin<strong>der</strong>ung <strong>der</strong><br />

gefundenen Endung um einen Buchstaben und <strong>des</strong>sen Anhängen an den Stamm ergeben,<br />

im Beispielfall also (fliege,n) und (fliegen,nil). Enthält die zu analysierende Wortform einen<br />

Umlaut, so wird dieser tentativ auf den entsprechenden nichtumgelauteten Vokal reduziert<br />

(beispielsweise ä � a). Anschließend wird noch versucht, ein eventuell vorhandenes Partizip-II-Präfix<br />

(ge-) abzuspalten. Alle auf diese Weise gewonnenen Zerlegungen werden zusammen<br />

mit Informationen über Umlautreduktion und ge-Abspaltung <strong>der</strong> eigentlichen<br />

<strong>Analyse</strong>funktion übergeben, die die morphosyntaktischen Merkmale <strong>der</strong> Wortform bestimmt.<br />

Diese Funktion macht entscheidenen Gebrauch von dem schon mehrfach erwähnten<br />

Endungsbaum, bei dem es sich um einen erweiterten Trie o<strong>der</strong> Buchstabenbaum (vgl. Knuth,<br />

1973) handelt. Die Kanten dieses Endungsbaums sind mit Endungsgraphemen etikettiert,<br />

während einige Baumknoten einen speziellen Informationszeiger (Info-Ptr) enthalten, <strong>der</strong>,<br />

falls die Endungsgrapheme von <strong>der</strong> Wurzel <strong>des</strong> Baumes bis zu diesem Knoten eine zulässige<br />

Flexionsendung ergeben, auf die morphosyntaktischen Merkmale dieser Endung verweist.<br />

Ein Ausschnitt aus dem von Finkler/Neumann verwendeten Endungsbaums ist in Abb. 1.4<br />

10 Die Ausnutzung <strong>der</strong> Schreibung zur Auflösung <strong>der</strong>lei Ambiguitäten ist in ihrer Anwendbarkeit<br />

eingeschränkter, als dies auf den ersten Blick scheinen mag. Genaugenommen können nur Verfahren,<br />

die sich auf reine Deflexion beschränken und alle <strong>Aspekte</strong> <strong>der</strong> Wortbildung außer Acht lassen, dieses<br />

Kriterium heranziehen. Innerhalb von komplexen Wörtern (beispielsweise Komposita) gelten die<br />

Klein- bzw. Großschreibungskonventionen nicht mehr und können also auch nicht ausgenutzt werden.<br />

12


Kapitel 1: Einführung<br />

wie<strong>der</strong>gegeben (zur besseren Lesbarkeit sind die Endungen an den Baumkanten ausgeschrieben;<br />

die Endungen im Baum sind von hinten nach vorne zu lesen):<br />

E<br />

NDE<br />

ERE<br />

ENE<br />

SE<br />

TE<br />

ENDE<br />

NDERE<br />

TERE<br />

ENERE<br />

STE<br />

ETE<br />

13<br />

ENDERE<br />

ETERE<br />

NDSTE<br />

TSTE<br />

ENSTE<br />

ESTE<br />

ENDSTE<br />

ETSTE<br />

Abb. 1.4: Beispiel für einen Endungsbaum (aus Finkler/Neumann (1986:28))<br />

Der <strong>Analyse</strong>algorithmus folgt nun solange den mit den Graphemen <strong>der</strong> potentiellen Endung<br />

markierten Kanten im Endungsbaum, bis diese abgearbeitet ist. Handelt es sich um<br />

eine im <strong>Deutschen</strong> zulässige Flexionsendung, so enthält <strong>der</strong> erreichte Baumknoten den besagten<br />

Informationszeiger, welcher auf einen Testbaum verweist, <strong>der</strong> nach Wortarten gruppiert<br />

die Bedingungen enthält, die <strong>der</strong> potentielle Stamm <strong>der</strong> Wortform erfüllen muß. Ein<br />

Ausschnitt dieses Bedingungsbaumes ist in Abb. 1.5 dargestellt.<br />

Info<br />

Nomen Adjektiv Verb Possessivpronomen<br />

Umlaut Nichtumlaut<br />

Flexionskl. er<br />

(sg (dat))<br />

Abb. 1.5: Ausschnitt aus dem Bedingungsbaum (nach Finkler/Neumann (1986:29))<br />

E<br />

T


Kapitel 1: Einführung<br />

Die zu testenden Bedingungen sind in <strong>der</strong> Abbildung durch Kursivsetzung gekennzeichnet.<br />

Der Informationsunterbaum unterhalb von -e ist folgen<strong>der</strong>maßen zu lesen: Die Endung -e ist<br />

für einen Stamm dann zulässig, wenn es sich bei ihm um ein Nomen handelt, bei dem keine<br />

Umlautreduktion durchgeführt wurde und das einer bestimmten Deklinationsklasse mit<br />

Namen er angehört. Sind alle diese Bedingungen erfüllt, so können die Endungsmerkmale<br />

<strong>der</strong> Wortform zu Singular Dativ bestimmt werden. Diese Merkmale werden mit den Merkmalen<br />

<strong>des</strong> Stammes vereinigt und als Ergebnis <strong>der</strong> <strong>Analyse</strong> ausgegeben.<br />

Aufgrund <strong>der</strong> Tatsache, daß alle Stamm-Endungs-Kombinationen <strong>der</strong> <strong>morphologischen</strong><br />

<strong>Analyse</strong> unterzogen und dabei alle Bedingungen im Bedingungsbaum geprüft werden, erhält<br />

man im Beispielfall <strong>der</strong> Wortform fliegen sowohl die Nomen- als auch die Verblesart.<br />

Allomorphe Stämme werden in <strong>der</strong> Konzeption von Finkler/Neumann nicht regelgeleitet<br />

behandelt (wie beispielsweise bei Paulus (1986)), son<strong>der</strong>n sinnvollerweise als unterspezifizierte<br />

Einträge in das Grundformenlexikon aufgenommen. Diese Einträge enthalten zusätzliche<br />

Informationen darüber, für welche Wortformen <strong>der</strong> betreffende Stamm verwendet<br />

werden kann. Im Verlaufe <strong>der</strong> <strong>Analyse</strong> werden dann die beim Stamm verzeichneten Angaben<br />

mit den Zusatzinformationen <strong>des</strong> Allomorphs vereinigt und so ein vollständiger Lexikoneintrag<br />

für das Allomorph dynamisch erzeugt.<br />

Zur Kritik: An<strong>der</strong>s als in den weiter oben beschriebenen Lemmatisierungsentwürfen ist <strong>der</strong><br />

Anteil <strong>der</strong> Prozeduralität im Modell von Finkler/Neumann stark vermin<strong>der</strong>t zugunsten<br />

einem Mehr an Deklarativität bezüglich <strong>der</strong> Abbildung sprachlicher Sachverhalte. Es läßt<br />

sich zudem eine Trennung zwischen <strong>Analyse</strong>modell und den von <strong>der</strong> einzelnen Sprache abhängigen<br />

Daten ausmachen, so daß die Kritik einer zu starken Vermischung bei<strong>der</strong> Ebenen<br />

hinfällig wird. Das <strong>Analyse</strong>modell ist prozedural und besteht aus dem Segmentierungsalgorithmus<br />

und den Funktionen, die den Endungsbaum traversieren und dabei zur Ermittlung<br />

<strong>der</strong> einer Endung zukommenden Merkmale die im Baum angegebenen Bedingungen prüfen.<br />

Der einzelsprachliche Anteil ist – abgesehen von <strong>der</strong> Umlautreduktion und ge-Abtrennung<br />

– vollständig im Lexikon und im Endungsbaum kodiert, so daß sich das Modell durch<br />

Ersetzung dieser Komponenten wahrscheinlich leicht auf die <strong>Analyse</strong> an<strong>der</strong>er, dem <strong>Deutschen</strong><br />

ähnlicher Sprachen übertragen läßt.<br />

Dennoch sind Einwände zu machen, die die Repräsentation von agglutinierenden <strong>Aspekte</strong>n<br />

<strong>der</strong> deutschen Flexion betreffen. Diese äußern sich in erster Linie bei komparierten und zusätzlich<br />

flektierten Adjektiven. Hierbei tritt nach einem Komparationsmorphem (-er o<strong>der</strong> -<br />

(e)st) zusätzlich noch ein Flexionsmorphem auf. Finkler/Neumann behandeln dieses Phänomen<br />

unter <strong>der</strong> Bezeichnung Mehrfachendungen dadurch, daß sie die zulässigen Morphemkombinationen<br />

von vornherein bestimmen und als Einheit in den Endungsbaum aufnehmen.<br />

Auch wenn sie dem Vorwurf <strong>der</strong> Merkmalsredundanz im Endungsbaum durch Einführung<br />

eines speziellen Verweismechanismus (Finkler/Neumann (1986:30)) entgehen, resultiert<br />

daraus jedoch eine erhebliche Vergrößerung <strong>des</strong> Baumes, wie sich leicht durch Vergleich<br />

<strong>des</strong> Endungsbaumes von Finkler/Neumann und seinem Automatenäquivalent in<br />

meiner Konzeption (vgl. Kapitel 4) feststellen läßt. In mild agglutierenden Sprachen mag<br />

dieses Verfahren noch akzeptabel sein, in Sprachen jedoch wie dem Finnischen halte ich eine<br />

<strong>der</strong>artige Auskompilation für problematisch.<br />

Zusammenfassend kann man festhalten, daß die Konzeption von Finkler/Neumann einen<br />

beträchtlichen Fortschritt gegenüber den rein prozeduralen Lemmatisierungsverfahren bedeutet.<br />

Die aus dem System VIE-LANG (vgl. Trost/Buchberger (1981)) übernommene Idee<br />

<strong>des</strong> Endungsbaums ist zudem so interessant und entwicklungsfähig, daß ich sie als Ausgangspunkt<br />

in meinem eigenen Modell verwende.<br />

14


Kapitel 1: Einführung<br />

1.2.4 Die objektorientierte Konzeption von Daelemans (1987)<br />

Eine Arbeit, die versucht, Techniken <strong>der</strong> Objektorientierung im Rahmen eines word-and-paradigm-Ansatzes<br />

für die morphologische <strong>Analyse</strong> nutzbar zu machen, ist die von Daelemans<br />

(1987).<br />

Daelemans Dissertation, die verschiedene Verfahren für unterschiedliche <strong>Aspekte</strong> <strong>der</strong><br />

Sprachverarbeitung (morphologische <strong>Analyse</strong> und Synthese, Silbentrennung, automatische<br />

Fehlerkorrektur etc.) beschreibt, befaßt sich in Kapitel 3 mit <strong>der</strong> Abbildung <strong>der</strong> holländischen<br />

Morphologie innerhalb eines objektorientierten Systems. Daelemans unterscheidet<br />

zwischen einem Programm-Modul <strong>der</strong> <strong>morphologischen</strong> Synthese und einem solchen <strong>der</strong><br />

<strong>morphologischen</strong> <strong>Analyse</strong>; beide Module sind unabhängig voneinan<strong>der</strong>, können jedoch zusammen<br />

eingesetzt werden.<br />

Im Mittelpunkt <strong>des</strong> von Daelemans vorgestellten Modells <strong>der</strong> <strong>morphologischen</strong> Synthese<br />

steht die Abbildung <strong>des</strong> Flexionsverhaltens <strong>der</strong> regelmäßigen und unregelmäßigen holländischen<br />

Verben. Sein Synthesemodell ist in Abb. 1.6 wie<strong>der</strong>gegeben.<br />

AFFIXES STEMS<br />

MORPHOLOGICAL RULES<br />

WORD FORMS<br />

SPELLING RULES PHONOLOGICAL RULES<br />

SPELLING PRONUNCIATION<br />

Abb. 1.6: Daelemans Modell <strong>der</strong> <strong>morphologischen</strong> Synthese (1987:53)<br />

Morphologische Regeln erzeugen aus Wortstämmen und Flexionsaffixen zugrundeliegende<br />

lexikalische Repräsentationen 11 konkreter Wortformen, die dann mittels zweier Filter in eine<br />

geschriebene bzw. phonetische Form überführt werden können. Diese Filter enthalten Regeln<br />

ähnlich den phonologischen <strong>des</strong> Koskenniemischen Two-Level-Modells, die orthographische<br />

bzw. phonetische Modifikationen an den beteiligten Morphemen vornehmen.<br />

Um das unterschiedliche Verhalten <strong>der</strong> an <strong>der</strong> Verbkonjugation beteiligten Morpheme zu<br />

beschreiben, bedient sich Daelemans einer Vererbungshierarchie, die in Abb. 1.7 wie<strong>der</strong>gegeben<br />

ist.<br />

11 Lexikalische Repräsentationen können wie bei Koskenniemi (1984) neben den eigentlichen Morphemen<br />

auch Symbole zur Markierung von Morphemgrenzen und sog. Archiphoneme enthalten<br />

(Archiphoneme sind in <strong>der</strong> generativen Phonologie abstrakte Phoneme, die je nach lautlichen Kontext<br />

unterschiedlich realisiert werden können).<br />

15


FREE-MORPHEME<br />

WORD-FORM<br />

VERB-FORM<br />

MORPHEME<br />

Kapitel 1: Einführung<br />

BOUND-MORPHEME<br />

PREFIX SUFFIX<br />

PAST-PARTICIPLE-PREFIX PLURAL-SUFFIX<br />

PRESENT-SINGULAR-SUFFIX<br />

16<br />

PRESENT-PARTICIPLE-SUFFIX<br />

PAST-PARTICIPLE-SUFFIX<br />

Abb. 1.7: Die von Daelemans (1987:42) verwendete Lexikonhierarchie<br />

PAST-SINGULAR-SUFFIX<br />

Als Beschreibungssprache für diese Hierarchie verwendet Daelemans die Wissensrepräsentationssprache<br />

KRS; die Klassen werden dort durch sog. Konzepte ausgedrückt. Das Konzept<br />

REGULAR-VERB-LEXEME bildet den Kern seines Synthesemodells. Es dient dazu, das Konjugationsverhalten<br />

regelmäßiger Verben zu erfassen. Hierzu verfügt dieses Konzept über die<br />

Unterkonzepte PRESENT-SINGULAR-ONE, PRESENT-SINGULAR-TWO, PAST-PARTICIPLE usw.,<br />

die als Prozeduren realisiert sind und die entsprechenden Verbformen aus einer in <strong>der</strong> Konzeptinstanz<br />

gespeicherten konkreten Verbwurzel "errechnen". Abb. 1.8 zeigt einen Ausschnitt<br />

aus <strong>der</strong> Definition <strong>des</strong> Konzepts REGULAR-VERB-LEXEME.<br />

(DEFCONCEPT REGULAR-VERB-LEXEME<br />

(A VERB-PARADIGM<br />

(CITATION-FORM (A STRING)))<br />

(PARADIGM (A CONCEPT-LIST<br />

(>>PRESENT-SINGULAR_ONE)<br />

(>>PRESENT-SINGULAR_TWO)<br />

(>>PRESENT-SINGULAR_THREE)<br />

. . . . .<br />

(>>PAST-PARTICPLE)))<br />

(ROOT (A MORPHEME))<br />

. . . . .<br />

(PRESENT-SINGULAR-ONE<br />

(A VERBFORM)<br />

(FINITENESS FINITE)<br />

(TENSE PRESENT)<br />

(NUMBER SINGULAR)<br />

(PERSON THIRD)<br />

(LEXICAL-REPRESENTATION<br />

{ Apply the present-singular-one-rule<br />

to the citation form } ))<br />

Abb. 1.8: Definition von REGULAR-VERB-LEXEME (nach Daelemans (1987:43))


Kapitel 1: Einführung<br />

Diese Definition besagt folgen<strong>des</strong>: das Konzept REGULAR-VERB-LEXEME ist von VERB-<br />

PARADIGM abgeleitet, verfügt über eine Zitierform, eine Wurzel (ROOT) und eine Liste von<br />

Konzepten, die für das Paradigma <strong>des</strong> Verbs stehen. Diese Konzepte, von denen nur eines<br />

(PRESENT-SINGULAR-ONE) angedeutet ist, bestimmen aus <strong>der</strong> Verbwurzel mit Hilfe einer aus<br />

einer an<strong>der</strong>en Hierarchie stammenden <strong>morphologischen</strong> Regel die konkrete Verbform und<br />

<strong>der</strong>en Merkmale. Von dem Konzept REGULAR-VERB-LEXEME sind weitere Konzepte abgeleitet,<br />

die das Flexionsverhalten <strong>der</strong> unregelmäßigen Verben <strong>des</strong> Nie<strong>der</strong>ländischen beschreiben.<br />

In diesen Klassen werden Prozeduren von REGULAR-VERB-LEXEME überschrieben; beispielsweise<br />

die Prozedur Past-Participle bei den Ablautverben, bei denen das Partizip mit -en<br />

statt mit -t/-d gebildet wird. Ich möchte hier nicht weiter auf diese Verbhierarchie eingehen,<br />

da deutlich geworden sein sollte, wie Daelemans objektorientierte Techniken in Zusammenhang<br />

mit <strong>der</strong> Beschreibung morphologischer Regularitäten verwendet und statt<strong>des</strong>sen noch<br />

das Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> vorstellen.<br />

Der Grobaufbau dieses Modells ist in Abb. 1.9 dargestellt:<br />

Lexical Database<br />

Morphological<br />

Grammar<br />

Spelling or phoneme representation<br />

17<br />

Segmentation<br />

Dictionary<br />

Lookup<br />

List of segmentations<br />

Parsing<br />

List of analyses<br />

Abb. 1.9: Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> nach Daelemans (1987:58)<br />

Die Segmentierungsprozedur zerlegt rekursiv die zu analysierende Wortform in Teilketten<br />

und schlägt diese im Lexikon (lexical database) nach; Daelemans spezifiziert dieses Lexikon<br />

jedoch nicht näher.<br />

Da naive Segmentierungsalgorithmen aus komplexitätstheoretischer Sicht zu aufwendig<br />

sind, macht Daelemans bei <strong>der</strong> Zerlegung Gebrauch von einer Reihe von Heuristiken (vgl.<br />

Daelemans (1987:59f)):<br />

� Zeichenketten, die kürzer als <strong>der</strong> kürzeste o<strong>der</strong> länger als <strong>der</strong> längste Lexikoneintrag<br />

sind, werden nicht nachgeschlagen<br />

� Zeichenketten, die nicht den Bedingungen <strong>der</strong> holländischen Morphemstruktur genügen,<br />

werden ebenfalls nicht im Lexikon gesucht.


Kapitel 1: Einführung<br />

Nach Daelemans gelingt es mit Hilfe dieser Heuristiken, die Anzahl <strong>der</strong> Lexikonaufrufe in<br />

den Grenzen einer Funktion <strong>der</strong> Ordnung O(n) zu halten (n = Länge <strong>des</strong> Eingabewortes).<br />

Die möglichen Segmentierungen <strong>der</strong> Eingabekette werden an einen nachgeschalteten Parser<br />

übergeben. Dieser Parser, <strong>der</strong> in erster Linie für die <strong>Analyse</strong> von Komposita konzipiert ist,<br />

greift zurück auf eine morphologische Grammatik, die aus Regeln wie <strong>der</strong> in Abb. 1.10 wie<strong>der</strong>gegebenen<br />

besteht:<br />

Rule Noun = x + Noun<br />

If x = Noun<br />

Then x = one of Singular Noun, Plural Noun, Diminutive Plural Noun<br />

If x = Adjektive<br />

Then x = one of Normalform Adjective, Inflected Adjektive<br />

If x = Verb<br />

Then x = Present Singular First Verb<br />

Abb. 1.10: Regel <strong>der</strong> <strong>morphologischen</strong> Grammatik (vgl. Daelemans (1987:61))<br />

Parser und Segmentierer sind als Prozeduren einem Konzept POSSIBLE-WORD-FORM zugeordnet.<br />

Die Funktionsweise <strong>des</strong> Parsers wird auch nicht näher beschrieben; es ist jedoch in<br />

Anbetracht <strong>der</strong> <strong>morphologischen</strong> Regeln anzunehmen, daß es sich um ein traditionelles,<br />

regelbasiertes Parsverfahren handelt.<br />

Weiter oben habe ich angedeutet, daß sich die Regeln <strong>des</strong> Parsers auf die Regularitäten <strong>der</strong><br />

Komposition im Holländischen beziehen. Hieraus ergibt sich die Frage, wie flektierte Wortformen<br />

behandelt werden.<br />

Daelemans plädiert in diesem Zusammenhang dafür, alle flektierten Formen (also beispielsweise<br />

bei Verben alle Konjugationsformen) in das Lexikon aufzunehmen. Sein Argument<br />

für diese Ansicht geht in die Richtung, daß heutzutage die Speichertechnologien und<br />

Suchalgorithmen so ausgereift sind, daß es ohne Schwierigkeiten möglich ist, große Mengen<br />

an Wortformen einfach abzuspeichern, was eine vereinfachte morphologische <strong>Analyse</strong>, die<br />

sich auf die produktiven <strong>Aspekte</strong> <strong>der</strong> Wortbildung konzentriert, zur Folge habe.<br />

Dieser Standpunkt ist insofern interessant, als man ihm nicht den Vorwurf machen kann, er<br />

vernachlässige die Abbildung sprachlicher Regularitäten innerhalb <strong>des</strong> Systems. Daelemans<br />

schlägt nämlich vor, die Flexionsformen einer Grundform nicht manuell zu erstellen, son<strong>der</strong>n<br />

sie durch ein regelgeleitetes Synthesesystem, wie es weiter oben vorgestellt wurde,<br />

automatisch erzeugen zu lassen.<br />

Auch wenn diese Auffassung einiges für sich hat – Synthese ist im Bereich <strong>der</strong> Morphologie<br />

einfacher als <strong>Analyse</strong> –, so ergeben sich natürlich Probleme bei Sprachen wie dem Finnischen,<br />

wo die Anzahl <strong>der</strong> flektierten Formen sehr groß sein kann. Wollte man auf die vorgeschlagene<br />

Weise ein Vollformenlexikon mit einem realistischen Bestand an finnischen Verben<br />

erzeugen, so stieße man auch bei mo<strong>der</strong>nsten Rechnersystemen an die Grenzen ihrer<br />

Kapazität.<br />

Der nächste Einwand betrifft das Zerlegungsverfahren. Um den Parser, <strong>der</strong> auf Regeln wie<br />

<strong>der</strong> in Abb. 1.10 gezeigten basiert, einzusetzen, muß das zu analysierende Wort zunächst in<br />

seine morphematischen Bestandteile zerlegt werden. Daelemans (1987) verwendet hierzu<br />

einen extrem einfachen Algorithmus, <strong>der</strong> in seiner Grundform sukzessiv Teilzeichenketten<br />

vom Wortanfang her abspaltet, im Lexikon nachschlägt und diese Teilketten rekursiv einer<br />

weiteren Zerlegung unterwirft. Nun ist leicht zu sehen, daß eine Zeichenkette <strong>der</strong> Länge n<br />

2 n-1 verschiedene Dekompositionen in Teilstrings zuläßt. Wenn man als Beispiel die Zeichenkette<br />

abcd betrachtet, so erhält man als Zerlegungen { (abcd), (a,bcd), (ab,cd), (abc,d), (a,b,cd),<br />

18


Kapitel 1: Einführung<br />

(a,bc,d), (ab,c,d), (a,b,c,d) }, d.h. 8 = 2 4-1 Zerlegungen. 12 Ist nun jede Zerlegung auch nur mit<br />

einem Lexikonzugriff verknüpft, erhält man einen Algorithmus <strong>der</strong> Komplexität O(2 n ), d.h.<br />

man hätte es schon im Bereich <strong>der</strong> Morphologiekomponente mit exponentiellen Laufzeiten<br />

zu tun. Daelemans hat dieses Problem erkannt und verwendet daher die weiter oben bereits<br />

betrachteten Heuristiken, um nicht jede während <strong>der</strong> Segmentierung auftretende Teilkette<br />

im Lexikon nachschlagen zu müssen. Dazu ist natürlich zu sagen, daß Heuristiken dieser<br />

Art keine hun<strong>der</strong>tprozentige Gültigkeit aufweisen, da beispielsweise im <strong>Deutschen</strong> durchaus<br />

monographematische Morpheme existieren, vgl. a- in asymmetrisch. Was schwerer wiegt,<br />

ist jedoch <strong>der</strong> Einwand, warum eine zwingend vorhandene Informationsquelle wie das Lexikon<br />

nicht aktiv für die Segmentierung eingesetzt wird. Das dies möglich ist, möchte ich in<br />

Kapitel 4 demonstrieren.<br />

Mein letzter Kritikpunkt betrifft den Status <strong>des</strong> Prinzips <strong>der</strong> Objektorientierung in den beiden<br />

Modellen (Synthese und <strong>Analyse</strong>). Während dieses Prinzip im Fall <strong>des</strong> Synthesemodells<br />

Teil <strong>der</strong> linguistischen Beschreibung ist, ist es bezüglich <strong>des</strong> <strong>Analyse</strong>modells nur ein softwaretechnisches<br />

Mittel zur Strukturierung <strong>des</strong> Programms. Bei dem <strong>Analyse</strong>modell handelt es<br />

sich m.a.W. um kein objektorientiertes System auf <strong>der</strong> Beschreibungsebene.<br />

Ohne die Leistung Daelemans schmälern zu wollen – seine Arbeit behandelt diesen Bereich<br />

ja nur als einen unter mehreren an<strong>der</strong>en <strong>der</strong> Sprachtechnologie –, so bleibt doch festzuhalten,<br />

daß eine objektorientierte <strong>Analyse</strong>konzeption mit ganz an<strong>der</strong>en Problemen konfrontiert<br />

ist als denjenigen, denen sich das Synthesemodell zu stellen hat, bei dem schließlich die Umsetzung<br />

<strong>der</strong> sprachlichen Seite in das Paradigma <strong>der</strong> Objektorientierung relativ nahe liegt 13 .<br />

1.2.5 Lexikalische Regeln<br />

Zum Schluß dieser Sichtung <strong>des</strong> Forschungstan<strong>des</strong> möchte ich noch auf eine Technik eingehen,<br />

die mit <strong>der</strong> Konzeption von Daelemans (1987) verwandt ist und fester Bestandteil <strong>des</strong><br />

Methodeninventars von unifikationsbasierten Grammatikformalismen geworden ist (vgl.<br />

z.B. Shieber (1986) und Pollard/Sag (1987).<br />

Hiernach konstituieren lexikalische Regeln und die eigentlichen Lexikoneinträge das Lexikon.<br />

Lexikalische Regeln, die verwandt sind mit den Redundanzregeln in <strong>der</strong> Konzeption<br />

von Jackendoff (1975) 14 , bestehen aus einer Eingabespezifikation, die festlegt, auf welche<br />

Lexikonelemente die Regel angewendet werden kann und einer Ausgabespezifikation, die<br />

die Eigenschaften <strong>des</strong> aufgrund <strong>der</strong> Regelanwendung neu entstandenen Wortes festhält.<br />

Lexikalische Regeln erzeugen demnach aus einem vorhandenen Wort ein neues Wort. Entscheidend<br />

für diese lexikalischen Regeln sind variable Elemente in beiden Spezifikationen,<br />

mit <strong>der</strong>en Hilfe Eigenschaften <strong>des</strong> Ursprungswortes, die die Regel selbst nicht festlegt, auf<br />

das neue Wort überträgt. Wie man sieht, ist dies die gleiche <strong>Analyse</strong>-durch-Synthese-Idee<br />

wie bei Daelemans (1987). Lexikalische Regeln werden meist nicht nur für die Erzeugung<br />

von Flexionsformen verwendet, son<strong>der</strong>n auch für die Derivation von Basiskategorien und<br />

für Operationen wie <strong>der</strong> Passivierung. Abb. 1.11 zeigt eine solche Regel, die die Passivform<br />

eines transitiven Verbs erzeugt und gleichzeitig <strong>des</strong>sen Argumentliste verän<strong>der</strong>t, während<br />

Abb. 1.12 die Erzeugung von be-Präfixverben aus Simplexverben demonstriert.<br />

12 Auch wenn man nur die verschiedenen Teilstrings über alle Zerlegungen hinweg betrachtet, kommt<br />

n<br />

man auf eine Zahl von �i =<br />

i�1<br />

n n ( ) �1<br />

, also eine Funktion <strong>der</strong> Ordnung O(n<br />

2<br />

2 ) .<br />

13 Dies ist Daelemans durchaus bewußt; vgl. Daelemans/De Smedt (1994:152)<br />

14 Wenn ich es recht verstehe, sind Jackendoffs Redundanzregeln inhärent relational, während die hier<br />

besprochenen lexikalischen Regeln eher prozedural aufzufassen sind.<br />

19


PHON 1<br />

PAST-PART<br />

2<br />

SYN|LOC|SUBCAT <br />

Kapitel 1: Einführung<br />

�<br />

PHON PSP ( 1 , 2 )<br />

f<br />

SYN|LOC|SUBCAT <br />

, 4 ><br />

20<br />

graph<br />

syn<br />

head<br />

be-prefixable-Verb be-Verb<br />

�<br />

be�<br />

2<br />

1<br />

3<br />

><br />

subcat < 3 , 4 ><br />

Abb. 1.12: Lexikalische Regel zur Argumentdiathese bei be-Verben (aus Dörfler/Hanneforth (1995))<br />

Die Regel in Abb. 1.12 erfaßt den systematischen Zusammenhang zwischen einer ganzen<br />

Reihe von Simplexverben und ihren mit be- präfigierten Ableitungen, vgl. (3)<br />

(3) Er gießt [ NP Wasser] [ PP auf die Blumen]<br />

Er begießt [ NP die Blumen] [ PP mit Wasser]<br />

Die Eingabespezifikation links vom Pfeil legt u.a. fest, daß sie nur auf Verben <strong>der</strong> Klasse<br />

be-prefixable-Verb 15 anwendbar ist.<br />

Lexikalische Regeln dieser Art werden nun meist so verwendet, daß sie während einer<br />

Kompilationsphase offline auf alle passenden Lexikoneinträge angewendet werden und das<br />

Lexikon auf diese Weise erweitert wird, was mengentheoretisch einer Hüllenbildung gleichkommt.<br />

Die eigentliche morphologische <strong>Analyse</strong> besteht dann lediglich noch aus Lexikonzugriffen.<br />

Die Vor- und Nachteile dieser Methode sind im wesentlichen die gleichen wie bei <strong>der</strong> Konzeption<br />

von Daelemans (1987). Durch Ausdehnung <strong>des</strong> Verfahrens auf die eigentliche Wortbildung<br />

ergibt sich jedoch ein neues Problem. Während die Behandlung <strong>der</strong> Derivation noch<br />

praktikabel ist, stellt sich das Problem, daß die Komposition – an<strong>der</strong>s als die Derivation 16 –<br />

durch rekursive Mechanismen charakterisiert ist, die es unmöglich machen, eine Obergrenze<br />

für die Maximallänge eines Kompositums festzulegen. M.a.W.: die Komposition ist im <strong>Deutschen</strong><br />

potentiell unendlich, womit sich eine offline-Anwendung von lexikalischen Regeln<br />

von selbst verbietet. Wenn man also lexikalische Regeln zur Beschreibung von Flexion und<br />

Derivation verwenden möchte, so benötigt man in jedem Fall noch einen Mechanismus, <strong>der</strong><br />

online die <strong>Analyse</strong> von Komposita vornimmt. Aber auch dann ergibt sich noch das Problem,<br />

wie zusammengesetzte Wörter wie<strong>der</strong>um in den Mechanismus <strong>der</strong> Flexion eingehen kön-<br />

15 Dies wird durch Zuordnung <strong>der</strong> betreffenden Verben zu dieser Klasse sichergestellt.<br />

16 Eine Ausnahme hierzu ist jedoch die Präfixableitung mit vor- o<strong>der</strong> anti-, die iteriert werden kann:<br />

z.B. Vorversion, Vorvorversion (vgl. Krieger (1994)).


Kapitel 1: Einführung<br />

nen, <strong>der</strong> schließlich vor <strong>der</strong> eigentlichen <strong>Analyse</strong> vonstatten geht. Als Lösung hierfür muß<br />

man davon ausgehen, daß beispielsweise die Komposition bereits flektierte Wortformen mit<br />

unflektierten Stämmen kombiniert.<br />

Ein weiteres Problem ergibt sich aus dem theoretischen Status <strong>der</strong> lexikalischen Regeln. Wie<br />

auch schon von Krieger (1994) bemerkt worden ist, fallen diese aus dem Rahmen <strong>der</strong> Unifikationsgrammatiken<br />

heraus. Ihre Struktur ist von gänzlich an<strong>der</strong>er Art als alle an<strong>der</strong>en Beschreibungsmittel<br />

dieses Grammatiktyps, weswegen ein Verzicht auf lexikalische Regeln zu<br />

größerer Durchsichtigkeit <strong>des</strong> Formalismus führen würde.<br />

Letztendlich stellt sich noch das Problem <strong>der</strong> Reihenfolge <strong>der</strong> Anwendung von kaskadenförmig<br />

anwendbaren Regeln. Dieses Problem erinnert an die Schwierigkeiten mit <strong>der</strong> Regelanwendung<br />

in frühen Versionen <strong>der</strong> Transformationsgrammatik, was mit dazu beigetragen<br />

hat, diese Grammatiken obsolet werden zu lassen.<br />

1.3 Fazit<br />

Welches Fazit ist aus <strong>der</strong> vorangegangenen Kurzdarstellung <strong>des</strong> Forschungsstan<strong>des</strong> zu ziehen,<br />

insbeson<strong>der</strong>e vor dem Hintergrund <strong>des</strong> Ziels dieser Arbeit, ein einheitliches <strong>Analyse</strong>modell<br />

für alle wesentlichen <strong>Aspekte</strong> <strong>der</strong> Flexion und Wortbildung zu entwickeln?<br />

Bei den genuinen <strong>Analyse</strong>modellen sind die „Steinzeitmethoden“ <strong>der</strong> „algorithmischen Linguistik“<br />

von vornherein auszuschließen, da sie ganz einfach heutigen Standards in bezug<br />

auf Deklarativität etc. (vgl. Kapitel 2) nicht genügen. Mo<strong>der</strong>nere Konzeptionen, wie beispielsweise<br />

die von Finkler/Neumann (1986), bieten Vorteile, wie beispielsweise Trennung<br />

von Daten und Algorithmus, sind jedoch noch allzu sehr dem Ziel <strong>der</strong> Lemmatisierung verhaftet.<br />

Die Two-Level-Morphologie stellt demgegenüber wie<strong>der</strong>um einen Fortschritt dar, da<br />

sie das Problem Deflexion in ein sauber definiertes Automatenmodell einbettet und somit<br />

auf Morphkombinatorik reduziert. Dennoch weist die Two-Level-Morphologie einige<br />

Nachteile auf:<br />

� Um grammatisch gesteuerte Two-level-Regeln zu realisieren, ist sie entwe<strong>der</strong> auf eine<br />

Erweiterung <strong>des</strong> Formalismus o<strong>der</strong> auf arbiträre diakritische Zeichen auf dem Lexikonband<br />

angewiesen, dies zeigen auch existierende Implementationen.<br />

� Sie setzt auf einer Ebene zu tief an, da sie – zumin<strong>des</strong>t in ihrer Originalform – wortinterne<br />

Strukturen, die für die Semantik von Wörtern von Belang sind, nicht identifizieren kann.<br />

Die <strong>Analyse</strong>-durch-Synthese-Modelle, hier vertreten durch die Konzeption von Daelemans<br />

(1987) und die Idee <strong>der</strong> lexikalischen Regeln, sind in linguistischer Hinsicht durchweg weiter<br />

entwickelt. Letztendlich müssen diese Ansätze jedoch vor dem Wortbildungsmittel <strong>der</strong><br />

Komposition scheitern, da Komposition auf keinen Fall während einer Lexikonaufbau- bzw.<br />

Kompilationsphase abgehandelt werden kann.<br />

Die Schlußfolgerungen, die ich daraus ziehe, sehen folgen<strong>der</strong>maßen aus:<br />

� Da man ohnehin einer Parser benötigt, um Komposita zu analysieren, verzichtet man auf<br />

lexikalische Regeln und <strong>der</strong>gleichen und konzipiert diesen Parser auch im Hinblick von<br />

Flexion und Derivation; hieraus ergibt sich eine klarere Grundkonzeption.<br />

� Man benötigt mit Sicherheit ein mehrstufiges <strong>Analyse</strong>verfahren, um einerseits Wörter zu<br />

zerlegen und die Zulässigkeit von Morphemkombinationen zu überprüfen und an<strong>der</strong>erseits<br />

syntaktische und semantische Beziehungen zwischen den isolierten Morphemen offenzulegen.<br />

Wünschenswert wäre es, diese verschiedenen Stufen nicht sequentiell hintereinan<strong>der</strong><br />

zu schalten, son<strong>der</strong>n eng miteinan<strong>der</strong> zu verzahnen, um Restriktionen einer höheren<br />

Ebene bereits auf einer tieferen zur Verfügung zu haben.<br />

21


1.4 Methodisches<br />

Kapitel 1: Einführung<br />

Naturgemäß hat man bei <strong>der</strong> Realisierung eines natürlichsprachlichen Systems eine Reihe<br />

von Entwurfsentscheidungen zu treffen, die weitreichende und augenblicklich kaum zu<br />

übersehende Folgen haben können. Man ist daher gut beraten, schon vor <strong>der</strong> Modellierung<br />

einer Domäne auf dem Computer einen Kriterienkatalog aufzustellen, an dem verschiedene<br />

Formalismen und Vorgehensweisen gemessen und bewertet werden können.<br />

Vorschläge für <strong>der</strong>artige Kriterien wurden in <strong>der</strong> Literatur schon geäußert. In Shieber (1985:<br />

193ff.) werden beispielsweise drei Hauptkriterien vorgeschlagen:<br />

� Linguistic felicity: inwieweit eignet sich <strong>der</strong> Formalismus, Konzepte und Generalisierungen<br />

<strong>der</strong> linguistischen Beschreibung und Theoriebildung konzis auszudrücken?<br />

� Expressivness: ist <strong>der</strong> Formalismus ausdrucksstark genug, um die linguistisch motivierten<br />

<strong>Analyse</strong>n auszudrücken?<br />

� Computational effectiveness: ist <strong>der</strong> Formalismus prozedural interpretierbar und, falls dies<br />

<strong>der</strong> Fall ist, von welcher Komplexität sind die interpretierenden Algorithmen?<br />

Aus diesen Hauptkriterien lassen sich eine Reihe von konkreteren Kriterien wie Deklarativität,<br />

Modularität, Einfachheit, Mächtigkeit, mathematische Erschlossenheit, Implementierbarkeit<br />

etc. ableiten.<br />

Die wesentliche Entwurfsentscheidung, die zu treffen ist, betrifft den Grundcharakter <strong>des</strong><br />

Formalismus: soll er deklarativ, prozedural o<strong>der</strong> eine Kombination dieser beiden Extreme<br />

sein? Unbeschränkt prozedurale Konzeptionen scheiden aus einer Reihe von Gründen, die<br />

z.T. bereits in <strong>der</strong> Kritik an Alternativansätzen zur <strong>morphologischen</strong> <strong>Analyse</strong> zur Sprache<br />

kamen, von vornherein aus. Gegen sie ist einzuwenden:<br />

� sie sind bei den Komplexitäten, wie sie natürlichsprachliche Systeme im allgemeinen aufweisen,<br />

konzeptuell nicht durchsichtig genug und daher relativ schwer zu verstehen.<br />

� sie sind, wenn sie auf einer <strong>der</strong> üblichen Programmiersprachen beruhen, hinsichtlich ihrer<br />

Ausdrucksstärke viel zu unbeschränkt.<br />

Deklarative Konzeptionen sind aus einer ganzen Reihe von Gründen geeigneter, um<br />

sprachlichen Phänomenen gerecht zu werden. Damit sie jedoch in ein operationales Modell<br />

eingebettet werden können, müssen sie eine prozedurale Interpretation zulassen. Deklarativität<br />

bedeutet darüber hinaus, daß <strong>der</strong> Formalismus soweit mathematisch verstanden ist,<br />

daß detaillierte Aussagen über die Komplexität <strong>der</strong> Interpretationsalgorithmen möglich<br />

sind, da nur so ein Vergleich verschiedener Ansätze durch Abstraktion von Details durchführbar<br />

ist. Die beiden grundlegenden Formalismen, auf denen das hier vorgestellte <strong>Analyse</strong>modell<br />

basiert, sind nun:<br />

� endliche Automaten bzw. Transducer<br />

� typisierte Merkmalsstrukturen<br />

Während ein modifizierter endlicher Automat und eine Reihe von Transducern die Segmentierung<br />

von möglicherweise zusammengesetzten Wörtern vornehmen, dient eine<br />

Grammatik auf <strong>der</strong> Grundlage von typisierten Merkmalsstrukturen zusammen mit einem<br />

Chart-Parser zur <strong>Analyse</strong> <strong>der</strong> Wortstruktur und zur Bedeutungskonstruktion. Beide Formalismen<br />

sind sehr gut untersucht und (relativ) effizient zu implementieren, was sie zur ersten<br />

Wahl für die gestellte Aufgabenstellung werden ließ.<br />

22


1.5 Zum Aufbau <strong>der</strong> Arbeit<br />

Kapitel 1: Einführung<br />

Die restliche Arbeit glie<strong>der</strong>t sich in zwei weitere Teile und dem (unvermeidlichen) Kapitel<br />

„Zusammenfassung“:<br />

� Teil I: Grundlagen (Kapitel 2 und 3)<br />

� Teil II: Modellierung (Kapitel 4 und 5)<br />

Teil I wird zunächst die formalen und linguistischen Grundlagen für das Projekt legen. Kapitel<br />

2 führt in den gewählten Beschreibungsformalismus <strong>der</strong> typisierten Merkmalsstrukturen<br />

ein, während sich Kapitel 3 <strong>der</strong> linguistischen Seite <strong>der</strong> Aufgabenstellung zuwendet und<br />

einen Überblick über Theorien zur Wortbildung und Morphologie im generativen Rahmen<br />

gibt. In den sich anschließenden Kapiteln werde ich versuchen zu zeigen, wie diese Theorien<br />

innerhalb <strong>der</strong> Computerlinguistik gewinnbringend nutzbar gemacht werden können.<br />

Kapitel 4 in Teil II erläutert dann das Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> en detail und<br />

zeigt, wie generative Grammatiktheorien mit computerlinguistischen Fragestellungen verbunden<br />

werden können. Kapitel 5 beschreibt im Anschluß daran eine Morphologie- und<br />

Wortbildungsgrammatik und macht auch Aussagen darüber, welchen Beitrag sie für den<br />

Bereich <strong>des</strong> robusten Parsens leisten kann.<br />

Kapitel 6 schließlich versucht, kritisch <strong>der</strong> Frage nachzugehen, inwieweit die in Kapitel 1<br />

gestellten Ansprüche vom vorgestellten System erfüllt werden und welche Verbesserungsmöglichkeiten<br />

noch bestehen.<br />

23


2 Merkmalsstrukturen<br />

Kapitel 2: Merkmalsstrukturen<br />

Merkmalsstrukturen – auch Attribut-Wert-Strukturen genannt – haben sich nach einem Entwicklungsprozeß<br />

als lingua franca <strong>der</strong> heutigen Computerlinguistik herauskristallisiert. Sie<br />

bieten eine Reihe von Vorteilen (vgl. auch Shieber (1985)):<br />

• Deklarativität<br />

• Unabhängigkeit <strong>des</strong> Ergebnisses von <strong>der</strong> Berechnungsreihenfolge<br />

• Mathematische Erschlossenheit<br />

• Mächtigkeit<br />

Nicht zuletzt gibt es eine Reihe von hochentwickelten Werkzeugen – beispielsweise CUF<br />

(Dörre et al. (1996)) – die zur Entwicklung von Sprachverarbeitungsanwendungen zur Verfügung<br />

stehen.<br />

Diese Vorteile gaben den Ausschlag, das hier vorgestellte Modell ebenfalls auf <strong>der</strong> Grundlage<br />

von Merkmalsstrukturen – genauer typisierten Merkmalsstrukturen – zu entwerfen. Der<br />

nachfolgende Abriß <strong>der</strong> Theorie typisierter Merkmalsstrukturen orientiert sich an Carpenter<br />

(1992), ist jedoch nicht vollkommen voraussetzungslos gehalten. Shieber (1986) führt alle<br />

zum Verständnis notwendigen Begriffe ein, die hier aus Platzgründen nicht definiert werden<br />

können.<br />

2.1 Typisierte Merkmalsstrukturen<br />

Typisierte Merkmalsstrukturen stellen eine Verbesserung gegenüber untypisierten Merkmalsstrukturen<br />

(vgl. Shieber (1986)) dar:<br />

• In Verbindung mit festgelegten Typisierungs- und Appropriateness-Bedingungen (s.u.)<br />

kann für jede Merkmalsstruktur festgestellt werden, ob sie in einem wohldefinierten Sinn<br />

korrekt und vollständig ist.<br />

• Typisierung erlaubt, unzulässige Merkmale und Merkmalswerte zu erkennen.<br />

Aber auch aus implementatorischer Perspektive ergeben sich einige Vorteile:<br />

• Durch die Typisierung kann für jede Merkmalsstruktur während einer Kompilationsphase<br />

<strong>der</strong> von ihr beanspruchte Speicherplatz berechnet und beim Zugriff auf bestimmte<br />

Attribute von effizienten Record-Offset-Adressierungsverfahren Gebrauch gemacht<br />

werden.<br />

• Die wichtigste, jedoch aufwendige Operation in Zusammenhang mit Merkmalstrukturen,<br />

die <strong>der</strong> Unifikation (s.u.), kann in vielen Fällen vermieden werden, wenn die zu unifizierenden<br />

Strukturen typeninkompatibel sind, was sich durch eine einfache Tabellenoperation<br />

feststellen läßt.<br />

• Nicht zuletzt erleichtert Typisierung, analog zur Festlegung von Datentypen in imperativen<br />

Programmiersprachen wie Pascal, die Feststellung von semantischen Fehlern etc.<br />

während <strong>der</strong> Implementierungsphase eines Grammatikmodells.<br />

(Typisierte) Merkmalsstrukturen werden üblicherweise als endliche Automaten formalisiert.<br />

Eine typisierte Merkmalsstruktur über einer Menge von Typen Type und einer endlichen<br />

Menge von Merkmalen Feat ist dabei ein 4-Tupel F = , wobei gilt: 1<br />

1 Zur Notation: Typen werden immer fett und kursiv wie<strong>der</strong>gegeben, MERKMALE in Kapitälchen.<br />

24


Kapitel 2: Merkmalsstrukturen<br />

• Q ist eine endliche Menge von Knoten (Zuständen);<br />

• q0 ∈ Q ist <strong>der</strong> Wurzelknoten (Startzustand);<br />

• θ : Q � Type ist eine (totale) Funktion, die jedem Knoten einen Typ zuordnet;<br />

• δ : Feat × Q � Q ist eine partielle Funktion.<br />

F sei die Menge aller typisierten Merkmalsstrukturen.<br />

Abb. 2.1 zeigt eine typisierte Merkmalsstruktur in Automatennotation.<br />

Abb. 2.1: Eine typisierte Merkmalsstruktur in Automatennotation<br />

Die Übergangsfunktion δ überführt Zustände und Merkmalsnamen in an<strong>der</strong>e Zustände, d.h.<br />

Knoten im Graph. Sie kann in naheliegen<strong>der</strong> Weise für sog. Pfade – Elemente aus Feat* - zu<br />

einer Funktion δ‘ verallgemeinert werden:<br />

1. δ‘ (ε , q) = q<br />

2. δ‘ (fπ , q) = δ‘(π, δ( f, q))<br />

Meist werden Merkmalsstrukturen jedoch in sog. Matrix-Schreibweise repräsentiert; die<br />

Merkmalsstruktur aus Abb. 2.1 sähe dann wie folgt aus:<br />

CAT: vp<br />

HEAD: VFORM: finite<br />

phrase<br />

AGR: PERSON:<br />

NUMBER:<br />

head agr<br />

third<br />

plural<br />

Abb. 2.2: Eine typisierte Merkmalsstruktur in Matrixnotation<br />

Gilt für zwei verschiedene Pfade r und s δ’(r, q) = δ’(s, q), so heißen diese beiden Pfade reentrant.<br />

Reentranz wird in Matrixform durch sog. Tags wie 1 ausgedrückt, die am Ende <strong>der</strong><br />

reentranten Pfade hinzugefügt werden.<br />

Manchmal ist es nötig, sich auf Substrukturen einer Merkmalsstruktur zu beziehen. Hierzu<br />

definiert man eine partielle Funktion @ : F × Feat � F mit den folgenden Eigenschaften:<br />

@ F = , falls δ(F, q0) = q0‘, Q’ ⊆ Q die Menge <strong>der</strong> von q0‘ erreichbaren<br />

Zustände ist und θ’ und δ’ entsprechend die Einschränkungen von θ und δ auf Q’ sind. Ist δ<br />

für q0 und F nicht definiert, so ist auch @ undefiniert.<br />

25


Kapitel 2: Merkmalsstrukturen<br />

Die Menge <strong>der</strong> Typen Type wird zuvor festgelegt und ergibt sich aus einer Klassifikation <strong>der</strong><br />

Objekte <strong>des</strong> Beschreibungsbereichs. Die dabei verwendeten Methoden sind Gegenstand <strong>des</strong><br />

nächsten Abschnitts.<br />

2.2 Typsysteme<br />

Entscheidend ist, daß die einzelnen Typen aus Type nicht beziehungslos nebeneinan<strong>der</strong> existieren,<br />

son<strong>der</strong>n – ähnlich wie bei den objektorientierten Programmiersprachen – in sog.<br />

Vererbungshierarchien organisiert sind.<br />

Abb. 2.3 zeigt eine solche Hierarchie, wie sie im Modell zur Beschreibung <strong>der</strong> verschiedenen<br />

Typen von <strong>morphologischen</strong> Formativen verwendet wird (vgl. Kapitel 5).<br />

unknown_stem<br />

simple_stem complex_stem<br />

simple_or_complex_stem<br />

linking_morph pre_syntactic_atom affix<br />

morph_object syntactic_atom<br />

morph_or_syn_object<br />

top<br />

infl_affix <strong>der</strong>ivative<br />

suffix<br />

prefix<br />

Abb. 2.3: Ausschnitt aus einer Vererbungshierarchie zur Beschreibung <strong>der</strong> deutschen Morphologie<br />

Demnach weist beispielsweise <strong>der</strong> Typ affix die Subtypen suffix und prefix auf.<br />

Durch Kanten mittelbar o<strong>der</strong> unmittelbar verbundene Typen stehen – je nach Sichtweise – in<br />

einer Super- bzw. Subtypbeziehung zueinan<strong>der</strong>. Ein allgemeinster Typ, üblicherweise Top<br />

(>) genannt, wird eingeführt, um einen Typ zu schaffen, <strong>der</strong> zu allen Typen <strong>des</strong> zu beschreibenden<br />

Bereichs in einer Supertypbeziehung steht; diese Beziehung wird auch als Subsumption<br />

bezeichnet. Hiernach subsumiert ein Typ A einen Typ B (symbolisch A v B), wenn A<br />

allgemeiner ist als B (also A ein Supertyp von B ist) bzw. B von A erbt. Top subsumiert demnach<br />

alle an<strong>der</strong>en Typen aus Type.<br />

Die Subsumptionsbeziehung bildet eine partielle Ordnung über Type und ist daher :<br />

1. reflexiv: ∀t: t v t<br />

2. antisymmetrisch: ∀s,t: s v t ∧ t v s → t = s<br />

3. transitiv: ∀s,t,u: s v t ∧ t v u → s v u<br />

26


2.2.1 Konstruktion von Typsystemen<br />

Kapitel 2: Merkmalsstrukturen<br />

Es gibt nun eine Reihe unterschiedlicher Möglichkeiten, Typsysteme für Merkmalsstrukturen<br />

zu definieren. Die nachfolgend beschriebene definiert ein Typsystem als eine Menge von<br />

sog. Typformeln, die aus atomaren Typen und aussagenlogischen Konnektiven aufgebaut<br />

sind:<br />

Die Menge <strong>der</strong> Typformeln über einer Menge von atomaren Typen AtomType läßt sich als<br />

die kleinste Menge charakterisieren, die folgen<strong>des</strong> enthält:<br />

• Je<strong>der</strong> atomare Typ aus AtomType ist eine Typformel.<br />

• Wenn T, T1 und T2 Typformeln sind, dann sind auch ¬T, (T1 ∧ T2), (T1 ∨ T2), (T1 ↔ T2),<br />

(T1 | T2) und (T1 → T2) Typformeln.<br />

In Typsystemen gebrauchte Typformeln lassen sich dabei in drei Gruppen einteilen:<br />

• Subtyp: T1 → T2 („T1 ist Subtyp von T2“)<br />

• Äquivalenz: T1 ↔ T2 („T1 und T2 sind äquivalent“)<br />

• Disjunktheit: T1 | T2 (die Typen T1 und T2 sind disjunkt)<br />

Eine Teilmenge <strong>der</strong> Typformeln heißt auch eine Menge von Typaxiomen bzgl. AtomType.<br />

Beispiel 2.1:<br />

Ein Ausschnitt <strong>der</strong> in Abb. 2.3 dargestellten Hierarchie kann durch folgende Typaxiome<br />

wie<strong>der</strong>geben werden:<br />

morph_or_syn_object → ><br />

affix ↔ prefix | suffix<br />

suffix ↔ infl_affix | <strong>der</strong>ivative<br />

Die Konnektive für Implikation, Äquivalenz und Disjunktheit lassen sich in üblicher Weise<br />

eliminieren:<br />

t1 → t2 ≡ ¬ t1 ∨ t2<br />

t1 ↔ t2 ≡ t1 → t2 ∧ t2 → t1<br />

t1 | t2 ≡ ( t1 ∨ t2 ) ∧ ¬ ( t1 ∧ t2 )<br />

Ergänzt werden die Typaxiome durch eine Menge von Merkmalseinführungsaxiomen <strong>der</strong> Form<br />

(t, t1, ..., tn ∈ AtomType):<br />

t :: F 1 : t1 ∧ F 2 : t2 ∧ ... ∧ F n : tn<br />

Dieses Axiom hält fest, daß für den Typ t die Merkmale F 1 bis F n angemessen sind und <strong>der</strong><br />

Wertebereich dieser Merkmale auf die Typen t1 bis tn beschränkt ist. Merkmalseinführungen<br />

vererben sich dabei auch auf alle Subtypen von t. Wird ein Merkmal F durch mehr als einen<br />

Typ eingeführt, so handelt es sich um ein sog. Polyfeature. Im weiteren soll jedoch davon<br />

abgesehen werden.<br />

27


Kapitel 2: Merkmalsstrukturen<br />

Beispiel 2.2:<br />

In <strong>der</strong> <strong>morphologischen</strong> Grammatik werden für die Typen morph_or_syn_object und<br />

morph_object folgende Merkmalseinführungsaxiome definiert:<br />

morph_or_syn_object ::<br />

GRAPH: list ∧<br />

SYN: syntax ∧<br />

SEM: semantics<br />

morph_object ::<br />

MORPH: morph ∧<br />

STRUCTURE: list<br />

Da morph_object ein Subtyp von morph_or_syn_object ist, erbt er <strong>des</strong>sen Merkmale.<br />

Die Erfüllbarkeit einer Typformel kann nun analog zum Erfüllungsbegriff <strong>der</strong> Aussagenlogik<br />

definiert werden, indem die atomaren Typen als atomare Formeln interpretiert werden.<br />

Eine Typformel T ist erfüllbar, wenn es eine Belegung M für die atomaren Typen aus T mit w<br />

bzw. f gibt, so daß M(T) = w ist; <strong>der</strong> Wahrheitswert komplexer Formeln bestimmt sich in<br />

bekannter Weise aus den Wahrheitswerten <strong>der</strong> Teilformeln und den Wahrheitstafeln <strong>der</strong><br />

Konnektive; man schreibt in gewohnter Form auch M T.<br />

Mit Hilfe <strong>der</strong> Erfüllbarkeit läßt sich auch die Subsumptionsrelation v zwischen zwei Typen t1<br />

und t2 definieren. Es sei Σ das zugrundegelegte Typaxiomssystem, d.h. die Menge <strong>der</strong><br />

Typaxiome. Man sagt, t1 subsumiert t2 in Σ, symbolisch t1 v t2, wenn die Formel t2 → t1 eine<br />

logische Folgerung aus Σ ist.<br />

Die Unifikation zweier Typen t1 und t2 – symbolisch t1 t t2 – ist definiert, wenn Σ ∪ { t1 ∧ t2 }<br />

erfüllbar ist; an<strong>der</strong>nfalls gilt t1 t t2 = ? („?“ steht für den inkonsistenten Typ).<br />

2.3 Subsumption<br />

Nicht nur für Typen, son<strong>der</strong>n auch für Merkmalsstrukturen kann man eine Subsumptionsrelation<br />

definieren: Subsumption definiert dann eine partielle Ordnung über Merkmalsstrukturen<br />

hinsichtlich ihres Grads an Spezifizität. Intuitiv gesprochen subsumiert eine<br />

Merkmalsstruktur A eine an<strong>der</strong>e Merkmalsstruktur B (notiert als A v B), wenn A allgemeiner<br />

ist als B o<strong>der</strong> - an<strong>der</strong>s formuliert - wenn die Menge <strong>der</strong> von B charakterisierten Objekte <strong>des</strong><br />

Diskursuniversums eine Teilmenge <strong>der</strong> von A beschriebenen bildet. Formal kann Subsumption<br />

als Homomorphismus zwischen zwei Merkmalsstrukturen definiert werden, die<br />

durch deterministische endliche Automaten gegeben sind.<br />

Definition 2.1: Subsumption zweier Merkmalsstrukturen<br />

Eine Merkmalsstruktur F = subsumiert eine Merkmalsstruktur F’ =<br />

gdw. es eine totale Funktion h: Q � Q’ gibt, so daß gilt:<br />

1. h(q0 ) = q’0<br />

2. θ(q ) v θ‘(h(q)) für alle q ∈ Q<br />

3. h(δ (F, q)) = δ‘(F, h(q)) für alle q ∈ Q und Merkmale F, für die δ(F, q) definiert ist.<br />

28


Beispiel 2.3: Subsumption<br />

AGR: PERS:<br />

sign<br />

in Automatendarstellung:<br />

agr<br />

und sign v phrase, agr v agr, 1 v 1<br />

Kapitel 2: Merkmalsstrukturen<br />

1<br />

gdw.<br />

sign phrase<br />

PERS:<br />

AGR:<br />

NUM:<br />

agr<br />

phrase<br />

Die Subsumption zweier Merkmalsstrukturen wird demnach auf das Vorhandensein eines<br />

Homomorphismus und die im vorigen Abschnitt definierte Typensubsumption zurückgeführt.<br />

2.4 Beschreibungslogik<br />

An dieser Stelle angekommen könnte man nun versuchen, grammatische Prozesse und Phänomene<br />

durch typisierte Merkmalsstrukturen zu beschreiben. Es zeigt sich aber, daß Merkmalsstrukturen<br />

in mancher Ansicht zur adäquaten Beschreibung <strong>des</strong> Gegenstandsbereichs<br />

noch zu kurz greifen:<br />

1. Häufig tritt <strong>der</strong> Fall auf, daß Lexikoneinträge und phrasale Elemente hinsichtlich gewisser<br />

Merkmale wie beispielsweise Kasus unterspezifiziert, d.h. letztendlich disjunktiv spezifiziert<br />

sind. Dieser Disjunktion hinsichtlich <strong>der</strong> Merkmalswerte läßt sich ohne Erweiterung<br />

<strong>des</strong> formalen Apparats nur so begegnen, daß man sie auf die Gesamtstruktur überträgt,<br />

daß man also z.B. einer Wortform wie Haus mit Kasuswert Nominativ, Akkusativ<br />

o<strong>der</strong> Dativ statt einer Merkmalsstruktur drei verschiedene zuordnet, was natürlich dazu<br />

führt, daß gleichbleibende Merkmalswerte in unnötiger Weise dupliziert werden. Treten<br />

mehrere Disjunktionen an verschiedenen Fällen auf, so ergibt sich somit ein exponentielles<br />

Anwachsen <strong>der</strong> Zahl <strong>der</strong> Merkmalsstrukturen bei <strong>der</strong> Ausmultiplikation, was letztendlich<br />

zu schweren Verarbeitungsproblemen führt.<br />

29<br />

1<br />

sing


Kapitel 2: Merkmalsstrukturen<br />

2. Die Möglichkeit, Merkmalswerte zu negieren, kann zur konzisen Beschreibung <strong>des</strong> Phänomenbereichs<br />

beitragen. Hierbei kann man zwei verschiedene Anwendungsbereiche<br />

unterscheiden (vgl. Carpenter (1992:111):<br />

• Abkürzende Negation: Eine Struktur [CASE: ¬gen] kann vor dem Hintergrund eines<br />

Typsystems - allerdings auf Kosten <strong>der</strong> Beschreibungskürze - durch eine endliche<br />

Disjunktion von Werten [CASE: nom ∨ acc ∨ dat] repräsentiert werden. Dieser abkürzende<br />

Gebrauch <strong>der</strong> Negation reduziert sich daher auf die Disjunktion.<br />

• Nicht-abkürzende Negation: Diese läßt sich nicht auf die beschriebene Weise reduzieren<br />

und wird dann verwendet, wenn ausgedrückt werden soll, daß zwei verschiedene<br />

Pfade in einer Struktur F in keiner Struktur F’, die F erweitert, reentrant, d.h. tokenidentisch<br />

werden können.<br />

Disjunktion und Negation können nun nicht ohne weiteres in den Formalismus <strong>der</strong> typisierten<br />

Merkmalsstrukturen integriert werden. Auf <strong>der</strong> an<strong>der</strong>en Seite waren diese Operationen<br />

von vornherein Bestandteil von Logiken wie <strong>der</strong> Aussagenlogik, so daß die Lösung für<br />

das oben beschriebene Integrationsproblem im Wechsel von <strong>der</strong> Ebene <strong>der</strong> Merkmalsstrukturen<br />

auf eine logische Ebene liegt. Hierzu haben Kasper und Rounds (1986) eine Beschreibungslogik<br />

für untypisierte Merkmalsstrukturen entwickelt; sie wird hier in <strong>der</strong> Version von<br />

Smolka (1992) wie<strong>der</strong>gegeben, die um Typen und Variablenbindungen erweitert worden ist.<br />

Die Formeln <strong>der</strong> Beschreibungslogik (auch Merkmalsterme bzw. feature terms genannt) bezüglich<br />

einer Menge Feat von Merkmalsnamen, einer Menge AtomType von atomaren Typen<br />

und einer Menge Var von Variablen sind gegeben durch die kleinste Menge Desc, die<br />

folgen<strong>des</strong> enthält:<br />

• > („Top“)<br />

• ? („Bottom“)<br />

• X (für alle X ∈ Var)<br />

• t für alle t ∈ AtomType<br />

• F : φ, wobei F ∈ Feat<br />

• ( φ ∧ ψ )<br />

• ( φ ∨ ψ )<br />

• X ≈ φ (X ∈ Var)<br />

• ¬ (φ)<br />

• π 1 = π 2<br />

• s(φ 1 ,..., φ n ) (für φ 1 ... φ n ∈ Desc, n ≥ 0)<br />

Bottom ? bezeichnet einen inkonsistenten Merkmalsterm, d.h. denotiert die leere Menge.<br />

Die Metasymbole φ und ψ bezeichnen Merkmalsterme, π1 und π2 sind Pfade aus Feat*.<br />

X ≈ φ repräsentiert die Bindung <strong>des</strong> Merkmalsterms φ an die Variable X; hiervon wird vor<br />

allen Dingen bei <strong>der</strong> Konstruktion von Normalformen (s.u.) Gebrauch gemacht.<br />

Teilformeln <strong>der</strong> Form π 1 = π 2 sind sog. Pfadgleichungen. Neben Variablen dienen sie dazu,<br />

reentrante Merkmalsstrukturen zu charakterisieren.<br />

Beispiel 2.4:<br />

F:a ∧ F = G hat in seinem Denotat beispielsweise<br />

folgende Merkmalsstruktur:<br />

30<br />

F: 1 a<br />

G: 1


Kapitel 2: Merkmalsstrukturen<br />

Das Symbol s ist ein sog. Sortensymbol, welches durch Argumente parametrisiert werden<br />

kann. Sorten werden durch eine Menge von Sortenklauseln<br />

() ← <br />

eingeführt und können als Funktionen (doch s.u.) aufgefaßt werden, die in Abhängigkeit<br />

von ihren Parametern Merkmalsterme zurückgeben. Der eine Sorte s definierende Merkmalsterm<br />

T kann an<strong>der</strong>e Sortensymbole o<strong>der</strong> auch direkt o<strong>der</strong> indirekt wie<strong>der</strong>um s enthalten;<br />

letzterer Typ von Sorte heißt auch rekursiv. Die Argumente einer Sortendefinition werden<br />

auch formale Parameter genannt. Die Verwendung einer Sorte in einem Merkmalsterm<br />

heißt auch Sortenaufruf, <strong>des</strong>sen Argumente werden aktuelle Parameter genannt.<br />

Zur Vereinfachung <strong>der</strong> in Abschnitt 2.4.2 beschriebenen Bildung von Normalformen werden<br />

noch folgenden Bedingungen für Sortendefinitionen festgelegt:<br />

a) Die formalen Parameter φ i einer Sortendefinition dürfen keine Disjunktionen enthalten.<br />

Dies än<strong>der</strong>t nichts an <strong>der</strong> Ausdrucksfähigkeit <strong>des</strong> Formalismus, da etwaige Disjunktionen<br />

durch alternative Klauseln einer Sortendefinition repräsentiert werden können.<br />

b) In den formalen Parametern vorkommende Variablen dürfen nicht negiert sein.<br />

c) Die φ i sowie <strong>der</strong> rechts von ← stehende Merkmalsterm sind selbst konsistent, d.h. denotieren<br />

nicht-leere Mengen (s.u.).<br />

Sorten werden nun in grammatischen Beschreibungen auf zweifache Weise eingesetzt:<br />

a) Nicht-rekursive Sorten spielen die Rolle <strong>der</strong> Templates von PATR-II (vgl. Shieber (1986a)),<br />

d.h. ein immer wie<strong>der</strong>kehren<strong>der</strong> Merkmalsterm T kann durch einen Funktionsaufruf<br />

einer Sorte s ersetzt werden, <strong>der</strong> genau zu T evaluiert.<br />

Beispiel 2.5:<br />

third_sing ← agr(3,sing)<br />

agr(Person,Number) ← SYN:HEAD:AGR:(PERSON:Person ∧ NUMBER:Number)<br />

lex(“kennt“) ← FORM:“kennt“ ∧ SYN:HEAD:CAT:verb ∧ third_sing<br />

b) Rekursive Sorten können dazu verwendet werden, Beziehungen in rekursiv spezifizierten<br />

Merkmalsstrukturen zu erfassen:<br />

Beispiel 2.6:<br />

append(elist, L) ← L<br />

append(HEAD:H ∧ TAIL:T, L) ← HEAD:H ∧ TAIL:append(T, L)<br />

Die Attribute HEAD und TAIL kodieren den Kopf bzw. Rest einer Liste. Beispielsweise wird<br />

die Liste [a,b,c] als HEAD:a ∧ TAIL:(HEAD:b ∧ TAIL:(HEAD:c ∧ TAIL:elist)) repräsentiert; elist<br />

steht dabei für die leere Liste.<br />

Sorten können darüber hinaus mit einer Typdeklaration <strong>der</strong> Form<br />

s(t1,...,tn) -> t<br />

versehen werden. Da die aktuellen und formalen Sortenparameter mit diesen Typen kompatibel<br />

sein müssen, können Typisierungsfehler frühzeitig schon während <strong>der</strong> Überset-<br />

zungsphase<br />

erkannt werden.<br />

31


Kapitel 2: Merkmalsstrukturen<br />

Beispiel 2.7:<br />

Die oben beschriebene Sorte append/2 kann durch folgende Typdeklaration ergänzt werden:<br />

append(list, list) -> list<br />

Gibt man keine Typdeklaration an, so wird die Sorte implizit mit<br />

s(>,...,>) -> ><br />

typisiert.<br />

Sorten sehen wie Funktionen aus (sie werden daher in den folgenden Kapiteln auch immer<br />

wie<strong>der</strong> Funktionen genannt), sie sind aber Relationen, bei denen ein Argument, <strong>der</strong> Resultatparameter,<br />

beson<strong>der</strong>s hervorgehoben ist. Sie sind keine Funktionen, da sie nichtdeterministisch<br />

sein können, also mehr als ein Ergebnis als „Funktionswert“ zurückgeben.<br />

2.4.1 Semantik von Merkmalstermen<br />

Eine Möglichkeit, Merkmalsterme zu interpretieren, sind sog. Merkmalsalgebren (engl. feature<br />

graph algebras):<br />

Eine (erweiterte) Merkmalsalgebra relativ zu einer Menge Feat von Merkmalen, einer Menge<br />

Type von Typen und einer Menge Sorts von Sortensymbolen ist ein Tripel , wobei<br />

D eine nicht-leere Menge und θ D eine totale Funktion <strong>der</strong> Form θ D : D � Type ist, die jedem<br />

Element aus D einen Typ zuweist.<br />

I, die Interpretationsfunktion, weist jedem Merkmal F aus Feat eine einstellige partielle<br />

Funktion I(F) 2 : D � D zu. Merkmale werden demnach als unäre Funktionen gesehen. Dar-<br />

über hinaus ordnet I jedem n-stelligen Sortensymbol s eine n+1-stellige Relation Rs zu; die<br />

letzte Argumentstelle dient zur Repräsentation <strong>des</strong> „Funktionsergebnisses“ einer Sorte.<br />

Setzt man nun D mit <strong>der</strong> Menge <strong>der</strong> typisierten Merkmalsstrukturen F gleich und for<strong>der</strong>t<br />

darüber hinaus, daß<br />

• F I (A) = A’ gdw. A@ F = A’ und<br />

• θ D (A) = θ(q0), falls A = <br />

gilt, so erhält man eine sog. Merkmalsgraphalgebra. Vor dem Hintergrund solcher Merkmalsgraphalgebren<br />

kann dann die Denonat einer Formel <strong>der</strong> Beschreibunglogik φ in Form einer<br />

Menge von Merkmalsgraphen (also Merkmalsstrukturen) angegeben werden. Für Einzelheiten<br />

dazu möchte ich auf Smolka (1992) und Carpenter (1992) verweisen.<br />

2.4.2 Normalformen<br />

Die von einem Merkmalsterm denotierte Menge kann, in Abhängigkeit von <strong>der</strong> gewählten<br />

Menge D, unendlich groß sein. Beispielsweise ist die von einem Typ list denotierte Menge<br />

unendlich und umfaßt alle Merkmalsgraphen, die entwe<strong>der</strong> vom Typ elist (leere Liste) sind<br />

o<strong>der</strong> vom Typ nelist (nicht-leere Liste) mit den Merkmalen HEAD und TAIL. Damit stellt sich<br />

die Frage, wie man Mengen von Merkmalsgraphen auf endliche Weise charakterisiert (vgl.<br />

auch Johnson (1988, 1994)). Eine Möglichkeit hierzu ist natürlich <strong>der</strong> (endliche) Merkmalsterm<br />

selbst, wobei es zweckmäßig ist, ihn in eine Normalform, hier DNF, zu bringen, um<br />

festzustellen, ob er überhaupt eine nicht-leere Menge denotiert. Wenn dies <strong>der</strong> Fall ist, dann<br />

kann aus jedem Disjunkt <strong>der</strong> DNF direkt ein Merkmalsgraph in Matrixnotation abgelesen<br />

werden.<br />

2 I(F) wird im folgenden <strong>der</strong> Einfachheit halber als F I geschrieben.<br />

32


Kapitel 2: Merkmalsstrukturen<br />

Dies leistet folgen<strong>des</strong> System von logischen Äquivalenzen (nach Carpenter (1992), adapiert<br />

an das verwendete aussagenlogische Typsystem und den Sortenmechanimus): 3<br />

1. Konnektive<br />

a) >∨ φ ≡ > >∧ φ ≡ φ<br />

b) ?∨ φ ≡ φ ? ∧ φ ≡ ?<br />

c) φ ∧ ψ ≡ ψ ∧ φ φ ∨ ψ ≡ ψ ∨ φ Kommutativität<br />

d) (φ ∧ ψ) ∧ ξ ≡ (φ ∧ ψ) ∧ ξ (φ ∨ ψ) ∨ ξ ≡ (φ ∨ ψ) ∨ ξ Assoziativität<br />

e) φ ∧ (ψ ∨ ξ) ≡ (φ ∧ ψ) ∨ (φ ∧ ξ) φ ∨ (ψ ∧ ξ) ≡ (φ ∨ ψ) ∧ (φ ∨ ξ) Distributivität<br />

f) φ ∧ φ ≡ φ φ ∨ φ ≡ φ Idempotenz<br />

g) (φ ∨ ψ) ∧ φ ≡ φ (φ ∧ ψ) ∨ φ ≡ φ Absorption<br />

h) ¬¬ φ ≡ φ Doppelte<br />

Negation<br />

i) ¬ (φ ∧ ψ) ≡ ¬ φ ∨ ¬ ψ ¬(φ ∨ ψ) ≡ ¬ φ ∧ ¬ ψ DeMorgan-Regeln<br />

j) ¬ (F : φ) ≡ ¬Domain(F) ∨ F :¬φ Merkmalsnegation<br />

Die unter 1a) - 1i) aufgeführten Äquivalenzen entsprechen denen <strong>der</strong> Aussagenlogik. 1j) regelt<br />

die Negation eines Merkmal-Wert-Paares. Da Merkmale partielle Funktionen denotieren,<br />

heißt ¬(F : φ), daß entwe<strong>der</strong> F I auf den Objekten <strong>des</strong> Denotats dieser Formel nicht definiert<br />

ist, o<strong>der</strong> an<strong>der</strong>nfalls zwar definiert ist, diese aber nicht in Objekte <strong>des</strong> Denotats von φ<br />

abbildet. Domain(F) ist <strong>der</strong> Typ, auf dem F und damit F I definiert ist.<br />

2. Pfadgleichungen<br />

a)<br />

b)<br />

π = π ≡ π = π 1 2 2 1<br />

π = π ∧ π = π ≡<br />

1 2 2 3<br />

π = π ∧ π = π ∧ π = π 1 2 2 3 1 3<br />

Pfadsymmetrie<br />

Pfadtransitivität<br />

3. Pfad-Wert-Paare<br />

a) π 1 :(π 2 : φ) ≡ (π 1 π 2 ):φ ≡ π 1 π 2 :φ Pfadassoziativität<br />

b) π:? ≡ ? Inkonsistenz-<br />

propagierung<br />

c) π:φ ∧ π:ψ ≡ π:(φ ∧ ψ) π:φ ∨ π:ψ ≡ π:(φ ∨ ψ) Pfaddistributivität<br />

d) π:(π 1 = π 2 ) ≡ π:π 1 = π:π 2<br />

3b) sorgt für die Inkonsistenz eines Terms, <strong>der</strong> einen unter einem Pfad eingebetteten inkonsistenten<br />

Subterm enthält.<br />

4. Variablen<br />

a) π :X ∧ π :Y ∧ X ≈ Y ≡<br />

1 2<br />

π :X ∧ π :Y ∧ π = π 1 2 1 2<br />

b) π :X ∧ π :X ≡<br />

1 2<br />

π :X ∧ π = π 1 1 2<br />

c) π: X ∧ X ≈ φ ≡ π: (X ∧ φ)<br />

Eliminierung von<br />

Variablenbindungen<br />

Variablen-Pfad-<br />

Äquivalenz<br />

Eliminierung von VB<br />

d) X ≈ Y ≡ Y ≈ X Symmetrie von<br />

Variablenbindungen<br />

e) X ≈ Y ∧ Y ≈ Z ≡<br />

Transitivität von<br />

X ≈ Y ∧ Y ≈ Z ∧ X ≈ Z<br />

Variablenbindungen<br />

3 φ, ψ, ξ bezeichnen beliebige Merkmalsterme; F, G ,... Merkmale; π, π1, π2 Pfade; X,Y, ... Variablen;<br />

t, t1, t2 ... Typen.<br />

33


Kapitel 2: Merkmalsstrukturen<br />

f) X ≈ φ ∧ X ≈ ψ ≡ X ≈ (φ ∧ ψ) Konjunktion von<br />

Variablenbindungen<br />

g) X ≈ Y ∧ π: X ≡ X ≈ Y ∧ π: Y Substitution<br />

h) π: (X ≈ φ) ≡ π:> ∧ (X ≈ φ) Propagierung einer<br />

Variablenbindung<br />

Die Äquivalenzen 4a) bis 4c) zeigen, daß Variablenbindungen und das Vorkommen identischer<br />

Variablen zugunsten von Pfadgleichungen eliminiert werden können. 4h) zeigt, daß<br />

die Bindung einer Variablen an einen Merkmalsterm nicht von <strong>der</strong> Einbettungstiefe abhängt.<br />

Ein Beispiel soll einige <strong>der</strong> Äquivalenzen demonstrieren:<br />

Beispiel 2.8:<br />

Der Merkmalsterm F: X ∧ G:Y ∧ H: X ∧ X ≈ Y kann wie folgt transformiert werden:<br />

F: X ∧ G:Y ∧ X ≈ Y ∧ H: X ≡ (4a)<br />

F: X ∧ G:Y ∧ F = G ∧ H: X ≡ (4b)<br />

F: X ∧ G:Y ∧ F = G ∧ F = H ≡ (2a,b)<br />

F: X ∧ G:Y ∧ F = G ∧ F = H ∧ G = H<br />

5. Typen<br />

a) t1 ∧ t2 ≡ φ wobei<br />

φ = ? , falls t1 t t2 = ?<br />

φ = t1 , falls t1 t t2 ≠ ? und t2 v t1<br />

φ = t2 , falls t1 t t2 ≠ ? und t1 v t2<br />

φ = t1 ∧ t2, an<strong>der</strong>nfalls<br />

5a) regelt die Umsetzung zweier Typen t1 und t2. Ist <strong>der</strong>en Unifikation definiert, so ist das<br />

Ergebnis t1 ∧ t2 , an<strong>der</strong>nfalls ?. Subsumiert einer <strong>der</strong> Typen den jeweils an<strong>der</strong>en, so kann<br />

dieser Ausdruck auf den jeweils spezifischeren Typ reduziert werden.<br />

Beispiel 2.9:<br />

Vor dem Hintergrund <strong>des</strong> folgen<strong>des</strong> Typaxiomsystems<br />

affix ↔ prefix | suffix<br />

cat ↔ nominal | verbal<br />

gilt beispielsweise:<br />

affix ∧ suffix ≡ suffix<br />

suffix ∧ nominal ≡ suffix ∧ nominal<br />

prefix ∧ suffix ≡ ?<br />

34


Kapitel 2: Merkmalsstrukturen<br />

6. Merkmalseinführung („Monofeatures“)<br />

a) F: φ ≡ t ∧ F :(φ ∧ t1) falls es ein Merkmalseinführungsaxiom<br />

t :: ... ∧ F : t1 ∧ ... gibt<br />

Die Äquivalenz 6a) regelt die Typisierung von Merkmalsstrukturen. Wird in einer Formel<br />

ein Merkmal F gebraucht, so wird zu dieser Formel <strong>der</strong>jenige Typ t konjugiert, dem dieses<br />

Merkmal angemessen ist. 6a) geht allerdings davon aus, daß je<strong>des</strong> Merkmal von genau einem<br />

Typ eingeführt wird. Im Falle <strong>der</strong> oben erwähnten Polyfeatures muß die Äquivalenz<br />

folgen<strong>der</strong>maßen aussehen (vgl. auch König (1998)):<br />

6. Merkmalseinführung (allg. Fassung)<br />

a’) F : φ ≡ (t1 ∨ ... ∨ tn) ∧ F : φ ∧<br />

(t1 → F : t1’) ∧ ... ∧ (tn → F : tn’ ) 4<br />

falls es Merkmalseinführungsaxiome<br />

t1 :: ... ∧ F : t1’ ∧ ... bis<br />

tn :: ... ∧ F : tn’ ∧ ... gibt<br />

Ein Merkmal F bewirkt demnach das Hinzufügen einer Disjunktion <strong>der</strong>jeniger Typen, die F<br />

einführen. In Abhängigkeit vom „zutreffenden“ Typ wird dann <strong>der</strong> Typ von F gemäß <strong>des</strong><br />

Merkmalseinführungsaxioms festgelegt.<br />

Sortendefinitionen entsprechen in naheliegen<strong>der</strong> Weise <strong>der</strong> Definition von Hornklauseln in<br />

Programmiersprachen wie Prolog, d.h. ein Sortenaufruf wird mit dem Kopf einer Sortendefinition<br />

in Übereinstimmung gebracht und dann durch den Rumpf <strong>der</strong> Definition ersetzt.<br />

Das Problem bei <strong>der</strong> Verwendung von Sorten ist, daß sich Bindungen von Merkmalstermen<br />

an die Variablen <strong>der</strong> formalen Sortenparametern auf den Merkmalsterm im Sortenrumpf<br />

auswirken können. Die Situation wird dadurch noch komplizierter, daß auch Bindungen<br />

über Variablen möglich sind, die in den aktuellen Parametern eines Sortenaufrufs und<br />

außerhalb davon vorkommen.<br />

Beispiel 2.10:<br />

Gegeben seien die folgenden Sortendefinitionen:<br />

s 1 (X ∧ G:b) ← X<br />

s 2 (F:a) ← G:b<br />

und die auszuwertenden Merkmalsterme:<br />

1. s 1 (F:a)<br />

2. X ∧ s 2 (X)<br />

Im Falle von 1. wird die Variable X an F:a ∧ G:b gebunden und im Rumpf substituiert, so daß<br />

<strong>der</strong> Term zu F:a ∧ G:b äquivalent ist.<br />

Bei 2. wird X durch den formalen Sortenparameter von s2 an F:a gebunden, so daß <strong>der</strong> Term<br />

zu F:a ∧ G:b evaluiert werden kann (s.u.).<br />

Die Sachlage wird auch noch dadurch komplexer, daß im Sortenaufruf Disjunktionen enthalten<br />

sein und Variablen in den formalen Sortenparametern und im Sortenrumpf mehrfach<br />

4 Die Implikationen können in <strong>der</strong> üblichen Weise eliminiert werden und dienen nur <strong>der</strong> größeren<br />

Anschaulichkeit.<br />

35


Kapitel 2: Merkmalsstrukturen<br />

vorkommen können. Zudem ist die Bindung von Variablen an Terme nicht wie im herkömmlichen<br />

prädikatenlogischen Resolutionsverfahren (vgl. Chang/Lee (1973), Schöning<br />

(1989)) durch ihre feste Position innerhalb eines Terms festgelegt, son<strong>der</strong>n ergibt sich erst<br />

durch eine Normalisierung <strong>des</strong> Merkmalsterms. Dies soll im folgenden konkreter gemacht<br />

werden.<br />

7. Sorten<br />

a) s(φ 1 ,...,φ n ) ≡<br />

(Eval(, s(ψ 1,1 ,..., ψ 1,n ) ← ψ 1 , s(t1,...,tn) -> t))<br />

∨ .... ∨<br />

(Eval(, s(ψ k,1 ,..., ψ k,n ) ← ψ k , s(t1,...,tn) -> t))<br />

falls es Sortendefinitionen<br />

s(ψ 1,1 ,..., ψ 1,n ) ← ψ 1 bis<br />

s(ψ k,1 ,..., ψ k,n ) ← ψ k<br />

u. eine Typdeklaration für s<br />

s(t1,...,tn) -> t gibt<br />

Bevor die Funktion Eval genauer erläutert wird, benötigt man noch eine spezielle Version<br />

von disjunktiver Normalform, genannt VDNF, die es erlaubt, Variablenbindungen in den<br />

formalen Parametern einer Sortenklausel deutlich zu machen. Ein Merkmalsterm ist in<br />

VDNF, wenn er die Form φ 1 ∨ φ 2 ∨ ... ∨ φ k (k ≥ 1) hat und für je<strong>des</strong> Disjunkt φ i (das aus einer<br />

Konjunktion von literalen Merkmalstermen (s.u.) besteht) gilt:<br />

• Es seien X 1 ... X m die Variablen unter den Konjunkten in φ i .<br />

Ist m > 0, dann hat φ i die Form [X 1 ∧ (φ i,1 ∧ ... ∧ φ i,l )] ∧ ... ∧ [X m ∧ (φ i,1 ∧ ... ∧ φ i,l )], an<strong>der</strong>nfalls<br />

die Form φ i,1 ∧ ... ∧ φ i,l . Dies ist aufgrund <strong>der</strong> Assoziativität und Kommutativität von ∧ in<br />

jedem Falle möglich.<br />

• „Untergeordnete“ Konjunktionen sind aufgrund <strong>der</strong> Äquivalenz 3c) soweit wie möglich<br />

unter Pfade eingebettet. Beispielsweise wird F:a ∧ F:b zu F :(a ∧ b).<br />

• Terme <strong>der</strong> Form X ≈ φ wurden aufgrund <strong>der</strong> Äquivalenz 4c) beseitigt.<br />

Je<strong>des</strong> maximale Konjunkt T <strong>der</strong> Form X ∧ (φ 1 ∧ ... ∧ φ l ) für l ≥ 1 (die φ i sind keine Variablen)<br />

heißt auch Variablenbindung für X bzgl. T. Ist l = 0, dann heißt die Variable ungebunden. Die<br />

Variablenbindung für X bzgl. eines Merkmalsterms ψ (=ψ 1 ∨ ... ∨ ψ k ) in VDNF, Bind(X, ψ), ist<br />

φ 1 ∨ ... ∨ φ m für alle Variablenbindungen X ∧ φ i in den ψ j (1 ≤ i ≤ k). Ist X ungebunden in ψ,<br />

dann ist Bind(X, ψ) = >.<br />

Schließlich ist die Variablenbindung für X bzgl. einer Menge S von Merkmalstermen in VDNF,<br />

formal BindS(X, S), die Konjunktion aller Bind(X,ψ) für ψ ∈ S. BindS wird gebraucht, um die<br />

Bindung einer Variablen X zu erfassen, die in mehr als einem formalen Parameter einer Sorte<br />

s vorkommt.<br />

Beispiel 2.11:<br />

Bind(X, (X ∧ F:a) ∨ (X ∧ G:b) ) = F:a ∨ G:b<br />

BindS(X, { (X ∧ F:a) ∨ (X ∧ G:b), X ∧ H:c } ) = ( F:a ∨ G:b ) ∧ H:c<br />

Es liegt auf <strong>der</strong> Hand, daß Variablenbindungen hier die gleiche Rolle wie die Variablensubstitution<br />

bei prädikatenlogischen Termen fester Stelligkeit spielen.<br />

Die Variablen in einer Sortendefinition s(ψ 1 ,...,ψ n ) ← ψ können in drei Gruppen eingeteilt<br />

werden:<br />

1. solche, die nur in ψ vorkommen<br />

2. solche, die nur in ψ 1 ,...,ψ n vorkommen<br />

3. solche, die in ψ und ψ 1 ,...,ψ n vorkommen<br />

36


Kapitel 2: Merkmalsstrukturen<br />

Variablen <strong>der</strong> ersten Gruppe müssen bei <strong>der</strong> Auswertung eines Sortenaufrufs nicht beson<strong>der</strong>s<br />

behandelt werden, solange sie nicht auch in dem Term auftreten, <strong>der</strong> den Sortenaufruf<br />

enthält; dem kann durch Variablenumbenennung begegnet werden. Die Variablen unter 2.<br />

können – wenn sie in mehr als einem <strong>der</strong> ψ i vorkommen –, zu Inkonsistenzen und damit<br />

einer Nichtanwendbarkeit einer Sortendefinition führen. Zusätzlich dazu müssen bei den<br />

Variablen unter 3. noch Substitutionen im Sortenrumpf durchgeführt werden.<br />

Es sei S eine Menge von Merkmalstermen. Vars(S) sei die Menge aller Variablen, die in den<br />

Termen in S vorkommen.<br />

Eval gibt einen Merkmalsterm zurück und ist wie folgt definiert:<br />

Algorithmus 2.1: Evaluation eines Sortenaufrufs<br />

Eingabe Die aktuellen Parameter φ ,...φ eines Sortenaufrufs,<br />

1 n<br />

eine Sortendefinition s(ψ ,..., ψ ) ← ψ und<br />

1 n<br />

eine Typdeklaration s(t1,...,tn) -> t<br />

Ausgabe Ein Mermalsterm<br />

Verfahren 1<br />

2<br />

function Eval(, s(ψ ,..., ψ ) ← ψ, -> t): Desc<br />

1 n 1 n<br />

begin<br />

3<br />

4<br />

Rename the variables in ψ ,...,ψ , ψ consistently<br />

1 n<br />

such that they have names which were never used before<br />

5 for i = 1 to n do begin<br />

6<br />

7<br />

8 end<br />

ϕ = VDNF(φ ∧ ψ ∧ ti)<br />

i i i<br />

if ϕ = ? then return(?)<br />

i<br />

9<br />

10<br />

11<br />

12<br />

13<br />

14<br />

15<br />

16<br />

17<br />

18<br />

19<br />

20<br />

21<br />

end<br />

for all V ∈ Vars({ϕ 1 ,...,ϕ n }) do begin<br />

σ V = BindS(V,{ϕ 1 ,...,ϕ n })<br />

if σ V = ? then return(?)<br />

if ψ contains V once then<br />

replace V in ψ by σ V<br />

else if ψ contains V more than once then<br />

replace the first occurence of V in ψ by V ∧ σ V<br />

if V ∈ Vars({φ 1 ,...φ n }) then<br />

let ψ = ψ ∧ V ≈ σ V<br />

end<br />

return(ψ)<br />

Algorithmus 2.1: Evaluierung eines Sortenaufrufs s(φ1,...φn)<br />

Die Schleife von 5-8 bildet die VDNF <strong>der</strong> Konjunktion von den korrespondierenden formalen<br />

und aktuellen Parametern mit dem für die jeweilige Argumentstelle gegebenen Typen.<br />

Resultiert daraus eine Inkonsistenz, so gibt Eval ebenfalls ? zurück, was die Nichtanwendbarkeit<br />

<strong>der</strong> gegebenen Sortendefinition signalisiert. Dies ist beispielsweise bei einem Sortenaufruf<br />

s(F:a) und einer Sortendefinition s(F:b) ← G:a <strong>der</strong> Fall, falls die Typen a und b nicht<br />

unifizierbar sind.<br />

In <strong>der</strong> Schleife von 10-18 wird dann für jede Variable V in den ϕ i <strong>der</strong>en Bindung σ V ermittelt.<br />

Erscheint V im Sortenrumpf ψ, so wird ihr erstes Auftreten durch σ V ersetzt; für die weiteren<br />

Vorkommen ist das nicht mehr nötig. Zusätzlich wird an das Ergebnis für jede Variable, die<br />

in den aktuellen Parametern ϕ i vorkam, ein Ausdruck <strong>der</strong> Form V ≈ σ V hinzugefügt, um<br />

Bindungen dieser Variablen in den den Sortenaufruf enthaltenden Term zu „tragen“, was im<br />

folgenden Beispiel noch einmal demonstriert werden soll:<br />

37


Kapitel 2: Merkmalsstrukturen<br />

Beispiel 2.12:<br />

Gegeben seien die folgenden Sortendefinitionen s(F:a) ← G:b und <strong>der</strong> auszuwertende Merkmalsterm<br />

H:X ∧ s(X). Die Typisierung <strong>der</strong> Sorte s sei hier vernachlässigt.<br />

Ausgewertet wird: Eval(s(X), s(F:a) ← G:b , ... )<br />

Variablenbindung für X: σ X = F:a<br />

Ergebnis von Eval: G:b ∧ X ≈ F:a, d.h. <strong>der</strong> Gesamtterm ist: H:X ∧ G:b ∧ X ≈ F:a<br />

Dies kann mit 4c) vereinfacht werden zu: H:(X ∧ F:a) ∧ G:b<br />

Man sieht daran, daß X ≈ φ nicht äquivalent zu X ∧ φ ist. Wäre dies <strong>der</strong> Fall, dann wäre das<br />

Ergebnis in Beispiel 2.12 gleich H:X ∧ G:b ∧ X ∧ F:a, ein zyklischer Term.<br />

Anstelle eines formalen Beweises, <strong>der</strong> wie<strong>der</strong>um außerhalb <strong>des</strong> Rahmens einer solchen<br />

Übersicht liegt, sollen nochmals die vier Basisfälle beim Sortenaufruf charakterisiert weren5<br />

d :<br />

SortenSorten- Resultat von<br />

Kommentar<br />

definitionaufruf Eval<br />

1. s(a) ← ψ s(a) ψ Die formalen Parameter und <strong>der</strong> Aufruf <strong>der</strong><br />

Sorte enthalten keine Variablen<br />

⇒ <strong>der</strong> Aufruf wird literal durch den<br />

Sortenrumpf ersetzt<br />

2. s(a) ← ψ s(X) ψ ∧ X ≈ a Die formalen Parameter enthalten keine<br />

Variablen, an<strong>der</strong>s als <strong>der</strong> Aufruf <strong>der</strong> Sorte.<br />

⇒ <strong>der</strong> Aufruf wird literal durch den Sortenrumpf<br />

ersetzt, hinzu tritt aber noch eine Aufzeichnung<br />

<strong>der</strong> Bindung von X, da X außerhalb<br />

<strong>des</strong> Sortenaufrufs auftreten kann.<br />

3. s(X) ← ψ[X] s(a) ψ[X/a] Eine Variable X aus einem formalen<br />

bzw. Parameter kommt im Rumpf <strong>der</strong><br />

ψ[X/X ∧ a] Sortendefinition ein- o<strong>der</strong> mehrfach vor. Der<br />

aktuelle Parameter enthält keine Variable.<br />

⇒ Je nachdem ob X in ψ einfach o<strong>der</strong> mehrfach<br />

vorkommt, wird es durch a bzw. X ∧ a<br />

ersetzt.<br />

4. s(X) ← ψ[X] s(Y) ψ[X/Y] ∧ Y ≈ X Variablen kommen sowohl in den formalen<br />

bzw. als auch aktuellen Parametern vor.<br />

ψ[X/X∧Y] ∧ Y≈X ⇒ Je nachdem ob X in ψ einfach o<strong>der</strong> mehrfach<br />

vorkommt, wird es durch Y bzw.<br />

X ∧ Y ersetzt.<br />

Tabelle 2.1: Basisfälle bei <strong>der</strong> Verwendung einer Sorte<br />

5 ψ[X] bedeutet, daß X in ψ vorkommt.<br />

38


Kapitel 2: Merkmalsstrukturen<br />

Das nächste Beispiel demonstriert nochmals die Fälle 2 und 4 von Algorithmus 2.1.<br />

Beispiel 2.13<br />

Der Sortenaufruf append(HEAD:a ∧ TAIL:elist, HEAD:b ∧ TAIL:elist) soll in DNF gebracht werden.<br />

Die Definition <strong>der</strong> Sorte append/2 sei hier nochmals wie<strong>der</strong>gegeben:<br />

append(elist, L) ← L<br />

append(HEAD:H ∧ TAIL:R, L) ← HEAD:H ∧ TAIL: append(R, L)<br />

Als Typdeklaration für append/2 wird angenommen:<br />

append(list,list) -> list (=T append )<br />

append(HEAD:a ∧ TAIL:elist, HEAD:b ∧ TAIL:elist) ≡<br />

(Eval(, append(elist, L) ← L, T append ) ∨<br />

(Eval(,<br />

append(HEAD:H ∧ TAIL:R, L) ← HEAD:H ∧ TAIL: append(R, L), T append ) ≡<br />

(wegen Inkonsistenz <strong>des</strong> ersten Disjunkts und 1b)<br />

Eval( ,<br />

append(HEAD:H ∧ TAIL:R,L) ← HEAD:H ∧ TAIL: append(R, L), T append )<br />

Die Normalisierung <strong>der</strong> Sortenargumente (Zeilen 5-8 von Algorithmus 2.1) liefert:<br />

ϕ 1 = nelist ∧ HEAD:(H ∧ a) ∧ TAIL:(R ∧ elist)<br />

ϕ 2 = L ∧ nelist ∧ HEAD:b ∧ TAIL: elist<br />

Die Variablenbindungen von σ H , σ R und σ L sind:<br />

σ H = a<br />

σ R = elist<br />

σ L = L ∧ nelist ∧ HEAD:b ∧ TAIL: elist<br />

Die Substitution im Sortenrumpf liefert:<br />

HEAD:a ∧ TAIL: append(elist, nelist ∧ HEAD:b ∧ TAIL: elist)<br />

Durch Anwendung von Eval auf den neuen Sortenaufruf ergibt sich daraus:<br />

HEAD:a ∧ TAIL:(HEAD:b ∧ TAIL:elist)<br />

Hieraus läßt sich folgende Merkmalsstruktur konstruieren:<br />

HEAD: a<br />

HEAD: b<br />

TAIL: TAIL:<br />

nelist<br />

nelist<br />

39<br />

elist


Kapitel 2: Merkmalsstrukturen<br />

8. Totale Typisierung<br />

a) t ≡ t ∧ F 1 : t1 ∧ F 2 : t2 ∧ ... ∧ F n : tn falls es ein Merkmalseinführungsaxiom<br />

t :: F 1 :t1 ∧ F 2 :t2 ∧ ... ∧ F n :tn<br />

gibt<br />

Die unter 8. aufgeführte Äquivalenz entspricht dem Begriff <strong>der</strong> totalen Typisierung von Carpenter<br />

(1992); sobald also eine Formel einen Typ t enthält, werden alle Merkmale, die diesem<br />

Typ angemessen sind, hinzugefügt. Allerdings können Merkmalsterme vor dem Hintergrund<br />

einer Menge von Typaxiomen mit sog. appropriateness loops im Sinne von Carpenter<br />

(1992:98f) nicht total typisiert werden; solche liegen vor, wenn einem Typ t direkt o<strong>der</strong> indirekt<br />

ein Merkmal angemessen ist, das als Werterestriktion wie<strong>der</strong>um t aufweist, also beispielsweise<br />

t :: F : t.<br />

Hier würde ein Typisierungsalgorithmus, <strong>der</strong> 8. verwendet, in eine Endlosschleife geraten.<br />

Nicht je<strong>des</strong> rekursive Typsystem führt allerdings zu diesen Problemen. Betrachtet man folgen<strong>des</strong><br />

Typsystem für den Typ list:<br />

list ↔ elist | nelist<br />

nelist :: HEAD:> ∧ TAIL: list<br />

so sieht man, daß sich jede Formel, die die Merkmale HEAD bzw. TAIL enthält, total typisieren<br />

läßt.<br />

Beispiel 2.14:<br />

Der Merkmalsterm HEAD:a kann durch 6a) und 8a) wie folgt transformiert werden:<br />

HEAD:a ≡<br />

HEAD:a ∧ nelist ≡<br />

HEAD:a ∧ TAIL: list ∧ nelist<br />

Darüber hinaus kann noch eine weitere Transformation auf einen Merkmalsterm φ angewandt<br />

werden. Kommt eine Variable V in φ nur einmal vor, dann kann sie durch > ersetzt<br />

werden. Hierzu muß allerdings <strong>der</strong> Merkmalsterm in seiner Ganzheit betrachtet werden. ><br />

kann anschließend durch die Transformationen unter 1a) eliminiert werden.<br />

Ähnliches gilt für Variablenbindungen <strong>der</strong> Form X ≈ ψ. Kommt die Variable X nochmals<br />

(außerhalb einer an<strong>der</strong>en Variablenbindung) in einem Term φ vor, dann kann X ≈ ψ mittels<br />

4c) und 4h) eliminiert werden; tritt X nicht in φ auf, kann die Bindung auch entfernt werden.<br />

Beispiel 2.15:<br />

X ∧ HEAD:a ∧ TAIL: list ≡ > ∧ HEAD:a ∧ TAIL: list ≡ HEAD:a ∧ TAIL: list<br />

Es folgen noch einige Definitionen für später verwendete Begriffe:<br />

Definition 2.1: Normalisierter konjunktiver Merkmalsterm<br />

Ein normalisierter konjunktiver Merkmalsterm φ besteht aus einer Konjunktion von Literalen mit<br />

den folgenden Eigenschaften:<br />

• Literale sind Variablen, Typen, Pfad-Typ-Paare, Pfad-Variable-Paare und Pfadgleichungen.<br />

• Negationen sind so weit wie möglich unter Pfade eingebettet, d.h. sie stehen vor einzelnen<br />

Typen bzw. Variablen. Dies ist mit Hilfe von 1j) möglich.<br />

40


Kapitel 2: Merkmalsstrukturen<br />

• φ und je<strong>der</strong> seiner Subterme enthält ein Konjunkt mit dem Typ <strong>des</strong> (Sub)terms.<br />

• Einzeln vorkommende Variablen und Variablenbindungen wurden eliminiert.<br />

Aus <strong>der</strong>artigen Merkmalstermen kann auf einfache Weise eine Merkmalsstruktur M konstruiert<br />

werden: Pfad-Typ-Paare entsprechen den Pfaden von M, Pfad-Variable-Paare und<br />

Pfadgleichungen den Koreferenzen in M, Typen den Typen <strong>der</strong> Substrukturen.<br />

Definition 2.2: typenmaximaler Merkmalsterm<br />

Ein typenmaximaler Merkmalsterm φ ist ein normalisierter konjunktiver Merkmalsterm, für den<br />

zusätzlich gilt: Je<strong>der</strong> in φ vorkommen<strong>der</strong> Typ t ist maximal, d.h. hat selber keine Subtypen<br />

mehr.<br />

Beispiel 2.16:<br />

Vor dem Hintergrund <strong>der</strong> in Kapitel 5 verwendeten Typenhierarchie ist<br />

φ = SYN: (syntax ∧ HEAD: (noun ∧ CASE: case))<br />

ein normaliserter konjunktiver Merkmalsterm.<br />

φ ist jedoch nicht typenmaximal, da case noch die Subtypen nom, acc, gen und dat aufweist.<br />

Typenmaximalität hat demnach etwas mit vollständiger Spezifikation einer Merkmalsstruktur<br />

zu tun. Dem Merkmalsterm φ in Beispiel 2.15 „fehlt“ noch ein Wert für Kasus.<br />

2.5 Phrasenstrukturregeln<br />

Merkmalsterme können aufgrund <strong>des</strong> Sortenmechanismus dazu verwendet werden, kontextfreie<br />

Phrasenstrukturregeln zu repräsentieren. Hierbei sind zwei generelle Vorgehensweisen<br />

möglich:<br />

a) Die Nichtterminalsymbole <strong>der</strong> kontextfreien Grammatik werden als Typen repräsentiert.<br />

b) Die Nichtterminalsymbole werden zu Sorten.<br />

Eine kontextfreie Regel X → Y1 Y2 ... Yk kann nach <strong>der</strong> ersten Möglichkeit wie folgt ausgedrückt<br />

werden:<br />

category ↔ x | y1 | y2 | ... | yk<br />

cat(append(S 1 , append(S 2 , ... append(S k ) ... )) ←<br />

x ∧<br />

true(cat(S 1 ) ∧ y1 ) ∧<br />

true(cat(S 2 ) ∧ y2 ) ∧<br />

... ∧<br />

true(cat(S k ) ∧ yk )<br />

Lexikalische Einsetzungsregeln X→ w werden zu:<br />

cat([w]) ← x<br />

Die Sorte cat/1 ist eine Funktion cat: list � category, die eine Kette s auf ihre Kategorie C<br />

abbildet, falls C ⇒* s bezüglich <strong>der</strong> gegebenen Grammatik G gilt.<br />

Die Sorte true/1 ist wie folgt definiert:<br />

true(>) ← ><br />

41


Kapitel 2: Merkmalsstrukturen<br />

d.h. true/1 ist eine konstante Funktion, die als Funktionswert die allgemeinste Beschreibung<br />

> (top) zurückliefert; ihr eigentlicher Zweck besteht darin, die Konsistenz ihres Funktionsarguments<br />

zu prüfen.<br />

Beispiel 2.17:<br />

Die Anfrage<br />

true(append(L1,L2) ∧ [a,b,c]) ∧ [L1,L2]<br />

ergibt alle Listen, die aus zwei Listen bestehen, <strong>der</strong>en Verkettung gerade [a,b,c] ergibt. Ohne<br />

die Verwendung von true/1 wäre dieser Term inkonsistent, da die Konjunktion von [a,b,c]<br />

und [L1,L2] inkonsistent ist.<br />

Das folgende Beispiel zeigt, wie eine kontextfreie Grammatik mit Hilfe von true/1 umgesetzt<br />

werden kann:<br />

Beispiel 2.18:<br />

Eine kontextfreie Grammatik G=<br />

wird zu 6<br />

category ↔ s | np | vp | v<br />

cat(append(L1, L2)) ← s ∧ true(cat(L1) ∧ np) ∧ true(cat(L2) ∧ vp)<br />

cat(append(L1, L2)) ← vp ∧ true(cat(L1) ∧ v) ∧ true(cat(L2) ∧ np)<br />

cat([“Hans“]) ← np<br />

cat([“Maria“]) ← np<br />

cat([“kennt“]) ← v<br />

Man kann auf die Verwendung von true/1 auch verzichten, wenn category ein Merkmal<br />

einführt, das die von <strong>der</strong> betreffenden Kategorie dominierten Teilbäume enthält.<br />

Beispiel 2.19:<br />

category ↔ s | np | vp | v<br />

category :: STRUCTURE: list<br />

cat(append(L1, L2)) ←<br />

s ∧<br />

STRUCTURE: [np ∧ cat(L1), vp ∧ cat(L2)]<br />

6 Im folgenden wird die Prolog-Schreibweise für Listen verwendet, d.h. [] steht für elist und eine<br />

nicht-leere Liste nelist ∧ HEAD:H ∧ TAIL:T wird als [H|T] notiert.<br />

42


Kapitel 2: Merkmalsstrukturen<br />

Der zweite Weg macht aus jedem Nichtterminalsymbol N <strong>der</strong> Grammatik ein einstelliges<br />

Sortensymbol:<br />

n(append(S 1 , append(S 2 , ... append(S k ) ... )) ←<br />

y1(S 1 ) ∧<br />

y2(S 2 ) ∧<br />

... ∧<br />

yk(S k )<br />

Lexikalische Einsetzungsregeln <strong>der</strong> Form N → w werden zu:<br />

n([w]) ← ><br />

Beispiel 2.20:<br />

Die Grammatik <strong>des</strong> vorangegangenen Beispiels wird dann wie folgt umgesetzt:<br />

s(append(L1, L2)) ← np(L1) ∧ vp(L2)<br />

vp(append(L1, L2)) ← v(L1) ∧ np(L2)<br />

np([“Hans“]) ← ><br />

np([“Maria“]) ← ><br />

v([“kennt“]) ← ><br />

Diese beiden Verfahren sind ohne weiteres verallgemeinerbar auf nichtatomare Nichtterminalsymbole,<br />

d.h. grammatische Kategorien in Form von Merkmalsstrukturen, die als Merkmalsterme<br />

repräsentiert werden. Ebenso kann das aufwendige append/2 durch effizientere<br />

Differenzlisten ersetzt werden. Hiervon wird im Kapitel 5 über die morphologische Grammatik<br />

Gebrauch gemacht.<br />

Regeln in merkmalsbasierten Grammatiken beziehen sich üblicherweise nicht nur auf die<br />

Verkettung von Zeichenketten, son<strong>der</strong>n instantiieren grammatische Kategorien, bauen<br />

Strukturen auf usw. Man kann sie daher in zwei Teile zerglie<strong>der</strong>n: einen Teil, <strong>der</strong> die Verkettung<br />

<strong>der</strong> Teilstrings regelt und einen, <strong>der</strong> weitere Bedingungen für die diesen Teilstrings<br />

zugeordneten Strukturen spezifiziert:<br />

X → Y 1 Y 2 ... Y k : conditions(X, Y 1 ,Y 2 , ..., Y k )<br />

Dies sei äquivalent zu:<br />

cat(P 0 ,P k ) ←<br />

x ∧ X ∧<br />

true(cat(P 0 ,P 1 ) ∧ y1 ∧ Y 1 ) ∧<br />

true(cat(P 1 ,P 2 ) ∧ y2 ∧ Y 2 ) ∧<br />

... ∧<br />

true(cat(P k-1 ,P k ) ∧ yk ∧ Y k ) ∧<br />

conditions(X, Y 1 ,Y 2 , ..., Y k )<br />

Beide Notationen werden in Kapitel 4 und 5 verwendet.<br />

43


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

3 Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Kapitel 3 faßt wesentliche theoretische Vorarbeiten aus den Bereichen Wortsyntax und<br />

Wortsemantik zusammen und beurteilt sie nach ihrer Brauchbarkeit für ein <strong>Analyse</strong>modell.<br />

Das Kapitel glie<strong>der</strong>t sich zunächst in die Gebiete Wortsyntax und Wortsemantik, wobei ersteres<br />

<strong>der</strong> traditionellen Aufteilung <strong>der</strong> Morphologie in die Bereiche Derivation und Komposition<br />

folgt. Ich möchte Flexion noch dazu nehmen, auch wenn dies inhaltlich ein an<strong>der</strong>er<br />

Prozeß ist. Die vorgeschlagene Aufglie<strong>der</strong>ung ist nicht immer glücklich, gerade in Anbetracht<br />

von vereinheitlichenden Theorien wie die von Fanselow (1985) und Höhle (1982), hilft<br />

aber dennoch, etwas Struktur in den Komplex Morphologie im weiteren Sinne hereinzubringen.<br />

3.1 Wortsyntax<br />

Der Begriff Wortsyntax impliziert, daß man Wörter nicht als unanalysierte Einheiten auffaßt,<br />

son<strong>der</strong>n ihnen auf systematische Weise eine Struktur zuweist, die sowohl für ihre syntaktischen<br />

wie auch semantischen Eigenschaften ausschlaggebend ist.<br />

Wortsyntax in dem Sinne, daß man zusammengesetzte Wörter als strukturiert auffaßt, wird<br />

von <strong>der</strong> traditionellen Grammatik nur auf durch Komposition entstandene Wörter angewandt.<br />

Es ist jedoch in Anbetracht neuerer generativer Theorien sinnvoll, diesen Begriff<br />

auch auf die Bereiche <strong>der</strong> Flexion und Derivation auszudehnen.<br />

3.1.1 Flexion<br />

Unter Flexion soll hier – in Anlehnung an Gallmann (1994) – die Bereitstellung von Wortformen<br />

mit bestimmten Merkmalen verstanden werden. Diese „Definition“ ist nicht exakt<br />

und muß noch weiter präzisiert werden. Wortformen (grammatische Wörter in <strong>der</strong> Terminologie<br />

von Di Sciullo/Williams (1987)) sind Elemente einer aus drei Komponenten aufgebauten<br />

Relation L = �* � SYN-FEATURES � SEM. Die erste Komponente ist durch die Laut-<br />

bzw. Graphemkette (Signifiant-Merkmal) <strong>der</strong> Wortform gegeben, während die zweite bzw.<br />

dritte aus den grammatischen bzw. semantischen Merkmalen <strong>der</strong> Form (Signifié-Merkmalen)<br />

besteht.<br />

Beispiel 3.1:<br />

Die Wortform lachst ist durch folgen<strong>des</strong> Tupel gegeben:<br />

.<br />

Für die Graphemkette lachen gibt es hingegen drei Elemente in dieser Relation:<br />

,<br />

und<br />

.<br />

Wortformen dürfen daher nicht mit Laut- bzw. Graphemketten verwechselt werden.<br />

Die Teilrelation L mit festgelegter dritter Komponente wird auch als Lemma, Lexem o<strong>der</strong> Wort<br />

bezeichnet. Eine Funktion lemma ordnet einer Zeichenkette Z das Lemma von Z zu. Z heißt<br />

auch Zitier- o<strong>der</strong> Nennform und benennt das Lemma. Als Nennform kann selbstverständlich<br />

je<strong>der</strong> beliebige Name gewählt werden; aus konventionellen Gründen verwendet man hierzu<br />

jedoch bestimmte, möglichst unmarkierte Wortformen aus dem Lemma, beispielsweise die<br />

Form Nominativ Singular bei Nomen o<strong>der</strong> die Infinitivform (bzw. den Stamm) bei Verben.<br />

44


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Beispiel 3.2:<br />

Das Lemma <strong>der</strong> Zitierform lachen (lemma(‘lachen’)) ist die Menge <strong>der</strong> Wortformen<br />

L = { ,<br />

... }.<br />

Möchte man Lemmata nicht lediglich extensional – also durch Aufzählung <strong>der</strong> Elemente – ,<br />

son<strong>der</strong>n nicht-extensional charakterisieren, so benötigt man ein Kriterium, welches die Zugehörigkeit<br />

einer Wortform zu einem bestimmten Lemma festlegt. Traditionell wird hierfür<br />

die Bedeutung einer Wortform herangezogen: ein Lemma besteht demzufolge aus <strong>der</strong> Menge<br />

<strong>der</strong> Wortformen mit gleicher Bedeutung. Dieses Kriterium ist allerdings aus einer Reihe von<br />

Gründen nicht ausreichend, um Lemmata korrekt zu charakterisieren, z.B.:<br />

� die Formen lacht und lachte möchte man intuitiv im Lemma von lachen wissen, obwohl<br />

zwischen ihnen ein Bedeutungsunterschied besteht<br />

� es ist durchaus möglich, daß zwei Wortformen – im Fall von Synonymie – die gleiche<br />

Bedeutung zukommt, sie aber dennoch zu verschiedenen Lemmata gezählt werden sollten,<br />

z.B. Formen von rennen und laufen<br />

Das Zugehörigkeitskriterium muß also zugleich restriktiver – durch Angabe von gemeinsamen<br />

Signifiant-Merkmalen, beispielsweise eines gemeinsamen Stammes – als auch schwächer<br />

– durch Abschwächung von Bedeutungsgleichheit zu Bedeutungsähnlichkeit – gefaßt<br />

werden.<br />

Strukturiert man ein Lemma nach den Merkmalen, die in <strong>der</strong> zweiten Komponente <strong>der</strong> Relation<br />

L vorkommen, so erhält man ein Paradigma. Ein Paradigma ist nach traditioneller Auffassung<br />

eine mehrdimensionale Tabelle, <strong>der</strong>en Dimensionen durch die Anzahl verschiedener<br />

Kategorien wie Person, Numerus etc. gegeben sind. Ich möchte die Begriffe Lemma und<br />

Paradigma auseinan<strong>der</strong>halten, da Paradigmen im Gegensatz zu Lemmata strukturiert sind:<br />

sie legen fest, welche Merkmale zur Unterscheidung von Wortformen herangezogen werden<br />

und definieren hierdurch die tabellenartige Struktur, die auch Paradigmenlücken, Nichtexistenz<br />

von Wortformen mit bestimmten Merkmalen, sichtbar macht. Während die SYN-<br />

FEATURES-Komponente einer Wortform noch weitere, nicht-distinktive Merkmale enthalten<br />

kann (z.B. Subkategorisierungsanfor<strong>der</strong>ungen), enthält die Tabelle <strong>des</strong> Paradigmas nur<br />

distinktive, d.h. dimensionsbildende Merkmale.<br />

Die Frage ist nun, welche Flexionskategorien man benötigt, um alle Wortformen, die man<br />

intuitiv in einem Paradigma vereinigen möchte, zu charakterisieren.<br />

Ich nehme, wie<strong>der</strong>um Gallmann teilweise (1994: Kap. 2.5) folgend, Merkmalskategorien an,<br />

die sich in zwei Gruppen unterteilen lassen:<br />

1. Morphosyntaktische Merkmale<br />

2. Wortartmerkmale<br />

Zu den morphosyntaktischen Merkmalen zählen u.a. Person, Numerus, Genus und Kasus.<br />

Die Wortart zählt zu den Flexionskategorien, da sich Flexion in Än<strong>der</strong>ungen <strong>der</strong> Wortart<br />

bemerkbar machen kann, z.B. bei<br />

� Nominalisierungen: lachen – (das) Lachen<br />

� Substantivischer Verwendung von Adjektiven: <strong>der</strong> lachende Dritte<br />

Der Begriff Bereitstellung in obiger Definition von Flexion läßt offen, ob die Wortformen<br />

durch morphologische Aktivität entstehen o<strong>der</strong> durch einfaches Auslesen aus dem Lexikon<br />

gewonnen werden. Während man ersteres für regelmäßig gebildete Formen annehmen darf,<br />

45


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

dürfte letzteres für unregelmäßige bzw. suppletive Formen (z.B. die Flexionsformen von<br />

sein) <strong>der</strong> Fall sein.<br />

Gallmann (1994) führt noch die Gruppe <strong>der</strong> Selektionsmerkmale auf; diese scheinen mir jedoch<br />

im <strong>Deutschen</strong> nicht distinktiv zu sein. Gallmann führt als Beispiele Phänomene auf, die<br />

man besser syntaktisch erklärt, beispielsweise die Verwendung <strong>des</strong> Partizips II im Aktiv<br />

und im Passiv:<br />

(1)<br />

a) Der Mann hat die Frau geliebt.<br />

b) Die Frau wurde geliebt<br />

Gallmann verwendet Selektionsmerkmale, um diese beiden Verwendungsweisen zu unterscheiden<br />

und setzt somit für Partizipien wie geliebt zwei Wortformen an. Die systematische<br />

Homonymie bei<strong>der</strong> Formen deutet m.E. jedoch auf einen Unterschied in <strong>der</strong> syntaktischen<br />

Verwendung einer einzigen Wortform geliebt hin, den man beispielsweise durch unterschiedliche<br />

Subkategorisierungseigenschaften <strong>der</strong> Hilfsverben haben und werden erklären<br />

kann, wie dies beispielsweise Heinz/Matiasek (1994) tun.<br />

3.1.1.1 Modelle <strong>der</strong> Flexion<br />

Hockett (1954) klassifizierte linguistische Modelle <strong>der</strong> Morphologie (er bezog sich aber auch<br />

auf die phrasale Syntax) in drei Gruppen:<br />

� Item-and-Arrangement-Modelle<br />

� Item-and-Process-Modelle<br />

� Word-and-Paradigm-Modelle<br />

Da <strong>der</strong> in Kapitel 4 und 5 beschriebene Ansatz – wie auch die meisten computerlinguistischen<br />

Modelle <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> – <strong>der</strong> Item-and-Arrangement-Konzeption verhaftet<br />

sind, möchte ich hier nur auf diesen Typ näher eingehen. Der nächste Abschnitt wird<br />

allerdings ein interessantes Modell vorstellen, welches Eigenschaften <strong>der</strong> beiden an<strong>der</strong>en<br />

Modelle in sich vereinigt.<br />

Item-and-Arrangement-Modelle (z.B. Selkirk (1982)) fassen die grammatischen und semantischen<br />

Eigenschaften von komplexen Wörtern als Funktion <strong>der</strong> Anordnung und <strong>der</strong> Eigenschaften<br />

<strong>der</strong> nicht weiter zerlegbaren, morphematischen Grundbausteine auf. Dies führt im<br />

allgemeinen zur Zuweisung von Konstituentenstrukturen an zusammengesetzte (grammatische)<br />

Wörter, z.B.:<br />

(2)<br />

a)<br />

stamm affix<br />

frag st<br />

b)<br />

46<br />

stamm affix affix<br />

frag t est<br />

Die Konstituentenstrukturen implizieren die Angabe eines expliziten o<strong>der</strong> impliziten Regelsystems,<br />

mit denen sie erzeugt werden können. Explizite Regelsysteme sind von einer Reihe<br />

von Autoren vorgeschlagen worden; <strong>der</strong> für die Flexion relevante Teil <strong>der</strong> Version von Di<br />

Sciullo/Williams (1987:23) ist hier wie<strong>der</strong>gegeben:


(3)<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

stem � stem af<br />

stem � af stem<br />

word � stem<br />

Regeln dieser Art sind – wie ihre Pendants aus <strong>der</strong> Satzsyntax – i.a. dem sog. Binaritätsprinzip<br />

verpflichtet, d.h. die rechten Seiten <strong>der</strong> Regeln enthalten höchstens zwei Kategorien.<br />

Im Versuch <strong>der</strong> weiteren Angleichung von phrasensyntaktischen und <strong>morphologischen</strong><br />

Strukturen nimmt man weiterhin an, daß jede morphologische (Sub)Konstituente eine ausgezeichnete<br />

Tochter besitzt, die die wesentlichen Eigenschaften <strong>der</strong> Konstituente besitzt und<br />

daher Kopf <strong>der</strong> Konstituente genannt wird. Die merkmalsmäßige Übereinstimmung von einer<br />

Konstituente mit ihrem Kopf kann dann mit Hilfe einer Merkmalsperkolationskonvention<br />

(z.B. <strong>der</strong> Head Feature Convention <strong>der</strong> GPSG, Gazdar et al. (1985)) ausgedrückt werden.<br />

Während sich Auffassung <strong>der</strong> Köpfigkeit von Strukturen in <strong>der</strong> Satzsyntax noch relativ<br />

leicht nachvollziehen läßt, ist dies für morphologische Strukturen nicht ohne weiteres offensichtlich.<br />

Welcher Bestandteil von (2a) ist <strong>der</strong> Kopf? Für die Wahl <strong>des</strong> Stamms (frag-) spricht,<br />

daß das Gesamtwort ein Verb ist und auch seine semantischen Eigenschaften (u.a. den Argumentrahmen)<br />

augenscheinlich vom Stamm erbt. Für das Affix -st spricht, daß es anscheinend<br />

die morphosyntaktischen Merkmale Person und Numerus trägt, denen man in <strong>der</strong><br />

Phrasensyntax sogar den Status von Satzköpfen (INFL etc.) einräumt. Offenkundig tragen<br />

Stamm und Affix gleichermaßen zu den syntaktischen und semantischen Eigenschaften <strong>des</strong><br />

komplexen Wortes bei. Dies gilt auch beispielsweise in (2b), wenn man annimmt, daß -t- <strong>der</strong><br />

Träger <strong>des</strong> Tempusmerkmals ist.<br />

Möchte man nun an <strong>der</strong> Köpfigkeit von flektierten Wörtern festhalten – aus größtenteils<br />

theorieinternen Gründen, wie ich meine – so bleibt einem nichts an<strong>der</strong>es übrig, als Köpfe<br />

einfach positionell festzumachen, wie dies u.a. Williams (1981:248) vorschlägt:<br />

(4)<br />

Righthand Head Rule (RHR):<br />

In morphology, we define the head of a morphologically complex word to be the righthand<br />

member of the word.<br />

Diese Regel ist nun kein grammatisches Prinzip, son<strong>der</strong>n eine empirische Generalisierung,<br />

die zumin<strong>des</strong>t für die indoeuropäischen Sprachen zutrifft (vgl. jedoch Scalise (1988), <strong>der</strong><br />

Gegenbeispiele im Italienischen beibringt). Trotz dieser positionellen Festlegung <strong>des</strong> Wortkopfes<br />

ist damit noch nicht das oben diskutierte Problem aus <strong>der</strong> Welt geschafft, daß verschiedene<br />

Morpheme Unterschiedliches zu den Gesamteigenschaften <strong>des</strong> Wortes beisteuern.<br />

Anhänger <strong>der</strong> Wortkonstituentenstrukturtheorie tragen dem durch Definition von komplexeren<br />

Merkmalsperkolationsbedingungen Rechnung, z.B. Selkirk (1982: 76):<br />

(5)<br />

a) If a head has a feature specification [�Fi], � � u, its mother node must be specified [�Fi],<br />

and vice versa.<br />

b) If a non-head has a feature specification [�Fj], and the head has the feature specification<br />

[uFj], then the mother node must have the feature specification [�Fj].<br />

47


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

(‘[uF]’ bedeutet ‘unmarkiert für Merkmal F’). Diese Bedingungen, die im übrigen bei Di<br />

Sciullo/Williams (1987) unter <strong>der</strong> Bezeichnung relativized head 1 firmieren, besagen, daß sich<br />

Merkmale von Nichtköpfen nach oben vererben können, solange <strong>der</strong> Kopf nichts an<strong>der</strong>es<br />

über diese Merkmale aussagt, was sich technisch durch sog. Default-Unifikation realisieren<br />

läßt. In (2b) ist also z.B. <strong>der</strong> Stamm <strong>der</strong> KopfArgumentstruktur und <strong>der</strong> KopfKategorie, das Tempusaffix<br />

-t- <strong>der</strong> KopfTempus und das äußerste Flexionsaffix <strong>der</strong> KopfPerson/Numerus.<br />

Allerdings entleert man hierdurch natürlich den Begriff Kopf seines Sinngehalts, da zu fragen<br />

ist, welche Beschränkungen das Kopf-Prinzip den Wörtern überhaupt noch auferlegt.<br />

Zudem wird rein kontextuell und nicht intrinsisch, d.h. im Lexikon festgelegt, was ein Kopf<br />

in bezug auf ein bestimmtes Merkmal F ist.<br />

Akzeptiert man jedoch dieses Prinzip, so kann man, wie auch in <strong>der</strong> Phrasensyntax, die<br />

Phrasenstrukturkomponente prinzipiell eliminieren und durch Subkategorisierungsanfor<strong>der</strong>ungen<br />

<strong>der</strong> Köpfe ersetzen (vgl. z.B. Lieber (1980), Gallmann (1990)). Köpfe legen nun fest,<br />

welche Nicht-Köpfe zu ihnen hinzutreten können und welche Eigenschaften diese Nicht-<br />

Köpfe aufweisen müssen. Dies ist attraktiv, da eine gewisse Redundanz in Wortstrukturregeln<br />

und unabhängig davon notwendigen Kombinationsrestriktionen beseitigt wird, was zu<br />

einem theoretisch einfacheren Beschreibungsapparat und einer weitgehenden Lexikalisierung<br />

von Flexion (und Derivation) führt.<br />

Die Einführung <strong>des</strong> Kopfbegriffs in die Flexionsmorphologie ist nun – wie schon gesagt –<br />

nicht unproblematisch, insbeson<strong>der</strong>e dann, wenn man die Flexionsstrukturregeln nicht als<br />

einen unabhängig vorhandenen Mechanismus betrachtet und ihn – wie skizziert - durch<br />

Subkategorisierungsanfor<strong>der</strong>ungen <strong>der</strong> Köpfe ersetzt.<br />

Zum ersten führt dies zu einem äußerst liberalen Begriff von Argument, o<strong>der</strong> wie auch immer<br />

man die Nicht-Köpfe auf <strong>der</strong> Wortebene nennen möchte. Man muß dann alle <strong>morphologischen</strong><br />

Beziehungen als Beziehungen zwischen Kopf und Nicht-Kopf abbilden, was zu<br />

einigen Ungereimtheiten führt. Wie sollen beispielsweise semantische leere Morpheme behandelt<br />

werden, wie z.B. das Partizip-II-Präfix ge-? Als Kopf wird man es kaum ansehen<br />

können, folglich muß es etwas Subkategorisiertes sein, also ein „Argument“ o<strong>der</strong> ein Modifikator.<br />

Beide Alternativen sind jedoch nicht zufriedenstellend, da <strong>der</strong> Beitrag dieses Präfixes<br />

eben kein semantischer o<strong>der</strong> syntaktischer, son<strong>der</strong>n ein phonetischer ist. Das Problem stellt<br />

sich im übrigen auch bei <strong>der</strong> Komposition in bezug auf die sog. Fugenelemente.<br />

Diese Problemfälle können durch allgemeine kontextfreie Wortstrukturregeln vermieden<br />

werden, da hier die Beziehungen zwischen Schwesterkonstituenten nicht unbedingt durch<br />

weitere grammatische Grundprinzipien festgelegt werden und so eine größere <strong>des</strong>kriptive<br />

Adäquatheit erreicht werden kann.<br />

Die zweite Schwierigkeit ergibt sich daraus, daß sich, wie oben bereits zur Sprache kam, <strong>der</strong><br />

starke Kopfbegriff <strong>der</strong> Syntax wohl nicht halten läßt. Relativierte Köpfe führen zu verhältnismäßig<br />

komplizierten Beziehungen zwischen den Wortbestandteilen. Beispielsweise wäre<br />

in <strong>der</strong> Wortform fragtest <strong>der</strong> Stamm frag- <strong>der</strong> KopfArgumentstruktur, -t- <strong>der</strong> KopfTempus und -est <strong>der</strong><br />

KopfPerson/Numerus. Welche Elemente subkategorisieren nun welche an<strong>der</strong>en? Daß -t- den<br />

Stamm subkategorisiert, erscheint mir unplausibel, wird aber von einigen Autoren, auch<br />

solchen aus dem Bereich <strong>der</strong> Computerlinguistik, beispielsweise Trost (1991) angenommen.<br />

Ein dritter Punkt betrifft leere Köpfe, die zur Wahrung <strong>der</strong> Einheitlichkeit <strong>des</strong> ganzen Ansatzes<br />

notwendig zu sein scheinen. Es stellt sich z.B. die Frage, welche Komponenten in<br />

Wortformen wie warf (1./3. Pers. Prät.) Träger <strong>der</strong> Person- und Numerusmerkmale sind.<br />

Nimmt man an, daß <strong>der</strong> Verbstamm selbst hierfür markiert ist – was im Rahmen <strong>der</strong> Konzeption<br />

<strong>des</strong> relativierten Kopfs durchaus möglich ist, da in Formen wie warfst ein weiter<br />

1 Definition <strong>des</strong> relativierten Kopfs nach Di Sciullo/Williams (1987:26): „The headF [d.h. head für<br />

Merkmal F; m.E.] of a word is the rightmost element of the word marked for the feature F.“<br />

48


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

rechts stehen<strong>des</strong> und für die betreffenden Merkmale spezifiziertes Affix die Oberhand gewinnt<br />

– so handelt man sich damit jedoch eine Inhomogenität im Lexikon ein, da dann einige<br />

Verbstämme im Lexikon mit Person- und Numerusmerkmalen verzeichnet sind und<br />

an<strong>der</strong>e nicht. Die Alternative hierzu, leere Kategorien anzunehmen ist jedoch aus theoretischer<br />

wie parstechnischer Hinsicht unattraktiv. Theoretisch <strong>des</strong>halb, da leere Kategorien<br />

hier basisgeneriert sind und nicht durch Bewegung entstehen und daher nicht durch ein<br />

an<strong>der</strong>es overtes Element lizensiert sind. Aus <strong>der</strong> Perspektive <strong>des</strong> Parsings sind leere Köpfe<br />

unerwünscht, da <strong>der</strong> Parser sie effizient nur mit Hilfe einer Top-Down-Komponente<br />

(beispielsweise den Zustandsautomaten eines LR(k)- o<strong>der</strong> Earley-Parsers) identifizieren<br />

kann, die wie<strong>der</strong>um eine Regelgrammatik voraussetzt.<br />

Im nächsten Abschnitt wird ein Mischmodell vorgestellt, welches einerseits Züge eines itemand-process-Modells,<br />

an<strong>der</strong>erseits solche eines word-and-paradigm-Modells aufweist.<br />

3.1.1.2 Minimalistische Morphologie<br />

Der Begriff Minimalistische (Flexions-)Morphologie (vgl. z.B. Wun<strong>der</strong>lich (1992), Wun<strong>der</strong>lich/Fabri<br />

(1994), Fabri et al. (1994)) bezieht sich auf Ansätze, die nicht einfach nur <strong>des</strong>kriptiv<br />

angeben, welche Flexionsaffixe an welche Stämme herantreten können und welche morpho-syntaktischen<br />

Merkmale <strong>der</strong> resultierenden Wortform zukommen, son<strong>der</strong>n auf solche,<br />

die das Zustandekommen von Flexionsparadigmen aus einer Reihe von Wohlgeformtheitsprinzipien<br />

erklären. Man könnte daher, in Anlehnung an neuere grammatische Theorien,<br />

auch von prinzipienbasierter Morphologie reden.<br />

Im folgenden sollen kurz wesentliche Züge dieses Ansatzes vorgestellt und nach ihrer<br />

Brauchbarkeit für den Zweck <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong>, genauer <strong>der</strong> Deflexion, beurteilt<br />

werden.<br />

Das Lexikon <strong>des</strong> minimalistischen Modells enthält Stämme und Affixe. Verbale Flexionsaffixe<br />

werden als Funktoren mit phonetischer Matrix angesehen, die Verbstämme subkategorisieren,<br />

indem sie bestimmte Merkmalsspezifikationen <strong>des</strong> Verbstamms for<strong>der</strong>n. Hierzu verfügen<br />

die Affixe über eine Eingabebedingung, die die Anfor<strong>der</strong>ungen festhält, die ein zulässiger<br />

Verbstamm erfüllen muß. Affixe führen in einer Ausgabespezifikation neue Merkmale<br />

ein, die die komplexe Wortform aus Stamm und Affix erhält, wenn <strong>der</strong> Stamm die in <strong>der</strong><br />

Eingabebedingung festgelegten Erfor<strong>der</strong>nisse erfüllt.<br />

Tabelle 3.1 hält die Affixe fest, die für die <strong>Analyse</strong> <strong>des</strong> verbalen Flexionsverhaltens angenommen<br />

werden können (nach Fabri et al. (1994:5)).<br />

Affix Ausgabespezifikation Eingabebedingung<br />

1 (/e/) [+imp ] [–pret,-subj ]<br />

2 /te/ [+pret ] [ ]<br />

3 /e/ [+subj ] [ ]<br />

4 /t/ [+2,+pl ] [ ]<br />

5 /n/ [+pl ] [ ]<br />

6 /st/ [+2 ] [ ]<br />

7 /e/ [+1 ] [ ]<br />

8 /t/ [ ] [–pret, –subj, –pl ]<br />

9 /t/ [+part] [–pret, –subj, –pl ]<br />

10 /n/ [ ] [–agr]<br />

Tabelle 3.1: Verbale Flexionsaffixe<br />

Affix 2 (/te/) führt das Merkmal +pret bei <strong>der</strong> Flexion regelmäßiger Verben ein (Beispiel:<br />

(wir) fragten), Affix 3 verknüpft das Merkmal +subj (Konjunktiv) an das Affix /e/ (Beispiel:<br />

49


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

(sie) frage). Die Affixe 4 bis 8 sind für die Verbflexion im Präsens, Affix 9 für die Partizip-II-<br />

Bildung bei schwachen Verben und Affix 10 für den Infinitiv verantwortlich.<br />

Bei unregelmäßigen Verben enthält das Lexikon alle verschiedenen Verbstämme, zusammen<br />

mit einem Verweis auf die Zitierform (Infinitivform) <strong>des</strong> Lexems. Das Verb werfen weist beispielsweise<br />

folgende Stämme auf, die zusammen mit ihren Merkmalsspezifikationen in Tabelle<br />

3.2 aufgeführt sind:<br />

Stamm Merkmalsspezifikation<br />

werf- [+V]<br />

wirf- [+V] � ([–1] � [+imp])<br />

warf- [+V, +pret]<br />

worfn 2 [+V, +part]<br />

würf- [+V, +subj, +pret]<br />

Tabelle 3.2: Stämme <strong>des</strong> Lemmas werfen<br />

Durch die Merkmale V, pret, part, subj, 1, 2, pl, agr, imp, die alle zweiwertig sind, sind<br />

Stämme und Affixe vollständig bestimmt; es gibt also keine weiteren Merkmale und insbes.<br />

keine Klassenmerkmale wie RegularVerb, IrregularVerb etc., vgl. Wun<strong>der</strong>lich (1992:4):<br />

„In the morphological system of a language, no arbitrary class features are used“<br />

Zugelassen sind demnach nur sog. inhärente Klassenmerkmale, d.h. Merkmale, die man aus<br />

unabhängigen Gründen benötigt.<br />

Es ist leicht zu sehen, daß das System, welches Stämme und Affixe kombiniert, massiv übergeneriert,<br />

da die meisten Affixe keine Eingabebedingungen definieren und somit mit einer<br />

ganzen Reihe von Stämmen kompatibel sind. Unerwünschte Kombinationen werden daher<br />

durch eine Reihe von Prinzipien ausgeschlossen, die sich in vier verschiedene Gruppen unterteilen<br />

lassen (vgl. Fabri et al. (1994:23)):<br />

A) Prinzipien, die festlegen, was ein mögliches Affix ist: Unterspezifikation, Strikte<br />

Monotonität<br />

B) Prinzipien, die den möglichen Stamm-Affix-Kombinationen Beschränkungen auferlegen:<br />

Affix-Reihenfolge, Nicht-Redundanz, Feature Cooccurence Restrictions, Ein- und<br />

Ausgabespezifizität<br />

C) Prinzipien, die den Inhalt eines Paradigmas festlegen: Spezifizität und Simplizität<br />

D) Prinzipien, die die Struktur eines Paradigmas festlegen: Eindeutigkeit und Vollständigkeit<br />

1. Unterspezifikation:<br />

a) Die Ausgabespezifikation eines Affixes enthält nur Merkmale mit dem Wert „+“.<br />

b) Merkmale, die we<strong>der</strong> in <strong>der</strong> Eingabebedingung noch <strong>der</strong> Ausgabespezifikation eines Affixes<br />

erwähnt werden, haben den Default-Wert „–“.<br />

Prinzip 1a) hält fest, daß Affixe immer vom Default abweichende Werte einführen müssen,<br />

während 1b) diesen Default festlegt.<br />

2 Das Affix /n/, welches das Partizip II <strong>der</strong> starken Verben bildet, wird als nicht mehr produktiv angesehen<br />

und daher als Teil <strong>des</strong> Stamms betrachtet.<br />

50


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Beispiel 3.3:<br />

Das Affix 6 in Tabelle 3.1 enthält als Ausgabe die Spezifikation [+2]. Da das Merkmal pl<br />

nicht erwähnt ist, hat es den Wert „–“.<br />

2. Strikte Monotonität:<br />

Affixe als morphologische Operatoren führen immer neue Informationen, d.h. positiv spezifizierte<br />

Merkmale ein.<br />

3. Affix-Reihenfolge<br />

Affixe (und auch Stämme) werden klassifiziert nach ihrer Position, die sie innerhalb einer<br />

gegebenen Affigierungshierarchie einnehmen (vgl. Wun<strong>der</strong>lich (1992)):<br />

Verb < Tempus < Modus < Numerus < Person<br />

An den Verbstamm treten also zunächst Affixe, die ein Tempus-Merkmal einführen, bevor<br />

Affixe mit Numerus- und Personmerkmalen hinzugenommen werden können.<br />

Beispiel 3.4:<br />

Die Form fragten (1./3. Pers. Pl. Prät.) ergibt sich folgen<strong>der</strong>maßen:<br />

(6)<br />

frag te n<br />

[+V] [+pret] [-2,+pl]<br />

Das Prinzip <strong>der</strong> Affix-Reihenfolge besagt, daß, falls eine Form – inhärent o<strong>der</strong> durch eine<br />

bereits durchgeführte Anwendung einer Affigierungsoperation – bereits für ein Merkmal m<br />

aus dieser Hierarchie spezifiziert ist, nur noch Affixe hinzutreten können, die Merkmale<br />

einführen, die rechts von m stehen.<br />

Prinzip 3 schließt beispielsweise aus, daß an den Stamm warf, <strong>der</strong> schon mit +pret markiert<br />

ist, noch das Präteritalaffix /t/ angehängt werden kann, welches ja das Merkmal +pret<br />

nochmals einführen würde. Hinzutreten können lediglich noch Affixe mit Person- und Numerusmerkmalen<br />

wie /n/, /st/ und /t/.<br />

4. Feature Cooccurence Restrictions (FCRs)<br />

Mit Beschränkungen dieser Art legt man fest, daß bestimmte Merkmale zwangsläufig mit<br />

bestimmten an<strong>der</strong>en auftreten, bzw. diese implizieren. Der minimalistische Ansatz geht von<br />

den in Tabelle 3.3 aufgeführten FCRs aus:<br />

1 [+part] � [–part] � [–agr]<br />

2 [+pret] � [–pret] � [+agr]<br />

3 [+V, +C] � [+2]<br />

4 [+1] � [–2]<br />

5 [+2] � [–1]<br />

Tabelle 3.3: Feature Cooccurence Restrictions<br />

Insbes. die drei letzten FCRs sind Stipulationen, da sie nicht als Konsequenz unabhängiger<br />

Prinzipien zu erhalten sind.<br />

51


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

5. Ein- und Ausgabespezifizität:<br />

Bei <strong>der</strong> Bildung von Stamm-Affix-Kombinationen werden spezifischere gegenüber weniger<br />

spezifischen Kombinationen bevorzugt:<br />

a) Wenn die Anwendung eines Affixes auf zwei verschiedene Eingaben das gleiche Ergebnis<br />

liefert, dann ziehe die spezifischere Eingabe vor.<br />

b) Wenn auf eine Eingabe zwei Affixe anwendbar sind, dann ziehe die Eingabe vor, die die<br />

spezifischere Ausgabe erzeugt.<br />

Beispiel 3.5:<br />

Die Form wirfst, die mit <strong>der</strong> Form werfst konkurriert, gewinnt aufgrund Prinzip 5a<br />

(Eingabespezifizität), da <strong>der</strong> Stamm wirf- durch seine Markierung –1 spezifischer als <strong>der</strong><br />

Stamm werf- ist.<br />

Die Prinzipien <strong>der</strong> Gruppen C und D beziehen sich auf einen zentralen Punkt <strong>des</strong> minimalistischen<br />

Ansatzes, dem Paradigmen-Mechanismus.<br />

Ein Paradigma im Sinne <strong>des</strong> minimalistischen Modells ist eine mehrdimensionale, möglicherweise<br />

rekursive Tabelle (d.h. eine Tabelle, die in ihren Zellen weitere Tabellen enthalten<br />

kann), <strong>der</strong>en Dimensionen mit Merkmalen wie ±1, ±2, ±pl gegeben sind. Paradigmen befinden<br />

sich an <strong>der</strong> Schnittstelle zwischen Flexionsmorphologie und Satzsyntax, indem sie aufgrund<br />

ihrer Struktur spezifizieren, welche von keiner Affigierungsoperation erwähnten<br />

Merkmale noch als Default-Werte zu einer Stamm-Affix-Kombination hinzukommen können.<br />

Paradigmen werden merkmalsgetrieben aus <strong>der</strong> Ausgabespezifikation eines Affixes (o<strong>der</strong><br />

Stammes) konstruiert. Das spezifischste Affix aus <strong>der</strong> Liste <strong>der</strong> möglichen Affixe – Affix 4<br />

aus Tabelle 3.1 – spannt eine Matrix auf, <strong>der</strong>en Dimensionen durch die Anzahl <strong>der</strong> positiv<br />

gegebenen Merkmale gegeben sind, also [+2] und [+pl]:<br />

(7)<br />

+2<br />

–2<br />

+pl –pl<br />

Formen konkurrieren nun um die Besetzung <strong>der</strong> Zellen <strong>des</strong> Paradigmas. Dabei gilt das Prinzip<br />

<strong>der</strong> Spezifizität und Simplizität:<br />

6. Spezifizität und Simplizität<br />

Bei <strong>der</strong> Besetzung von Paradigmenzellen werden einfachere bzw. spezifischere gegenüber<br />

komplexeren bzw. weniger spezifischen Formen vorgezogen.<br />

52


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Beispiel 3.6:<br />

Im Fall <strong>der</strong> Flexion von werfen wird die Zelle durch die Form werft besetzt, da diese<br />

– dank ihres Affixes – die spezifischste Form ist. Die Formen wirfst und werfen werden dann,<br />

da sie weniger spezifisch sind, in die Zellen und eingefügt, woraus sich<br />

folgen<strong>des</strong> Teilparadigma ergibt:<br />

(8) +pl –pl<br />

+2 werf-t wirf-st<br />

–2 werf-n<br />

Aufgrund <strong>des</strong> Simplizitätsprinzips sind Formen wie werf-n-st für die Zelle ausgeschlossen.<br />

Affix 7 (/e/) aus Tabelle 3.1 eröffnet nun, da es explizit mit +1 und via Default mit –2 und -pl<br />

markiert ist, in <strong>der</strong> Zelle ein Subparadigma für die Werte +1 und –1. Die Form<br />

werfe, die durch ihr Affix -e mit +1 markiert ist, wird eingefügt, woraufhin die am wenigsten<br />

spezifische Form wirft in die Spalte <strong>des</strong> Paradigmas eingesetzt wird. Das fertige Paradigma<br />

sieht dann folgen<strong>der</strong>maßen aus:<br />

(9)<br />

+pl –pl<br />

+2 werf-t wirf-st<br />

–2 werf-n +1 werf-e<br />

–1 wirf-t<br />

Dieses Paradigma ist wie<strong>der</strong>um eingebettet in ein Paradigma, welches sich aus <strong>der</strong> Markierung<br />

<strong>des</strong> Stamms warf mit dem Merkmal +pret ergibt.<br />

Die Prinzipien <strong>der</strong> Gruppe D legen schließlich Wohlgeformtheitsbedingungen für Paradigmen<br />

fest:<br />

7. Vollständigkeit<br />

Jede Zelle eines Paradigmas muß belegt sein<br />

8. Eindeutigkeit<br />

Jede Zelle eines Paradigmas muß eindeutig belegt sein<br />

Die Erzeugung eines Paradigmas wird als ein Vorgang angesehen, <strong>der</strong> während einer Lernphase,<br />

also offline, nach einem generate-and-test-Modell abläuft. Die zur Verfügung stehenden<br />

Stämme und Affixe werden kombiniert und den verschiedenen Wohlgeformtheitsprinzipien<br />

unterworfen. Dabei ist zu beachten, daß insbes. die Spezifizitätsprinzipien nicht nur Informationen<br />

zu <strong>der</strong> gerade untersuchten Stamm-Affix-Kombination in Betracht ziehen, son<strong>der</strong>n<br />

Zugriff auf alle Affixe und auch auf alle Stämme <strong>des</strong> untersuchten Lemmas haben. Hierdurch<br />

wird die Paradigmenkonstruktion ein relativ aufwendiger Vorgang, <strong>der</strong> aber nach<br />

Meinung von Fabri et al. (1994:26) nicht ins Gewicht fällt, da er eben offline und nicht während<br />

<strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> vonstatten geht. Unklar bleibt nun, wie man sich die<br />

Verwendung eines mithilfe <strong>des</strong> eben vorgestellten Verfahrens gewonnenen Paradigmas<br />

während <strong>der</strong> online-Deflexion von Wörtern vorzustellen hat. Fabri et al. (1994:37) extrahieren<br />

53


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

aus dem gewonnenen Paradigma, beispielsweise <strong>des</strong> von werfen, die Information, welche<br />

Endungen auf welchen Stamm folgen können:<br />

Stamm kann gefolgt werden von<br />

warf -n, -t, -st, -0<br />

wirf st, -0<br />

werf -e, -n, -e-st, -e-t<br />

würfe -n, -t, -st, -0<br />

worf -n<br />

Tabelle 3.4: Stämme und mögliche Affixe, die nachfolgen können<br />

Dabei wird jedoch nicht gesagt, wie nun die flektierten Formen zu ihren morphosyntaktischen<br />

Merkmalen kommen.<br />

Nimmt man an, daß im <strong>Deutschen</strong> nicht alle (verbalen) Wortformen als Listeme im Lexikon<br />

verzeichnet sind und weiterhin, daß Paradigmen keine Epiphänomene sind und einen vom<br />

Lexikon unabhängigen Status haben – es demnach nur zwei verschiedene Paradigmen, je<br />

eines für regelmäßige und unregelmäßige Verben gibt –, so stellt sich das Problem <strong>der</strong> Zuordnung<br />

von bestimmten Verben zu diesen unterschiedlichen Paradigmentypen. Hier<br />

kommt man nicht daran vorbei, die Verben entsprechend zu klassifizieren, mithin Klassenmerkmale<br />

einzuführen. Darüber hinaus muß man bei den unregelmäßigen Verben die verschiedenen<br />

Stämme ebenfalls klassifizieren, um ihre Zuordnung zu den „richtigen“ Flexionsaffixen<br />

sicherzustellen. Fabri et al. (1994) verschleiern dies, da sie in ihrer Stamm-Affix-<br />

Tabelle (Tabelle 3.4) in <strong>der</strong> linken Spalte konkrete Verbstämme und nicht <strong>der</strong>en Äquivalenzklassen<br />

angeben, was aber bedeuten würde, daß die Informationen aus Tabelle 3.4 für je<strong>des</strong><br />

Verb dupliziert werden müßten; dies gilt jedoch nicht nur für die etwa 170 unregelmäßigen,<br />

son<strong>der</strong>n auch für die ungleich größere Zahl <strong>der</strong> regelmäßigen Verben. M.a.W.: ohne<br />

Einführung von Klassenmerkmalen erhält man eine höchst redundante Konzeption <strong>des</strong><br />

Begriffs „Paradigma“.<br />

Wun<strong>der</strong>lich (1992:15) ist sich dieses Problems anscheinend bewußt und schlägt daher<br />

„generalisierte Paradigmen“ vor; hier ist beispielsweise das Präteritum-Paradigma <strong>der</strong> starken<br />

Verben angegeben:<br />

(10)<br />

+pl –pl<br />

+2 /st/ /t/<br />

–2 /n/<br />

Hier stellt sich natürlich sofort die Frage, was sich in <strong>der</strong> Zelle befindet: ein Nullaffix<br />

o<strong>der</strong> gar nichts? Nimmt man ein Nullaffix an, so führt man an dieser Stelle eine Entität<br />

ein, die man bisher, bei <strong>der</strong> Paradigmenkonstruktion, bewußt vermieden hat. 3 Nimmt man<br />

nichts an, so muß man einen Träger für die Merkmalskombination [–2, +pl] finden: dies<br />

kann jedoch nur <strong>der</strong> Stamm sein. Dieser Stamm, z.B. warf, muß folglich diese beiden<br />

Merkmale tragen, im Gegensatz zu <strong>der</strong> Annahme, daß er nur mit +pret markiert ist. Möchte<br />

man nun die an<strong>der</strong>en Formen <strong>des</strong> Paradigmas bilden, so müssen diese Merkmale jedoch<br />

außer Kraft gesetzt werden können, d.h. man benötigt dann einen Default-Mechanismus,<br />

beispielsweise Default-Unifikation (vgl. Bouma (1992)):<br />

3 vgl. Wun<strong>der</strong>lich/Fabri (1994:3): „Inflectional morphology is <strong>des</strong>cribed in terms of affixes which have a<br />

phonological form and not in terms of abstract morphemes.“ [meine Hervorhebung]<br />

54


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

cat: V<br />

pers: 1 � 3<br />

head: agr:<br />

num: sg<br />

tense: pret<br />

warf + t<br />

55<br />

!<br />

head: agr:<br />

pers: 2<br />

num: pl<br />

Abb. 3.1: Anwendung von Default-Unifikation bei <strong>der</strong> Merkmalsbestimmung<br />

Der zweite Operand <strong>des</strong> Default-Unifikationsoperators t! 4 erhält hierbei Priorität, so daß sich<br />

seine Merkmale gegenüber den Merkmalen <strong>des</strong> ersten Operanden durchsetzen.<br />

Zusammenfassend halte ich die Konzeption <strong>der</strong> minimalistischen Morphologie für ein interessantes<br />

Modell <strong>der</strong> Paradigmenkonstruktion; sie ist jedoch für problematisch für die Aufgabenstellung<br />

<strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong>.<br />

Der Ansatz hat Ähnlichkeit mit dem in Kapitel 1 vorgestellten objektorientierten Ansatz von<br />

Daelemans (1987), insofern, als ein <strong>Analyse</strong>problem durch Generierung (hier Paradigmenelemente,<br />

dort vollständige Wortformen) gelöst wird. Man könnte also, Daelemans folgend,<br />

mit Hilfe <strong>des</strong> Paradigmenmechanismus alle verbalen Wortformen generieren und<br />

dann im Lexikon abspeichern. Dann greifen jedoch die Einwände, die ich auch gegen<br />

Daelemans Idee vorgebracht habe. Eine abgeschwächte Variante könnte beispielsweise das<br />

Paradigma eines Verbs dynamisch generieren, d.h. durch das Auftreten einer bestimmten<br />

Stammform <strong>des</strong> Verbs wird <strong>der</strong> Paradigmenmechanismus angestoßen; auch dies scheint mir<br />

zu aufwendig zu sein.<br />

Zusammenfassend bleibt festzuhalten, daß <strong>der</strong> Ansatz <strong>der</strong> minimalistischen Flexionsmorphologie<br />

eine Mischform zwischen verschiedenen Modellen ist. Der Mechanismus zur Paradigmenkonstruktion<br />

ist vom Typ item-and-process, die spätere Verwendung <strong>der</strong> Paradigmen<br />

läuft auf das word-and-paradigm-Modell hinaus.<br />

3.1.2 Derivation und Komposition<br />

Die Syntax <strong>der</strong> Derivation und Komposition sollen hier weitgehend gemeinsam behandelt<br />

werden, da die meisten neueren Theorien <strong>der</strong> Wortstruktur (z.B. Toman (1987), Höhle<br />

(1982)) sie als Ergebnis <strong>des</strong> gleichen Mechanismus ansehen. Unterschiede zwischen diesen<br />

beiden Wortbildungsarten werden, wie noch gezeigt wird, durch unterschiedliche Lexikoneinträge<br />

<strong>der</strong> beteiligten Morpheme erklärt.<br />

Für komplexe Wörter eine hierarchische Struktur anzunehmen ist nun keineswegs selbstverständlich<br />

5 . M.E. ist diese Annahme nur dann sinnvoll, wenn man von <strong>der</strong> Prämisse ausgeht,<br />

daß sich die semantische Interpretation zusammengesetzter Wörter kompositionell entlang<br />

ihrer internen Strukturierung ergibt. Auf diese Weise ist es dann z.B. möglich, die beiden<br />

Lesarten eines Kompositums wie Hochleistungscomputer strukturell zu fassen, vgl.:<br />

4 t! ist damit keine kommutative Operation.<br />

5 vgl. etwa Spencer (1991:189): „The idea that words have their own constituent structure has been<br />

predominant, to the extent of being taken for granted in some circles. However, it is not a necessary<br />

assumption, and [..] we will see approaches in which constituent structure plays a less prominent role<br />

or no role whatever.“


(11) a)<br />

A<br />

Hoch<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

N<br />

N N<br />

leistungs<br />

N<br />

computer<br />

56<br />

b)<br />

Hoch<br />

N<br />

A N<br />

N<br />

leistungs<br />

N<br />

computer<br />

Die Bedeutung von (11a) könnte man umschreiben mit „hoher Leistungscomputer“, die von<br />

(11b) mit „Computer mit hoher Leistung“ (die präferierte Lesart).<br />

Eine semantisch induzierte Wortsyntax wird, eingeschränkt auf die Komposition, auch von<br />

<strong>der</strong> traditionellen Grammatik angenommen (z.B. Duden (1984: 440), ohne daß jedoch ihre<br />

semantische Bedingtheit offengelegt würde.<br />

Gründe für die Annahme einer autonomen wortsyntaktischen Komponente, analog <strong>der</strong><br />

These <strong>der</strong> Autonomie <strong>der</strong> Syntax, sind nicht ohne weiteres beizubringen, da die Wortsyntax<br />

von erheblich geringerer Komplexität als die Satzsyntax ist. Darüber hinaus erklärt auch<br />

eine angenommene Wortsyntax nicht alle <strong>Aspekte</strong> <strong>der</strong> Morphologie, beispielsweise solche,<br />

die sich nicht durch bloße Morphemkonkatenation erklären lassen. Erwähnenswert ist hier<br />

z.B. die Konversion.<br />

Vor dem Hintergrund <strong>des</strong> Ziels dieser Arbeit, auch einen Beitrag zur maschinellen Interpretation<br />

von komplexen Wörtern zu leisten, möchte ich jedoch von <strong>der</strong> Arbeitshypothese<br />

ausgehen, daß man solchen Wörtern eine hierarchische Struktur zuweisen kann. Dies findet<br />

nicht zuletzt seinen pragmatischen Grund darin, daß Computer mit Strukturen weitaus besser<br />

umgehen können als mit Inhalten.<br />

3.1.2.1 Strukturregeln<br />

Hinsichtlich <strong>des</strong> Formats <strong>der</strong> strukturaufbauenden Regeln gibt es in <strong>der</strong> Literatur prinzipiell<br />

zwei Auffassungen:<br />

1. Wortstrukturregeln als auf Binarität eingeschränkte Regeln einer kontextfreien Grammatik.<br />

2. Wortstrukturregeln als Instanzen eines <strong>morphologischen</strong> X-Bar-Schemas.<br />

Vertreter <strong>der</strong> ersten Auffassung sind u.a Di Sciullo/Williams (1987) o<strong>der</strong> aus computerlinguistischer<br />

Anwendungsperspektive Thurmair (1986a, b). Di Sciullo/Williams (1987: 23)<br />

geben folgende Grammatik für die syntaktische Struktur englischer Wörter an:<br />

(12)<br />

a) stem � af stem<br />

b) stem � stem af<br />

c) word � af word<br />

d) word � word af<br />

e) word � stem<br />

f) word � word word<br />

Die Regeln (12a-f) sind für Flexion und Derivation zuständig, Regel (12f) für die Komposition.<br />

In ähnlicher Form könnte man auch eine Wortgrammatik für das Deutsche angeben.<br />

Der Ansatz von Di Sciullo/Williams nimmt darüber hinaus die Gültigkeit <strong>der</strong> Righthand<br />

Head Rule an, die jedoch in den Regeln selbst nicht explizit ist.


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Demgegenüber geht die an<strong>der</strong>e, u.a. von Toman (1987) und Selkirk (1982) vorgebrachte<br />

Sichtweise davon aus, daß <strong>der</strong> Begriff <strong>des</strong> <strong>morphologischen</strong> Kopfes bei <strong>der</strong> Formulierung<br />

von Strukturregeln im Zentrum stehen muß. Toman (1987) nimmt beispielsweise ein allgemeines<br />

X-Bar-Schema<br />

(13) X n � ... X n-1 ...<br />

an, welches durch eine zusätzliche Bedingung<br />

(14) Wenn n = 0, dann n–1 = 0<br />

für die Erzeugung von Wortstrukturen parametrisiert wird. Für (zusammengesetzte) Wörter<br />

wird demnach angenommen, daß sie X 0-Kategorien sind und wie<strong>der</strong>um aus solchen aufgebaut<br />

sind. Das X auf den beiden Seiten <strong>des</strong> Pfeils in (13) drückt dabei die Kopflinie aus, entlang<br />

<strong>der</strong> sich Merkmale eines Wortbestandteils an das Gesamtwort vererben.<br />

Während Toman durch sein Schema (13) zunächst noch 6 nicht-binäre Strukturen und damit<br />

solche, in denen <strong>der</strong> Kopf nicht peripher steht, zuläßt, beschränkt Selkirk ihr X-Bar-Schema<br />

durch Ausmultiplizierung (Selkirk 1982:16)):<br />

(15) N � N N<br />

N � A N<br />

N � V N<br />

N � P N<br />

A � N A<br />

A � A A<br />

A � P A<br />

V � P V<br />

Meiner Meinung nach gibt es jedoch eine ganze Reihe von Argumenten, die gegen eine<br />

Parallelisierung von Wort- und Satzsyntax mit Hilfe eines verallgemeinerten X-Bar-Schema<br />

sprechen:<br />

1. Köpfe in Wortstrukturen sind positionell – durch die Righthand Head Rule – nicht inhaltlich,<br />

d.h. aufgrund bestimmter Merkmale festgelegt.<br />

2. Der Kopfbegriff <strong>der</strong> Wortsyntax ist viel schwächer als <strong>der</strong> <strong>der</strong> Phrasensyntax, wenn man<br />

– was notwendig scheint – das Vorhandensein von relativierten Köpfen annimmt.<br />

3. Maximalität ist keine Kategorie <strong>der</strong> Wortsyntax; dementsprechend sind die „Komplemente“<br />

von Wortköpfen nicht maximal.<br />

4. Überhaupt kann man kaum von Komplementen o<strong>der</strong> – negativ gefaßt – auch nur von<br />

Nicht-Köpfen sprechen, da fast je<strong>der</strong> Bestandteil eines komplexen Wortes hinsichtlich<br />

eines bestimmten Merkmals zu den Gesamteigenschaften <strong>des</strong> Wortes beiträgt, m.a.W.<br />

ein Kopf ist. Hinzu kommt, daß ausgesprochen grammatische Beziehungen, wie es<br />

Kopf-Komplement-Beziehungen sind, auf <strong>der</strong> Wortebene eher selten anzutreffen sind;<br />

lediglich bei Rektionskomposita und Strukturen mit relationalem Zweitglied kann davon<br />

die Rede sein.<br />

5. Schließlich ist (13) nur ein Teil <strong>des</strong> für die Phrasensyntax angenommenen X-Bar-Schemas.<br />

Der fehlende Teil führt sog. Phrasenspezifikatoren ein, eine Kategorie, die auf <strong>der</strong><br />

Wortebene vollständig fehlt.<br />

6 Toman ersetzt (13) später (S. 50) durch X n � ... X n-1 .<br />

[+N]<br />

57


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Nimmt man nun die Gültigkeit <strong>der</strong> Righthand Head Rule von Williams (1981) an – wenn auch<br />

nur als empirische Generalisierung bezüglich einer gewissen Anzahl von Sprachen, dann<br />

muß man Abschied nehmen von Kategorien wie Suffix etc. wie in (16):<br />

(16) a) N<br />

V<br />

Kopier er<br />

b) A<br />

58<br />

V<br />

begeh bar<br />

da Strukturen wie diese gegen die angenommene Rechtsköpfigkeit verstoßen. Statt<strong>des</strong>sen ist<br />

man gezwungen, die Suffixe -er und -bar als Elemente <strong>der</strong> Klasse Nomen bzw. Adjektiv anzusehen,<br />

so daß für (16) folgende Strukturen resultieren:<br />

(17) a) N<br />

V N<br />

Kopier er<br />

b)<br />

A<br />

V A<br />

begeh bar<br />

Dieser Schluß ist nun keineswegs ad hoc, da die genannten und auch noch weitere Suffixe<br />

wie -ung, -heit/keit etc. nicht nur die Wortart <strong>des</strong> <strong>der</strong>ivierten Worts bestimmt, son<strong>der</strong>n auch –<br />

bei Nomen – <strong>des</strong>sen Genus und Flexionsklasse.<br />

Der einzige Unterschied zwischen diesen Suffixen und „richtigen“ Nomen, Verben und<br />

Adjektiven scheint nunmehr lediglich darin zu bestehen, daß erstere im Lexikon mit dem<br />

Merkmal +gebunden spezifiziert sind. Dieses Merkmal ±gebunden darf allerdings kein vererbtes<br />

Kopfmerkmal im Sinne <strong>der</strong> head features <strong>der</strong> GPSG/HPSG sein, da es nicht auf das<br />

abgeleitete Wort übertragen werden darf. Hieraus kann man ersehen, daß, abgesehen von<br />

<strong>der</strong> Tatsache, ein morphologischer Kopf aufgrund seiner Relativität die <strong>morphologischen</strong><br />

Eigenschaften <strong>des</strong> Gesamtwortes nur partiell bestimmt, er darüber hinaus nicht alle seine<br />

Merkmale vererben darf. Dies bedeutet, daß <strong>der</strong> Begriff <strong>des</strong> Kopfes selbst noch zu schwach<br />

ist, um alle Phänomene zu erklären; was man zusätzlich benötigt, ist also <strong>der</strong> Begriff <strong>des</strong><br />

Kopfmerkmals.<br />

Stellt man die beiden vorgestellten Möglichkeiten zur Wortstrukturbildung gegenüber, so<br />

ergibt sich folgen<strong>des</strong> Bild:<br />

1. Der Formalismus <strong>des</strong> <strong>morphologischen</strong> X-Bar-Schemas ist eingeschränkter als <strong>der</strong> <strong>der</strong><br />

kontextfreien Regeln. Eine Wortgrammatik auf <strong>der</strong> Grundlage <strong>des</strong> letzteren läßt sich jedoch<br />

leicht erweitern, um eine höhere <strong>des</strong>kriptive Adäquatheit zu erzielen; dies ist umso<br />

wichtiger, als es bei <strong>der</strong> maschinellen <strong>morphologischen</strong> <strong>Analyse</strong> ja darum geht, Regularitäten<br />

<strong>der</strong> Wortbildung <strong>der</strong> Gegenwartssprache abzubilden, die nicht in die eigentliche<br />

Wortsyntax fallen, beispielsweise Analogiebildungen. Diese Situation kann man auch in<br />

<strong>der</strong> Phrasensyntax wie<strong>der</strong>finden, wo das X-Bar-Schema in den Bereich <strong>der</strong> Kerngrammatik<br />

i.S. von Chomsky (1981) fällt, die vollständige Grammatik <strong>der</strong> Gegenwartssprache<br />

aber viele Elemente aus <strong>der</strong> Peripherie enthält.<br />

2. An<strong>der</strong>erseits ist das X-Bar-Schema meist mit einer Lexikalisierung <strong>der</strong> Syntax gekoppelt:<br />

syntaktische Strukturen entstehen aus <strong>der</strong> Interaktion von aus dem Lexikon projizierten<br />

Informationen mit universellen Phrasenstrukturprinzipien. Für das morphologische X-<br />

Bar-Schema bedeutet dies, daß man die Anfor<strong>der</strong>ungen, die ein Kopf an seine Umgebung<br />

stellt, in seinem Lexikoneintrag festhalten muß.


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

3.1.2.2 Argumentvererbung<br />

Mit Argumentvererbung wird <strong>der</strong> Sachverhalt bezeichnet, daß abgeleitete Wörter häufig<br />

thematische Rollen vor ihrer Basis übernehmen.<br />

(18)<br />

a) Der Notar beurkundete den Grundstücksverkauf<br />

Agens Thema<br />

b) Die Beurkundung <strong>des</strong> Grundstücksverkaufs (durch den Notar)<br />

Thema (Agens)<br />

(19)<br />

a) Das Gericht überträgt das Nutzungsrecht an die Alteigentümer<br />

Agens Thema Benefizient<br />

b) Die Übertragung <strong>des</strong> Nutzungsrechts (durch das Gericht) an die Alteigentümer<br />

Thema (Agens) Benefizient<br />

(20)<br />

a) Die Funken entflammen das Material<br />

?? Thema<br />

b) Das Material ist (durch Funken) entflammbar<br />

Thema ??<br />

Anscheinend werden in (18)-(20) die Thetarollen-Raster <strong>der</strong> zugrundeliegenden Verben an<br />

das Derivat vererbt. Die Thetarolle <strong>des</strong> Subjekts (Agens in (18) und (19), ?? in (20)) muß im<br />

abgeleiteten Wort nicht unbedingt realisiert werden; dies ist analog zur Passivierung in <strong>der</strong><br />

Satzsyntax.<br />

Vererbt werden nur Thetarollen, nicht jedoch <strong>der</strong>en syntaktische Realisierung. Die Thema-<br />

Thetarolle <strong>des</strong> Akkusativobjekts in (19a) wird in (19b) beispielsweise als postnominaler Genitiv<br />

verwirklicht. Die syntaktische Realisierung einer Thetarolle muß also kompatibel sein<br />

mit den allgemeinen kategorialen Eigenschaften <strong>des</strong> Derivats. Nomina lassen z.B. nur Genitiv-Nominalphrasen<br />

und Präpositionalphrasen als Komplemente bzw. Modifikatoren zu,<br />

dementsprechend werden die Thetarollen <strong>des</strong> Basisverbs verwirklicht.<br />

Als Struktur kann man etwa für (19b) folgen<strong>des</strong> annehmen:<br />

(21)<br />

V N<br />

59<br />

N<br />

übertrag ung<br />

[ Agens, Thema, Benefizient ]<br />

Während <strong>der</strong> morphologische Kopf in (21) für Wortart und Genus <strong>des</strong> Derivats verantwortlich<br />

ist, stammt das Thetarollen-Raster vom Verb. Daß <strong>der</strong> linke Zweig für die Argumente<br />

<strong>des</strong> abgeleiteten Nomens verantwortlich ist, kann wie<strong>der</strong> mit <strong>der</strong> Annahme von relativierten<br />

Köpfen erklärt werden. Das Suffix -ung ist hinsichtlich <strong>des</strong> Merkmals Argumentstruktur nicht<br />

spezifiziert, so daß <strong>der</strong> nächste Zweig links davon, <strong>der</strong> dieses Merkmal hat, sich durchsetzt.<br />

Allerdings kann die Argumentstruktur durch morphologische Prozesse auch verän<strong>der</strong>t<br />

werden; als Beispiel wären Kausativierungen zu nennen.<br />

In bestimmten Fällen kann Argumentvererbung nicht stattfinden (vgl. Toman (1987:61)):


(22)<br />

a) die Soldaten beobachten die Grenze<br />

b) die Beobachtung <strong>der</strong> Grenze<br />

c) *<strong>der</strong> Beobachtungsturm <strong>der</strong> Grenze<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Das Nomen Beobachtungsturm in <strong>der</strong> Nominalphrase in (22c) mit <strong>der</strong> Interpretation „Turm,<br />

von dem aus die Grenze beobachtet wird“, nicht in <strong>der</strong> Possessiv-Lesart, ist wie erwartet strukturiert:<br />

(23) [N [N [V Beobacht] [N ung(s)]] [N turm]]<br />

Mit großer Wahrscheinlichkeit ist <strong>der</strong> Kontrast in (22) darauf zurückzuführen, daß sich gebundene<br />

und freie Instanzen von Kategorien wie N nicht nur hinsichtlich eines Merkmals<br />

±gebunden unterscheiden, son<strong>der</strong>n darüber hinaus in ihrem semantischen Beitrag zum Gesamtwort.<br />

Während gebundene Kategorien (Suffixe) wie -ung nur die Bedeutung <strong>der</strong> ihnen<br />

vorangehenden Konstituente transformieren, machen freie Kategorien einen eigenständigen<br />

Beitrag zum Gesamtwort. Beispielsweise wird im Determinativkompositum Beobachtungsturm<br />

das Nomen Turm durch das Erstglied näher bestimmt. Die Nicht-Akzeptabilität von<br />

(22c) ist daher wahrscheinlich darauf zurückzuführen, daß<br />

(24) ??* <strong>der</strong> Turm <strong>der</strong> Grenze<br />

bereits nicht akzeptabel ist.<br />

Neben diesen Beschränkungen semantischer Natur gibt es weitere, die dem Anschein nach<br />

wie<strong>der</strong> syntaktisch zu erklären sind. Es gibt einen interessanten Kontrast zwischen den ung-<br />

Nominalisierungen von Verben mit Akkusativobjekt und solchen mit Dativobjekt.<br />

(25)<br />

a) Die Touristen vertreiben das Wild<br />

b) Die Vertreibung <strong>des</strong> Wilds<br />

(26)<br />

a) das Geräusch <strong>der</strong> Rasenmäher belästigt den Linguisten<br />

b) die Belästigung <strong>des</strong> Linguisten<br />

Die meisten <strong>der</strong> Verben mit Akkusativobjekt, die unter dem entsprechenden Satzbauplan im<br />

Duden (1984:607) verzeichnet sind, lassen eine Ableitung mit -ung zu. Dabei wird immer die<br />

Thetarolle, die das Akkusativobjekt trägt, an das Derivat vererbt. Demgegenüber ist ung-<br />

Derivation bei den Verben mit Dativobjekt fast nie möglich, vgl.<br />

(27)<br />

a) <strong>der</strong> Soldat gehorcht dem Befehl<br />

b) * die Gehorchung <strong>des</strong> Befehls<br />

Einige Verben mit Dativobjekt bilden ihre Nominalisierung durch Ableitung mit -e (vgl.<br />

Toman (1987:60)):<br />

(28)<br />

a) <strong>der</strong> Sohn hilft dem Vater<br />

b) die Hilfe <strong>des</strong> Vaters<br />

Ein Verb mit ähnlicher Semantik wie helfen, unterstützen, realisiert die Thetarolle Benefizient<br />

als Akkusativobjekt.<br />

(29)<br />

a) <strong>der</strong> Sohn unterstützt den Vater<br />

b) die Unterstützung <strong>des</strong> Vaters<br />

60


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Während man (28b) nicht so interpretieren kann, daß dem Vater Hilfe zuteil wird<br />

(Benefizient-Rolle), ist dies in (29b) ohne weiteres möglich, wobei allerdings auch die an<strong>der</strong>e<br />

Lesart nicht ausgeschlossen ist.<br />

Die Generalisierung, die man aus <strong>der</strong> oben dargestellten Datenlage bilden kann, ist folgende:<br />

unter Zugrundelegung <strong>der</strong> Unterscheidung zwischen lexikalischem und strukturellem<br />

Kasus (letzterer ergibt sich aus bestimmten Konfigurationen <strong>der</strong> Phrasenstruktur, ersterer<br />

ist in den Lexikoneinträgen verzeichnet) können zumin<strong>des</strong>t bei <strong>der</strong> Nominalisierung mit<br />

-ung nur Argumente mit strukturellem Kasus vererbt werden.<br />

Argumentvererbung betrifft nun, wie in (20b) schon deutlich geworden ist, nicht alle Argumente<br />

<strong>der</strong> Basis gleichermaßen. Bei <strong>der</strong> bar-Suffigierung wird das ursprüngliche Objekt <strong>des</strong><br />

Basisverbs vererbt, während das zugrundeliegende Subjekt fakultativ als Präpositionalphrase<br />

verwirklicht werden kann. Wenn das die richtige Erklärung für diesen Vorgang ist,<br />

so setzt das voraus, daß das Basisverb überhaupt eine Objektsthetarolle vergibt. Toman<br />

(1987) schlägt als Generalisierung vor, daß nur transitive Verben, also solche mit Akkusativobjekt,<br />

zum Gegenstand <strong>der</strong> Ableitung mit -bar gemacht werden können. Dieses Kriterium<br />

ist noch nicht ausreichend; daß auch semantische Faktoren eine Rolle spielen, wird im nächsten<br />

Abschnitt deutlich.<br />

Als Fazit dieses Abschnitts ergibt sich:<br />

1. Das Phänomen <strong>der</strong> Argumentvererbung wird auf syntaktische Weise durch einen Perkolationsmechanismus<br />

erklärt (es gibt auch an<strong>der</strong>e Erklärungsversuche, s.u.)<br />

2. Suffixe sind i.a. transparent für die Vererbung von Argumenten. Einige Suffixe wie -bar<br />

sind jedoch nicht für alle Argumente gleichermaßen durchlässig.<br />

3. Vererbt werden thematische Rollen, nicht <strong>der</strong>en syntaktische Träger. Die syntaktische<br />

Realisierung <strong>der</strong> Rolle beim Derivat ergibt sich aus den Möglichkeiten, die einer Kategorie<br />

hierzu zur Verfügung stehen. Nomen z.B. erlauben als Argumente und Modifikatoren<br />

Nominalphrasen im Genitiv und Präpositionalphrasen, Verben darüber hinaus auch<br />

Nominalphrasen in den übrigen Kasus.<br />

3.2 Wortbildung im <strong>Deutschen</strong><br />

Vor dem Hintergrund <strong>der</strong> Ideen, die in diesem und im letzten Abschnitt diskutiert wurden,<br />

möchte ich in diesem Abschnitt die Wortbildungstypen Komposition, Derivation und Konversion<br />

im <strong>Deutschen</strong> etwas detaillierter untersuchen.<br />

3.2.1 Komposition<br />

Die traditionelle Grammatik klassifiziert Komposita in drei Grundtypen:<br />

1. Determinativkomposita<br />

2. Kopulativkomposita<br />

3. Exozentrische Komposita<br />

Determinativkomposita bestehen aus zwei Teilen, dem Grundwort und dem Bestimmungswort,<br />

die beide komplex sein können. Das Grundwort bildet das Hinterglied <strong>des</strong> Kompositums<br />

und ist – aufgrund <strong>der</strong> Rechtsköpfigkeit deutscher Substantive – für die wesentlichen syntaktischen<br />

und semantischen Eigenschaften <strong>des</strong> Gesamtworts verantwortlich. Das in Erstgliedposition<br />

stehende Bestimmungswort bestimmt den durch das Zweitglied ausgedrückten<br />

Begriff näher. Determinativkomposita sind beispielsweise Datensicherheit und Speicherkapazität.<br />

61


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Demgegenüber sind bei Kopulativkomposita Erst- und Zweitglied in semantischer Hinsicht<br />

gleichwertig, so daß Instanzen <strong>des</strong> Kompositatyps durch Konjunktion interpretiert werden.<br />

Ein Beispiel hierfür ist <strong>der</strong> schon klassisch zu nennende Dichterkomponist.<br />

Exozentrische Komposita (o<strong>der</strong> Possessivkomposita) wie beispielsweise Schafskopf schließlich<br />

drücken eine Eigenschaft aus, die meist einem Lebewesen zukommt. Sie sind stark lexikalisiert<br />

und daher kaum ein produktiver Wortbildungstypus im <strong>Deutschen</strong>; allerdings haben<br />

sie fast immer auch eine Lesart als Determinativkompositum.<br />

In <strong>der</strong> traditionellen Grammatik (z.B. Lühr (1986)) wie auch in mo<strong>der</strong>neren generativen Ansätzen<br />

herrscht Konsens darüber, daß deutsche Komposita in <strong>der</strong> großen Mehrzahl binär<br />

aufgebaut sind; Ausnahmen hierzu sind Konstruktionen wie Scharping-Schrö<strong>der</strong>-Konflikt u.<br />

dgl. Von den unter dieser Annahme denkbaren Strukturtypen, z.B. bei Komposita mit vier<br />

Glie<strong>der</strong>n, sind fünf Strukturtypen denkbar, für die sich allesamt Beispiele finden lassen:<br />

(30)<br />

a) b) c) d) e)<br />

N<br />

N<br />

N<br />

N<br />

N<br />

X<br />

N<br />

N<br />

X X X N X N<br />

X<br />

X<br />

N<br />

X<br />

X<br />

62<br />

X N<br />

Beispiele sind (z.T. nach Olsen (1986:55)):<br />

(31)<br />

a) Straßenverkehrszulassungsordnung, Luftwaffenstützpunkt<br />

b) Theaterwochenspielplan, Bezirksjahreshauptversammlung<br />

c) Rauschgifthändlerring, Bergbauwissenschaftsstudium,<br />

Trauerbegleitungsausbildungsschulung (ZEIT 16/1999)<br />

d) Bun<strong>des</strong>hauptstadtsumzug<br />

e) Jugendarbeitsschutzgesetz<br />

X<br />

X<br />

X<br />

X N<br />

X<br />

X<br />

X<br />

X<br />

X<br />

N<br />

X N<br />

Dies deutet darauf hin, daß keine syntaktischen Beschränkungen bei <strong>der</strong> Komposition existieren.<br />

7 Aus methodologischen Gründen nimmt man weiterhin an, daß die Komposition im<br />

<strong>Deutschen</strong> ein unbeschränkt rekursiver Prozeß ist, <strong>der</strong> lediglich in <strong>der</strong> Performanz seine<br />

Grenze findet. Dies vereinfacht – wie die analoge Annahme hierzu in <strong>der</strong> Satzsyntax – die<br />

Konstruktion <strong>der</strong> Grammatik.<br />

Eine wichtige Unterklasse <strong>der</strong> Determinativkomposita, <strong>der</strong>en Interpretation am ehesten<br />

grammatisch gesteuert zu sein scheint, sind die sog. Rektionskomposita. Als Zweitglied bei<br />

Instanzen dieser Klasse fungiert ein deverbales Derivat, beispielsweise eine er-Nominalisierung:<br />

(32)<br />

a) Zeitungsholer<br />

b) Wagenheber<br />

Der Name Rektionskomposita erklärt sich aus <strong>der</strong> Nähe zu den korrespondierenden syntaktischen<br />

Konstruktionen:<br />

7 Dies konnte auch experimentell gezeigt werden, vgl. Wisniewski/Gentner (1991).<br />

X


(33)<br />

a) x holt eine Zeitung<br />

b) x hebt den Wagen<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

In (32a,b) sieht es so aus, als würde <strong>der</strong> verbale Bestandteil <strong>des</strong> Zweitglieds aufgrund <strong>der</strong><br />

Transparenz <strong>des</strong> Suffixes eine Thetarolle an das Derivat vererben, die dann an das Erstglied<br />

zugewiesen wird. Interessant ist in diesem Zusammenhang (vgl. hierzu auch Abschnitt<br />

3.1.2.2), daß die Zweitglie<strong>der</strong> allein nicht grammatisch sind, vgl.<br />

(34)<br />

a) * Holer<br />

b) * Heber<br />

Auch eine externe Sättigung <strong>der</strong> Argumentstellen scheint nicht in Frage zu kommen, vgl.<br />

(35)<br />

a) * <strong>der</strong> Holer <strong>der</strong> Zeitung<br />

b) * <strong>der</strong> Heber <strong>des</strong> Wagens<br />

Eine Beson<strong>der</strong>heit <strong>der</strong> Komposition im <strong>Deutschen</strong> ist, daß zwischen Erst- und Zweitglied<br />

eines Kompositums häufig sog. Fugenelemente eingesetzt werden. Im <strong>Deutschen</strong> gibt es 8<br />

verschiedene Fugenelemente, die in Tabelle 3.5 zusammengefaßt sind (nach Eisenberg<br />

(1998:227ff.):<br />

Fugen– Anfor<strong>der</strong>ungen an das Vor<strong>der</strong>glied<br />

element<br />

� Standardfuge bei fast 75% aller Komposita<br />

e Verb: meist einfache Stämme mit stimmhaftem Obstruent<br />

en Nomen: schwache Maskulina<br />

ns/ens Nomen: stark lexikalisiert<br />

er Stämme mit Zahlwörtern<br />

es Nomen: Maskulina und Neutra mit (e)s-Genitiv<br />

n Nomen: schwache Maskulina; Femina mit Schwa-Auslaut<br />

s Nomen: regelmäßig nach Suffixen wie -keit/heit/igkeit, -tum, -schaft, -ung, -sal,<br />

und -ling; Deverbativa auf -en mit einfachem o<strong>der</strong> präfigiertem Verbstamm als<br />

Basis; maskulinen und femininen Ableitungen von Partikelverben<br />

Tabelle 3.5: Fugenelemente und ihre Eigenschaften<br />

Die Herkunft <strong>der</strong> Fugenelemente ist unterschiedlich. Teils handelt es sich um Flexive, teils<br />

werden sie aus prosodischen Gründen eingefügt. Fugenelemente zwischen Erst- und Zweitglied<br />

werden fast ausschließlich durch Eigenschaften <strong>des</strong> Erstglieds determiniert. Neben<br />

diesen Fugen gibt es nichtnative Fugen wie -ial (in Territorialverteidung) und sog. Substraktionsfugen<br />

(z.B. Wolldecke).<br />

Da <strong>der</strong> Anteil <strong>der</strong> Syntax am Mechanismus <strong>der</strong> Komposition nur vergleichsweise gering ist<br />

und Semantik, Konzeptwissen und Pragmatik eine ungleich größere Rolle spielen, ist dieser<br />

Wortbildungstyp Hauptgegenstand von Abschnitt 3.3.<br />

63


3.2.2 Derivation<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Dieser Abschnitt versucht, die Eigenschaften <strong>der</strong> wichtigsten Suffixe und Präfixe <strong>des</strong> <strong>Deutschen</strong><br />

einigermaßen detailliert wie<strong>der</strong>zugeben; dabei beschränke ich mich auf die produktiven<br />

Wortbildungstypen. Die Darstellung orientiert sind im wesentlichen an Toman (1987:<br />

Kap. 3), Eisenberg (1998) und Olsen (1986).<br />

3.2.2.1 Suffigierung<br />

Tabelle 3.6 gibt eine Übersicht über die Eigenschaften <strong>der</strong> wichtigsten Suffixe <strong>des</strong> <strong>Deutschen</strong><br />

und ihren Einfluß auf das Derivat. Einige <strong>der</strong> Suffixe, die später auch eine Rolle in <strong>der</strong><br />

<strong>morphologischen</strong> Grammatik von Kapitel 5 spielen, werden noch etwas detaillierter beleuchtet.<br />

Suffix Kat. Anfor<strong>der</strong>ungen morphosyntaktische semantische<br />

an die Basis<br />

Auswirkung<br />

Auswirkung<br />

-heit/ N Adjektive;<br />

Festlegung von Genus Abstrakta-Bildung,<br />

-keit/<br />

phonotaktische<br />

(feminin) und<br />

Resultat denotiert einen<br />

-igkeit Beschränkungen<br />

bestimmen, welches<br />

Allomorph gewählt wird<br />

Flexionsklasse<br />

Zustand<br />

-schaft N Nomen Bildung femininer Bildung von<br />

Nomen<br />

Personenkollektiva<br />

-ung N transitive Verben Festlegung von Genus Verbalabstraktion<br />

intransitive Verben mit (feminin) und<br />

Bildung von Nomina actionis<br />

o<strong>der</strong> ohne PP-Objekt Flexionsklasse<br />

(80%)<br />

Stammkomplexität Argumentvererbung Vorgang/Zustandsalternation<br />

irrelevant<br />

Bildung von Subjektivus bzw.<br />

nicht möglich: Verben<br />

mit Dativobjekten<br />

Objektivus<br />

-er N Verben Bildung maskuliner, Bildung von Nomina agenti,<br />

movierbarer Nomen Nomina instrumenti,<br />

Argumentvererbung Nomina acti<br />

-ismus N nicht-native Basis:<br />

Nomen, Adjektive<br />

(insbes. auf -al)<br />

Abstraktion<br />

-bar A transitive Verben Absorption bzw. Hinzufügung eines<br />

Rückstufung <strong>der</strong><br />

Subjektsthetarolle<br />

Potentialitätsaspekts<br />

-el V native Nomen, Verben regelmäßige Flexion Hinzufügung eines iterativen<br />

und Adjektive<br />

Aspekts<br />

-er V native Nomen, Verben regelmäßige Flexion Hinzufügung eines iterativen<br />

und Adjektive<br />

Aspekts<br />

-ier / V N, (V), A<br />

regelmäßige Flexion „etwas zu Bed(N) machen“<br />

-ifizier / überwiegend nicht-nativ, Deadjektivische Ableit- „etwas mit Bed(N) versehen“<br />

-izier<br />

auch komplex<br />

ungen sind transitiv „etwas Bed(A) machen“<br />

-ig V einfache Nomen und<br />

Adjektive<br />

regelmäßige Flexion<br />

-isier V Nomen und Adjektive transitive Verben mit<br />

regelmäßiger Flexion<br />

Affizierung, Effizierung<br />

-ist N Nomen Bildung maskuliner, Bildung von<br />

movierbarer Nomen Personenbezeichnungen<br />

Stereotyperschließung<br />

Tabelle 3.6: Einige native und nicht-native Suffixe <strong>des</strong> <strong>Deutschen</strong> und ihre Eigenschaften<br />

64


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

-er<br />

Das Suffix -er bildet mit einer verbalen Basis Nomina agenti (Arbeiter, Schnei<strong>der</strong>), Nomina<br />

instrumenti (Büchsenöffner, Bleistiftspitzer) und Nomina acti (Jodler). Die Alternation zwischen<br />

Agens und Instrument findet sich in systematischer Weise auch schon bei den<br />

zugrundeliegenden Verben, vgl. Eisenberg (1998:265):<br />

(36)<br />

a) Karla öffnet die Tür mit dem Schlüssel<br />

b) Der Schlüssel öffnet die Tür<br />

Bei Nomina instrumenti scheint Argumentvererbung vorzuliegen, da die Argumentstelle<br />

<strong>des</strong> direkten Objekts bevorzugt kompositumsintern realisiert wird:<br />

(37) Nußknacker – *Knacker – ?*Knacker <strong>der</strong> Nüsse<br />

Ausgeschlossen für er-Nominalisierungen sind Psych-Verben (erstaunen, freuen), bei den für<br />

das Akkusativobjekt eine Selektionsbeschränkung auf Person existiert und ergative Verben<br />

(aufblühen, fallen). Zurückzuführen ist dies vermutlich auf die Aktionsart <strong>des</strong> Basisverbs.<br />

Neben den genannten Typen gibt es Ableitungen mit substantivischer Basis, die aber z.T.<br />

recht heterogen sind: Regensburger (Ortsname), Gewerkschafter (Institution) etc.<br />

-bar<br />

Die Generalisierung, die bezüglich <strong>der</strong> Ableitung mit -bar bereits in Abschnitt 3.1.2.2 diskutiert<br />

wurde, war die, daß nur transitive Verben als Basis möglich sind. Dies erklärt zunächst<br />

die folgenden Ungrammatikalitäten (vgl. Toman (1987:70)):<br />

(38)<br />

a) * Dieses Hotel ist schlafbar (schlafen, intransitiv)<br />

b) * Der Mann ist nicht helfbar (helfen, Dativobjekt)<br />

c) * Die Toten sind gedenkbar (gedenken, Genitivobjekt)<br />

Allerdings gibt es transitive Verben wie verbittern, enttäuschen und überraschen, die ebenfalls<br />

eine bar-Ableitung blockieren. Toman (1987) schlägt zur Erklärung dieser Daten daher ein<br />

semantisches Kriterium vor: das <strong>der</strong> Intentionalität. Transitive Verben, die eine intentionale<br />

Handlung ausdrücken, können danach zum Ausgangspunkt <strong>der</strong> Ableitung mit -bar gemacht<br />

werden.<br />

Argumentvererbung kann bei <strong>der</strong> bar-Ableitung auch hinsichtlich von Dativargumenten bei<br />

Verben mit dem Subkategorisierungsrahmen Subjekt – Dativobjekt – Akkusativobjekt stattfinden,<br />

da Dativargumente schließlich auch von Adjektiven (beispielsweise jdm. treu sein) subkategorisiert<br />

werden können (vgl. Toman (1987:78)):<br />

(39)<br />

a) Solche Gegenstände sind den Touristen leicht entwendbar<br />

b) Die Tat war dem Angeklagten nicht nachweisbar<br />

Zuletzt gibt es morphologische Beschränkungen: Verben, die auf -ig(en), -lich(en) o<strong>der</strong> -el(n)<br />

enden, können nicht durch -bar adjektiviert werden.<br />

3.2.2.2 Präfigierung<br />

Die Operation <strong>der</strong> Präfigierung unterscheidet sich formal von <strong>der</strong> Suffigierung, da Präfixe -<br />

wenn man an <strong>der</strong> positionellen Festlegung <strong>des</strong> Kopfes festhält – nicht <strong>der</strong> Kopf eines Wortes<br />

sein können. Hieraus ergeben sich einige Probleme. Es gibt nämlich eine Reihe von Präfixverben<br />

im <strong>Deutschen</strong>, <strong>der</strong>en Basis Nomen bzw. Adjektive sind (vgl. Olsen (1990:34)):<br />

65


(40)<br />

a) versalzen<br />

b) befeuchten, verdünnen<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Das Problem, welches sich hierbei stellt ist, auf welche Weise die verbalen Eigenschaften<br />

dieser Verben mit adjektivischer bzw. nominaler Basis zustande kommen. Die Präfixe ver-<br />

und be- können auch mit <strong>der</strong> Definition <strong>des</strong> relativierten Kopfes nicht Köpfe <strong>der</strong> Wortstrukturen<br />

sein, da die entsprechenden Basen bereits kategoriell festgelegt sind.<br />

Präfixe wie be-, ent-, er-, ver- und zer- weisen, wie Olsen (1990) zeigt, we<strong>der</strong> eine bestimmte<br />

Flexionsklasse (wie beispielsweise die verbalisierenden Suffixe) noch eine bestimmte Argumentstruktur<br />

auf, was gegen ihren Kopfstatus spricht. Theoretisch ist dies durchaus erfreulich,<br />

da dann die Right Hand Head Rule im <strong>Deutschen</strong> universell gelten würde. Zu lösen<br />

bleibt aber das Problem, was <strong>der</strong> verbalisierende Kopf in diesen Wörtern ist. Die Vorschläge<br />

hierzu reichen von Konversionsregeln, leeren V-Köpfen (Olsen (1991)) und <strong>der</strong> Annahme<br />

von semantischen, verbähnlichen Primitiven (Wun<strong>der</strong>lich (1987)). Allen diesen Ansätzen ist<br />

gemeinsam, daß sie das Problem nicht befriedigend zu lösen vermögen.<br />

Ein interessantes Muster ergibt sich bei <strong>der</strong> be-Präfigierung einer ganzen Reihe von<br />

deutschen Verben (vgl. auch Wun<strong>der</strong>lich (1987) und Dörfler et al. (1995)):<br />

(41)<br />

a) Hans staunte [PP über Peters neues Auto]<br />

b) Hans bestaunte [NP Peters neues Auto]<br />

(42)<br />

a) Sie gießt [NP Wasser] [PP auf die Blumen ]<br />

b) Sie begießt [NP die Blumen] [NP mit Wasser ]<br />

In (41) bewirkt die Präfigierung mit be-, daß die thematische Rolle Thema, die das Simplexverb<br />

staunen als Präpositionalphrase verwirklicht, bei bestaunen an eine Nominalphrase zugewiesen<br />

wird. Bei dreiwertigen Verben wie gießen/begießen in (42) kommt es neben dieser<br />

Än<strong>der</strong>ung <strong>der</strong> syntaktischen Realisierung einer Thetarolle zu einer charakteristischen Verän<strong>der</strong>ung<br />

in <strong>der</strong> Basisabfolge <strong>der</strong> Argumente.<br />

Schematisch lassen sich diese Modifikationen folgen<strong>der</strong>maßen darstellen:<br />

3-wertige be-Verben: 2-wertige be-Verben:<br />

Subjekt Akk.-Objekt Präp. Objekt/<br />

Dativ objekt<br />

Basiv erb: Ag<br />

Be-Verb: Ag<br />

(Th)<br />

Lok<br />

66<br />

Lok<br />

(Th (mit))<br />

Subjekt<br />

Ag<br />

Ag<br />

Th (Präp.) Präp.Objekt<br />

Abb. 3.2: Argumentdiathese bei <strong>der</strong> be-Präfigierung (aus Dörfler et al. (1995))<br />

Th<br />

Akk.-Objekt<br />

Ein dritter Typus ist die Bildung von <strong>des</strong>ubstantivischen Verben (vgl. Reifen – bereifen, Bild –<br />

bebil<strong>der</strong>n).<br />

Be-Präfigierung stellt somit einen Son<strong>der</strong>fall <strong>der</strong> Argumentvererbung dar. Eine Reihe von<br />

Präpositionen (z.B. durch) zeigen im übrigen ein ähnliches Verhalten. Die be-Präfigierung<br />

unterscheidet sich jedoch von <strong>der</strong> Präfixverbbildung mit Hilfe von Präpositionen, da sie<br />

immer ein agentivisches Basisverb erfor<strong>der</strong>t. Ein ähnliches Verhalten legen im übrigen an<strong>der</strong>e<br />

Verbpräfixe wie durch-, über- und um- an den Tag.


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Tabelle 3.7 enthält einige weitere produktive Präfixe.<br />

Präfix Basis morphosyntaktische<br />

Auswirkung<br />

un- komplexe Adjektivstämme mit Stammmodifikation, d.h. das<br />

partizipialer o<strong>der</strong> suffigierter Derivat hat die gleiche<br />

Basis<br />

weniger produktiv:<br />

Nomenstämme<br />

Kategorie wie die Basis<br />

Ge- einfache Verbstämme + -Ge- hat Kopfeigenschaften: es<br />

Schwasilbe (Gesinge, Getue, bestimmt die Kategorie <strong>des</strong><br />

Geheule)<br />

Derivats wie auch <strong>des</strong>sen<br />

Genus und Flexionstyp<br />

Tabelle 3.7: Einige Präfixe im <strong>Deutschen</strong> und ihre Eigenschaften<br />

67<br />

semantische<br />

Auswirkung<br />

Bildung eines<br />

Antonyms zur Basis<br />

Wie<strong>der</strong>holung <strong>des</strong><br />

durch den Stamm<br />

ausgedrückten<br />

Vorgangs<br />

3.2.2.3 Konversion<br />

Als ein dritter Wortbildungtypus, <strong>der</strong> aus dem Rahmen <strong>der</strong> konkatenativen Morphologie<br />

und damit auch aus dem item-and-arrangment-Modell herausfällt, ist die sog. Konversion aufzufassen.<br />

Hierbei än<strong>der</strong>n Stämme ohne Hinzutreten von Affixen ihre Kategorie, beispielsweise<br />

(aus Olsen (1986:111)):<br />

(43)<br />

a) Schule – schulen, Schicht – schichten<br />

b) weit – weiten, kurz – kürzen<br />

c) schlafen – Schlaf, treffen – Treff<br />

Damit sind alle im <strong>Deutschen</strong> produktiven Konversionsmuster beschrieben, schematisch<br />

demnach:<br />

(44)<br />

a) N � V<br />

b) A � V<br />

c) V � N<br />

Die an<strong>der</strong>en drei möglichen Muster N � A, A � N, V � A sind im <strong>Deutschen</strong> nicht produktiv<br />

8 .<br />

Üblicherweise nicht als Gegenstand <strong>der</strong> Konversion werden Nominalisierungen von Infinitiven<br />

und die substantivische Verwendung von Adjektiven angesehen, da in diesen Fällen<br />

Flexionsaffixe mit übernommen werden.<br />

Prinzipiell gibt es vier Möglichkeiten, Konversion zu formalisieren:<br />

1. durch Annahme von phonetisch leeren Köpfen<br />

2. durch die Annahme, daß Morpheme kategoriell unterspezifiziert sind<br />

3. durch Annahme von unären Regeln X � Y<br />

4. durch Umkategorisierung<br />

8 Das zeigt auch ein Blick in die CELEX-Datenbank (Baayen et al. (1993)). Unter den knapp 9700 dort<br />

verzeichneten Adjektivlemmata war lediglich <strong>der</strong> Typ N � A 22 mal vertreten. Die an<strong>der</strong>en Möglichkeiten<br />

sind dort überhaupt nicht belegt. Nicht berücksichtigt sind dabei allerdings substantivische<br />

Verwendungen von Adjektiven, wie beispielsweise schwarz – (das) Schwarze. Hierbei handelt es sich<br />

jedoch möglicherweise um Ellipsen.


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Gegen die ersten beiden Ansätze finden sich gewichtige Gegenargumente in Olsen<br />

(1986:113ff). Ich möchte noch kurz auf die beiden an<strong>der</strong>en eingehen, da sich hieraus methodologische<br />

Konsequenzen ergeben.<br />

Den Unterschied zwischen 3. und 4. kann man am Beispiel von weit (A) – weiten (V) strukturell<br />

folgen<strong>der</strong>maßen fassen:<br />

(45) a) b)<br />

V<br />

A<br />

weit<br />

V<br />

weit<br />

(45b) ist mit einem monotonen Formalismus wie dem in Kapitel 2 dargestellten nicht (ohne<br />

weiteres) kompatibel, da es nicht möglich ist, eine Merkmalsstruktur <strong>des</strong>truktiv durch eine<br />

an<strong>der</strong>e zu ersetzen. Zudem ist es unter <strong>der</strong> Annahme, daß sich die semantische Interpretation<br />

entlang <strong>der</strong> Wortstruktur vollzieht, unklar, wie sich die Bedeutung von weiten als weit<br />

machen ergibt. Daher werden in <strong>der</strong> Wortgrammatik von Kapitel 5 unäre Konversionsregeln<br />

angesetzt.<br />

Als morphologische Restriktion für Konversion gilt, zumin<strong>des</strong>t für nominale und adjektivische<br />

Basen, daß nur affixlose Stämme ihr unterworfen werden können.<br />

68


3.3 Wortsemantik<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

In Abschnitt 3.1 wurde festgestellt, daß es durchaus möglich ist, Wörtern durch Anwendung<br />

einfacher, binär verzweigen<strong>der</strong> Regeln hierarchische Strukturen zuzuweisen. Damit dies<br />

jedoch auch sinnvoll ist, müssen diese wortsyntaktischen Strukturen auch in die Interpretation<br />

<strong>des</strong> komplexen Wortes mit eingehen – denn dies muß das letztendliche Ziel je<strong>der</strong> Theorie<br />

<strong>der</strong> Wortbildung sein. Kapitel 3.3 befaßt sich daher mit drei verschiedenen Theorien <strong>der</strong><br />

Interpretation komplexer Wörter, die textuell danach geordnet sind, welchen Stellenwert sie<br />

<strong>der</strong> Syntax bei <strong>der</strong> Interpretation von Wortbildungen einräumen. Die erste, in Meyer (1993)<br />

vorgestellte Konzeption, nimmt nur sehr einfache Wortsyntaxregeln an und verlagert die<br />

Bürde <strong>der</strong> Interpretation auf das konzeptuelle System. Die zweite, von Gisbert Fanselow<br />

vertretene Theorie (z.B. Fanselow (85)), streicht Wortstruktur ganz aus dem Beschreibungsinventar<br />

zugunsten einfacher Merkmalsperkolationsprinzipien und erklärt den Mechanismus<br />

<strong>der</strong> Bedeutungskonstruktion durch einen u.a. durch diese Prinzipien beschränkten Prozeß<br />

<strong>der</strong> freien Anwendung von semantischen Grundoperationen. Der dritte hier dargelegte<br />

Ansatz, <strong>der</strong> von Pustejovsky (1995), ist eine Summe von Ideen aus Semantik und Wissensrepräsentation,<br />

die auch in den an<strong>der</strong>en Ansätzen ihre Rolle spielen.<br />

3.3.1 Wortsemantik als Wissensrepräsentation<br />

Die Arbeit von Meyer (1993) hat nicht den Gesamtbereich <strong>der</strong> Komposition zum Gegenstand,<br />

vielmehr richtet Meyer sein Hauptinteresse auf sog. novel noun-noun compounds, die er<br />

definiert als „non-lexicalized noun-noun compounds appearing as names for a certain concept provided<br />

by the text“ (Meyer (1993:XIV)). An<strong>der</strong>s als Rektionskomposita wie Autoverschrotter,<br />

<strong>der</strong>en Interpretation sich zum größten Teil noch auf <strong>der</strong> Grundlage von grammatischen<br />

Prozessen vollzieht, scheinen bei <strong>der</strong> Deutung dieser Art von Komposita überwiegend<br />

konzeptuelle Operationen eine Rolle zu spielen, was auch durch experimentelle<br />

Untersuchungen (vgl. Wisniewski/Gentner 1991) nahegelegt wird. Der Schluß, <strong>der</strong> hieraus<br />

für ein Modell zur Interpretation von NN-Komposita zu ziehen ist, ist <strong>der</strong>, daß ein solches<br />

Modell nicht ohne Bezug auf Konzeptwissen und im Weltwissen begründete Relationen<br />

zwischen Konzepten funktionieren kann.<br />

Um dem Rechnung zu tragen, konstruiert Meyer einen theoretischen Apparat, <strong>der</strong> auf drei<br />

Grundpfeilern ruht:<br />

� einer Variante <strong>der</strong> Zwei-Ebenen-Semantik von Bierwisch<br />

� <strong>der</strong> Diskursrepräsentationstheorie<br />

� Techniken <strong>der</strong> Wissensrepräsentation<br />

Die Zwei-Ebenen-Semantik mit ihrer Annahme einer im Lexikon verankerten zusätzlichen<br />

Ebene <strong>der</strong> semantischen Form ist nach Meinung <strong>des</strong> Autors geeignet, die Unterscheidung<br />

zwischen dem Kerngehalt eines Konzepts, von Meyer als lexical meaning bezeichnet, und<br />

seiner Erweiterung bezüglich einer bestimmten Äußerungssituation (utterance meaning) zu<br />

erklären. Diese Erweiterung von Konzepten – in <strong>der</strong> Terminologie <strong>der</strong> Zwei-Ebenen-<br />

Semantik conceptual shift – läßt sich anhand <strong>des</strong> Konzepts Museum mit seinen Lesarten Gebäude,<br />

Institution, Sammlung und Personal verdeutlichen:<br />

(46)<br />

a) Das Museum brannte ab (Gebäude)<br />

b) Das Museum zahlt schlecht (Institution)<br />

c) Das Museum war langweilig (Sammlung)<br />

d) Das Museum hat gestreikt (Personal)<br />

69


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Hauptgrundlage von Meyers Modell ist eine auf die Erfor<strong>der</strong>nisse <strong>der</strong> Kompositainterpretation<br />

zugeschnittene Version <strong>der</strong> Diskursrepräsentationstheorie, die in zwei Varianten auftritt:<br />

Die erste, DRLlex, ist als Menge von lexikalischen Diskursrepräsentationsstrukturen<br />

(DRSen) gegeben, die ihrerseits <strong>der</strong> Notation <strong>der</strong> semantischen Form von durch Nomina<br />

ausgedrückten Konzepten dienen. Eine lexikalische DRS ist ein Paar , wobei Ulex<br />

eine Menge von Variablen { x1,...,xn} und Conlex eine Menge von DRS-Bedingungen spezifiziert.<br />

DRS-Bedingungen sind im wesentlichen Relationskonstanten r(x1,...,xk) mit Variablen<br />

als Argumenten, Gleichsetzungen von Variablen (xi = xj) und rekursive Einbettungen von<br />

weiteren lexikalischen DRSen. Entscheidend jedoch für die Interpretation von Nomen, die<br />

Artefakte bezeichnen (wie z.B. Buch, Museum etc.), ist <strong>der</strong> sog. purpose-Operator �, 9 <strong>der</strong> dazu<br />

verwendet wird, mit einem Begriff eine Menge von typischen, kontextunabhängigen<br />

Zweckangaben 10 zu assoziieren. Am Beispiel <strong>des</strong> Nomens Museum soll dies näher erläutert<br />

werden. Die im Lexikon für Museum verzeichnete lexikalische DRS sieht folgen<strong>der</strong>maßen<br />

aus (Meyer (1993:92)):<br />

(47)<br />

� x<br />

x<br />

�(x,p)<br />

p=<br />

y e1 e2<br />

exhibiting(e1)<br />

informing(e2)<br />

theme(e1,y)<br />

theme(e2,y)<br />

Diese DRS repräsentiert eine Funktion von Individuen nach Wahrheitswerten, wobei die<br />

Variable x aus Ulex mit Hilfe <strong>des</strong> Operators � mit einer eingebetteten DRS K verknüpft wird,<br />

die die für Museen typischen Zweckbestimmungen enthält: Museen gehören zur Menge <strong>der</strong><br />

ausstellenden und informierenden Entitäten, wobei <strong>der</strong> Gegenstand dieser Aktivitäten nicht<br />

weiter beschränkt ist, da mit <strong>der</strong> Themavariablen y keine weiteren Restriktionen verknüpft<br />

sind.<br />

Die zweite Variante <strong>der</strong> Diskursrepräsentationstheorie, DRLc, dient zur Repräsentation von<br />

konzeptuellem Wissen. Meyer gibt eine Übersetzungsfunktion an, die es ermöglicht, die<br />

Grundelemente (genauer: die TBOX-Elemente) von terminologischen Wissensrepräsentationssprachen<br />

(beispielsweise KL-ONE) in Ausdrücke von DRLc umzusetzen, um auf diese<br />

Weise einen einigermaßen einheitlichen Rahmen sowohl für die Repräsentation von lexikalischen<br />

Bedeutungen wie auch die Abbildung von Konzeptwissen zu erhalten. Nachstehend<br />

ist ein Teil <strong>des</strong> Gesamtkonzeptes von Museum, die Lesart Institution wie<strong>der</strong>gegeben (Meyer<br />

(1993:98)):<br />

9 Dieser Operator entspricht weitgehend <strong>der</strong> sog. telischen Rolle in <strong>der</strong> Qualia-Struktur von Pustejovsky<br />

(1995); s.u..<br />

10 Stereotype Eigenschaften und Relationen in <strong>der</strong> Terminologie von Boase-Beier at al. (1984).<br />

70


museum-institution(b)<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

�<br />

institution(b)<br />

e3<br />

organizes(b,e3)<br />

e4<br />

organizes(b,e4)<br />

n<br />

has-worker(b,n)<br />

71<br />

�<br />

�<br />

�<br />

exhibiting(e3)<br />

z<br />

theme(e3,z)<br />

informing(e4)<br />

w<br />

theme(e4,w)<br />

�<br />

�<br />

museum-lea<strong>der</strong>(n)<br />

Card(n) � 1<br />

Abb. 3.3: Teilkonzept „Institution“ <strong>des</strong> Gesamtkonzepts „Museum“<br />

all(z)<br />

all(w)<br />

Das Gesamtkonzept von Museum beinhaltet darüber hinaus noch die Lesarten für Gebäude,<br />

Sammlung und Personal.<br />

DRLc ist die Gesamtmenge <strong>der</strong> sog. konzeptuellen DRSen, die wie<strong>der</strong>um Paare <br />

von Mengen von Diskursreferenten und Mengen von DRS-Bedingungen sind. Grundelemente<br />

<strong>der</strong> Syntax von konzeptuellen DRSen sind, neben den DRT-üblichen Konnektiven<br />

wie Implikation, Äquivalenz, Disjunktion und Negation und den mit ihrer Hilfe rekursiv<br />

eingebetteten konzeptuellen DRSen, Konzepte und Rollen. Konzepte sind in einer<br />

Subsumptionshierarchie organisiert. Das Konzept museum-institution wird beispielsweise<br />

durch die Bedingung institution(b) in Abb. 3.3 als Subkonzept <strong>des</strong> Konzepts institution definiert,<br />

was <strong>der</strong> Aussage gleichkommt, daß jede Instanz von museum-institution auch eine Instanz<br />

von institution ist.<br />

Konzepte sind untereinan<strong>der</strong> durch Rollen - zweistellige Relationen - verbunden. Im Beispiel<br />

ist das Konzept museum-institution über die organizes-Rolle mit dem Konzept exibiting<br />

verbunden.<br />

Lexikalische und konzeptuelle DRSen sind über eine sog. confirmation-Relation miteinan<strong>der</strong><br />

in Beziehung gesetzt, die gleichzeitig die Semantik von lexikalischen DRSen bestimmt. Intuitiv<br />

ordnet diese Relation einer lexikalischen DRS (wie <strong>der</strong> in (47) angegebenen) die Menge<br />

von konzeptuellen DRSen zu, auf die sich die lexikalische DRS in verschiedenen Kontexten<br />

beziehen kann; im Falle von Museum sind dies die verschiedenen konzeptuellen Strukturen<br />

für die Lesarten Gebäude, Institution, Sammlung und Personal.<br />

In welcher Weise wird nun von diesem Apparat bei <strong>der</strong> Interpretation von NN-Komposita<br />

Gebrauch gemacht?<br />

Meyer nimmt einen mehrstufigen, durch einfache, binär verzweigende Syntaxregeln (N �<br />

N N) gesteuerten Algorithmus an, <strong>der</strong> schematisch in Abb. 3.4 wie<strong>der</strong>gegeben ist (Meyer<br />

(1993:147)) 11 :<br />

11 Ein ähnlicher Vorschlag findet sich auch schon in Boase-Beier et al. (1984).


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Theta-role assignment<br />

fail or search for alternatives<br />

relation from lexical DRS of the head noun<br />

conceptually founded relations<br />

fail or search for alternatives<br />

Abb. 3.4: Schematischer Algorithmus zur kontextunabhängigen Interpretation von NN-Komposita<br />

Zunächst wird demnach versucht, eine Interpretation auf grammatischer Basis zu finden,<br />

indem untersucht wird, ob das Hinterglied ein relationales Nomen ist, welches eine Argumentstelle<br />

aufweist, die durch das Vor<strong>der</strong>glied gesättigt werden kann. Ist dies <strong>der</strong> Fall, dann<br />

wird die lexikalische DRS für das Vor<strong>der</strong>glied in die DRS <strong>des</strong> Hinterglieds eingebettet, so<br />

daß eine neue komplexe lexikalische DRS entsteht. Als Beispiel ist in Abb. 3.5 die DRS für<br />

Museumsfan angegeben.<br />

� x<br />

x y<br />

fan-of(x,y)<br />

!<br />

[z]<br />

�(z,p)<br />

p=<br />

z = y<br />

t e1 e2<br />

exhibiting(e1)<br />

informing(e2)<br />

theme(e1,t)<br />

theme(e2,t)<br />

Abb. 3.5: DRS für „Museumsfan“<br />

(„!“ ist <strong>der</strong> Generizitätsoperator, <strong>der</strong> ausdrücken soll, daß Modifizierer bei NN-Komposita<br />

häufig in ihrer generischen Lesart verstanden werden). Voraussetzung für die Anwendung<br />

dieser Interpretationsregel ist natürlich, daß die Selektionsbeschränkungen für die interne<br />

Argumentstelle <strong>des</strong> relationalen Nomens nicht verletzt werden; dies wird durch einen Test<br />

sichergestellt, <strong>der</strong> überprüft, ob eine <strong>der</strong> Argumentstellenbeschränkungen <strong>des</strong> Kopfes eines<br />

<strong>der</strong>jenigen Konzepte <strong>des</strong> Modifizierers subsumiert, die mit seiner lexikalischen DRS in besagter<br />

confirmation-Relation stehen. Fan weist keine Beschränkungen für sein internes Argument<br />

auf (man kann Fan von allem sein), während Sohn festlegt, daß sich sein internes<br />

Argument auf ein Subkonzept von menschlich bezieht.<br />

Nachdem <strong>der</strong> Interpretationsalgorithmus versucht hat, Deutungen auf <strong>der</strong> Grundlage einer<br />

Thetarollenzuweisung zu finden, prüft er nun im zweiten Schritt, ob sich eine Relation zwischen<br />

Vor<strong>der</strong>- und Hinterglied auf <strong>der</strong> Grundlage <strong>der</strong> mit den beteiligten DRSen mittels <strong>des</strong><br />

�-Operators verknüpften Zweckangaben finden läßt. Hierbei wird aus dem durch die lexikalische<br />

DRS <strong>des</strong> Zweitglie<strong>des</strong> denotierten Gesamtkonzept ein Teilkonzept herausgegriffen,<br />

72


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

welches das Denotat <strong>der</strong> durch den �-Operator eingebetteten Rollen enthält. Wenn das mit<br />

dem zweiten Argument dieser Rolle verknüpfte Konzept ein Konzept aus dem Gesamtkonzept<br />

<strong>der</strong> lexikalischen DRS <strong>des</strong> Erstglie<strong>des</strong> subsumiert, dann kann die Interpretationsregel<br />

erfolgreich angewandt werden.<br />

Dieser zunächst kompliziert anmutende Sachverhalt soll beispielhaft am Kompositum Büchermuseum<br />

erläutert werden, <strong>des</strong>sen lexikalische DRS in Abb. 3.6 gezeigt ist.<br />

� x<br />

x u<br />

�(x,q)<br />

q=<br />

!<br />

y e1 e2<br />

exhibiting(e1)<br />

informing(e2)<br />

theme(e1,y)<br />

theme(e2,y)<br />

y = u<br />

[w]<br />

�(w,p)<br />

p=<br />

w = u<br />

i j e3 e4<br />

mediating(e3)<br />

publishing-company-institution(i)<br />

publishing(e4)<br />

theme(e3,j)<br />

agent(e4,i)<br />

Abb. 3.6 Lexikalische DRS für „Büchermuseum“:<br />

Die u.a. mögliche Lesart „Institution, die über Bücher informiert“ erhält man folgen<strong>der</strong>maßen:<br />

aus dem durch die lexikalische DRS für Museum denotierten Gesamtkonzept – bestehend<br />

aus den Teilkonzepten für Gebäude, Institution (in Abb. 3.3 wie<strong>der</strong>gegeben), Sammlung und<br />

Personal – wählt man das Teilkonzept museum-institution aus. Dann sucht man eine Rolle aus<br />

diesem Konzept – theme(e4, w) in Abb. 3.3 – und betrachtet das mit dem zweiten Argument<br />

dieser Rolle (w) verbundene Konzept all, welches das allgemeinste Konzept in <strong>der</strong> Konzepthierarchie<br />

ist. Wenn dieses Konzept eines <strong>der</strong> durch das Nomen Buch ausgedrückten<br />

Konzepte (beispielsweise physical-object und information-carrier) subsumiert, was <strong>der</strong> Fall ist,<br />

dann ist das Ergebnis eine zulässige Interpretation.<br />

Sollte <strong>der</strong> Algorithmus bis jetzt gescheitert sein bzw. sollen noch weitere Interpretationsalternativen<br />

ermittelt werden, so versucht das Verfahren, Relationen zwischen den Kompositaglie<strong>der</strong>n<br />

zu finden, die vollständig konzeptuell motiviert sind; hierbei gibt es erwartungsgemäß<br />

die größte Bandbreite an Interpretationsmöglichkeiten.<br />

Ist es nicht möglich, Relationen zwischen den beiden Gesamtkonzepten zu finden, so setzt<br />

sich die Suche in den übergeordneten Konzepten fort. Abhängig von <strong>der</strong> Art <strong>der</strong> Konzepte<br />

werden hier auch konzept- und domänenspezifische Relationen wie part-of, has-part, made-of,<br />

location etc. in Erwägung gezogen. Im Rahmen dieser Arbeit kann ich nicht weiter auf die<br />

vorgeschlagenen Möglichkeiten zur Relationenbestimmung eingehen; <strong>der</strong> interessierte Leser<br />

sei auf Kapitel 5.4 in Meyers Arbeit verwiesen.<br />

73


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Obwohl Meyers Arbeit sehr fundiert den Zusammenhang von Wortsyntax, grammatisch<br />

und konzeptuell gesteuerter Interpretation rekonstruiert, gibt es doch einige Punkte, die<br />

kritisiert werden können:<br />

(i) Wie verhält sich Meyers Ansatz zu den wenigen Restriktionen die für NN-Komposita<br />

gelten (vgl. auch Olsen 1994)?<br />

1. Negation kann nicht Teil <strong>der</strong> erschlossenen Relation zwischen den beiden Kompositabestandteilen<br />

sein<br />

2. "Zu weit hergeholte Relationen" wie bei "Benzinfabrik = Fabrik, bei <strong>der</strong> zum Reinigen <strong>der</strong> Reaktionsbehälter<br />

Benzin verwendet wird" sind bei einer Interpretation im Nullkontext ausgeschlossen.<br />

Restriktion 1 wird von Meyer schon dadurch Rechnung getragen, daß die Syntax von DRSlex<br />

insbes. bei <strong>der</strong> Einbettung von DRSen mittels <strong>des</strong> �-Operators keine Negation zuläßt, was<br />

sich über die confirmation-Relation auch auf diejenigen konzeptuellen DRSen überträgt, die<br />

das Gesamtkonzept einer lexikalischen DRS wie<strong>der</strong>geben. Negation kann somit bei Interpretationen<br />

auf <strong>der</strong> Grundlage einer stereotypen Relation keine Rolle spielen.<br />

Die Relationen, auf die sich Restriktion 2 bezieht, könnten sich entwe<strong>der</strong> aus den mit <strong>der</strong><br />

lexikalischen DRS verknüpften stereotypen Zweckangaben ergeben o<strong>der</strong> aus <strong>der</strong> mit Hilfe<br />

von DRSc abgebildeten Konzepthierarchie rekonstruiert werden. Die erste Möglichkeit ist<br />

jedoch ausgeschlossen, da stereotype Relationen nur prototypische Verwendungsweisen<br />

wi<strong>der</strong>spiegeln können; die typische Verwendungsweise einer Fabrik ist beispielsweise die,<br />

daß in ihr etwas hergestellt wird. Somit können "zu weit hergeholte" Relationen nur durch<br />

die über <strong>der</strong> Konzepthierarchie operierenden dritten Interpretationsregel zustande kommen.<br />

Hier würden jedoch aufgrund einer von Meyer vorgeschlagenen Anordnung (S. 148) von<br />

verschiedenen Interpretationsstrategien zunächst weitaus plausiblere Interpretationen generiert,<br />

so daß Deutungen wie bei <strong>der</strong> erwähnten Benzinfabrik kaum möglich sind.<br />

(ii) Meyers zweite Interpretationsregel geht davon aus, daß nur stereotype Relationen aus<br />

dem Zweitglied <strong>des</strong> Kompositums bei <strong>der</strong> Deutung Verwendung finden können. Dies greift<br />

jedoch zu kurz, da in manchen Fällen auch stereotype Relationen aus dem Erstglied herangezogen<br />

werden wie z.B. in Dosenfisch (enthält(x, y)) o<strong>der</strong> Fabrikschuh (produziert(x, y)). Das<br />

von Meyer erfaßte Interpretationsmuster ist jedoch zugegebenermaßen das produktivere.<br />

(iii) In Übereinstimmung mit Boase-Beier et al. (1984:79) bin ich <strong>der</strong> Ansicht, daß die Ähnlichkeitsrelation<br />

(die beispielsweise bei <strong>der</strong> Interpretation von Samtstimme eine Rolle spielt), keine<br />

stereotype Relation sein kann. Sie ist jedoch meiner Meinung nach auch keine in <strong>der</strong> statischen<br />

Konzepthierarchie verankerte Relation, son<strong>der</strong>n eine, die aufgrund von Inferenzprozessen<br />

erschlossen wird. Inferenzprozesse läßt Meyer nun ausdrücklich zu, ohne jedoch explizit<br />

zu machen, auf welche Weise Hörer zu Deutungen auf <strong>der</strong> Grundlage <strong>der</strong> Ähnlichkeitsrelation<br />

kommen.<br />

(iv) Mein letzter Einwand betrifft Meyers formalen Apparat, insbes. seine Übersetzungfunktion<br />

von TBOX-Ausdrücken <strong>der</strong> zum Ausgangspunkt genommenen Wissensrepräsentationssprache<br />

nach Elementen aus DRLc. Es scheint mir nicht möglich, das vom Autor auf S. 77<br />

wie<strong>der</strong>gegebene Beispiel <strong>der</strong> TBOX-Konzeptrepräsentation von CAR in Ausdrücke von<br />

DRLc zu überführen. Bei den Übersetzungs- und mengentheoretischen Deutungsregeln fehlen<br />

insbes. diejenigen für die Definition von Konzepten (� und �). Konkret: aufgrund welcher<br />

Übersetzungsregeln kommt beispielsweise die auf Seite 79 abgebildete konzeptuelle<br />

DRS für CAR zustande. Darüber hinaus ist mir nicht klar geworden, wie man mit Hilfe dieses<br />

Übersetzungsapparates zu dreistelligen Relationen wie containment(t,x,y) (Meyer<br />

(1993:131)) gelangen kann.<br />

74


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

3.3.2 Wortsemantik als freie Anwendung semantischer Operationen<br />

In einer Reihe von Arbeiten hat Gisbert Fanselow (Fanselow 1985, 1987, 1988a, b) einen Ansatz<br />

vorgestellt, <strong>der</strong> in Kontrast zu den in Kapitel 3.1 behandelten, syntaxorientierten<br />

Theorien steht. Ausgangspunkt von Fanselow ist die Tatsache, daß auch eine postulierte<br />

syntaktische Struktur von Wörtern letztendlich dem Ziel dienen muß, eine Interpretation<br />

komplexer Wörter zu ermöglichen. Grundsätzlich gibt es jedoch zwei Möglichkeiten,<br />

Bedeutungen zu konstruieren:<br />

1. Die Interpretation vollzieht sich syntaxgesteuert, d.h. es gibt eine Reihe von Syntaxregeln<br />

zum Aufbau komplexer Wörter und je<strong>der</strong> dieser Regeln ist eine semantische Operation<br />

zugeordnet, die kompositionell die Bedeutung <strong>der</strong> Konstituente aus ihren Teilen errechnet.<br />

2. Die Interpretation ist unabhängig von <strong>der</strong> syntaktischen Struktur <strong>des</strong> Wortes und ergibt<br />

sich durch Anwendung bestimmter semantischer Basisoperationen.<br />

Möglichkeit 1 wird im wesentlichen in Fanselow (1981) verfolgt. Auf <strong>der</strong> Grundlage <strong>des</strong><br />

Ansatzes von Montague postulierte Fanselow dort etwa 30 Paare von Syntaxregel –<br />

semantischer Operation, um einen substantiellen Ausschnitt <strong>der</strong> Komposition im <strong>Deutschen</strong><br />

zu beschreiben. Diese Vorgehensweise ist jedoch kritisiert worden (z.B. von Handwerker<br />

(1985)):<br />

� Dieses Grammatik/Interpretations-Fragment erfaßt nur <strong>des</strong>kriptiv die verschiedenen<br />

Interpretationsalternativen, gibt jedoch keine prinzipielle Antwort darauf, warum gerade<br />

diese Möglichkeiten realisiert sind und an<strong>der</strong>e nicht.<br />

� Aufgrund <strong>der</strong> sehr armen Syntax von Komposita – im wesentlichen gibt es nur Regeln<br />

<strong>der</strong> Form X � Y X – werden demnach einer einzigen syntaktischen Struktur sehr viele<br />

verschiedene Interpretationsregeln zugeordnet, was letztlich natürlich ineffizient ist, zu<br />

unplausiblen Deutungen führt und <strong>der</strong> rule-by-rule-Konzeption von Montague zuwi<strong>der</strong>läuft.<br />

Sinnvoll ist eine syntaxgesteuerte Interpretationskomponente m.a.W. nur dann, wenn aus<br />

einer bestimmten syntaktischen Konstruktion eindeutig die anzuwendende semantische<br />

Regel folgt.<br />

Der Schlüssel zur Lösung dieses Zuordnungsproblems und damit Möglichkeit 2 liegt nun<br />

darin, daß das Repertoire <strong>der</strong> semantischen Grundoperationen in diesen Interpretationsregeln<br />

sehr beschränkt ist, was an einem Fanselow (1985:294) entnommenen Beispiel demonstriert<br />

werden soll:<br />

(48)<br />

For all compounds AB, if A denotes the property a and B denotes the property b, and<br />

if r is a two-place relation stereotypically associated with B, the AB denotes:<br />

�x (b(x) � r(�P(�y �z (a(y) � a(z) � P(y) � P(z) ))(x)))<br />

Regel (48) wird zur Interpretation von Komposita mit einer aus dem Zweitglied erschlossenen<br />

stereotypen Relation – beispielsweise Computerfabrik – herangezogen, <strong>des</strong>sen semantische<br />

Struktur als Funktion von Individuen zu Wahrheitswerten dann so aussieht:<br />

(49)<br />

�x (fabrik’(x) � produziert’(�P(�y �z (computer’(y) � computer’(z) � P(y) � P(z) ))(x)))<br />

M.a.W. eine Computerfabrik ist eine Fabrik, die min<strong>des</strong>tens zwei Computer produziert.<br />

Fanselows Schlüsselbeobachtung ist nun die, daß alle ähnlich gearteten Deutungsregeln aus<br />

dem folgenden Grundinventar aufgebaut sind:<br />

75


(50)<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

a) Funktionalapplikation, d.h. Anwendung einer Funktion auf ein o<strong>der</strong> mehrere Argumente<br />

b) Konjunktion<br />

c) Pluralische Quantifikation<br />

d) Erschließen einer stereotypen Relation<br />

e) Existentielles Schließen einer Argumentstelle<br />

Die Operationen a) bis d) sind in (49) realisiert: Funktionalapplikation bei <strong>der</strong> Anwendung<br />

<strong>der</strong> stereotypen Relation r auf das Denotat <strong>des</strong> Erstglieds, Konjunktion bei <strong>der</strong> Verknüpfung<br />

<strong>des</strong> Denotats <strong>des</strong> Zweitglieds mit dieser Relation r, Pluralquantifikation in sehr rudimentärer<br />

Form durch die For<strong>der</strong>ung, daß es zwei Individuen y und z geben muß, die die Eigenschaft,<br />

die das Erstglied denotiert, erfüllen. Erschließen einer stereotypen Relation schließlich<br />

durch Einführung <strong>der</strong> Relation r aufgrund <strong>der</strong> Semantik <strong>des</strong> Zweitglie<strong>des</strong>.<br />

Fanselow nimmt nun an, daß sich die Anwendung dieser Operationen frei ohne einen Bezug<br />

zur syntaktischen Struktur (die er in rudimentärer Form immer noch annehmen muß; mehr<br />

dazu weiter unten) vollzieht. Hierzu formuliert er folgen<strong>des</strong> Prinzip (Fanselow 1985: 295):<br />

(51)<br />

The interpretation of any compound can be obtained by a successive application of the simple,<br />

possibly universal processes given in [50] [im Original (8)].<br />

Die Anwendung dieser Grundoperationen – die Fanselow im übrigen auch in <strong>der</strong> Satzsyntax<br />

annimmt – ist hier wie dort vollkommen frei. Da sich bei unbeschränkter Anwendung jedoch<br />

auch viele unzulässige Deutungen ergeben, müssen diese Prozesse wie<strong>der</strong>um beschränkt<br />

werden, ganz im Sinne <strong>des</strong> modularen Aufbaus <strong>der</strong> Syntaxtheorie im Anschluß an<br />

Chomsky (1981), <strong>der</strong> neben Generatormodulen wie <strong>der</strong> X-Bar-Theorie und <strong>der</strong> Transformation<br />

„Move �“ eine Reihe von Testmodulen wie <strong>der</strong> Kasus-, Theta- und Bindungstheorie<br />

annimmt.<br />

Diese Beschränkungen speisen sich aus wenigstens zwei Quellen:<br />

� Merkmalsperkolationsbedingungen<br />

� Einer Verbindung zwischen syntaktischen und typentheoretischen Kategorien<br />

Merkmalsperkolationsbedingungen (vgl. Kapitel 3.1.1.1) stellen nach Fanselow den letzten<br />

Rest syntaktischer Struktur auf <strong>der</strong> Ebene <strong>der</strong> Wörter her. Im wesentlichen geht es hierbei<br />

um die Gleichheit <strong>der</strong> Wortartmerkmale zwischen dem im <strong>Deutschen</strong> rechts stehenden Kopf<br />

und dem Gesamtwort. Das Zweitglied bestimmt demnach immer die syntaktische Kategorie<br />

und eine Reihe von weiteren Eigenschaften <strong>des</strong> zusammengesetzten Wortes.<br />

Die Verbindung zwischen syntaktischen und typentheoretischen Kategorien ist nun das<br />

Bindeglied zwischen Wortsyntax und Wortsemantik, das die syntaxgesteuerten Interpretationsregeln<br />

<strong>der</strong> vorhergehenden Konzeption in Fanselow (1981) ablöst. Hierzu wird eine<br />

Korrelation zwischen Kategorien und logischen Typen im Rahmen <strong>der</strong> Montague-<br />

Grammatik angenommen, die in Tabelle 3.8 wie<strong>der</strong>gegeben ist (frei nach Fanselow (1985:<br />

298)):<br />

76


Syntaktische<br />

Kategorie<br />

Nomen<br />

(Individuennomina)<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Typenlogische Kategorie<br />

<br />

77<br />

Informelle<br />

Umschreibung<br />

Einstellige Prädikate<br />

(Mengen)<br />

Beispiele<br />

Frau, Buch<br />

Relationale Nomen Zweistellige Relationen Bru<strong>der</strong>, Sohn<br />

Verben <br />

<br />

<br />

Adjektive <br />

<br />

Ein- bis dreistellige<br />

Relationen<br />

Ein- und zweistellige<br />

Relationen<br />

laufen,<br />

kennen,<br />

geben<br />

frei,<br />

treu<br />

Tabelle 3.8: Beziehung zwischen syntaktischen Typen und typenlogischen Kategorien<br />

Die Anwendung <strong>der</strong> semantischen Grundoperationen in (50) wird jetzt durch das folgende,<br />

universell geltende Prinzip eingeschränkt (nach Fanselow (1985:299)):<br />

(52)<br />

Kein Ergebnis <strong>der</strong> Anwendung <strong>der</strong> semantischen Operationen in (50) darf <strong>der</strong> Korrelation<br />

aus Tabelle 3.8 und den Bedingungen für die Verteilung von Wortartmerkmalen<br />

wi<strong>der</strong>sprechen; darüber hinaus muß die Konjunktion auf Konjunkte mit gleichem<br />

logischen Typ beschränkt werden.<br />

Wie die freie Anwendung <strong>der</strong> semantischen Operationen aus (50) mit den Restriktionen aus<br />

Tabelle 3.8 interagiert, möchte ich am Beispiel <strong>des</strong> Nomens Anwaltssohn darstellen, <strong>des</strong>sen<br />

syntaktische Struktur in (53) wie<strong>der</strong>gegeben ist:<br />

(53)<br />

N<br />

N N<br />

Anwalt Sohn<br />

� x anwalt'(x) �y<br />

�z<br />

sohn'(y,z)<br />

Aufgrund <strong>der</strong> Rechtsköpfigkeit deutscher Wortstrukturen ist das Gesamtwort ebenfalls ein<br />

Nomen und muß daher, nach Prinzip (50) und Tabelle 3.8, ein Prädikat bzw. eine<br />

zweistellige Relation denotieren. Durch freie Applikation <strong>der</strong> Operationen aus (50) sind u.a.<br />

folgende Interpretationen herstellbar:<br />

� �x (�y sohn’(x,y) � anwalt’(x)): Die zweite Argumentstelle von sohn’ wird existentiell geschlossen<br />

und, da jetzt beide Konjunkte von gleichem Typ sind – Funktionen von Individuen<br />

zu Wahrheitswerten –, können sie mit � verknüpft werden. Informell bedeutet dies:<br />

x ist ein Sohn von irgend jemandem und x ist Anwalt. Diese Lesart ist zwar nicht die präferierte,<br />

grundsätzlich jedoch nicht ausgeschlossen, vgl.<br />

(54)<br />

Ich hörte, daß gestern dein Anwaltssohn wie<strong>der</strong> mal zu Besuch war. (im Gegensatz zum<br />

Physikersohn)<br />

� �x �y (anwalt’(y) � sohn’(x,y)): Die offene Argumentstelle von �y anwalt’(y) wird existentiell<br />

geschlossen und die Funktion sohn’ auf die existenzquantifizierte Variable y angewandt,<br />

was die bevorzugte Lesart „x ist <strong>der</strong> Sohn eines Anwalts“ ergibt.


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

� �x ( �y sohn’(x,y) � anwalt’(x)): Alle Argumentstellen werden existentiell geschlossen und<br />

die Konjunktion <strong>der</strong> entstehenden Formeln gebildet. Die informelle Lesart hiervon lautet:<br />

„Der Sohn ist Anwalt“. Diese Deutung ist jedoch ausgeschlossen, da die Und-Verknüpfung<br />

zweier Sätze wie<strong>der</strong>um einen solchen ergibt, <strong>der</strong> logische Typ von Sätzen aber nicht<br />

mit dem Individuennomen zugeordneten Typ kompatibel ist.<br />

Obwohl Merkmals- und Typ-Kategorie-Beschränkungen viele unzulässige Interpretationen<br />

ausfiltern, gibt es eine ganze Reihe von Restriktionen, die durch diesen relativ grob arbeitenden<br />

Apparat nicht berücksichtigt werden können, beispielsweise<br />

� konzeptuelle Beschränkungen: die zweite Argumentstelle von Sohn ist z.B. auf Nomen<br />

mit dem Merkmal +menschlich festgelegt.<br />

� Beschränkungen, die sich aufgrund <strong>der</strong> Aktionsart von an Wortbildungsprozessen beteiligten<br />

Verben ergeben.<br />

Um seinen Ansatz zu rechtfertigen, muß Fanselow (1985) auch den Wortbildungstyp Derivation<br />

aus semantischer Perspektive sehen, d.h. auch die Derivation ist nicht von primär<br />

syntaktischer Natur, son<strong>der</strong>n ergibt sich wie die Komposition durch freies Applizieren semantischer<br />

Grundoperationen.<br />

Soll dieser semantisch-konzeptuelle Interpretationsansatz als Gegenmodell zu den syntaktischen<br />

Ansätzen etabliert werden, so muß er Aussagen zu den Daten machen, <strong>der</strong>en Erklärung<br />

letztere sich selbst als ihre Stärke anrechnen. Dies sind vor allem:<br />

� Argumentstrukturvererbung<br />

� Beschränkungen in <strong>der</strong> Produktivität von Wortbildungsprozessen<br />

Verfechter eines syntaktischen Ansatzes <strong>der</strong> Wortbildung versuchen, Datenpaare wie in (55)<br />

(55)<br />

a) die Mannschaft verliert das Spiel<br />

b) die Verlierer <strong>des</strong> Spiels<br />

durch Argumentvererbung (vgl. Kap. 3.1.2.2) in Beziehung zu setzen. Hiernach erhalten das<br />

Akkusativobjekt in (55a) und das Genitivkomplement in (55b) die gleiche Thetarolle<br />

(Thema), d.h. bei <strong>der</strong> Ableitung von transitiven Verben mit -er vererbt sich diese Argumentrolle<br />

vom Basisverb an das Derivat. Daneben wird auch die Agens-Thetarolle an das<br />

deverbale Nomen als externes Argument vererbt.<br />

Argumentvererbung wird von den Vertretern eines syntaktischen Ansatzes formal in <strong>der</strong><br />

Weise rekonstruiert, daß als weitere semantische Operation die sog. Funktionalkomposition<br />

angenommen wird, d.h. es wird zugelassen, daß das Argument einer Funktion selbst eine<br />

Funktion sein kann, also noch offene Argumentstellen besitzt. Funktionalkomposition kann<br />

auch zur Deutung einiger modifizieren<strong>der</strong> Ausdrücke in <strong>der</strong> phrasalen Syntax herangezogen<br />

werden, beispielsweise bei <strong>der</strong> <strong>Analyse</strong> von A-N-Konstruktionen wie (56)<br />

(56) <strong>der</strong> angebliche Mör<strong>der</strong><br />

was sich als Anwendung <strong>der</strong> durch angeblich ausgedrückten Funktion auf die Funktion<br />

�x Mör<strong>der</strong>(x) analysieren läßt.<br />

Der Vorteil <strong>der</strong> Funktionalkomposition zur <strong>Analyse</strong> besteht darin, daß sie unerwünschte<br />

Redundanzen im Lexikon beseitigt (vgl. Moortgart (1986)).<br />

Beispiel:<br />

Das Suffix -er kann mit transitiven und intransitiven Verben verbunden werden, vgl.<br />

(57)<br />

a) rauchen – Raucher<br />

78


) verlieren – Verlierer<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Zur <strong>Analyse</strong> kann man zwei homophone er-Suffixe mit „leerer“ Semantik ansetzen, die<br />

mittels Funktionalapplikation auf die Übersetzung <strong>des</strong> jeweiligen Verbs angewendet<br />

werden:<br />

(58)<br />

Syntax Semantik<br />

er1-Regel: N � Vi er1 Ü(er1)(Ü(Vi)) = [�Pi Pi ]( Ü(Vi))<br />

er2-Regel: N � Vt er2 Ü(er2)(Ü(Vt)) = [�Pt Pt]( Ü(Vt))<br />

d.h. angewendet auf die Beispiele in (57):<br />

(59)<br />

a) Raucher: [�Pi Pi ]( �x rauch’) = �x rauch’(x)<br />

b) Verlierer: [�Pt Pt(x,y)]( �x �y verlier’) = �x �y verlier’(x,y)<br />

Statt <strong>des</strong>sen könnte auch nur ein er-Suffix angewendet werden, das durch Funktionalkomposition<br />

mit <strong>der</strong> Verbsemantik verknüpft wird.<br />

Zu erklären gilt es jedoch, warum Argumentvererbung in vielen Fällen blockiert ist, vgl.<br />

(60) * <strong>der</strong> Verhüter <strong>des</strong> Unfalls<br />

während, die wortinterne Sättigung ohne weiteres möglich ist:<br />

(61) <strong>der</strong> Unfallverhüter<br />

Im Rahmen <strong>der</strong> Konzeption von Fanselow (1988b) wird dieser Kontrast folgen<strong>der</strong>maßen<br />

erklärt: das Suffix -er verlangt für sein Argument das typenlogische Äquivalent eines intransitiven<br />

Verbs. Als Basisverben sind demzufolge nur intransitive Verben wie beispielsweise<br />

rauchen o<strong>der</strong> transitive Verben mit einer intransitiven Lesart (d.h. transitive Verben, bei denen<br />

die Objektsstelle existentiell geschlossen ist, wie bei essen) zugelassen. Das scheinbare<br />

Gegenbeispiel (55b) wird nun dadurch erklärt, daß aus dem deverbalen Nomen Verlierer<br />

wie<strong>der</strong>um eine stereotype Relation verlieren erschlossen wird, <strong>der</strong>en zweite Argumentstelle<br />

zur Bindung <strong>des</strong> Genitivkomplements dient. Evidenz hierfür liefert die Tatsache, daß<br />

Genitivkomplemente auch bei nicht-<strong>der</strong>ivierten Nomen möglich sind, vgl.<br />

(62)<br />

a) <strong>der</strong> Autor <strong>des</strong> Romans<br />

b) <strong>der</strong> Verfasser <strong>des</strong> Romans<br />

Sowohl das Simplexnomen Autor wie das deverbale Nomen Verfasser lassen die Inferenz<br />

einer Relation schreiben zu, die zur Bindung <strong>des</strong> Komplements verwendet wird. Da das Erschließen<br />

<strong>der</strong> Relation i.a. keine allzu großen Schwierigkeiten macht, muß nun jedoch erklärt<br />

werden, warum (60) nicht möglich ist. Die Erklärung könnte darin liegen, daß Verben wie<br />

verhüten obligat transitiv sind und daher eine er-Nominalisierung nicht zulassen. Die Tatsache<br />

schließlich, daß in solchen Fällen eine kompositainterne Sättigung wie in (61) immer<br />

möglich scheint, ergibt sich daraus, daß hierdurch eine Intransitivierung <strong>des</strong> Verbs eintritt,<br />

welche die Ableitung mit -er möglich macht. Die aufgrund dieser semantischen <strong>Analyse</strong><br />

rekonstruierte syntaktische Struktur sieht daher wie in (63) aus:<br />

(63)<br />

V<br />

N<br />

N V N<br />

Unfall verhüt er<br />

79


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Allerdings ist eine intransitive Verbbasis noch keine hinreichende Bedingung für die Zulässigkeit<br />

einer Nominalisierung mit -er. Intransitive Verben wie ankommen, aufwachen, fallen<br />

usw. erlauben keine er-Ableitung (vgl. auch Abschnitt 3.4.1):<br />

(64)<br />

a) * Ankommer<br />

b) * Aufwacher<br />

c) * Faller<br />

Punktuelle Verben wie erblicken 12 , erschlagen, aufwachen gestatten i.a. keine er- Nominalisierung,<br />

wobei es jedoch Ausnahmen wie finden – Fin<strong>der</strong> gibt. Die Ableitung mit -er ist auch bei<br />

<strong>der</strong> überwiegenden Zahl <strong>der</strong> ingressiven (erblühen, aufstehen, erklingen) und resultativen Verben<br />

(verblühen, verbrennen, ausklingen) nicht möglich; Ausnahmen hierbei wie Vollen<strong>der</strong> müssen<br />

wohl durch Lexikalisierung „erklärt“ werden. Fanselow (1988b) schlägt zur Erklärung<br />

dieser Ableitungsblockierung vor, daß <strong>der</strong> semantische Beitrag von -er bei <strong>der</strong> Nominalisierung<br />

u.a. <strong>der</strong> ist, daß man die durch das Verb ausgedrückte Tätigkeit gewohnheitsmäßig<br />

ausübt. Punktuelle Verben lassen eine solche Interpretation jedoch kaum zu. Besser müßten<br />

sich daher Durativa wie blühen, schlafen, wohnen nominalisieren lassen, was interessanterweise<br />

mit Ausnahme von schlafen nicht geht. Die iterativen Verben wie beispielsweise sticheln,<br />

krabbeln, grübeln bestätigen jedoch diese Erklärung.<br />

Obwohl Fanselows Ansatz zunächst äußerst vielversprechend ist, gibt es doch einige z.T.<br />

erhebliche Kritikpunkte:<br />

1. Welche Konsequenzen hat die Verlagerung <strong>der</strong> Hauptlast von den Syntaxregeln zu den<br />

logischen Typen, die den Morphemen zugeordnet sind? Zunächst einmal wird die Wortsyntax<br />

im semantischen Ansatz von Fanselow keineswegs abgeschafft; sie ist vielmehr<br />

implizit in <strong>der</strong> typenlogischen Charakterisierung <strong>der</strong> verschiedenen syntaktischen Kategorien<br />

und explizit mit den Merkmalsperkolationsbedingungen präsent. Da sich nach<br />

traditioneller Auffassung <strong>der</strong> Montague-Semantik die semantischen Typen aus den syntaktischen<br />

Kategorien durch Anwendung einer einfachen Abbildungsvorschrift ergeben,<br />

setzt Fanselows Konzeption implizit eine wortinterne Strukturierung voraus, entlang <strong>der</strong><br />

die semantischen Operationen angewendet werden. Dies bedeutet, daß die Syntax in gewisser<br />

Weise <strong>der</strong> Semantik „vorgeordnet“ ist und die Anwendung <strong>der</strong> semantischen<br />

Auswertung leitet. Nur dadurch kann u.a. verhin<strong>der</strong>t werden, daß eine Funktion auf ein<br />

Argument appliziert werden kann, das dem syntaktischen Träger <strong>der</strong> Funktion nicht<br />

benachbart ist. Meiner Meinung nach argumentiert Fanselow nicht gegen die Annahme<br />

einer syntaktischen Struktur von Wörtern, son<strong>der</strong>n nur dagegen, daß a) diese Struktur<br />

autonom ist und unabhängigen Prinzipien folgt und b) die Wortsyntax und ihre<br />

Prinzipen in <strong>der</strong> Universalgrammatik verankert sind. 13 Fanselow folgt hier Chomsky<br />

(1982), <strong>der</strong> die Wortsyntax für so trivial hält, daß sie lediglich auf <strong>der</strong> Grundlage positiver<br />

Evidenz während <strong>des</strong> Spracherwerbs erlernt werden kann.<br />

2. Was ist nun – nachdem in 1. festgestellt wurde, daß eine wortsyntaktische Ebene weiterhin<br />

angenommen werden muß – <strong>der</strong> eigentliche Gehalt von G. Fanselows Ansatz? Lei<strong>der</strong><br />

bleibt von dieser äußerst interessanten Idee weniger übrig als zuvor angenommen. Zur<br />

Explizitmachung <strong>der</strong> Wortstruktur benötigt man zunächst einen Formalismus, <strong>der</strong> in <strong>der</strong><br />

Lage ist, die Anfor<strong>der</strong>ungen, die ein syntaktischer Kopf an seine Umgebung stellt, in seiner<br />

syntaktischen Kategorie zu codieren. In Frage kämen hierzu Kategorialgrammatiken<br />

o<strong>der</strong> HPSG-ähnliche Formalismen, die in einer einem <strong>morphologischen</strong> Kopf zugeord-<br />

12 Die hier angeführten Verben entstammen dem Duden (1994:93).<br />

13 Gisbert Fanselow (p.M.) bestätigt diese Auffassung.<br />

80


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

neten Argumentliste zu sättigende Argumentstellen festhalten. Auf diese Weise ist es<br />

möglich, semantische Kombinationsbeschränkungen wie<strong>der</strong> auf syntaktische zurückzuführen.<br />

Anschließend kann das etwas ineffiziente generate-and-test-Verfahren <strong>des</strong> Ansatzes<br />

verbessert werden, indem Beschränkungen <strong>der</strong> Testphase in den Generator vorverlegt<br />

werden und somit so früh wie möglich zur Anwendung kommen.<br />

3. Wie wir weiter oben gesehen haben, kann sinnvollerweise zwischen stereotypen Relationen<br />

– diejenigen, die mit dem �-Operator in <strong>der</strong> Konzeption von Meyer (1993) verknüpft<br />

sind –, und Relationen, die eher konzeptuellen Ursprungs sind, unterschieden werden.<br />

Diese Unterscheidung findet keinen Reflex in Fanselows Ansatz, trivialerweise <strong>des</strong>halb,<br />

da er – obgleich semantisch-konzeptuell orientiert – nur stereotype Relationen kennt. Eine<br />

Erweiterung um konzeptuelle Relationen scheint jedoch kein Problem darzustellen.<br />

4. Wenn man Fanselow (1987, 1988b) folgt, dann ist die Interpretation von Wort- wie von<br />

Phrasenstrukturen nicht eng an diese gebunden, son<strong>der</strong>n Teil <strong>des</strong> konzeptuellen Systems.<br />

Es gibt demnach nur eine solche Komponente, die in beiden Fällen nach exakt den gleichen<br />

Prinzipien arbeitet. Wie ist es aber dann zu erklären, daß diese Komponente sensitiv<br />

gegenüber <strong>der</strong> Unterscheidung wortintern – wortextern ist, die sich beispielsweise bei <strong>der</strong><br />

Argumentvererbung bemerkbar macht: „[...] we are forced to conclude that obligatory<br />

arguments of verbs must be filled within the complex word itself [...]“ (Fanselow<br />

(1988b:40)).<br />

5. Fanselows Leugnung <strong>der</strong> Möglichkeit von Argumentvererbung ist bereits kritisiert worden,<br />

so u.a. von Reis (1983); diese Argumente sollen hier nicht wie<strong>der</strong>holt werden. Einen<br />

weiteren Einwand gegen Fanselow möchte ich jedoch noch hinzufügen; dieser ergibt<br />

sich, wenn man die in Abschnitt 3.2.2.2 dargestellte be-Präfigierung für einen produktiven<br />

und damit regelgeleiteten Prozeß hält. Das dort genannte Beispiel sei hier noch einmal<br />

wie<strong>der</strong>holt:<br />

(65)<br />

a) Sie gießt [NP Wasser] [PP auf die Blumen ]<br />

b) Sie begießt [NP die Blumen] [PP mit Wasser ]<br />

Bei <strong>der</strong> be-Präfigierung von dreiwertigen Verben kommt es zu einer charakteristischen<br />

Än<strong>der</strong>ung <strong>der</strong> syntaktischen Realisierung <strong>der</strong> Objektsthetarollen. Fanselow schließt nun –<br />

wie oben dargestellt – Funktionalkomposition und damit Argumentvererbung aus dem<br />

Repertoire <strong>der</strong> für die Derivation zur Verfügung stehenden Operationen aus. Er bezieht<br />

sich zwar nur auf die Suffigierung, aber ich sehe nicht, warum seine Argumente nicht<br />

auch für die Präfigierung gelten sollten. Die m.E. systematische Beziehung zwischen be-<br />

und Simplexverb wird danach so hergestellt, daß aus dem be-Verb eine stereotype Relation<br />

erschlossen wird, die eben Argumente von einer bestimmten Art erfor<strong>der</strong>t. Diese<br />

Relation kann in Beispiel (65b) jedoch nur gießen sein, nicht jedoch begießen, da das Verb,<br />

welches letztere ausdrückt, ja erst gebildet wird. Ist gießen jedoch die aus begießen erschlossene<br />

Relation, so bleibt ungeklärt, warum <strong>des</strong>sen Argumente in einer an<strong>der</strong>en Reihenfolge<br />

und syntaktisch in unterschiedlicher Weise verwirklicht werden. Die Argumentreihenfolge<br />

<strong>des</strong> Simplexverbs übertragen auf das be-Verb würde schließlich so aussehen:<br />

(66) * Sie begießt [PP mit Wasser ] [NP die Blumen]<br />

was jedoch nicht akzeptabel ist. Der Schluß, den ich daraus ziehe ist <strong>der</strong>, daß man das<br />

Phänomen <strong>der</strong> Argumentvererbung nicht gänzlich leugnen kann und daher im formalen<br />

semantischen Apparat auch eine Operation – Funktionalkomposition – benötigt, die dieses<br />

Phänomen rekonstruiert.<br />

81


3.4 Das generative Lexikon<br />

3.4.1 Struktur<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Ein sehr interessanter Versuch, eine einheitliche semantische Beschreibung aller Kategorien<br />

im Lexikon zu geben und <strong>der</strong> als eine elaborierte Synthese und Weiterentwicklung <strong>der</strong> zuvor<br />

vorgestellten Ideen angesehen werden kann, ist <strong>der</strong> von Pustejovsky (1991, 1995). Da<br />

dieser Ansatz in stark abgewandelter Form auch Grundlage <strong>der</strong> <strong>Analyse</strong>n in Kapitel 5 ist,<br />

soll er an diese Stelle etwas ausführlicher dargestellt werden.<br />

Der Ausgangspunkt für Pustejovsky ist, ebenso wie bei Bierwisch (1983) und Meyer (1993),<br />

das Phänomen <strong>der</strong> Polysemie, d.h. daß die verschiedenen Lesarten mancher Wörter systematische<br />

Bezüge untereinan<strong>der</strong> aufweisen. In Pustejovsky (1995:28) wird in erster Linie ein<br />

Subtyp <strong>der</strong> Polysemie, die sog. logische Polysemie betrachtet, die definiert wird als „a<br />

complementary ambiguity where there is no change in lexical category, and the multiple senses of the<br />

word have overlapping, dependent, or shared meanings.“<br />

Traditionellerweise wird Polysemie im Lexikon durch eine Aufzählung <strong>der</strong> verschiedenen<br />

Lesarten behandelt – eine Methode, die Pustejovsky Sense Enumeration Lexicon nennt. Dabei<br />

erhält jede Lesart einen Eintrag, beispielsweise in Form einer Merkmalsstruktur, was am<br />

Beispiel von bank exemplifiziert wird (vgl. Pustejovsky (1995:34)):<br />

(67)<br />

CAT:<br />

GENUS:<br />

bank 1<br />

count_noun<br />

financial_institution<br />

82<br />

CAT:<br />

GENUS:<br />

bank 2<br />

count_noun<br />

shore<br />

Die gleiche Technik wird auch bei polysemen Nomen wie Museum usw. angewendet, d.h.<br />

jede Lesart erhält einen separaten Lexikoneintrag.<br />

Gegen diese Technik gibt es eine ganze Reihe von Einwänden (vgl. auch Pustejovsky<br />

(1995:39ff); das Hauptgegenargument ist natürlich das, daß die Gemeinsamkeiten <strong>der</strong> verschiedenen<br />

Lesarten im Fall von Polysemie – die Kernbedeutung nach Bierwisch (1983) –<br />

unausgedrückt bleiben.<br />

Wie sieht nun <strong>der</strong> Gegenentwurf von Pustejovsky aus? Lexikoneinträge sind hiernach hochstrukturierte<br />

Gebilde im Format <strong>der</strong> in Kapitel 2 betrachteten typisierten Merkmalsstrukturen<br />

(ein Umstand, <strong>der</strong> einer Verwendung dieser Konzeption in dieser Arbeit entgegenkommt).<br />

Ein solcher Lexikoneintrag weist zunächst vier Beschreibungsebenen auf:<br />

� Argumentstruktur<br />

� Qualia-Struktur<br />

� Ereignisstruktur<br />

� Vererbungsstruktur (lexical inheritance structure)<br />

Die Argumentstruktur ist gegeben durch eine Reihe von benannten Attributen (ARG1, ARG2<br />

usw.), <strong>der</strong>en Werte in vier verschiedene Argumenttypen klassifiziert werden:<br />

� True Arguments: Notwendig syntaktisch realisierte Parameter eines lexikalischen Kopfs,<br />

d.h. solche, die eine thematische Rolle tragen<br />

� Default Arguments: „Mitverstandene“ Argumente, d.h. existentiell gebundene Variablen<br />

in <strong>der</strong> dem lexikalischen Kopf zugeordneten, weiter unten näher beschriebenen Ereignisstruktur.<br />

� Shadow Arguments


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

� True Adjuncts: Modifikatoren, die vom lexikalischen Element nicht gefor<strong>der</strong>t werden.<br />

Anhand <strong>des</strong> Verbs bauen können die ersten beiden Argumenttypen veranschaulicht werden:<br />

(68)<br />

ARGSTR:<br />

bauen<br />

ARG1:<br />

ARG2:<br />

D-ARG1:<br />

83<br />

animate_ind<br />

artifact<br />

material<br />

ARG1 und ARG2 beschreiben dabei Subjekt bzw. Objekt von bauen als belebtes Individuum<br />

bzw. Artefakt. Default-Argument ist ein Ausdruck vom Typ material, womit ausgedrückt<br />

wird, daß je<strong>der</strong> Bauvorgang sich normalerweise eines Baumaterials bedient. Im Satz<br />

(69) Der Erfin<strong>der</strong> baut einen Automaten aus alten Bierdosen<br />

werden alle Argumente <strong>des</strong> Verbs durch passende Ausdrücke gebunden.<br />

Hervorhebenswert ist, daß die Argumentstruktur in dieser Konzeption semantischer Natur<br />

ist und folglich eine Art von konzeptueller Tiefenstruktur beschreibt. Es ist daher nicht notwendigerweise<br />

<strong>der</strong> Fall, daß „richtige“ Argumente (true arguments) auch syntaktisch realisiert<br />

werden müssen, was anhand <strong>der</strong> Argumentstruktur von Nomen verdeutlicht werden<br />

kann.<br />

(70)<br />

ARGSTR: ARG1: x: animal<br />

Vogel<br />

Nomen werden in <strong>der</strong> Prädikatenlogik üblicherweise als Funktionen von Individuen zu<br />

Wahrheitswerten repräsentiert, d.h. als einstellige Prädikate. In (69) wird dies durch die typisierte<br />

Variable x ausgedrückt. Allerdings wäre es besser, dieses referentielle Argument<br />

von den an<strong>der</strong>en Argumenten deutlicher zu unterscheiden, da es sich in vielfacher Weise<br />

an<strong>der</strong>es verhält; beispielsweise kann es – an<strong>der</strong>s als nominale Argumente – unter ARG1,<br />

ARG2 etc. nicht mit morphosyntaktischen Merkmalen wie Kasus markiert werden.<br />

Eine in Pustejoysky (1995:132ff) skizzierte Realisierungstheorie ordnet dann diesen semantischen<br />

Argumenten ihre syntaktisch-kategoriale Realisierung zu; m.E. kann man hiermit aber<br />

nicht restfrei ideosynkratische Kasuszuweisungen u.ä. erklären, weswegen man kaum umhin<br />

kann, in die Angaben über die Argumente auch syntaktische Merkmale aufzunehmen.<br />

Die nächste Beschreibungsebene, Qualiastruktur genannt, kommt dem am nächsten, was<br />

normalerweise mit Techniken <strong>der</strong> Wissensrepräsentation erreicht wird. Hier wird festgelegt,<br />

wie die durch ein Wort ausgedrückten Konzepte untereinan<strong>der</strong> und mit an<strong>der</strong>en Konzepten<br />

in Verbindung stehen. Die Qualiastruktur enthält vier Substrukturen (Rollen, roles genannt),<br />

die in Pustejovsky (1995:85f.)) wie folgt definiert und hier im Original wie<strong>der</strong>gegeben<br />

werden:<br />

1. CONSTITUTIVE: the relation between an object and its constituents, or proper parts.<br />

i. Material<br />

ii. Weight<br />

iii. Parts and component elements<br />

2. FORMAL: That which distinguishes the object within a larger domain.<br />

i. Orientation<br />

ii. Magnitude<br />

iii. Shape<br />

iv. Dimensionality


v. Color<br />

vi. Position<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

3. TELIC: Purpose and function of the object.<br />

i. Purpose that an agent has in performing an act<br />

ii. Built-in function or aim which specifies certain activities<br />

4. AGENTIVE: Factors involved in the origin or „bringing about“ of an object.<br />

i. Creator<br />

ii. Artifact<br />

iii. Natural Kind<br />

iv. Causal Chain<br />

Auch wenn diese Unterglie<strong>der</strong>ung auf den ersten Blick plausibel erscheint, werden doch<br />

eine ganze Reihe von Fragen aufgeworfen, u.a.:<br />

1. Sind diese Unterscheidungen für die Wortbildung relevant?<br />

2. Beschreiben Sie nicht eher durch Nomen ausgedrückte Konzepte als durch Verben ausgedrückte<br />

Relationen?<br />

Zudem ist die „Unterbringung“ gewisser Relationen innerhalb <strong>der</strong> Qualia-Struktur, die<br />

schließlich den Weltwissensaspekt von lexikalischen Einheiten repräsentieren soll, innerhalb<br />

dieses Schemas manchmal ziemlich unklar. An welcher Stelle soll beispielsweise die Relation<br />

repräsentiert werden, die relationale Nomen wie Fan o<strong>der</strong> Sohn kennzeichnet?<br />

Doch zurück zur ersten Frage. Für die Wortbildung kann man diese Qualia-Rollen grob in<br />

zwei Gruppen unterteilen: FORMAL und CONSTITUTIVE auf <strong>der</strong> einen Seite, TELIC und<br />

AGENTIVE auf <strong>der</strong> an<strong>der</strong>en. Letztere entsprechen ungefähr dem, was bei Fanselow die stereotype<br />

Relation und bei Meyer <strong>der</strong> Purpose-Operator ist. Die telische Rolle eines Nomens wie<br />

Messer wird beispielsweise durch eine Relation schneiden belegt 14 :<br />

(71)<br />

ARGSTR: ARG1: x: tool<br />

QUALIA:<br />

Messer<br />

FORMAL: x<br />

TELIC: cut(e,x,y)<br />

Beim Kompositum Brotmesser z.B. belegt das Erstglied eine Argumentstelle (y) <strong>der</strong> telischen<br />

Relation schneiden. Die Variable y muß zudem noch in geeigneter Weise typisiert werden,<br />

um auf diese Weise die notwendigen Selektionsbeschränkungen zum Ausdruck zu bringen.<br />

Die beiden an<strong>der</strong>en Qualia-Rollen, FORMAL und CONSTITUTIVE entsprechen eher den allgemeinen<br />

konzeptuellen Relationen, die auch zur Wortinterpretation herangezogen werden<br />

können. Bei <strong>der</strong> Interpretation von Stahlmesser kann etwa die telische Relation von Messer<br />

aufgrund von Selektionsbeschränkungen (Stahl kann man normalerweise nicht mit Messern<br />

schneiden) nicht verwendet werden. Statt<strong>des</strong>sen wird die Interpretation „Messer aus (dem<br />

Material) Stahl“ bevorzugt, wobei die Relation „x ist aus dem Material y“ aus <strong>der</strong> formalen<br />

Rolle <strong>des</strong> Zweitglieds stammt. Das Kompositum Türklinke würde dementsprechend die<br />

CONSTITUTIVE-Rolle verwenden. Als Interpretationsheuristik könnte man also folgen<strong>des</strong><br />

formulieren:<br />

14 Anmerkungen zum Beispiel: zur Frage, warum unter FORMAL die Variable x nochmal erscheint, s.u.;<br />

e steht für eine Ereignisvariable. Wie man übrigens erkennen kann, wird das „Mentalesische“ in <strong>der</strong><br />

üblichen Weise mit dem Englischen identifiziert.<br />

84


(72)<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Probiere erst die Relationen unter TELIC und AGENTIVE, dann die unter FORMAL und<br />

CONSTITUTIVE aus.<br />

Wenn man dies noch um ein an<strong>der</strong>es „Prinzip“ erweitert, nämlich<br />

(73)<br />

Verwende zunächst die Einträge in <strong>der</strong> Argumentstruktur und dann erst die<br />

Relationen <strong>der</strong> Qualiastruktur,<br />

so kann man die in Boase-Beier at al. (1984) und auch in Meyer (1993) vorgeschlagene Interpretationshierarchie<br />

ziemlich genau rekonstruieren.<br />

Auf die zweite <strong>der</strong> oben gestellten Frage möchte ich im Zusammenhang mit <strong>der</strong> Ereignisstruktur<br />

zurück kommen.<br />

Ein weiteres Problem, was Pustejovsky m.E. nicht bedacht hat, ist das Phänomen <strong>der</strong> Argumentsättigung.<br />

Es ist wohl so, daß die in den unterschiedlichen Relationen <strong>der</strong> Qualia-<br />

Struktur manifestierten Argumentstellen wortintern und auch phrasal nur höchstens einmal<br />

verwendet werden können, was die folgenden Beispiele zeigen:<br />

(74)<br />

a) *Stahlstahlmesser<br />

b) *Stahlmesser aus Stahl<br />

c) Stahlbrotmesser<br />

d) Brotmesser aus Stahl<br />

Innerhalb <strong>des</strong> Interpretationsprozesses müssen „verwendete“ Argumente demnach entsprechend<br />

gekennzeichnet werden. Dies kann man etwa durch den geläufigen Mechanismus <strong>der</strong><br />

Argumentlistenabarbeitung erreichen: Die zugänglichen Argumentstellen <strong>der</strong> Relationen<br />

befinden sich in einer Liste, die verkürzt o<strong>der</strong> unverän<strong>der</strong>t während <strong>der</strong> Bottom-Up<br />

operierenden Interpretation an die Mutterkategorie weitergereicht wird; technische Details<br />

hierzu finden sich ebenfalls in Kapitel 5. Ähnlich muß natürlich auch mit den Elementen in<br />

<strong>der</strong> Argumentstruktur verfahren werden.<br />

Der Schwerpunkt <strong>der</strong> Konzeption von Pustejovsky (1995) liegt jedoch wie bereits erwähnt in<br />

einer adäquaten Behandlung <strong>der</strong> Polysemie, genauer gesagt <strong>der</strong> Repräsentation von regelgeleiteten<br />

Alternationen <strong>der</strong> folgenden Art (vgl. auch Pustejovsky (1995:92)):<br />

Alternation Beispiel<br />

Prozeß / Resultat Rettung, Verkauf<br />

Institution / Gebäude Museum, Bibliothek<br />

Individuum / Stoff Brot, Stahl<br />

Abb. 3.7: Typische Alternationen bei Nomen<br />

Da dies die Typisierung <strong>der</strong> referentiellen Argumentvariablen 15 betrifft, stellt sich die Frage,<br />

wie hiermit zu verfahren ist. Ein Typsystem wie das in Kapitel 2 vorgestellte böte zwei<br />

Möglichkeiten <strong>der</strong> Formalisierung dieser Alternatitionen:<br />

a) Typunifikation<br />

b) Typgeneralisierung<br />

Typunifikation hieße, daß die Typen <strong>der</strong> in Frage kommenden Alternanten einen gemeinsamen<br />

Subtyp aufwiesen, im Falle <strong>der</strong> Typen Institution und Gebäude also den Typ Institu-<br />

15 Pustejovsky unterscheidet wie oben angedeutet nicht zwischen referentiellen und syntaktischen<br />

Argumenten.<br />

85


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

tion_Gebäude, <strong>der</strong> dann <strong>der</strong> referentiellen Argumentstelle zugewiesen wird. Dies löst das<br />

Problem jedoch nicht, da dieser Typ nunmehr gleichzeitig beide Lesarten ausdrücken<br />

würde, was aber nicht <strong>der</strong> Fall ist, wie die in Abschnitt 3.3.2 gegebenen Sätze mit dem Beispiel<br />

Museum zeigen. Zudem blieben hier auch die Relationen zwischen den Lesarten unausgedrückt,<br />

im Beispielfall etwa substrat_für(Gebäude,Institution), weil es eben keine zwei<br />

verschiedenen Typen gibt, son<strong>der</strong>n nur ihren gemeinsamen Subtyp.<br />

Typgeneralisierung – also das referentielle Argument mit dem spezifischsten Supertyp <strong>der</strong><br />

Ausgangstypen zu versehen – bietet auch keine Lösung, da dieser Supertyp u.U. im Vergleich<br />

zu den Ausgangstypen sehr viel unspezifischer sein könnte.<br />

Pustejovskys Antwort ist die Einführung eines speziellen Typkonstruktors, <strong>der</strong> aus zwei<br />

Typen �1 und �2 einen sog. dotted type �1 � �2 bildet; dieser ist <strong>der</strong> Typ <strong>des</strong> referentiellen Arguments<br />

von solchen Nomen wie Museum. Der FORMAL-Teil <strong>der</strong> Qualiastruktur enthält dann<br />

die Relationen, die zwischen den einfachen Typen gelten. Unter <strong>der</strong> Annahme <strong>der</strong> Assoziativität<br />

<strong>des</strong> dot-Operators kann dies auch noch auf weitere Lesarten ausgedehnt werden. Die<br />

nächste Abbildung zeigt die dem Nomen Museum zugeordnete Merkmalsstruktur 16 :<br />

(75)<br />

ARGSTR:<br />

Museum<br />

ARG1: x: building<br />

ARG2: y: institution<br />

QUALIA: FORMAL: in(y,x)<br />

TELIC: exibit(e,y,z:collection)<br />

Die nächste Substruktur <strong>des</strong> Qualia-Merkmals ist die Ereignisstruktur. Es sieht so aus, als<br />

würde sie in Pustejovsky (1995) nur Verben zukommen, obwohl man fragen könnte, ob sie<br />

nicht auch Prozeß/Resultat-Alternationen an den Tag legende Nominalisierungen wie Rettung<br />

eigen wäre.<br />

Die Ereignisstruktur dient dazu, die unterschiedlichen Aktionsarten von Verben zu erfassen.<br />

Unterschieden werden hier Zustände, Aktivitäten, und sog. Zustandsverän<strong>der</strong>ungen. Letztere<br />

werden nochmals klassifiziert in accomplishment und achievement-Ereignisse. Die Aufnahme<br />

von Zuständen in die Ereignisstruktur ist eigentlich eine Fehlbenennung, soll aber im<br />

Augenblick nicht stören. Aktivitäten ausdrückende Verben wie arbeiten und laufen bezeichnen<br />

Ereignisse, die sich mehr o<strong>der</strong> weniger gleichförmig über ein bestimmtes Zeitintervall<br />

hinziehen. Zustandsverän<strong>der</strong>ungen werden durch Verben ausgedrückt, bei denen eine Aktivität<br />

zu einem Abschluß gelangt. Zu unterscheiden sind hier Verben, bei denen dieser Abschluß<br />

augenblicklich erfolgt (wie finden und ankommen) und solche, bei denen dies eher<br />

graduell erfolgt (wie bei aufbauen und zerstören).<br />

Die Zugehörigkeit eines Verbs zu einer <strong>der</strong> obengenannten Klassen kann durch Modifikation<br />

<strong>der</strong> impliziten Ereignisvariablen mit Zeitadverbialen ermittelt werden (diese Tests sind<br />

aber lediglich als Heuristiken zu verstehen). So erlauben Aktivitätsverben eine Modifikation<br />

mit Zeitraumadverbialen, was bei achievement-Verben jedoch nicht möglich ist, vgl.<br />

16 In dieser, in Analogie zu einer Struktur in Pustejovsky (1995:101) gebildeten Merkmalsstruktur gibt<br />

es so manche Ungereimtheiten: Warum sind unter ARGSTR zwei Argumente angegeben, ganz so wie<br />

sonst bei transitiven Verben? Vielmehr müßte es doch so sein, daß das (einzige) referentielle Argument<br />

ein dotted type ist, <strong>der</strong> aus building und institution konstruiert wurde. Desweiteren ist nicht klar,<br />

warum die Relation in(y,x) unter FORMAL wie<strong>der</strong>gegeben wird; es ist nicht zu erkennen, wie dies mit<br />

<strong>der</strong> oben zitierten Definition <strong>der</strong> FORMAL-Rolle in Einklang zu bringen ist. Eine Konzeption, die diese<br />

Probleme vermeidet, wird in Kapitel 5 beschrieben.<br />

86


(76) Er fand seine Uhr eine Stunde lang<br />

Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Welche Rollen spielt die Ereignisstruktur bei <strong>der</strong> Wortbildung? Es sieht so aus, als könnten<br />

Aktivitätsverben wie arbeiten, krabbeln usw. ohne Einschränkung mit -er nominalisiert werden.<br />

Bei achievement-Verben scheint dies nicht zu funktionieren, vgl. *Ankommer. Auf <strong>der</strong><br />

an<strong>der</strong>en Seite lassen sich Ereignisnominaliserungen gut auf <strong>der</strong> Grundlage von accomplishment-Verben<br />

mit ihrer charakteristischen Prozeß/Resultat-Alternation bilden, vgl. Rettung<br />

und Verkauf. Da er-Derivate überwiegend eine an<strong>der</strong>e Alternation – die zwischen Agent<br />

und Instrument – an den Tag legen, ist zu erwarten, daß accomplishment-Verben eher nicht<br />

mit -er nominalisiert werden können; Beispiele wie *Aufbauer scheinen dies zu bestätigen<br />

(daß *Aufbauung und *Verkaufung nicht möglich sind, ist vermutlich durch Blockierung zu<br />

erklären).<br />

Allerdings gibt es hier viele Interferenzen mit <strong>der</strong> Lexikalisierung. Verben sind hinsichtlich<br />

<strong>der</strong> Neubildung nicht son<strong>der</strong>lich produktiv (eine Ausnahme ist die Entstehung von Partikelverben),<br />

so daß sich die meisten <strong>der</strong>ivationellen Bildungen auf <strong>der</strong> Basis von Simplexverben<br />

vollziehen. Dementsprechend gibt es hier auch sehr viele lexikalisierte Bildungen wie Sucher<br />

(Teil <strong>der</strong> Kamera), Zerstörer (Schiff) und Ausnahmen zu den erwähnten Regularitäten wie<br />

Fin<strong>der</strong>.<br />

Über die letzte Beschreibungsebene, die Vererbungsstruktur, haben Pustejoysky und auch ich<br />

nicht allzuviel zu sagen. Die Grundidee hiervon ist, daß Konzepte nicht nur in einer eindimensionalen,<br />

son<strong>der</strong>n vielmehr mehrdimensionalen Hierarchie organisiert ist. Die Dimensionen<br />

werden hierbei durch die vier Substrukturen <strong>der</strong> Qualiastruktur aufgespannt; in verschiedenen<br />

Merkmalen IS_FORMAL, IS_CONSTITUTIVE etc. werden hinsichtlich <strong>der</strong> unterschiedlichen<br />

Hierarchien verschiedene Supertypen <strong>des</strong> betrachteten Konzepts festgehalten.<br />

Details finden sich in Pustejoysky (1995:144ff).<br />

3.4.2 Generative Operationen<br />

Welche Operationen operieren nun über den zuvor beschriebenen Merkmalsstrukturen? Im<br />

wesentlichen sind es die folgenden:<br />

1. Type Coercion<br />

2. Kokomposition<br />

3. Selektive Bindung<br />

Kokomposition und selektive Bindung (vgl. Pustejovsky (1995: Kapitel 7) spielen für die<br />

Mechanismen <strong>der</strong> Wortbildung keine beson<strong>der</strong>e Rolle und werden <strong>des</strong>wegen nicht behandelt.<br />

Type Coercion wird (Pustejovsky (1995:111)) wie folgt definiert:<br />

A semantic operation that converts an argument to the type which is expected by a<br />

function, where it would otherwise result in an type error.<br />

Die Grundidee hiervon ist die, daß semantische Ausdrücke nicht allein mit einem Typ assoziiert<br />

sind, son<strong>der</strong>n mit einer Typenleiter, d.h. einer Hierarchie von Typen.<br />

Zwei Fälle können hierbei unterschieden werden:<br />

a) Subtype Coercion<br />

b) True Complement Coercion<br />

Subtype Coercion kann sehr elegant unter <strong>der</strong> Annahme einer Typenhierarchie, wie sie in Kapitel<br />

2 beschrieben wurde, abgebildet werden. Wenn beispielsweise ein Verb ein Argument<br />

vom Typ animate verlangt, die gefundene Nominalphrase aber den Typ human aufweist,<br />

dann ist dies ein Fall von subtype coercion, wenn man davon ausgeht, daß letzerer ein Subtyp<br />

von ersterem ist.<br />

87


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

True Complement Coercion beschreibt hingegen den Sachverhalt, daß zur Interpretation nicht<br />

die Elemente <strong>der</strong> Argumentstruktur, son<strong>der</strong>n Argumente von Relationen, die innerhalb <strong>der</strong><br />

Qualiastruktur eines Wortes o<strong>der</strong> Wortbestandteiles, herangezogen werden. Beispiele aus<br />

dem phrasalen Bereich und <strong>der</strong> Wortbildung sind:<br />

(77)<br />

a) Theo hat das Buch gerade erst angefangen<br />

b) Nagelfabrik<br />

In beiden Fällen wird eine Argumentstelle <strong>der</strong> telischen Relation benutzt (bei a) lesen, bei b)<br />

herstellen), die an das Objekt bzw. das Worterstglied gebunden wird.<br />

Dies sollte nun fürs Erste genügen, um eine Vorstellung von den Interpretationsmechanismen,<br />

die innerhalb <strong>der</strong> Wortbildung wirksam sind, zu erhalten. Eine modifizierte, erweiterte<br />

und an die Wortbildung angepaßte Variante <strong>der</strong> Konzeption von Pustejovsky ist schließlich<br />

Gegenstand von Kapitel 5.<br />

3.5 Resümee<br />

3.5.1 Vereinheitlichung von Komposition und Derivation?<br />

Die augenscheinlichen Parallelen zwischen Eigenschaften <strong>der</strong> Komposition einerseits und<br />

Derivation an<strong>der</strong>erseits – zu nennen sind hier nur Binarität und Rechtsköpfigkeit komplexer<br />

Strukturen – haben einige Autoren (wie z.B. Höhle (1982)) zu <strong>der</strong> Annahme geführt, daß<br />

beiden <strong>der</strong> gleiche Mechanismus zugrundeliegt und sie sich lediglich im beteiligten Material<br />

unterscheiden, genauer, hinsichtlich <strong>des</strong> Werts für ein Merkmal gebunden. Höhle (1982) führt<br />

als Argumente für diesen Standpunkt – auch Kompositionstheorie <strong>der</strong> Affigierung genannt<br />

– eine Reihe von Argumenten an (vgl. Höhle (1982:88ff.)):<br />

a) Bei Komposita wie bei Derivaten flektieren nur die Zweitglie<strong>der</strong>.<br />

b) Fugenelemente können bei beiden Wortbildungstypen zwischen die Glie<strong>der</strong> treten, vgl.<br />

Haltungsschäden vs. haltungslos.<br />

c) Die Daten zur Tilgung unter Koordination entsprechen sich, vgl. Herrenmäntel und<br />

-schuhe, erkenn- und begreifbar.<br />

d) Die Zulässigkeit von Argumentvererbung scheint bei beiden Typen weniger an <strong>der</strong> Unterscheidung<br />

Komposition – Derivation zu hängen als an Eigenschaften <strong>der</strong> beteiligten<br />

Morpheme.<br />

M.E. gibt es jedoch einige gewichtige Gegenargumente. Man muß zwar konzedieren, daß,<br />

wenn man sich auf die formalen Eigenschaften <strong>der</strong> beiden Wortbildungstypen beschränkt,<br />

Höhles Argumentation sehr plausibel erscheint. An<strong>der</strong>erseits sind seine Argumente ausschließlich<br />

morphologischer Natur, was, wie ich meine, <strong>der</strong> Sache nicht gerecht wird. Die<br />

These, die ich in dieser Arbeit vertrete (und die natürlich nicht neu ist) ist die, daß das Interessante<br />

an Wörtern nicht ihre Syntax ist, son<strong>der</strong>n ihre Interpretation. Diese ist, wie in Kapitel<br />

5 noch ausführlich diskutiert werden wird, bei den beiden betrachteten Wortbildungsoperationen<br />

jedoch grundverschieden. Derivation und Rektionskomposition zeigen noch eine<br />

weitgehende Kopplung von Formations- und Interpretationsregeln, was bei <strong>der</strong> allgemeinen<br />

Komposition nicht mehr <strong>der</strong> Fall ist.<br />

Man könnte nun versucht sein, zur Grenzziehung zwischen Komposition und Derivation<br />

nicht morphologische Merkmale wie �GEBUNDEN, son<strong>der</strong>n die semantische Interpretation<br />

dieser Konstruktionstypen heranzuziehen. Affixe hätten dieser Idee zur Folge keine eigene<br />

Semantik und ihr Beitrag bei <strong>der</strong> Wortbildung sei ein rein funktionaler. Frei vorkommende<br />

88


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

Morpheme an<strong>der</strong>erseits verfügten über das volle, unter 3.3 und 3.4 vorgestellte Inventar <strong>der</strong><br />

Argumentsättigung, Stereotyperschließung und Nutzung weiterer konzeptueller Relationen.<br />

Lei<strong>der</strong> ist diese Ansicht auch nicht ganz zutreffend. Es gibt zumin<strong>des</strong>t ein sehr produktives<br />

Suffix – -ist –, das als Basis Nomen nimmt und daraus Personenbezeichnungen bildet. Betrachtet<br />

man als Basis etwa Nomen, die Musikinstrumente wie<br />

(78) Gitarre, Horn, Flöte<br />

denotieren, so sieht man, daß bei den entsprechenden ist-Ableitungen anscheinend auch<br />

eine stereotype Relation, die <strong>des</strong> Spielens, zur Deutung benutzt wird. Ein Gitarrist, ist jemand,<br />

<strong>der</strong> berufsmäßig o<strong>der</strong> gelegentlich Gitarre spielt. Stereotype Relationen können demnach<br />

auch bei <strong>der</strong> Derivation eine Rolle spielen.<br />

Abschließend halte ich Höhles Theorie auch unter einer syntaktischen Perspektive für nicht<br />

ganz zutreffend, da <strong>der</strong> Wert eines Merkmals allein noch nicht für die Beschreibung <strong>der</strong><br />

Phänomene ausreicht, was man sieht, wenn man sich etwa fragt, warum Derivationsaffixe<br />

immer rechts stehen müssen? Weitere Einwände, die hier nicht wie<strong>der</strong>gegeben werden können,<br />

finden sich in Reis (1983).<br />

3.5.2 Lexikalisierte Wortgrammatiken?<br />

Ein Trend in <strong>der</strong> heutigen Sprachwissenschaft generativer Tradition geht in Richtung zunehmen<strong>der</strong><br />

Lexikalisierung und Prinzipienbildung: Die Syntax wird verarmt, die Lexikonstruktur<br />

dagegen immer reicher. Der radikalste Standpunkt wird hierbei von <strong>der</strong> Kategorialgrammatik<br />

eingenommen, die sämtliche syntaktischen Regeln in den rekursiv aufgebauten<br />

lexikalischen Kategorien repräsentiert und nur noch zwei syntaktische Operationen (Vorwärts-<br />

und Rückwärtsapplikation) kennt.<br />

Eine interessante Frage ist nun: können die Ideen und Techniken <strong>der</strong> Lexikalisierung auch<br />

auf mögliche Wortgrammatiken angewendet werden?<br />

Hierzu muß zunächst bestimmt werden, was Lexikalisierung eigentlich bedeutet (vgl. König<br />

(1996:6)):<br />

Definition 3.1 Lexikalisierter Baum:<br />

Ein Baum T heißt lexikalisiert, wenn er min<strong>des</strong>tens ein Terminalsymbol enthält.<br />

Definition 3.2 Lexikalisierte Grammatik:<br />

Eine Grammatik G heißt lexikalisiert, wenn je<strong>der</strong> ihrer lokalen Bäume 17 lexikalisiert ist.<br />

Grammatikmodelle wie die HPSG sind nach dieser Definition lexikalisiert, da die einem<br />

Zeichen S mit Kopf H zugeordnete SUBCAT-Liste L kategorialgrammatisch wie folgt zu interpretieren<br />

sind: H braucht die Elemente aus L um ein S zu erzeugen.<br />

Ist es nun sinnvoll, auch Wortgrammatiken als Kategorialgrammatiken o<strong>der</strong> im Stil <strong>der</strong><br />

HPSG zu definieren? Die These, die ich an dieser Stelle vertreten möchte, ist die: Es ist trivialerweise<br />

möglich, bietet aber keinerlei Einsicht in die Natur <strong>der</strong> Wortbildung.<br />

Zur Begründung: Wir haben gesehen, daß die Wortbildung, zumin<strong>des</strong>t im <strong>Deutschen</strong>, durch<br />

folgen<strong>des</strong> Motto charakterisiert werden kann: „Arme Syntax, reiche Semantik“. Es gibt, abgesehen<br />

von <strong>der</strong> Derivation 18 und vielleicht <strong>der</strong> Bildung von Rektionskomposita und N-N-<br />

Komposita mit relationalem Zweitglied praktisch keine Subkategorisierungsbeziehungen<br />

zwischen lexikalischen Wortbestandteilen. Natürlich kann man beispielsweise für Nomen<br />

17 Lokale Bäume sind hier Bäume, die aufgrund einer einzigen Phrasenstrukturregel gebildet werden<br />

können.<br />

18 Und hier kann man fragen, ob die Derivationssuffixe als eigenständige Einheiten im Lexikon eingetragen<br />

sind und nicht vielmehr synkategorematisch in Derivationsregeln erscheinen.<br />

89


Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />

alternative Subkategorisierungsrahmen annehmen, im System <strong>der</strong> HPSG etwa ein leerer<br />

Rahmen (das Nomen steht allein) und ein Rahmen, <strong>der</strong> ein an<strong>der</strong>es Nomen enthält (für N-N-<br />

Komposita). Dies ist aber vollkommen uninstruktiv, und das meine ich mit „trivialerweise“.<br />

Konversionsprozesse bilden eine weitere Schwierigkeit für rein lexikalisierte Wortgrammatiken,<br />

da wenig an<strong>der</strong>e Möglichkeiten bleiben als unäre Regeln <strong>der</strong> Form X � Y zu verwenden.<br />

Man kommt also kaum umhin, solche Wortstrukturregeln wie N � N N anzunehmen<br />

und ansonsten soweit zu lexikalisieren, wie es sinnvoll ist.<br />

3.5.3 Ziele<br />

Zum Ende dieses dritten Kapitels möchte ich die Folgerungen zusammenfassen, die sich<br />

meiner Ansicht nach aus den zuvor dargestellten Ansätzen und <strong>der</strong> daran festgemachten<br />

Kritik ergeben.<br />

1. Wünschenswert ist eine einheitliche Beschreibung von Flexion, Derivation und Komposition.<br />

Im Bereich <strong>der</strong> Syntax scheint dies durch Annahme von syntaktischen Köpfen relativ<br />

unproblematisch zu sein, wenn auch die Flexion hierbei etwas aus dem Rahmen fällt<br />

und es neben <strong>der</strong> konkatenativen Morphologie eine Reihe von Operationen gibt, die sich<br />

nicht auf diese Weise integrieren lassen. Eine uniforme semantische Charaktersierung zu<br />

finden ist weitaus problematischer, da sich das Inventar <strong>der</strong> semantischen Operationen<br />

doch in wesentlicher Weise unterscheidet. Während <strong>der</strong> semantische Beitrag von Flexion<br />

und Derivation 19 in relativ vorhersagbarer Weise aus dem Kompositionalitätsprinzip<br />

folgt, spielen in <strong>der</strong> Komposition Operationen wie die Relationserschließung eine Rolle,<br />

die im eigentlichen Sinn nicht-kompositionell sind, da ja hier die Bedeutung eines komplexen<br />

Wortes nicht ausschließlich von <strong>der</strong> Bedeutung seiner Bestandteile und <strong>der</strong> Art ihrer<br />

Kombination festgelegt, son<strong>der</strong>n in wesentlicher Weise durch „unsichtbare“, erschlossene<br />

Komponenten bestimmt wird, die natürlich irgendwo Teil <strong>der</strong> Semantik <strong>der</strong> Bestandteile<br />

sind. Dieser Unterschied in <strong>der</strong> Semantik zwischen Komposition und Derivation<br />

ist m.E. ein Hauptargument gegen die Kompositionstheorie <strong>der</strong> Affigierung, die ihr<br />

Blickfeld zu sehr auf Parallelen in <strong>der</strong> Syntax bei<strong>der</strong> Wortbildungstypen verengt.<br />

2. Syntaktische Regeln anzunehmen ist von <strong>der</strong> Literatur nicht wi<strong>der</strong>legt. Wie gezeigt<br />

wurde, gehen alle Ansätze <strong>der</strong> Wortsemantik von expliziten o<strong>der</strong> impliziten Wortstrukturregeln<br />

aus. Es ist daher legitim, in einem operationalen Modell <strong>der</strong> deutschen Wortbildung<br />

und Flexion von diesem Mittel Gebrauch zu machen, zumal es die maschinelle Verarbeitung<br />

wesentlich erleichtert. Darüber hinaus stimme ich mit Pustejovsky (1991) 20<br />

überein, daß die Annahme einer syntaktischen Struktur von Wörtern auch in theoretischer<br />

Hinsicht Vorteile bringt, beispielsweise beim Erfassen von Ambiguitäten. Die Ausführungen<br />

im letzten Abschnitt machen die Annahme wortsyntaktischer Regeln sogar<br />

mehr o<strong>der</strong> min<strong>der</strong> zwingend.<br />

3. Ein Computermodell <strong>der</strong> Wortbildung darf sich jedoch nicht allzusehr auf die syntaktische<br />

Beschreibung von komplexen Wörtern konzentrieren, son<strong>der</strong>n muß sein Schwergewicht<br />

auf den Interpretationsmechanismus legen, <strong>der</strong> zur Deutung zusammengesetzter<br />

Wörter notwendig ist. Daß hierzu konzeptuelles Wissen und damit eine Form <strong>der</strong> Wissensrepräsentation<br />

erfor<strong>der</strong>lich ist, wurde von Meyer (1993) und auch Pustejovsky (1991,<br />

1995) in deutlicher Weise gezeigt.<br />

19 Von Phänomenen <strong>der</strong> Lexikalisierung (jetzt im an<strong>der</strong>en Wortsinn) soll hier abgesehen werden.<br />

20 „[...] without an appreciation of the syntactic structure of a language, the study of lexical semantics is bound<br />

to fail. There is no way in which meaning can be completely divorced from the structure that carries it.“<br />

(Pustejovsky (1991:410))<br />

90


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

4 Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Konzeptionell kann das Problem <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> in zwei Teilschritte zerlegt<br />

werden:<br />

1. Ein erster Schritt zerlegt das möglicherweise komplexe Wort in seine bekannten, d.h. im<br />

Lexikon verzeichneten Teile. Dieser Vorgang, im weiteren Segmentierung, Zerlegung o<strong>der</strong><br />

Partitionierung genannt, unterscheidet morphologische <strong>Analyse</strong>verfahren von solchen <strong>der</strong><br />

Satzsyntax, die mit geschriebener Sprache arbeiten. Bei letzteren genügt ein einfacher<br />

Tokenizer, <strong>der</strong> aufgrund <strong>der</strong> einfachen operationalen Definition von Wort – ein Wort ist<br />

alles, was zwischen Leerzeichen steht – diese Wörter auffindet.<br />

2. Ein zweiter Schritt, <strong>der</strong> mittels einer strukturellen <strong>Analyse</strong> feststellt, in welchen konfigurationellen<br />

Beziehungen die gefundenen Segmente stehen und wie sich die Merkmale <strong>des</strong><br />

Gesamtwortes aus den Merkmalen seiner Teile ergeben.<br />

Diese Unterglie<strong>der</strong>ung muß jedoch nicht zwangsläufig auch zu einer Sequentialität <strong>des</strong> Verfahrens<br />

führen, wie weiter unten deutlich wird.<br />

Die methodologische Grundlage <strong>des</strong> hier vorgestellten Modells bilden nun zwei Grundannahmen:<br />

• Die Segmentierungskomponente sollte so einfach und so effizient wie möglich sein; alle<br />

restlichen Aufgaben erledigt die strukturelle <strong>Analyse</strong>.<br />

• Soweit wie möglich sollen Techniken <strong>der</strong> Präkompilation genutzt werden, um einen<br />

möglichst großen Teil <strong>der</strong> <strong>Analyse</strong>last in <strong>der</strong> Kompilationsphase aufzufangen.<br />

Folgende Vorteile sollen sich aus einer <strong>der</strong>artigen Aufgabenteilung ergeben:<br />

• Die Effizienz <strong>der</strong> Segmentierung wird durch die Einfachheit <strong>des</strong> Algorithmus gesteigert.<br />

• Schnittstellenprobleme zwischen Segmentierungsverfahren und struktureller <strong>Analyse</strong>,<br />

die sich aufgrund <strong>der</strong> Verwendung unterschiedlicher Formalismen ergeben können,<br />

werden auf diese Weise vermieden 1 .<br />

Allerdings sind auch eventuelle Nachteile in Kauf zu nehmen:<br />

• Parsing ist im allgemeinen Fall komplexitätstheoretisch aufwendiger als das Erkennen<br />

von regulären Sprachen.<br />

• Parsverfahren für natürliche Sprachen neigen im allgemeinen zur Übergenerierung.<br />

Zum weiteren Aufbau dieses Kapitels: Abschnitt 4.2 geht auf die Funktionsweise <strong>des</strong> segmentierenden<br />

Automaten ein, während Abschnitt 4.3 sich dem verwendeten Parsverfahren<br />

widmet. Zunächst kommt aber die Organisation <strong>des</strong> Lexikons zur Sprache.<br />

1 Eine an<strong>der</strong>e Möglichkeit <strong>der</strong> Vermeidung solcher Schnittstellenprobleme besteht darin, die<br />

<strong>Analyse</strong>automaten im gleichen Formalismus zu repräsentieren wie die Wortgrammatik. Vgl. dazu<br />

beispielsweise die Arbeiten von Krieger et al. (1993).<br />

91


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

4.1 Die Organisation <strong>des</strong> Lexikons<br />

Bevor die Automatenkonzeption <strong>des</strong> Modells diskutiert wird, muß zunächst noch geklärt<br />

werden, was sinnvollerweise im Lexikon zu verzeichnen ist. Zu unterscheiden ist hier die<br />

Makrostruktur eines Lexikons von seiner Mikrostruktur. Erstere bezeichnet die äußere Organisationsform<br />

<strong>des</strong> Lexikons, was also aufgenommen wird und in welcher Form, wohingegen<br />

Mikrostruktur die Informationen und Attribute meint, die zu den einzelnen Einträgen verzeichnet<br />

sind. Die Mikrostruktur ist erst Gegenstand <strong>des</strong> folgenden Kapitels, in dem Typenhierarchie<br />

und Typisierungsspezifikationen dargelegt werden.<br />

Unter makrostruktureller Sichtweise enthält das Lexikon Objekte, die Paradigmen bzw.<br />

Lemmata verwandt sind, jedoch nicht vollkommen unter diese Begriffe fallen, und die hier<br />

(Eisenberg (1998) folgend) morphologische Paradigmen genannt werden. Diese enthalten unter<br />

einem Namen, <strong>der</strong> sich aus einer maximal unmarkierten Stammform ergibt und <strong>der</strong> als<br />

Hauptschlüssel in das Lexikon dient, u.U. eine Reihe weiterer, alternativer Stämme, die (wie<br />

bei regulären Lemmata auch) semantisch zusammenhängen und zu denen die Merkmale<br />

notiert sind, die ihnen selbst zukommen ebenso wie die Anfor<strong>der</strong>ungen, die sie an die wortsyntaktische<br />

Umgebung stellen. Bei unregelmäßigen Verben wären hier z.B. die allomorphen<br />

Stämme verzeichnet. Diese Stämme dienen wie<strong>der</strong>um als Unterschlüssel innerhalb <strong>des</strong><br />

<strong>morphologischen</strong> Paradigmas. Ein zusammengesetzter Schlüssel wie z.B. werf/warf bezeichnet<br />

also eindeutig die Merkmale, die dem Stamm warf im Lexikon und Lemma von werf(en)<br />

zugeordnet sind. Der Unterschied zum normalen Paradigma ist <strong>der</strong>, daß dieses ja vollständige<br />

Wortformen und nicht nur Stämme enthält, diese Wortformen und ihre Merkmale hier<br />

jedoch erst durch die <strong>Analyse</strong> bestimmt werden, um die Probleme zu großer Paradigmentabellen<br />

etc. zu vermeiden. Bei den Elementen nichtflektieren<strong>der</strong> Wortklassen ist das reduzierte<br />

Paradigma natürlich trivial, da es nur einen Eintrag enthält. Dadurch, daß das Lexikon<br />

Paradigmen enthält und nicht nur eine Auflistung einzelner Stammformen ist, wird es möglich,<br />

paradigmatische Beziehungen zwischen Stämmen zu repräsentieren. Davon getrennt ist<br />

jedoch die Indexstruktur, die zur <strong>morphologischen</strong> <strong>Analyse</strong> verwendet wird und in Form<br />

eines Automaten vorliegt, <strong>der</strong> in Abschnitt 4.2 genau beschrieben wird.<br />

Unter einer an<strong>der</strong>en Perspektive betrachtet, enthält das Lexikon Listeme im Sinne von Williams/Di<br />

Scuillo (1987); siehe auch Kapitel 3. Listeme sind danach all das, was man im Verlauf<br />

<strong>des</strong> Erwerbs einer Sprache an Vokabular erlernen muß, also neben Wörtern beispielsweise<br />

auch idiomatische Wendungen u.ä.<br />

Hier wird unter Listem folgen<strong>des</strong> verstanden:<br />

• Inhaltstragende Simplexwörter und ihre allomorphen Stämme<br />

• Funktionswörter<br />

• Flexionsaffixe<br />

• Derivationsaffixe<br />

• Zusammengesetzte Wörter, die semantisch verdunkelt, also nicht mehr kompositionell<br />

sind<br />

• Fugenelemente<br />

Zu jedem Element dieser Klassen werden dann die für die <strong>Analyse</strong> notwendigen Eigenschaften<br />

in Form von Merkmalsstrukturen notiert.<br />

Nachfolgend werden noch einige Begriffe erläutert, die im weiteren Verlauf <strong>der</strong> Arbeit eine<br />

Rolle spielen:<br />

92


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Ein Morphem – in üblicher strukturalistischer Weise als kleinste bedeutungstragende Einheit<br />

definiert – kann bei gleichbleiben<strong>der</strong> Bedeutung 2 eine Reihe verschiedener Oberflächenrealisationen,<br />

die sog. (Allo)Morphe, aufweisen, was auch als Allomorphie bezeichnet wird. Unter<br />

Basismorph wird im weiteren ein Stellvertreter aus <strong>der</strong> Menge <strong>der</strong> Allomorphe verstanden,<br />

<strong>der</strong> das Morphem benennt, wozu das kürzeste bzw. dasjenige Allomorph ausgewählt wird,<br />

welches die vergleichsweise allgemeinste Merkmalsbestimmung aufweist.<br />

4.2 Der segmentierende Automat<br />

Der Segmentierungsalgorithmus muß neben seiner Hauptaufgabe – dem effizienten Zerlegen<br />

eines Wortes – noch eine Reihe von weiteren Problemen lösen:<br />

1. Eine Reihe von zusammengesetzten Wörtern wie Staubecken, Wachstube, herzeigen etc.<br />

weist mehr als eine Segmentierung auf. Dies ist z.T. natürlich ein Problem <strong>der</strong> gewählten<br />

Repräsentationsebene – die orthographische Repräsentation ist ärmer als die phonetische<br />

–, stellt sich jedoch auch auf letzterer. Das Problem ist im übrigen keineswegs marginal,<br />

son<strong>der</strong>n ein Standardproblem je<strong>des</strong> Ansatzes <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong>. Es ist<br />

manchmal überraschend, welche sinnvollen und unsinnigen Wortanalysen ein gänzlich<br />

mechanisches Verfahren erzeugt 3 ; dies ist durchaus parallel zu sehen mit dem Phänomen<br />

<strong>der</strong> sog. attachment ambiguities, die sich aufgrund alternativer Anbindungsmöglichkeiten<br />

von Adjunktpräpositionalphrasen ergeben. Ein menschlicher Leser ist sich dieser Ambiguitäten<br />

selten bewußt, da er sie semantisch und pragmatisch auflöst, ein vollständiger<br />

Parser jedoch bringt sie ausnahmslos an den Tag.<br />

2. Komplexe Wörter können Teile enthalten, die nicht im Lexikon aufgeführt sind. Dies<br />

sollte nicht zum Abbruch <strong>der</strong> <strong>Analyse</strong> führen und auch nicht die Erkennung <strong>der</strong> bekannten<br />

Wortteile beeinträchtigen.<br />

3. Morphkonkatenation führt häufig zu phonetischen Än<strong>der</strong>ungen an den Morphgrenzen,<br />

die sich auch orthographisch nie<strong>der</strong>schlagen; so wird beispielsweise bei <strong>der</strong> Präteritumsbildung<br />

von schwachen Verben auf –chn ein e nach dem Stamm eingefügt: rechn + t ⇒<br />

rechnet. Solche Än<strong>der</strong>ungen beschränken sich nicht ausschließlich auf Morphgrenzen,<br />

son<strong>der</strong>n können sich, wie z.B. bei <strong>der</strong> Pluralumlautung von Nomen, ausschließlich beim<br />

Stammvokal bemerkbar machen.<br />

Der nächste Abschnitt stellt ein Automatenmodell vor, das sich für jeden dieser Problembereiche<br />

um eine Lösung bemüht.<br />

4.2.1 Das Automatenmodell<br />

Bei <strong>der</strong> Konzeption <strong>der</strong> Teilkomponente, die die Segmentierung eines möglicherweise komplexen<br />

Wortes in seine Bestandteile vornimmt, waren folgende Kriterien ausschlaggebend:<br />

1. Das <strong>Analyse</strong>modell muß eine Trennung zwischen den verarbeiteten Daten (den Morphen<br />

bzw. Morphemen <strong>der</strong> zu analysierenden Sprache) und dem Algorithmus, <strong>der</strong> die<br />

<strong>Analyse</strong> durchführt, gewährleisten. Auch wenn nicht die For<strong>der</strong>ung erhoben werden<br />

soll, daß das Verfahren sich für alle natürlichen Sprachen eignet, so sollte es zumin<strong>des</strong>t<br />

möglich sein, Sprachen, die dem <strong>Deutschen</strong> hinsichtlich Wortbildung und Flexion ähnlich<br />

sind, durch Austausch <strong>der</strong> Daten (also <strong>des</strong> Lexikons) zu analysieren.<br />

2 Dieses Kriterium ist nicht unproblematisch, da es von <strong>der</strong> „Trennschärfe“ <strong>des</strong> Bedeutungsbegriffs<br />

abhängt, etwa weil die Flexionskategorie „Plural“ Einfluß auf das Denotat eines Nomens nimmt.<br />

3 Beispielsweise die Zerlegung von Rin<strong>der</strong>braten in Rind+erb+rat-en.<br />

93


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

2. Grundlage <strong>der</strong> Segmentierung soll ein wohlverstandenes Automatenmodell sein.<br />

3. Sämtliche mögliche Segmentierungen eines komplexen Wortes sollen gefunden werden.<br />

4. Die Segmentierung soll effizient, d.h. deterministisch und in linearer Zeit durchgeführt<br />

werden.<br />

5. Das Verfahren soll robust sein, d.h. im Fall fehlen<strong>der</strong> Information – also bei Antreffen<br />

unbekannter Wortteile – die <strong>Analyse</strong> nicht scheitern lassen, son<strong>der</strong>n konstruktiv fortsetzen.<br />

6. Alle verfügbaren Informationen – wortsyntaktische und wortsemantische ebenso wie<br />

graphematisch/phonetische – sollen so früh wie möglich dazu verwendet werden, den<br />

<strong>Analyse</strong>durchlauf zu steuern und Alternativen, die letztendlich fehlschlagen, auszuson<strong>der</strong>n.<br />

Kriterium 1 schließt zunächst einmal Verfahren aus, die, wie die in Kapitel 1 beschriebenen<br />

Lemmatisierungsansätze <strong>der</strong> siebziger Jahre, zu analysierende Daten in Form von Spezifikationen<br />

<strong>des</strong> Kontrolflusses fest in ein Programm „hineinverdrahten“. Wie bereits gesagt,<br />

verhin<strong>der</strong>t eine solche Konzeption die Portierung eines <strong>Analyse</strong>moduls von einer Sprache in<br />

eine an<strong>der</strong>e und verbirgt die evtl. vorhandenen Gemeinsamkeiten zwischen den <strong>Analyse</strong>verfahren<br />

verwandter Sprachen.<br />

Kriterium 2 läßt darüber hinaus nur Verfahren zu, die vollständig auf einem <strong>der</strong> bekannten<br />

Automatenmodelle basieren. Die Einhaltung dieses Kriterium hat einige Vorteile. Zum einen<br />

lassen sich präzise Aussagen über die Zeitkomplexität und die Kapazität <strong>des</strong> Verfahrens<br />

treffen, zum an<strong>der</strong>en bieten Automatenmodelle, insbeson<strong>der</strong>e endliche Automaten, die<br />

Möglichkeit <strong>der</strong> Anbindung an die im Bereich <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> überaus erfolgreiche<br />

Two-Level-Morphology. Durch dieses Kriterium werden also zumin<strong>des</strong>t teilweise prozedurale<br />

Ansätze wie <strong>der</strong> von Finkler/Neumann (1986), bei dem die Wortzerlegung durch<br />

einzelsprachliche Regeln vorgenommen wird (Abtrennung <strong>des</strong> Präfixes ge- beim Partizip II<br />

etc.), ausgeschlossen 4 .<br />

Kriterium 3 ist selbstverständlich. Kriterium 4 wendet sich gegen Verfahren, die bei <strong>der</strong><br />

Segmentierung auf allzu naive Algorithmen bzw. Heuristiken zurückgreifen, wie dies z.B.<br />

Daelemans (1987) tut. Die Frage ist, warum man, wenn man schon über ein Lexikon mit den<br />

Morphemen <strong>der</strong> zu behandelnden Sprache verfügt, trotzdem ein komplexes Wort in alle<br />

möglichen Zerlegungen segmentieren muß? M.a.W.: Bei <strong>der</strong> Zerlegung sollte dieses Lexikon<br />

schon aktiv miteinbezogen und nicht nur – gewissermaßen passiv – zum Nachschlagen <strong>der</strong><br />

vorgeschlagenen Segmente herangezogen werden.<br />

Kriterium 5 ist in realen sprachverarbeitenden Anwendungen überaus wichtig, da man –<br />

auch wenn man die Wortbildung einmal ganz außer Acht läßt – kaum hoffen kann, ein vollständiges<br />

Morphemlexikon einsetzen zu können.<br />

Aus dem letzten Kriterium schließlich folgt, daß das Verfahren inkrementell ist, demnach<br />

keine Unterteilung in sequentiell angeordnete <strong>Analyse</strong>stufen stattfindet, beispielsweise erst<br />

Segmentierung, dann (wort–)syntaktische <strong>Analyse</strong> und zuletzt Interpretation.<br />

Das hier vorgestellte <strong>Analyse</strong>modell erfüllt m.E. diese Kriterien. Die Grundidee ist, hier einer<br />

Idee von Aho/Corasick (1975) folgend – nämlich die <strong>der</strong> parallelen Schlüsselwortsuche in<br />

größeren Texten –, daß man die Suche nach im Lexikon verzeichneten Wortbestandteilen in<br />

einem komplexen Wort als ein solches paralleles Suchen nach Schlüsselworten auffaßt. Die<br />

Schlüsselworte sind dabei die verschiedenen Segmente <strong>des</strong> Wortes, das, worin gesucht wird,<br />

ist kein (evtl. sehr großer) Text, son<strong>der</strong>n das zu zerlegende Wort. Es ergibt sich jedoch<br />

4 Der an<strong>der</strong>e Teil <strong>der</strong> Konzeption von Finkler/Neumann (1986) – die Suche in den Endungsbäumen –<br />

entspricht durchaus diesem Kriterium, da solche Bäume im Grunde deterministische, um eine<br />

Ausgabefunktion erweiterte endliche Automaten sind.<br />

94


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

hierbei das Problem, daß das Verfahren von Aho/Corasick nicht garantiert, daß die Segmente<br />

das Gesamtwort partitionieren; es ist vielmehr möglich, daß Segmente sich überlappen,<br />

dies ist ja geradezu <strong>der</strong> prototypische Fall <strong>der</strong> Anwendung dieses Automatentyps.<br />

Formal ist <strong>der</strong> segmentierende Automat durch ein 7-Tupel beschrieben.<br />

Die ersten fünf Tupelkomponenten sind wie beim (deterministischen) endlichen<br />

Automaten definiert:<br />

Σ dem Automatenalphabet (hier also aus den Symbolen <strong>der</strong> Zielsprache Deutsch<br />

{ a,...,z,ä,ö,ü,ß,-} bestehend)<br />

S eine Menge von Zuständen<br />

Q0 q0 ∈ S, dem Anfangszustand <strong>des</strong> Automaten<br />

goto eine (totale) Übergangsfunktion S × Σ � S ∪ { fail }; <strong>der</strong> Funktionswert ist , fail für<br />

alle Symbole aus Σ, für die kein Übergang definiert ist (entspricht <strong>der</strong> δ -Funktion<br />

eines endlichen Automaten)<br />

F F ⊆ S, <strong>der</strong> Menge <strong>der</strong> Endzustände <strong>des</strong> Automaten<br />

Hinzu kommen zwei weitere Funktionen:<br />

ƒ die sog. failure-Funktion S � S<br />

Σ* Σ*<br />

output die Ausgabefunktion oS : � 2 ;<br />

×<br />

die erste Komponente in einem 2-Tupel in output(s) ist <strong>der</strong> Name <strong>des</strong><br />

<strong>morphologischen</strong> Paradigmas, die zweite enthält einen Schlüssel in dieses Paradigma.<br />

Bei trivialen Paradigmen ohne Allomorphie ist die zweite Komponente ε.<br />

Die nachfolgende Abbildung zeigt einen Beispielautomaten nach dem Einfügen <strong>der</strong> Lexeme<br />

tausch- 5 , Tausch, Stau, Staub, staun-, Becken, Ecke, –s– (Fugenelement) und -n (Flexiv). Unterschiede<br />

hinsichtlich Groß- und Kleinschreibung werden hierbei nicht berücksichtigt, da sie<br />

nicht signifikant sind: Einerseits werden normalerweise klein geschriebene Wörter am Satzanfang<br />

groß geschrieben, während das Umgekehrte bei Wörtern/Stämmen gilt, die innerhalb<br />

von komplexen Wörtern stehen.<br />

5 Um das Beispiel einfach zu halten, wird darauf verzichtet, in die Ausgabefunktion ein Schlüsselpaar<br />

aufzunehmen; es wird lediglich das im Automaten repräsentierte Morph angegeben.<br />

95


a) Die Übergangsfunktion goto<br />

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

s 1 2 3 4 5 6 7 8 9 10 11<br />

f(s) 0 0 0 7 0 0 0 1 2 3 13<br />

s 12 13 14 15 16 17 18 19 20 21 22 23<br />

f(s) 23 0 19 20 21 22 23 0 0 0 19 0<br />

b) Die failure-Funktion<br />

s 6 7 10 11 12<br />

output(s) {Tausch, tausch} {s} {Stau} {Staub} {staun, n}<br />

s 17 18 22 23<br />

output(s) {Ecke} {Becken, n} {Ecke} { n}<br />

c) Die Ausgabefunktion (∅ für alle nicht aufgeführten Zustände)<br />

Abb. 4.1: Der Beispielautomat<br />

Die Übergangsfunktion goto realisiert, wie man aus Abb. 4.1 ersehen kann, im wesentlichen<br />

eine Trie-Indexstruktur, mit <strong>der</strong> Ausnahme, daß für alle Symbole, für die es aus q0 (im Beispielfall<br />

Zustand 0) keinen Übergang in einen an<strong>der</strong>en Zustand gibt, ein zyklischer Übergang<br />

nach q0 existiert. Dieser Übergang stellt sicher, daß in jedem Operationszyklus <strong>des</strong><br />

Automaten (s.u.) ein Symbol konsumiert wird, was für die Effizienz <strong>des</strong> Verfahrens von Bedeutung<br />

ist.<br />

Die failure-Funktion ist so konstruiert, daß im Falle einer Sackgasse bei <strong>der</strong> <strong>Analyse</strong> nicht<br />

ganz von vorn begonnen werden muß, son<strong>der</strong>n in einen Zustand übergewechselt werden<br />

kann, <strong>der</strong> einen möglicherweise erfolgreich fortsetzbaren Teil <strong>der</strong> bisherigen <strong>Analyse</strong> reflektiert.<br />

96


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Beispiel 4.1:<br />

Die Zeichenfolge Wohnungstausch soll analysiert werden. Nach dem Finden <strong>des</strong> Segments<br />

Wohnung (dies ist im Automaten nicht gezeigt), befindet sich <strong>der</strong> Automat wie<strong>der</strong> im Zustand<br />

0 und folgt <strong>der</strong> Teilkette stau bis zum Zustand 10. Dieser Zustand weist für das nächste<br />

Symbol (s) keinen Übergang auf, woraufhin die failure-Funktion konsultiert wird, die als<br />

Ergebnis f(10) den Zustand 3 liefert. Der Automat befindet sich nun in einem Zustand, den er<br />

auch erreicht hätte, wenn er vom Zustand 0 ausgehend die Zeichenkette tau gelesen hätte.<br />

Die failure-Funktion kodiert m.a.W., welche Suffixe von Schlüsselwörtern (tau von Stau in<br />

Beispiel 4.1) wie<strong>der</strong>um Präfixe an<strong>der</strong>er Schlüsselwörter (tau von tausch) sind. Hierdurch muß<br />

je<strong>des</strong> Zeichen in <strong>der</strong> Tat nur einmal gelesen werden.<br />

Die Ausgabefunktion output weist jedem Zustand eine möglicherweise leere Menge von<br />

Tripeln <strong>der</strong> Form zu, mit <strong>der</strong> intendierten Bedeutung, daß sich von den Wortpositionen<br />

i bis j ein Segment erstreckt, welches einen Verweis σ ins Lexikon darstellt.<br />

Der Algorithmus, <strong>der</strong> die im Lexikon verzeichneten Segmente eines Wortes findet und <strong>der</strong><br />

verän<strong>der</strong>ten Ausgabefunktion angepaßt ist, ist nachstehend wie<strong>der</strong>gegeben. Ein Operationszyklus<br />

ist hierbei ein einmaliger Durchlauf <strong>der</strong> for-Schleife, umfaßt demnach einen „erfolgreichen“<br />

goto-Übergang und eine Anzahl (möglicherweise null) failure-Übergänge.<br />

Algorithmus 4.1: Suche nach Wortsegmenten<br />

Eingabe: Die zu analysierende Zeichenkette a1a2 ... an<br />

Ausgabe: Eine Menge von Tripeln <strong>der</strong> Form N × Σ* × N, beispielsweise , mit<br />

<strong>der</strong> Bedeutung, daß im Wort ein Segment mit Verweis staub von <strong>der</strong> Wortposition<br />

1 bis zur Position 5 gefunden wurde.<br />

Verfahren begin<br />

result := ∅<br />

state := 0<br />

for i := 1 until n do begin<br />

while goto(state, ai) = fail do<br />

state := f(state)<br />

state := goto(state, ai)<br />

if output(state) ≠ ∅ then begin<br />

for each s ∈ output(state) do<br />

{*1*} result := result ∪ <br />

end<br />

end<br />

return result<br />

end<br />

Die Algorithmen zur Konstruktion <strong>der</strong> Übergangs-, Ausgabe- und failure-Funktion sind in<br />

Anhang A zu finden.<br />

Der Schlüssel zur effizienten Lösung <strong>des</strong> Problems <strong>der</strong> ambigen Zerlegungen ist in erster<br />

Linie das Zusammenspiel von Ausgabefunktion und failure-Funktion. Bei <strong>der</strong> Konstruktion<br />

<strong>der</strong> Ausgabefunktion (siehe Anhang A) findet eine Präkompilation möglicher Ambiguitäten<br />

statt, welche sich anhand <strong>des</strong> Zustands 18 im obigen Beispiel exemplifizieren läßt. Die Wert<br />

von output(18) ist {Becken,n}, was soviel bedeutet wie, daß in Zustand 18 bei Wortposition i<br />

ein Segment mit Verweis -n von i bis i und ein Segment mit Verweis Becken von i – 5 bis i<br />

gefunden wurde. Die Ausgabefunktion enthält diese beiden Zeichenketten, da -n ein echtes<br />

97


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Suffix von Becken ist. Allgemeiner gefaßt enthält die Ausgabefunktion für einen Zustand s<br />

neben dem Eintrag σ, <strong>der</strong> von s charakterisiert wird (s.u.) auch alle echten Suffixe von σ.<br />

Beispiel 4.2: <strong>Analyse</strong> <strong>des</strong> Wortes „Staubecken“<br />

Durchlaufene<br />

Zustandsfolge:<br />

Ausgegebene<br />

Segmente:<br />

0 7 8 9 10 11 13<br />

(=f(11))<br />

14 15 16 17 18<br />

↓ ↓ ↓ ↓ ↓<br />

s Stau Staub Ecke Becken,n<br />

Aho/Corasick (1975) haben gezeigt, daß bei einer Wortlänge von n höchstens 2n Zustände 6<br />

durchlaufen werden, d.h. das Durchlaufen <strong>der</strong> Automatenzustände ist von <strong>der</strong> Ordnung<br />

O(n). Die aufwendigste Operation <strong>des</strong> Algorithmus 4.1 ist die mit { *1* } gekennzeichnete<br />

Zeile. Im schlechtesten Fall muß die Ausgabefunktion für einen Zustand Verweise für alle in<br />

den Automaten eingefügten Morpheme ausgeben, d.h. <strong>der</strong> Algorithmus hat hierfür einen<br />

Zeitbedarf, <strong>der</strong> linear proportional zur Summe <strong>der</strong> Längen aller eingefügten Verweise ist<br />

(Aho/Corasick (1975), Theorem 3), wobei zu beachten ist, daß die Komplexität dieser Ausgabe<br />

nicht von n, <strong>der</strong> Länge <strong>des</strong> zu analysierenden Wortes abhängt. Dieser schlechteste Fall<br />

ist im Fall <strong>der</strong> Anwendung <strong>des</strong> Automaten für die morphologische <strong>Analyse</strong> sehr unwahrscheinlich<br />

(dies hieße nämlich, daß es einen Zustand s gibt, <strong>der</strong> eine Zeichenkette z charakterisiert,<br />

die alle Lexeme <strong>des</strong> <strong>Deutschen</strong> als Suffixe enthält).<br />

Eine weitere Frage ist noch zu klären: Ein Kriterium für die Konzeption <strong>des</strong> <strong>Analyse</strong>modells<br />

war, es auf einem <strong>der</strong> bekannten Automatenmodelle zu basieren, vorzugsweise auf dem<br />

Modell endlicher Automaten. Die failure-Funktion <strong>des</strong> segmentierenden Automaten scheint<br />

nun aus diesem Rahmen herauszufallen. Dies ist jedoch nicht <strong>der</strong> Fall, da es ohne weiteres<br />

möglich ist, den Automaten mit seiner failure-Funktion in einen deterministischen endlichen<br />

Automaten mit Ausgabefunktion umzuwandeln. Der entsprechende Algorithmus hierfür ist<br />

in Anhang A wie<strong>der</strong>gegeben. Der Grund, warum diese Determinisierung <strong>des</strong> Segmentierers<br />

nicht durchgeführt wird, ist <strong>der</strong>, daß sich dadurch die Anzahl <strong>der</strong> Zustandsübergänge stark<br />

erhöhen kann. Dies ist ein Umstand, <strong>der</strong> für das ursprüngliche Problem <strong>der</strong> Suche mit einer<br />

relativen kleinen Menge von Schlüsselwörtern in einem größeren Text ohne Relevanz ist,<br />

beim Problem von sehr vielen Schlüsselwörtern (in <strong>der</strong> Größenordnung einiger zehntausend)<br />

jedoch deutlich zu Buche schlagen kann. Beispiel 4.3 veranschaulicht die deterministische<br />

Version <strong>des</strong> Automaten aus Abb. 4.1. Die Determinisierung kommt durch Ausrechnen<br />

<strong>des</strong> Gesamteffekts <strong>der</strong> failure-Funktion zustande.<br />

Beispiel 4.3: Der Automat aus Abb. 4.1 als deterministischer Automat<br />

Die zu einer Relation umgewandelte δ-Funktion <strong>des</strong> deterministischen Automaten weist bei<br />

einem Alphabet S={ a-z, ä, ö, ü, ß, - } 744 Tupel auf, davon führen 132 zu Zuständen ungleich<br />

0. Demgegenüber enthalten goto- und failure-Funktion <strong>des</strong> Beispielautomaten zusammen 72<br />

Tupel, also ca. 1/10 davon. Die Ausgabefunktion ist in beiden Fällen gleich.<br />

6 Diese Zahl setzt sich zusammen aus n goto–Übergängen und höchstens n Aufrufen <strong>der</strong> failure–<br />

Funktion, da für jeden Zustand s <strong>der</strong> Zustand f(s) dem Startzustand „näher“ ist als s selbst.<br />

98


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Ein Problem <strong>des</strong> Ansatzes scheint zu sein, daß komplexe Worte w in Ketten ασβ partitioniert<br />

werden, wobei σ ein im Lexikon verzeichnetes Morphem ist, α jedoch nicht im Lexikon vorkommt<br />

(β ∈ Σ*), beispielsweise die Zerlegung von Staub in S und taub, wobei S kein Lexikoneintrag<br />

zugeordnet ist. Was hier jedoch wie ein Problem <strong>des</strong> Algorithmus aussieht, erweist<br />

sich als Vorteil, wenn man annimmt, daß es sich bei α um ein zulässiges Morphem <strong>der</strong><br />

zu analysierenden Sprache handelt, welches lediglich im verwendeten Lexikon nicht verzeichnet<br />

ist. Unbekannt sind in diesem Sinne also alle Segmente eines Wortes, die von keiner<br />

Partitionierung <strong>des</strong> Wortes erfaßt werden. Dieses Identifizieren von nicht im Lexikon verzeichneten<br />

Segmenten ist wesentlich für das mitverfolgte Ziel, auch Wörter mit unbekannten<br />

Teilen zu analysieren und wird durch den im nächsten Abschnitt beschriebenen Wortstrukturparser<br />

geleistet.<br />

4.3 Wortstrukturparsing<br />

Der Parser – als zweiter Teilschritt <strong>des</strong> hier vorgestellten <strong>Analyse</strong>verfahrens – erzeugt aus<br />

den gefundenen Wortsegmentierungen die von <strong>der</strong> Wortgrammatik definierten Wortstrukturen.<br />

Zwei Möglichkeiten sind denkbar, diesen Parser in den <strong>Analyse</strong>vorgang zu integrieren:<br />

1. <strong>der</strong> üblichen Konzeption <strong>der</strong> Compilerkonstruktion folgend hat <strong>der</strong> Parser die Hauptkontrolle<br />

und ruft den Segmentierer auf, sobald <strong>der</strong> Parser ein neues Token in seine<br />

<strong>Analyse</strong> zu integrieren hat.<br />

2. <strong>der</strong> Segmentierer hat die Kontrolle über die <strong>Analyse</strong> und übermittelt sukzessiv gefundene<br />

Token an den Parser, <strong>der</strong> damit angefangene <strong>Analyse</strong>n fortzusetzen versucht.<br />

Beide Grundstrategien sind mit einer gewünschten Inkrementalität <strong>des</strong> Gesamtverfahrens<br />

zunächst einmal vereinbar. Allerdings stellt sich bei Möglichkeit 1 das nicht einfach zu lösende<br />

Problem, daß <strong>der</strong> Segmentierer aufgrund seiner parallelen Operationsweise nicht immer<br />

nur ein Token zurückgibt, son<strong>der</strong>n möglicherweise auch mehrere, die in unterschiedliche<br />

Strukturbäume zu integrieren sind. So erscheint es zweckmäßiger, Zuflucht zu Möglichkeit<br />

2 zu nehmen, <strong>der</strong> zumal noch <strong>der</strong> Reiz <strong>des</strong> Unüblichen anhaftet.<br />

Allerdings schränkt diese Entscheidung die anwendbaren Parsstrategien ein. Da nun <strong>der</strong><br />

Segmentierer den Parser steuert – abweichend also von Standardverfahren in vergleichbaren<br />

Problembereichen wie dem Compiling von Programmiersprachen – können nicht mehr alle<br />

Parsverfahren eingesetzt werden. Beispielsweise impliziert eine ausschließlich hypothesengetriebene<br />

Strategie, wie sie das Top-Down-Parsing charakterisiert, daß <strong>der</strong> Parser immer<br />

dann den Scanner zur Rückgabe eines neuen Symbols auffor<strong>der</strong>t, wenn ersterer Regeln angewendet<br />

hat, die auf <strong>der</strong> rechten Regelseite Terminalsymbole enthalten. Sollen Parser und<br />

Scanner bezüglich <strong>der</strong> Steuerung im umgekehrten Verhältnis stehen, kommt nur ein wenigstens<br />

teilweise datengetriebenes (Bottom-up) Verfahren in Frage. Hierbei erzeugt <strong>der</strong> Scanner/Segmentierer<br />

ein neues Symbol, was im Zuge <strong>des</strong> Versuchs, dieses zu integrieren, zu<br />

rekursiv sich fortsetzenden Reduktionen führen kann, die schließlich im Erfolgsfalle beim<br />

Startsymbol enden.<br />

Geeignete Parsverfahren, die den hier gestellten Erfor<strong>der</strong>nissen – zumin<strong>des</strong>t teilweise Bottom-up-Strategie,<br />

Zugriff auf Zustandsinformationen und inkrementelle Vorgehensweise –<br />

entsprechen, sind Chart-Parsing und das auf <strong>der</strong> LR(k)-Technik beruhende Verfahren von<br />

Tomita (vgl. Tomita (1987)). Allerdings müßten auf den ersten Blick beide Verfahren aufgrund<br />

<strong>des</strong> prinzipiell nichtdeterministischen Charakters <strong>des</strong> Zerlegungsprozesses modifiziert<br />

werden, beispielsweise, indem je<strong>der</strong> Zerlegungsalternative ein separater Parser zugeordnet<br />

wird. Da alternative Zerlegungen jedoch häufig gemeinsame Segmente an den glei-<br />

99


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

chen Wortpositionen aufweisen, entsteht hieraus in<strong>des</strong> ein Mehraufwand, <strong>der</strong> jedoch durch<br />

Anwendung <strong>der</strong> Grundidee <strong>des</strong> Chart-Parsings vermieden werden kann. Die Effizienz <strong>des</strong><br />

Chart- bzw. Earley-Parsings ergibt sich schließlich in erster Linie daraus, daß über bereits<br />

analysierte Konstituenten Buch geführt wird. Verwendet man nun einen gemeinsamen Chart<br />

für alle Zerlegungsalternativen, so werden Wortteile, die in mehr als einer Segmentierung<br />

vorhanden sind, auch nur einmal analysiert. Hierzu sind jedoch leichte Än<strong>der</strong>ungen <strong>des</strong><br />

ursprünglichen Chart-Parsing-Algorithmus nötig, die Gegenstand <strong>des</strong> folgenden Abschnitts<br />

sind.<br />

4.3.1 Das Parsverfahren<br />

Wie zuvor erwähnt, wird die strukturelle <strong>Analyse</strong> durch einen Bottom-Up-Chart-Parser (<strong>der</strong><br />

genau genommen ein Left-Corner-Parser mit Speicherung <strong>der</strong> Teilresultate ist) geleistet, <strong>der</strong><br />

den Zerlegungen auf <strong>der</strong> Basis einer typisierten Unifikationsgrammatik, wie sie in Kapitel 2<br />

beschrieben wurde, Strukturen zuordnet.<br />

Wie bei allen Chart-Parsern lassen sich drei Grundoperationen – Shift, Expand und Complete<br />

– ausmachen, die jeweils auf eine zentrale Funktion Closure() zurückgreifen, die abhängig<br />

vom Status <strong>der</strong> Kante (aktiv bzw. passiv) die weiteren Schritte (Expansion o<strong>der</strong> Kombination)<br />

bestimmt. Zur Handhabung strukturierter Kategorien werden die üblichen Erweiterungen<br />

vorgenommen. Die Darstellungsform <strong>der</strong> Algorithmen lehnt sich an die in Naumann/Langer<br />

(1994:252ff.) an. Um den Beson<strong>der</strong>heiten <strong>des</strong> Wortstrukturparsings gerecht zu<br />

werden, wurde vor allem die Shift()-Funktion modifiziert.<br />

Eine Kante ist gegeben durch ein 4-Tupel<br />

< i, j, A → α • β, Condition ><br />

wobei i und j die Anfangs- bzw. Endpositionen <strong>des</strong> bereits analysierten Teils <strong>der</strong> Konstituente<br />

und A→ α β eine Regel <strong>der</strong> Unifikationsgrammatik ist, von <strong>der</strong> α bereits erkannt wurde.<br />

Da im verwendeten Grammatikformalismus (vgl. Kapitel 2) Regeln mit Bedingungen<br />

attribuiert werden können, die einerseits die Anwendbarkeit einer Regel prüfen und<br />

an<strong>der</strong>erseits Variablenbindungen vornehmen, wird in <strong>der</strong> letzten Komponente <strong>des</strong> Tupels<br />

ein Verweis auf die mit <strong>der</strong> Regel A→ α β verknüpfte Bedingung gespeichert. Diese Bedingungen,<br />

die en detail erst im nächsten Kapitel besprochen werden, dienen dazu, allgemeine<br />

Aufbauprinzipien deutscher Wortstrukturen nichtredundant in die <strong>Analyse</strong> mit einzubeziehen.<br />

100


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Algorithmus 4.2: Inkrementelles, Left-Corner-Chart-Parsing<br />

Eingabe: Ein Wortsegment s=<br />

Daten: Ein Chart Chart, vor Beginn <strong>der</strong> <strong>Analyse</strong> ist Chart = ∅<br />

Eine Unifikationsgrammatik G<br />

Ein als zweistellige Relation Lex = Σ* × Desc gegebenes Lexikon<br />

Ausgabe: Ein aktualisierter Chart<br />

Verfahren procedure Shift()<br />

begin<br />

Chart := Chart ∪ UnknownSegments(i)<br />

for each ∈ Lex (B is a lexical category) do<br />

Closure()<br />

end;<br />

procedure Closure(k: )<br />

begin<br />

if passive_edge(k) then begin<br />

k = <br />

/* apply Condition to the completed production */<br />

k’ := Evaluate()<br />

if k’ = ? then<br />

return<br />

end<br />

else k’ := k<br />

Result := ∅<br />

if ¬∃e ∈ Chart such that e subsumes k’ then begin<br />

/* make a copy of the edge */<br />

k’’ := copy_edge(k’)<br />

/* add the copy to the Chart */<br />

Chart := Chart ∪ { k’’ }<br />

if passive_edge(k’’) then begin<br />

Expand(k’’)<br />

Complete(k’’)<br />

end<br />

end<br />

end;<br />

procedure Expand()<br />

begin<br />

for each ∈ R do begin<br />

A* := A t A’<br />

if A* ≠ ? then<br />

Closure()<br />

end<br />

end;<br />

procedure Complete(): <br />

begin<br />

for each ∈ Chart do begin<br />

A* := A t A’<br />

if A* ≠ ? then<br />

Closure()<br />

end<br />

end;<br />

101


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Interessanterweise muß das Standardverfahren <strong>des</strong> Chart-Parsings nicht geän<strong>der</strong>t werden,<br />

um mit ambigen Zerlegungen umgehen zu können. Die Funktion Complete() bedient sich<br />

nur <strong>des</strong> Kriteriums, daß sich ein Segment, welches zur Erweiterung einer aktiven Kante untersucht<br />

wird, unmittelbar anschließt an die von <strong>der</strong> Mutterkategorie dieser Kante dominierte<br />

Folge von Terminalsymbolen. Ob daneben noch an<strong>der</strong>e, überlappende Segmente existieren,<br />

spielt hierbei keine Rolle.<br />

Die Funktion Shift() erhält ein durch den Segmentierer identifiziertes Wortsegment7 , das in den aktuellen Chart integriert werden soll. Bevor dies jedoch geschieht,<br />

wird eine Funktion UnknownSegments() aufgerufen, die versucht, ausgehend von <strong>der</strong> Position<br />

<strong>des</strong> gefundenen Segments eventuell nötige Segmente vom Typ „unbekannt“ einzusetzen,<br />

die es erlauben, auch dann eine <strong>Analyse</strong> für das komplexe Wort zu finden, wenn nicht<br />

alle Teile im Listemlexikon verzeichnet sind. Diese Funktion wird weiter unten näher erläutert.<br />

Closure() testet eine übergebene Kante zunächst daraufhin, ob sie passiv<br />

ist. Ist das <strong>der</strong> Fall, so wird eine evtl. für sie definierte Bedingung ausgewertet, die, falls<br />

sie scheitert, zur Ausson<strong>der</strong>ung <strong>der</strong> Kante führt, an<strong>der</strong>nfalls jedoch Einfluß auf Variablenbindungen<br />

und -koreferenzen innerhalb <strong>der</strong> Merkmalsstrukturen in <strong>der</strong> Kante haben kann.<br />

Eine Einschränkung gegenüber den im Grammatikformalismus möglichen Bedingungen<br />

liegt darin, daß sie mit einer Kante selbst und nicht mit einzelnen Positionen innerhalb einer<br />

Kante verknüpft sind. Somit werden solche Bedingungen erst dann ausgewertet, wenn eine<br />

passive Kante dem Chart hinzugefügt wird, m.a.W. die zugrundeliegende Regel vollständig<br />

abgearbeitet wurde. Eine an<strong>der</strong>e Vorgehensweise wäre durchaus möglich, wenn auch aufwendiger<br />

und für die zu verarbeitende Grammatik, die im wesentlichen binäre Regeln enthält,<br />

nicht beson<strong>der</strong>s sinnvoll.<br />

Gelingt anschließend <strong>der</strong> Subsumptionstest, <strong>der</strong> bei Unifikationsgrammatiken das Kriterium<br />

<strong>der</strong> kategorialen Identität ersetzt, so fügt <strong>der</strong> Parser eine Kopie dieser Kante dem Chart<br />

hinzu und prüft dann (erneut), ob die Kante passiv ist. Kann dies positiv entschieden werden,<br />

so wird durch Expand() versucht, Regeln zu finden, die das Symbol auf <strong>der</strong> linken Regelseite<br />

als linke Ecke aufweisen. Expand() ist damit verantwortlich für den Aufbau „höherer“<br />

Strukturen.<br />

Complete() schließlich versucht, zu einer passiven Kante solche aktive zu finden, die die passive<br />

Kante integrieren können. Complete() kann zu nicht-lexikalischen passiven Kanten führen,<br />

die dann via Expand() den Strukturaufbau in Richtung <strong>des</strong> Startsymbols vorantreiben.<br />

Um Strukturen effizient im Chart zu repräsentieren und sie später aus dem Chart zu rekonstruieren,<br />

bedient man sich <strong>der</strong> üblichen Techniken <strong>des</strong> structure sharings und local ambiguity<br />

packings (vgl. hierzu beispielsweise Naumann/Langer (1994: 140f, 202f)). Parsergebnisse<br />

werden<br />

als 6-Tupel repräsentiert.<br />

Beispiel 4.4:<br />

Ein Chart-Eintrag<br />

<br />

repräsentiert eine passive Kante mit Mutterkategorie complex_stem 8 und zwei Töchtern <strong>der</strong><br />

Kategorie simple_stem. Diese Töchter, zusammen mit den Positionsinformationen, verweisen<br />

auf an<strong>der</strong>e Kanten im Chart und werden verwendet, um aus dem Chart Strukturbäume<br />

zu generieren.<br />

7 Der Anfangsindex <strong>des</strong> Segments wird um eins vermin<strong>der</strong>t, da beim Chart-Parsing die<br />

Symbolzwischenräume und nicht die Symbole selbst gezählt werden.<br />

8 Die Hierarchie <strong>der</strong> <strong>morphologischen</strong> Typen ist Gegenstand <strong>des</strong> nächsten Kapitels.<br />

102


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Beispiel 4.5 verdeutlicht das Zusammenspiel von Segmentierer und Parser anhand eines<br />

Wortes mit mehr als einer Zerlegung.<br />

Beispiel 4.5: Strukturanalyse von „Staubecken“.<br />

Zur Vereinfachung <strong>des</strong> Beispiels wird angenommen, daß die Zerlegung 4a) aus Beispiel 4.2,<br />

die ein unbekanntes Segment „b“ enthält, nicht in die Strukturanalyse gelangt (vgl. auch<br />

Abschnitt 4.3.2). Der <strong>Analyse</strong> zugrundegelegt wird eine stark idealisierte Grammatik mit den<br />

beiden Regeln<br />

N → N N und N → N Naf<br />

wobei ein Nichtterminal X die Merkmalsstruktur [SYN:HEAD:CAT:X] abkürzt.<br />

Gefundene Segmente Hinzugefügte Kanten Operationen<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

103<br />

Shift<br />

Expand<br />

Complete<br />

Shift<br />

Expand<br />

Complete<br />

Shift<br />

Expand<br />

Complete<br />

Expand<br />

Shift<br />

Expand<br />

Complete<br />

Expand<br />

Shift<br />

Complete


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Die Hauptfunktion <strong>des</strong> Parsers ist durch folgende Funktion Parse() gegeben:<br />

Eingabe Das zu analysierende Wort Word<br />

Ausgabe Eine Menge von <strong>Analyse</strong>n<br />

Datenstrukturen<br />

Eine Wortgrammatik WordGrammar<br />

Eine Chart-Datenstruktur Chart<br />

Ein Segmentierer Segmentizer<br />

Verfahren function parse(Word:): <br />

begin<br />

Chart.Init_Chart<br />

% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />

Symbollist := atom_to_atomlist(Word)<br />

% shift the found segments into the chart<br />

Segmentizer.Insert_segments_into_chart(Symbollist,Word)<br />

% check whether it's necessary to insert "unknown"-segments<br />

% after the last lexical segment<br />

Chart.Complete_Chart(Word),<br />

% find all edges spanning the whole word<br />

return(Chart.Generate_Structures(WordGrammar.Startcat,|Word|)).<br />

end<br />

Die Funktion Insert_segments_into_chart() ist im wesentlichen durch Algorithmus 4.1 gegeben;<br />

lediglich die durch {*1} markierte Zeile wird durch einen Shift()-Aufruf für das Segment<br />

(s.o.) ersetzt. Die Funktion Complete_Chart() fügt weitere "unknown"-Segmente in den Chart<br />

ein, für den Fall, daß das zuletzt gefundene Segment kein Suffix <strong>des</strong> zu analysierenden<br />

Wortes ist. Generate_Structures() schließlich erzeugt alle möglichen <strong>Analyse</strong>n aus dem Chart.<br />

Eine Prolog-Implementierung dieses Verfahrens befindet sich in Anhang C.<br />

4.3.2 Behandlung unbekannter Segmente<br />

Die Grundidee, Strukturanalyse eines Wortes auch dann fortzuführen, wenn Teile von ihm<br />

nicht im Lexikon aufgeführt sind, besteht darin, diese Wortteile als „unbekannt“ zu markieren,<br />

sie mit einer unterspezifizierten grammatischen Kategorie zu versehen und sie dann<br />

während <strong>des</strong> Wortstrukturparsings wie „normale“ lexikalische Segmente zu behandeln.<br />

Aufgrund <strong>der</strong> Nichtdirektionalität <strong>des</strong> gewählten Grammatikformalismus können diese<br />

speziellen Kanten dann mit Hilfe ihres Kontextes im Wort, <strong>der</strong> angewandten grammatischen<br />

Regeln und Prinzipien weiter instantiiert werden, so daß sie, wenn diese Instantiierung ein<br />

bestimmtes Maß erreicht hat, in einen speziellen Teil <strong>des</strong> Lexikons, <strong>der</strong> Morphemhypothesen<br />

enthält, aufgenommen werden können.<br />

Wie im nächsten, <strong>der</strong> Wortgrammatik gewidmeten Kapitel noch näher ausgeführt wird, sind<br />

im Lexikon alle Elemente <strong>der</strong> offenen Klassen, also <strong>der</strong> Klassen, die in <strong>der</strong> Hauptsache an<br />

<strong>der</strong> Wortbildung beteiligt sind, mit <strong>der</strong> <strong>morphologischen</strong> Kategorie simple_stem markiert, so<br />

daß auch unbekannte Wortteile dieser Kategorie zugeordnet werden. Der Grund für die<br />

Wahl gerade dieser Kategorie liegt natürlich darin, daß sich alle an<strong>der</strong>en Wortbildungskategorien<br />

wie Präfixe, Suffixe und Flexive ohne großen Aufwand vollständig im Lexikon erfassen<br />

lassen.<br />

104


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Zunächst soll aber definiert werden, was unter einer Segmentierung verstanden werden soll:<br />

Definition 4.1: (Vollständige) Segmentierung<br />

Eine Segmentierung Ω einer Zeichenkette w ist eine Zerlegung s1s2...sk = w (k ≥ 1). Eine Segmentierung<br />

bzgl. eines Lexikons Lex = Σ* × Desc heißt vollständig, wenn für alle si gilt:<br />

∃E ∈ Lex (abgekürzt im folgenden mit si ∈ Lex). Ein Segment si heißt unbekannt bzgl.<br />

einer Segmentierung Ω = s1s2...sk, wenn<br />

a) si ∉ Lex<br />

b) i = 1 o<strong>der</strong> si-1 ∈ Lex<br />

c) i = k o<strong>der</strong> si+1 ∈ Lex<br />

d) si keinen Teilstring z ∈ Lex enthält.<br />

Für „unbekannt“-Segmente soll im folgenden die Kurzformen U-Segment bzw. U-Kante<br />

verwendet werden; für im Lexikon enthaltene Wortteile entsprechend L-Segment (L-Kante).<br />

Bedingungen b) und c) stellen sicher, daß U-Segmente entwe<strong>der</strong> an den Wortenden auftreten<br />

o<strong>der</strong> an im Lexikon verzeichnete Segmente angrenzen. Bedingung d) soll gewährleisten, daß<br />

nicht "unnötig" lange Segmente als "unbekannt" postuliert werden, beispielsweise ein<br />

Kompositum AB, wenn A und B im Lexikon aufgeführt sind, AB jedoch nicht.<br />

Segmente für unbekannte Wortteile werden in den Chart eingetragen, nachdem ein weiteres<br />

Wortsegment gefunden wurde, das sich nicht an alle bereits bestehenden Segmentierungen<br />

im Chart anschließen läßt:<br />

Endpunkte bereits Neu gefundenes<br />

bestehen<strong>der</strong> Segmentierungen Wortsegment<br />

Abb. 4.2: Einfügen neuer Wortsegmente<br />

U-Segmente dienen also dazu, die „Lücken“ zwischen im Lexikon aufgeführten Wortteilen<br />

zu schließen und werden nach folgendem Verfahren eingefügt:<br />

105


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Algorithmus 4.3: Einfügen von im Lexikon nicht verzeichneter Wortsegmente 9<br />

Eingabe: Die Anfangsposition p <strong>des</strong> zuletzt gefundenen Wortsegment <br />

Ausgabe: Eine Menge von „unknown“- Kanten<br />

Daten: Das zu analysierende Wort w = a1a2...ak<br />

Verfahren<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

9<br />

10<br />

11<br />

12<br />

13<br />

14<br />

15<br />

function UnknownSegments(): <br />

begin<br />

Q = { p }; Result = ∅; done = false<br />

Ordne alle Kanten k mit end(k) < p in bzgl. end(k) absteigen<strong>der</strong> Reihenfolge.<br />

while ¬done<br />

k sei eine Kante mit end(k) < p;<br />

wenn es einen Pfad von end(k) zu einem s ∈ Q gibt<br />

dann done := true<br />

sonst<br />

U_Segment := < end(k), unknown(ak+1...ap), p ><br />

wenn U_Segment alle heuristischen Tests erfolgreich passiert<br />

dann<br />

Result := Result ∪ { U_Segment }<br />

Q := Q ∪ { end(k) }<br />

return(Result)<br />

end<br />

Der Algorithmus prüft also ausgehend von <strong>der</strong> Anfangsposition <strong>des</strong> gerade eingefügten<br />

Wortsegments alle Segmente, die davor enden. Dies passiert solange, wie es keinen Pfad<br />

vom Ende <strong>des</strong> gerade betrachteten Segments zu einem <strong>der</strong> bereits verarbeiteten gibt, <strong>der</strong>en<br />

Endpositionen in <strong>der</strong> Menge Q gespeichert werden.<br />

Die Behauptung ist nun, daß jede Segmentierung, die durch Algorithmus 4.3 um U-Segmente<br />

ergänzt wurde, die Bedingungen von Definition 4.1 erfüllt. Darüber hinaus muß gezeigt<br />

werden, daß das Gesamtverfahren alle Segmentierungen herstellt, die Definition 4.1<br />

Genüge leisten.<br />

Zu zeigen ist daher folgen<strong>des</strong>:<br />

a) Algorithmus 4.3 erzeugt keine aufeinan<strong>der</strong>folgenden U-Segmente U1 und U2 mit<br />

start(U2) = end(U1).<br />

b) es wird kein U-Segment eingefügt, so daß ap+1...aq ein L-Segment<br />

enthält.<br />

c) Algorithmus 4.3 ist vollständig, erzeugt also alle möglichen Segmentierungen nach Def.<br />

4.1.<br />

Zu a): Angenommen, Algorithmus 4.3 versucht, eine U-Kante zwischen k‘ und n einzufügen.<br />

Position k‘ ist demnach unverbunden mit n und allen Endpunkten von Kanten zwischen k‘<br />

und n. Das Segment von n zu n‘ sei das gerade einzufügende L-Segment (d.h. p=n) und die<br />

Kante von k zu k‘ sei ebenfalls eine U-Kante.<br />

(1)<br />

k k‘ n n‘<br />

9 start(k) und end(k) sind Funktionen, die zu einer gegebenen Kante k jeweils <strong>der</strong>en Start- bzw. End-<br />

punkt zurückgeben.<br />

106


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Die Kante von k nach k‘ kann keine U-Kante sein. Wäre sie es, dann hätte <strong>der</strong> Algorithmus<br />

zuvor eine L-Kante von k‘ zu einer Position l mit k‘< l ≤ n eingefügt, da U-Kanten immer vor<br />

den gerade gefundenen L-Segmenten eingefügt werden. Dies wi<strong>der</strong>spricht aber <strong>der</strong> Annahme,<br />

daß es keinen Pfad von k‘ zu einer Position l zwischen k‘ und n gibt, so daß Algorithmus<br />

4.3 die Zeilen 9-13 nicht erreicht hätte. Demnach ist die Kante von k nach k‘ eine L-<br />

Kante.<br />

Zu b): es wird kein U-Segment eingefügt, so daß ap+1...aq ein L-Segment<br />

enthält. Angenommen, eine gerade eingefügte U-Kante U von k bis k‘ enthielte ein L-<br />

Segment L von n zu n‘. In Abhängigkeit von <strong>der</strong> Position von L bzgl. U ergeben sich vier<br />

Fälle: a) n = k, n‘= k‘ b) n = k, n‘ < k‘ c) n > k, n‘ = k‘ und d) n > k, n‘ < k‘. Alle Möglichkeiten<br />

lassen sich mit dem gleichen Argument wie eben ausschließen, so daß L keine Teilkette von<br />

U sein kann.<br />

Zu c), Vollständigkeit: es reicht aus, folgenden Grenzfall zu betrachten; die an<strong>der</strong>en folgen<br />

aus <strong>der</strong> Transitivität <strong>der</strong> „verbunden“-Relation. Angenommen <strong>der</strong> Chart enthielte zwei L-<br />

Kanten L1 = (k , k‘) und L2 = (k‘‘, k‘‘‘) (k‘ < k‘‘) . L2 sei das zuletzt gefundene Wortsegment, es<br />

gibt keine U-Kante von k‘ nach k‘‘ und kein weiteres L-Segment zwischen L1 und L2:<br />

(2)<br />

k k‘ n k‘‘ k‘‘‘<br />

Wenn Algorithmus 4.3 keine U-Kante zwischen k‘ und k‘‘ eingefügt hat, dann muß sich dazwischen<br />

ein Knoten n mit einer Kante (n, k‘‘) befinden, da das Verfahren beim ersten mit k‘‘<br />

über einen Pfad verbundenen Knoten (also n) anhält. Diese Kante (n, k‘‘) kann keine L-Kante<br />

sein, da zwischen L1 und L2 laut Annahme keine weitere L-Kante „interveniert“. Angenommen<br />

also, sie wäre also eine U-Kante. Dann muß es aber noch eine weitere L-Kante k‘ – n<br />

geben, für die die U-Kante (n, k‘‘) eingefügt wurde, als p im Algorithmus 4.3 gleich k‘‘ war –<br />

ein weiterer Wi<strong>der</strong>spruch zu <strong>der</strong> Annahme, daß sich zwischen L1 und L2 keine L-Kanten befinden.<br />

Hierdurch ist gezeigt worden, daß es in Algorithmus 4.3 ausreicht, das Einfügen von U-<br />

Kanten beim ersten „verbundenen“ Knoten zu beenden.<br />

4.3.2.1 Verfeinerungen<br />

Algorithmus 4.3 stellt zwar u.U. durch U-Segmente „aufgefüllte“ Segmentierungen her, behandelt<br />

aber alle L-Segmente formal gleich, d.h. beachtet nicht, ob es sich bei L-Segmenten,<br />

für die eine U-Kante eingeführt wird, um Stämme o<strong>der</strong> Affixe handelt. Hierdurch kann es in<br />

manchen Fällen zum Einfügen nicht angemessener U-Kanten kommen.<br />

Beispiel 4.5:<br />

Das Wort Baustein soll analysiert werden, wobei Bau und das Fugenelement s im Lexikon<br />

verzeichnet sind, Stein jedoch nicht. Vor <strong>der</strong> Komplettierung <strong>des</strong> Charts durch<br />

Complete_Chart() in <strong>der</strong> Funktion Parse() enthält <strong>der</strong> Chart die partielle Segmentierung<br />

<br />

Eine U-Kante wird eingefügt, was hier jedoch nicht gewünscht ist.<br />

107


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Der Grund hierfür ist natürlich, daß das Fugenelement s zufällig ein Präfix <strong>des</strong> eigentlich als<br />

unbekannt anzusetzenden Wortteils stein ist. Darüber hinaus kann <strong>der</strong> Fall eintreten, daß<br />

Kandidaten für U-Kanten, die nicht den weiter unten dargelegten heuristischen Tests Genüge<br />

tun, erst gar nicht in den Chart eingefügt werden, mit dem Ergebnis, daß die gesamte<br />

<strong>Analyse</strong> durch den Chartparser scheitert.<br />

Es ist demnach wünschenswert, zwischen Affixen und Stämmen eine Gewichtung vorzunehmen.<br />

Hierzu ist eine Än<strong>der</strong>ung an Definition 4.1 d) vorzunehmen:<br />

(3)<br />

si keinen Teilstring z ∈ Lex enthält, so daß die z zugeordnete Beschreibung Desc von<br />

simple_stem subsumiert wird.<br />

Algorithmus 4.3 ist dann entsprechend so anzupassen, daß er auf <strong>der</strong> Suche nach Anschlußpunkten<br />

alle Kategorien bis auf solche vom Typ simple_stem „überspringt“.<br />

Weiterhin kann man Heuristiken einsetzen, um die Anzahl <strong>der</strong> eingefügten U-Kanten zu<br />

minimieren; schließlich bedeutet jede solche Kante für den Parser einen erhöhten <strong>Analyse</strong>aufwand.<br />

Alle in Zeile 9 <strong>des</strong> Algorithmus postulierten Segmente werden daher einer zweistufigen<br />

heuristischen Filterung unterworfen, die unplausible Kandidaten zurückweist:<br />

1. Enthält das Lexikon Elemente <strong>der</strong> geschlossenen Klassen (also Flexive, Affixe etc.) vollständig,<br />

so kann ein unbekannter Wortteil einer <strong>der</strong> drei Hauptklassen zugeordnet werden,<br />

die an <strong>der</strong> Wortbildung partizipieren – Nomen, Verben und Adjektive. Führt man<br />

zudem eine Min<strong>des</strong>tlänge für unbekannte Teile ein - unter <strong>der</strong> Voraussetzung, daß Listeme<br />

mit kleinerer Länge sämtlich im Lexikon verzeichnet sind, kann man das Postulieren<br />

„zu kurzer“ Segmente vom Typ unbekannt verhin<strong>der</strong>n.<br />

2. Die Graphemstruktur unbekannter Wortteile muß natürlich den Regularitäten <strong>des</strong> Silben-<br />

und Wortaufbaus im <strong>Deutschen</strong> unterliegen, die am besten wie<strong>der</strong>um in Form eines o<strong>der</strong><br />

mehrerer endlicher Automaten (o<strong>der</strong> Two-Level-Transducer) repräsentiert werden, womit<br />

dann vorgeschlagene Segmente mit unzulässigen Konsonantenabfolgen usw. unterdrückt<br />

werden können. Dieses Vorgehen kann natürlich nicht exakt sein, da <strong>der</strong> unbekannte<br />

Wortteil selbst wie<strong>der</strong>um komplex sein kann, ohne daß seine Teile im Lexikon<br />

stehen. An den Morphgrenzen zwischen diesen Teilen sind jedoch Laut- und indirekt<br />

damit Graphemkombinationen erlaubt, die innerhalb eines Simplexwortes nicht möglich<br />

wären. Dem könnte damit begegnet werden, daß man einen Automaten einsetzt, <strong>der</strong> den<br />

Silbenaufbau deutscher Wörter korrekt abbildet und <strong>der</strong> ε-Übergänge o<strong>der</strong> Übergänge,<br />

die mit Fugensymbolen etikettiert sind von seinen Endzuständen in den Startzustand besitzt.<br />

Ein solche Automat akzeptiert somit Folgen von Simplexwörtern, <strong>der</strong>en Teile untereinan<strong>der</strong><br />

möglicherweise durch Fugensymbole getrennt sind. Die einfachste Möglichkeit<br />

besteht jedoch darin, eine vollständige Liste <strong>der</strong> Silben im <strong>Deutschen</strong> heranzuziehen und<br />

damit zu überprüfen, ob das vorgeschlagene Segment aus einer Folge dieser Silben besteht.<br />

Hierbei wird jedoch außer Acht gelassen, daß nicht alle Silben an allen Positionen<br />

im Wort auftreten können. Eine weitere Variante, die bei <strong>der</strong> Implementierung <strong>des</strong> hier<br />

vorgestellten Systems ebenfalls weiter verfolgt wurde, ist die, aus einem in maschinenlesbarer<br />

Form vorliegenden Lexikon – beispielsweise <strong>der</strong> CELEX-Datenbank (Baayen et<br />

al. (1993)) alle monomorphematischen Stämme und Wurzeln zu extrahieren und in Form<br />

eines Tries zum Überprüfen von als unbekannt postulierten Wortsegmenten zu verwenden.<br />

Dies engt die Hypothesen auf tatsächlich vorkommende Stämme ein, ohne daß für<br />

jeden dieser Stämme ein voll ausdifferenzierter Lexikoneintrag vorliegen müßte. Wählt<br />

man diesen Weg, so gibt es allerdings noch eine effizientere Alternative. Man könnte alle<br />

Simplexwörter, für die kein Lexikoneintrag existiert, ebenso gleich in den segmentieren-<br />

108


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

den Automaten einfügen, so daß <strong>der</strong> Schritt <strong>des</strong> Postulierens von „unbekannt“-Segmenten<br />

(beinahe) gänzlich unnötig wird.<br />

Diese Heuristiken garantieren in den meisten Fällen ein erfolgreiches Abschließen <strong>der</strong> <strong>Analyse</strong>,<br />

da in jedem Fall zwischen dem „letzten“ Segment im Chart mit <strong>der</strong> Kategorie<br />

simple_stem und dem gerade gefundenen Segment ein „unbekannt“-Segment eingesetzt<br />

wird. Scheitern kann diese Strategie nur dann, wenn sich das „unbekannt“-Segment strukturell<br />

nicht integrieren läßt, was angesichts <strong>des</strong> Aufbaus <strong>der</strong> Wortgrammatik eher unwahrscheinlich<br />

ist.<br />

Trotz aller Filterung legt das Verfahren doch noch ein gewissen Maß an Übergenerierung an<br />

den Tag, die vor allem durch unplausible „unbekannt“-Segmente bedingt ist. Eine mögliche<br />

heuristische Bewertungsfunktion von unterschiedlichen Segmentierungen könnte daher<br />

folgen<strong>der</strong>maßen aussehen:<br />

1. Ziehe Segmentierungen mit weniger Segmenten solchen mit mehr Segmenten vor.<br />

2. Weisen zwei Segmentierungen die gleiche Anzahl von Segmenten auf, dann präferiere<br />

diejenige mit <strong>der</strong> kleineren Zahl unbekannter Segmente.<br />

Eine geringere Anzahl von Segmenten bedeutet eine Maximierung <strong>der</strong> Länge <strong>der</strong> einzelnen<br />

Segmente und hat eine effizientere Strukturanalyse zur Folge. Zudem hat dies Vorteile bei<br />

zusammengesetzten Lexikalisierungen (Beispiel: Geizhals), wenn alle ihre Teile im Lexikon<br />

aufgeführt sind, da dann die lexikalisierte Lesart präferiert wird.<br />

Die zweite Heuristik, die Präferenz von Zerlegungen mit weniger unbekannten Teilen, führt<br />

weiterhin zur Reduzierung von Ambiguitäten, da <strong>der</strong> „unbekannt“-Segmenten zugeordnete<br />

Lexikoneintrag (vgl. Kapitel 5) naturgemäß hochgradig unterspezifiziert ist.<br />

Zur Erhaltung eines inkrementellen Verfahrens ist es jedoch notwendig, diese eher globalen<br />

Kriterien einer lokalen Verwendung zugänglich zu machen. Der geeignete Platz hierfür ist<br />

<strong>der</strong> Complete()-Schritt von Algorithmus 4.2, in dem eine passive Kante dazu verwendet wird,<br />

aktive Kanten weiter zu vervollständigen. Hierzu muß die Reihenfolge, mit <strong>der</strong> aktive<br />

Kanten betrachtet werden, so geän<strong>der</strong>t werden, daß solche mit weniger unbekannten Segmenten<br />

zunächst den Vorzug erhalten, um auf diese Weise ein Best-First-Suchverfahren zu<br />

realisieren. Da Algorithmus 4.2 ansonsten eine Tiefensuche durchführt, ist garantiert, daß<br />

solche Kanten Teil von denjenigen zuerst erzeugten Strukturen werden, die den Chart so<br />

weit wie möglich abdecken.<br />

Interessant sind solche Heuristiken jedoch nur, wenn man nicht an einer vollständigen Ausgabe<br />

aller <strong>Analyse</strong>n <strong>des</strong> Wortes interessiert ist.<br />

4.4 Behandlung <strong>der</strong> Allomorphie<br />

Das bisher entwickelte Verfahren segmentiert Wörtern effizient, bezieht dabei jedoch nur die<br />

orthographische Ebene mit ein und verweist die Behandlung <strong>der</strong> regelmäßigen Allomorphie<br />

10 letztendlich an das Lexikon. Dies ist natürlich aus zwei Gründen unbefriedigend:<br />

Zum einen geht durch bloße Auflistung <strong>der</strong> Allomorphe <strong>der</strong> Regelcharakter solcher Modifikationen<br />

verloren, zum an<strong>der</strong>en verzichtet man auf eine Informationsquelle, die bei unbekannten<br />

Wortteilen zur Einengung <strong>der</strong> Hypothesenmenge führen könnte.<br />

10 Hierzu gehören phonetische Än<strong>der</strong>ungen wie beispielsweise Umlautung, e-Epenthese wie auch<br />

rein orthographische Modifikationen wie ß → ss bei <strong>der</strong> Pluralbildung (z.B. Prozeß - Prozesse)<br />

109


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Ein geeigneter Kandidat zur Lösung dieses Mißstands ist die Two-Level-Morphology (s. a. Kapitel<br />

1) in einer ihrer elaborierten Varianten, beispielsweise <strong>der</strong> von Trost (1990) - m.E. <strong>der</strong><br />

beste Vorschlag zur engen Kopplung von morphotaktischen und phonetischen <strong>Analyse</strong>komponenten.<br />

Wie bereits beschrieben, arbeitet dieser Ansatz mit Regeln, die zwischen<br />

konkreter Wortrealisierung und den zugrundeliegenden Morphemen vermitteln und in 2-<br />

Band-Transducer umgesetzt werden. Die Neuerung von Koskenniemi (1984) gegenüber früheren<br />

Ansätzen war die, die einzelnen Transducer aufgrund ihrer relativen Unabhängigkeit<br />

parallel zu schalten, so daß sich schematisch folgen<strong>des</strong> Bild ergibt:<br />

Oberflächenband<br />

a<br />

T T .... T<br />

1 2 n<br />

....<br />

b<br />

Lexikonband<br />

Abb. 4.3: Parallel geschaltete Transducer<br />

Eine Oberflächenform, d.h. eine Zeichenkette auf dem Oberflächenband, wird dann akzeptiert,<br />

wenn alle Automaten sich nach dem Lesen <strong>der</strong> Symbolkette in einem Endzustand befinden<br />

und dabei gleich etikettierten Übergängen gefolgt sind. Parallel geschaltete Transducer<br />

akzeptieren damit die Schnittmenge <strong>der</strong> durch die einzelnen Automaten definierten<br />

Sprachen. 11 Aufgrund dieses Akzeptanzkriteriums muß dafür gesorgt werden, daß Symbole,<br />

auf die sich ein bestimmter Transducer nicht bezieht, von diesem dennoch konsumiert werden.<br />

Im <strong>der</strong> ursprünglichen Fassung <strong>der</strong> Two-Level-Morphology (vgl. Koskenniemi (1984)) ging<br />

mit <strong>der</strong> Segmentierung <strong>der</strong> Oberflächenform auch gleich die Anwendung eines endlichen<br />

Zustandsmechanismus auf die Morpheme <strong>des</strong> Lexikonbands einher. Dies wurde realisiert<br />

durch eine Unterteilung <strong>des</strong> Lexikons in Äquivalenzklassen und durch Aktivierung bzw.<br />

Deaktivierung einzelner Lexikonabschnitte aufgrund <strong>der</strong> bereits gefundenen Segmente.<br />

Diese auch als Folgelexikamechanismus bezeichnete Technik ist äquivalent zu einem endlichen<br />

Automaten bzw. einer Typ-3-Grammatik, macht diese jedoch nicht explizit.<br />

Die folgende Abbildung zeigt einen Transducer, <strong>der</strong> die e-Einfügung bei Verbstämmen, die<br />

auf bestimmte Konsonanten enden, realisiert:<br />

11 Ein Theorem <strong>der</strong> Theorie regulärer Relationen besagt, daß reguläre Relationen, bei denen beide<br />

Komponenten die gleiche Länge aufweisen, abgeschlossen sind unter Schnittmengenbildung. Das<br />

heißt, daß es prinzipiell möglich ist, alle Transducer zu einem einzigen zusammenzufassen (vgl.<br />

Reape/Thompson (1988), Kaplan/Kay (1994)).<br />

110


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Abb. 4.4: (Vereinfachter) Transducer T1 zur Behandlung <strong>der</strong> e-Erweiterung bei Verbstämmen auf<br />

Dental bzw. Frikativ/Nasal vor Flexiven (die Endzustände sind grau dargestellt)<br />

Die Anwendbarkeit von Two-Level-Regeln hängt nun jedoch nicht nur von phonetischen<br />

bzw. graphematischen Gesichtspunkten ab, son<strong>der</strong>n auch von morphosyntaktischen.<br />

Beispiel 4.6:<br />

Die Kette WEINTEST darf nur in <strong>der</strong> Verblesart in wein+t+st zerlegt werden; bei <strong>der</strong> Nomenlesart<br />

muß die Segmentierung wein+test lauten. Groß- und Kleinschreibung wird, aus<br />

bereits erwähnten Gründen, nicht als Mittel zur Disambiguierung herangezogen.<br />

Der Notwendigkeit <strong>des</strong> Einbeziehung von grammatischer Information durch arbiträre diakritische<br />

Symbole o<strong>der</strong> gar Merkmale auf dem Lexikonband (vgl. Karttunen et al. (1992)) zu<br />

begegnen, erscheint sehr unelegant und schafft eine ganze Reihe von Schnittstellenproblemen,<br />

beispielsweise zu Lexikon und Parser. Sehr viel besser ist <strong>der</strong> Ansatz von Trost, bisher<br />

aufgebaute Strukturen im Merkmalsstrukturformat mit einer mit <strong>der</strong> Two-Level-Regel assoziierten<br />

Filterstruktur zu unifizieren und vom Gelingen dieser Operation die Anwendung<br />

<strong>der</strong> Regel abhängig zu machen. Im übrigen kann die Ungerichtetheit <strong>der</strong> hier verwendeten<br />

Unifikationsoperation im Fall von unbekannten Teilen dazu dienen, die hierfür aufgebaute<br />

partielle Merkmalsstruktur weiter zu instantiieren.<br />

Wie kann im vorliegenden Modell sinnvoll mit regelmäßiger Allomorphie umgegangen<br />

werden? Die Grundidee hierzu sieht folgen<strong>der</strong>maßen aus:<br />

1. Der Segmentierer enthält nach wie vor alle Allomorphe eines Morphems, diese werden<br />

jedoch nun durch Präprozessierung eingeführt.<br />

2. Der Parser prüft die Zulässigkeit von Morphkombinationen.<br />

Da <strong>der</strong> Segmentierer oberflächenorientiert arbeitet, muß er alle Allomorphe eines Morphems<br />

enthalten. Hierdurch fällt auch eine <strong>der</strong> Hauptaufgaben weg, die üblicherweise durch Two-<br />

Level-Automaten geleistet wird: die Reduktion einer Form auf dem Oberflächenband auf<br />

eine Reihe von Morphemen auf dem Lexikonband.<br />

Die morphosyntaktische Kombinierbarkeit <strong>der</strong> durch den Segmentierer gelieferten Morphe<br />

wird mit Hilfe <strong>der</strong> diesen zugeordneten Merkmalsstrukturen und den Regeln und Prinzipien<br />

111


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

<strong>der</strong> Wortgrammatik überprüft. Diese bezieht jedoch nur morphosyntaktische Merkmale,<br />

nicht jedoch die graphematische Form <strong>der</strong> beteiligten Morphe mit ein. Hierzu muß <strong>der</strong><br />

Parser um einen geeigneten Mechanismus erweitert werden.<br />

Beispiel 4.7:<br />

Unter <strong>der</strong> Annahme, daß <strong>der</strong> Segmentierer den Verbstamm lieb und die Flexive -t- (Präteritumsaffix),<br />

-st bzw. -est enthält, muß ausgeschlossen werden, daß das System Formen wie<br />

*liebtst akzeptiert.<br />

4.4.1 Kompilation <strong>der</strong> Allomorphe<br />

Wie oben schon beschrieben enthält <strong>der</strong> segmentierende Automat alle Allomorphe <strong>der</strong> im<br />

Lexikon repräsentierten Morpheme. Diese werden mit Hilfe von sog. Allomorphieregeln erzeugt,<br />

die eine Verwandtschaft mit den in Kapitel 1 beschriebenen lexikalischen Regeln<br />

aufweisen, bei denen die gegen letztere erhobenen Einwände jedoch nicht greifen. Beispielsweise<br />

besteht das Problem <strong>der</strong> Anwendungsreihenfolge von Allomorphieregeln nicht,<br />

da Allomorphieregeln nur auf Elemente aus dem Morphemlexikon angewendet werden, ihr<br />

Ergebnis jedoch im <strong>Analyse</strong>lexikon (Listemlexikon) gespeichert wird.<br />

Allomorphieregeln haben folgende formale Gestalt:<br />

FS_in ⇒ { FS_out1, FS_out2, ..., FS_outk }<br />

Eine <strong>der</strong>artige Regel kann auf ein Morphem M angewendet werden, wenn M mit FS_in unifizierbar<br />

ist. Das Ergebnis ist eine Menge von Einträgen, die in das <strong>Analyse</strong>lexikon aufgenommen<br />

werden. Um die Übernahme von Informationen aus FS_in in diese Lexikoneinträge<br />

zu ermöglichen, sind Koreferenzen von Pfaden in FS_in und FS_Outi erlaubt. Allomorphieregeln<br />

dienen zur Abdeckung folgen<strong>der</strong> Fälle von regelmäßiger Allomorphie:<br />

1. Stammumlautung bei Nomen, Verben und Adjektiven<br />

2. Stammelision bei Verben.<br />

Unregelmäßige Allomorphie (beispielsweise Ablaut bei starken Verben) wird einfach durch<br />

Auflisten <strong>der</strong> verschiedenen Stämme samt ihren Merkmalsbestimmungen abgedeckt.<br />

Abbildung 4.5 zeigt das Beispiel einer solchen (vereinfachten) Regel, die aus einem<br />

umlautenden Nomenstämmen zwei Stammmorphe herstellt, die mit Singular bzw. Plural<br />

markiert sind.<br />

GRAPH: 1<br />

SYN:<br />

2<br />

HEAD: CAT: N<br />

SEM: 3<br />

MORPH: 4 MFEAT: UMLAUT: +<br />

GRAPH: surface ( 1 )<br />

SYN:<br />

2<br />

SEM: 3<br />

MORPH: 4<br />

HEAD: NUM: sg<br />

,<br />

GRAPH: f_umlaut( 1 )<br />

SYN:<br />

2<br />

SEM: 3<br />

MORPH: 4<br />

HEAD: NUM: pl<br />

Abb. 4.5: Allomorphieregel zur Behandlung von Stammumlautung<br />

112


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Beispielsweise wird aus einer Merkmalsstruktur mit dem GRAPH-Wert H$aus ($ kennzeichnet<br />

den umlautenden Vokal, <strong>der</strong> durch die Funktion f_umlaut durch seinen Umlaut ersetzt<br />

wird) die Pluralstammform Häus-. Die Markierung dieser Form mit dem Pluralmerkmal<br />

stellt sicher, daß sie nur mit Pluralflexiven kombiniert werden kann. Die an<strong>der</strong>e Merkmalsstruktur<br />

beschreibt die Verwendung <strong>des</strong> Morphs (im Beispiel also Haus-) im Kontext von<br />

Flexiven mit dem Merkmal Singular. Surface ist eine Funktion, die die zur Kennzeichnung<br />

relevanter Grapheme verwendeten diakritischen Zeichen entfernt.<br />

4.4.2 Behandlung von morphographematischen Kombinationsbeschränkungen<br />

Die Markierung <strong>der</strong> durch die Allomorphieregeln erzeugten Morphe mit bestimmten<br />

Merkmalen stellt – zusammen mit den Regeln <strong>der</strong> Wortgrammatik – sicher, daß nur kompatible<br />

Morphe miteinan<strong>der</strong> kombiniert werden können. Beispielsweise erfor<strong>der</strong>t die rekursive<br />

Flexionsregel im nächsten Kapitel, daß die morphosyntaktischen Merkmale von Stamm und<br />

Flexiv miteinan<strong>der</strong> unifiziert werden. Auf diese Weise werden unzulässige Wortformen wie<br />

*Hauser aufgrund <strong>der</strong> inkompatiblen Werte <strong>des</strong> Numerus-Merkmals ausgeschlossen.<br />

Was die Unifikation von Merkmalsstrukturen allerdings nicht leistet, ist <strong>der</strong> Ausschluß von<br />

in morphographematischer Hinsicht unzulässigen Morphkombinationen wie die in Beispiel<br />

4.7 erwähnten. Dies macht daher einen weiteren Mechanismus erfor<strong>der</strong>lich, für <strong>des</strong>sen Realisierung<br />

zunächst einmal zwei grundsätzliche Möglichkeiten bestehen: Integration in die<br />

Wortgrammatik o<strong>der</strong> Integration in den Parser.<br />

Kombinationsbeschränkungen <strong>der</strong> genannten Art mit Hilfe <strong>der</strong> Wortgrammatik auszudrükken<br />

ist aus min<strong>des</strong>tens drei Gründen die theoretisch befriedigen<strong>der</strong>e Möglichkeit:<br />

1. Um sie auszudrücken macht man ebenfalls von Merkmalsstrukturen und Unifikation<br />

Gebrauch, also von den Beschreibungsmitteln, die ohnehin notwendig sind.<br />

2. Es werden keine weiteren Automaten wie Two-Level-Transducer u.ä. mehr benötigt<br />

3. Der einzige Ort, an dem morphographematische Regularitäten ausgedrückt werden, sind<br />

die Allomorphieregeln. Sie werden so erweitert, daß sie die erzeugten Morphe mit den<br />

gewünschten Beschränkungen versehen.<br />

Da die Graphematik relativ ausdrucksarm ist, wäre es notwendig, hierzu die phonetische<br />

Ebene mit einzubeziehen, was aber außerhalb <strong>des</strong> gesteckten Rahmens dieser Arbeit liegt.<br />

Daß es jedoch möglich ist, phonetische und phonologische Regelmäßigkeiten mit Unifikations-<br />

bzw. constraint-basierten Formalismen abzubilden, zeigen die Arbeiten aus dem Bereich<br />

<strong>der</strong> computational phonology (z.B. Bird (1995)).<br />

Die an<strong>der</strong>e Option, morphographematische Kombinationsbeschränkungen zu realisieren, ist,<br />

sie in Form von Automaten in den Parsvorgang zu integrieren. Dies könnte durch Hinzufügen<br />

von Zustandsinformationen dieser Automaten in die Kanten <strong>des</strong> Chart-Parsers bewerkstelligt<br />

werden, soll aber hier auch nicht weiter verfolgt werden.<br />

4.5 Weitere <strong>Aspekte</strong><br />

4.5.1 Aktualisierung <strong>des</strong> Automaten<br />

Ein Ziel <strong>des</strong> Gesamtansatzes ist, ein robustes <strong>Analyse</strong>verfahren zu entwickeln, welches mit<br />

<strong>der</strong> notorischen Unvollständigkeit <strong>des</strong> Lexikons umgeht und daher in <strong>der</strong> Lage ist, unbekannte<br />

Wortteile nicht nur zu ignorieren, son<strong>der</strong>n diese zu identifizieren und unter Ausnut-<br />

113


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

zung von Regularitäten <strong>der</strong> unterschiedlichsten Art soviel Informationen wie möglich über<br />

sie zu erschließen. Sobald die so erzeugten unvollständigen Lexikoneinträge eine gewisses<br />

Maß an Spezifizität erreichen, kann man erwägen, sie in das Listemlexikon aufzunehmen,<br />

was eine Aktualisierung <strong>des</strong> Automaten nach sich ziehen muß. Die Frage ist nun, wie aufwendig<br />

dieser Vorgang ist, d.h. inwieweit eventuell sogar <strong>der</strong> ganze Automat davon betroffen<br />

sein kann.<br />

Die Aktualisierung <strong>der</strong> Übergangsfunktion goto ist unproblematisch, da hierbei höchstens so<br />

viele neue Zustände und Übergänge erzeugt werden müssen, wie das neu einzufügende<br />

Listem lang ist. Ist kein Präfix <strong>des</strong> neuen Listems im Automaten verzeichnet (gibt es also für<br />

das erste Wortsymbol keinen Übergang vom Startzustand <strong>des</strong> Automaten in einen an<strong>der</strong>en,<br />

vom Startzustand verschiedenen Zustand), so muß zudem aus <strong>der</strong> Startzustandsschleife <strong>der</strong><br />

Übergang für das erste Wortsymbol entfernt werden.<br />

Die Neuanpassung <strong>der</strong> failure–Funktion ist u.U. aufwendiger. Über die Berechnung <strong>der</strong><br />

Funktionswerte für die neu erzeugten Zustände hinaus können auch an<strong>der</strong>e failure–Werte<br />

von einer Än<strong>der</strong>ung betroffen sein. Das folgende Theorem charakterisiert die Zustände, für<br />

die die failure–Funktion geän<strong>der</strong>t werden muß. Zuvor muß jedoch noch ein Hilfsbegriff eingeführt<br />

werden.<br />

Definition 4.2: Charakterisierung<br />

Ein Automatenzustand s charakterisiert eine Kette w, gdw. sich w aus <strong>der</strong> Verkettung <strong>der</strong><br />

Label entlang <strong>des</strong> Pfads vom Startzustand zum Zustand s ergibt. Man schreibt hierfür auch<br />

String(s) = w.<br />

Theorem 4.1<br />

Das neu einzufügende Listem sei w = δβ, wobei δ (möglicherweise ε) <strong>der</strong> Teil sei, bei dem<br />

bereits vorhandene Übergänge verfolgt werden und β≠ε <strong>der</strong>jenige sei, für den neue Automatenzustände<br />

und -übergänge eingeführt werden müssen. Dann muß die failure-Funktion<br />

(außer für die Zustände, die für β eingefügt wurden) für genau die Zustände s aktualisiert<br />

werden, für die gilt:<br />

s charakterisiert eine Folge von Symbolen αδγ (α ≠ ε) und es gibt Ketten π (möglicherweise ε),<br />

so daß gilt: β=γπ.<br />

Beweisskizze:<br />

δ<br />

α<br />

q<br />

β<br />

γ π<br />

t<br />

δ p γ s<br />

Es gilt (vor und nach dem Einfügen <strong>der</strong> Zustände und Übergänge für β): failure(p) = q. Da<br />

allgemein gilt (aufgrund <strong>der</strong> Konstruktionsvorschrift von failure, siehe Anhang A): failure(δ*(r,σ))<br />

= δ*(failure(r), σ), ist auch failure(s) = t (mit r = p und σ = γ ).<br />

Das Zustände wie s die einzigen sind, <strong>der</strong>en failure-Funktionswerte aktualisiert werden<br />

müssen, ist ebenfalls leicht zu sehen.<br />

114


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Beispiel 4.8:<br />

In den Beispielautomaten aus Abb. 4.1 soll das Wort Taube eingefügt werden (δ=tau, β=be).<br />

Dann muß <strong>der</strong> Wert <strong>der</strong> failure-Funktion von Zustand 11 (charakterisiert staub, α=s, γ=b)<br />

aktualisiert werden.<br />

Für je<strong>des</strong> α müssen somit failure-Werte von höchstens |β| Zuständen verän<strong>der</strong>t werden. Im<br />

schlechtesten Fall (mit δ = ε) ist das neue Listem ein echtes Suffix je<strong>des</strong> Pfads im Automaten,<br />

<strong>der</strong> in einem Zustand endet, für den die Ausgabefunktion ≠ ∅ ist. Dann muß die failure–<br />

Funktion für<br />

|β| * Anzahl Pfade<br />

Zustände im ursprünglichen Automaten neu berechnet werden.<br />

Ein Problem ist, wie man die Präfixe α im Automaten findet. Hier bieten sich zwei Möglichkeiten<br />

an, <strong>der</strong>en Wahl davon abhängt, wie häufig die Operation <strong>des</strong> Aktualisierens vorgenommen<br />

wird:<br />

• man verwendet entwe<strong>der</strong> eine spezielle Indexstruktur o<strong>der</strong><br />

• benutzt den Automaten selbst, die Präfixe aufzufinden.<br />

Bei einer Entscheidung für die letzte Möglichkeit müßte man alle Listeme im Lexikon nach<br />

den Ketten δγ absuchen. Mit Hilfe <strong>des</strong> Mechanismus zur Identifizierung von unbekannten<br />

Wortteilen ist es dann möglich, die verschiedenen Präfixe α zu rekonstruieren. Die Zeitkomplexität<br />

hiervon wäre O(L), wobei L die Summe <strong>der</strong> Längen aller Listeme ist.<br />

4.5.2 Interaktion mit dem Satzstrukturparser<br />

Eine Morphologiekomponente ist meist nur ein Bestandteil im Zusammenhang eines größeren<br />

sprachverarbeitenden Systems und steht normalerweise mit dem Satzstrukturparser in<br />

enger Interaktion. Der Umstand, daß auch die Wortstrukturanalyse auf einem Merkmalsformalismus<br />

beruht, macht es bei Wahl eines geeigneten „gemeinsamen Vokabulars“ möglich,<br />

die Schnittstelle zwischen beiden Subsystemen allein auf die ausgetauschten Merkmalsstrukturen<br />

zu begrenzen. Erwartungen, die ein zumin<strong>des</strong>t partiell hypothesengetriebenes<br />

Verfahren über das nächste zu analysierende Wort aufbaut, reflektieren sich in einer Instantiierung<br />

von Merkmalen, die wie<strong>der</strong>um die morphologische <strong>Analyse</strong> steuern. Erwartet <strong>der</strong><br />

Satzparser beispielsweise, daß das nächste Token ein Nomen ist, so führt das zu einer entsprechenden<br />

Instantiierung <strong>der</strong> Startkategorie <strong>des</strong> <strong>morphologischen</strong> Parsers und verhin<strong>der</strong>t,<br />

daß Lesarten mit an<strong>der</strong>er Kategorie überhaupt erzeugt werden. Beson<strong>der</strong>s interessant ist<br />

dieser Mechanismus wie<strong>der</strong>um in Verbindung mit Wörtern mit nicht im Lexikon verzeichneten<br />

Teilen, insbeson<strong>der</strong>e dann, wenn <strong>der</strong> unbekannte Teil als letzter im Wort auftritt. Aufgrund<br />

<strong>der</strong> Rechtsköpfigkeit <strong>der</strong> Wortstrukturen kann mit den Informationsquellen, die <strong>der</strong><br />

Morphologiekomponente zur Verfügung stehen, eher wenig über den unbekannten Teil<br />

inferiert werden. Erwartungen <strong>des</strong> Satzparsers über Eigenschaften <strong>des</strong> Gesamtworts gelangen<br />

über die morphologische Startkategorie und via structure sharing zum „unbekannten“<br />

Kopf <strong>des</strong> Wortes und führen somit zu einer Einengung <strong>der</strong> durch die morphologische <strong>Analyse</strong><br />

aufgestellten Hypothesen.<br />

115


4.6 Zusammenfassung<br />

Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

Die nachfolgende Abbildung zeigt noch einmal die Zusammenhänge zwischen den im Verlauf<br />

<strong>des</strong> Kapitels vorgestellten Komponenten <strong>des</strong> <strong>morphologischen</strong> <strong>Analyse</strong>systems:<br />

Morphem-<br />

Lexikon<br />

Allomorphieregeln<br />

WortMorphgrammatik<br />

Lexikon<br />

erzeugen<br />

Präkompilation<br />

verwendet<br />

Eingabe:<br />

Zu analysieren<strong>des</strong><br />

Wort<br />

paralleler<br />

Segmentierer<br />

Wortsegmente<br />

Wortstruktur-<br />

Parser<br />

Ausgabe:<br />

liefert<br />

Wortstrukturen<br />

Abb. 4.6: Architekturskizze <strong>des</strong> <strong>Analyse</strong>systems<br />

aktivieren<br />

Erzeugung von<br />

Segmenten<br />

für unbekannte<br />

Wortteile<br />

Zum Abschluß dieses Kapitels soll noch ein Vergleich zu zwei an<strong>der</strong>en <strong>morphologischen</strong><br />

<strong>Analyse</strong>systemen gezogen werden, welche ebenfalls Segmentation, Two-Level-Morphology<br />

und Strukturanalyse auf <strong>der</strong> Grundlage einer Unifikationsgrammatik in sich vereinen. Die<br />

Rede ist vom LILOG/2LM-System (vgl. Schiller/Steffens (1991) und vom System von Ritchie<br />

et al. (1992), die hinsichtlich Lexikon, Segmentierung und <strong>Analyse</strong> folgende Unterschiede<br />

und Gemeinsamkeiten bezüglich <strong>des</strong> hier präsentierten Modells aufweisen. Zunächst zu<br />

LILOG/2LM:<br />

• Lexikon: LILOG/2LM verwendet zwei verschiedene Lexikontypen: ein Morph-Lexikon,<br />

welches zu jedem Morph die für die morphologische Verarbeitung benötigten Informationen<br />

notiert, und ein base lexicon, welches syntaktische und semantische Eigenschaften<br />

<strong>der</strong> Grundformen festhält. Das Morph-Lexikon, welches zum <strong>Analyse</strong>zeitpunkt in Form<br />

eines Tries vorliegt, ist zudem in Abschnitte eingeteilt, die sich auf den Folgeklassenmechanismus<br />

<strong>des</strong> Parsers beziehen. Von den Autorinnen so genannte lexical rules vermitteln<br />

zwischen den Einträgen bei<strong>der</strong> Lexika. M. E. sind diese lexikalischen Regeln doch von<br />

an<strong>der</strong>er Art als die in Kapitel 1.2.5 kritisierten, da sie nicht neue Lexikoneinträge aus bereits<br />

vorhandenen erzeugen, son<strong>der</strong>n lediglich die syntaktischen und semantischen In-<br />

116


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

formationen für einen Eintrag <strong>des</strong> Grundformenlexikons mit denen durch die morphologische<br />

<strong>Analyse</strong> gewonnenen mittels einer Unifikationsoperation zusammenführen. Im<br />

Prinzip kann auf diese Regeln verzichtet werden, beispielsweise durch eine genaue Klassenbildung<br />

und Verknüpfung von Typbedingungen (sog. recursive type constraints) mit<br />

bestimmten Typen. Auf diese Weise können aus einer Kategorisierung sich ergebende<br />

Implikationen für an<strong>der</strong>e Merkmale und Werte (beispielsweise, daß Verben ein SUBCAT-<br />

Merkmal aufweisen) automatisch berücksichtigt werden.<br />

• Two-Level-Morphology: LILOG/2LM verwendet mit diakritischen Zeichen versehene<br />

Two-Level-Regeln. Obwohl dies sicherlich effizienter ist als <strong>der</strong> Gebrauch von Filtertermen,<br />

führt man doch neben den Merkmalsstrukturen eine weitere Beschreibungsebene<br />

ein und handelt sich zusätzlich Probleme <strong>der</strong> Interaktion dieser beiden Ebenen ein. Dies<br />

haben die Autorinnen auch erkannt, da sie schreiben: „We consi<strong>der</strong> the implementation of<br />

such rule filters [Filterterme, TH] a necessary extension to the architecture of LILOG/2LM.“<br />

(Schiller/Steffens (1991:125).<br />

• Strukturanalyse: LILOG/2LM benutzt Wortstrukturregeln auf Merkmalsstrukturbasis,<br />

die jedoch lediglich die Flexion beschreiben. Diese Regeln werden in Form eines „Morpho-Syntax-Baums“<br />

repräsentiert, <strong>des</strong>sen Kanten mit nichtterminalen Kategorien etikettiert<br />

sind und die im Laufe einer <strong>Analyse</strong> potentielle Folgekategorien charakterisieren;<br />

Abb. 4.7 veranschaulicht das.<br />

adj_stem<br />

verb_stem<br />

comp_ending decl_ending<br />

verb_prefix verb_stem<br />

verb_fin_ending<br />

verb_fin_ending<br />

Abb. 4.7: Morpho-Syntax-Baum (aus Schiller/Steffens (1991:117))<br />

Aufgrund seines endlichen Mechanismus ist ein solcher Baum jedoch nicht in <strong>der</strong> Lage,<br />

an<strong>der</strong>e als rechtsrekursive Einbettungen abzubilden, die in<strong>des</strong> zur Beschreibung von<br />

Komposition und Derivation notwendig sind.<br />

Das an<strong>der</strong>e hier interessante Modell, das von Ritchie et al. (1992), weist folgende Charakteristika<br />

auf:<br />

• Lexikon: Die Autoren verwenden ein Grundformenlexikon, welches an<strong>der</strong>s als bei Schiller/Steffens<br />

(1991) nicht in einzelne Abschnitte unterglie<strong>der</strong>t ist, die jeweils Morphe mit<br />

gleicher Distribution enthalten. Beschränkungen <strong>der</strong> Morphkombination werden somit<br />

nicht durch einen Folgeklassenmechanismus à la Koskenniemi, son<strong>der</strong>n durch eine unabhängige<br />

Wortgrammatik festgehalten, die auch rekursive Strukturen zuläßt (s.u.). Das<br />

zur <strong>Analyse</strong> bereitgestellte Lexikon entsteht durch einen Kompilationsschritt, bei dem<br />

lexical rules die durch den Lexikonautor definierten partiellen Einträge ergänzen bzw.<br />

ausmultiplizieren. Ähnlich wie bei LILOG/2LM könnten diese Regeln jedoch ersetzt<br />

117


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

werden durch eine hierarchische Strukturierung <strong>der</strong> lexikalischen Kategorien auf <strong>der</strong><br />

Grundlage von (Default)Vererbung, rekursiven Typbeschränkungen und eines Paradigmenmechanismus,<br />

wie er im hier beschriebenen Modell verwendet wird. Aus dem Lexikon<br />

wird wie bei LILOG/2LM ein Trie erzeugt, <strong>der</strong> das Lexikonband <strong>der</strong> Two-Level-<br />

Komponente bildet.<br />

• Two-Level-Morphology: Das Modell verwendet Two-Level-Regeln, die durch einen<br />

Compiler in spezielle nichtdeterministische Transducer übersetzt werden, die wie<strong>der</strong>um<br />

während <strong>der</strong> <strong>Analyse</strong> von einem Interpreter benutzt werden. Da das von den Autoren<br />

beschriebene System im Hinblick auf das Englische konzipiert ist, verwun<strong>der</strong>t es nicht,<br />

daß von Filtertermen o<strong>der</strong> äquivalenten Mechanismen kein Gebrauch gemacht wird.<br />

• Strukturanalyse: Die strukturelle <strong>Analyse</strong> vollzieht sich bezüglich einer Reihe von Wortstrukturregeln,<br />

denen <strong>der</strong> formalen Apparat <strong>der</strong> GPSG (vgl. Gazdar et al. (1985)) zugrundeliegt,<br />

d.h. typisierte Merkmalsstrukturen werden nicht verwendet. Ergänzt werden<br />

diese Regeln durch Perkolationsbeschränkungen, die Prinzipien wie das <strong>des</strong> „relativierten<br />

Kopfs“ realisieren. Segmentierer, die Two-Level-Komponente und <strong>der</strong> Chart-Parser<br />

arbeiten zur Vermeidung unsinniger Zerlegungen ineinan<strong>der</strong> verzahnt, wobei letzterer<br />

die an<strong>der</strong>en Komponenten steuert. Das System kommt mit ambigen Zerlegungen zurecht,<br />

indem mit je<strong>der</strong> dieser Zerlegungen <strong>der</strong> Zustand <strong>der</strong> Two-Level-Komponente nach <strong>der</strong><br />

<strong>Analyse</strong> aller ihrer Symbole verknüpft ist. Nachteile legt <strong>der</strong> Ansatz von Ritchie et al. daher<br />

an den Tag, sobald Lexikoneinträge Disjunktionen enthalten, da diese von den Chart-<br />

Parsern i.a. durch Überführung in disjunktive Normalform beseitigt werden, was zur Einfügung<br />

mehrerer Chart-Kanten für ein gefundenes Morph(em) führt und damit die mit<br />

diesem verbundenen Automatenzustände dupliziert. Da in den Chart Wortsegmente eingehen<br />

und nicht Symbole <strong>der</strong> Oberflächenform, hat er keine lineare Struktur mehr, son<strong>der</strong>n<br />

präsentiert sich als gerichteter azyklischer Graph, was in Ritchie et al. (1991:164) am<br />

Beispiel von preached verdeutlicht wird.<br />

1<br />

pre<br />

2<br />

preach<br />

ache (N)<br />

ache (V)<br />

4<br />

3<br />

ed<br />

ed<br />

Abb. 4.8: Chart-Struktur für preached<br />

Für die Verarbeitung von Wörtern mit unbekannten Teilen wird schließlich keine erkennbare<br />

Vorsorge getroffen.<br />

Neben den genannten Abweichungen gibt es natürlich auch Gemeinsamkeiten <strong>der</strong> Modelle.<br />

Alle drei arbeiten mit Merkmalsstrukturen und Lexika in Form von Tries und sind dadurch<br />

gekennzeichnet, daß Steuerungsinformationen zwischen Parser und Segmentierer ausgetauscht<br />

werden, was zu einer effizienteren <strong>Analyse</strong> führt als rein serielle Verfahren.<br />

Das nächste Kapitel wendet sich <strong>der</strong> <strong>morphologischen</strong> Grammatik zu.<br />

118<br />

5


Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />

119


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

5 Eine merkmalsbasierte Beschreibung einiger <strong>Aspekte</strong> <strong>der</strong><br />

Morphologie im <strong>Deutschen</strong><br />

Der in Kapitel 4 dargelegte <strong>Analyse</strong>automat zerlegt Wörter auf jede mögliche Weise in ihre<br />

Bestandteile und überprüft mit Hilfe eines aus <strong>der</strong> Grammatik gewonnenen Zustandsmechanismus<br />

bereits die Zulässigkeit <strong>der</strong> gefundenen Morph(em)abfolgen. Zerlegungen, die<br />

diesen Filter passieren, werden – parallel zur Segmentierung – durch einen erweiterten<br />

Chart-Parser analysiert. Dies geschieht relativ zu einer Grammatik, die in diesem Kapitel<br />

ausführlich erörtert wird. Ihre Darstellung erfolgt gewissermaßen bottom-up, d.h. ausgehend<br />

von den Lexikoneinträgen werden die Regeln erläutert, die diese zu immer größeren Gebilden<br />

zusammenfügen, bis schließlich die Ebene <strong>der</strong> vollständig spezifizierten einfachen o<strong>der</strong><br />

komplexen Wörter erreicht wird.<br />

Als Gegenstand einer Theorie <strong>der</strong> Wortsyntax lassen sich drei Bereiche ausmachen:<br />

1. Kombinationsbeschränkungen: was sind zulässige Morphemkombinationen, was unzulässige?<br />

2. Präzedenzbeschränkungen: welche Morpheme müssen vor welchen an<strong>der</strong>en zu stehen<br />

kommen?<br />

3. Beschränkungen über Wortstrukturen: welche Art von Wortstrukturen sind für eine semantische<br />

Interpretation notwendig?<br />

Viele Standardansätze zur Beschreibung von Konstituentenstrukturen verwenden kontextfreie<br />

Grammatiken, die somit die ersten beiden oben genannten Beschränkungstypen in einem<br />

homogenen Formalismus fest inkorporieren.<br />

Gegen diese Ansätze ist eine Reihe von Argumenten vorgebracht worden, die letztlich zur<br />

Entwicklung von an<strong>der</strong>en Formalismen wie GPSG und HPSG geführt haben:<br />

• Dominanz und lineare Präzedenz allein durch starre Phrasenstrukturregeln auszudrükken<br />

führt zum Verlust von Beschreibungsadäquatheit, da es dann nicht mehr möglich ist,<br />

Generalisierungen über verschiedene Regeln zu formulieren.<br />

• Damit verwandt ist <strong>der</strong> Einwand, daß diese Verschmelzung auch an<strong>der</strong>en linguistischen<br />

Generalisierungen über Phrasenstrukturen wie X’-Schema, Kopf- und Subkategorisierungsprinzip<br />

etc. nicht gerecht wird.<br />

• Letztendlich führt <strong>der</strong> kontextfreie Ansatz zu einer großen Anzahl von sehr speziellen<br />

Konstruktionsregeln, <strong>der</strong>en Zusammenhang untereinan<strong>der</strong> in keiner Weise ausgedrückt<br />

wird.<br />

Welche Konsequenzen ergeben sich hieraus für eine Beschreibung deutscher Wortstrukturen,<br />

<strong>der</strong>en hervorstechende Merkmale noch einmal kurz zusammengefaßt werden sollen:<br />

• Deutsche Wortstrukturen gehorchen einem abgewandelten Kopfprinzip, wobei unklar ist,<br />

ob dieses auch auf die Flexion ausgedehnt werden soll. Die Bestimmung <strong>des</strong> Kopfes wird<br />

dabei nicht ausschließlich inhaltlich aufgrund gemeinsamer Merkmale zweier in einem<br />

Dominanzverhältnis stehen<strong>der</strong> Kategorien festgemacht, son<strong>der</strong>n positionell, d.h. Köpfe<br />

von Wortstrukturen im <strong>Deutschen</strong> sind Positionskategorien. Darüber hinaus können auch<br />

Nichtköpfe zu den Merkmalen einer Mutterkategorie beitragen, eine Tatsache, <strong>der</strong> man<br />

durch einen Default-Mechanismus, dem Begriff <strong>des</strong> relativierten Kopfes gerecht zu werden<br />

versucht.<br />

• Wortstrukturregeln im <strong>Deutschen</strong> sind im wesentlichen binär verzweigend, obwohl diese<br />

<strong>Analyse</strong> zu Problemen bei Komposita wie Lafontaine-Schrö<strong>der</strong>-Konflikt führt.<br />

119


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

• Ausschließlich formalgrammatisch bedingte Beziehungen zwischen Wortbestandteilen<br />

sind selten und in <strong>der</strong> Literatur umstritten; am ehesten könnte man hierunter noch das<br />

Phänomen <strong>der</strong> Argumentvererbung bei Rektionskomposita und bestimmten Derivationsvorgängen<br />

erfassen. Ansonsten scheint die Deutung von komplexen Wörtern in wesentlicher<br />

Weise von nichtsyntaktischen Bedingungen abzuhängen.<br />

• Eine Zusammenfassung von Derivation und Komposition als unterschiedliche <strong>Aspekte</strong><br />

eines zugrundeliegenden Prinzips ist aus formalen Gründen interessant, führt jedoch zu<br />

Problemen bei <strong>der</strong> Interpretation, die bei beiden Mechanismen unterschiedlich zu sein<br />

scheint. Darüber hinaus müssen bei einer vereinheitlichten Betrachtung Beschränkungen<br />

über die Abfolge von freien und gebundenen Kategorien wirksam sein.<br />

5.1 Morphologische Typenhierarchie und Lexikon<br />

5.1.1 Syntax<br />

Morphologische Objekte werden syntaktisch nach einer Typenhierarchie klassifiziert, die in<br />

<strong>der</strong> folgenden Abbildung wie<strong>der</strong>gegeben ist:<br />

unknown_stem<br />

simple_stem complex_stem<br />

simple_or_complex_stem<br />

STRUCTURE: list<br />

linking_morph pre_syntactic_atom affix<br />

morph_object<br />

MORPH: morph<br />

infl_affix <strong>der</strong>ivative<br />

morph_or_syn_object<br />

GRAPH: list<br />

SYN: syntax<br />

SEM: semantics<br />

top<br />

suffix<br />

prefix<br />

syntactic_atom<br />

sign<br />

Abb. 5.1: Typenhierarchie zur Klassifizierung <strong>der</strong> <strong>morphologischen</strong> Kategorien<br />

phrase<br />

Unter einem Morph(ological) Object verstehe ich, <strong>der</strong> Terminologie von Williams/Di Sciullo<br />

(1987) folgend, ein aus Morphemen aufgrund von produktiven Formationsregeln aufgebautes<br />

morphologisches Gebilde mit interner Struktur. Auf <strong>der</strong> an<strong>der</strong>en Seite sind Elemente<br />

120


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

<strong>der</strong> Kategorie syntactic_atom die primitiven X 0-Kategorien <strong>der</strong> Syntax; sie weisen keine<br />

interne Struktur auf und besitzen nur noch Merkmale, die in <strong>der</strong> phrasalen Syntax relevant<br />

werden können. Subtypen <strong>der</strong> Kategorie morph_object sind u.a. die Typen affix und simple_or_complex_stem;<br />

letzterer besitzt Subtypen für einfache (simple_stem) o<strong>der</strong> zusammengesetzte<br />

Stämme bzw. Wurzeln (complex_stem). Eine beson<strong>der</strong>e Rolle kommt <strong>der</strong> Klasse<br />

unknown_stem zu, mit <strong>der</strong> unbekannte Wortstämme klassifiziert werden.<br />

Mit Hilfe einer Reihe von Merkmalseinführungsaxiomen werden für diese einzelnen Typen<br />

Merkmale und für diese wie<strong>der</strong>um Werterestriktionen festgelegt, die sich an die Subtypen<br />

weiter vererben (diese sind in Abb. 5.1 unterhalb <strong>der</strong> Typen angegeben). Der Typ<br />

morph_or_syn_object führt die beiden Merkmale SYN und SEM ein, die sich an die Typen<br />

phrase – syntactic_atom und morph_object vererben; letzterer führt ein weiteres Merkmal<br />

MORPH mit Werterestriktion morph ein. Der Typ morph_object ist in <strong>der</strong> Typenhierarchie so<br />

definiert, daß seine erste Strukturebene wie in Abb. 5.2 aussieht (die Struktur unter SEM wird<br />

erst weiter unten näher behandelt): 1<br />

GRAPH: list(symbol)<br />

(FORM: symbol)<br />

SYN:<br />

SEM:<br />

MORPH:<br />

HEAD:<br />

ARGSTR:<br />

syntax<br />

morph_object<br />

semantics<br />

MFEAT:<br />

morph<br />

STRUCTURE: list<br />

head<br />

argstr<br />

MHEAD: mhead<br />

mfeat<br />

MSUBCAT: morph_subcat<br />

Abb. 5.2: Merkmale <strong>des</strong> Typs morph_object<br />

Die <strong>der</strong> HPSG (vgl. Pollard & Sag (1987, 1994)) nachgebildeten Merkmale SYN und SEM repräsentieren<br />

die Worteigenschaften, die in <strong>der</strong> Phrasensyntax relevant sind. Unter SYN:HEAD:<br />

sind daher die morphosyntaktischen Merkmale wie Person, Numerus usw. verzeichnet.<br />

Demgegenüber befinden sich in <strong>der</strong> Struktur unter MORPH Merkmale, die nur für die<br />

Morphologie wesentlich sind. Unterschieden wird hier zwischen <strong>morphologischen</strong><br />

Kopfmerkmalen (MORPH:MHEAD) – hierzu gehören Merkmale wie ±LATINATE und Angaben<br />

zur Deklinationsklasse (bei Nomen) – und an<strong>der</strong>en <strong>morphologischen</strong> Merkmalen (MFEAT),<br />

die keine Kopfmerkmale sind (z.B. das weiter unten erwähnte Merkmal COMPLETE). Hinzu<br />

kommt ein Merkmal MSUBCAT zur Wie<strong>der</strong>gabe morphologischer Subkategorisierungseigenschaften,<br />

das für die Affigierung verwendet wird. Das Merkmal GRAPH schließlich enthält<br />

eine graphematische Repräsentation <strong>des</strong> Stammmorphems bzw. die von morph_object dominierte<br />

Kette von Wortsegmenten. Die Struktur unter MORPH ähnelt <strong>der</strong> in Krieger (1994),<br />

1 Die Notationskonventionen seien hier noch einmal kurz wie<strong>der</strong>holt: Typen werden fett und kursiv,<br />

MERKMALE in Kapitälchen, Sorten kursiv und Variablen normal mit großem Anfangsbuchstaben<br />

wie<strong>der</strong>gegeben.<br />

121


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

an<strong>der</strong>s als dort wird die Morphemkategorie jedoch nicht explizit durch ein Merkmal dargestellt,<br />

son<strong>der</strong>n durch die Typenhierarchie wie<strong>der</strong>gegeben. Das Merkmal STRUCTURE enthält<br />

in einer Liste die unmittelbaren Töchter von morph_object.<br />

Allen präterminalen Kategorien wie simple_stem, infl_affix usw. kommt darüber hinaus<br />

noch ein Merkmal FORM zu, das durch einen separaten Typ form_t eingeführt wird und die<br />

Grundform <strong>des</strong> <strong>morphologischen</strong> Paradigmas enthält.<br />

Syntaktische Atome auf <strong>der</strong> an<strong>der</strong>en Seite haben we<strong>der</strong> MORPH- noch STRUCTURE-Attribute,<br />

da morphologische Merkmale wie die interne Struktur eines Wortes für die Phrasensyntax<br />

nicht sichtbar sind (so jedenfalls die These). Die morphosyntaktischen Merkmale – in <strong>der</strong><br />

Terminologie von Williams/Di Sciullo (1987) das gemeinsame Vokabular von Morphologie<br />

und Syntax – befinden sich unter SYN. Die Merkmale und Typen hierunter sind durch folgende<br />

Axiome definiert:<br />

(1) syntax :: HEAD: head ∧ ARGSTR: argstr<br />

head ↔ nominal | verbal | preposition<br />

head :: CAT: cat 2<br />

nominal ↔ noun | adjective | pronoun | determiner<br />

nominal :: CASE: case ∧ GENDER: gen<strong>der</strong><br />

adjective ::DEGREE: degree ∧ DECL: decl ∧ PRED: boolean<br />

verb → verbal<br />

verb ↔ verb_infl_or_imp | verb_infinitive<br />

verb_infl_or_imp ↔ verb_infl | verb_imp<br />

verb_infinitive ↔ verb_part | verb_inf_base<br />

verb_inf_base ↔ verb_inf | verb_zuinf<br />

verb_part ↔ verb_partI | verb_partII<br />

verb_infl_or_imp :: MOOD: mood<br />

verb_infl :: TENSE: tense<br />

preposition :: PFORM: symbol ∧ DP_CASE: case<br />

num_t ↔ verb_infl_or_imp ∨ nominal<br />

num_t :: NUM: num<br />

pers_t ↔ verb_infl ∨ nominal<br />

pers_t :: PERS: pers<br />

cat ↔ n | v | a | p |adv | d | pn<br />

case ↔ nom | gen | dat | acc<br />

pers ↔ first | second | third<br />

num ↔ sg | pl<br />

tense ↔ pres | pret<br />

mood ↔ ind | subjI | subjII | imp<br />

gen<strong>der</strong> ↔ masc | fem | neut<br />

decl ↔ strong | weak | mixed<br />

degree ↔ pos | comp | sup<br />

2 Das Merkmal CAT ist eigentlich redundant, da es wesentlich differenzierter in <strong>der</strong> Typenhierarchie<br />

unter head ausgedrückt wird. Es dient lediglich <strong>der</strong> besseren Anschaulichkeit.<br />

122


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Der Typ head wird zunächst einmal disjunktiv in nominale, verbale und präpositionale<br />

Köpfe partitioniert. Es wären hier noch weitere Disjunkte nötig, für die Zwecke <strong>der</strong> Wortgrammatik<br />

reicht es jedoch aus, sich auf diese drei zu beschränken. Vor allem <strong>der</strong> Typ verb<br />

wird dann in eine ganze Reihe von Subtypen zerlegt, je nachdem, ob es sich um ein flektiertes<br />

Verb (verb_infl), ein Verbpartizip (verb_partI o<strong>der</strong> verb_partII) und dgl. handelt. Diese<br />

Typen werden in den in Abschnitt 5.4 dargestellten Flexionsregeln verwendet. Die Verwendung<br />

<strong>der</strong> separaten Typen num_t und pers_t, die jeweils nur das entsprechende Merkmal<br />

einführen, macht eine Kreuzklassifikation <strong>der</strong> Typen in solche möglich, die die Merkmale<br />

PERS(ON) bzw. NUM(ERUS) tragen und solche, die dafür nicht gekennzeichnet sind. Die Unterteilung<br />

von case in seine vier offensichtlichen Subtypen wird in 5.4 noch etwas verfeinert.<br />

Unter SYN:ARGSTR wird die syntaktische und morphologische Argumentstruktur eines Kopfes<br />

festgelegt. Auch hier wird die Argumentstruktur von Verben von <strong>der</strong> von Nomen und<br />

Adjektiven unterschieden. Folgende Axiome sind hier festgelegt:<br />

(2) argstr ↔ verbal_argstr | nominal_argstr<br />

argstr ::<br />

DEFARGS: list(morph_or_syn_object) ∧<br />

ADJUNCTS: list(morph_or_syn_object) ∧<br />

ARGSTR_ORDER: list(morph_or_syn_object)<br />

verbal_argstr ::<br />

SUBJ: morph_or_syn_object_or_elist ∧<br />

DIR_OBJ: morph_or_syn_object_or_elist ∧<br />

INDIR_OBJ: morph_or_syn_object_or_elist ∧<br />

PREP_OBJ: morph_or_syn_object_or_elist ∧<br />

SENT_COMPL: morph_or_syn_object_or_elist ∧<br />

nominal_argstr ↔ noun_argstr | adj_argstr<br />

nominal_argstr :: RELARG: morph_or_syn_object_or_elist<br />

adj_argstr :: INTARG: morph_or_syn_object_or_elist<br />

morph_or_syn_object_or_elist ↔ morph_or_syn_object | elist<br />

Zunächst einmal sind alle Werte in den verschiedenen Merkmalen zur Argumentstruktur<br />

unterspezifiziert bzgl. <strong>der</strong> Unterscheidung Wort – Phrase, d.h. ihre Werterestriktion ist<br />

morph_or_syn_object bzw. elist (empty list, für den Fall, daß ein Argument nicht vorhanden<br />

ist). Diese Unterspezifikation ist notwendig, da Argumente wortintern an<strong>der</strong>s realisiert<br />

werden als wortextern, wie das Beispiel Renovierung zeigt. Das hier relationales Argument<br />

(RELARG) genannte Objekt von Renovierung wird phrasal als Nominalphrase verwirklicht,<br />

vgl. Renovierung <strong>der</strong> Bibliothek, wortintern jedoch als Nomen, vgl. Bibliotheksrenovierung. Beim<br />

Übergang in die Syntax wird schließlich <strong>der</strong> Typ verbliebener, d.h. wortintern nicht realisierter<br />

Argumente zu phrase angehoben (vgl. Abschnitt 5.4).<br />

Allen verschiedenen Kopftypen sind drei Merkmale gemeinsam: DEFARGS, ADJUNCTS und<br />

ARGSTR_ORDER. Default-Argumente sind (wie bei Pustejovsky (1995)) solche, die nicht unbedingt<br />

realisiert werden müssen, die jedoch eine Thetarolle in <strong>der</strong> unterliegenden Ereignisstruktur<br />

tragen. Bei Nomen sind dies oft durch Präpositionalphrasen ausgedrückte Subjekte,<br />

bei Verben Instrument-PPs. Die Standardreihenfolge <strong>der</strong> verschiedenen Argumente wird<br />

mittels <strong>des</strong> Attributs ARGSTR_ORDER festgehalten.<br />

123


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Die Teilhierarchie unter MORPH ist folgen<strong>der</strong>maßen strukturiert:<br />

(3) morph :: MHEAD: mhead ∧ MFEAT: mfeat ∧ MSUBCAT: morph_subcat<br />

noun_mhead → mhead<br />

mhead :: LATINATE: boolean<br />

noun_mhead :: DECL_CLASS: decl_class<br />

morph_object_or_elist ↔ morph_object | elist<br />

mfeat ::<br />

COMPLEX: boolean ∧ % ist die Form komplex?<br />

COMPLETE: boolean ∧ % ist die Form flektionsmäßig vollständig ?<br />

UMLAUT: boolean ∧ % kann <strong>der</strong> Grundvokal umgelautet werden?<br />

DER: boolean ∧ % kann die Form für die Derivation verwendet werden?<br />

CMP: boolean ∧ % kann die Form für die Komposition verwendet werden?<br />

verb_mfeat → mfeat<br />

verb_mfeat ::<br />

SEP_VERB: boolean ∧ % handelt es sich um ein Partikelverb?<br />

V_PARTICLE: symbol % wenn ja, dann enthält dieses Merkmal den Partikel<br />

affix_subcat → morph_subcat<br />

affix_subcat :: NEEDS: morph_object_or_elist<br />

Wie oben bereits erwähnt, wird zwischen <strong>morphologischen</strong> Kopf- und Nicht-Kopfmerkmalen<br />

unterschieden. Merkmale wie DER und CMP dienen nach Eisenberg (1998) dazu, die verschiedenen<br />

Elemente eines <strong>morphologischen</strong> Paradigmas zu unterscheiden. Beispielsweise<br />

ist <strong>der</strong> Stamm sprung im Paradigma von spring- mit CMP:+ markiert, da diese Form die Kompositionsstammform<br />

ist. COMPLETE wird im Abschnitt über die Flexion näher erläutert.<br />

Der Typ morph_subcat mit seinem hier alleinigen Subtyp affix_subcat und dem damit verbundenen<br />

Merkmal NEEDS dient schließlich dazu, morphologische Kombinationsbeschränkungen<br />

zwischen freien und gebundenen Morphemen zu repräsentieren. Suffixe und Präfixe<br />

definieren unter NEEDS Anfor<strong>der</strong>ungen, die sie an das „subkategorisierte“ freie Morphem<br />

stellen. Gemeinsam mit dem im nächsten Abschnitt zur Derivation festgelegten <strong>morphologischen</strong><br />

Subkategorisierungsprinzip dient das Merkmal auch dazu, die Vererbung von Argumenten<br />

von <strong>der</strong> Basis an das Derivat zu ermöglichen.<br />

5.1.2 Semantik<br />

Die Hierarchie, die die Typen unter SEM in Abb. 5.2 strukturiert, ist ausschnittsweise in (4)<br />

wie<strong>der</strong>gegeben.<br />

(4) semantics ↔ nominal_semantics | verbal_semantics<br />

semantics :: CONTENT: content<br />

nominal_semantics :: REFARG: simple_or_dotted_type<br />

verbal_semantics :: EXTARG: simple_type<br />

content ↔ lexical_content | operator_content<br />

lexical_content :: EVENTSTR: eventstr<br />

124


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Hiernach wird die Semantik von nominalen Kategorien wie Nomen und Adjektiven auf <strong>der</strong><br />

einen Seite von <strong>der</strong> von Verben auf <strong>der</strong> an<strong>der</strong>en unterschieden. Erstere weisen ein sog. referentielles<br />

Argument 3 (REFARG) auf, das an<strong>der</strong>s als die unter ARGSTR definierten Argumente<br />

semantischer Natur ist, da es <strong>der</strong> durch λ-Abstraktion gebundenen Argumentstelle in <strong>der</strong><br />

semantischen Repräsentation von Nomen entspricht, z.B. in λx Baum(x). Ähnlich wie das<br />

sog. externe Argument bei Verben ist es bei Derivations- und Flexionsprozessen in systematischer<br />

Weise mit an<strong>der</strong>en Argumenten in <strong>der</strong> Argumentstruktur korreliert, was in den entsprechenden<br />

Abschnitten dieses Kapitels verdeutlicht wird.<br />

Der Typ <strong>der</strong> Merkmale REFARG und EXTARG ist simple_or_dotted_type bzw. simple_type. Die<br />

Subtypen von simple_or_dotted_type zeigt die nächste Abbildung:<br />

uncountable<br />

individual<br />

simple_type<br />

TYPE:entity<br />

countable<br />

group<br />

GROUP_OF:countable<br />

simple_or_dotted_type<br />

dotted_type<br />

TYPES: listof(simple_type)<br />

TYPE_REL:listof(relations)<br />

Abb. 5.3: Strukturierung <strong>der</strong> Wertetypen von REFARG und EXTARG<br />

Der Typ simple_type unterteilt sich in die maximalen Typen uncountable, individual und<br />

group. Nomen mit REFARG:uncountable beziehen sich auf Massennomina, also Stoff- und<br />

Kollektivnomina, die dadurch gekennzeichnet sind, daß sie nicht in den Plural gesetzt werden<br />

können, ohne ihre Singularbedeutung regelgeleitet zu verän<strong>der</strong>n und die auch im Singular<br />

ohne Artikel auftreten können. Während beispielsweise Stahl sich auf ein bestimmtes<br />

Material bezieht, bezieht sich Stähle auf eine Menge von Stahlsorten. Demgegenüber stehen<br />

die abzählbaren Entitäten individual und group; individual denotiert alle eindeutig individuierten<br />

Dinge, wohingegen group Mengen solcher Dinge umfaßt; die Natur dieser ist im<br />

Merkmal GROUP_OF festgehalten. GROUP_OF hat als Werterestriktion wie<strong>der</strong>um countable, so<br />

daß hierdurch auch Gruppen von Gruppen möglich werden, die bei Nomen wie Gruppe<br />

selbst, das bereits im Singular Mengen denotiert, aber auch im Zusammenhang mit den<br />

schon angesprochenen dotted types notwendig sind. Der Plural von Gruppe sähe als Merkmalsstruktur<br />

folgen<strong>der</strong>maßen aus:<br />

3 REFARG wurde auch <strong>des</strong>wegen eingeführt, um die Ungenauigkeiten in Pustejovskys (1995) Konzeption<br />

bzgl. <strong>des</strong> referentiellen Arguments zu beseitigen.<br />

125


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

TYPE: 1 entity<br />

TYPE: 1<br />

TYPE: 1<br />

GROUP_OF: GROUP_OF:<br />

individual<br />

group<br />

group<br />

Abb. 5.4: Plural von „Gruppe“<br />

Aufgrund <strong>der</strong> Existenz <strong>des</strong> Typs individual kann je<strong>der</strong> Merkmalsterm vom Typ group mittels<br />

<strong>der</strong> Äquivalenz 8 (Kapitel 2) vollständig typisiert werden.<br />

Es gibt an<strong>der</strong>e Möglichkeiten, Gruppen und Individuen in Beziehung zu setzen: Link (1991)<br />

und Carpenter (1997) rekonstruieren Gruppen als Subtypen von Individuen, was folgen<strong>der</strong>maßen<br />

axiomatisiert werden könnte:<br />

(5) individual → simple_type<br />

simple_type :: TYPE: entity<br />

group → individual<br />

group :: GROUP_OF: individual<br />

Merkmalsterme vom Typ group könnten auch nach dieser Hierarchie vollständig typisiert<br />

werden, da keine appropriateness loop (vgl. Kapitel 2) vorliegt.<br />

Der Hauptgrund für die Wahl <strong>der</strong> an<strong>der</strong>en, oben beschriebenen Methode <strong>der</strong> Gruppenbildung<br />

liegt aber woan<strong>der</strong>s. Eine methodische Leitlinie bei <strong>der</strong> Konstruktion <strong>der</strong> Wortgrammatik<br />

war, soweit wie möglich vom Mittel <strong>der</strong> Unterspezifikation Gebrauch zu machen. Beinahe<br />

alle vorgenommenen Typisierungen erfolgen auf disjunktive Art und Weise, d.h. ein<br />

Supertyp definiert seine Subtypen aufgrund einer Disjunktion. An<strong>der</strong>e Vorgehensweisen<br />

sind hier möglich, vgl. auch Carpenter (1992: Kap. 2), und in Fällen wie <strong>der</strong> Rekonstruktion<br />

<strong>des</strong> Kasussystems (s. Abschnitt 5.4) wurde auch von <strong>der</strong> konjunktiven Konstruktion Gebrauch<br />

gemacht. Disjunktive Typen machen es möglich, Generalisierungen über Supertypen<br />

zu formulieren, die sich qua Vererbung automatisch auch auf <strong>der</strong>en Subtypen erstrecken; die<br />

Typen countable o<strong>der</strong> morph_or_syn_object sind nur zwei Beispiele hierfür.<br />

Unterspezifikation <strong>des</strong> referentiellen Arguments wird u.a. in den Lexikoneinträgen von Individuennomen<br />

benutzt, also Nomen, die Mengen von Individuen im Singular und Mengen<br />

von Mengen von Individuen im Plural denotieren. Im Lexikon ist ihr referentielles Argument<br />

jedoch lediglich mit countable (unter)spezifiziert, wie das Beispiel in Abb. 5.5 zeigt 4 :<br />

4 Alle im weiteren Verlauf dargestellten Merkmalsstrukturen sind direkt aus <strong>der</strong> Ausgabe <strong>der</strong> in CUF<br />

implementierten <strong>morphologischen</strong> Grammatik entnommen. Die CUF-Terme wurden mit Hilfe <strong>der</strong><br />

selbstgeschriebenen Prolog-Bibliotkek cuf2clig in das Eingabeformat <strong>des</strong> CLIG-Graphers transformiert<br />

(Konrad (1995, 1997)), <strong>der</strong> die Postscript-Ausgabe <strong>der</strong> graphischen Strukturen ermöglichte.<br />

126


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

FORM: Messer<br />

SYN:<br />

SEM:<br />

HEAD:<br />

ARGSTR:<br />

syn<br />

CAT: n<br />

GENDER: neut<br />

noun<br />

RELARG:<br />

DEFARGS:<br />

ARGSTR_ORDER:<br />

noun_argstr<br />

REFARG: TYPE: knife<br />

countable<br />

nominal_semantics<br />

MORPH: morph<br />

simple_stem<br />

Abb. 5.5: Lexikoneintrag von „Messer“<br />

Die Typanhebung von countable zu individual bzw. group wird erst später während <strong>der</strong><br />

Flexion durch das Hinzutreten <strong>des</strong> Numerus-Merkmals ausgelöst, was ausführlich in 5.4.2<br />

dargestellt wird.<br />

Fast ebenso wichtig wie Unterspezifikation ist jedoch das Kriterium <strong>der</strong> Unterscheidbarkeit<br />

von Typen. Beachtenswert ist, daß individual und group im System (5) durch Unifikation<br />

(Konjunktion mit einem an<strong>der</strong>en Merkmalsterm) nicht mehr zu unterscheiden sind. Es zeigt<br />

sich jedoch (wie<strong>der</strong>um muß ich auf Abschnitt 5.4.2 verweisen), daß Flexionsprozesse diese<br />

Differenzierung notwendig machen. Im System (5) könnte die Frage, welchen Subtyp von<br />

countable ein Merkmalsterm X aufweist, nicht durch Konjunktion mit GROUP_OF:entity (X ∧<br />

GROUP_OF:entity) beantwortet werden, da dies auch für individiual gelingen würde. Diese<br />

Frage könnte nur durch einen Subsumptionstest entschieden werden (ein Term ist vom Typ<br />

group, wenn er von group subsumiert wird), <strong>der</strong> aber in den meisten Formalismen nicht zur<br />

Verfügung steht, nicht zuletzt <strong>des</strong>halb, weil er schlecht mit <strong>der</strong> Semantik von konjunktiven<br />

Termen in Einklang zu bringen ist. Ich werde hierauf nochmals in Kapitel 6 zu sprechen<br />

kommen.<br />

Die hier gewählte Mengenrekonstruktion erlaubt die angesprochene Unterscheidung, da <strong>der</strong><br />

Term individual ∧ group inkonsistent ist, d.h. je<strong>der</strong> Merkmalsterm ist, falls er nicht mit<br />

countable unterspezifiziert ist, entwe<strong>der</strong> vom Typ individual o<strong>der</strong> vom Typ group, aber<br />

nicht bei<strong>des</strong>.<br />

Der Typ dotted_type, <strong>der</strong> schon in Kapitel 3.4 angesprochen wurde, dient dazu, die Polysemie<br />

von Nomen wie Museum, aber auch Brot usw. zu repräsentieren, die je nach Satzkontext<br />

mit verschiedenen Begriffen in Verbindung gebracht werden können. Diese verschiedenen<br />

Konzepte – simple types in <strong>der</strong> Terminologie <strong>des</strong> Systems in Abb. 5.3 – werden im Merkmal<br />

TYPES in Form einer Liste repräsentiert, da ich nicht die Einschränkung von Pustejovsky<br />

(1995) auf genau zwei Typen, die zusammen ein sog. lexical conceptual paradigm bilden, machen<br />

wollte. Möglicherweise bieten diese Paradigmen ein größeres Erklärungspotential; ich<br />

habe diese Idee jedoch nicht weiterverfolgt.<br />

Das Merkmal TYPE_REL(ATIONS) ersetzt das uneinheitlich verwendete FORMAL-Merkmal in<br />

Pustejovsky (1995) und dient dazu, die Beziehungen zwischen den einzelnen Subkonzepten<br />

unter TYPES in Form einer Liste von Relationen zu fassen. Nachfolgend ist ein Teil <strong>des</strong> Lexikoneintrags<br />

von Museum wie<strong>der</strong>gegeben:<br />

127


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

FORM: Museum<br />

SYN:<br />

HEAD:<br />

ARGSTR:<br />

syn<br />

SEM: REFARG:<br />

CAT: n<br />

GENDER: neut<br />

noun<br />

RELARG:<br />

DEFARGS:<br />

ARGSTR_ORDER:<br />

noun_argstr<br />

TYPES:<br />

TYPE_REL:<br />

dotted_type<br />

nominal_semantics<br />

MORPH: morph<br />

simple_stem<br />

1<br />

2<br />

3<br />

5<br />

TYPE: institution<br />

countable<br />

TYPE: building<br />

countable<br />

TYPE: 4 human<br />

GROUP_OF:<br />

group<br />

TYPE: 4<br />

countable<br />

TYPE: 6 physical_entity<br />

GROUP_OF:<br />

group<br />

TYPE: 6<br />

countable<br />

RELCONST: contains<br />

RELARGS: 2 ,1<br />

relation<br />

RELCONST: work_for<br />

RELARGS: 3 ,1<br />

relation<br />

RELCONST: exhibits<br />

RELARGS: 1 ,5<br />

relation<br />

Abb. 5.6: Lexikoneintrag von „Museum“<br />

Interessant ist u.U., daß REFARG in (4) mit simple_or_dotted_type typisiert ist, EXTARG jedoch<br />

lediglich mit simple_type. Möglicherweise gibt es im <strong>Deutschen</strong> keine Verben mit <strong>der</strong> Nomen<br />

wie Museum vergleichbaren polysemen Referenz.<br />

Lexikalische Kategorien weisen neben dem externen bzw. referentiellen Argument auch eine<br />

im weitesten Sinne zu verstehende Ereignisstruktur auf, <strong>der</strong>en Typisierungsaxiome in (6)<br />

dargestellt sind:<br />

(6) event ↔ activity | state<br />

eventstr ↔ activity_eventstr ∨ state_eventstr<br />

activity_eventstr ::<br />

EVENT: activity<br />

state_eventstr ::<br />

STATE: state<br />

128


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

transition_eventstr ↔ activity_eventstr ∧ state_eventstr<br />

transition_eventstr ↔ achievement | accomplishment<br />

transition_eventstr ::<br />

EVENTRESTR: eventrestr ∧<br />

EVENTHEAD: event<br />

Der in Abschnitt 3.4.1 beschriebenen Klassifikation <strong>der</strong> Aktionsarten folgend wird die Ereignisstruktur<br />

eines Lexems (hier nicht-partitionierend 5 ) in die Subtypen activity_eventstr<br />

und state_eventstr unterteilt, die jeweils ein Merkmal EVENT bzw. STATE zur genaueren Angabe<br />

<strong>der</strong> Subereignisse aufweisen. Accomplishment- und achievement-Ereignisse sind im Gegensatz<br />

dazu zusammengesetzte Ereignisse, d.h. bestehen aus einer Aktivität und einem sich<br />

daran anschließenden Zustand. Das Merkmal EVENTRESTR gibt die zeitliche Anordnung von<br />

Ereignis und Zustand an; EVENTHEAD hält fest, welches Teilereignis fokussiert ist (vgl. hierzu<br />

auch Pustejovsky (1995:67ff). Zur Illustration ist in Abb. 5.7 <strong>der</strong> Lexikoneintrag für retten<br />

angegeben, dem u.a. entnommen werden kann, daß die Ereignisstruktur von retten aus zwei<br />

geordneten Teilereignissen besteht: einem Ereignis <strong>des</strong> Rettens mit den Rollen Agens, Thema<br />

und Instrument und einem Zustand, wo das Thema <strong>des</strong> erstens Ereignisses Argument eines<br />

Prädikats gerettet ist. Ereignisnominalisierungen wie Rettung können im übrigen auch genau<br />

diese beiden Sachverhalte ausdrücken.<br />

In Abb. 5.7 sieht man weiterhin, wie die Partizipanten <strong>der</strong> Ereignisse mit Elementen aus <strong>der</strong><br />

syntaktischen Argumentstruktur verknüpft sind. Jede Ereignisrolle hat eine Selektionsbeschränkung<br />

(SEL_RESTR), die mit dem referentiellen Argument <strong>der</strong> jeweiligen NP o<strong>der</strong> PP aus<br />

<strong>der</strong> Argumentstruktur koindiziert ist. Die Rolle Instrument, vgl.<br />

(7) Der Parkwächter rettete die Kin<strong>der</strong> mit einem Seil aus dem Wasser<br />

kann hier durch ein Default-Argument wie<strong>der</strong>gegeben werden. Als Thetarollen habe ich die<br />

Standard-Rollen verwendet, die in einigen Fällen allerdings durch Subtyp-Bildung dem jeweiligen<br />

Ereignistyp angepaßt wurden (diese Rollen heißen in Dowty (1989) individuelle<br />

thematische Rollen und sind jeweils verbspezifisch; das Verb geben hätte beispielsweise eine<br />

Rolle Geber usw.). Die Annahme von Thetarollen ist natürlich nicht unproblematisch, wenn<br />

von ihnen das syntaktische und semantische Verhalten von Lexemen abhängig gemacht<br />

wird. Im Rahmen <strong>des</strong> hier dargelegten Systems haben sie allerdings fast immer nur argumentindizierende<br />

Funktion (vgl. Dowty (1989)).<br />

Das listenwertige Merkmal ARGSTR_ORDER schließlich enthält noch so etwas wie eine kanonische<br />

Reihenfolge <strong>der</strong> Elemente aus <strong>der</strong> Argumentstruktur.<br />

In den bisher gezeigten Merkmalsstrukturen erschienen weitere Typen wie human, institution,<br />

relation usw., die einer Konzepthierarchie entstammen, <strong>der</strong>en allgemeinster Typ entity<br />

ist. Diese weitere Hierarchie soll die verwendeten Begriffe ordnen und dient vor allem dazu,<br />

Generalisierungen über Selektionsbeschränkungen, wie sie bei <strong>der</strong> Komposition benutzt<br />

werden, auszudrücken. Ein Teil dieser Hierarchie ist wie<strong>der</strong>um in (8) auf S. 131 wie<strong>der</strong>gegeben.<br />

5 Unter Typenpartitionierung werden Typaxiome <strong>der</strong> Form t ↔ t1 | t2 | ... | tn verstanden. Der Typ t<br />

wird demnach in paarweise inkonsistente Subtypen zerlegt. Dies ist bei Typenaxiomen <strong>der</strong> Form t ↔<br />

t1 ∨ t2 ∨ ... ∨ tn nicht <strong>der</strong> Fall, d.h. die Schnittmengen <strong>der</strong> Denotate zweier Subtypen müssen nicht leer<br />

sein (vgl. auch Kap. 2). Im Beispielfall darf keine Typenpartitionierung vorgenommen werden, da <strong>der</strong><br />

Typ transition_eventstr ein gemeinsamer Subtyp von activity_eventstr und state_eventstr ist.<br />

129


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

FORM: rett<br />

SYN:<br />

SEM:<br />

HEAD:<br />

ARGSTR:<br />

syn<br />

CAT: v<br />

verb<br />

EXTARG: 2<br />

SUBJ: 1<br />

DIR_OBJ: 3<br />

INDIR_OBJ:<br />

PREP_OBJ:<br />

SYN: HEAD:<br />

SEM:<br />

SENT_COMPL:<br />

syn<br />

CAT: n<br />

CASE: struc_case<br />

noun<br />

REFARG: 2 TYPE: human<br />

countable<br />

nominal_semantics<br />

morph_or_syn_object ∧ sign_elist<br />

SYN: HEAD:<br />

SEM:<br />

DEFARGS: 5<br />

syn<br />

CAT: n<br />

CASE: struc_case<br />

noun<br />

REFARG: 4 TYPE: animate_ind<br />

countable<br />

nominal_semantics<br />

morph_or_syn_object ∧ sign_elist<br />

ARGSTR_ORDER: 1 ,3,5<br />

verbal_argstr<br />

CONTENT: EVENTSTR:<br />

verbal_semantics<br />

MORPH: morph<br />

simple_stem<br />

lexical_content<br />

SEM: REFARG: 6 TYPE: tool<br />

countable<br />

nominal_semantics<br />

morph_or_syn_object<br />

EVENT: 7<br />

STATE:<br />

EVENT_TYPE: rescue<br />

ROLES:<br />

event<br />

8<br />

ROLE: agent<br />

SEL_RESTR: 2<br />

role<br />

ROLE: theme<br />

SEL_RESTR: 4<br />

role<br />

ROLE: instrument<br />

SEL_RESTR: 6<br />

role<br />

RELCONST: rescued<br />

RELARGS: 8<br />

state<br />

EVENTRESTR: event_sequence<br />

EVENTHEAD: 7<br />

accomplishment<br />

Abb. 5.7: Lexikoneintrag von “retten”<br />

130


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(8) entity ↔ physical_entity | abstract_entity<br />

physical_entity ↔ animate_ind | inanimate_ind<br />

animate_ind ↔ human | nonhuman<br />

nonhuman ↔ animal | plant<br />

inanimate_ind ↔ matter | physical_obj<br />

matter ↔ solid_state | liquid<br />

solid_state ↔ metal | stone | china | paper | glass<br />

liquid ↔ water | oil<br />

physical_obj ↔ book | musical_instrument | tool | food | place<br />

tool ↔ knife | cup | blade<br />

food ↔ bread | cake<br />

place ↔ building | room<br />

factory → building<br />

abstract_entity ↔ temporal | nontemporal<br />

event → temporal<br />

activity → event<br />

nontemporal ↔ abstract_obj | abstract_nonobj<br />

abstract_obj ↔ institution<br />

abstract_nonobj ↔ information | property | relation | collection<br />

text → information<br />

state → relation<br />

Diese Hierarchisierung ist nun weit davon entfernt, vollständig zu sein, son<strong>der</strong>n an die Beispiellexikoneinträge<br />

angepaßt; sie könnte durch weitere Kreuzklassifikation auch noch genauere<br />

Unterscheidungen zulassen. Welchen Typ man welcher Entität zuweist, ist bei genauerer<br />

Betrachtung auch weniger wichtig als man auf den ersten Blick annehmen würde.<br />

Entscheiden<strong>der</strong> ist m.E., wie sich die Typen von Argumenten komplexer Wörter während<br />

verschiedener Wortbildungsprozesse auf die Typen ihrer Bestandteile beziehen lassen.<br />

Neben frei vorkommenden Lexemen enthält das Lexikon auch noch Einträge für Präfixe und<br />

Flexions-/Derivationssuffixe; allesamt werden sie in Form einer Sorte morph/1 repräsentiert.<br />

Bevor die morphologische Einsetzung erläutert wird, noch kurz etwas zum Aufbau <strong>der</strong><br />

<strong>morphologischen</strong> Grammatik. Diese besteht aus Klauseln einer dreistelligen Sorte<br />

cat(Category, List0, List1)<br />

die mit cat(morph_or_syn_object, list, list) -> morph_or_syn_object typisiert ist. Das erste<br />

Argument von cat/3 ist die zu parsende Kategorie, die beiden letzten Argumente sind die<br />

Listen, <strong>der</strong>en Differenz die von ihr dominierten Wörter ergibt. Der Funktionswert von cat/3<br />

ist <strong>der</strong> dieser Kategorie zugeordnete Merkmalsterm.<br />

Die morphologische Einsetzung erfolgt durch zwei Klauseln von cat/3: 6<br />

6 Zur größeren Klarheit nochmals eine Erläuterung zu dieser Art von Sorten: bei einer rückwärtverkettenden<br />

Beweisstrategie (wie sie beispielsweise <strong>der</strong> zur Implementierung verwendete Formalismus<br />

CUF verwendet) wird die Variable Cat an den vollständigen Merkmalsterm <strong>des</strong> zu beweisenden Subziels<br />

gebunden. Dieser Merkmalsterm muß mit dem aus dem Morph-Lexikon für Graph ermittelten<br />

Merkmalsterm konsistent sein; in diesem Falle wird die normalisierte Konjunktion bei<strong>der</strong> Terme<br />

zurückgegeben.<br />

131


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(Regel Ia,b: morphologische Einsetzung)<br />

cat(Cat, [Graph|L], L) ←<br />

Cat ∧ morph(Graph)<br />

cat(Cat, L, L) ←<br />

Cat ∧ morph(nil)<br />

Die erste Klausel dient zur Einsetzung von an <strong>der</strong> Wortoberfläche realisierten Kategorien,<br />

die zweite zum Einsetzen leerer Kategorien (wie beispielsweise Flexiven), die durch <strong>der</strong> speziellen<br />

Konstante nil gekennzeichnet sind.<br />

5.2 Derivation<br />

5.2.1 Syntax<br />

Eine formale Integration von Komposition und Derivation ist aus vielen Gründen erstrebenswert,<br />

jedoch, wie ich schon an verschiedenen Stellen versucht habe zu zeigen, nicht<br />

ohne weiteres möglich. Vertreter dieser Idee müssen erklären, warum die meisten Derivationsaffixe<br />

rechts vom Stamm stehen müssen, warum beispielsweise *Ungumleit (statt Umleitung)<br />

nicht möglich ist. Ausflucht zu nehmen zu zweifelhaften Merkmalen wie POS(ITION)<br />

(mit Werten left und right), wie dies in Krieger (1994) geschieht, ist linguistisch natürlich<br />

nicht befriedigend und verschleiert als Pseudo-Erklärung die Angelegenheit eher. Mir ist<br />

keine Erklärung bekannt – vielleicht gibt es auch keine, da das die Sprache erwerbende Kind<br />

an positiven Evidenzen die richtige Unterscheidung festlegen kann – und daher nehme ich<br />

zwei Derivationsregeln an, eine für die Präfigierung und eine für die Suffigierung:<br />

(Regel II, Präfigierung)<br />

cat(complex_stem ∧ Stem, L0,L2) ←<br />

Stem ∧<br />

true(cat(prefix, L0,L1) ∧ Prefix) ∧<br />

true(cat(simple_or_complex_stem, L1,L2) ∧ Stem1) ∧<br />

unified_head_features([Stem1]) ∧<br />

morph_subcat_principle(Prefix, Stem1) ∧<br />

GRAPH: diff(L0, L2) 7 ∧<br />

STRUCTURE: [Prefix,Stem1]<br />

(Regel III, Suffigierung)<br />

cat(complex_stem ∧ Stem, L0,L3) ←<br />

Stem ∧<br />

true(cat(simple_or_complex_stem, L0,L1) ∧ Stem1) ∧<br />

true(cat(linking_morph, L1,L2)) ∧<br />

true(cat(<strong>der</strong>ivative, L2,L3) ∧ Suffix) ∧<br />

unified_head_features([Suffix]) ∧<br />

morph_subcat_principle(Suffix, Stem1) ∧<br />

GRAPH: diff(L0, L3) ∧<br />

STRUCTURE: [Stem1,Suffix]<br />

7 diff/2 ist eine Funktion, die aus den zwei Argumentlisten <strong>der</strong>en Differenz berechnet und als Liste<br />

zurückgibt.<br />

132


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Die Position <strong>des</strong> Affixes relativ zum Stamm ist durch die Regel selbst und eine Klassifizierung<br />

<strong>der</strong> Derivationsaffixe in Präfixe und Suffixe gegeben. Hervorhebenswert ist, daß diese<br />

Regeln aufgrund <strong>der</strong> Vererbungshierarchie jeweils zwei „herkömmliche“ Strukturregeln<br />

repräsentieren, eine für zusammengesetzte Stämme und eine für Simplexstämme. Hierdurch<br />

werden im übrigen auch strukturelle Ambiguitäten bei gleichzeitiger Prä- und Suffigierung<br />

erzeugt. Ein Wort wie Unrettbarkeit hat hiernach die Klammerungen [Un [Rettbarkeit]] und<br />

[unrettbar [keit]]. Beide Regeln sind darüber hinaus rekursiv, erlauben also beliebig viele Präfixe<br />

und Suffixe . Dies scheint bei <strong>der</strong> Präfigierung auch gerechtfertigt zu sein, man denke an<br />

Vor*version (vgl. Krieger (1994)) o<strong>der</strong> vor*letzer. Bei <strong>der</strong> Suffigierung scheint dies ausgeschlossen,<br />

vermutlich <strong>des</strong>halb, weil Suffixe kategorieverän<strong>der</strong>nd wirken und zusätzlich<br />

Kopfeigenschaften haben; hierdurch ist ausgeschlossen, daß sich eine Derivation selbst<br />

„füttert“.<br />

In beiden Regeln vererbt <strong>der</strong> jeweils am weitesten rechts stehende Wortbestandteil seine<br />

syntaktischen und semantischen Kopfmerkmale mit <strong>der</strong> Funktion unified_head_features/1 an<br />

die Mutterkategorie:<br />

(9) unified_head_features(HF) ←<br />

syn_head_features(HF) ∧<br />

morph_head_features(HF)<br />

syn_head_features([]) ← ><br />

syn_head_features([SYN:HEAD: H|Rest]) ←<br />

SYN:HEAD: H ∧ syn_head_features(Rest)<br />

morph_head_features([]) ← ><br />

morph_head_features([MORPH:MHEAD: H|Rest]) ←<br />

MORPH:MHEAD: H ∧ morph_head_features(Rest)<br />

Die Sorten syn_head_features/1 und morph_head_features/1 und sind rekursiv, da bei <strong>der</strong> Flexion<br />

mehr als eine Kategorie zu den Kopfmerkmalen beiträgt (s.a. 5.4).<br />

Zentraler Teil bei<strong>der</strong> Affigierungsregeln ist das sog. morphologische Subkategorisierungsprinzip<br />

(morph_subcat_principle/2). Ritchie et al. (1992), Antworth (1994) und Krieger (1994) folgend<br />

nehme ich an, daß Affixe ihre benachbarten Stämme subkategorisieren, sie demnach in ihrer<br />

lexikalischen Matrix Angaben zu syntaktischen und <strong>morphologischen</strong> Eigenschaften <strong>der</strong><br />

Stämme machen, zu denen sie treten können. Ich verwende hierzu ein Merkmal NEEDS, das<br />

durch den Typ affix_subcat eingeführt wird.<br />

(10) affix_subcat → morph_subcat<br />

affix_subcat :: NEEDS: morph_object_or_elist<br />

NEEDS hat den Wert elist, wenn eine Subkategorisierungsanfor<strong>der</strong>ung „gesättigt“ wurde und<br />

ist bei frei vorkommenden Morphemen unterspezifiziert; Merkmale wie ± GEBUNDEN<br />

erübrigen sich damit.<br />

Die Funktion morph_subcat_principle(Affix, Stamm) in den Regeln II und III ist relativ einfach:<br />

(11) morph_subcat_principle(MORPH:MSUBCAT:NEEDS: Stem ∧<br />

SYN:ARGSTR: AffixSC ∧ SEM:Sem, Stem) ←<br />

MORPH:MSUBCAT:NEEDS: elist ∧<br />

SYN:ARGSTR: AffixSC ∧ SEM: Sem.<br />

Die Funktion überprüft demnach, ob <strong>der</strong> Stamm den Anfor<strong>der</strong>ungen <strong>des</strong> Affixes entspricht<br />

und gibt dann die syntaktische Argumentstruktur und Semantik <strong>des</strong> Affixes als Wert<br />

zurück. Da Affixe selbst diese Eigenschaften nicht haben, kann dies nur dann korrekt sein,<br />

133


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

wenn das Affix die Werte, die <strong>der</strong> Stamm unter SYN:ARGSTR und SEM trägt, an sich zieht und<br />

in einer dem Affix entsprechenden Weise verän<strong>der</strong>t. Dies wird im Lexikoneintrag <strong>des</strong><br />

Affixes festgelegt (ausführliche Beispiele folgen weiter unten).<br />

5.2.2 Semantik<br />

Von welcher Art ist nun <strong>der</strong> semantische Beitrag von Affixen? Traditionellerweise werden<br />

Affixe als semantisch leere Operatoren betrachtet, die die Bedeutung <strong>des</strong> Stammes verän<strong>der</strong>n.<br />

Um dies zu repräsentieren, habe ich folgende Typenaxiome zugrundegelegt:<br />

(12) content ↔ lexical_content | operator_content<br />

one_place_operator_struct → operator_content<br />

operator_content ::<br />

OPERATOR: operator<br />

one_place_operator_struct ::<br />

SCOPE: content<br />

operator ↔ one_place_operator | two_place_operator<br />

one_place_operator ↔ op_modality | op_negation | op_abstraction |op_identity<br />

op_modality ↔ op_possibility | op_necessity<br />

Der semantische Beitrag eines Affixes besteht demzufolge aus einem ein- o<strong>der</strong> zweistelligen<br />

Operator und seinem Wirkungsbereich:<br />

(13) OPERATOR: operator<br />

SCOPE: content<br />

one_place_operator_struct<br />

Da <strong>der</strong> Wert von SCOPE auf den Typ content eingeschränkt ist, <strong>der</strong> als Subtyp<br />

operator_content aufweist, können Operatoren ineinan<strong>der</strong> verschachtelt werden, was bei<br />

Mehrfachsuffigierung (Beispiele: Unrettbarkeit, Freiheitlichkeit) auch geboten erscheint.<br />

Suffixe wie -ung leisten noch nicht mal einen funktionalen Beitrag und scheinen bloße Nominalisierer<br />

zu sein; bei ihnen könnte man einen Identitätsoperator annehmen. Ich habe es<br />

jedoch vorgezogen, in diesen Fällen die OPERATOR/SCOPE-Teilstruktur ganz wegzulassen.<br />

Betrachten wir im folgenden einige Beispiele.<br />

5.2.2.1 -bar<br />

Suffigierung mit -bar wurde schon in Krieger (1994) dargestellt; es wird hier <strong>der</strong> Vollständigkeit<br />

halber in meinem Grammatiksystem wie<strong>der</strong>holt. Abb. 5.8 zeigt den Lexikoneintrag<br />

für „bar“. Wie daraus ersichtlich, spezifiziert -bar im NEEDS-Merkmal Verben mit direktem<br />

Objekt. Via Koindizierung 3 wird die mit diesem Objekt verknüpfte Selektionsbeschränkung<br />

an das referentielle Argument <strong>des</strong> bar-Adjektivs vererbt und <strong>der</strong> semantische Gehalt<br />

<strong>des</strong> Verbs ( 2 ) in den Skopus <strong>des</strong> Möglichkeitsoperators gebracht. Das Subjekt <strong>des</strong> Verbs<br />

(genauer gesagt: sein SEM:REFARG-Wert) erscheint schließlich in <strong>der</strong> DEFARGS-Liste <strong>der</strong> Gesamtstruktur;<br />

hier kann es durch Regel VII beispielsweise als PP mit <strong>der</strong> Präposition von<br />

o<strong>der</strong> durch verwirklicht werden (s.a. 5.4). Die Werte von SYN:ARGSTR und SEM werden bei<br />

Anwendung <strong>der</strong> Suffigierungsregel durch das morphologische Subkategorisierungsprinzip<br />

vom Affix an das zusammengesetzte Adjektiv weitergereicht.<br />

134


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

FORM: bar<br />

SYN:<br />

SEM:<br />

HEAD:<br />

ARGSTR:<br />

syn<br />

MORPH:<br />

suffix<br />

CAT: a<br />

adjective<br />

INTARG:<br />

DEFARGS: 1<br />

ARGSTR_ORDER: 1<br />

adj_argstr<br />

REFARG: 3 simple_or_dotted_type<br />

CONTENT:<br />

nominal_semantics<br />

SYN: HEAD:<br />

syn<br />

CAT: p<br />

SEM: 2 semantics<br />

DP_CASE: ldat<br />

PFORM: von<br />

preposition<br />

morph_or_syn_object<br />

OPERATOR: op_possibility<br />

SCOPE: 4 content<br />

one_place_operator_struct<br />

MSUBCAT: NEEDS:<br />

morph<br />

SYN:<br />

SEM:<br />

affix_subcat<br />

HEAD:<br />

ARGSTR:<br />

syn<br />

CAT: v<br />

verb<br />

CONTENT: 4<br />

semantics<br />

SUBJ:<br />

DIR_OBJ:<br />

SEM: 2<br />

INDIR_OBJ:<br />

PREP_OBJ:<br />

SENT_COMPL:<br />

verbal_argstr<br />

morph_or_syn_object ∧ sign_elist<br />

SEM: REFARG: 3<br />

nominal_semantics<br />

morph_or_syn_object ∧ sign_elist<br />

morph_object_or_elist ∧ morph_or_syn_object<br />

Abb. 5.8: Lexikoneintrag von „bar“.<br />

Die Semantik eines komplexen Adjektivs wie rettbar sähe dann wie in <strong>der</strong> nächsten Abbildung<br />

gezeigt aus (einige Details wurden ausgelassen):<br />

SEM:<br />

REFARG: 3<br />

CONTENT:<br />

TYPE: animate_ind<br />

individual<br />

nominal_semantics<br />

syntactic_atom<br />

OPERATOR: op_possibility<br />

SCOPE: EVENTSTR:<br />

lexical_content<br />

one_place_operator_struct<br />

EVENT: 4<br />

STATE:<br />

EVENT_TYPE: rescue<br />

ROLES:<br />

event<br />

ROLE: agent<br />

SEL_RESTR: 2<br />

role<br />

RELCONST: rescued<br />

RELARGS: 5<br />

state<br />

accomplishment<br />

Abb. 5.9: SEM-Wert von „rettbar“<br />

135<br />

,5<br />

ROLE: instrument<br />

ROLE: theme<br />

SEL_RESTR: 3<br />

role<br />

, SEL_RESTR:<br />

role<br />

TYPE: tool<br />

countable


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Logisch kann -bar so gedeutet werden, daß es die Ereignisstruktur eines Verbs in den Skopus<br />

<strong>des</strong> Möglichkeitsoperators bringt, vgl.<br />

(14) λx ◊ ∃e [event(e) ∧ type(e,rescue) ∧ theme(e,x)]<br />

5.2.2.2 -ung<br />

Wie schon mehrfach gesagt, bewirkt -ung die Nominalisierung <strong>der</strong> durch accomplishment-<br />

Verben ausgedrückten Ereignisse. Man kann dies nachbilden, indem man die Teilereignisse<br />

activity und state <strong>der</strong> verbalen Ereignisstruktur zu Elementen <strong>des</strong> dotted types <strong>des</strong> abgeleiteten<br />

Nominals macht. Der (etwas vereinfachte) Lexikoneintrag von -ung, <strong>der</strong> dies zusammen<br />

mit dem Subkategorisierungsprinzip bewerkstelligt, sieht folgen<strong>der</strong>maßen aus:<br />

(15) morph("ung") ←<br />

FORM:"ung" ∧<br />

suffix ∧<br />

SYN:HEAD:(noun ∧ CAT:n ∧ GENDER:fem) ∧<br />

decl_class(dc_III,dc_III) ∧<br />

MORPH:MSUBCAT:NEEDS: (<br />

SYN:(HEAD: verb ∧<br />

ARGSTR:(SUBJ: Subj ∧ DIR_OBJ: DirObj ∧ DEFARGS: Defargs ∧<br />

INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] )) ∧<br />

SEM:CONTENT:EVENTSTR: (accomplishment ∧ EVENT: E1 ∧ STATE: E2 )) ∧<br />

SEM:REFARG:(dotted_type ∧ TYPES: [countable ∧ TYPE: E1, countable ∧ TYPE: E2]) ∧<br />

( objectivus(Subj, DirObj, Defargs) ∨<br />

subjectivus(Subj, DirObj, Defargs) )<br />

Nominalisierungen mit -ung können auf zwei Weisen verstanden werden: als Subjektivus<br />

und als Objektivus (vgl. auch Eisenberg (1998)):<br />

(16) a) die Prüfung durch Beamte <strong>des</strong> BKA ergab ...<br />

b) die Prüfung <strong>der</strong> Beamten durch die Gauk-Behörde ergab ...<br />

Diese beiden Lesarten, die einem übrigens auch in den korrespondierenden Rektionskomposita<br />

wie<strong>der</strong> begegnen, werden durch die beiden Funktionen subjectivus/3 und objectivus/3<br />

erzeugt 8 :<br />

(17) subjectivus(SEM:SubjSem, DirObj, Defargs) ←<br />

SYN:ARGSTR:RELARG: (Rel ∧ SEM: SubjSem) ∧<br />

SYN:ARGSTR:DEFARGS: [] ∧<br />

SYN:ARGSTR:ARGSTR_ORDER: [Rel]<br />

objectivus(SEM:SubjSem, DirObj, Defargs) ←<br />

SYN:ARGSTR:RELARG: DirObj ∧<br />

SYN:ARGSTR:DEFARGS: append(Defargs, [Subj ∧ SEM: SubjSem]) ∧<br />

SYN:ARGSTR:ARGSTR_ORDER: append([DirObj], [Subj])<br />

Die erste Funktion macht die Semantik <strong>des</strong> Verbsubjekts zur Semantik <strong>des</strong> relationalen Arguments.<br />

Die Subjektivus-Lesart läßt, an<strong>der</strong>s als <strong>der</strong> Objektivus, keine Default-Argumente<br />

zu. Die objectivus-Funktion macht das direkte Objekt <strong>des</strong> Verbs zum internen <strong>der</strong> Nominali-<br />

8 Die Funktionen sind aus Gründen <strong>der</strong> Anschaulichkeit leicht vereinfacht.<br />

136


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

sierung und ergänzt die Liste <strong>der</strong> Default-Argumente um das Subjekt. Die nächste Abbildung<br />

zeigt die Subjektivus-Lesart von Prüfung.<br />

GRAPH: prüf , ung , $<br />

SYN:<br />

SEM:<br />

NUM: sg<br />

HEAD:<br />

noun<br />

ARGSTR:<br />

syn<br />

REFARG:<br />

RELARG: 1<br />

DEFARGS:<br />

SYN:<br />

SEM:<br />

phrase<br />

ARGSTR_ORDER: 1<br />

noun_argstr<br />

TYPES:<br />

TYPE_REL:<br />

dotted_type<br />

CONTENT: no_content<br />

nominal_semantics<br />

syntactic_atom<br />

HEAD: noun<br />

syn<br />

3 TYPE:<br />

REFARG: 2 TYPE: human<br />

countable<br />

nominal_semantics<br />

individual<br />

7 TYPE:<br />

individual<br />

EVENT_TYPE: check<br />

ROLES:<br />

4<br />

5<br />

6<br />

ROLE: agent<br />

SEL_RESTR: 2<br />

role<br />

ROLE: theme<br />

SEL_RESTR:<br />

role<br />

ROLE: instrument<br />

SEL_RESTR:<br />

role<br />

ACCESSIBLE_ROLES: 4 , 5 , 6<br />

event<br />

RELCONST: checked<br />

RELARGS: 5<br />

state<br />

RELCONST: event_sequence<br />

RELARGS: 3 , 7<br />

relation<br />

TYPE: entity<br />

simple_type<br />

TYPE: tool<br />

countable<br />

Abb. 5.10: Subjektivus-Lesart von „Prüfung“<br />

Für suffixlose Ereignisnominalisierungen (z.B. verkaufen – Verkauf) ist ein ähnlicher Lexikoneintrag<br />

mit einem leeren Suffix wohl am einfachsten zu realisieren.<br />

137


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

5.2.2.3 -er<br />

Nominalisierungen von accomplishment-Verben mit -er erzeugen beim Derivat typische<br />

Agens-Instrument-Alternationen (vgl. Prüfer, Bohrer, Retter), sofern die Ereignisstruktur <strong>des</strong><br />

Verbs eine Instrument-Rolle enthält. Ist dies nicht <strong>der</strong> Fall, wie z.B. bei Renovierer, so tritt in<br />

<strong>der</strong> Regel nur die Agens-Lesart hervor.<br />

Aktivitätsverben wie arbeiten und laufen erlauben ebenfalls Bildungen mit -er. Allen Verbtypen<br />

ist gemeinsam, daß das externe Argument <strong>des</strong> Verbs zum referentiellen Argument <strong>des</strong><br />

Nomens wird.<br />

Der Lexikoneintrag von -er, <strong>der</strong> dies zu repräsentieren versucht, sieht so aus:<br />

(18) morph("er") ←<br />

FORM: "er" ∧<br />

suffix ∧<br />

SYN:HEAD: (noun ∧ CAT: n ∧ GENDER: masc) ∧<br />

decl_class(dc_I,dc_II) ∧<br />

MORPH:MSUBCAT:NEEDS: (<br />

SYN:HEAD: verb ∧<br />

SYN:ARGSTR:(SUBJ: Subj ∧ DIR_OBJ: DirObj ∧<br />

INDIR_OBJ:[] ∧ DEFARGS: DefArgs) ∧<br />

SEM: Sem) ∧<br />

process_or_accomplishment_verb(SEM: Sem) ∧<br />

agent_instrument(SEM: Sem, Subj, DirObj, SYN:ARGSTR:DEFARGS: DefArgs)<br />

Die Funktion process_or_accomplishment_verb/1 prüft, ob es sich um den richtigen Verbtyp<br />

handelt; agent_instrument/4 ist eine Funktion, die das referentielle Argument <strong>des</strong> Nomens in<br />

Abhängigkeit vom Ereignistyp <strong>des</strong> Verbs realisiert und auf <strong>der</strong>en Wie<strong>der</strong>gabe ich hier verzichte<br />

(<strong>der</strong> geneigte Leser kann sich <strong>der</strong>en Aussehen mittlerweile bestimmt schon vorstellen;<br />

in Anhang C.3 findet sie sich zudem in <strong>der</strong> CUF-Implementierung dieser Grammatik).<br />

Abb. 5.11 zeigt die er-Nominalisierung eines Aktivitätsverbs, Abb. 5.12 die eines Accomplishment-Verbs.<br />

GRAPH: arbeit , er , $<br />

SYN:<br />

SEM:<br />

HEAD: NUM: sg<br />

noun<br />

syn<br />

REFARG: 1<br />

CONTENT:<br />

TYPE: human<br />

individual<br />

OPERATOR: op_possibility<br />

SCOPE:<br />

nominal_semantics<br />

syntactic_atom<br />

EVENTSTR: EVENT:<br />

lexical_content<br />

one_place_operator_struct<br />

EVENT_TYPE: work<br />

ROLES: 2<br />

ROLE: worker<br />

SEL_RESTR: 1<br />

role<br />

ACCESSIBLE_ROLES: 2<br />

event<br />

activity_eventstr<br />

Abb. 5.11: <strong>Analyse</strong> von „Arbeiter“<br />

138


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

GRAPH: prüf , er , $<br />

SYN:<br />

SEM:<br />

HEAD: NUM: sg<br />

noun<br />

syn<br />

REFARG: TYPES:<br />

CONTENT:<br />

1<br />

2<br />

dotted_type<br />

nominal_semantics<br />

syntactic_atom<br />

TYPE: human<br />

individual<br />

TYPE: tool<br />

individual<br />

OPERATOR: op_possibility<br />

SCOPE: EVENTSTR:<br />

lexical_content<br />

one_place_operator_struct<br />

EVENT:<br />

STATE:<br />

EVENT_TYPE: check<br />

ROLES:<br />

3<br />

4<br />

5<br />

ROLE: agent<br />

SEL_RESTR: 1<br />

role<br />

ROLE: theme<br />

SEL_RESTR:<br />

role<br />

ROLE: instrument<br />

SEL_RESTR: 2<br />

role<br />

ACCESSIBLE_ROLES: 3 , 4 , 5<br />

event<br />

RELCONST: checked<br />

RELARGS: 4<br />

state<br />

accomplishment<br />

Abb. 5.12: <strong>Analyse</strong> von „Prüfer“<br />

TYPE: entity<br />

simple_type<br />

Wie aus Abb. 5.11 ersichtlich ist, befindet sich das „Arbeitsereignis“ im Skopus eines Möglichkeitsoperators.<br />

Der Grund dafür ist, daß ein Arbeiter üblicherweise auch dann Arbeiter<br />

genannt wird, wenn er gerade nicht arbeitet. Weitere Verwendungen <strong>des</strong> Möglichkeitsoperators<br />

finden sich im Abschnitt über die Komposition 5.3.2.<br />

Die <strong>Analyse</strong> von Prüfer in Abb. 5.12 zeigt im referentiellen Argument die Alternation von<br />

Agens und Instrument.<br />

Die habituelle Lesart, die den er-Nominalisierungen weiterhin zukommt, wird man wohl<br />

durch ein Bedeutungspostulat herstellen müssen.<br />

139


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

5.2.2.4 be-<br />

Auch wenn man sich darüber streiten kann, ob be- ein produktives Präfix ist 9 , so möchte ich<br />

doch die von einigen Autoren (vgl. Wun<strong>der</strong>lich (1987)) festgestellte Argumentalternation im<br />

hier verwendeten System formalisieren. (19) zeigt den Lexikoneintrag für die Variante von<br />

be-, die zu intransitiven Verben mit Präpositionalobjekt (z.B. staunen) treten kann:<br />

(19) morph("be") ←<br />

FORM: "be" ∧<br />

prefix ∧<br />

MORPH:MSUBCAT:NEEDS: (<br />

SYN:HEAD: verb ∧<br />

SYN:ARGSTR:(SUBJ: (S ∧ SEM:REFARG: SubjSem) ∧<br />

DIR_OBJ:[] ∧ INDIR_OBJ:[] ∧ SENT_COMPL:[] ∧<br />

PREP_OBJ:SEM:PO_Sem ∧ DEFARGS: Defargs) ∧<br />

SEM:CONTENT: Cont ) ∧<br />

SYN:ARGSTR:(<br />

SUBJ:S ∧<br />

DIR_OBJ: (DO ∧ SYN:HEAD: (noun ∧ CASE: struc_case) ∧ SEM: PO_Sem) ∧<br />

PREP_OBJ:[] ∧ INDIR_OBJ:[] ∧ SENT_COMPL:[] ∧ DEFARGS: Defargs) ∧<br />

ARGSTR_ORDER: [S, DO] ) ∧<br />

SEM:(EXTARG: SubjSem ∧ CONTENT: Cont)<br />

Das be-Präfix nimmt demnach die Semantik <strong>des</strong> Präpositionalobjekts und realisiert sie als<br />

Nominal mit strukturellem Kasus.<br />

Allerdings legen Präfigierungsregel zusammen mit dem Lexikoneintrag (19) beträchtliche<br />

Übergenerierung an den Tag. Möchte man diese vermeiden, so wäre es möglich, diejenigen<br />

Verben, die mit (19) kompatibel sind, mit einem Typ be_prefixable zu versehen, und in (19)<br />

unter MORPH:MSUBCAT:NEEDS diesen Typ mit anzugeben. Für die Wortbildung wäre dann<br />

zwar nichts gewonnen (es wäre ja möglich, zu allen diesen Verben ihr entsprechen<strong>des</strong> be-<br />

Verb auch gleich ins Lexikon aufzunehmen), man hätte jedoch eine regelgeleitete Beziehung<br />

in Form einer lexikalischen Redundanzregel eingeführt, die ihren Nie<strong>der</strong>schlag in <strong>der</strong> solcherart<br />

verän<strong>der</strong>ten Fassung von (19) finden würde.<br />

5.2.2.5 Weitere Affixe<br />

An<strong>der</strong>e in die Grammatik integrierte Affixe fallen in die gleichen Schemata wie die schon<br />

erwähnten. Das Präfix un- subkategorisiert Nomen und Adjektive und bringt <strong>der</strong>en Semantik<br />

in den Skopus eines Negationsoperators; -heit/keit drückt Abstraktheit durch einen Abstraktionsoperator<br />

aus.<br />

9 von den 165 be-Verben in Heilmanns Verb-Datenbank (1991) zeigen 20 zweiwertige und lediglich 5<br />

dreiwertige be-Verben diese Alternation.<br />

140


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

5.3 Komposition<br />

5.3.1 Syntax<br />

Für die Syntax von Komposita ist eine einzige Regel vorgesehen:<br />

(Regel IV, Komposition)<br />

cat(complex_stem ∧ Stem, L0,L3) ←<br />

Stem ∧<br />

true(cat(simple_or_complex_stem, L0,L1) ∧ Stem1) ∧<br />

true(cat(linking_morph, L1,L2)) ∧<br />

true(cat(simple_or_complex_stem, L2,L3) ∧ Stem2) ∧<br />

unified_head_features([Stem2]) ∧<br />

semantics_construction(Stem1, Stem2) ∧<br />

GRAPH: diff(L0,L3) ∧<br />

structure: [Stem1,Stem2]<br />

Der Einfachheit halber wird das optionale Fugenelement linking_morph gleich zwischen<br />

Erst- und Zweiglied gesetzt und nicht erst, wie in Fanselow (1981), eine separate Erstgliedform<br />

konstruiert. Da nicht je<strong>des</strong> Kompositum Fugenelemente enthält, kann linking_morph<br />

auch als leere Kategorie realisiert werden. Möchte man auf leere Fugenelemente verzichten,<br />

kann man noch ein zweites Schema ohne linking_morph annehmen.<br />

Unter strukturellen Gesichtspunkten erwähnenswert ist bei Regel IV zweierlei:<br />

1) Da simple_or_complex_stem ein Supertyp sowohl von simple_stem als auch von<br />

complex_stem ist, können diese Konstituenten auf <strong>der</strong> rechten Seite von Regel IV einfach<br />

o<strong>der</strong> selbst wie<strong>der</strong>um strukturiert sein. Regel IV repräsentiert demnach vier verschiedene<br />

Wortstrukturregeln. Die Mutterkategorie ist jedoch in jedem Fall vom Typ complex_stem,<br />

weist daher auch ein STRUCTURE-Merkmal auf, welches in Listenform (außer<br />

linking_morph) die unmittelbaren Konstituenten enthält.<br />

2) Regel IV führt Ambiguitäten ein und erlaubt somit, eine Kette von mehr als zwei Morphemen<br />

auf unterschiedliche Weise zu strukturieren. Rein strukturell induzierte Präferenzen<br />

hierfür scheinen zumin<strong>des</strong>t für die deutsche Komposition nicht zu existieren.<br />

Die Funktion unified_head_features/1 stellt die Merkmalsperkolation zwischen <strong>der</strong> am<br />

weitesten rechts stehenden Tochterkategorie und <strong>der</strong> Mutter her.<br />

Die Interaktion zwischen Schemata und Typenhierarchie gewährleistet noch einen weiteren<br />

Punkt. Das Deutsche zeigt keine Binnenflexion, d.h. Komposita und Derivate können Flexionsaffixe<br />

nur ganz außen enthalten. Gegenbeispiele hierzu wie Müttergenesungswerk o<strong>der</strong><br />

Professorenclub sind nur scheinbare, wie schon vielfach nachgewiesen wurde. Als Erstglie<strong>der</strong><br />

kommen beispielsweise auch Formen vor, die nicht im Paradigma <strong>des</strong> entsprechenden<br />

Stamms (wie bei Navigationsoffizier 10 ) vorkommen. Darüber hinaus wird die vom Beispiel<br />

Professorenclub nahegelegte Erklärung, daß hier aus semantischen Gründen eine Erstgliedsform<br />

im Plural notwendig ist – die Mehrheit <strong>der</strong> Clubs haben schließlich mehr als ein Mitglied<br />

– durch Professorengattin wi<strong>der</strong>legt, es sei denn, Polygamie wäre erlaubt. Fanselow<br />

(1984) nimmt daher sogar an, daß Erstglie<strong>der</strong> von Komposita für das Merkmal Plural nicht<br />

10 Die folgenden Beispiele sind aus Fanselow (1985).<br />

141


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

markiert sind. Die vermeintliche Binnenflexion läßt sich sicher besser aus Mechanismen <strong>der</strong><br />

Prosodie und Allomorphie erklären, die durch die Einfügung von Fugenelementen ausgelöst<br />

wird.<br />

Zum Ausschluß von Binnenflexion muß demnach sichergestellt werden, daß (im Sinne <strong>der</strong><br />

Affigierungshierarchie, vgl. 5.4) vollständig o<strong>der</strong> teilweise flektierte Kategorien nicht wie<strong>der</strong>um<br />

in die Wortbildungsprozesse eingehen können; m.a.W.: eine hierarchische Anordnung<br />

<strong>der</strong> unterschiedlichen Operationen ist notwendig. Hierzu benötigt man ein formales<br />

Kriterium, welches die Information mit sich führt, ob ein Stamm bereits flektiert ist o<strong>der</strong><br />

nicht. Die interne Struktur eines <strong>morphologischen</strong> Objekts kann im vorgestellten Ansatz<br />

hierzu nicht herangezogen werden, da Flexion keine Strukturen aufbaut und sich nur in einer<br />

zunehmenden Instantiierung <strong>der</strong> Merkmale unter SYN:HEAD bemerkbar macht. Die hier<br />

vorliegende Spezifikation kann auch nicht zur Bestimmung von Flekiertheit verwendet<br />

werden, da, wie unten in Abschnitt 5.4 deutlich wird, Stämme sehr unterschiedliche Merkmalsbestimmungen<br />

tragen, um sie innerhalb ihres Paradigmas zu identifizieren. Beispielsweise<br />

trägt <strong>der</strong> Stamm Mütter das Merkmal +PLURAL, um festzulegen, daß er nur mit pluralischen<br />

Flexiven wie -n kombiniert werden kann, und die Bestimmung CASE:¬dat. Die Form<br />

Müttern hingegen ist als Erstglied eines Kompositums nicht zugelassen, obwohl sie ebenfalls<br />

für Person und Kasus markiert ist. An<strong>der</strong>s formuliert heißt das: man sieht es Stämmen nur<br />

anhand ihrer Merkmale nicht an, ob sie flektiert sind o<strong>der</strong> nicht. Die Situation ist demnach<br />

ähnlich zu <strong>der</strong>, in <strong>der</strong> ich für die Annahme eines Merkmals COMPLETE argumentiere (s. Abschnitt<br />

5.4.1), um eine Unterscheidung zwischen Stammformen vornehmen zu können, die<br />

sonst nicht zu unterscheiden wären. Eine Lösungsmöglichkeit bestünde folglich darin, ein<br />

Merkmal INFLECTED anzunehmen, auf das das Kompositionsschema Bezug nähme. Es gibt<br />

allerdings die hier weiter verfolgte Alternative, die ein zusätzliches Merkmal vermeidet,<br />

allerdings um den Preis einer zusätzlichen Regel, <strong>der</strong> „Flexionsanhebungsregel“:<br />

(Regel V, Anhebung zur Flexion)<br />

cat(pre_syntactic_atom ∧ PSA, L0,L1) ←<br />

PSA ∧<br />

true(cat(simple_or_complex_stem ∧ SYN:ARGSTR: Subcat ∧ SEM: Sem, L0,L1) ∧<br />

Stem) ∧<br />

unified_head_features([Stem]) ∧<br />

SYN:ARGSTR: Subcat ∧<br />

SEM: Sem ∧<br />

GRAPH: diff(L0,L1) ∧<br />

STRUCTURE: [Stem]<br />

Einfache bzw. zusammengesetzte Stämme können aufgrund von Regel V gewissermaßen<br />

spontan zu <strong>morphologischen</strong> Objekten <strong>der</strong> Kategorie pre_syntactic_atom werden und erben<br />

dabei die Werte <strong>des</strong> Stammes für SEM, SYN:HEAD und SYN:ARGSTR.<br />

Der Typ pre_syntactic_atom ist nun, und das ist entscheidend, trotz <strong>der</strong> weitgehenden formalen<br />

Übereinstimmung mit simple_or_complex_stem kein Subtyp von diesem, son<strong>der</strong>n<br />

befindet sich an an<strong>der</strong>er Stelle in <strong>der</strong> Hierarchie von Abb. 5.1; er wird daher nicht mehr von<br />

Regel IV erfaßt. Sobald für eine Stammform <strong>der</strong> durch Regel V vermittelte Übergang vorgenommen<br />

wurde, kann sie somit nicht mehr in das Kompositionsschema Eingang finden.<br />

Ableitungen, die Regel V innerhalb eines Kompositums verwenden, scheitern demzufolge,<br />

was auch das folgende Beispiel demonstriert.<br />

142


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Beispiel 5.1 Ableitungen für „Professorenclub“:<br />

Inkorrekte Ableitung:<br />

pre_syntactic_atom<br />

syntactic_atom<br />

simple_stem linking_morph simple_stem<br />

Professor<br />

en<br />

?<br />

club<br />

Korrekte Ableitung:<br />

syntactic_atom<br />

pre_syntactic_atom<br />

simple_stem linking_morph simple_stem<br />

Professor<br />

complex_stem<br />

Die Kategorie pre_syntactic_atom ist dann ausschließlich Gegenstand <strong>der</strong> Flexionsregeln VI<br />

und VII.<br />

5.3.2 Semantik<br />

Für die Behandlung <strong>der</strong> Wortsemantik wurde als (sehr) grober Rahmen <strong>der</strong> Ansatz von Pustejovsky<br />

(1995) gewählt, <strong>der</strong> bereits in Kapitel 3.4 ausführlicher dargestellt wurde.<br />

Nach dem Versuch einer Klassifikation <strong>der</strong> verschiedenen Kompositionsformen wird das<br />

Verhalten <strong>der</strong> Elemente je<strong>der</strong> Klasse exemplarisch an jeweils einem Beispiel untersucht.<br />

Eine mögliche Klassifikation (sie folgt in den Grundzügen Boase-Beier et al. (1984), fügt jedoch<br />

die m.E. notwendige Klasse <strong>der</strong> konzeptuell interpretierten Komposita hinzu) könnte<br />

folgen<strong>der</strong>maßen aussehen:<br />

1. Relationale Komposita: Komposita, die eine Relation im Erst- o<strong>der</strong> Zweitglied enthalten,<br />

wobei das jeweils an<strong>der</strong>e Glied eine Argumentstelle dieser Relation füllt.<br />

2. Stereotyp-Komposita: Komposita, bei denen das Erst- o<strong>der</strong> Zweitglied eine über das Weltwissen<br />

zugängliche Relation bereitstellt, die als Stereotyp bezeichnet wird und eng mit<br />

dem korrespondiert, was bei Pustejovsky (1995) als telische Rolle und bei Meyer (1993) als<br />

Zweck-Operator χ bezeichnet wird.<br />

3. Komposita mit konzeptueller Relation: Als konzeptuelle Relationen werden solche bezeichnet,<br />

die nicht direkt aus den an <strong>der</strong> Komposition beteiligten Kategorien erschlossen werden,<br />

son<strong>der</strong>n vielmehr aus Eigenschaften <strong>des</strong> konzeptuellen Typs o<strong>der</strong> Supertyps <strong>des</strong> betreffenden<br />

Wortbestandteils.<br />

4. Kontextabhängige Komposita: Hiermit sind Komposita gemeint, <strong>der</strong>en Interpretation ohne<br />

Informationen aus dem Kontext, in dem das Komposition steht, nicht möglich ist.<br />

Intuitiv betrachtet nimmt die Kompositionalität von 1 bis 4 ab, dies hängt natürlich von einer<br />

genaueren Definition <strong>des</strong> Begriffs ab. Komposita <strong>des</strong> vierten Typs sind sicherlich nichtkompositionell<br />

zu nennen, da sie ohne Kontext nicht zu deuten sind. Dieser Typ wird an<br />

dieser Stelle <strong>des</strong>wegen auch nicht weiterverfolgt.<br />

Die Aufzählung dieser vier Arten läßt sich auch als Hierarchie ansehen, bei <strong>der</strong> – von oben<br />

nach unten betrachtet – lexikalisch-grammatische Faktoren bei <strong>der</strong> Interpretation immer<br />

weniger ins Gewicht fallen.<br />

Die hier betrachteten Klassen 1 bis 3 lassen sich vor dem Hintergrund <strong>des</strong> gewählten formalen<br />

Rahmens noch weiter unterteilen, so daß sich folgende Feinglie<strong>der</strong>ung ergibt:<br />

143<br />

en<br />

club


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Relationale Komposita: • Rektionskomposita mit deverbalem Zweitglied<br />

• Komposita mit einem relationalem Nomen als Zweitglied<br />

• V-N-Komposita<br />

Stereotyp-Komposita: • N-N-Komposita, bei denen ein Konzepttyp <strong>des</strong> Erstglieds<br />

eine Argumentstelle in <strong>der</strong> stereotypen Rolle <strong>des</strong> Zweit-<br />

Komposita mit<br />

konzeptueller Relation:<br />

Tabelle 5.1: Klassifikation <strong>der</strong> Kompositionstypen<br />

glieds besetzt (o<strong>der</strong> umgekehrt)<br />

• N-N-Komposita, bei denen die Teilbedeutungen durch<br />

eine Relation in Beziehung gesetzt werden, die sich aus<br />

<strong>der</strong> Konzepthierarchie ergibt.<br />

Genaugenommen sind Stereotyp-Komposita natürlich ein Spezialfall <strong>der</strong> konzeptuell interpretierten.<br />

Sie werden dennoch als eigene Klasse geführt, weil ihre stereotype Relation „salienter“<br />

ist als die Relationen <strong>der</strong> „Konzeptkomposita“.<br />

Entsprechend dieser Einteilung ist die Funktion semantics_construction/2 in Regel IV folgen<strong>der</strong>maßen<br />

definiert:<br />

(20) semantics_construction(Stem1, Stem2) ←<br />

argument_saturation(Stem1, Stem2)<br />

semantics_construction(Stem2, Stem1) ←<br />

stereotypical_relation(Stem1, Stem2)<br />

semantics_construction(Stem1,Stem2) ←<br />

conceptual_relation(Stem1, Stem2)<br />

Die nächsten drei Teilabschnitte werden alle genannten Interpretationsmöglichkeiten genauer<br />

untersuchen.<br />

5.3.2.1 Interpretation von relationalen Komposita<br />

Relationale Komposita im weiteren Sinne sind, wie oben schon gesagt, solche, die einen relationalen<br />

Bestandteil (Verb, Nomen, Präposition) im Erst- o<strong>der</strong> Zweitglied enthalten. Im<br />

engeren Sinne werden damit nur Interpretationen bezeichnet, bei denen ein Bestandteil auch<br />

tatsächlich eine Argumentstelle <strong>der</strong> Relation füllt. Relationale Komposita (im weiteren Sinn)<br />

haben fast immer auch nichtrelationale Lesarten, bei denen Relationsstellen beispielsweise<br />

existentiell gebunden werden, vgl. z.B. (21) 11<br />

(21) a) Wiesenverkauf (= Verkauf von Wiesen ⇒ relationale Lesart)<br />

b) Wiesenverkauf (= Verkauf von etwas auf <strong>der</strong> Wiese ⇒ nichtrelationale Lesart)<br />

Die Lesart (21b) käme nach <strong>der</strong> Glie<strong>der</strong>ung in Tabelle 5.1 mit Hilfe einer konzeptuellen Relation<br />

zustande: Verkauf kann ein Ereignis bezeichnen, Ereignisse finden an Orten statt, eine<br />

Wiese ist ein Ort; die konzeptuelle Relation wäre demnach etwa: findet_statt(Ereignis, Ort).<br />

Der relationale Teil muß nicht unbedingt das Zweitglied sein, wie die Beispiele Schwimmente<br />

und Sprechvogel zeigen. Die gebundene Argumentstelle muß auch nicht immer ein Objekt <strong>des</strong><br />

deverbalen Zweitglieds sein, wie Kin<strong>der</strong>geschrei zeigt.<br />

Die Interpretation wird durch zwei Klauseln <strong>der</strong> Funktion<br />

argument_saturation(SemanticArgument, SemanticFunctor)<br />

geleistet: (22) betrifft relationale Nomen als Zweitglie<strong>der</strong>, während sich (23) auf Verben an<br />

zweiter Position bezieht.<br />

11 Einige Beispiele stammen aus Boase-Beier et al. (1984).<br />

144


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(22) argument_saturation( SYN:HEAD: noun ∧ SEM:REFARG: TypeOfArgument,<br />

SYN:HEAD: noun ∧<br />

SYN:ARGSTR: (noun_argstr ∧ RELARG:SEM:REFARG: TypeOfHead ∧<br />

DEFARGS: Defargs) ∧<br />

SEM:(REFARG: Ref ∧ CONTENT: Cont) ←<br />

selectional_restrictions_fullfilled(TypeOfHead, TypeOfArgument) ∧<br />

SEM:REFARG: Ref ∧<br />

SYN:ARGSTR:(RELARG:[] ∧ DEFARGS: Defargs ∧ ARGSTR_ORDER:[]) ∧<br />

SEM:CONTENT: Cont<br />

(23) argument_saturation( SYN:HEAD: noun ∧ SEM:REFARG: TypeOfArgument,<br />

SYN:HEAD: verb ∧<br />

SYN:ARGSTR: (verbal_argstr ∧ SUBJ: Subj ∧<br />

DIR_OBJ:SEM:REFARG: SelRestrOfHead ∧<br />

INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧<br />

DEFARGS: Defargs) ∧<br />

SEM:CONTENT: Cont) ←<br />

selectional_restrictions_fullfilled(SelRestrOfHead, TypeOfArgument) ∧<br />

SYN:ARGSTR:(SUBJ: Subj ∧ DIR_OBJ:[] ∧ INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧<br />

DEFARGS:[] ∧ ARGSTR_ORDER:[]) ∧<br />

SEM:CONTENT:(OPERATOR: op_possibility ∧ SCOPE: Cont)<br />

In (22) wie (23) wird geprüft, ob <strong>der</strong> Typ <strong>des</strong> referentiellen Arguments <strong>des</strong> semantischen<br />

Arguments mit dem Typ in <strong>der</strong> offenen Argumentstelle <strong>des</strong> semantischen Funktors kompatibel<br />

ist 12 . Dies leistet die Funktion selectional_restrictions_fullfilled/2, die durch zwei Klauseln<br />

gegeben ist:<br />

(24)<br />

a) selectional_restrictions_fullfilled(Type, simple_type ∧ Type) ← ><br />

b) selectional_restrictions_fullfilled(Type, dotted_type ∧ TYPES:TypeList) ←<br />

member(Type,TypeList)<br />

Die Klauseln in (24) unterscheiden, ob <strong>der</strong> semantische Typ <strong>des</strong> Arguments ein simple_type<br />

o<strong>der</strong> ein dotted_type nach <strong>der</strong> Typenhierarchie aus Abb. 5.3 ist. Durch den Typ simple_type<br />

bleibt das Erstglied hinsichtlich <strong>der</strong> doppelten Dichotomie Individuum – Gruppe und zählbar –<br />

nicht zählbar unterspezifiziert, wie bereits in Fanselow (1984) vorgeschlagen wurde. Zur Demonstration<br />

zeigt Abb. 5.13 die dem Wort Messerfan zugeordnete Merkmalsstruktur: ein<br />

Messerfan kann ein Fan eines einzelnen Messers (vielleicht <strong>des</strong> speziellen Messers, welches<br />

Rambo bei sich trägt) o<strong>der</strong> einer Menge von Messern sein. Aufgrund <strong>der</strong> Numerus-Unmarkiertheit<br />

<strong>des</strong> Erstglieds 13 besteht m.E. auch kein Unterschied in <strong>der</strong> Interpretation von Buchfan<br />

und Bücherfan. Allerdings gibt es Numerus-Festlegungen für das Erstglied, die sich aufgrund<br />

<strong>des</strong> Weltwissens ergeben, wie z.B. bei Dorfbürgermeister.<br />

Abb. 5.14 auf Seite 147 zeigt am Beispiel <strong>des</strong> Wortes Messerprüfer die Anwendung von (23).<br />

Aufgrund <strong>der</strong> <strong>der</strong>ivationellen Eigenschaften von -er ist dem referentiellen Argument <strong>des</strong><br />

Zweitglieds Prüfer ein dotted type zugeordnet, <strong>der</strong> die Alternation zwischen Personenbezeichnung<br />

und Instrument ausdrückt. In <strong>der</strong> Ereignisstruktur <strong>des</strong> Kompositums füllt das<br />

12 Die Bezeichnungen semantisches Argument und semantischer Funktor beziehen sich auf die Parameter<br />

<strong>der</strong> Funktion argument_saturation/2.<br />

13 Für Numerus spezifizierte Erstglie<strong>der</strong> sind durch die „Flexionsanhebungsregel“ V ausgeschlossen.<br />

145


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Erstglied Messer die thematische Rolle Thema. Warum die Ereignisstruktur im Skopus <strong>des</strong><br />

Möglichkeitsoperators steht, wird weiter unten erläutert.<br />

GRAPH: messer , fan , $<br />

SYN:<br />

SEM:<br />

HEAD:<br />

ARGSTR:<br />

syn<br />

CAT: n<br />

NUM: sg<br />

CASE: acc ∨ dat∨ nom<br />

GENDER: masc<br />

noun<br />

REFARG: 1<br />

CONTENT:<br />

RELARG:<br />

DEFARGS:<br />

ARGSTR_ORDER:<br />

noun_argstr<br />

TYPE: human<br />

individual<br />

nominal_semantics<br />

syntactic_atom<br />

EVENTSTR: STATE:<br />

lexical_content<br />

RELCONST: fan_of<br />

RELARGS:<br />

state<br />

state_eventstr<br />

1<br />

TYPE: knife<br />

countable<br />

Abb. 5.13: <strong>Analyse</strong> von „Messerfan“<br />

An<strong>der</strong>s liegt <strong>der</strong> Fall bei einem semantischen Argument mit einem dotted type (24b). Hier<br />

wird geprüft, ob unter den den dotted type konstituierenden einfachen Typen ein Element ist,<br />

welches mit <strong>der</strong> Selektionsbeschränkung <strong>der</strong> zu schließenden Relationenposition kompatibel<br />

ist. Dies ist erfor<strong>der</strong>lich, da sich die Typenbeschränkung nicht auf den gesamten zusammengesetzten<br />

Typ <strong>des</strong> semantischen Arguments beziehen muß. Betrachten wir zwei Beispiele:<br />

Buch und Museum haben als referentielle Argumente jeweils zusammengesetzte Typen<br />

(dotted types): bei Buch gibt es eine Alternation zwischen physikalischem Objekt und den<br />

Informationen <strong>des</strong> Buchinhalts, bei Museum u.a. die Lesarten „Gebäude“ und „Institution“.<br />

Während Buchfan als „Fan von bestimmten Gegenständen“ und „Fan von Buchinhalten“<br />

interpretiert werden kann, erlaubt Museumsrenovierung nur die Deutung, daß hierbei ein<br />

Gebäude renoviert wurde; die an<strong>der</strong>e Möglichkeit ist aufgrund <strong>der</strong> Selektionsbeschränkungen,<br />

die renovieren seinem direkten Objekt auferlegt, ausgeschlossen. Genau dieser Sachverhalt<br />

wird durch (24b) ausgedrückt.<br />

Bei allen Komposita, die aufgrund <strong>der</strong> in Tabelle 5.1 aufgeführten Interpretationsvarianten<br />

zustande kommen, handelt es sich um Determinativkomposita. In den Interpretationsfunktionen<br />

(22) und (23) – wie auch bei den an<strong>der</strong>en, die in diesem Abschnitt noch vorgestellt<br />

werden – wird dies durch Vererbung <strong>des</strong> referentiellen Arguments vom Zweitglied auf die<br />

Mutterkategorie erzielt; Abb. 5.13 verdeutlicht auch dies 14 .<br />

14 Als Platzgründen ist das STRUCTURE-Merkmal in allen hier abgebildeten Merkmalsstrukturen unter-<br />

drückt.<br />

146


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(22) und (23) führen übrigens zusammen mit <strong>der</strong> Derivations- und Kompositionsregel eine<br />

strukturelle Ambiguität bei deverbalen relationalen Komposita ein. Präterminalfolgen <strong>der</strong><br />

Form N + V + Suffix werden als [[N + V] + Suffix] o<strong>der</strong> als [N + [V + Suffix]] strukturiert.<br />

Interessanterweise sind – abgesehen von den strukturellen Unterschieden – die Merkmalsstrukturen<br />

<strong>der</strong> Wurzelkategorien gleich; ich habe es vorgezogen, mich nicht für eine <strong>der</strong><br />

Strukturen zu entscheiden.<br />

GRAPH: messer , prüf , er , $<br />

SYN:<br />

SEM:<br />

HEAD: NUM: sg<br />

noun<br />

syn<br />

REFARG: TYPES:<br />

CONTENT:<br />

1<br />

2<br />

dotted_type<br />

nominal_semantics<br />

syntactic_atom<br />

TYPE: human<br />

individual<br />

TYPE: tool<br />

individual<br />

OPERATOR: op_possibility<br />

SCOPE: EVENTSTR:<br />

lexical_content<br />

one_place_operator_struct<br />

EVENT:<br />

STATE:<br />

EVENT_TYPE: check<br />

ROLES:<br />

3<br />

4<br />

5<br />

ROLE: agent<br />

SEL_RESTR: 1<br />

role<br />

ROLE: theme<br />

SEL_RESTR:<br />

role<br />

ROLE: instrument<br />

SEL_RESTR: 2<br />

role<br />

ACCESSIBLE_ROLES: 3 , 4 , 5<br />

event<br />

RELCONST: checked<br />

RELARGS: 4<br />

state<br />

accomplishment<br />

Abb. 5.14: <strong>Analyse</strong> von „Messerprüfer“<br />

TYPE: knife<br />

countable<br />

Wie sind nun V-N-Komposita wie Hackmesser, Horchgerät, Frankiermaschine 15 zu interpretieren?<br />

Ich habe sie unter die relationalen Komposita subsumiert, da auch ihre Deutung etwas<br />

mit <strong>der</strong> Argumentstruktur – genauer gesagt: <strong>der</strong> Ereignisstruktur – eines Lexems zu tun hat.<br />

Die Differenz zu den zuvor genannten relationalen Komposita besteht jedoch darin, daß<br />

diese Argumentstruktur vom Erstglied <strong>des</strong> zusammengesetzten Wortes stammt und <strong>der</strong> Typ<br />

<strong>des</strong> semantischen Funktors <strong>des</strong> Zweitglieds meist ein Werkzeug o<strong>der</strong> Instrument charakterisiert,<br />

zumin<strong>des</strong>t dann, wenn dieser Typ sich auf ein Artefakt bezieht. M.a.W.: <strong>der</strong> Unterschied<br />

zu den an<strong>der</strong>en Typen <strong>der</strong> relationalen Interpretation besteht darin, daß das referenti-<br />

15 Die Beispiele stammen aus <strong>der</strong> CELEX-Datenbank, die immerhin über 1200 einfache V-N-Komposita<br />

verzeichnet, die allerdings nicht immer richtig klassifiziert wurden.<br />

147


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

elle Argument <strong>des</strong> Gesamtworts vom Zweitglied stammt, <strong>der</strong> semantische Funktor jedoch<br />

vom Erstglied.<br />

Wie kann die Bedeutung von V-N-Komposita umschrieben werden? Eine Paraphrase ist<br />

meiner Ansicht nach die NP „ein N, mit dem es möglich ist, zu V-en“. Eine Frankiermaschine<br />

wäre demnach eine Maschine, mit <strong>der</strong> es möglich ist, etwas zu frankieren. Wenn diese <strong>Analyse</strong><br />

korrekt ist, dann sieht <strong>der</strong> dritte Fall von argument_saturation/2 folgen<strong>der</strong>maßen aus:<br />

(25) argument_saturation( SYN:HEAD: verb ∧ SEM:CONTENT: (Content ∧ EVENTSTR: Eventstr),<br />

SYN:HEAD: noun ∧ SYN:ARGSTR: (noun_argstr ∧ RELARG:[]) ∧<br />

SEM:REFARG: Ref) ←<br />

true(role(Eventstr) ∧ Ref) ∧<br />

SEM:REFARG:Ref ∧<br />

SYN:ARGSTR: (RELARG:[] ∧ DEFARGS:[] ∧ ARGSTR_ORDER:[]) ∧<br />

SEM:CONTENT: (OPERATOR: op_possibility ∧ SCOPE: Content)<br />

Die Funktion überprüft mit Hilfe <strong>der</strong> Sorte role/1, die nichtdeterministisch eine Rolle aus <strong>der</strong><br />

Ereignisstruktur <strong>des</strong> Verbs zurückgibt, ob <strong>der</strong>en Selektionsbeschränkungen mit denen <strong>des</strong><br />

referentiellen Arguments <strong>des</strong> Zweitglieds kompatibel sind. Es sind hierbei prinzipiell alle<br />

Rollen zulässig, wie die Beispiele Animiermädchen (Agens) und Ausziehtisch (Thema) zeigen.<br />

Bei den V-N-Komposita, die in <strong>der</strong> CELEX-Datenbank verzeichnet sind, ist allerdings die<br />

Instrument-Rolle die am häufigsten verwendete. Abb. 5.15 zeigt die <strong>Analyse</strong> von „Hackmesser“:<br />

GRAPH: hack , messer , $<br />

SYN:<br />

SEM:<br />

HEAD: noun<br />

syn<br />

REFARG: 1<br />

CONTENT:<br />

TYPE: knife<br />

individual<br />

OPERATOR: op_possibility<br />

SCOPE:<br />

nominal_semantics<br />

syntactic_atom<br />

EVENTSTR: EVENT:<br />

lexical_content<br />

one_place_operator_struct<br />

EVENT_TYPE: hack<br />

ROLES:<br />

event<br />

activity_eventstr<br />

ROLE: agent<br />

SEL_RESTR:<br />

role<br />

ROLE: theme<br />

SEL_RESTR:<br />

role<br />

ROLE: instrument<br />

SEL_RESTR: 1<br />

role<br />

TYPE: human<br />

countable<br />

Abb. 5.15: <strong>Analyse</strong> von „Hackmesser“<br />

TYPE: physical_entity<br />

simple_type<br />

Diese Form <strong>der</strong> semantischen <strong>Analyse</strong> ist demnach analog zur Derivation mit -bar und -er .<br />

Im nächsten Abschnitt werde ich dafür argumentieren, daß es neben diesen „konstruktiven“<br />

Verwendungen <strong>des</strong> Möglichkeitsoperators auch einen „lexikalischen Möglichkeitsoperator“<br />

gibt.<br />

148


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

5.3.2.2 Interpretation von Stereotyp-Komposita<br />

Es ist meiner Ansicht nach schwerlich zu bestreiten, daß manche Lexeme wie Fabrik eine<br />

Interpretation mit einer stereotypen Relation geradezu aufdrängen. Die CELEX-Datenbank<br />

verzeichnet im Falle von Fabrik sechs zusammengesetzte Bildungen – Munitionsfabrik, Papierfabrik,<br />

Schokoladenfabrik, Strumpffabrik, Textilfabrik, Tuchfabrik – und alle haben eine deutlich<br />

bevorzugte Lesart, bei <strong>der</strong> Erst- und Zweitglied über eine Relation produzieren miteinan<strong>der</strong><br />

in Verbindung gesetzt werden. In welcher Weise ist diese Relation, die bei Meyer (1993)<br />

Purpose-Operator und bei Pustejovsky (1995) telische Rolle heißt, in einem Lexem repräsentiert?<br />

Es wäre nun relativ einfach, hierfür ein Merkmal PURPOSE anzunehmen und es an geeigneter<br />

Stelle unter SEM zu plazieren. Allerdings scheint die Angelegenheit einen weiteren<br />

Gedanken wert zu sein. Stereotype Relation bedeutet meiner Ansicht nach so etwas wie eine<br />

lexikalisch verankerte Möglichkeit. In Hinblick auf das Beispiel Fabrik heißt das, daß es möglich<br />

ist, daß eine Fabrik etwas produziert. Sie muß dies nicht tun, auch eine stillgelegte Fabrik ist<br />

vermutlich nach common sense Verständnis immer noch eine Fabrik. Ich repräsentiere daher<br />

die stereotype Relation als eine lexikalisch verankerte Ereignisrelation, die im Skopus <strong>des</strong><br />

Möglichkeitsoperators steht. Abb. 5.16 zeigt die SEM:CONTENT-Teilstruktur von Fabrik.<br />

OPERATOR: op_possibility<br />

SCOPE:<br />

EVENTSTR: EVENT:<br />

lexical_content<br />

one_place_operator_struct<br />

EVENT_TYPE: produce<br />

ROLES:<br />

3<br />

4<br />

ROLE: worker<br />

SEL_RESTR:<br />

role<br />

ROLE: produced<br />

SEL_RESTR:<br />

role<br />

ACCESSIBLE_ROLES: 3 , 4<br />

event<br />

activity_eventstr<br />

TYPE: human<br />

countable<br />

TYPE: physical_entity<br />

simple_type<br />

Abb. 5.16 : SEM:CONTENT-Substruktur von „Fabrik“<br />

Das Merkmal ACCESSIBLE_ROLES hält die noch ungebundenen thematischen Rollen in <strong>der</strong><br />

Ereignisstruktur in Form einer Liste fest. Dieser Mechanismus entspricht in etwa einer<br />

λ-Abstraktion über die Rollen <strong>der</strong> Ereignisrelation und hält daher fest, welche Rollen noch<br />

gebunden werden können. Notwendig ist dies, um Komposita wie *Messermesserfabrik<br />

auszuschließen, bei denen eine Rolle mehrfach gebunden wurde.<br />

Eine weitere Überlegung rechtfertigt diese <strong>Analyse</strong> von stereotyper Relation zumin<strong>des</strong>t in<br />

Rahmen <strong>des</strong> hier gewählten Typsystems. Meyer und Pustejovsky folgend gehe ich davon<br />

aus, daß nur Artefakte über eine solche stereotype Relation verfügen. Man kann sich nun<br />

fragen, ob es Wortbildungsmechanismen gibt, die Einfluß auf die Struktur unter<br />

SEM:CONTENT haben und die möglicherweise mit <strong>der</strong> Verwendung dieser Substruktur als<br />

Träger <strong>der</strong> stereotypen Relation in Konflikt geraten können. Determinativkomposition kann<br />

nicht diesen Effekt haben, da <strong>der</strong> Wert von SEM:CONTENT entwe<strong>der</strong> vom Erstglied o<strong>der</strong> vom<br />

Zweitglied an das Kompositum übergeht. Derivation mit nominalisierenden Suffixen schafft<br />

im allgemeinen Nomen, die Ereignisse o<strong>der</strong> Personenbezeichnungen und nicht Artefakte<br />

bezeichnen. Wenn dies doch geschieht, z.B. bei <strong>der</strong> er-Ableitung von prüfen mit <strong>der</strong> Instrument-Lesart,<br />

dann übernimmt das Derivat die Ereignisstruktur <strong>des</strong> Verbs, die sich ebenfalls<br />

149


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

im Skopus <strong>des</strong> Möglichkeitsoperators befindet. M.a.W.: die Interpretation von deverbalen<br />

relationalen Komposita und Stereotyp-Komposita erfolgt in sehr ähnlicher Weise. Nachfolgend<br />

ist die Interpretationsregel für Stereotyp-Komposita unter diesen Annahmen wie<strong>der</strong>gegeben:<br />

(26) stereotypical_relation( SYN:HEAD:noun ∧ SEM:REFARG: RefargOfArg,<br />

SYN:HEAD:noun ∧ SEM:REFARG: Ref ∧<br />

SEM:CONTENT:( OPERATOR: OP ∧ SCOPE:EVENTSTR:EVENT: (<br />

EVENT_TYPE: EventType ∧ ROLES: Roles ∧<br />

ACCESSIBLE_ROLES: AccessibleRoles )) ∧<br />

SYN:ARGSTR: Argstr ∧ SEM:CONTENT: Cont) ←<br />

delete(SEL_RESTR: SelectionRestrictionsOfRole, AccessibleRoles, RestRoles) ∧<br />

selectional_restrictions_fullfilled(SelectionRestrictionsOfRole, RefargOfArg) ∧<br />

SYN:ARGSTR: Argstr ∧ SEM:REFARG: Ref ∧<br />

SEM:CONTENT:( OPERATOR: OP ∧ SCOPE:EVENTSTR:EVENT: (<br />

EVENT_TYPE: EventType ∧<br />

ROLES: Roles ∧<br />

ACCESSIBLE_ROLES: RestRoles) )<br />

Der zweite Parameter von stereotypical_relation/2 ist dem Teil <strong>des</strong> Kompositums zugeordnet,<br />

aus dem die Relation erschlossen wird. Deren noch zugängliche Rollen werden bestimmt<br />

und dann geprüft, ob eine dieser Rollen mit den Selektionsbeschränkungen, die für das referentielle<br />

Argument <strong>des</strong> semantischen Arguments gelten, kompatibel ist; dies erfolgt durch<br />

die in (24) wie<strong>der</strong>gegebene Funktion selectional_restrictions_fullfilled/2. delete/3 ist wie member/2<br />

definiert, nur daß, nachdem eine passende Rolle gefunden wurde, alle übrigen Rollen<br />

im letzten Argument (RestRoles) zurückgegeben werden. Diese verbleibenden Rollen werden<br />

dann die neuen zugänglichen Rollen <strong>des</strong> N-N-Kompositums unter ACCESSIBLE_ROLES.<br />

Alle übrigen semantischen Eigenschaften <strong>des</strong> Zweitglieds werden durch (26) an das Kompositum<br />

vererbt. Die nächste Abbildung zeigt die <strong>Analyse</strong> von Messerfabrik:<br />

SEM:<br />

REFARG: TYPES:<br />

dotted_type<br />

1<br />

TYPE: factory<br />

individual<br />

TYPE: 2 human<br />

TYPE: 2<br />

GROUP_OF:<br />

individual<br />

group<br />

OPERATOR: op_possibility<br />

ROLES:<br />

EVENT:<br />

EVENTSTR:<br />

CONTENT: SCOPE:<br />

nominal_semantics<br />

syntactic_atom<br />

lexical_content<br />

one_place_operator_struct<br />

EVENT_TYPE: produce<br />

3<br />

ROLE: worker<br />

SEL_RESTR: 1<br />

role<br />

ROLE: produced<br />

SEL_RESTR:<br />

role<br />

ACCESSIBLE_ROLES: 3<br />

event<br />

activity_eventstr<br />

TYPE: knife<br />

countable<br />

Abb. 5.17: SEM-Wert von „Messerfabrik“<br />

150


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

In Abb. 5.17 sieht man, wie die produced-Rolle durch das referentielle Argument von Messer<br />

gefüllt worden ist. Das Numerus-Merkmal bleibt in <strong>der</strong> üblichen Weise unterspezifiziert. Die<br />

Substruktur unter TYPE: knife ist noch umfangreicher, wie <strong>der</strong> nächste Abschnitt zeigt.<br />

5.3.2.3 Interpretation von Komposita mit konzeptueller Relation<br />

Die hier vorgeschlagene Klasse <strong>der</strong> konzeptuell interpretierten Komposita deckt sich nicht<br />

mit <strong>der</strong> in Boase-Beier et al. (1984) so genannten Klasse <strong>der</strong> »Komposita mit Grundrelation«.<br />

Als Grundrelationen werden dort Relationen wie LOC(AL), AUS, UND und ÄHN(LICH)<br />

bezeichnet. Meiner Ansicht nach muß man hier differenzieren: Relationen wie LOC und<br />

AUS hängen mit den durch Lexeme ausgedrückten Konzepten und <strong>der</strong>en Superkonzepten<br />

zusammen, während UND und ÄHN sich möglicherweise aus dem Interpretationsapparat<br />

selbst ergeben, weil schwer vorstellbar ist, daß unser Weltwissen Informationen darüber<br />

enthält, welche Dinge welchen an<strong>der</strong>en Dingen ähneln; hier scheinen vielmehr Inferenzprozesse<br />

vorzuliegen.<br />

Die konzeptuell gesteuerte Interpretation von Wiesenverkauf in seiner nicht relationalen Lesart<br />

»Verkauf von etwas auf einer Wiese« ergibt sich meiner Ansicht nach aus folgendem<br />

Mechanismus:<br />

• Verkauf als Ereignisnominalisierung weist event als Konzepttyp auf;<br />

• Mit dem Typ event ist eine Relation takes_place_at(place) verknüpft ;<br />

• Der Konzepttyp von Wiese erfüllt die Beschränkungen für das Argument dieser Relation.<br />

Wie kann man <strong>der</strong>artige Interpretationsmechanismen im gewählten formalen Rahmen<br />

nachbilden? Da hier konzeptuelles Wissen im Spiel ist, muß man eine Möglichkeit finden,<br />

dieses Wissen auch zu repräsentieren. Als natürlicher Ort hierfür bietet sich die schon benutzte<br />

Konzepthierarchie an, die die durch die Lexeme ausgedrückten Begriffe in grober<br />

Weise vorstrukturiert. Durch Einführung weiterer Merkmale können feinkörnigere Differenzierungen<br />

erzielt werden, wie (27) zeigt:<br />

(27) physical_entity ::<br />

PHYSICAL_STATE: physical_state ∧<br />

CONSISTS_OF: list ∧<br />

HAS_PARTS: list<br />

temporal ::<br />

TAKES_PLACE_AT: place<br />

Eine Instanz von physical_entity hat demnach Attribute für den Aggregatzustand, für das<br />

Material und die Teile, aus denen es besteht; eine Instanz <strong>des</strong> Typs temporal, <strong>der</strong> Supertyp<br />

von event und activity ist, weist ein Merkmal für den Ort auf, an dem <strong>der</strong> zeitliche Ablauf<br />

stattfindet.<br />

Allerdings sind aussagenlogische Typsysteme nicht stark genug, um die Art von Wissensrepräsentation<br />

zu ermöglichen, die benötigt wird. Diese Typsysteme dürfen keine Variablen<br />

enthalten und auch keine Sorten, die aber gerade benötigt würden, um Relationen zu repräsentieren.<br />

Die Lösung für dieses Problem sind sog. rekursive Typenconstraints (vgl. Carpenter<br />

(1992)), bei denen ein Typ mit einem beliebigen Merkmalsterm versehen werden kann:<br />

(28) Const: AtomType � Desc<br />

Const ist demnach eine Funktion, die einem atomaren Typ σ einen Merkmalsterm φ <strong>der</strong> Beschreibungslogik<br />

zuordnet. Die intendierte Bedeutung davon ist, daß jede Instanz von σ mit<br />

φ unifizierbar sein muß. Die nächste Abbildung zeigt Const(knife):<br />

151


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(29) knife ∧<br />

PHYSICAL_STATE: solid ∧<br />

CONSISTS_OF: [uncountable ∧ TYPE: metal] ∧<br />

HAS_PARTS: [individual ∧ TYPE: blade]<br />

In (29) wird ausgesagt, daß ein Messer von festem Aggregatzustand ist, aus Metall besteht<br />

und eine Klinge als Teil besitzt. In <strong>der</strong> Terminologie <strong>der</strong> Wissensrepräsentation sind dies<br />

Default-Eigenschaften (vgl. Reimer (1991)).<br />

Die Interpretation konzeptueller Komposita würde dann auf diese Eigenschaften zurückgreifen.<br />

Das Wort Stahlmesser könnte entwe<strong>der</strong> mit dem CONSISTS_OF-Merkmal von knife<br />

o<strong>der</strong> mit dem gleichen Merkmal von Const(blade) interpretiert werden, d.h. als ein »Messer<br />

aus Stahl« o<strong>der</strong> als ein »Messer mit einer Klinge aus Stahl« 16 .<br />

Allerdings muß unter diesen Voraussetzungen die Interpretationsregel Informationen darüber<br />

haben, welche Merkmale mit einem Typ verknüpft sind, denn die Merkmale <strong>der</strong> verschiedenen<br />

Typen können natürlich unterschiedlich sein. Die Merkmale von Instanzen von<br />

temporal aus (27) und physical_entity sind beispielsweise disjunkt.<br />

Abhilfe schafft hier ein weiteres Merkmal SUBCONCEPTS, das beim obersten Typ <strong>der</strong> Konzepthierarchie<br />

(entity) eingeführt wird und für jeden Typ festhält, welche Merkmale für eine<br />

konzeptuelle Interpretation zur Verfügung stehen. (29) sieht dann wie folgt aus:<br />

(30) knife ∧<br />

PHYSICAL_STATE: solid ∧<br />

CONSISTS_OF: [uncountable ∧ TYPE: metal ∧ Metal] ∧<br />

HAS_PARTS: [individual ∧ TYPE: blade ∧ Blade] ∧<br />

SUBCONCEPTS: [Metal, Blade]<br />

Der nächste Ausschnitt zeigt noch das Typenconstraint von temporal:<br />

(31) temporal ∧<br />

TAKES_PLACE_AT: [individual ∧ TYPE: place ∧ Place] ∧<br />

SUBCONCEPTS: [Place]<br />

Da Typenconstraints in dieser Art und Weise in <strong>der</strong> Beschreibungslogik nicht integriert sind,<br />

werden sie mittels einer Sorte concept/1 realisiert.<br />

Unter Voraussetzung dieser Festlegungen ist die Interpretationsregel für „Konzeptkomposita“<br />

nun relativ einfach, da sie lediglich auf das für alle Konzepttypen einheitliche<br />

SUBCONCEPTS-Attribut zurückgreifen muß:<br />

(32) conceptual_relation( SYN:HEAD: noun ∧ SEM:REFARG: RefArgOfArg,<br />

SYN:HEAD: noun ∧ SEM:REFARG: RefArgOfFunctor ∧<br />

SYN:ARGSTR: Argstr ∧ SEM:CONTENT: Cont) ←<br />

SEM:REFARG: type_relation(type_concept(RefArgOfArg),<br />

type_concept(RefArgOfFunctor)) ∧<br />

SYN:ARGSTR: Argstr ∧<br />

SEM:CONTENT: Cont<br />

Die Funktion type_relation/2 in (32) konstruiert das referentielle Argument <strong>des</strong> N-N-Kompositums,<br />

indem sie versucht, den Konzepttyp <strong>des</strong> Erstglieds mit einer Argumentstelle einer<br />

16 Typen, die in Constraints verwendet werden (wie hier blade) können auch wie<strong>der</strong>um Typen-<br />

constraints zugeordnet sein.<br />

152


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

konzeptuellen Relation <strong>des</strong> Zweitglieds in Übereinstimmung zu bringen. Da sowohl Erstglied<br />

als auch Zweitglied einfache o<strong>der</strong> zusammengesetzte Typen haben können, müssen<br />

vier Fälle unterschieden werden, die durch die nichtdeterministische Sorte type_concept/1<br />

abgedeckt werden. type_concept/1 extrahiert aus zusammengesetzten Typen die Teiltypen<br />

und ist in (33) wie<strong>der</strong>gegeben:<br />

(33) type_concept(simple_type ∧ Simple_type ∧ TYPE: Type) ←<br />

Simple_type ∧<br />

TYPE: concept(Type)<br />

type_concept(dotted_type ∧ TYPES: TypeList) ←<br />

member(Simple_type ∧ TYPE: Type, TypeList) ∧<br />

Simple_type ∧ TYPE: concept(Type)<br />

Type_concept/1 greift auf die Typenconstraints zurück, die in Form von concept/1 vorliegen<br />

und wie (30) o<strong>der</strong> (31) aussehen. Die Funktion type_relation/2 vereinfacht sich damit zu (34):<br />

(34) type_relation( simple_type ∧ ArgType,<br />

Simple_Type ∧ TYPE:SUBCONCEPTS: ConceptList) ←<br />

member(ArgType, ConceptList) ∧<br />

Simple_Type<br />

Die Sorte type_relation/2 versucht demnach den Konzepttyp <strong>des</strong> Arguments in <strong>der</strong><br />

SUBCONCEPTS-Liste <strong>des</strong> semantischen Funktors zu finden und instantiiert die entsprechende<br />

Argumentposition dabei mit diesem Konzepttyp.<br />

Ein Nebeneffekt <strong>des</strong> Typenconstraint-Mechanismus ist, daß sich mit ihm auf einfache Weise<br />

die beispielsweise von Meyer (1993) vorgeschlagene Relationensuche in Superkonzepten<br />

nachbilden läßt. Da ein Typ wie knife auch mit allen seinen Supertypen wie entity, physical_entity,<br />

tool etc. kompatibel ist 17 , können auch <strong>der</strong>en (allgemeinere) Typenconstraints zur<br />

Interpretation herangezogen werden. Man muß dazu nur dafür sorgen, daß spezifischere<br />

Typen vor weniger spezifischen Typen ausgewertet werden, was sich allerdings nur unter<br />

Kenntnis <strong>der</strong> Beweisstrategie und dementsprechen<strong>der</strong> Anordnung <strong>der</strong> Klauseln von concept/1<br />

erzielen läßt.<br />

Die nächsten beiden Abbildungen demonstrieren die beschriebenen Techniken. Abb. 5.18<br />

zeigt die Merkmalsstruktur von Stahlmesser in <strong>der</strong> Deutung »Messer aus Stahl«, während<br />

Abb. 5.19 die <strong>Analyse</strong> von Fabrikverkauf in <strong>der</strong> nicht-relationalen Lesart (z.B. »Fabrikverkauf<br />

von Gummibärchen«) wie<strong>der</strong>gibt. Letztere <strong>Analyse</strong> kommt dadurch zustande, daß Verkauf<br />

eine affixlose Ereignisnominalisierung ist und mit seinem (zusammengesetzten) referentiellen<br />

Argument auf ein Ereignis (vom Typ event) bzw. einen Zustand referiert. Event ist nun<br />

ein Subtyp von temporal, mit dem das in (31) wie<strong>der</strong>gegebene Constraint verbunden ist.<br />

Dessen Merkmal TAKES_PLACE_AT wird schließlich zur Interpretation benutzt, da factory ein<br />

Subtyp von place ist. Eine Vorkehrung zur Vermeidung doppelter „Belegungen“ von Relationsargumenten<br />

wie in *Stahlstahlmesser“ ist übrigens aus Darstellungsgründen in diesem<br />

Mechanismus nicht realisiert. Etwas <strong>der</strong>artiges ist jedoch nötig, da es sich hierbei um keine<br />

pragmatische Einschränkung <strong>der</strong> Art handelt, daß hier ein Sachverhalt doppelt ausgedrückt<br />

würde; dies kann an <strong>der</strong> Nicht-Akzeptabilität von *Stahlmetallmesser und *Stahlsteinmesser<br />

abgelesen werden. Jede Argumentstelle einer konzeptuellen Relation kann anscheinend nur<br />

durch ein Argument gebunden werden.<br />

17 vgl. den Ausschnitt <strong>der</strong> Typenhierarchie in (8).<br />

153


5.3.3 Fazit<br />

Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

GRAPH: stahl , messer , $<br />

SYN:<br />

SEM:<br />

NUM: sg<br />

HEAD:<br />

noun<br />

ARGSTR: RELARG:<br />

noun_argstr<br />

syn<br />

REFARG: 1 TYPE:<br />

CONTENT:<br />

individual<br />

PHYSICAL_STATE: hard<br />

CONSISTS_OF:<br />

HAS_PARTS:<br />

knife<br />

OPERATOR: op_possibility<br />

SCOPE:<br />

nominal_semantics<br />

syntactic_atom<br />

EVENTSTR: EVENT:<br />

lexical_content<br />

one_place_operator_struct<br />

TYPE:<br />

PHYSICAL_STATE: hard<br />

steel<br />

uncountable<br />

TYPE: blade<br />

individual<br />

EVENT_TYPE: cut<br />

ROLES:<br />

2<br />

3<br />

4<br />

ROLE: agent<br />

SEL_RESTR:<br />

role<br />

ROLE: patient<br />

SEL_RESTR:<br />

role<br />

ROLE: instrument<br />

SEL_RESTR: 1<br />

role<br />

ACCESSIBLE_ROLES: 2 , 3 , 4<br />

activity<br />

activity_eventstr<br />

TYPE: human<br />

countable<br />

TYPE: PHYSICAL_STATE: soft<br />

physical_entity<br />

simple_type<br />

Abb. 5.18: <strong>Analyse</strong> von „Stahlmesser“<br />

Die bei <strong>der</strong> Komposition wirksamen Interpretationsmechanismen ähneln denen im Ansatz<br />

von Fanselow (vgl. 3.3.2), stehen aber auch im Gegensatz zu diesem. Die Deutung ist nicht<br />

vollkommen frei, son<strong>der</strong>n bezieht frühzeitig die Kategorien <strong>der</strong> beteiligten Stämme mit ein,<br />

da diese gewisse Interpretationen zumin<strong>des</strong>t nahelegen. So wird versucht, N-N-Komposita<br />

mit deverbalem Kopf und V-N-Komposita durch Argumentbindung zu interpretieren, während<br />

bei N-N-Komposita mit nominalen Kopf stereotype und konzeptuelle Relationen herangezogen<br />

werden. Eine Gemeinsamkeit mit Fanselows Ansatz ist jedoch, daß sich die Interpretationsalternativen<br />

überlappen, also durchaus mehrere Deutungen für ein Kompositum<br />

erzeugt werden können. Die Frage ist, wie die unterschiedliche Plausibilität <strong>der</strong> einzelnen<br />

Interpretationen in deduktiv ausgerichteten Formalismen ausgedrückt werden kann.<br />

Dies ist nun nicht ohne weiteres möglich, da die einzelnen Lösungen eines Parsingproblems<br />

voneinan<strong>der</strong> unabhängig sind. Man kann lediglich Einfluß auf die Reihenfolge nehmen, in<br />

<strong>der</strong> die Lösungen gefunden werden.<br />

154


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

GRAPH: fabrik , verkauf , $ , $<br />

NUM: sg<br />

HEAD:<br />

noun<br />

SYN:<br />

ARGSTR: RELARG:<br />

SEM:<br />

SEM:<br />

syn<br />

noun_argstr<br />

REFARG: TYPE:<br />

individual<br />

HEAD: noun<br />

SYN:<br />

syn<br />

phrase<br />

EVENT_TYPE: sell<br />

ROLES:<br />

REFARG: 1 TYPE: entity<br />

simple_type<br />

nominal_semantics<br />

2<br />

3<br />

4<br />

ROLE: agent<br />

SEL_RESTR:<br />

role<br />

ROLE: theme<br />

SEL_RESTR: 1<br />

role<br />

ROLE: goal<br />

SEL_RESTR:<br />

role<br />

TAKES_PLACE_AT:<br />

TYPE: human<br />

countable<br />

TYPE: human<br />

countable<br />

TYPE: factory<br />

individual<br />

ACCESSIBLE_ROLES: 2 , 3 , 4<br />

activity<br />

CONTENT: no_content<br />

nominal_semantics<br />

syntactic_atom<br />

Abb. 5.19: Eine Lesart von „Fabrikverkauf“<br />

Die semantische Interpretation durch semantics_construction/2 geht immer davon aus, daß<br />

<strong>der</strong> semantische Funktor – sei es nun die Ereignisstruktur eines Verbs, eine stereotype o<strong>der</strong><br />

konzeptuelle Relation – immer mit dem Zweitglied zusammenfällt. Sollen auch Relationen<br />

aus dem Erstglied verwendet werden, dann müssen die entsprechenden Interpretationsfunktionen<br />

leicht verän<strong>der</strong>t werden. Diese Än<strong>der</strong>ung betrifft in erster Linie die Tatsache, daß<br />

in diesen Fällen referentielles Argument und semantischer Funktor nicht mehr aus dem<br />

gleichen Kompositumsteil herstammen.<br />

Zum Schluß: ein noch nicht ganz gelöstes Problem betrifft die Position einer evtl. vorhandenen<br />

stereotypen Relation im Gesamtsystem. Wie man an (30) erkennen kann, befindet sie<br />

sich nicht unter den konzeptuellen Eigenschaften eines Typs, son<strong>der</strong>n unter SEM:CONTENT im<br />

Skopus <strong>des</strong> Möglichkeitsoperators. Dafür gibt es zwei Gründe: Zum einen hat sie m.E. einen<br />

an<strong>der</strong>en Status als die konzeptuellen Relationen. Während diese in einem gewissen Sinne<br />

mehr o<strong>der</strong> weniger notwendige Konzepteigenschaften wi<strong>der</strong>spiegeln (ein Messer hat<br />

prototypisch eine Klinge etc.), hat die stereotype Relation den Charakter einer bloßen Möglichkeit:<br />

ein Messer würde sicher auch dann Messer genannt werden, wenn es noch niemals<br />

zum Schneiden verwendet worden ist. Der an<strong>der</strong>e Grund hängt mit den zusammengesetzten,<br />

polysemen Typen zusammen. Wenn Fabrik z.B. die Typen Gebäude und Belegschaft hat<br />

und beiden Konzepten jeweils eine eigene stereotype Relation zukommt, dann müßte <strong>der</strong><br />

155


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

polyseme Typ „Fabrik“ über beide Relationen verfügen. Da Fabrik m.E. aber nur eine solche<br />

Relation hat – die <strong>des</strong> Produzierens (die nicht mit den Typen Gebäude und Belegschaft assoziiert<br />

ist) – muß sie außerhalb <strong>der</strong> Konzepthierarchie, d.h. beim Lexem Fabrik definiert sein.<br />

5.4 Flexion<br />

5.4.1 Syntax<br />

Die größte Herausfor<strong>der</strong>ung für eine Wortsyntax (nicht Wortsemantik) <strong>des</strong> <strong>Deutschen</strong> ist<br />

meiner Ansicht nach die Abbildung <strong>der</strong> Kombinationsbeschränkungen, die durch die Flexionsparadigmen<br />

gegeben sind. Diese Paradigmen sind ein konzeptionell einfaches Mittel,<br />

Beziehungen zwischen unterschiedlichen Formen eines Wortes herzustellen, lassen sich jedoch<br />

auf keine einfache Weise für die Lösung <strong>des</strong> <strong>Analyse</strong>problems heranziehen. Computerlinguistische<br />

Ansätze, wie beispielsweise <strong>der</strong> von Krieger et al. (1993), die Paradigmen in<br />

einem merkmalsbasierten Formalismus rekonstruieren, machen keine Angaben darüber,<br />

welche Rolle Paradigmen bei <strong>der</strong> <strong>Analyse</strong> spielen könnten. Dies ist natürlich unbefriedigend,<br />

da sich die Computerlinguistik auch um die operationale Interpretation ihrer Konstrukte<br />

kümmern sollte.<br />

Eine Möglichkeit zur Nutzbarmachung von Paradigmen für die Zwecke <strong>der</strong> <strong>morphologischen</strong><br />

<strong>Analyse</strong> besteht darin, sie als etwas zu verstehen, aus dem mit Hilfe eines Zwischenschritts<br />

eine invertierte Relation konstruiert werden kann, die einzelnen Morphen eine<br />

Menge alternativer Merkmalsbündel zuweist. Allen Formen gemeinsame Merkmale, beispielsweise<br />

die für Semantik und Argumentstruktur, werden auf diese Weise nur einmal<br />

spezifiziert, durch den Zwischenschritt jedoch an alle Elemente <strong>der</strong> erzeugten Relation weitergegeben.<br />

Beispiel 5.2:<br />

Aus dem Präsens-Indikativ-Paradigma <strong>der</strong> regelmäßigen Verben<br />

kann folgende Relation gewonnen werden:<br />

sg pl<br />

1 e en<br />

2 st t<br />

3 t en<br />

Flexiv Merkmale<br />

e { }<br />

st { }<br />

t { , }<br />

en { , }<br />

Dieses an sich triviale Verfahren kompliziert sich lediglich dann, wenn Paradigmenzellen,<br />

beispielsweise beim Präteritumsparadigma <strong>der</strong> unregelmäßigen Verben, keine phonetisch<br />

realisierten Affixe enthalten. Hier könnten dann phonetisch leere Flexive angenommen werden,<br />

mit denen Chart-Parser ohne größere Schwierigkeiten zurechtkommen würde. Darüber<br />

hinaus ist es möglich, durch Annahme einiger Beschränkungen, die weiter unten erläutert<br />

werden, die Überspezifikation <strong>der</strong> Flexionsaffixe wie<strong>der</strong> zu beseitigen.<br />

156


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Durch Einführung dieses Umformungsschritts behält man Paradigmen als organisationsstiftende<br />

Elemente neben den eigentlichen Lexikoneinträgen bei, kann sie jedoch aus <strong>der</strong><br />

eigentlichen <strong>Analyse</strong> heraushalten, die nur auf die invertierte Relation Bezug nimmt.<br />

Nun müssen die Kombinationsbeschränkungen, die die zum Ausgangspunkt genommenen<br />

generalisierten Paradigmen ausdrücken, in einer „Flexionsgrammatik“ realisiert werden.<br />

Hierfür kontextfreie Regeln anzusetzen führt letztlich zu einer Vielzahl von Konstruktionsregeln<br />

und setzt darüber hinaus eine sehr genaue Klassifizierung <strong>der</strong> einzelnen Flexive voraus,<br />

auf die sich diese Regeln beziehen. Konzeptionell einfacher ist es, diese Kombinationsbeschränkungen<br />

in das Lexikon zu verlagern, die Klassifikation <strong>der</strong> Flexive so weit wie<br />

möglich implizit mit Hilfe ohnehin notwendiger Merkmale vorzunehmen und zusätzlich nur<br />

eine einzige, allerdings übergenerierende Regel anzunehmen, die jedoch durch drei Bedingungen<br />

wie<strong>der</strong> eingeschränkt wird:<br />

(Regel VI’, 1. Fassung)<br />

cat(pre_syntactic_atom ∧ PSA, L0, L2) ←<br />

PSA ∧<br />

true(cat(pre_syntactic_atom, L0, L1)) ∧<br />

true(cat(infl_affix, L1, L2)) ∧<br />

GRAPH: diff(L0, L2)<br />

Im übrigen weist <strong>der</strong> Typ pre_syntactic_atom, wie morph_object und seine Subtypen und<br />

an<strong>der</strong>s als syntactic_atom, noch ein MORPH-Merkmal auf. Wie syntactic_atom jedoch enthält<br />

er kein STRUCTURE-Attribut mehr, da ich – abweichend von Autoren wie Trost (1990) –<br />

nicht annehme, daß die Operation <strong>der</strong> Flexion Strukturen aufbaut. Diese wären m.E. semantisch<br />

nicht mehr deutbar und damit schwindet die letzte Motivation für Wortstrukturen.<br />

In <strong>der</strong> dargelegten Form erlaubt diese rekursive Regel (zusammen mit <strong>der</strong> Terminierungsregel<br />

V), beliebig viele Flexionsaffixe an einen möglicherweise komplexen Stamm o.ä. anzuhängen.<br />

Im <strong>Deutschen</strong> heißt beliebig jedoch höchstens zwei, beispielsweise bei <strong>der</strong> Bildung<br />

<strong>der</strong> Präteritumsformen <strong>der</strong> regelmäßigen Verben wie lieb-t-en, so daß diese Rekursion drastisch<br />

eingeschränkt werden muß. Dies leisten folgende drei Beschränkungen:<br />

(35)<br />

i. Nur vollständig spezifizierte Wortformen können als syntaktische Atome fungieren,<br />

d.h. X 0<br />

-Elemente von maximalen Projektionen bilden.<br />

ii. Die Einführung von Merkmalen wird durch die transitive Hülle einer irreflexiven<br />

Relation < festgelegt, die durch folgende Elemente gegeben ist und eine partielle Ordnung<br />

definiert (s. a. Wun<strong>der</strong>lich (1992)):<br />

Kategorie < Tempus Kategorie < Komparation<br />

Komparation < Kasus Tempus < Modus<br />

Modus < Numerus Numerus < Person<br />

Person < Kasus<br />

Ein Affix F darf demzufolge nur dann zu pre_syntactic_atom hinzutreten, wenn F für<br />

ein Merkmal B spezifiziert ist, so daß es in pre_syntactic_atom ein Merkmal A gibt,<br />

für das gilt: A < B.<br />

Diese Definition for<strong>der</strong>t also nicht, daß alle hinzukommenden Merkmale „neu“ sind,<br />

son<strong>der</strong>n daß lediglich eines <strong>der</strong> Merkmale <strong>des</strong> Affixes F noch nicht vorhanden war.<br />

Der Sinn dieser Lockerung <strong>der</strong> ursprünglichen Fassung in Wun<strong>der</strong>lich (1992) wird<br />

weiter unten deutlich werden.<br />

iii. Die Merkmale von pre_syntactic_atom und infl_affix müssen miteinan<strong>der</strong> unifiziert<br />

werden können, d.h. die Merkmalswerte müssen kompatibel sein.<br />

157


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Bedingung 35 i) verhin<strong>der</strong>t, daß noch nicht vollständig spezifizierte morphologische Objekte<br />

syntaktisch wirksam werden. Wie weiter unten erläutert wird, kann dies durch einen Filter<br />

sichergestellt werden, <strong>der</strong> im technischen Sinn die Typenmaximalität einer typisierten Merkmalsstruktur<br />

überprüft.<br />

Bedingung 35 ii) gewährleistet, daß die Rekursion nach endlich vielen Schritten endet, da<br />

das Inventar <strong>der</strong> Morphologie nur endlich viele Merkmale enthält und je<strong>der</strong> Affigierungsschritt<br />

min<strong>des</strong>tens ein solches Merkmal einführt und aufgrund <strong>der</strong> Irreflexivität <strong>der</strong> Relation<br />

kein Merkmal hinzutreten lassen darf, welches bereits vorhanden war; dies gilt natürlich nur<br />

dann, wenn nicht gleichzeitig auch ein neues Merkmal eingeführt wird. Die Position <strong>des</strong> Flexionsaffixes<br />

(rechts außen) ist bereits durch Regel VI’ festgelegt.<br />

Bedingung 35 iii) schließt sich wi<strong>der</strong>sprechende Merkmale aus –35 ii) läßt diese ja zunächst<br />

zu – und beantwortet auch die Frage, welches <strong>der</strong> beiden Elemente den Kopf <strong>des</strong> komplexen<br />

<strong>morphologischen</strong> Objekts bildet: keines von beiden. Beide Elemente tragen, ähnlich wie bei<br />

<strong>der</strong> Definition <strong>des</strong> relativierten Kopfs, zum En<strong>der</strong>gebnis bei. Zu beachten ist jedoch, daß die<br />

vorgenommene Unifikation keine Defaults und Prioritäten annimmt und daher auch scheitern<br />

kann. Bedingung 35 iii) ist darüber hinaus entscheidend für die „richtige“ Zuordnung<br />

von Stämmen und Flexiven, was weiter unten deutlich wird.<br />

Bedingungen 35 ii) und 35 iii) können mit den zwei Funktionen affix_or<strong>der</strong>_constraint/2 und<br />

unified_head_features/1 realisiert werden:<br />

(Regel VI’’, 2. Version)<br />

cat(pre_syntactic_atom ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA, L0, L2) ←<br />

PSA ∧<br />

true(cat(pre_syntactic_atom, L0, L1) ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA1) ∧<br />

true(cat(infl_affix, L1, L2) ∧ Infl) ∧<br />

affix_or<strong>der</strong>_constraint(PSA1, Infl) ∧<br />

unified_head_features([PSA1, Infl]) ∧<br />

GRAPH: diff(L0, L2)<br />

Regel VI’’ hält fest, daß die syntaktischen Kopfmerkmale <strong>des</strong> Flexivs mit den Kopfmerkmalen<br />

<strong>des</strong> Flexionsaffixes kompatibel sein müssen, was in natürliche Weise durch typisierte<br />

Unifikation definiert werden kann.<br />

Unifizierbarkeit ist auch das Kriterium für die Merkmale unter MHEAD (diese werden von<br />

unified_head_features/1 mit erfaßt, vgl. S. 133), die in <strong>der</strong> Syntax keine Rolle spielen, jedoch<br />

zur Wie<strong>der</strong>gabe bestimmter Kombinationsbeschränkungen herangezogen werden müssen.<br />

Beispielsweise werden hier für Nomen und die Nomen eigenen Flexionsaffixe die entsprechenden<br />

Deklinationsklassen angegeben. Die Merkmale unter MORPH:MHEAD sind zwar arbiträre<br />

Klassenmerkmale im Sinne von Wun<strong>der</strong>lich (1992), es ist jedoch schwer zu sehen, wie<br />

man ohne sie auskommen könnte. Dies muß auch kein Wi<strong>der</strong>spruch zu Wun<strong>der</strong>lich sein, da<br />

es ihm um die Beschreibung produktiver Paradigmen geht, im Rahmen einer einigermaßen<br />

vollständigen <strong>morphologischen</strong> Beschreibung <strong>der</strong> deutschen Flexion jedoch auch nicht länger<br />

produktive Muster berücksichtigt werden müssen.<br />

Im übrigen zeigt sich in dieser Regel eine Reihenfolgeabhängigkeit <strong>der</strong> Funktionen<br />

affix_or<strong>der</strong>_constraint/2 und unified_head_features/1; affix_or<strong>der</strong>_constraint/2 muß vor <strong>der</strong> Unifikationsoperation<br />

evaluiert werden, nach <strong>der</strong> Unifikation <strong>der</strong> Kopfmerkmale kann die<br />

Funktion nicht mehr erfüllt werden, da dann PSA1 und Infl identisch sind. Die tieferliegende<br />

Ursache dafür ist, daß affix_or<strong>der</strong>_constraint/2 auf einem nicht-monotonen Subsumptionstest<br />

beruht. Tests auf Merkmalsinstantiierungen sind daher nicht ohne weiteres in einen<br />

monotonen Formalismus integrierbar.<br />

158


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Neben <strong>der</strong> Überprüfung <strong>der</strong> Kompatibilität <strong>der</strong> Kopfmerkmale sorgt Regel VI‘‘ noch für die<br />

Vererbung <strong>der</strong> Argumentstruktur und <strong>der</strong> Semantik <strong>des</strong> linken Wortbestandteils an die<br />

nächsthöhere Kategorie.<br />

Bedingung 35 i) schließlich muß als Filter beim Übergang von <strong>der</strong> Morphologie zur Syntax<br />

(m.a.W. beim Übergang von pre_syntactic_atom zu syntactic_atom) wirksam werden, so<br />

daß eine vollständige Merkmalsspezifikation sichergestellt ist. Vollständigkeit bestimmt sich<br />

hier relativ zum Typ <strong>der</strong> Merkmalsstruktur am Ende <strong>des</strong> Pfa<strong>des</strong> SYN:HEAD und korrespondiert<br />

mit dem Begriff <strong>der</strong> Typenmaximalität einer Merkmalsstruktur. Dieser Übergang wird<br />

durch folgende Regel abgebildet:<br />

(Regel VII’, vorläufig)<br />

cat(syntactic_atom ∧ SA, L0, L1) ←<br />

SA ∧<br />

true(cat(pre_syntactic_atom, L0, L1) ∧ PSA) ∧<br />

type_maximal(value_of_syn_head(PSA)) ∧<br />

syn_head_features([PSA]) ∧<br />

arg_structure_realisation(PSA) ∧<br />

GRAPH: diff(L0, L1)<br />

Die Funktion arg_structure_realisation/1 schließlich realisiert die syntaktische und semantische<br />

Argumentstruktur und wird unter 5.4.2 näher ausgeführt<br />

Der folgende Abschnitt wird sich konkret mit den Merkmalsbestimmungen für verbale<br />

Wortformen befassen, um die Grundidee <strong>des</strong> Ansatzes klarer zu machen. Lei<strong>der</strong> wird sich<br />

hier auch zeigen, daß die Regeln VI’’ und VII‘‘ noch nicht in ihren jeweils letzten Fassungen<br />

vorliegen.<br />

5.4.1.1 Merkmalsbasierte Flexion am Beispiel <strong>der</strong> Verbflexion<br />

Da Verben im <strong>Deutschen</strong> die umfangreichsten Flexionsparadigmen aufweisen und darüber<br />

hinaus bei <strong>der</strong> Flexion unterschiedliche Grade an Regularität an den Tag legen, stellen sie die<br />

größten Anfor<strong>der</strong>ungen an die Spezifikation <strong>der</strong> Kombinationsbeschränkungen, die für<br />

Stammform und Flexiv gelten. Diese Kombinationsbeschränkungen sind im wesentlichen<br />

durch die Unifizierbarkeit <strong>der</strong> Kopfmerkmale und durch die Affigierungshierarchie gegeben.<br />

Hierzu müssen sowohl Flexionsaffixe als auch Stammformen in geeigneter Weise mit<br />

Merkmalen und Merkmalswerten versehen werden, wobei zwei Zielvorstellungen zugrunde<br />

liegen:<br />

1. Die Merkmalsspezifikation für Stämme und Affixe soll minimal sein, d.h. nach Möglichkeit<br />

sollen nur Merkmale verwendet werden, die man aus unabhängigen Gründen ohnehin<br />

benötigt. Ähnliches gilt für die Stärke <strong>der</strong> verwendeten Mechanismen. Vom Mittel <strong>der</strong><br />

Unterspezifikation soll daneben, wenn immer möglich, Gebrauch gemacht werden.<br />

2. Das <strong>Analyse</strong>verfahren soll natürlich ein Entscheidungsverfahren sein: es soll alle zulässigen<br />

Formen erfolgreich analysieren und die nicht zulässigen zurückweisen.<br />

Konkret auf die Verbflexion bezogen sollte zudem die sehr große Ähnlichkeit <strong>der</strong> Paradigmen<br />

für die regelmäßige und unregelmäßige Flexion – die Flexionsendungen sind nahezu<br />

die gleichen – ohne Rückgriff auf ein Klassenmerkmal hierfür ausgedrückt werden. Des<br />

weiteren sollen auch Regelmäßigkeiten innerhalb <strong>der</strong> Paradigmen (beispielsweise bei <strong>der</strong> 1.<br />

und 3. Pers. Plural) ausgenutzt werden.<br />

Tabelle 5.2 zeigt zunächst die Verbflexionsaffixe samt ihren Merkmalsbestimmungen (nach<br />

Duden (1984)).<br />

159


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Verbflexiv Merkmalsspezifikation unter SYN:HEAD:<br />

-e verb_infl ∧ CAT:v ∧ ((PERS:1 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:ind ) ∨<br />

(PERS:(1∨3)∧NUM:sg∧TENSE:pres∧MOOD:subjI)∨(PERS:(1∨3)∧NUM:sg ∧ TENSE:pret))<br />

-(e)st verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:sg ∧ MOOD:(ind ∨ subjII)<br />

-(e)t verb_infl ∧ CAT:v ∧ TENSE:pres ∧ MOOD:ind ∧<br />

((PERS:2 ∧ NUM:pl) ∨ (PERS:3 ∧ NUM:sg))<br />

-et verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:pl ∧ TENSE:pret<br />

-est verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:subjI<br />

-et verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:pl ∧ TENSE:pres ∧ MOOD:subjI<br />

-∅ verb_infl ∧ CAT:v ∧ PERS:(1 ∨ 3) ∧ NUM:sg ∧ TENSE:pret<br />

-(e)n verb_infl ∧ CAT:v ∧ PERS: (1 ∨ 3) ∧ NUM:pl<br />

-∅- verb_infl ∧ CAT:v ∧ MOOD:(ind ∨ subjI)<br />

-(e)t- verb_infl ∧ CAT:v ∧ TENSE:pret ∧ MOOD:(ind ∨ subjII)<br />

-(e)n verb_inf_base ∧ CAT:v<br />

-(e)nd verb_partI ∧ CAT:v<br />

-(e)t verb_partII ∧ CAT:v<br />

-(e) verb_imp ∧ CAT:v ∧ NUM:sg<br />

-(e)t verb_imp ∧ CAT:v ∧ NUM:pl<br />

Tabelle 5.2: Merkmalsspezifikation <strong>der</strong> Verbflexionsaffixe<br />

Die Merkmalsspezifikationen in Tabelle 5.2 sind auf ein Zusammenspiel mit den Flexionsregeln<br />

VI’’ und VII’ ausgerichtet. Zu beachten ist ferner, daß auch phonetisch leere Endungen<br />

verzeichnet sind, da sie zur Einfachheit <strong>des</strong> Gesamtsystems beitragen.<br />

Wie sehen nun diese Merkmalsbelegungen für die Stammformen aus und wie stellt man die<br />

Zuordnungen zwischen konkreten Stämmen und ihren Merkmalen her?<br />

Zunächst müssen dazu die Stammformen klassifiziert werden 18 , was sich bei Verben durch<br />

Partitionierung aller verschiedenen Verbparadigmen in diejenigen Teilparadigmen ergibt,<br />

die jeweils die gleiche Stammform verwenden. Tabelle 5.3 zeigt, welche verschiedenen<br />

Stammformen hierbei unterschieden werden können und welche Spezifikation hinsichtlich<br />

<strong>der</strong> SYN:HEAD-Merkmale diese Formen tragen.<br />

Diese Bestimmungen, die durch eine Sorte vform/1 repräsentiert werden, sind recht komplex,<br />

jedoch notwendig, um dem kontingenten Aufbau <strong>der</strong> Verbparadigmen im <strong>Deutschen</strong><br />

gerecht zu werden. Vform(0) bezieht sich dabei auf regelmäßige Verben, <strong>der</strong>en Stammform<br />

allein mit CAT:v markiert ist und die entwe<strong>der</strong> nur ein Flexiv o<strong>der</strong> das Präteritumsaffix -t-<br />

mit nachfolgenden Flexiv zu sich nimmt. Die an<strong>der</strong>en Formen 1 bis 7 partitionieren das Paradigma<br />

<strong>der</strong> unregelmäßigen Verben in Teilparadigmen, bei denen jeweils die gleiche Stammform<br />

zur Anwendung kommt. Vform(4) beispielsweise definiert das Präteritums-Teilparadigma<br />

<strong>der</strong> unregelmäßigen Verben. Abb. 5.20 zeigt diese Klassifikation für die Formen 1 bis<br />

7 in graphischer Form (ähnliche Darstellungen für die romanischen Sprachen finden sich übrigens<br />

in Holl (1988)).<br />

18 Diese Klassifikation verwendet (mit einer Ausnahme <strong>des</strong> unten besprochenen Merkmals<br />

MORPH:MFEAT:COMPLETE) zunächst nur Flexionsmerkmale, die man ohnedies voraussetzt.<br />

160


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Sorte Merkmalsbestimmung unter SYN:HEAD<br />

Farbe in<br />

Abb. 5.3<br />

vform(0) verb ∧ CAT:v<br />

vform(1) verb ∧ CAT:v ∧ ((NUM:pl ∧TENSE:pres ) ∨ (TENSE:pres∧MOOD:subjI) ∨ >)<br />

vform(2) MORPH:MFEAT:COMPLETE: minus ∧<br />

CAT:v ∧ PERS:1 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD: ind<br />

vform(3) MORPH:MFEAT:COMPLETE: minus ∧<br />

verb ∧ CAT:v ∧ PERS: (2 ∨ 3) ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:ind<br />

vform(4) verb ∧ CAT:v ∧ TENSE:pret ∧ MOOD:ind<br />

vform(5) verb ∧ CAT:v ∧ TENSE:pret ∧ MOOD:subjII<br />

vform(6) verb_partII ∧ CAT:v<br />

vform(7) verb_imp ∧ CAT:v ∧ MOOD:imp<br />

/<br />

Tabelle 5.3: Klassifikation und Merkmalsspezifikation <strong>der</strong> verschiedenen Verbstammformen<br />

1<br />

sg 2<br />

3<br />

1<br />

pl 2<br />

3<br />

pres pret<br />

ind subjI ind subjII<br />

inf partI partII imp sg imp pl<br />

Abb. 5.20: Graphische Darstellung <strong>der</strong> Formenklassifikation<br />

Es zeigt sich jedoch ein generelles Problem, das sich veranschaulichen läßt am Beispiel von<br />

vform(3), die für die Formen im 2/3. Pers. Sing. Präs. Ind. verantwortlich ist und bei einigen<br />

unregelmäßigen Verben wie beispielsweise werfen mit einem eigenen Stamm verknüpft wird<br />

(wirf). Stämme dieser Art sind bereits mit allen Merkmalsausprägungen versehen, die für<br />

morphologische Objekte dieses Typs vorgesehen sind; im Sinne <strong>der</strong> Flexionsregel VI'’ sind<br />

sie daher maximal. Diese Maximalität ist notwendig, damit unzulässige Formen wie z.B.<br />

*wirfe (unzulässige Kombination <strong>des</strong> Stamms mit dem Affix -e, welches als 1. Pers. markiert<br />

ist) ausgeschlossen werden können. Nichts<strong>des</strong>toweniger können jedoch noch die Endungen -<br />

st bzw. -t zur Bildung vollständiger Verbformen (z.B. wirfst) hinzutreten.<br />

Unter <strong>der</strong> Prämisse, daß sowohl Merkmalsbestimmungen als auch Kombinationsbeschränkungen<br />

ohne Rückgriff auf arbiträre Klassenmerkmale beschrieben werden sollen, läßt sich<br />

das Problem auch aus einer allgemeineren Perspektive betrachten – einer Perspektive, die<br />

Bezug nimmt auf den mehrdimensionalen Charakter von Paradigmen. Der informelle Gedankengang<br />

zum Nachweis <strong>der</strong> Notwendigkeit willkürlicher Klassenmerkmale für die<br />

deutsche Verbmorphologie unter den genannten Voraussetzungen sieht folgen<strong>der</strong>maßen<br />

aus:<br />

161


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Sollen Kombinationsbeschränkungen mit Hilfe einer Menge M von Merkmalen, die aus unabhängigen<br />

Gründen benötigt werden, festgehalten werden, so muß man hierfür min<strong>des</strong>tens<br />

ein Merkmal F verwenden, das natürlich aus M stammen muß. Dies setzt jedoch voraus, daß<br />

F noch nicht für an<strong>der</strong>e Zwecke eingesetzt wurde, denn ein Merkmal kann nicht gleichzeitig<br />

zwei unterschiedliche Sachverhalte repräsentieren. Faßt man nun Paradigmen als<br />

mehrdimensionale Tabellen auf, so muß ein solches Merkmal (unter Ausnutzung <strong>der</strong><br />

Möglichkeit <strong>der</strong> Unterspezifikation) dann nicht angegeben werden, wenn die Stammformen<br />

entlang <strong>der</strong> durch F eröffneten Dimension die gleichen Kombinationsbeschränkungen aufweisen.<br />

Sobald eine Stammform jedoch nur bestimmte Zellen in dieser Dimension belegt,<br />

müssen alle zur Verfügung stehenden Merkmale (d.h. alle Merkmale, die das Paradigma<br />

konstituieren) zur Beschreibung dieser Zellen eingesetzt werden, was kein Merkmal mehr<br />

freiläßt, um Kombinationsbeschränkungen zu repräsentieren. Dies ist nun an verschiedenen<br />

Stellen im Paradigma <strong>der</strong> unregelmäßigen Verben <strong>der</strong> Fall, beispielsweise im gerade genannten<br />

Fall.<br />

Zur Lösung dieses Problems muß man also weitere Merkmale annehmen. Die Frage ist nur,<br />

auf welche Weise dies geschehen soll. Eine naheliegende Möglichkeit ist die Einführung von<br />

Subkategorisierungslisten, in denen für jede Stammform die Eigenschaften <strong>der</strong> nachfolgenden<br />

Flexive festgehalten werden, o<strong>der</strong> – dazu äquivalent – eine kategorialgrammatische<br />

Notation, die zwischen Eingabe- und Ausgabespezifikation (ähnlich wie in <strong>der</strong> Konzeption<br />

von Wun<strong>der</strong>lich (1992)) unterscheidet. Subkategorisierungslisten sind nun eine sehr generelle<br />

Methode, die Voll- bzw. Unvollständigkeit von Kategorien zu charakterisieren und es<br />

bleibt fraglich, ob man einen so starken Mechanismus, <strong>der</strong> immerhin Gebrauch von rekursiven<br />

Merkmalsstrukturen macht und daher auch Phänomene beschreiben könnte, die nicht<br />

auftreten, überhaupt benötigt. Mir scheint ein zusätzliches Merkmal ±COMPLETE angemessener,<br />

welches genau den Sachverhalt ausdrückt, daß eine Stammform zwar bereits vollständig<br />

spezifiziert ist, sie dennoch noch Affixe zu sich nimmt. Dieses Merkmal, das im Regelfall<br />

unterspezifiziert bleibt, ist zugegebenermaßen rein stipulativ (jedoch auch nicht mehr als<br />

Subkategorisierungslisten), hat jedoch den Vorteil, daß die Merkmalsbestimmungen für<br />

Stämme und Affixe weiterhin ohne die die Komplexität beträchtlich erweiternde morphologische<br />

Subkategorisierungslisten auskommen und <strong>der</strong> prinzipielle Charakter <strong>der</strong> Flexionsregeln<br />

VI‘‘ und VII‘ gewahrt bleibt, die nun in ihrer jeweils letzten Fassung wie<strong>der</strong>gegeben<br />

werden.<br />

(Regel VI, Endfassung)<br />

cat(pre_syntactic_atom ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA, L0, L2) ←<br />

PSA ∧<br />

true(cat(pre_syntactic_atom, L0, L1) ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA1) ∧<br />

true(cat(infl_affix, L1, L2) ∧ Infl) ∧<br />

affix_or<strong>der</strong>_constraint(value_of_complete_path(PSA1), PSA1, IA) ∧<br />

unified_head_features([PSA1, Infl]) ∧<br />

GRAPH: diff(L0, L2)<br />

Der Bedingungsteil für die Flexionsregel ist komplexer geworden und ist so beschaffen, daß<br />

<strong>der</strong> Merkmalswert COMPLETE:minus nur ein einziges Mal verwendet werden kann. Dies leistet<br />

eine neue Funktion affix_or<strong>der</strong>_constraint/3, die als erstes Argument den Wert <strong>des</strong> Pfa<strong>des</strong><br />

MORPH:MFEAT:COMPLETE erhält, und folgen<strong>der</strong>maßen definiert ist:<br />

(36) affix_or<strong>der</strong>_constraint(plus, PSA, IA) ← affix_or<strong>der</strong>_constraint(PSA, IA)<br />

affix_or<strong>der</strong>_constraint(Value, PSA, IA) ← subsumes(minus, Value)<br />

162


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(36) besagt, daß im Falle von COMPLETE: minus auf den Test mit affix_or<strong>der</strong>_constraint/2 verzichtet<br />

wird. Dies muß durch die (Meta-)Operation eines Subsumptionstest festgestellt werden,<br />

da die Unifikation auch mit einem unterspezifizierten COMPLETE-Wert erfolgreich wäre.<br />

(Regel VII)<br />

cat(syntactic_atom ∧ SA, L0, L1) ←<br />

SA ∧<br />

true(cat(pre_syntactic_atom, L0, L1) ∧ MORPH:MFEAT:COMPLETE: plus ∧ PSA) ∧<br />

type_maximal(value_of_syn_head(PSA)) ∧<br />

syn_head_features([PSA]) ∧<br />

arg_structure_realisation(PSA) ∧<br />

GRAPH: diff(L0, L1)<br />

Neben dem Test auf Typenmaximalität wird geprüft, ob das Merkmal COMPLETE mit dem<br />

Wert plus unifizierbar ist. Da <strong>der</strong> Wert nie explizit auf plus gesetzt wird und daher boolean<br />

sein muß, ist dies entwe<strong>der</strong> aufgrund <strong>der</strong> Unterspezifikation im Morph-Lexikon o<strong>der</strong> durch<br />

min<strong>des</strong>tens einmalige Anwendung von Regel VI <strong>der</strong> Fall.<br />

Bei Regel VII werden schließlich nur noch die syntaktischen Kopfmerkmale an<br />

syntactic_atom vererbt, da dieser Typ per Definition über keine <strong>morphologischen</strong> Merkmale<br />

mehr verfügt.<br />

Im letzten Schritt werden nun konkrete Verbstämme mit den Formsorten aus Tabelle 5.3 (die<br />

als Abkürzung für die Beschreibung rechts davon aufzufassen sind), in Beziehung gesetzt.<br />

Ist eine konkrete Verbstammform für mehrere Teilparadigmen einschlägig, so wird dies<br />

durch Disjunktion ausgedrückt. Beispiel 5.3 veranschaulicht diese Zuordnung anhand von<br />

Verben mit unterschiedlichem Flexionsverhalten.<br />

Beispiel 5.3:<br />

Das Verb werfen weist die Maximalanzahl unterschiedlicher Stämme im <strong>Deutschen</strong> auf (Ablaut,<br />

e/i-Wechsel und Umlaut im Konjunktiv). Wie Wun<strong>der</strong>lich (1992) betrachte ich das Partizip-II-Suffix<br />

-en als nicht mehr produktiv, so daß es dem Stamm zugerechnet werden kann.<br />

Die Zuordnung von Stämmen und Formsorten zeigt folgende Tabelle:<br />

werf wirf warf würf worfen<br />

vform(1) ∨ vform(2) vform(3) ∨ vform(7) vform(4) vform(5) vform(6)<br />

Umlaut im Präs. Sing. <strong>der</strong> 2./3. Person zeigt das Verb tragen. Abweichend von werfen wird<br />

diese Stammform jedoch nicht für den Imperativ Sing. verwendet, so daß sich folgende Zuordnung<br />

ergibt:<br />

trag träg trug trüg tragen<br />

vform(1) ∨ vform(2) ∨ vform(7) vform(3) vform(4) vform(5) vform(6)<br />

Das Verb schreiben besitzt drei verschiedene Stämme: schreib, schrieb und schrieben. Als<br />

Merkmalsbestimmungen ergeben sich demnach:<br />

schreib schrieb schrieben<br />

vform(1) ∨ vform(2) ∨ vform(3) ∨ vform(7) vform(4) ∨ vform(5) vform(6)<br />

163


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Regelmäßiges Verben wie lieben werden einfach <strong>der</strong> Funktion vform(0) zugeordnet. Suppletive<br />

Paradigmen wie die von sein und haben erfaßt man am besten in Form von einer Reihe<br />

von Vollformeinträgen.<br />

Beispiele 5.4 und 5.5 verdeutlichen nun, wie die Merkmalsspezifikationen <strong>der</strong> Verbflexive<br />

und Verbstämme unter Vermittlung <strong>der</strong> Flexionsregeln miteinan<strong>der</strong> interagieren. Da das<br />

morphologische <strong>Analyse</strong>problem als Entscheidungsproblem aufgefaßt wird, muß neben <strong>der</strong><br />

Generierung <strong>der</strong> „richtigen“ Wortformen auch die Erzeugung von unzulässigen verhin<strong>der</strong>t<br />

werden.<br />

Beispiel 5.4: Zulässige Wortformen:<br />

1) <strong>Analyse</strong> von lachen<br />

Die Unifikation <strong>der</strong> Merkmale unter SYN:HEAD von lach- und -en ergibt folgende Merkmalsstrukturen:<br />

a) b) c)<br />

CAT: v<br />

PERS:<br />

NUM:<br />

TENSE: pres<br />

MOOD:<br />

verb_infl<br />

1 ∨ 3<br />

pl<br />

ind ∨ subjI<br />

CAT: v<br />

PERS:<br />

NUM:<br />

TENSE: tense<br />

MOOD:<br />

verb_infl<br />

1 ∨ 3<br />

pl<br />

mood<br />

Struktur b) wird durch die Maximalitätsbedingung ausgefiltert.<br />

2) <strong>Analyse</strong> von lachten:<br />

Hierfür wird folgende wohlgeformte Struktur erzeugt:<br />

pre_syntactic_atom<br />

pre_syntactic_atom<br />

simple_or_complex_stem<br />

lach<br />

CAT: v<br />

verbal<br />

syntactic_atom<br />

pre_syntactic_atom<br />

infl_affix<br />

t<br />

TENSE: pret<br />

MOOD: ind ∨ subjII<br />

verb_infl<br />

infl_affix<br />

en<br />

PERS: 1 ∨ 3<br />

NUM: pl<br />

verb_infl<br />

CAT: v<br />

verb_inf_base<br />

Die SYN:HEAD-Merkmale von syntactic_atom ergeben sich durch Unifikation <strong>der</strong> drei angegebenen<br />

Merkmalsstrukturen.<br />

3) <strong>Analyse</strong> von werfe/wirfst:<br />

Aufgrund <strong>der</strong> Spezifikation von werf/wirf mit COMPLETE:minus kann das Flexiv hinzutreten.<br />

164


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Beispiel 5.5: ausgeschlossene Verbformen:<br />

Verbform Ausschlußgrund<br />

*lachenen Die Merkmale <strong>des</strong> zweiten en-Flexivs erfüllen die Funktion<br />

affix_or<strong>der</strong>_constraint/3 nicht, da seine Werte bei pre_syntactic_atom bereits<br />

spezifiziert sind.<br />

*lachent Die Merkmale, die das Präteritumsaffix -t- hinzufügen könnte, liegen in <strong>der</strong><br />

Affigierungshierarchie vor den Merkmalen Person und Numerus<br />

*wirfe Die Unifikation <strong>der</strong> SYN:HEAD-Merkmale von Stamm und Flexiv scheitert<br />

*werf Der Stamm werf ist mit vform(1) ∨ vform(2) klassifiziert. vform(1) ist nicht vollständig<br />

bzgl. <strong>der</strong> für verb_infl definierten Merkmale und verfällt somit dem<br />

Maximalitätsfilter.<br />

vform(2) trägt das Merkmal COMPLETE: minus und macht daher die Anwendung<br />

von Regel VII unmöglich.<br />

*werfte Die Unifikation <strong>der</strong> HEAD-Merkmale von Stamm (TENSE:pres) und Flexiv<br />

(TENSE:pret) scheitert.<br />

*warfte Das Affix -t- kann nur Merkmale hinzufügen, die am Stamm bereits spezifiziert<br />

sind.<br />

*geworfent <strong>der</strong> Stamm worfen ist schon mit allen notwendigen Merkmalen versehen; das<br />

Partizip-II-Suffix kann keine neuen Merkmale hinzufügen.<br />

Zirkumfigierung, die zumin<strong>des</strong>t für die Partizip-II-Bildung (und evtl. noch in an<strong>der</strong>en Fällen,<br />

vgl. Eisenberg (1998:401)) anzusetzen ist, läßt sich lei<strong>der</strong> nicht so einfach in dieses<br />

Schema integrieren, zumal es hier noch Einschränkungen silbischer und morphologischer<br />

Art gibt: ge- tritt nur vor Verben mit Betonung auf <strong>der</strong> ersten Silbe (also nicht vor präfigierte<br />

Verben o<strong>der</strong> solcher fremdsprachiger Herkunft) und wird bei Partikelverben nach dem Partikel<br />

eingefügt. Es ist daher einfacher, hier spezielle Regeln zu formulieren, die diese Beson<strong>der</strong>heiten<br />

berücksichtigen .<br />

Ein Problem <strong>der</strong> Verbflexion muß noch in angemessener Weise gelöst werden. Es betrifft den<br />

Eingang von Partizipformen in die Adjektivflexion, beispielsweise geliebt – geliebte. Erklärungen<br />

dieses Phänomens sind mir nicht bekannt; die einzigen Untersuchungen hierzu<br />

betreffen die Vererbung <strong>der</strong> Verbargumente an das Adjektiv bzw. die Restriktionen, die<br />

hierfür gelten (vgl. z.B. Toman (1986). Es bleibt daher nichts an<strong>der</strong>es übrig, als hierfür Umkategorisierungsregeln<br />

anzunehmen, die selbstverständlich we<strong>der</strong> einem wortsyntaktischen<br />

X’-Schema noch einem Kopfmerkmalsprinzip gehorchen. Konversion wird in Abschnitt 5.5<br />

näher behandelt.<br />

5.4.1.2 Flexion an<strong>der</strong>er Kategorien<br />

Die Regeln VI und VII sind auch auf die Flexion von Nomen und Adjektiven anwendbar (die<br />

übrigen Wortarten, die Flexionsverhalten an den Tag legen – Pronomen, Determinatoren etc.<br />

– werden besser als Vollformen <strong>der</strong> Klasse syntactic_atom im Lexikon verzeichnet).<br />

Bei <strong>der</strong> Nomenflexion wird man kaum ohne eine Klassifizierung in Deklinationsklassen<br />

auskommen, wie sie in je<strong>der</strong> <strong>des</strong>kriptiven Grammatik (z.B. Duden (1984)) vorgenommen<br />

wird. Solche Klassenmerkmale stehen jedoch (wie erwähnt) nicht unbedingt in Wi<strong>der</strong>spruch<br />

mit Wun<strong>der</strong>lich (1992), da <strong>der</strong> Gegenstand von Wun<strong>der</strong>lichs Theorie m.E. nur die Konstruktion<br />

produktiver Paradigmen ist, einige <strong>der</strong> Nomenflexionsparadigmen jedoch nicht<br />

mehr produktiv sind (vgl. dazu Eisenberg (1998)). Da die Deklinationsklasse, <strong>der</strong> ein Nomen<br />

angehört, ein Kopfmerkmal ist, wird für sie ein entsprechen<strong>der</strong> Wert unter MORPH:MHEAD<br />

165


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

verzeichnet. Die (nicht unproblematische) Annahme von phonetisch leeren Flexiven vereinfacht<br />

auch hier die Merkmalsspezifikation. Tabelle 5.4 führt beispielhaft die Bestimmungen<br />

für Stämme und Flexive einer Deklinationsklasse auf.<br />

Stamm/Flexiv Merkmalsbestimmung<br />

z.B. Apfel SYN:HEAD:(CAT:n ∧ NUM:sg ∧ gen:masc) ∧<br />

MORPH:(MHEAD:DECL_CLASS: (DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II) ∧<br />

MFEAT:UMLAUT:plus)<br />

z.B. Äpfel SYN:HEAD:(CAT:n ∧ NUM:pl ∧ gen:masc) ∧<br />

MORPH:(MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II) ∧<br />

MFEAT:UMLAUT:plus)<br />

∅ SYN:HEAD:(NUM:(sg ∨ pl) ∧ CASE:¬gen) ∧<br />

MORPH:MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II)<br />

-s SYN:HEAD:(NUM:sg ∧ CASE:gen) ∧<br />

MORPH:MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II)<br />

-n SYN:HEAD:(NUM:pl ∧ CASE:gen) ∧<br />

MORPH:MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II)<br />

Tabelle 5.4: Merkmalsbestimmungen für Stämme und Flexive <strong>der</strong> Deklinationsklasse S1/P2 (Duden (1984))<br />

Die Flexion von Adjektiven ist wie<strong>der</strong>um etwas komplexer, zumin<strong>des</strong>t dann, wenn man<br />

Komparation unter Flexion subsumiert. Dies ist natürlich nicht unproblematisch, da die Bildung<br />

von Komparativen und Superlativen Än<strong>der</strong>ungen in <strong>der</strong> Semantik und Argumentstruktur<br />

<strong>des</strong> Basismorphems nach sich zieht, was die Bedeutungsinvarianz als Kriterium <strong>der</strong><br />

Paradigmenbildung in Frage stellt. Dieses Kriterium ist jedoch bereits hinsichtlich <strong>der</strong> Pluralbildung<br />

zweifelhaft.<br />

Die folgende Tabelle zeigt einige Adjektivflexive:<br />

Flexiv Merkmalsbestimmung unter SYN:HEAD<br />

∅ adjective ∧ DEGREE: pos<br />

-er adjective ∧ DEGREE: comp<br />

-st adjective ∧ DEGREE: sup<br />

-em adjective ∧ NUM: sg ∧ CASE: dat ∧ GENDER: (masc ∨ neut ) ∧ DECL: strong<br />

Tabelle 5.5: Einige Adjektivflexive<br />

Da auch Adjektive Allomorphie an den Tag legen, muß wie im Verbbereich eine Formenklassifikation<br />

vorgenommen werden. Unterschieden wird zwischen aform(0), bei denen <strong>der</strong><br />

gleiche Stamm für Positiv, Komparativ und Superlativ verwendet wird (beispielsweise bei<br />

schön), aform(1), die nur für den Positiv verwendet wird (z.B. rot) und aform(2), die für die<br />

restlichen Steigerungsformen heranzogen wird (z.B. röt). Suppletion wie bei gut – besser –<br />

besten wird wie<strong>der</strong>um durch Auflistung im Vollformenbereich <strong>des</strong> Lexikons behandelt.<br />

Die Adjektivflexion mit ihren ausgeprägten Synkretismen – 24 Wortformen fallen auf nur<br />

fünf Endungen – zeigt übrigens einen gewissen Konflikt zwischen Unterspezifikation und<br />

Typenmaximalität. Beim Plural von Adjektiven würde man sicher erwägen, das Genus-<br />

Merkmal unterspezifiziert zu lassen, da alle drei Genera die gleiche Endung aufweisen. Dies<br />

darf aber nicht erfolgen, da sonst die Formen den Maximalitätsfilter nicht passieren. Es bleibt<br />

demnach nichts an<strong>der</strong>es übrig, als einen Typ durch die vollständige Disjunktion aller seiner<br />

maximalen Subtypen zu ersetzen, im Beispielfall also gen<strong>der</strong> mit masc ∨ fem ∨ neut<br />

anzugeben.<br />

166


5.4.2 Semantik<br />

Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Flexionsprozesse haben natürlich Einfluß auf die Semantik eines Lexems. Beispielsweise<br />

wird Tempus im Rahmen <strong>der</strong> Montague-Semantik mit Hilfe zweier Satzoperatoren P und F<br />

realisiert. Das Problem ist, daß diese Operatoren Sätze als Argumente nehmen, auf <strong>der</strong><br />

Ebene <strong>der</strong> Morphologie aber nur Prädikate zur Verfügung stehen, woraus die bekannten<br />

Klammerparadoxien entstehen. Ich möchte hier nicht weiter darauf eingehen, son<strong>der</strong>n nur<br />

zeigen, wie man den Einfluß <strong>des</strong> Numerus-Merkmals auf die Semantik eines Nomens, genauer<br />

gesagt eines Individuennomens, im gewählten methodischen Rahmen ausdrücken<br />

kann.<br />

Die Sorte arg_structure_realisation/1 in Regel VII übernimmt die Aufgabe, beim Übergang zu<br />

syntactic_atom die syntaktische (unter SYN:ARGSTR) wie auch die semantische Argumentstruktur<br />

(unter SEM:REFARG bzw. SEM:EXTARG) in einer Weise zu realisieren, daß sie in <strong>der</strong><br />

Satzsyntax verwendet werden kann. Beispielsweise ist die Referenz <strong>des</strong> referentiellen Arguments<br />

im Lexikoneintrag von Individuennomen unterspezifiziert bzgl. <strong>der</strong> Unterscheidung<br />

Individuum–Gruppe, ebenso wie <strong>der</strong> morphologische Status von Elementen unter<br />

SYN:ARGSTR neutral in bezug auf die Opposition syntactic_atom – phrase ist. Beim Übergang<br />

von <strong>der</strong> Wortbildung zur Syntax müssen diese Unterspezifikationen jedoch in richtiger<br />

Weise durch Typenanhebung aufgelöst werden, was eben die verschiedenen Klauseln von<br />

arg_structure_realisation/1 leisten:<br />

(37)<br />

a) arg_structure_realisation(PSA ∧ SYN:HEAD:(verb ∧ NUM: Num) ∧<br />

SEM:(EXTARG: Ext ∧ CONTENT: Content)) ←<br />

type_shift_args_to_phrase(PSA) ∧<br />

SEM:EXTARG:type_shift(Num, Ext) ∧<br />

SEM:CONTENT: Content<br />

b) arg_structure_realisation(PSA ∧ SYN:HEAD: verb_infinitive ∧ SEM: Sem) ←<br />

type_shift_args_to_phrase(PSA) ∧<br />

SEM: Sem<br />

c) arg_structure_realisation(PSA ∧ SYN:HEAD: (nominal ∧ NUM: Num) ∧<br />

SEM:(REFARG: Ref ∧ CONTENT: Content) ) ←<br />

type_shift_args_to_phrase(PSA) ∧<br />

SEM:REFARG: type_shift(Num, Ref) ∧<br />

SEM:CONTENT: Content<br />

Die Variable PSA steht jeweils für den <strong>der</strong> Tochter von syntactic_atom zugeordneten<br />

Merkmalsterm. (37a) regelt die Realisierung <strong>des</strong> externen Arguments von Verbformen, die<br />

für Numerus spezifiziert sind (also alle Formen bis auf die infinitivischen Formen wie Infinitiv<br />

mit o<strong>der</strong> ohne zu, Partizip I und II). In Abhängigkeit vom Wert von NUM wird das externe<br />

Argument durch die weiter unten erläuterte type_shift/2-Funktion realisiert.<br />

(37b) erfaßt alle an<strong>der</strong>en <strong>der</strong> in (37a) nicht berücksichtigten infinitivischen Verbformen, die<br />

in <strong>der</strong> Hierarchie <strong>der</strong> Kopftypen (siehe (1) auf S. 122) genau durch den disjunktiven Typ<br />

verb_infinitive repräsentiert werden. Die syntaktischen Argumente werden zu Phrasen angehoben<br />

(durch type_shift_args_to_phrase/1); <strong>der</strong> Struktur unter SEM wird unverän<strong>der</strong>t an<br />

syntactic_atom weitergegeben.<br />

167


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(37c) bezieht sich auf die beiden nominalen Kategorien Nomen und Adjektiv und verwirklicht<br />

<strong>der</strong>en referentielle Argumente in Abhängigkeit von <strong>der</strong> Ausprägung <strong>des</strong> Numerus-<br />

Merkmals.<br />

Wie sehen nun die verschiedenen Klauseln <strong>der</strong> Funktion type_shift/2 aus?<br />

(38)<br />

(a) type_shift(sg, Type ∧ individual ∧ IS_GROUP: minus) ← Type<br />

(b) type_shift(sg, Type ∧ uncountable ∧ IS_GROUP: minus) ← Type<br />

(c) type_shift(sg, Type ∧ group ∧ IS_GROUP: plus) ← Type ∧ GROUP_OF: individual<br />

(d) type_shift(sg, dotted_type ∧ TYPE_REL:TR ∧ TYPES:Types) ←<br />

dotted_type ∧ TYPE_REL:TR ∧<br />

TYPES: type_shift_all_subtypes(sg, Types)<br />

(e) type_shift(pl, NonGroup ∧ IS_GROUP: minus ∧ TYPE: T) ←<br />

NonGroup ∧ GROUP_OF: (individual ∧ TYPE: T)<br />

(f) type_shift(pl, Group ∧ group ∧ IS_GROUP:plus ∧ TYPE:T) ←<br />

Group ∧ GROUP_OF: (TYPE:T ∧ GROUP_OF: (individual ∧ TYPE:T))<br />

(g) type_shift(pl, dotted_type ∧ TYPE_REL: TR ∧ TYPES: Types) ←<br />

dotted_type ∧ TYPE_REL: TR ∧<br />

TYPES: type_shift_all_subtypes(pl, Types)<br />

(38 a-d) sind für die Typenanhebung im Singular verantwortlich. Das in den Lexikoneinträgen<br />

<strong>der</strong> entsprechenden Nomen spezifizierte Merkmal IS_GROUP legt fest, ob das Nomen<br />

schon im Singular eine Menge denotiert. Das ist bei Mengen bezeichnenden Nomen mit einfachen<br />

Typen wie Gruppe, Menge usw. <strong>der</strong> Fall, aber auch bei Nomen wie Fabrik mit einem<br />

dotted type, bei dem ein Dot-Typ sich ebenfalls auf eine Menge bezieht (vgl. die Fabrik streikt,<br />

d.h. die Menge <strong>der</strong> Werktätigen streikt). (38d) betrifft gerade diesen Fall von dotted types im<br />

Singular, bei dem die Funktion type_shift_all_subtypes/2 einfach rekursiv auf die Elemente in<br />

<strong>der</strong> TYPES-Liste angewendet wird.<br />

(39) type_shift_all_subtypes(Num, []) ← []<br />

type_shift_all_subtypes(Num, [Type|Types]) ←<br />

[type_shift(Num, T ∧ ¬uncountable)|type_shift_all_subtypes(Num, T)]<br />

type_shift_all_subtypes(pl, [uncountable|Types]) ←<br />

type_shift_all_subtypes(pl, Types)<br />

Im Plural (38 e-g) funktioniert das Ganze völlig analog, mit dem Unterschied, daß<br />

type_shift_all_subtypes/2 Subtypen vom Typ uncountable ignoriert. Dies ist nötig, um die unterschiedliche<br />

Referenz von Massenomina im Singular und Plural abzubilden: während sie<br />

im Singular die typische Alternation zwischen Individuum und Stoff an den Tag legen, können<br />

sie im Plural nur noch Mengen von Individuen bezeichnen (vgl. das Paar Brot – Brote).<br />

Klauseln (38 e-g) würden übrigens verhin<strong>der</strong>n, daß Nomen mit einfachem Typ uncountable<br />

in den Plural gesetzt werden, falls es solche Nomen überhaupt gibt.<br />

Die nachstehende Abbildung demonstriert die Wirkung von type_shift/2 am Beispiel <strong>des</strong><br />

Singulars und Plurals von Fabrik.<br />

168


GRAPH: fabrik<br />

SYN:<br />

SEM:<br />

CAT: n<br />

Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

NUM: sg<br />

HEAD: CASE: acc ∨ dat ∨ gen∨ nom<br />

ARGSTR:<br />

syn<br />

REFARG:<br />

GENDER: fem<br />

noun<br />

RELARG:<br />

DEFARGS:<br />

ARGSTR_ORDER:<br />

noun_argstr<br />

TYPES:<br />

TYPE_REL:<br />

dotted_type<br />

CONTENT: content<br />

nominal_semantics<br />

syntactic_atom<br />

1<br />

2<br />

TYPE: building<br />

individual<br />

TYPE: 3 human<br />

TYPE: 3<br />

GROUP_OF:<br />

individual<br />

group<br />

RELCONST: work_in<br />

RELARGS:<br />

relation<br />

4<br />

ROLE: worker<br />

SEL_RESTR: 2<br />

role<br />

ROLE: location<br />

SEL_RESTR: 1<br />

role<br />

GRAPH: fabrik , en<br />

SYN:<br />

SEM:<br />

CAT: n<br />

NUM: pl<br />

HEAD: CASE: acc ∨ dat ∨ gen∨ nom<br />

ARGSTR:<br />

syn<br />

REFARG:<br />

GENDER: fem<br />

noun<br />

RELARG:<br />

DEFARGS:<br />

ARGSTR_ORDER:<br />

noun_argstr<br />

TYPES:<br />

TYPE_REL:<br />

dotted_type<br />

CONTENT: content<br />

nominal_semantics<br />

syntactic_atom<br />

1<br />

3<br />

TYPE: 2 building<br />

TYPE: 2<br />

GROUP_OF:<br />

individual<br />

group<br />

TYPE: 4 human<br />

TYPE: 4<br />

GROUP_OF: GROUP_OF:<br />

TYPE: 4<br />

individual<br />

group<br />

group<br />

RELCONST: work_in<br />

RELARGS:<br />

relation<br />

5<br />

ROLE: worker<br />

SEL_RESTR: 3<br />

role<br />

ROLE: location<br />

SEL_RESTR: 1<br />

Abb. 5.21: Typenanhebung <strong>des</strong> referentiellen Arguments bei einem polysemen Nomen<br />

Die Funktion type_shift_args_to_phrase/1 in (37) realisiert auf <strong>der</strong> an<strong>der</strong>en Seite die syntaktische<br />

Argumentstruktur von Lexemen. Sie ist durch Klauseln wie (40)<br />

(40) type_shift_args_to_phrase(SYN:ARGSTR:(AS ∧ noun_argstr ∧ RELARG: R ∧ DEFARGS: DA)) ←<br />

SYN:ARGSTR:(AS ∧<br />

RELARG: realize_relarg(R) ∧<br />

DEFARGS: realize_default_arguments(DA))<br />

gegeben, die – abhängig von den unterschiedlichen Argumentstrukturtypen – Kasus und<br />

an<strong>der</strong>e Eigenschaften <strong>der</strong> Argumente spezifizieren. Im Fall von (40) wird realize_relarg/1<br />

durch die Klauseln<br />

(41) realize_relarg(Rel) ← phrase ∧ Rel ∧ SYN:HEAD:(noun ∧ CASE:gen)<br />

realize_relarg(Rel) ← phrase ∧ Rel ∧ p(ldat,von)<br />

realize_relarg(Rel) ← phrase ∧ Rel ∧ p(lacc,durch) 19<br />

definiert. Das relationale Argument eines Nomens kann demzufolge phrasal als Genitiv-NP<br />

o<strong>der</strong> als PP mit den Präpositionen von bzw. durch verwirklicht werden.<br />

19 p(Case, PForm) ← SYN:HEAD: (CAT: p ∧ PFORM: PForm ∧ DP_CASE: Case)<br />

169<br />

role


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Die Sorte realize_default_arguments/1 in (40) bezieht sich auf die Default-Argumente, die in<br />

<strong>der</strong> hier dargelegten Grammatikversion nur auf den Typ phrase angehoben werden. Denkbar<br />

wären aber weiterreichende Operationen.<br />

Bei <strong>der</strong> Argumentrealisierung wird auch <strong>der</strong> Kasus <strong>der</strong> Argumente festgelegt. Wie unter 5.1<br />

schon einmal kurz angedeutet, sind die Subtypen von case etwas komplizierter als zuvor<br />

dargestellt. Ich verwende hier die Hierarchie von Heinz/Matiasek (1994), die folgen<strong>der</strong>maßen<br />

strukturiert ist:<br />

(42) case ↔ syntactic_case ∨ morphological_case<br />

morphological_case ↔ nom ∨ gen ∨ dat ∨ acc<br />

syntactic_case ↔ lex_case ∨ struc_case<br />

lgen ↔ gen ∧ lex_case<br />

ldat ↔ dat ∧ lex_case<br />

lacc ↔ acc ∧ lex_case<br />

snom ↔ nom ∧ struc_case<br />

sgen ↔ gen ∧ struc_case<br />

sacc ↔ acc ∧ struc_case<br />

Dies ist übrigens eine <strong>der</strong> wenigen Teilhierarchien im Gesamtsystem, wo nicht von einer rein<br />

disjunktiven Typisierungsmethode Gebrauch gemacht wird. Die Grundidee ist, zwischen<br />

morphologischem und syntaktischem Kasus zu unterscheiden. Letzterer zerfällt in<br />

strukturellen Kasus, <strong>der</strong> davon abhängt, in welcher strukturellen Konfiguration (Subjekt,<br />

Objekt, relationales Argument) sich das Argument befindet, und lexikalischen Kasus, bei<br />

dem das nicht <strong>der</strong> Fall ist. Letzterer muß in den Lexikoneinträgen mit lgen, ldat und lacc<br />

angegeben werden, während <strong>der</strong> strukturelle Kasus mit dem Wert struc_case unterspezifiziert<br />

bleibt. Hinsichtlich <strong>der</strong> Wortbildung bietet es Vorteile, mit dieser Unterspezifikation zu<br />

arbeiten, da bei <strong>der</strong> Derivation Argumente unter Wortartwechsel vererbt werden. Wäre ein<br />

Argument hier schon mit dem Kasus versehen, den es später in <strong>der</strong> Satzsyntax hat, so müßte<br />

dieser bei je<strong>der</strong> Vererbung <strong>des</strong> Arguments entsprechend geän<strong>der</strong>t werden.<br />

Die erste Klausel von realize_relarg/1 in (41) verdeutlicht das Zusammenwirken <strong>der</strong> verschiedenen<br />

Kasustypen. Im Lexikoneintrag wird das relationale Argument eines Nomens mit<br />

CASE: struc_case spezifiziert, während realize_relarg/1 hierfür CASE: gen festlegt. Beide Typen<br />

sind miteinan<strong>der</strong> kompatibel, da sie einen gemeinsamen Join – sgen – in <strong>der</strong> Hierarchie aufweisen.<br />

5.5 Konversion<br />

Für die Konversion setze ich eine Umkategorisierungsregel an, die, da Konversion ein relativ<br />

heterogener Bereich ist, in eine gewisse Anzahl von Einzelregeln „verzweigt“.<br />

Im folgenden möchte ich eine Einzelregel etwas näher erläutern: die zur Bildung sog.<br />

Faktitiva-Verben aus Adjektiven (weit – weiten). Während an<strong>der</strong>e Regeln in etwa diesem<br />

Muster folgen, verhält sich die Entstehung von Adjektiven aus Partizipien etwas an<strong>der</strong>s:<br />

1. Die Partizipien sind vor <strong>der</strong> Umkategorisierung zu Adjektiven im Sinne <strong>der</strong> Flexionsregeln<br />

voll flektiert, d.h. typenmaximal. Dies ist bei den an<strong>der</strong>en Konversionsformen nicht<br />

<strong>der</strong> Fall.<br />

2. Zumin<strong>des</strong>t bei <strong>der</strong> Adjektivbildung auf <strong>der</strong> Basis <strong>des</strong> Partizips II kommt es zu Än<strong>der</strong>ungen<br />

in <strong>der</strong> Argumentstruktur, wie sie sonst nur bei <strong>der</strong> Derivation zu beobachten sind.<br />

Die Argumentstruktur ist auch dafür maßgeblich, daß nicht alle Adjektivierungen möglich<br />

sind, vgl. Toman (1987:377):<br />

170


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

(43)<br />

a) <strong>der</strong> gehaßte Hausmeister<br />

b) <strong>der</strong> gefallene Engel<br />

c) *das geschlafene Krokodil<br />

Es sieht so aus, als könnten nur transitive o<strong>der</strong> unakkusativische Verben Basis für die<br />

Bildung von Adjektiven aus den jeweiligen Partizip-II-Formen sein, wobei das interne<br />

Argument <strong>des</strong> Verbs dabei zum referentiellen <strong>des</strong> Adjektivs wird.<br />

Sollen beide Konversionstypen durch eine einzige Strukturregel erfaßt werden, so muß man<br />

einen gemeinsamen Nenner für alle von <strong>der</strong> konvertierten Kategorie dominierten Kategorien<br />

finden. Da die Bildung von Verbpartizipien als Flexion aufgefaßt wird, kann dieser Typ nur<br />

pre_syntactic_atom sein:<br />

(Regel VIII, Konversion)<br />

cat(simple_stem ∧ Stem, L0,L1) ←<br />

Stem ∧<br />

true(cat(pre_syntactic_atom, L0,L1) ∧ Stem1) ∧<br />

stem_conversion(Stem1) ∧<br />

GRAPH: diff(L0, L1) ∧<br />

STRUCTURE: [Stem1]<br />

Hinter stem_conversion/1 verbergen sich die oben erwähnten Einzelregeln. Nachstehend <strong>der</strong><br />

Fall <strong>der</strong> Faktitiva-Verben:<br />

(44) stem_conversion(SYN:HEAD:adjective ∧ SEM:(REFARG:Ref ∧ CONTENT:Cont)) ←<br />

SYN:HEAD:(verb ∧ CAT:v) ∧<br />

SEM:CONTENT: (two_place_operator_struct ∧ OPERATOR: op_causation ∧<br />

CAUSER: Causer ∧ SCOPE: Cont ) ∧<br />

SYN:ARGSTR: SUBJ: (Arg1 ∧ n(struc_case) ∧<br />

SEM:REFARG: (Causer ∧ countable(animate_ind ))) ∧<br />

SYN:ARGSTR:DIR_OBJ:(Arg2 ∧ n(struc_case) ∧ SEM:REFARG:Ref) ∧<br />

SYN:ARGSTR:(INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧ DEFARGS:[]) ∧<br />

SYN:ARGSTR:ARGSTR_ORDER:[Arg1, Arg2] 20<br />

Die Regel bewirkt folgen<strong>des</strong>: die Bildung von Verben aus Adjektiven wie weit o<strong>der</strong> schwarz<br />

wird verstanden als: “y bewirkt, daß A(x) gilt”, im Falle von schwärzen also:<br />

λyλx cause(x, black(y)).<br />

In stem_conversion/1 wird dies dadurch nachgebildet, indem die Struktur, die das Adjektiv<br />

unter SEM:CONTENT trägt, in den Skopus eines Operators op_causation übernommen und ein<br />

neues Argument Causer konstruiert wird, das zum Subjekt <strong>des</strong> neu gebildeten Verbs wird.<br />

Die Selektionsbeschränkungen, die für das referentielle Argument <strong>des</strong> Adjektivs gelten,<br />

vererben sich an das direkte Objekt <strong>des</strong> Verbs. Abb. 5.22 zeigt die Merkmalsstruktur von<br />

“schwärzen”.<br />

20 Die Sorten n/1 und countable/1 sind Templates und folgen<strong>der</strong>maßen definiert:<br />

n(Case) ← SYN:HEAD: (noun ∧ CAT: n ∧ CASE: Case)<br />

countable(OfType) ← COUNTABLE ∧ TYPE: OfType ∧ IS_GROUP: minus<br />

171


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

GRAPH: schwärz , en<br />

SYN:<br />

SEM:<br />

CAT: v<br />

HEAD:<br />

verb_inf<br />

ARGSTR:<br />

syn<br />

EXTARG: 2<br />

CONTENT:<br />

SUBJ: 1<br />

DIR_OBJ: 3<br />

CAT: n<br />

SYN: HEAD: CASE: snom<br />

noun<br />

SEM:<br />

phrase<br />

syn<br />

REFARG: 2 TYPE: animate_ind<br />

countable<br />

nominal_semantics<br />

CAT: n<br />

SYN: HEAD: CASE: sacc<br />

noun<br />

SEM:<br />

phrase<br />

syn<br />

ARGSTR_ORDER: 1 , 3<br />

verbal_argstr<br />

OPERATOR: op_causation<br />

CAUSER: 2<br />

SCOPE:<br />

verbal_semantics<br />

syntactic_atom<br />

5.6 Unbekannte Wortteile<br />

REFARG: 4 TYPE: physical_entity<br />

countable<br />

nominal_semantics<br />

EVENTSTR: STATE:<br />

lexical_content<br />

two_place_operator_struct<br />

RELCONST: black<br />

RELARGS: 4<br />

state<br />

state_eventstr<br />

Abb. 5.22: <strong>Analyse</strong> von „schwärzen“<br />

Erfreulicherweise muß an <strong>der</strong> <strong>morphologischen</strong> Grammatik nichts geän<strong>der</strong>t werden, um mit<br />

unbekannten Wortteilen umzugehen. Der Segmentierer markiert einen nicht im Lexikon<br />

verzeichneten Wortteil w mit unknown, was den Wortparser dazu veranlaßt, es mit <strong>der</strong> minimalen<br />

Spezifikation<br />

(45) unknown ∧ FORM:“unknown(w)“ ∧ SYN:HEAD: (noun ∨ adjective ∨ verb)<br />

zu versehen. Der spezielle Typ unknown dient hier dazu, den unbekannten Wortteil von den<br />

an<strong>der</strong>en im Wort zu unterscheiden. Die Spezifikation unter SYN:HEAD umfaßt gerade die<br />

offenen Wortklassen, da sich die geschlossenen Klassen ohne großen Aufwand vollständig<br />

angeben lassen.<br />

Ist das unbekannte Wortsegment nicht das letzte im Wort, so stehen die Chancen gut, aufgrund<br />

<strong>der</strong> in <strong>der</strong> Grammatik festgeschriebenen Regularitäten Informationen über diesen<br />

Wortteil per Unifikation zu gewinnen. Abb. 5.23 zeigt dies am Beispiel <strong>des</strong> Wortes „schumi-<br />

172


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

sierbar“, bei dem korrekt festgestellt wurde, daß es sich bei „schumisier-“ um ein Verb handelt<br />

(viele Substrukturen wurden unterdrückt).<br />

FORM: schumisier<br />

SYN:<br />

SEM:<br />

HEAD: CAT: v<br />

verb<br />

syn<br />

GRAPH: 1 schumisier , bar<br />

SYN:<br />

SEM:<br />

HEAD: 2<br />

syn<br />

CAT: a<br />

NUM: sg<br />

adjective<br />

REFARG: 3 individual<br />

nominal_semantics<br />

syntactic_atom<br />

GRAPH: 1<br />

SYN:<br />

SEM: 4<br />

HEAD: 2<br />

syn<br />

REFARG: 3<br />

nominal_semantics<br />

pre_syntactic_atom<br />

GRAPH: 1<br />

SYN:<br />

SEM: 4<br />

HEAD: 2<br />

syn<br />

complex_stem<br />

EXTARG: simple_or_dotted_type<br />

verbal_semantics<br />

unknown_stem<br />

FORM: bar<br />

SYN:<br />

SEM: 4<br />

HEAD: 2<br />

syn<br />

<strong>der</strong>ivative<br />

Abb. 5.23: Ein Beispiel für ein Wort mit einem unbekannten Wortteil<br />

Es ergeben sich hieraus jedoch auch Probleme. Zum einen sind alle Parser, auch <strong>der</strong> Top-<br />

Down- o<strong>der</strong> Bottom-up-Chartparser, beim Parsen mit merkmalsbasierten Grammatiken anfällig<br />

für Endlosschleifen. Das Problem läßt sich natürlich darauf zurückführen, daß bei<br />

Verwendung von rekursiven Merkmalstrukturen (für Listen, Gruppen und dgl.), die Anzahl<br />

<strong>der</strong> grammatischen Kategorien nicht mehr endlich ist, das Terminieren dieser Parser aber auf<br />

<strong>der</strong> Endlichkeit <strong>der</strong> Menge <strong>der</strong> Nichtterminalsymbole beruht. Dem kann auf zweifache<br />

Weise begegnet werden: es könnten mehrere Lexikoneinträge für unknown–Segmente angegeben<br />

werden, bei denen insbeson<strong>der</strong>e die Werte <strong>der</strong> rekursiven Merkmale disjunktiv auf<br />

endlich viele Werte reduziert werden. Schließlich haben lexikalische Köpfe im Regelfall nicht<br />

100 Default-Argumente, son<strong>der</strong>n vielleicht höchstens zwei. O<strong>der</strong> man führt in den Chart-<br />

Parser sog. Restriktoren ein (vgl. Shieber (1985a)), die rekursive Merkmale bei <strong>der</strong> Hüllenbildung<br />

ignorieren, was effektiv einer endlichen Äquivalenzklassenbildung bzgl. <strong>der</strong><br />

grammatischen Kategorien gleichkommt.<br />

173


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Das zweite Problem <strong>der</strong> Methode, unbekannte Wortteile unterspezifiziert dem Parser zu<br />

präsentieren, besteht in <strong>der</strong> Vielzahl <strong>der</strong> möglichen <strong>Analyse</strong>n. Hier bietet sich <strong>der</strong> (in Kapitel<br />

4 schon einmal angedeutete) Weg an, Informationen, die ein (robuster) Satzparser über die<br />

syntaktische Umgebung <strong>des</strong> als Ganzes unbekannten Wortes gewinnen kann, über eine passende<br />

Instantiierung <strong>des</strong> Startsymbols <strong>der</strong> Wortgrammatik in die morphologische <strong>Analyse</strong><br />

einzuspeisen. Überhaupt kann die robuste Verarbeitung unbekannter Wörter nicht Aufgabe<br />

<strong>der</strong> Morphologiekomponente allein sein. Und hier liegt gerade ein Vorteil in <strong>der</strong> Tatsache,<br />

daß sich satzsyntaktische und wortsyntaktische Repräsentationen <strong>des</strong> gleichen Formalismus<br />

bedienen.<br />

Die errechneten Strukturen für Stämme vom Typ unknown_stem könnten gespeichert und<br />

bei Erreichen einer bestimmten Vorkommenshäufigkeit ihre Generalisierung berechnet werden,<br />

d.h. <strong>der</strong> spezifischste Merkmalsterm, <strong>der</strong> alle gespeicherten Merkmalsterme subsumiert.<br />

5.7 Verwandte Arbeiten<br />

5.7.1 Antworth (1994)<br />

Antworth (1994) verwendet neben einem Two-Level-Segmentierer eine unifikationsbasierte<br />

morphologische Grammatik auf <strong>der</strong> Grundlage <strong>des</strong> (nichttypisierten) PATR-II-Formalismus<br />

(Shieber (1984)). PATR kennt neben sog. Templates, die nicht-rekursiven Sorten <strong>des</strong> hier verwendeten<br />

Systems entsprechen und vor allem <strong>der</strong> Übersichtlichkeit <strong>des</strong> Lexikonaufbaus<br />

dienen, und um Pfadgleichungen erweiterte kontextfreie Regeln. Pfadgleichungen treten in<br />

zwei Formen auf: in Gestalt von = zur Festlegung von Merkmalswerten am<br />

Ende von Pfaden und in <strong>der</strong> Form = zur Angabe von Reentranzen. Nachstehend<br />

ist ein (in <strong>der</strong> Notation leicht angepaßter) Ausschnitt von Antworths Wortgrammatik<br />

für das Englische wie<strong>der</strong>gegeben:<br />

(46)<br />

R1 Word → Stem Infl<br />

= <br />

= <br />

= <br />

= < Infl TENSE><br />

= < Infl AFORM><br />

R2 Stem → Stem1 Suffix<br />

= <br />

= <br />

= <br />

= <br />

= <br />

= <br />

Regel R1 bezieht sich auf die Flexion. Genau ein Flexiv tritt zu einem Stamm, den es subkategorisiert<br />

( = ); gleichzeitig legt es die Kategorie <strong>des</strong> flektierten<br />

Wortes fest ( = ). Ähnliches gilt für Suffix in <strong>der</strong> Suffigierungsregel<br />

R2; Affixe fungieren demnach wie Slash-Kategorien <strong>der</strong> Kategorialgrammatik.<br />

Für die <strong>Analyse</strong> von Komposita wird keine erkennbare Vorsorge getroffen (wohl weil sie im<br />

Englischen durch die Satzanalyse übernommen werden kann), ebensowenig wie eine semantische<br />

Repräsentation für abgeleitete Stämme erzeugt wird.<br />

5.7.2 Ritchie et al. (1992)<br />

174


Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />

Im Ansatz von Ritchie et al. (1992) werden Wortstrukturregeln in einem an <strong>der</strong> GPSG orientierten<br />

Formalismus ausgedrückt und kategorielle Repräsentationen als Vektoren von Attribut-Wert-Paaren<br />

repräsentiert. (47) zeigt die Flexionsregel (Ritchie et al. (1992:83)):<br />

(47) [BAR 0] → [BAR 0], [FIX SUF]<br />

Zusammen mit den Beispiellexikoneinträgen für cup und +s<br />

(48) cup: [BAR 0, V –, N +, PLU –]<br />

+s: [BAR –1, FIX SUF, V –, N +, PLU +]<br />

und einem Word-Head Convention genannten Prinzip zur Perkolation von Kopfmerkmalen<br />

ergibt sich Wortstruktur (49):<br />

(49)<br />

[BAR 0, V-, N +, PLU +]<br />

[BAR 0, V-, N +, PLU -] [BAR -1, FIX SUF, V-, N +, PLU +]<br />

cup +s<br />

Wie man sieht, wird hier <strong>der</strong> Default-Mechanismus <strong>des</strong> relativierten Kopfs herangezogen (das<br />

Merkmal PLU + <strong>des</strong> Flexivs hat Vorrang vor dem PLU – <strong>des</strong> Stamms), was leere Flexionsaffixe<br />

für die Singularformen zumin<strong>des</strong>t für diesen Fall unnötig macht, einen aber gleichzeitig<br />

auch <strong>der</strong> Möglichkeit beraubt, mit Hilfe <strong>der</strong> Unifikation von Kopfmerkmalen die Zulässigkeit<br />

von Morphemkombinationen zu überprüfen.<br />

Mittels <strong>der</strong> Word-Daughter Convention werden Merkmale wie SUBCAT auch von Nichtköpfen<br />

an das Gesamtwort vererbt, eine Word-Sister Convention regelt ähnlich wie das in 5.2.1 dargestellte<br />

morphologische Subkategorisierungsprinzip das Verhältnis von Affixen und Stämmen.<br />

An<strong>der</strong>s als im Modell von Antworth (1994) wird auch die N-N-Komposition durch<br />

Verwendung von Regeln berücksichtigt, die immer ausschließlich linksverzweigende Wortstrukturen<br />

erzeugen, demnach nicht ambig sind, auf <strong>der</strong> an<strong>der</strong>en Seite natürlich <strong>Analyse</strong>n<br />

ausschließen, wie die Autoren selbst einräumen (Ritchie et al. (1992:198)).<br />

Die Semantik von komplexen Wörtern bleibt wie im Entwurf von Antworth unberücksichtigt.<br />

5.8 Implementierung<br />

Ich habe fast alle Teile <strong>der</strong> <strong>morphologischen</strong> Grammatik im Stuttgarter CUF-Formalismus<br />

(Dörre et al. (1996)) implementiert. CUF besteht aus einem Compiler, <strong>der</strong> Merkmalsterme<br />

nach Prolog übersetzt und einem Interpreter, <strong>der</strong> Anfragen ausführt und im wesentlichen<br />

eine disjunktive Normalform <strong>der</strong> Anfrage herstellt. Die experimentelle Grammatik umfaßt<br />

ca. 3000 Zeilen, davon sind ca. 1/3 Lexikoneinträge von knapp 30 Stämmen und 10 Affixen,<br />

dazu kommen noch Flexive. Das System läuft unter Unix und Linux und analysiert komplexe<br />

Wörter mit drei bis vier Teilen auf einem 300 MHz-Pentium-PC in ein bis fünf Sekunden.<br />

Der CUF-Programmtext ist in Anhang C.3 wie<strong>der</strong>gegeben.<br />

175


6 Zusammenfassung<br />

Kapitel 6: Zusammenfassung<br />

In diesem abschließenden Kapitel werden nochmals einige wesentliche <strong>Aspekte</strong> <strong>der</strong> dargestellten<br />

Konzeption kritisch unter die Lupe genommen und mit einem kurzen Fazit bedacht.<br />

6.1 Was erzielt wurde und was nicht<br />

Das vorangegangene Kapitel versuchte, auf <strong>der</strong> Grundlage heutiger Wortbildungstheorien<br />

einen formalen Rahmen zu konstruieren, in dem Hypothesen wie Argumentvererbung usw.<br />

ausgedrückt werden können. Mit diesem Rahmen selbst ist vermutlich kein linguistischer<br />

Erkenntnisgewinn verbunden, höchstens <strong>der</strong>, daß aufgrund <strong>der</strong> formalisierten Darstellung<br />

jetzt genauere Aussagen über den Gegenstand möglich sind und dank <strong>der</strong> Implementierung<br />

auch <strong>der</strong> Computer zum Test <strong>der</strong> Hypothesen herangezogen werden kann.<br />

Man kann sich natürlich fragen, ob überhaupt erwartet werden kann, empirische Vorhersagen<br />

mit Hilfe eines Formalismus zu gewinnen, <strong>der</strong> aufgrund seiner Möglichkeit, rekursive<br />

Merkmalsstrukturen zu bilden, turingmaschinenäquivalent ist (vgl. Johnson (1988)). Allerdings<br />

habe ich von diesen rekursiven Mechanismen eher geringen Gebrauch gemacht: anstelle<br />

rekursiver Argumentlisten gibt es ausdifferenzierte Argumentstrukturen und da wo<br />

Listen verwendet wurden, z.B. bei Default-Argumenten, können sie ohne weiteres durch<br />

nicht-rekursive Strukturen ersetzt werden. Der Einwand in<strong>des</strong>sen, den ich im ersten Kapitel<br />

gegen lexikalische Regeln wegen ihrer Möglichkeit gemacht habe, beliebige funktionale Zusammenhänge<br />

zu repräsentieren, fällt wie<strong>der</strong> auf mich zurück, da erstens Allomorphieregeln<br />

verwendet wurden – die so etwas Ähnliches sind wie lexikalische Regeln auf Morphebene –<br />

und zweitens mit Hilfe <strong>des</strong> <strong>morphologischen</strong> Subkategorisierungsprinzip in Verbindung mit<br />

den Affix-Lexikoneinträgen ebenfalls relativ willkürliche Zusammenhänge zwischen Basis<br />

und Derivat konstruiert werden könnten. Auf <strong>der</strong> Haben-Seite steht allerdings, daß<br />

hierdurch einer notwendigen grammatischen Beschreibung <strong>der</strong> Wortbildung <strong>der</strong> ihr gebührende<br />

Raum verschafft werden konnte.<br />

Bei <strong>der</strong> Konstruktion <strong>der</strong> Grammatik habe ich versucht, mich von einem gewissen Minimalismus<br />

leiten zu lassen, <strong>der</strong> sich in zwei Facetten äußert: erstens, vermittels Vererbungshierarchien<br />

Dinge so weit wie möglich unterspezifiziert zu lassen und möglichst Supertypen<br />

betreffende Generalisierungen zu machen, und zweitens, mit möglichst wenigen Regelschemata<br />

auszukommen, ohne jedoch den Verbiegungen von Autoren wie Krieger (1994) zu folgen,<br />

die versuchen, alles ins Korsett eines HPSG-Nachbaus zu pressen.<br />

Meine Konzeption führte in<strong>des</strong> zu linguistischen Neuerungen wie <strong>der</strong> Kategorie<br />

pre_syntactic_atom (die bisher bestimmt noch kein Linguist entdeckt hat), die aber ein formaler<br />

Reflex <strong>der</strong> augenscheinlichen Hierarchisierung von <strong>morphologischen</strong> Prozessen ist<br />

(vgl. Scalise (1988a)). Wenn es durch Umformung gelingen würde, die Kompositionsregel IV<br />

in das Operatorgrammatikformat (vgl. Aho/Ullman (1972)) zu überführen, dann könnte<br />

man auf solche Kategorien verzichten und sie durch eine Präzedenztabelle mit Einträgen für<br />

die verschiedenen Affixe ersetzen, die dann den Parser bei seiner <strong>Analyse</strong> steuert.<br />

Viele <strong>der</strong> <strong>Analyse</strong>n, die in Kapitel 5 vorgestellt wurden, sind zugegebenermaßen etwas grob<br />

und erreichen nicht die „Trennschärfe“, die beispielsweise in Fanselow (1981) erreicht<br />

wurde. Allerdings war das Ziel dieser Arbeit auch etwas breiter gesteckt: neben einer vereinheitlichten<br />

syntaktischen und (einfachen) semantischen Beschreibung von Wortbildung<br />

und Flexion wurde <strong>der</strong> Gesamtentwurf auch noch in ein Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong><br />

eingebettet und ein kleiner Beitrag zur Robustheit gemacht. Dies geht über das hinaus,<br />

176


Kapitel 6: Zusammenfassung<br />

was an<strong>der</strong>e Unterfangen dieser Art wie das von Ritchie et al. (1992) o<strong>der</strong> Antworth (1994)<br />

erzielten.<br />

6.2 Typisierte Merkmalsstrukturen<br />

Was bringen Grammatiken auf <strong>der</strong> Grundlage typisierter Merkmalsstrukturen? Sicherlich<br />

erzwingen sie bei ihrer Konstruktion größere Genauigkeit und mehr Reflexion über die Ontologie<br />

<strong>des</strong> Gegenstandsbereiches. Ob <strong>der</strong> von einigen Autoren wie Carpenter (1992) behauptete<br />

Effizienzgewinn <strong>der</strong> typisierten Unifikation gegenüber ihrem untypisierten Pendant<br />

tatsächlich eintritt – schließlich muß eine aufwendige Unifikationsoperation nicht<br />

durchgeführt werden, wenn schon die Ausgangstypen nicht kompatibel sind – darf in<strong>des</strong>sen,<br />

vor allem bei überwiegend disjunktiv definierten Hierarchien bezweifelt werden. Meist<br />

werden hierbei Kategorien unifiziert, die entwe<strong>der</strong> vom gleichen Typ sind o<strong>der</strong> in einer Super–Subtyp-Beziehung<br />

zueinan<strong>der</strong> stehen.<br />

Weitere Probleme von typisierten Formalismen im präsentierten Kontext sind:<br />

• Wie im letzten Kapitel schon einmal kurz angedeutet, gibt es einen Zielkonflikt zwischen<br />

Unterspezifikation einerseits und <strong>der</strong> Notwendigkeit, Typen voneinan<strong>der</strong> unterscheidbar<br />

zu machen an<strong>der</strong>erseits. Ein maximal unterscheidbares Typensystem benutzt keine<br />

Hierarchisierung in Subtypen; die einzelnen Typen sind durch Unifikation auseinan<strong>der</strong>zuhalten.<br />

Dafür ist keine Unterspezifikation über Typen hinweg möglich. Auf <strong>der</strong> an<strong>der</strong>en<br />

Seite stehen Typsysteme mit ausgeprägter hierarchischer Ordnung, in denen Sub-<br />

und Supertypen durch Unifikation nicht voneinan<strong>der</strong> zu trennen sind. Dies gelingt nur<br />

durch eine nicht-monotone Subsumptionsoperation, die aber <strong>der</strong> Monotonie als einer<br />

wünschenswerten Eigenschaft eines logischen Systems zuwi<strong>der</strong>läuft, wie folgen<strong>des</strong> Beispiel<br />

noch einmal verdeutlicht:<br />

t ↔ a | b<br />

s1 ← X ∧ t ∧ (X v b) ∧ X ∧ a<br />

s2 ← X ∧ a ∧ (X v b) ∧ X ∧ t<br />

Die Sorten s1 und s2 sind nicht äquivalent.<br />

• Wie ebenfalls im letzten Kapitel deutlich wurde, sind Merkmalsstrukturen nicht geeignet,<br />

Wissensrepräsentationsformalismen zu ersetzen, obwohl sie ja mit diesen eng verwandt<br />

sind. Möchte man sich, wie bei den Kompositadeutung mittels einer konzeptuellen<br />

Relation in <strong>der</strong> Typenhierarchie von den spezifischeren Typen zu ihren Supertypen<br />

bewegen, so erreicht man dies allenfalls durch eine geschickte Anordnung <strong>der</strong> Sorten im<br />

Programmtext, nicht aber auf prinzipielle Weise. Auch sind hierbei keine Inferenzen<br />

möglich. Hilfreich wäre bei <strong>der</strong> gewählten Logik gewesen, wenn sie über rekursive Typenconstraints<br />

verfügen würde, wie sie in Systemen wie ALE (Carpenter/Penn (1994))<br />

und TROLL (Gerdemann et al. (1995)) integriert sind. Mit diesem Hilfsmittel wäre es<br />

möglich, einen guten Teil <strong>der</strong> notwendigen Wissensrepräsentation in die Typenconstraints<br />

zu verlagern. Letztlich aber wird man bei einem realistischen Weltwissensfragment<br />

nicht umhin können, auf einen <strong>der</strong> üblichen frame-basierten Wissensrepräsentationsformalismen<br />

auszuweichen, mit dem auch prozedurales Wissen abgebildet werden<br />

kann (vgl. Reimer (1991)).<br />

• Zum Schluß: Unifikation scheitert o<strong>der</strong> sie scheitert nicht. Es gibt keine „Zwischenwerte“,<br />

mit denen die graduelle Akzeptabilität einer <strong>Analyse</strong> ausgedrückt werden<br />

177


Kapitel 6: Zusammenfassung<br />

könnte und somit auch keine Gewichtung <strong>der</strong> <strong>Analyse</strong>n nach Plausibilität stattfinden<br />

kann.<br />

Vielleicht ist <strong>der</strong> nichtmodulare Aufbau von Unifikationsgrammatiken, die Unmöglichkeit,<br />

bei nichttrivialen Systemen die Konsequenzen kleinster Än<strong>der</strong>ungen vorherzusehen, ihre<br />

exponentielle Komplexität und ihr Alles-o<strong>der</strong>-Nichts-Charakter <strong>der</strong> Grund für das in letzter<br />

Zeit wie<strong>der</strong>erwachte Interesse an <strong>Analyse</strong>methoden auf <strong>der</strong> Grundlage von endlichen Automaten<br />

(vgl. den Sammelband von Roche und Schabes (1997) dazu). Mir fällt es allerdings<br />

schwer zu sehen, wie eine Wortgrammatik mit semantischer Repräsentation mittels solcher<br />

Methoden zu bewerkstelligen sein könnte.<br />

6.3 Wortzerlegung und -analyse<br />

An einigen Stellen – bei <strong>der</strong> Darstellung <strong>der</strong> Präfixverben und <strong>der</strong> -heit/-keit Alternation – ist<br />

sichtbar geworden, daß man auch bei <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> auf Informationen bzgl.<br />

Silbenstruktur und Wortakzent zurückgreifen muß. Die Frage ist, in welcher Weise diese<br />

Informationen in ein Gesamtsystem integriert werden sollten. Zwei Wege bieten sich an:<br />

man benutzt Verfahren wie die Two-Level-Morphology, in <strong>der</strong>en Automaten man solche Informationen<br />

hineinkodiert, o<strong>der</strong> man bereichert die morphologische Grammatik um Typen<br />

und Merkmale zur Repräsentation phonetischer und phonologischer Sachverhalte, wie dies<br />

im Rahmen <strong>der</strong> constraint-based phonology (Bird (1995)) erfolgt. Ich plädiere für die zweite<br />

Alternative, da sie Schnittstellenprobleme vermeidet und nur einen einzigen Formalismus<br />

zur Darstellung <strong>des</strong> sprachlichen Wissens verwendet. Man muß sich allerdings im klaren<br />

darüber sein, daß man es dann nur noch mit einem reinem item-and-arrangement-Ansatz zu<br />

tun hat und <strong>Aspekte</strong> einer item-and-process-Konzeption, wie sie dem TLM-Modell innewohnen,<br />

vernachlässigt.<br />

178


Literaturverzeichnis<br />

Literaturverzeichnis<br />

Abramson, H. (1992): »A Logic Programming View of Relational Morphology. Proc. of<br />

COLING-92, S. 850-854.<br />

Aho, Alfred V.; Corasick, Margaret J. (1975): »Efficient String Matching: An Aid to<br />

Bibliographic Search«. Comm. ACM 18:6 (1975), S. 333-340.<br />

Aho, Alfred V.; Ullman, Jeffrey D. (1972): The Theory of Parsing, Translating, and Compiling.<br />

Vol. I: Parsing. Prentice-Hall: Englewood Cliffs.<br />

Anick, Peter; Artemieff, Susanne (1992): »A High-level Morphological Description<br />

Language Exploiting Inflectional Paradigms«. Proc. of COLING-92, S. 67-73.<br />

Antworth, Evan L. (1994): »Morphological Parsing with a Unification-based Word<br />

Grammar«. North Texas Natural Language Processing Workshop, University of Texas.<br />

Aronoff, Mark (1976): Word Formation in Generative Grammar. Cambridge, Mass.: MIT Press.<br />

Baayen, R. H.; Piepenbrock, R.; van Rijn, H. (1993): The CELEX Lexical Database (CD-ROM).<br />

Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA.<br />

Barton, G. Edward; Berwick, Robert C.; Ristad, E.S. (1987): Computational Complexity and<br />

Natural Language. MIT Press, Cambridge, Mass.<br />

Bear, John (1988): »Morphology with Two-Level Rules and Negative Rule Features«. Proc. of<br />

COLING-88, S.28-31.<br />

Bierwisch, Manfred (1983): »Semantische und konzeptuelle Repräsentation lexikalischer<br />

Einheiten«. In: R. Ruzicka; W. Motsch (Hrsg.): Untersuchungen zur Semantik. Berlin:<br />

Akademie Verlag.<br />

Bierwisch, Manfred (1989): »Event Nominalization: Proposals and Problems«. In:<br />

Linguistische Studien, Reihe A Arbeitsberichte, Bd. 194 (Zentralinstitut für<br />

Sprachwissenschaft <strong>der</strong> Akademie <strong>der</strong> Wissenschaften <strong>der</strong> DDR), S. 1-73.<br />

Bird, Steven (1995): Computational Phonology. A constraint-based approach. Cambridge<br />

University Press, Cambridge.<br />

Black, Alan W.; van de Plassche, J.; Williams, B. (1991): »Analysis of Unknown Words<br />

through Morphological Decomposition«. Proc. of the 5th Conference of the European<br />

Chapter of the ACL (1991), S. 101-106.<br />

Boase-Beier, Jean; Toman, J.; Brekle, H.E.; Beier, D.; Stöhr, I. (1984): Endbericht DFG-Projekt<br />

„Nominalkomposita“. Arbeitsbericht Nr. 41, Juli 1984, Regensburg.<br />

Bußmann, Hadumod ( 2 1990): Lexikon <strong>der</strong> Sprachwissenschaft. Stuttgart: Kröner.<br />

Cal<strong>der</strong>, Jonathan (1989): »Paradigmatic Morphology«. Proc. of the 4th Conference of the<br />

European Chapter of the ACL (1989), S. 58-65.<br />

179


Literaturverzeichnis<br />

Carpenter, Robert (1992): The Logic of Typed Feature Structures. Cambridge Tracts in<br />

Theoretical Computer Science 32. Cambridge: Cambridge University Press.<br />

Carpenter, Robert (1997): Type-Logical Semantics. Cambridge: MIT Press.<br />

Carpenter, Robert; Penn, Gerald (1994): The Attribute Logic Engine. Version 2.0.1. User’s<br />

Guide. Carnegie Mellon University, Pittsburgh.<br />

Chang, Chin-Liang; Lee, Richard Char-Tung (1973): Symbolic Logic and Mechanical Theorem<br />

Proving. Boston: Academic Press.<br />

Chomsky, Noam (1965): Aspects of the Theory of Syntax. Cambridge, Mass.: MIT Press.<br />

Chomsky, Noam (1981): Lectures on Government and Binding. Dordrecht: Foris.<br />

Chomsky, Noam (1985): Knowledge of Language. New York: Praeger.<br />

Chomsky, Noam; Halle, Morris (1968): The Sound Pattern of English. New York: Harper &<br />

Row.<br />

Daelemans, Walter (1987): Studies in Language Technology: An Object-Oriented Computer Model<br />

of Morphophonological Aspects of Dutch. Dissertation, Katholieke Universiteit Leuven.<br />

Daelemans, Walter; De Smedt, Koenraad (1994 ): »Default Inheritance in an Object-Oriented<br />

Representation of Linguistic Categories «. International Journal of Human-Computer<br />

Studies 41 (1994), 149-177<br />

Dietrich, Rainer (1973): Automatische Textwörterbücher: Studien zur maschinellen Lemmatisierung<br />

verbaler Wortformen <strong>des</strong> <strong>Deutschen</strong>. Tübingen: Niemeyer.<br />

Dörre, Jochen; Dorna, Michael; Schnei<strong>der</strong>, K. (1996): The CUF User’s Manual. Institut für<br />

maschinelle Sprachverarbeitung, <strong>Universität</strong> Stuttgart.<br />

Di Sciullo, Anna-Maria; Williams, Edwin (1987): On the Definition of Word. Linguistic<br />

Inquiry Monograph No.14. Cambridge, Mass.: MIT Press.<br />

Dörfler, Andreas; Hanneforth, Thomas (1995): »Morphologische <strong>Analyse</strong> und<br />

Argumentstrukturberechnung«. In: Hitzenberger, L. (Hrsg.): Angewandte<br />

Computerlinguistik. Hil<strong>des</strong>heim: Olms.<br />

Dowty, David R. (1989): »On the Semantic Content of the Notion of ‘Thematic Role’«. In:<br />

Chierchia, G.; Partee, Barbara H. und Turner, R. (Hrsg.): Properties, Types and Meaning.<br />

Vol II. Semantic Issues. Dordrecht: Kluwer. S. 69-129.<br />

Dowty, David R.; Wall, R. E.; Peters, S. (1981): Introduction to Montague Semantics. Dordrecht:<br />

Reidel.<br />

Duden (1984 4): Duden: Die Grammatik. Unentbehrlich für richtiges Deutsch. 4. Auflage,<br />

Mannheim: Bibliographisches Institut.<br />

180


Literaturverzeichnis<br />

Earley, Jay (1970): »An Efficient Context-Free Parsing Algorithm«. Comm. ACM 13:2, S. 94-<br />

102.<br />

Eggers, Hans; Luckhardt, H.-D.; Maas, H.-D.; Weissgerber, M. (1980): SALEM: Ein Verfahren<br />

zur automatischen Lemmatisierung deutscher Texte. Tübingen: Niemeyer.<br />

Eisenberg, Peter (1998): Grundriß <strong>der</strong> deutschen Grammatik: Das Wort. Stuttgart: Metzler.<br />

Fabri, Ray; Rumpf, C.; Urbas, M.; Walther, M. (1995): A Computational Model of Minimalist<br />

Morphology. Arbeiten <strong>des</strong> SFB 282 (Theorie <strong>des</strong> Lexikons), Nr.62, 1995.<br />

Fanselow, Gisbert (1981): Zur Syntax und Semantik <strong>der</strong> Nominalkomposition. Tübingen:<br />

Niemeyer.<br />

Fanselow, Gisbert (1985): »What is a cossible complex word?« In: Toman, Jindrich (Hrsg.):<br />

Studies in German Grammar, Dordrecht:Foris, S.289-322.<br />

Fanselow, Gisbert (1987): »Gemeinsame Prinzipien <strong>der</strong> Wort- und Phrasengrammatik«. In:<br />

Asbach-Schnitker, Brigitte; Roggenhofer, J. (Hrsg.): Neuere Forschungen zur<br />

Wortbildung und Historiographie <strong>der</strong> Linguistik, Tübingen: Narr, S. 177-196.<br />

Fanselow, Gisbert (1988a): »'Word Syntax' and Semantic Principles«. In: Booij, G.; van<br />

Marle, J. (Hrsg.): Yearbook of Morphology, 1988, Foris, Dordrecht, S. 95-122.<br />

Fanselow, Gisbert (1988b): »Word Formation and the Human Conceptual System«. In:<br />

Linguistische Studien, Reihe A Arbeitsberichte, Bd. 179 (Zentralinstitut für<br />

Sprachwissenschaft <strong>der</strong> Akademie <strong>der</strong> Wissenschaften <strong>der</strong> DDR), S. 31-52 .<br />

Finkler, Wolfgang; Neumann, Günter (1986): MORPHIX: Ein hochportabler Lemmatisierungsmodul<br />

für das Deutsche. <strong>Universität</strong> <strong>des</strong> Saarlan<strong>des</strong>, KI-Labor Bericht Nr. 8, Juli 1986.<br />

Gallmann, Peter (1990): Kategoriell komplexe Wortformen. Das Zusammenwirken von Morphologie<br />

und Syntax bei <strong>der</strong> Flexion von Nomen und Adjektiv. Tübingen: Niemeyer.<br />

Gazdar, Gerald; Klein, E.; Pullum, G.K.; Sag, I. (1985): Generalized Phrase Structure Grammar.<br />

Oxford: Basil Blackwell.<br />

Gazdar, Gerald (1985): »Review Article: Finite State Morphology«. Linguistics 23 (1985), S.<br />

597-607.<br />

Gerdemann, Dale (1994): »Complement Inheritance as Subcategorization Inheritance«. In:<br />

Nerbonne, John; Netter, K.; Pollard, C. (Hrsg.): German in Head-Driven Phrase Structure<br />

Grammar, 1994, CSLI, S. 341-363.<br />

Gerdemann, Dale; Götz, T.; Griffith, J.; Kesper, S.; Morawietz, F. (1995): Troll Manual.<br />

Seminar für Sprachwissenschaft, <strong>Universität</strong> Tübingen.<br />

Handwerker, B. (1985): »Review of Fanselow (1981)«. Beiträge zur Geschichte Der <strong>Deutschen</strong><br />

Sprache und Literatur 107, S. 114-117.<br />

181


Literaturverzeichnis<br />

Heilmann, Axel (1991): Argumentstruktur. Arbeitspapiere <strong>des</strong> SFB 340: "Sprachtheoretische<br />

Grundlagen <strong>der</strong> Computerlinguistik", Nr.15.<br />

Heinz, Wolfgang; Matiasek, Johannes (1994): »Argument Structure and Case Assignment in<br />

German«. In: Nerbonne, John; Netter, K.; Pollard, C. (Hrsg.): German in Head-Driven<br />

Phrase Structure Grammar, 1994, CSLI, S. 199-236<br />

Hockett, Charles F. (1954): »Two Models of Grammatical Description«. Word 10 (1954), S.<br />

210-234.<br />

Höhle, Tilmann (1982): »Über Komposition und Derivation: zur Konstituentenstruktur von<br />

Wortbildungsprodukten im <strong>Deutschen</strong>«. Zeitschrift für Sprachwissenschaft 1 (1982), S.<br />

76-112.<br />

Hoeppner, Wolfgang (1980): Derivative Wortbildung <strong>der</strong> deutschen Gegenwartssprache und ihre<br />

algorithmische <strong>Analyse</strong>. Tübingen: Narr.<br />

Holl, Alfred (1988): Romanische Verbalmorphologie und relationentheoretische mathematische<br />

Linguistik. Tübingen: Niemeyer.<br />

Hopcroft, John E.; Ullman, J.D. (1979): Introduction to Automata Theory, Languages and<br />

Computation. Reading, Mass.: Addison-Wesley.<br />

Jackendoff, Ray (1975): »Morphological and Semantic Regularities in the Lexicon«. Language<br />

Vol. 51, No. 3 (1975), S. 639-671.<br />

Johnson, Mark (1988): Attribute-Value Logic and the Theory of Grammar. Stanford: CSLI.<br />

Johnson, Mark (1994): »Two Ways of Formalizing Grammars«. Linguistics and Philosophy 17,<br />

1994, S. 221-248.<br />

Karlsson, Fred (1986): »A Paradigm-Based Morphological Analyzer«. In: Karlsson, F. (Hrsg.):<br />

Papers from the Fifth Scandinavian Conference of Computational Linguistics. Helsinki, Dez.<br />

1985, S.95-112.<br />

Karttunen, Lauri; Kaplan, Ronald M.; Zaenen, Annie (1992): »Two-Level-Morphology with<br />

Composition«. Proc. of COLING-92, S. 141-148.<br />

Kasper, R.; Rounds, W. (1986): »A Logical Semantics for Feature Structures«. Proc. ACL 1986,<br />

S. 257-266.<br />

Kay, Martin (1977): »Morphological and Syntactic Analysis«.In: Zampolli, A. (Hrsg.):<br />

Linguistic Structures Processing (1977), S. 131-234.<br />

Kay, Martin (1980): »Algorithm Schemata and Data Structures in Syntactic Processing«. In:<br />

Grosz, Barbara J.; Sparck Jones, Karen; Webber, Bonnie Lynn (Hrsg.): Readings in Natural<br />

Language Processing, 1986, Los Altos: Morgan Kaufmann, S. 35-70.<br />

Kay, Martin (1982): »When Meta-Rules are not Meta-Rules«. In: Sparck-Jones, K; Wilks, Y.<br />

(Hrsg.): Automatic Natural Language Processing.<br />

182


Literaturverzeichnis<br />

Kaplan, Ronald M.; Kay, Martin; (1994): »Regular Models of Phonological Rule Systems«.<br />

Computational Linguistics (1994), S. 331-379.<br />

Karttunen, Lauri (1984): »Features and Values«. In: Proceedings of COLING 84, S. 28-33.<br />

Knuth, Donald E. (1973): The Art of Computer Programming. Volume 3: Searching and Sorting.<br />

Reading, Mass.: Addison-Wesley.<br />

König, Esther (1996): Introduction to Categorial Grammars. Manuskript, Institut für<br />

maschinelle Sprachverarbeitung, <strong>Universität</strong> Stuttgart.<br />

König, Esther (1998): A CUF Tutorial. Manuskript, Institut für maschinelle<br />

Sprachverarbeitung, <strong>Universität</strong> Stuttgart.<br />

Konrad, Karsten (1995): The CLIG Grapher for Linguistic Data Structures. Unveröffentl.<br />

Manuskript, <strong>Universität</strong> <strong>des</strong> Saarlan<strong>des</strong>, Saarbrücken.<br />

Konrad, Karsten (1997): Extending CLIG: Interaction and User Defined Graphics. Unveröffentl.<br />

Manuskript, <strong>Universität</strong> <strong>des</strong> Saarlan<strong>des</strong>, Saarbrücken.<br />

Koskenniemi, Kimmo; Church, Kenneth W. (1988): »Complexity, Two-Level Morphology<br />

and Finnish.« Proc. of COLING-88, S. 335-339.<br />

Koskenniemi, Kimmo (1984): »A General Computational Model for Word-Form Recognition<br />

and Production«. Proc. of COLING-84, S. 178-181.<br />

Koskenniemi, Kimmo (1986): »Compilation of Automata from Morphological Two-Level<br />

Rules.« Papers from the 5th Scandinavian Conference on Computational Linguistics<br />

(<strong>Universität</strong> Helsinki), 1986.<br />

Krieger, Hans-Ulrich (1994): »Derivation without Lexical Rules«. In: Rupp, C.J.; Rosner,<br />

M.A.; Johnson, R.L. (Hrsg): Constraints, Language and Computation. 1994, Academic<br />

Press, S. 277-313.<br />

Krieger, Hans-Ulrich; Nerbonne, J.; Pirker, H. (1993): Feature-Based Allomorphy. Research<br />

Report 93-28, Deutsches Forschungszentrum für Künstliche Intelligenz.<br />

Lieber, Rochelle (1980): The Organization of the Lexicon. PhD Dissertation, MIT.<br />

Link, Godehard (1991): »Plural«. In: Wun<strong>der</strong>lich, D. und von Stechow, A. (Hrsg.): Handbook<br />

of Semantics. Berlin: de Gruyter.<br />

Lühr, Rosemarie (1986): Neuhochdeutsch. München: Fink.<br />

Meyer, Ralf (1993): Compound Comprehension in Isolation and in Context. The Contribution of<br />

Conceptual and Discourse Knowledge to the Comprehension of German Novel Noun-Noun<br />

Compounds. Tübingen: Niemeyer.<br />

Moortgat, Michael (1986): »Compositionality and the Syntax of Words«. In: Groenendijk,<br />

Jereon; de Jongh, Dick; Stokhof, Martin (Hrsg.): Foundations of Pragmatics and Lexical<br />

Semantics, Dordrecht: Foris, S. 41-62.<br />

183


Literaturverzeichnis<br />

Naumann, Sven; Langer, H. (1994): Parsing. Stuttgart: Teubner.<br />

Olsen, Susan (1986): Wortbildung im <strong>Deutschen</strong>. Stuttgart: Kröner.<br />

Olsen, Susan (1990): »Zur Suffigierung und Präfigierung im verbalen Bereich <strong>des</strong><br />

<strong>Deutschen</strong>«. Papiere zur Linguistik Nr. 42 (Heft 1/1990).<br />

Olsen, Susan (1991): »Empty Heads as the Source of Category Change in Word Structures«.<br />

Papiere zur Linguistik 44/45, Heft 1/2 (1991) S. 109-130<br />

Olsen, Susan (1994): Theoretische Schwerpunkte in <strong>der</strong> Morphologie. Vorlesungsskript,<br />

<strong>Universität</strong> Stuttgart, Sommersemester 1994.<br />

Paulus, Dietrich (1986): Ein Programmpaket zur <strong>morphologischen</strong> <strong>Analyse</strong>. Informatik-<br />

Diplomarbeit (1986), <strong>Universität</strong> Erlangen-Nürnberg.<br />

Pollard, Carl; Sag, I.A. (1987): Information-based Syntax and Semantics. Chicago: CSLI.<br />

Pustejovsky, James (1991): »The Generative Lexicon«. Computational Linguistics 17 (4), 1991,<br />

S. 409-441.<br />

Pustejovsky, James (1991): »The Syntax of Event Structure«. Cognition 41 (1991), S. 47-81.<br />

Pustejovsky, James (Hrsg.) (1993): Semantics and the Lexicon. Dordrecht: Kluwer.<br />

Pustejovsky, James (1993): »Type Coercion and Lexical Selection«. In: Pustejovsky, J. (Hrsg.):<br />

Semantics and The Lexicon.<br />

Pustejovsky, James (1995): The Generative Lexicon. Cambridge, Mass.: MIT Press.<br />

Reape, M.; Thompson, H. (1988): »Parallel Intersection and Serial Composition of Finite<br />

State Transducers«. Proc. of COLING-88, S.535-539.<br />

Reimer, Ulrich (1991): Einführung in die Wissensrepräsentation. Stuttgart: Teubner.<br />

Reis, Marga (1983): »Gegen die Kompositionstheorie <strong>der</strong> Affigierung«. Zeitschrift für<br />

Sprachwissenschaft 2,1 (1983), S.110-131.<br />

Riehemann, Susanne (1994): Morphology and the Hierarchical Lexicon. Manuskript, Stanford<br />

University.<br />

Ritchie, Graeme D.; Russell, G. J.; Black, A. W.; Pulman, S. G. (1992): Computational<br />

Morphology: Practical Mechanisms for the English Lexicon. Cambridge, Mass.: MIT Press.<br />

Roche, Emmanuel; Schabes, Yves (1997, Hrsg.): Finite-State Language Procressing.<br />

Cambridge, Mass.: MIT Press.<br />

Rounds, William C.; Kapser, R. (1986): »A Complete Logical Calculus for Record Structures<br />

Representing Linguistic Information«.<br />

Scalise, Sergio: (1988a): »Inflection and Derivation«. Linguistics 26 (1988).<br />

184


Literaturverzeichnis<br />

Scalise, Sergio: (1988b): »The Notion of 'Head' in Morphology«. In: Booij, G.; van Marle, J.<br />

(Hrsg.): Yearbook of Morphology. Foris, Dordrecht, S: 229-246.<br />

Schiller, Anne; Steffens, P. (1991): »Morphological Processing in the Two-Level-Paradigm«.<br />

In: O.Herzog, C.-R.Rollinger (Hrsg.): Text Un<strong>der</strong>standing in LILOG. Berlin: Springer,<br />

S.122-126.<br />

Schöning, Uwe (1989): Logik für Informatiker. Mannheim: BI Wissenschaftsverlag.<br />

Selkirk, Elisabeth O. (1982): The Syntax of Words. Cambridge, Mass.: MIT Press.<br />

Shieber, Stuart M. (1985): »Criteria for Designing Computer Facilities for Linguistic<br />

Analysis«. Linguistics 23. S. 189-211.<br />

Shieber, Stuart M. (1985a): »Using Restrictions to Extend Parsing Algorithms for Complex-<br />

Feature-Based Formalisms«. In : Proceedings of the 23th Annual Meeting of the<br />

Association for Computational Linguistics, S. 145-152.<br />

Shieber, Stuart M. (1986a): »The Design of a Computer Language for Linguistic<br />

Information«. Proc. COLING 1986, S. 211-215.<br />

Shieber, Stuart M. (1986): Introduction to Unification-based Grammar Formalisms. Chicago:<br />

CSLI.<br />

Spencer, Andrew (1991): Morphological Theory. Oxford: Blackwell.<br />

Smolka, Gerd (1992): »Feature Constraint Logics for Unification Grammars«. Journal of Logic<br />

Programming, vol. 12, S. 51-87.<br />

Thurmair, G. (1986a): »Ein morphologisches Prozessorfragment zur Erzeugung von<br />

Grundformen mithilfe von Lernverfahren«. In: Schwarz, C.; Thurmair, G. (Hrsg.):<br />

Informationslinguistische Texterschließung. Olms, Hil<strong>des</strong>heim. S. 8-31<br />

Thurmair, G. (1986b): »Eine maschinelle morphologische <strong>Analyse</strong> <strong>des</strong> <strong>Deutschen</strong>« . In:<br />

Schwarz, C.; Thurmair, G. (Hrsg.): Informationslinguistische Texterschließung. Olms,<br />

Hil<strong>des</strong>heim, S. 66-107<br />

Toman, Jindrich (1986): »A (Word-)Syntax for Participles«. Linguistische Berichte 105, S. 367 -<br />

408.<br />

Toman, Jindrich ( 2 1987): Wortsyntax: Eine Diskussion ausgewählter Probleme deutscher<br />

Wortbildung. Tübingen: Niemeyer.<br />

Tomita, M. (1987): »An Efficient Augemented Context-free Parsing Algorithm«.<br />

Computational Linguistics 13,1/2, S. 31-46.<br />

Trost, Harald (1990): »The Application of the Two-Level Morphology to Nonconcatenative<br />

German Morphology.« Proceedings of COLING-90, S. 371-376.<br />

Trost, Harald; Buchberger, E. (1981): Lexikon, morphologische <strong>Analyse</strong> und Synthese im System<br />

VIE-LANG. Bericht 81-02. Institut für Medizinische Kybernetik, <strong>Universität</strong> Wien.<br />

185


Literaturverzeichnis<br />

Ullman, Jeffrey D. (1988): Principles of Database and Knowledge-Base Systems. Volume I:<br />

Classical Database Systems. Rockville, Maryland: Computer Science Press.<br />

Williams, Edwin (1981): »On the notions of ‘lexically related’ and ‘head of a word’«.<br />

Linguistic Inquiry, 12, S.245-274.<br />

Wisniewski, E.J./Gentner, D. (1991): „On the Combinatorial Semantics of Noun Pairs: Minor<br />

and Major Adjustments to Meaning“. In: G.B. Simpson (Hrsg.): Un<strong>der</strong>standing Word<br />

and Sentence, Elsevier, North-Holland, S. 241-284.<br />

Wun<strong>der</strong>lich, Dieter (1987): »An Investigation of Lexical Composition: the Case of German<br />

be- Verbs«. Linguistics 25 (1987), S. 283 - 332.<br />

Wun<strong>der</strong>lich, Dieter (1992): A Minimalist Analysis of German Verb Morphology. Arbeiten <strong>des</strong><br />

SFB 282 »Theorie <strong>des</strong> Lexikons« Nr.21, Mai 1992.<br />

Wun<strong>der</strong>lich, Dieter; Fabri, Ray (1994): Minimalist Morphology: An Approach to Inflection.<br />

Manuskript, <strong>Universität</strong> Düsseldorf.<br />

186


Anhang A: Algorithmen<br />

Anhang A: <strong>Analyse</strong>algorithmen<br />

Dieser Anhang enthält die Algorithmen zur Konstruktion <strong>des</strong> segmentierenden Automatens.<br />

A.1 Konstruktion <strong>des</strong> Segmentierers<br />

A.1.1 Konstruktion von Übergangs-, failure- und Ausgabefunktion<br />

Nachfolgend sind die (leicht adaptierten, da teilweise in eine objektorientierte Form gebrachten)<br />

Originalalgorithmen von Aho/Corasick (1975) aufgeführt. Alle weiteren Algorithmen<br />

in diesem Anhang machen ebenfalls Gebrauch <strong>der</strong> objektorientierten<br />

Notationsweise.<br />

Algorithmus A.1: Konstruktion <strong>der</strong> Übergangsfunktion<br />

Eingabe: Eine Menge von Schlüsselwörtern (Listemen) S = { s1s2 ... sn}.<br />

Das Alphabet � und <strong>der</strong> Anfangszustand startstate <strong>des</strong> Automaten<br />

Ausgabe Übergangsfunktion g und teilweise berechnete Ausgabefunktion output.<br />

Verfahren begin<br />

newstate := startstate<br />

for i := 1 to n do<br />

insert(si);<br />

for all a � � such that g(startstate,a) = fail do<br />

g(startstate,a) := startstate<br />

end;<br />

procedure insert(a1a2 ... ak);<br />

begin<br />

state := startstate;<br />

for i := 1 to k do begin<br />

if g(state,ak) = fail then begin<br />

newstate := NewState();<br />

g(state,ak) := newstate;<br />

state := newstate<br />

end<br />

else<br />

state := g(state,ak);<br />

end;<br />

output(state) := { a1a2 ... ak }<br />

end;<br />

Algorithmus A.1: Konstruktion <strong>der</strong> Übergangsfunktion (nach Aho/Corasick (1975:336))<br />

Algorithmus A.1 erhält eine Menge von Zeichenketten und fügt diese <strong>der</strong> Reihe nach ein.<br />

Anschließend wird für alle Alphabetsymbole, für die es vom Startzustand keinen Übergang<br />

in einen an<strong>der</strong>en Zustand gibt, ein Übergang zurück zum Startzustand eingefügt. Diese<br />

Schleifen stellen sicher, daß <strong>der</strong> Automat bei jedem Zustandswechsel ein Eingabesymbol<br />

187


Anhang A: Algorithmen<br />

konsumiert und sind darüber hinaus dafür zuständig, unbekannte Teile in <strong>der</strong> Eingabekette<br />

zu überspringen.<br />

Zum Einfügen einzelner Zeichenketten dient die Prozedur insert. Ausgehend vom Startzustand<br />

<strong>des</strong> Automaten wird in jedem aktuellen Zustand geprüft, ob es für das gerade betrachtete<br />

Eingabesymbol einen Übergang in einen an<strong>der</strong>en Zustand gibt. Ist dies <strong>der</strong> Fall, so<br />

wechselt <strong>der</strong> Automat in diesen Zustand, an<strong>der</strong>nfalls wird mit Hilfe <strong>der</strong> Funktion NewState<br />

ein neuer, bisher noch nicht existieren<strong>der</strong> Zustand erzeugt und die Übergangsfunktion um<br />

einen Übergang in diesen Zustand erweitert. Für den nach Abarbeitung <strong>der</strong> Eingabekette<br />

erreichten Zustand wird in <strong>der</strong> Ausgabefunktion output diese Eingabekette eingetragen.<br />

Algorithmus A.2: Konstruktion <strong>der</strong> failure-Funktion<br />

Eingabe: Übergangsfunktion g und Ausgabefunktion output aus Algorithmus A.1.<br />

Das Alphabet � und <strong>der</strong> Anfangszustand startstate <strong>des</strong> Automaten<br />

Ausgabe: failure-Funktion failure und die vervollständigte Ausgabefunktion output.<br />

Verfahren begin<br />

queue := Queue.new;<br />

for each a � � such that g(startstate,a) = s � startstate do begin<br />

queue.enqueue(s);<br />

failure(s) := startstate<br />

end;<br />

while queue.nonempty do begin<br />

r := queue.dequeue;<br />

for each a � � such that g(r,a) = s � fail do begin<br />

queue.enqueue(s);<br />

state := failure(r);<br />

while g(state,a) = fail do<br />

state := failure(state);<br />

failure(s) := g(state,a);<br />

output(s) := output(s) � output(failure(s))<br />

end<br />

end;<br />

end;<br />

Algorithmus A.2: Konstruktion <strong>der</strong> failure- und Ausgabefunktion (nach Aho/Corasick (1975:336))<br />

Zur Zwischenspeicherung von noch nicht bearbeiteten Zuständen wird eine Queue (Last-In-<br />

Last-Out-Struktur) verwendet, die mit den Zuständen initialisiert wird, die vom Startzustand<br />

<strong>des</strong> Automaten durch einen Übergang erreichbar sind und die nicht identisch mit dem<br />

Startzustand selbst sind. Als Funktionswert <strong>der</strong> failure-Funktion wird für jeden dieser Zustände<br />

<strong>der</strong> Startzustand eingetragen, da, falls ein Übergang für irgendein Symbol in einem<br />

dieser Zustände nicht definiert ist, <strong>der</strong> Zustand, in dem die <strong>Analyse</strong> fortgesetzt werden<br />

kann, eben <strong>der</strong> Startzustand ist.<br />

Eine anschließende while-Schleife verarbeitet nun die Queue solange, bis sie leer wird.<br />

Hierzu wird ein Zustand r am Kopf <strong>der</strong> Queue entnommen und alle Zustände s, die von r<br />

erreicht werden können, in die Queue aufgenommen. Für diese wird <strong>der</strong> Wert <strong>der</strong> failure-<br />

Funktion aufgrund <strong>der</strong> failure-Funktionswerte <strong>der</strong> bereits verarbeiteten Zustände berechnet.<br />

188


Anhang A: Algorithmen<br />

A.1.2 Umwandlung <strong>des</strong> parallelen Pattern-Matchers in einen DEA<br />

Algorithmus A.3 formalisiert die Umwandlung eines parallelen Pattern-Matchers, wie ihn<br />

Algorithmus A.1 erzeugt, in einen deterministischen endlichen Automaten (DEA).<br />

Algorithmus A.3: Determinisierung eines parallelen Pattern-Matchers<br />

Eingabe: goto- und failure-Funktion eines Pattern-Matchers<br />

Ausgabe: Der Pattern-Matcher als deterministischer endlicher Automat<br />

Verfahren begin<br />

queue := Queue.emptyQueue<br />

for each a � � do begin<br />

�(startstate,a) := goto(startstate,a)<br />

if goto(startstate,a) � startstate then<br />

queue.enqueue(g(startstate,a))<br />

end;<br />

end<br />

while queue � empty do begin<br />

r := queue.dequeue;<br />

for each a � � do<br />

if s = g(r,a) � fail then begin<br />

queue.enqueue(s)<br />

delta(r,a) := s<br />

end else<br />

delta(r,a) := delta(failure(r),a)<br />

end<br />

Algorithmus A.3: Konstruktion <strong>der</strong> failure- und Ausgabefunktion (nach Aho/Corasick (1975:336))<br />

189


Anhang B: Typenhierarchie und Merkmalseinführung<br />

Anhang B: Typenhierarchie und Merkmalseinführung<br />

Allgemeines<br />

Der allgemeinste Typ > (top) wird unterteilt in afs (atomic feature structure) und cfs (complex<br />

feature structure); nur cfs und seine Subtypen können Merkmale haben.<br />

Listen sind entwe<strong>der</strong> leer (elist) o<strong>der</strong> nicht leer (nelist); im letzten Fall haben sie Merkmale<br />

für Listenkopf und Listenrest. Strings sind Zeichenketten in doppelten Anführungszeichen.<br />

> � afs | cfs<br />

string � afs<br />

list � elist | nelist<br />

nelist :: ´F´: top � ´R´: list<br />

Morphologische Hierarchie<br />

morph_or_syn_object � cfs<br />

morph_or_syn_object � morph_object | sign<br />

morph_or_syn_object :: GRAPH: list(letter) � SYN: syntax � SEM: semantics<br />

morph_object � simple_or _complex_stem | linking_morph | pre_syntactic_atom | affix<br />

morph_object :: MORPH: morph<br />

sign � syntactic_atom | phrase<br />

simple_or _complex_stem � simple_stem | complex_stem<br />

simple_or _complex_stem :: STRUCTURE: list(morph_object)<br />

affix � prefix | suffix<br />

suffix � infl_affix | <strong>der</strong>ivative<br />

simple_stem � unknown_stem<br />

form_t � suffix � prefix � simple_stem<br />

form_t :: FORM: string<br />

Hierarchie unter SYN:<br />

syntax :: HEAD: head � ARGSTR: argstr<br />

head � nominal | verbal | preposition<br />

head :: CAT: cat<br />

nominal � noun | adjective | pronoun | determiner<br />

nominal :: CASE: case � GENDER: gen<strong>der</strong><br />

adjective ::DEGREE: degree � DECL: decl � PRED: boolean<br />

verb � verbal<br />

verb � verb_infl_or_imp | verb_infinitive<br />

verb_infl_or_imp � verb_infl | verb_imp<br />

verb_infinitive � verb_part | verb_inf_base<br />

verb_inf_base � verb_inf | verb_zuinf<br />

verb_part � verb_partI | verb_partII<br />

190


verb_infl_or_imp :: MOOD: mood<br />

verb_infl :: TENSE: tense<br />

Anhang B: Typenhierarchie und Merkmalseinführung<br />

preposition :: PFORM: afs_ymbol � DP_CASE: case<br />

num_t � verb_infl_or_imp � nominal<br />

num_t :: NUM: num<br />

pers_t � verb_infl � nominal<br />

pers_t :: PERS: pers<br />

cat � n | v | a | p |adv | d | pn<br />

case � syntactic_case � morphological_case<br />

morphological_case � nom � gen � dat � acc<br />

syntactic_case � lex_case � struc_case<br />

lgen � gen � lex_case<br />

ldat � dat � lex_case<br />

lacc � acc � lex_case<br />

snom � nom � struc_case<br />

sgen � gen � struc_case<br />

sacc � acc � struc_case<br />

pers � first | second | third<br />

num � sg | pl<br />

tense � pres | pret<br />

mood � ind | subjI | subjII | imp<br />

gen<strong>der</strong> � masc | fem | neut<br />

decl � strong | weak | mixed<br />

degree � pos | comp | sup<br />

Hierarchie unter SYN:AGRSTR:<br />

argstr � verbal_argstr | nominal_argstr<br />

argstr ::<br />

DEFARGS: list(morph_or_syn_object) �<br />

ADJUNCTS: list(morph_or_syn_object) �<br />

ARGSTR_ORDER: list(morph_or_syn_object)<br />

verbal_argstr ::<br />

SUBJ: morph_or_syn_object_or_elist �<br />

DIR_OBJ: morph_or_syn_object_or_elist �<br />

INDIR_OBJ: morph_or_syn_object_or_elist �<br />

PREP_OBJ: morph_or_syn_object_or_elist �<br />

SENT_COMPL: morph_or_syn_object_or_elist �<br />

nominal_argstr � noun_argstr | adj_argstr<br />

nominal_argstr :: RELARG: morph_or_syn_object_or_elist<br />

adj_argstr :: INTARG: morph_or_syn_object_or_elist<br />

morph_or_syn_object_or_elist � sign | elist<br />

191


Hierarchie unter MORPH:<br />

Anhang B: Typenhierarchie und Merkmalseinführung<br />

morph :: MHEAD: mhead � MFEAT: mfeat � MSUBCAT: morph_subcat<br />

noun_mhead � mhead<br />

mhead :: LATINATE: boolean<br />

noun_mhead :: DECL_CLASS: decl_class<br />

morph_object_or_elist � morph_object | elist<br />

mfeat ::<br />

COMPLEX: boolean � % ist die Form komplex?<br />

COMPLETE: boolean � % ist die Form flektionsmäßig vollständig ?<br />

UMLAUT: boolean � % kann <strong>der</strong> Grundvokal umgelautet werden?<br />

DER: boolean � % kann die Form für die Derivation verwendet werden?<br />

CMP: boolean � % kann die Form für die Komposition verwendet werden?<br />

verb_mfeat � mfeat<br />

verb_mfeat ::<br />

SEP_VERB: boolean � % handelt es sich um ein Partikelverb?<br />

V_PARTICLE: afs_symbol % wenn ja, dann enthält dieses Merkmal den Partikel<br />

affix_subcat � morph_subcat<br />

affix_subcat :: NEEDS: morph_object_or_elist<br />

Hierarchie unter SEM:<br />

semantics � nominal_semantics | verbal_semantics<br />

semantics :: CONTENT: content<br />

nominal_semantics :: REFARG: simple_or_dotted_type<br />

verbal_semantics :: EXTARG: simple_type<br />

content � lexical_content | operator_content<br />

lexical_content :: EVENTSTR: eventstr<br />

simple_or_dotted_type � simple_type | dotted_type<br />

simple_type � countable | uncountable<br />

simple_type :: TYPE: entity<br />

countable � individual | group<br />

countable :: IS_GROUP: boolean<br />

group :: GROUP_OF: countable<br />

dotted_type :: TYPES: list � TYPE_REL: list<br />

content � lexical_content | operator_content<br />

one_place_operator_struct � operator_content<br />

operator_content :: OPERATOR: operator<br />

one_place_operator_struct :: SCOPE: content<br />

operator � one_place_operator | two_place_operator<br />

one_place_operator � op_modality | op_negation | op_abstraction |op_identity<br />

192


Anhang B: Typenhierarchie und Merkmalseinführung<br />

op_modality � op_possibility | op_necessity<br />

event � activity | state<br />

eventstr � activity_eventstr � state_eventstr<br />

activity_eventstr :: EVENT: activity<br />

state_eventstr :: STATE: state<br />

transition_eventstr � activity_eventstr � state_eventstr<br />

transition_eventstr � achievement | accomplishment<br />

transition_eventstr :: EVENTRESTR: eventrestr � EVENTHEAD: event<br />

Konzepthierarchie unter TYPE:<br />

entity � physical_entity | abstract_entity<br />

physical_entity � animate_ind | inanimate_ind<br />

animate_ind � human | nonhuman<br />

nonhuman � animal | plant<br />

inanimate_ind � matter | physical_obj<br />

matter � solid_state | liquid<br />

solid_state � metal | stone | china | paper | glass<br />

liquid � water | oil<br />

physical_obj � book | musical_instrument | tool | food | place<br />

tool � knife | cup | blade<br />

food � bread | cake<br />

place � building | room<br />

factory � building<br />

abstract_entity � temporal | nontemporal<br />

event � temporal<br />

activity � event<br />

nontemporal � abstract_obj | abstract_nonobj<br />

abstract_obj � institution<br />

abstract_nonobj � information | property | relation | collection<br />

text � information<br />

state � relation<br />

Diverses<br />

role ::ROLE: thetarole � SEL_RESTR: simple_or_dotted_type<br />

thetarole � agent | patient | theme | instrument | experiencer | goal | source | location |<br />

beneficiary | dont_know<br />

agent � exhibiter | producer | worker | len<strong>der</strong><br />

theme � exhibited | produced | lended_thing<br />

dont_know � substratum | organisation<br />

relation_or_elist � relation | elist<br />

relation ::RELCONST: afs_symbol � RELARGS: list<br />

accessible_relation :: ACCESSIBLE_ARGS: list<br />

event :: EVENT_TYPE: afs_symbol � ROLES: list � ACCESSIBLE_ROLES: list<br />

193


Anhang C: Programmcode<br />

Anhang C: Programmcode<br />

Anhang C enthält die Programmtexte <strong>der</strong> <strong>Analyse</strong>automaten und <strong>der</strong> <strong>morphologischen</strong><br />

Grammatik. In C.1 ist <strong>der</strong> Segmentierer dokumentiert, in C.2 <strong>der</strong> unifikationsbasierte Chart-<br />

Parser.<br />

C.3 gibt die CUF-Implementierung <strong>der</strong> <strong>morphologischen</strong> Grammatik wie<strong>der</strong>.<br />

C.1 Der Segmentierer<br />

/*********************************************************************************************************************************<br />

File: segment.pl<br />

Language: Sicstus Prolog 3.5<br />

Author: Thomas Hanneforth, University of Potsdam, Germany<br />

Date: Feb. 98<br />

Desc.: implements the segmenting automation<br />

*********************************************************************************************************************************/<br />

:- ensure_loaded([library(lists)]).<br />

:- [utils].<br />

:- [automat]. % Alphabet and start state of the segmentizer<br />

/*********************************************************************************************************************************<br />

parse_word(Word:,Structures:)<br />

Top level predicate of the word parser; calls predicates init_chart/0, shift/1 in<br />

wordchart.pl<br />

Use word_segmentation/2 if you are only interested in the known<br />

segments of Word<br />

*********************************************************************************************************************************/<br />

parse_word(Word,Structures) :-<br />

init_chart,<br />

% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />

atom_to_atomlist(Word,Symbollist),<br />

startstate(StartState),<br />

% shift the found segments into the chart<br />

insert_segments_into_chart(Symbollist,StartState,1,Word),<br />

% check whether it's necessary to insert "unknown"-segments<br />

% after the last lexical segment<br />

complete_chart(Word),<br />

startcat(Startcat),<br />

length(Symbollist,Wordlength),<br />

% find all edges spanning the whole word<br />

generate_structures(Startcat,Wordlength,Structures).<br />

194


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

insert_segments_into_chart(Symbollist:,<br />

State:,Pos:,Word:):<br />

Segmentizes the word given in Symbollist into the known segments<br />

(determined by the lexicon) and inserts them via shift/3 into the chart.<br />

*********************************************************************************************************************************/<br />

insert_segments_into_chart([],_State,_Index,_Word).<br />

insert_segments_into_chart([Letter|Restletters],State,I,Word) :-<br />

non_failure_state(State,Letter,NonFailState),<br />

transition(NonFailState,Letter,NewState),<br />

output(NewState,WordList),<br />

(WordList = [] -> % is the output function defined ?<br />

true<br />

;<br />

% yes, so convert the items in output into segments<br />

( word_to_segment_conversion(WordList,I,Segments),<br />

shift_all(Segments,Word) % insert all segments into the chart<br />

)<br />

),<br />

J is I + 1,<br />

insert_segments_into_chart(Restletters,NewState,J,Word).<br />

/*********************************************************************************************************************************<br />

shift_all(Segment:, Word:)<br />

inserts all segments into the chart; Word is the word to be analyzed<br />

*********************************************************************************************************************************/<br />

shift_all([],_Word).<br />

shift_all([Segment|Segments],Word) :-<br />

shift(Segment,Word),<br />

(morphdebug(on) -><br />

( write('Inserted segment:'), write(Segment), nl, nl,<br />

complete_edges, nl,<br />

incomplete_edges, nl,<br />

get0(_)<br />

)<br />

;<br />

true<br />

),<br />

shift_all(Segments,Word).<br />

/*********************************************************************************************************************************<br />

word_segmentation(Atomlist:,Segments:)<br />

Standalone predicate<br />

segmentizes Word into Segments<br />

e.g. 'rechnest' becomes (with suitable lexicon entries): [seg(1,rechn,5),seg(6,st,8)]<br />

*********************************************************************************************************************************/<br />

word_segmentation(Word,Segments) :-<br />

% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />

atom_to_atomlist(Word,Symbollist),<br />

startstate(StartState),<br />

word_segmentation(Symbollist,StartState,1,[],ReverseSegments),<br />

% reverse the segment list<br />

reverse(ReverseSegments,Segments).<br />

195


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

word_segmentation(Atomlist:,Startstate:,<br />

Index:,Segments:)<br />

*********************************************************************************************************************************/<br />

word_segmentation([],_State,_Index,Seg,Seg).<br />

word_segmentation([Letter|Rest],State,I,SegsSoFar0,Segments) :-<br />

non_failure_state(State,Letter,NonFailState),<br />

transition(NonFailState,Letter,NewState),<br />

output(NewState,WordList),<br />

(WordList = [] -> % is the output function defined ?<br />

SegsSoFar1 = SegsSoFar0<br />

;<br />

% yes, so convert the items in output into segments<br />

( word_to_segment_conversion(WordList,I,NewSegments),<br />

append(NewSegments,SegsSoFar0,SegsSoFar1)<br />

)<br />

),<br />

J is I + 1,<br />

word_segmentation(Rest,NewState,J,SegsSoFar1,Segments).<br />

/*********************************************************************************************************************************<br />

non_failure_state(State:,Letter:,NonFailState:)<br />

NonFailState = State if there is transition from State with Letter<br />

*********************************************************************************************************************************/<br />

non_failure_state(State,Letter,State) :-<br />

transition(State,Letter,NewState),<br />

NewState \== fail,<br />

!.<br />

non_failure_state(State0,Letter,State) :-<br />

transition(State0,Letter,fail), % no transition<br />

f(State0,State1), % failure function<br />

non_failure_state(State1,Letter,State).<br />

/*********************************************************************************************************************************<br />

transition(State1:,Char:,State2:):<br />

State2 is the state which is reachable from State1 with Char.<br />

if there isn't a transition then State2 = fail<br />

*********************************************************************************************************************************/<br />

transition(State1,AlphabetSymbol,fail) :-<br />

\+ tr(State1,AlphabetSymbol,_),<br />

!.<br />

transition(State1,AlphabetSymbol,State2) :-<br />

tr(State1,AlphabetSymbol,State2).<br />

/*********************************************************************************************************************************<br />

output(State:,WordList:):<br />

Returns a list of morphs if the analysers output function is defined,<br />

otherwise the empty list.<br />

*********************************************************************************************************************************/<br />

output(State,Wordlist) :-<br />

(o(State,Wordlist) -><br />

true<br />

;<br />

Wordlist = []). % function undefined<br />

196


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

File: automat.pl<br />

Description: Definition of the alphabet and the start state of the segmentizer<br />

Date: March 98<br />

/*********************************************************************************************************************************<br />

startstate(s0).<br />

/*********************************************************************************************************************************<br />

automation_alphabet(Alphabet:):<br />

Defines the alphabet of the segmentizer<br />

*********************************************************************************************************************************/<br />

automation_alphabet([a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z,'-','ä','ö','ü','ß']).<br />

/*********************************************************************************************************************************<br />

File: gen_segment.pl<br />

Language: Sicstus Prolog 3.5<br />

Author: Thomas Hanneforth, University of Potsdam, Germany<br />

Date: Feb. 98<br />

Desc.: Creates the segmenting automation<br />

The main predicate is create_automation/0 which compiles a<br />

pattern matching machine (see Aho/Corasick (1975) for details)<br />

out of the lexicon entries<br />

*********************************************************************************************************************************/<br />

:- dynamic<br />

tr/3, % transition function entry<br />

f/2, % failure function entry<br />

o/2. % output function entry<br />

:- unknown(_,fail).<br />

:- ensure_loaded([library(lists)]).<br />

:- [queues,sicsutls]. % Sicstus<br />

:- [automat]. % Alphabet of the automation<br />

:- [os_spec]. % Operating system specific stuff<br />

/*********************************************************************************************************************************<br />

create_automation/0:<br />

top level predicate for the compiler<br />

*********************************************************************************************************************************/<br />

create_automation :-<br />

nl, write('% Compiling segmentizer ...'), nl,<br />

clear_db,<br />

process_lex_entries,<br />

startstate_completition,<br />

construct_failure_function,<br />

% for reasons of efficiency this is done after all words are processed.<br />

write_automation,<br />

segmentizer_information(States,Transitions,Finalstates),<br />

write('% Morph segmentizer created and saved.'), nl,<br />

format("% ~d states, ~d transitions, ~d final states.", [States,Transitions,Finalstates]),<br />

nl, nl.<br />

/*********************************************************************************************************************************<br />

clear_db /0:<br />

Removes all dynamic predicate clauses<br />

*********************************************************************************************************************************/<br />

clear_db :-<br />

abolish(tr/3),<br />

abolish(f/2),<br />

abolish(o/2).<br />

197


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

process_lex_entries/0:<br />

Adds all lexicon entries to the automation and constructs<br />

the failure function afterwards<br />

*********************************************************************************************************************************/<br />

process_lex_entries :-<br />

(--->(Word,_Desc)), % extract lexicon entry<br />

\+ (Word = unknown(_W)), % special entry 'unknown' isn't inserted<br />

add_to_automation(Word), % insert Word into the automation<br />

fail.<br />

process_lex_entries.<br />

/*********************************************************************************************************************************<br />

startstate_completition/0:<br />

adds a transition for all symbols from startstate to startstate for<br />

which no transition is defined yet<br />

*********************************************************************************************************************************/<br />

startstate_completition :-<br />

automation_alphabet(Alphabet),<br />

startstate(Start),<br />

add_start_transitions(Alphabet,Start).<br />

add_start_transitions([],_Start).<br />

add_start_transitions([AlphabetSymbol|RestAlphabet],Start) :-<br />

transition(Start,AlphabetSymbol,State),<br />

((State = fail) -><br />

add_transition(Start,AlphabetSymbol,Start)<br />

;<br />

true % a transition is already there, so do nothing<br />

),<br />

add_start_transitions(RestAlphabet,Start).<br />

/*********************************************************************************************************************************<br />

construct_failure_function/0:<br />

constructs the failure function of the segmentizer.<br />

*********************************************************************************************************************************/<br />

construct_failure_function :-<br />

automation_alphabet(Alphabet),<br />

startstate(Start),<br />

make_queue(Queue),<br />

% initialize the queue<br />

queue_startstates(Alphabet,Start,Queue,NewQueue),<br />

process_queue(NewQueue,Alphabet).<br />

/*********************************************************************************************************************************<br />

queue_startstates(Alphabet:,Start:,Queue1,Queue2):<br />

Adds all states to Queue for which there are transitions to a state not equal<br />

to Start<br />

*********************************************************************************************************************************/<br />

queue_startstates([],_Start,Queue,Queue).<br />

queue_startstates([AlphabetSymbol|RestAlphabet],Start,Queue0,Queue) :-<br />

transition(Start,AlphabetSymbol,NewState), % should never fail<br />

((NewState = Start) -><br />

Queue1 = Queue0<br />

;<br />

( enqueue(NewState,Queue0,Queue1),<br />

assert(f(NewState,Start))<br />

)),<br />

queue_startstates(RestAlphabet,Start,Queue1,Queue).<br />

198


Anhang C: Programmcode<br />

process_queue(Queue,_Alphabet) :-<br />

empty_queue(Queue),<br />

!.<br />

process_queue(Queue,Alphabet) :-<br />

dequeue(Queue,State,Queue1), % dequeue new state<br />

process_alphabet(Alphabet,State,Queue1,Queue2),<br />

process_queue(Queue2,Alphabet).<br />

/*********************************************************************************************************************************<br />

process_alphabet(Alphabet,State,Queue1,Queue) :-<br />

Process all alphabet symbols relative to the recently dequeued<br />

state State<br />

State = R; NewState = S<br />

*********************************************************************************************************************************/<br />

process_alphabet([],_State,Queue,Queue).<br />

process_alphabet([Sym|RestAlphabet],R,Queue1,Queue) :-<br />

transition(R,Sym,S),<br />

((S = fail) -> % only non-fail states are processed<br />

( Queue2 = Queue1 ) % do nothing<br />

;<br />

( enqueue(S,Queue1,Queue2), % enqueue state S<br />

f(R,State), % State = failure(R)<br />

non_failure_state(State,Sym,NonFailState),<br />

transition(NonFailState,Sym,State1),<br />

assert(f(S,State1)),<br />

output(State1,Wordlist),<br />

(Wordlist = [] -> % function undefined?<br />

true % yes -> do nothing<br />

;<br />

(output(S,OldWordlist),<br />

(OldWordlist = [] -> % function undefined?<br />

true % yes -> completely new entry<br />

;<br />

retract(o(S,_)) % no -> remove old one<br />

),<br />

union(OldWordlist,Wordlist,NewWordlist),<br />

assert(o(S,NewWordlist))<br />

)))),<br />

process_alphabet(RestAlphabet,R,Queue2,Queue).<br />

199


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

write_automation/0:<br />

extracts the information about transitions, failure and output of the<br />

database and writes it to three files<br />

*********************************************************************************************************************************/<br />

write_automation :-<br />

% create transitions file<br />

filename(morphsegfile,MorphSegFile),<br />

open(MorphSegFile,write,File),<br />

write(File,'% Morph segmentizer definition file.'),<br />

nl(File),<br />

write(File,'% This is a generated file.'),<br />

nl(File), nl(File),<br />

write_transition_func(File),<br />

% create failure function file<br />

write_failure_func(File),<br />

% create output function file<br />

write_output_func(File),<br />

close(File).<br />

write_transition_func(File) :-<br />

write(File,'% Transition function'),<br />

nl(File), nl(File),<br />

transition(State1,Char,State2),<br />

State2 \== fail,<br />

write_canonical(File,tr(State1,Char,State2)),<br />

write(File,.), nl(File),<br />

fail.<br />

write_transition_func(_File).<br />

write_failure_func(File) :-<br />

nl(File), nl(File),<br />

write(File,'% Failure function'),<br />

nl(File),<br />

f(State1,State2),<br />

write(File,f(State1,State2)), write(File,.), nl(File),<br />

fail.<br />

write_failure_func(_File).<br />

write_output_func(File) :-<br />

nl(File), nl(File),<br />

write(File,'% Output function'),<br />

nl(File),<br />

o(State,Wordlist),<br />

write(File,'o('),write(File,State),<br />

write(File,',['),<br />

write_quoted(Wordlist,File),<br />

write(File,']).'), nl(File),<br />

fail.<br />

write_output_func(_File).<br />

200


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

write_quoted(List:,Filename::<br />

Writes the terms in List into the File "Filename" such that all atoms are quoted<br />

*********************************************************************************************************************************/<br />

write_quoted([],_File) :-<br />

!.<br />

write_quoted([Word/Lemma],File) :-<br />

write(File,''''), write(File,Word), write(File,''''),<br />

write(File,/),<br />

write(File,''''), write(File,Lemma), write(File,''''),<br />

!.<br />

write_quoted([Word/Lemma|Rest],File) :-<br />

write(File,''''), write(File,Word), write(File,''''),<br />

write(File,/),<br />

write(File,''''), write(File,Lemma), write(File,''''),<br />

write(File,','),<br />

write_quoted(Rest,File).<br />

/*********************************************************************************************************************************<br />

add_to_automation(Word/Lemma):<br />

inserts Word into the trie-like transition graph<br />

*********************************************************************************************************************************/<br />

add_to_automation(Word/Lemma) :-<br />

name(Word,CharList), % convert word to character list<br />

char_atom_list(CharList,AtomCharList), % convert char list to atoms<br />

startstate(StartState),<br />

add_to_trie(AtomCharList,Word,Lemma,StartState).<br />

% insert Word into the trie<br />

add_to_trie([],Word,Lemma,State) :-<br />

add_output(State,Word,Lemma). % update output function<br />

add_to_trie([Char|Chars],Word,Lemma,State) :-<br />

newstate(State,Char,NewState,Result),<br />

add_to_trie(Chars,Word,Lemma,NewState).<br />

/*********************************************************************************************************************************<br />

newstate(State:,Char:,NewState:,Result:)<br />

constructs a new transition from State with Char if there isn't alreday one.<br />

*********************************************************************************************************************************/<br />

newstate(State,Char,NewState,old_transition) :-<br />

transition(State,Char,NewState), % there is already a transition<br />

NewState \== fail,<br />

!.<br />

newstate(State,Char,NewState,new_transition) :-<br />

transition(State,Char,fail), % no transition,<br />

gensym(s,NewState), % so construct a new state<br />

add_transition(State,Char,NewState). % and add a new transition<br />

201


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

non_failure_state(State,Letter,NonFailState)<br />

NonFailState = State if there is transition from State with Letter<br />

*********************************************************************************************************************************/<br />

non_failure_state(State,Letter,State) :-<br />

transition(State,Letter,NewState),<br />

NewState \== fail,<br />

!.<br />

non_failure_state(State0,Letter,State) :-<br />

transition(State0,Letter,fail), % no transition<br />

f(State0,State1), % failure function<br />

non_failure_state(State1,Letter,State).<br />

/*********************************************************************************************************************************<br />

transition(State1,Char,State2):<br />

State2 is the state which is reachable from State1 with Char.<br />

if there isn't a transition then State2 = fail<br />

*********************************************************************************************************************************/<br />

transition(State1,AlphabetSymbol,fail) :-<br />

\+ tr(State1,AlphabetSymbol,_),<br />

!.<br />

transition(State1,AlphabetSymbol,State2) :-<br />

tr(State1,AlphabetSymbol,State2).<br />

add_transition(State1,AlphabetSymbol,State2) :-<br />

assert(tr(State1,AlphabetSymbol,State2)).<br />

/*********************************************************************************************************************************<br />

add_output(State:,Word:,Lemma:):<br />

*********************************************************************************************************************************/<br />

add_output(State,Word,Lemma) :-<br />

(o(State,_) -> % is the output function for State already defined ?<br />

(retract(o(State,Entries)), % yes: add word to the value of the output function<br />

union([Word/Lemma],Entries,NewEntries),<br />

assert(o(State,NewEntries)))<br />

;<br />

assert(o(State,[Word/Lemma]))). % no: create a new entry for of the output function<br />

/*********************************************************************************************************************************<br />

output(State:,WordList:):<br />

Returns a list of morphs if the analysers output function is defined,<br />

otherwise the empty list.<br />

*********************************************************************************************************************************/<br />

output(State,Wordlist) :-<br />

(o(State,Wordlist) -> true ; Wordlist = []).<br />

/*********************************************************************************************************************************<br />

segmentizer_information(States:,Transitions:,Finalstates:):<br />

Determinines some information about the newly created NDA<br />

*********************************************************************************************************************************/<br />

segmentizer_information(States,Transitions,Finalstates) :-<br />

findall(*,tr(_,_,_),L1), length(L1,Transitions),<br />

findall(*,f(_,_),L2), length(L2,States0),<br />

States is States0 + 1, findall(*,o(_,_),L3), length(L3,Finalstates).<br />

202


C.2 Der Chart-Parser<br />

Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

Datei: wordchart.pl<br />

Beschreibung: Inkrementeller Chartparser für ambige Segmentierungen<br />

Als Grundlage dient die Implementation von Dörre/Naumann/Langer<br />

Autor: Thomas Hanneforth<br />

*********************************************************************************************************************************/<br />

:- use_module(library(terms)). % for subsume_chk/2<br />

:- op(1150,xfx,--->). % Operator für lexikalische Einsetzung<br />

:- op(1150,xfx,==>).<br />

:- op(1160,xfx,conditions).<br />

:- op(1170,fx,rule).<br />

/*********************************************************************************************************************************<br />

edge(Start,End,LHS,ClosedRHS,OpenRHS,PartitionPositions,Conditions)<br />

*********************************************************************************************************************************/<br />

:- dynamic edge/7.<br />

/*********************************************************************************************************************************<br />

init_chart/0:<br />

prepares the chart<br />

*********************************************************************************************************************************/<br />

init_chart :-<br />

clear_chart,<br />

startcat(StartCat),<br />

expand(0,StartCat). % expand the start symbol<br />

clear_chart :-<br />

retractall(edge(_,_,_,_,_,_,_)).<br />

/*********************************************************************************************************************************<br />

shift(Seg:,Word:)<br />

Inserts Seg into the chart and generate all edges involving this segment<br />

Word is the word to be analyzed<br />

*********************************************************************************************************************************/<br />

shift(seg(Begin,LexEntry,End),Word) :-<br />

Begin0 is Begin - 1,<br />

% check whether is's necessary to insert "unknown" segments<br />

add_unknown_segments(Begin0,Word),<br />

% find a lexical insertion rule<br />

(LexEntry ---> Cat),<br />

closure(Begin0,End,Cat,[term(LexEntry)],[],[End],true),<br />

fail.<br />

shift(_Seg,_Word).<br />

203


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

complete_chart(Word:)<br />

Check whether is's necessary to insert "unknown" segments<br />

at the end of the chart<br />

*********************************************************************************************************************************/<br />

complete_chart(Word) :-<br />

atom_length(Word,WordLen),<br />

add_unknown_segments(WordLen,Word).<br />

/*********************************************************************************************************************************<br />

closure(Begin:,End:,Cat:,Closed:,<br />

Open:,Positions:,Conditions)<br />

Depending on the active/inactive status the edge is either expanded or<br />

used to complete other edges<br />

*********************************************************************************************************************************/<br />

closure(Begin,End,Cat,RHS,[],Positions,Conditions) :- % inactive edge<br />

store(edge(Begin,End,Cat,RHS,[],Positions,Conditions)),<br />

% try to complete active edges with the inactive one<br />

complete(Begin,End,Cat).<br />

closure(Begin,End,Cat,Closed,[Next|Rest],Positions,Conditions) :- % active edge<br />

store(edge(Begin,End,Cat,Closed,[Next|Rest],Positions,Conditions)),<br />

expand(End,Next).<br />

/*********************************************************************************************************************************<br />

complete(Begin:,End:,CompleteCat:)<br />

tries to extend active edges waiting for CompleteCat<br />

*********************************************************************************************************************************/<br />

complete(Begin,End,Cat) :-<br />

edge(Begin0,Begin,LHS,Closed0,[Cat|Open],Positions,Conditions),<br />

append(Closed0,[Cat],Closed), % move the dot to the right<br />

append(Positions,[End],NewPositions),<br />

closure(Begin0,End,LHS,Closed,Open,NewPositions,Conditions),<br />

fail.<br />

complete(_Begin,_End,_Cat).<br />

/*********************************************************************************************************************************<br />

expand(Position:,LHS:)<br />

asserts an active edge for every rule starting with LHS<br />

*********************************************************************************************************************************/<br />

expand(Position,LHS) :-<br />

% find a suitable phrase/word structure rule<br />

applicable_rule(LHS,RHS,Conditions),<br />

closure(Position,Position,LHS,[],RHS,[],Conditions),<br />

fail.<br />

expand(_Position,_LHS).<br />

/*********************************************************************************************************************************<br />

applicable_rule(LHS:,RHS:,Conditions:):<br />

Looks for a applicable rule<br />

*********************************************************************************************************************************/<br />

applicable_rule(LHS,RHS,Conditions) :-<br />

(rule (LHS ==> RHS) conditions Conditions).<br />

/*********************************************************************************************************************************<br />

store(Edge:)<br />

Version without subsumptions check<br />

store(edge(Begin,End,Cat,Closed,Open,Positions)) :-<br />

\+ edge(Begin,End,Cat,Closed,Open,Positions),<br />

assert(edge(Begin,End,Cat,Closed,Open,Positions)).<br />

*********************************************************************************************************************************/<br />

204


store(edge(Begin,End,Cat,Closed,Open,Positions,_)) :-<br />

edge(Begin,End,Cat0,Closed0,Open0,_,_),<br />

subsumes_chk(Cat0,Cat),<br />

subsumes_chk(Closed0,Closed),<br />

subsumes_chk(Open0,Open),<br />

!, fail.<br />

Anhang C: Programmcode<br />

% special case: completed edges => test for the conditions<br />

store(edge(Begin,End,Cat,Closed,[],Positions,Conditions)) :-<br />

call(Conditions),<br />

assert(edge(Begin,End,Cat,Closed,[],Positions,Conditions)).<br />

store(edge(Begin,End,Cat,Closed,Open,Positions,Conditions)) :-<br />

Open \== [],<br />

assert(edge(Begin,End,Cat,Closed,Open,Positions,Conditions)).<br />

/*********************************************************************************************************************************<br />

Structure generation<br />

*********************************************************************************************************************************/<br />

/*********************************************************************************************************************************<br />

generate_structure(Cat:,Wordlen:,<br />

Structures:,<br />

Collect all structures for the word<br />

*********************************************************************************************************************************/<br />

generate_structures(StartCat,Wordlen,Structures) :-<br />

findall( <strong>des</strong>c(FS,Structure),<br />

generate_structure(0,Wordlen,StartCat,Structure,FS),<br />

Structures).<br />

/*********************************************************************************************************************************<br />

generate_structure(From:,To:,Mother:,Structure:,<br />

FS:):<br />

Generate a single structure in the chosen representation format<br />

*********************************************************************************************************************************/<br />

% Case 1: Terminal symbols<br />

generate_structure(From,To,Mother,Structure,Mother) :-<br />

edge(From,To,Mother,[term(Word/_Lemma)],[],_Positions,_),<br />

make_lextree(Mother,Word,Structure).<br />

% Case 2: Terminal symbols of type unknown<br />

generate_structure(From,To,Mother,Structure,Mother) :-<br />

edge(From,To,Mother,[term(unknown(Unknown))],[],_Positions,_),<br />

name(Unknown,UnknownList),<br />

concat(["unknown(",UnknownList,")"],Charlist),<br />

name(UnknownNode,Charlist),<br />

make_lextree(Mother,UnknownNode,Structure).<br />

% Case 3: Nonterminal symbols<br />

generate_structure(From,To,Mother,Structure,Mother) :-<br />

edge(From,To,Mother,Closed,[],Positions,_),<br />

structure_of_subconstituents(Closed,From,Positions,StructuresList),<br />

make_pstree(Mother,StructuresList,Structure).<br />

structure_of_subconstituents([],_From,_Positions,[]).<br />

structure_of_subconstituents([Cat|RestCats],From,[Pos|RestPos],[Struct|Rest]) :-<br />

generate_structure(From,Pos,Cat,Struct,_),<br />

structure_of_subconstituents(RestCats,Pos,RestPos,Rest).<br />

/*********************************************************************************************************************************<br />

Different structure building primitives<br />

*********************************************************************************************************************************/<br />

205


*<br />

% draw notation<br />

make_lextree(Mother,Word,Structure) :-<br />

Structure =.. [Mother,Word].<br />

make_pstree(Mother,Daughters,Structure) :-<br />

Structure =.. [Mother|Daughters].<br />

*/<br />

% wishtree notation I<br />

%make_lextree(Mother,Word,Mother/[-Word]).<br />

%make_pstree(Mother,Daughters,Mother/Daughters).<br />

Anhang C: Programmcode<br />

% wishtree notation II<br />

make_lextree(Mother,Word,MotherCat/[-Word]) :-<br />

Mother =.. [MotherCat|_].<br />

make_pstree(Mother,Daughters,MotherCat/Daughters) :-<br />

Mother =.. [MotherCat|_].<br />

/*<br />

% linguistic structures notation<br />

make_lextree(Mother,Word,[Mother,[Word]]).<br />

make_pstree(Mother,Daughters,[Mother|Daughters]).<br />

*/<br />

206


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

Handling of lexical gaps<br />

*********************************************************************************************************************************/<br />

/*********************************************************************************************************************************<br />

add_unknown_segments(EndPos:,Word:)<br />

Determines segments of type unknown starting at positions before Endpos<br />

*********************************************************************************************************************************/<br />

add_unknown_segments(EndPos,Word) :-<br />

unknown_cat(UnknownCat),<br />

% find all end positions of edges which are less than<br />

% the start position of the current segment<br />

find_incomplete_edges(EndPos,UnknownCat,Poslist0),<br />

% determine the segments which are ignored<br />

ignore_list(Ignorelist),<br />

% check whether potential unknown-type segments contain lexical items<br />

check_candidates(Poslist0,EndPos,Ignorelist,Poslist1),<br />

% apply heuristics on the unknown-type segments<br />

apply_heuristics(Poslist1,EndPos,Word,Poslist),<br />

% finally add all segments which have passed all the tests<br />

insert_unknown_segments(Poslist,EndPos,UnknownCat,Word).<br />

/*********************************************************************************************************************************<br />

check_candidates(PoslistIn:,EndPos:,<br />

Ignorelist:,PoslistOut:)<br />

Check whether potential unknown-type segments contain lexical items<br />

*********************************************************************************************************************************/<br />

check_candidates([],_EndPos,_Ignorelist,[]).<br />

check_candidates([Startpos|Restpos1],EndPos,Ignorelist,Result) :-<br />

% test<br />

(lexical_segments_within(Startpos,EndPos,Ignorelist) -><br />

Result = Restpos2<br />

;<br />

Result = [Startpos|Restpos2]<br />

),<br />

check_candidates(Restpos1,EndPos,Ignorelist,Restpos2).<br />

lexical_segments_within(StartPos,EndPos,Ignorelist) :-<br />

findall(*,<br />

(edge(S,E,_,[term(W/L)],[],_,_),<br />

S >= StartPos, E =< EndPos,<br />

\+ member(W,Ignorelist)),<br />

L),<br />

\+ (L = []).<br />

/*********************************************************************************************************************************<br />

apply_heuristics(PoslistIn:,EndPos:,Word:,PoslistOut:):<br />

This predicate is the right place to impose further, heuristic restrictions<br />

on the unknown-type segments to be inserted.<br />

Currently it prevents the insertion of segments with one ore two characters.<br />

Additional heuristics:<br />

- Testing the phonetic wellformedness of the candidate segment (with a 2LMA)<br />

*********************************************************************************************************************************/<br />

%apply_heuristics(Poslist,_EndPos,Poslist).<br />

apply_heuristics([],_EndPos,_Word,[]).<br />

apply_heuristics([Startpos|Restpos1],EndPos,Word,Result) :-<br />

(heuristic_tests(Startpos,EndPos,Word) -><br />

Result = [Startpos|Restpos2]<br />

;<br />

Result = Restpos2 % ignore<br />

),<br />

apply_heuristics(Restpos1,EndPos,Word,Restpos2).<br />

207


Anhang C: Programmcode<br />

/*********************************************************************************************************************************<br />

heuristic_tests(Startpos,EndPos,Word):<br />

Currently it prevents the insertion of segments with one ore two characters<br />

and tests for the phonetic wellformedness of the candidate segment.<br />

*********************************************************************************************************************************/<br />

heuristic_tests(Startpos,EndPos,Word) :-<br />

length_test(Startpos,EndPos),<br />

phonetic_wellformedness(Startpos,EndPos,Word).<br />

length_test(Startpos,EndPos) :-<br />

% test whether the length of the candidate segment is greater than 2<br />

EndPos - Startpos > 3.<br />

phonetic_wellformedness(Startpos,EndPos,Word) :-<br />

Length is EndPos - Startpos,<br />

substring(Word,Unknown,Startpos,Length),<br />

% check candidate segment against the list of syllables<br />

syllable_check(Unknown).<br />

**********************************************************************************************************************************<br />

insert_unknown_segments(Positions:,End:,UnknownCat:,Word:)<br />

Inserts finally the unknown-type segments by doing a closure on each<br />

Positions is a list of start positions<br />

*********************************************************************************************************************************/<br />

insert_unknown_segments([],_EndPos,_UnknownCat,_Word).<br />

insert_unknown_segments([Begin|RestPos],EndPos,UnknownCat,Word) :-<br />

shift_unknown(Begin,EndPos,UnknownCat,Word),<br />

insert_unknown_segments(RestPos,EndPos,UnknownCat,Word).<br />

shift_unknown(Begin,EndPos,UnknownCat,Word) :-<br />

Length is EndPos - Begin,<br />

substring(Word,Unknown,Begin,Length),<br />

closure(Begin,EndPos,UnknownCat,[term(unknown(Unknown))],[],[EndPos],true).<br />

shift_unknown(_Begin,_EndPos,_UnknownCat,_Word).<br />

/*********************************************************************************************************************************<br />

find_incomplete_edges(Begin,UnknownCat,Edgelist)<br />

<br />

*********************************************************************************************************************************/<br />

find_incomplete_edges(Begin,Unknown_cat,Edgelist) :-<br />

findall( End,<br />

(edge(_,End,_,_,[Unknown_cat|_],_,_), End < Begin),<br />

Edgelist0),<br />

remove_duplicates(Edgelist0,Edgelist).<br />

208


Anhang C: Programmcode<br />

C.3 CUF-Programmtext <strong>der</strong> <strong>morphologischen</strong> Grammatik<br />

/***************************************************************************************************************<br />

Name: morph.cuf<br />

Author: Thomas Hanneforth<br />

Date: July 1998 - August 1999<br />

Description: CUF-Implementation of the morphological grammar<br />

To try the examples use "?- run(Number)" where<br />

Number is one of the arguments of testword at the<br />

end of this file<br />

****************************************************************************************************************/<br />

control_file(morph).<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Type hierarchy and feature introduction<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

/***************************************************************************************************************<br />

Morphologial hierarchy<br />

****************************************************************************************************************/<br />

morph_or_syn_object = morph_object | sign.<br />

morph_or_syn_object ::<br />

graph: list,<br />

syn: syn,<br />

sem: semantics,<br />

structure: list.<br />

sign = syntactic_atom | phrase.<br />

syntactic_atom ::<br />

constituents: dtr_t. % for debugging only<br />

morph_object = simple_or_complex_stem | linking_morph | pre_syntactic_atom | affix.<br />

morph_object ::<br />

morph: morph.<br />

pre_syntactic_atom :: dtrs: dtr_t. % for debugging only<br />

simple_or_complex_stem = simple_stem | complex_stem.<br />

complex_stem ::<br />

dtrs: dtr_t.<br />

affix = prefix | suffix.<br />

suffix = infl_affix | <strong>der</strong>ivative.<br />

simple_stem = unknown_stem.<br />

form_t = suffix ; prefix ; simple_stem.<br />

form_t ::<br />

form: string.<br />

209


Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Syn: hierarchy<br />

****************************************************************************************************************/<br />

syn ::<br />

head: head,<br />

argstr: argstr.<br />

head = nominal | verbal | preposition.<br />

head ::<br />

cat: cat.<br />

preposition ::<br />

pform: afs_symbol,<br />

dp_case: case.<br />

nominal = noun | adjective | pronoun | determiner.<br />

nominal ::<br />

case: case,<br />

gen<strong>der</strong>: gen<strong>der</strong>.<br />

adjective ::<br />

degree: degree,<br />

decl: decl,<br />

pred: boolean.<br />

verbal = verb.<br />

verb = verb_infl_or_imp | verb_infinitive.<br />

verb_infl_or_imp = verb_infl | verb_imp.<br />

verb_infinitive = verb_part | verb_inf_base.<br />

verb_inf_base = verb_inf | verb_zuinf.<br />

verb_part = verb_partI | verb_partII.<br />

verb_infl_or_imp ::<br />

mood: mood.<br />

verb_infl ::<br />

tense: tense.<br />

num_t = verb_infl_or_imp ; nominal.<br />

num_t ::<br />

num: num.<br />

pers_t = verb_infl ; nominal.<br />

pers_t ::<br />

pers: pers.<br />

cat ; pers ; num ; tense ; mood ; gen<strong>der</strong> ; decl ; degree ; boolean ; t_decl_class < cfs.<br />

cat = n | v | a | p |adv | d | pn.<br />

%case = nom | gen | dat | acc. % see below<br />

pers = first | second | third.<br />

num = sg | pl.<br />

tense = pres | pret.<br />

mood = ind | subjI | subjII | imp.<br />

gen<strong>der</strong> = masc | fem | neut.<br />

decl = strong | weak | mixed.<br />

degree = pos | comp | sup.<br />

boolean = plus | minus.<br />

t_decl_class = dc_I | dc_II | dc_III | dc_IV | dc_V | dc_VI | dc_all_the_rest.<br />

210


% Case hierarchy after Heinz/Matiasek<br />

case < cfs.<br />

case = syntactic_case ; morphological_case.<br />

morphological_case = nom ; gen ; dat ; acc.<br />

syntactic_case = lex_case ; struc_case.<br />

lgen = gen & lex_case.<br />

ldat = dat & lex_case.<br />

lacc = acc & lex_case.<br />

snom = nom & struc_case.<br />

sgen = gen & struc_case.<br />

sacc = acc & struc_case.<br />

% MORPH morphological features<br />

morph ::<br />

mhead: mhead,<br />

mfeat: mfeat,<br />

msubcat: morph_subcat.<br />

% MHEAD contains morphological head features<br />

mhead = noun_mhead.<br />

mhead ::<br />

latinate: boolean,<br />

complex: boolean.<br />

noun_mhead ::<br />

decl_class: decl_class.<br />

Anhang C: Programmcode<br />

% MFEAT contains morphological nonhead features<br />

mfeat ::<br />

complete: boolean, % is the form inflectionally complete?<br />

umlaut: boolean, % the base vowel can be umlauted<br />

flex: boolean, % the form can be used for inflection<br />

<strong>der</strong>: boolean, % the form can be used for <strong>der</strong>ivation<br />

cmp: boolean, % the form can be used for composition<br />

conf: boolean, % the form can be used for confixation<br />

prefixable_with_ge: boolean, % for verbs: base verb has a prefix or particle<br />

suffixed: boolean, % the form un<strong>der</strong>went suffixation<br />

sep_verb: boolean, % for verbs: is it a particel verb?<br />

v_particle: afs_symbol. % for verbs: the particle<br />

decl_class ::<br />

decl_class_sg: t_decl_class, % noun inflection class singular<br />

decl_class_pl: t_decl_class. % noun inflection class plural<br />

% ARGSTR: syntactic subcategorisation<br />

argstr = verbal_argstr | nominal_argstr.<br />

argstr ::<br />

defargs: list, % of morph_or_syn_object<br />

adjuncts: list, % of morph_or_syn_object<br />

argstr_or<strong>der</strong>: list. % of morph_or_syn_object<br />

verbal_argstr ::<br />

subj: sign_elist,<br />

dir_obj: sign_elist,<br />

indir_obj: sign_elist,<br />

prep_obj: sign_elist,<br />

sent_compl: sign_elist.<br />

nominal_argstr = noun_argstr | adj_argstr.<br />

211


nominal_argstr ::<br />

relarg: sign_elist.<br />

adj_argstr ::<br />

intarg: sign_elist.<br />

sign_elist = sign | elist.<br />

morph_object_or_elist = morph_object | elist.<br />

morph_subcat = affix_subcat.<br />

affix_subcat ::<br />

needs: morph_object_or_elist.<br />

% tree structure<br />

dtr_t = unary_branching | binary_branching.<br />

unary_branching :: dtr: top.<br />

binary_branching :: ldtr: top, rdtr: top.<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Sem: hierarchy<br />

****************************************************************************************************************/<br />

semantics = verbal_semantics | nominal_semantics.<br />

semantics ::<br />

content: content.<br />

nominal_semantics ::<br />

refarg: simple_or_dotted_type.<br />

verbal_semantics ::<br />

extarg: simple_or_dotted_type.<br />

content < cfs.<br />

content = lexical_content | operator_content | no_content.<br />

lexical_content ::<br />

eventstr: eventstr.<br />

one_place_operator_struct < operator_content.<br />

operator_content ::<br />

operator: operator.<br />

one_place_operator_struct ::<br />

scope: content.<br />

two_place_operator_struct < one_place_operator_struct.<br />

two_place_operator_struct = causation_struct | conjunct_struct.<br />

causation_struct ::<br />

causer: simple_or_dotted_type.<br />

operator < cfs.<br />

operator = one_place_operator | two_place_operator.<br />

one_place_operator = op_modality | op_negation | op_abstraction | op_causation.<br />

op_modality = op_possibility | op_necessity.<br />

212


eventstr < cfs.<br />

eventstr = activity_eventstr ; state_eventstr.<br />

activity_eventstr ::<br />

event: activity.<br />

state_eventstr ::<br />

state: relation.<br />

transition_eventstr = activity_eventstr & state_eventstr.<br />

transition_eventstr = achievement | accomplishment.<br />

transition_eventstr ::<br />

eventrestr: eventrestr,<br />

eventhead: event_or_state.<br />

Anhang C: Programmcode<br />

%accomplishment = ingressive_accomplishment | egressive_accomplishment.<br />

event_or_state = event ; state.<br />

eventrestr < cfs.<br />

eventrestr = event_overlap | event_or<strong>der</strong>ed_overlap | event_sequence | event_inclusion.<br />

simple_or_dotted_type = simple_type | dotted_type.<br />

% Old version of groups<br />

%simple_type = non_group_type | group.<br />

%non_group_type = individual | uncountable.<br />

% New version uses un<strong>der</strong>specifiaction: groups are subtypes of individuals<br />

%simple_type = individual | uncountable.<br />

%simple_type ::<br />

% type: entity.<br />

%group < individual.<br />

%group ::<br />

% group_of: individual.<br />

% Yet another (final?) version of groups<br />

simple_type = countable | uncountable.<br />

simple_type ::<br />

type: entity.<br />

countable = individual | group.<br />

countable ::<br />

is_group: boolean. % this is a hack<br />

group ::<br />

group_of: countable.<br />

dotted_type ::<br />

types: list, % of semantics<br />

type_rel: list. % of relations<br />

thetarole < cfs.<br />

thetarole = agent | patient | theme | instrument | experiencer |<br />

goal | source | location | beneficiary | dont_know.<br />

213


agent = exhibiter | producer | worker | len<strong>der</strong>.<br />

theme = exhibited | produced | lended_thing.<br />

dont_know = substratum | organisation.<br />

relation_or_elist = relation | elist.<br />

relation ::<br />

relconst: top, % afs_symbol,<br />

relargs: list.<br />

accessible_relation ::<br />

accessible_args: list.<br />

role ::<br />

role: thetarole,<br />

sel_restr: simple_or_dotted_type.<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Conceptual hierarchy<br />

****************************************************************************************************************/<br />

entity < cfs.<br />

entity = physical_entity | abstract_entity.<br />

physical_entity = animate_ind | inanimate_ind.<br />

animate_ind = human | nonhuman.<br />

nonhuman = animal | plant.<br />

inanimate_ind = matter | physical_obj.<br />

matter = solid_state | liquid.<br />

solid_state = metal | stone | china | paper | glass.<br />

metal = steel | copper.<br />

liquid = water | oil.<br />

physical_obj = book | musical_instrument | tool | food | place.<br />

tool = knife | cup | blade.<br />

food = bread | cake.<br />

place = building | room | area.<br />

factory < building.<br />

abstract_entity = temporal | nontemporal.<br />

event < temporal.<br />

activity < event.<br />

nontemporal = abstract_obj | abstract_nonobj.<br />

abstract_obj = institution.<br />

abstract_nonobj = proposition | information | property | relation | collection.<br />

text < information.<br />

relation = state | accessible_relation.<br />

/***************************************************************************************************************<br />

Features of concepts<br />

****************************************************************************************************************/<br />

entity ::<br />

subconcepts: list. % of simple_type<br />

physical_entity ::<br />

physical_state: physical_state,<br />

consists_of: list, % of matter<br />

has_parts: list. % of simple_type<br />

temporal ::<br />

takes_place_at: simple_type.<br />

event ::<br />

event_type: afs_symbol,<br />

roles: list,<br />

accessible_roles: list.<br />

214


physical_state < cfs.<br />

physical_state = solid | fluid | gaseous.<br />

solid = hard | soft.<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Morphological grammar rules<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

/***************************************************************************************************************<br />

Rule I: morph insertion<br />

****************************************************************************************************************/<br />

cat(Cat, [Graph]) :=<br />

Cat &<br />

morph(Graph).<br />

% empty cat<br />

%cat(linking_morph & Cat, []) :=<br />

% Cat.<br />

/***************************************************************************************************************<br />

Rule VII: Morphology-syntax-interface<br />

syntactic_atom --> pre_syntactic_atom<br />

****************************************************************************************************************/<br />

cat(syntactic_atom & SA, L) :=<br />

SA &<br />

true(cat(pre_syntactic_atom, L) & PSA) &<br />

type_maximal(syn_head(PSA)) &<br />

syn_head_features([PSA]) &<br />

true(PSA & morph:mfeat:complete:plus) &<br />

argument_realisation(PSA) &<br />

graph: L &<br />

structure:[PSA]. % for tree construction<br />

/***************************************************************************************************************<br />

Rule V: Stem insertion<br />

pre_syntactic_atom --> simple_or_complex_stem<br />

****************************************************************************************************************/<br />

cat(pre_syntactic_atom & PSA, L) :=<br />

PSA &<br />

unified_head_features([Stem]) &<br />

true(cat(simple_or_complex_stem, L) & Stem) &<br />

argument_inheritance(Stem) &<br />

semantics(Stem) &<br />

dtrs:dtr:Stem & % for debugging only<br />

graph: L &<br />

structure:[Stem].<br />

/***************************************************************************************************************<br />

Rule VI: Inflection<br />

pre_syntactic_atom --> pre_syntactic_atom infl_affix<br />

****************************************************************************************************************/<br />

cat(pre_syntactic_atom & PSA, L) :=<br />

PSA &<br />

215


Anhang C: Programmcode<br />

split(L,L1,L2) &<br />

unified_head_features([PSA1, IA]) &<br />

true(cat(infl_affix, L2) & IA) &<br />

true(cat(pre_syntactic_atom, L1) & PSA1) &<br />

affix_or<strong>der</strong>_constraint(PSA1, IA) &<br />

argument_inheritance(PSA1) &<br />

infl_semantics(PSA1, IA) &<br />

dtrs:(ldtr:PSA1 & rdtr:IA) & % for debugging only<br />

graph: L &<br />

structure:[PSA1,IA].<br />

/***************************************************************************************************************<br />

Rule IIIa: Derivation/Suffixation with link morph<br />

complex_stem --> simple_or_complex_stem linking_morph suffix<br />

****************************************************************************************************************/<br />

cat(complex_stem & Stem, L) :=<br />

Stem &<br />

split3(L,L1,Link,L2) &<br />

true(cat(linking_morph, Link)) &<br />

unified_head_features([Suffix]) &<br />

morph_subcat_principle(Suffix, Stem1) &<br />

true(cat(<strong>der</strong>ivative, L2) & Suffix) &<br />

true(cat(simple_or_complex_stem, L1) & Stem1) &<br />

morph:mfeat:suffixed:plus &<br />

dtrs:(ldtr:Stem1 & rdtr:Suffix) & % for debugging only<br />

graph: L &<br />

structure:[Stem1,Suffix].<br />

/***************************************************************************************************************<br />

Rule IIIb: Derivation/Suffixation without link morph<br />

complex_stem --> simple_or_complex_stem suffix<br />

****************************************************************************************************************/<br />

cat(complex_stem & Stem, L) :=<br />

Stem &<br />

split(L,L1,L2) &<br />

unified_head_features([Suffix]) &<br />

morph_subcat_principle(Suffix, Stem1) &<br />

true(cat(<strong>der</strong>ivative, L2) & Suffix) &<br />

true(cat(simple_or_complex_stem, L1) & Stem1) &<br />

morph:mfeat:suffixed:plus &<br />

dtrs:(ldtr:Stem1 & rdtr:Suffix) & % for debugging only<br />

graph: L &<br />

structure:[Stem1,Suffix].<br />

/***************************************************************************************************************<br />

Rule II: Derivation/Prefixation<br />

complex_stem --> prefix simple_or_complex_stem<br />

****************************************************************************************************************/<br />

cat(complex_stem & Stem, L) :=<br />

Stem &<br />

split(L,L1,L2) &<br />

unified_head_features([Stem1]) &<br />

true(cat(prefix, L1) & Prefix) &<br />

morph_subcat_principle(Prefix, Stem1) &<br />

true(cat(simple_or_complex_stem, L2) & Stem1) &<br />

dtrs:(ldtr:Prefix & rdtr:Stem1) & % for debugging only<br />

graph: L &<br />

structure:[Prefix,Stem1].<br />

216


Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Rule IVa: Composition with link morph<br />

complex_stem --> simple_or_complex_stem linking_morph simple_or_complex_stem<br />

****************************************************************************************************************/<br />

cat(complex_stem & Stem, L) :=<br />

Stem &<br />

split3(L,L1,Link,L2) &<br />

true(cat(linking_morph, Link)) &<br />

unified_head_features([Stem2]) &<br />

true(cat(simple_or_complex_stem, L2) & Stem2) &<br />

semantics_construction(Stem1,Stem2) &<br />

true(cat(simple_or_complex_stem, L1) & Stem1) &<br />

dtrs:(ldtr:Stem1 & rdtr:Stem2) & % for debugging only<br />

graph: L &<br />

structure:[Stem1,Stem2].<br />

/***************************************************************************************************************<br />

Rule IVb Composition without link morph<br />

complex_stem --> simple_or_complex_stem simple_or_complex_stem<br />

****************************************************************************************************************/<br />

cat(complex_stem & Stem, L) :=<br />

Stem &<br />

split(L,L1,L2) &<br />

unified_head_features([Stem2]) &<br />

true(cat(simple_or_complex_stem, L2) & Stem2) &<br />

semantics_construction(Stem1,Stem2) &<br />

true(cat(simple_or_complex_stem, L1) & Stem1) &<br />

dtrs:(ldtr:Stem1 & rdtr:Stem2) & % for debugging only<br />

graph: L &<br />

structure:[Stem1,Stem2].<br />

/***************************************************************************************************************<br />

Rule VIIIa: Participle conversion<br />

simple_or_complex_stem --> pre_syntactic_atom<br />

****************************************************************************************************************/<br />

cat(simple_or_complex_stem & Stem, L) :=<br />

Stem &<br />

verb_participle_to_adjective(VerbParticiple,Syn_Head_VerbPart) &<br />

true(cat(pre_syntactic_atom, L) & VerbParticiple) &<br />

% check whether the stem is a participle of the right type<br />

value_instantiated(Syn_Head_VerbPart, VerbParticiple) &<br />

dtrs:dtr:VerbParticiple & % for debugging only<br />

graph: L &<br />

structure:[VerbParticiple].<br />

/***************************************************************************************************************<br />

Rule VIIIb: Conversion<br />

simple_or_complex_stem --> simple_stem<br />

****************************************************************************************************************/<br />

cat(simple_or_complex_stem & Stem, L) :=<br />

Stem &<br />

stem_conversion(Stem1) &<br />

true(cat(simple_stem, L) & Stem1) &<br />

dtrs:dtr:Stem1 & % for debugging only<br />

graph: L &<br />

structure:[Stem1].<br />

217


Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Some conversion rules<br />

****************************************************************************************************************/<br />

% past particple: verbs with a direct object<br />

verb_participle_to_adjective(syn:(head:(_Verb & verb & cat:v) &<br />

argstr:(dir_obj:sem:refarg:Ref & indir_obj:IO &<br />

defargs:Defargs)) &<br />

sem_content(Cont),<br />

syn:head:verb_partII) :=<br />

complex_stem &<br />

adj &<br />

argstr_refarg(Ref) &<br />

argstr_intarg(IO) &<br />

defargs(Defargs) &<br />

argstr_or<strong>der</strong>(append(delete_elist([IO]),Defargs)) &<br />

sem_content(Cont).<br />

% past particple: verbs with an unaccusative subject<br />

% missing<br />

% present particple of verbs<br />

verb_participle_to_adjective(syn:(head:(_Verb & verb & cat:v) &<br />

argstr:(subj:sem:refarg:Ref & dir_obj:DO &<br />

indir_obj:_IO & prep_obj:_PO & sent_compl:_SC &<br />

defargs:Defargs)) &<br />

sem_content(Cont),<br />

syn:head:verb_partI) :=<br />

complex_stem &<br />

adj &<br />

argstr_refarg(Ref) &<br />

argstr_intarg(DO) &<br />

defargs(Defargs) &<br />

argstr_or<strong>der</strong>([]) &<br />

sem_content(Cont).<br />

/***************************************************************************************************************<br />

Stem conversion<br />

****************************************************************************************************************/<br />

% causation: A -> V<br />

stem_conversion(syn:head:(adjective & cat:a) & sem_content(Cont) &<br />

argstr_refarg(Ref) ) :=<br />

verb(verb) &<br />

sem_content(two_place_operator_struct & operator:op_causation &<br />

causer:Causer & scope:Cont) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Causer & countable(animate_ind))) &<br />

argstr_dirobj(Arg2 & n(struc_case) & argstr_refarg(Ref)) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2]) &<br />

defargs([]).<br />

218


Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Semantics construction<br />

All clauses of semantics_construction and their subpredicates must define:<br />

sem:refarg, sem:content, syn:argstr<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

/***************************************************************************************************************<br />

semantics_construction/3:<br />

Tries to find a semantic relation between the two stems. There are ?? cases:<br />

a) The first stem is an argument of the second<br />

b) There is a stereotypical relation projected by the second part of the<br />

compound between them<br />

c) There is a stereotypical relation projected by the first part of the<br />

compound between them<br />

d) There is a general conceptual relation between them<br />

e) There is a base relation between them<br />

****************************************************************************************************************/<br />

% case 1: Stem1 is a semantic argument which satisfies<br />

% the restrictionsof the semantic functor of Stem2<br />

semantics_construction(Stem1,Stem2) :=<br />

argument_saturation(Stem1,Stem2).<br />

semantics_construction(Stem1,Stem2) :=<br />

stereotypical_relation(Stem1,Stem2).<br />

semantics_construction(Stem1,Stem2) :=<br />

conceptual_relation(Stem1,Stem2).<br />

%semantics_construction(Stem1,Stem2) :=<br />

% theta_role_merge(Stem1,Stem2).<br />

/***************************************************************************************************************<br />

argument_saturation/2 tries to interpret the first component of a compound<br />

as an argument of the second.<br />

It is assumed that the first component isn't semantically specified for<br />

plural<br />

****************************************************************************************************************/<br />

% N-N-compound with a relational head, e.g. "Messerfan" or "Museumsfan"<br />

argument_saturation(syn:head:noun & sem:refarg:TypeOfArgument,<br />

syn:head:noun &<br />

syn:argstr:(noun_argstr & relarg:sem:refarg:TypeOfHead &<br />

defargs:Defargs) &<br />

argstr_refarg(Ref) &<br />

sem_content(Cont)) :=<br />

selectional_restrictions_fullfilled(TypeOfHead,TypeOfArgument) &<br />

argstr_refarg(Ref) &<br />

argstr_relarg([]) &<br />

defargs(Defargs) &<br />

argstr_or<strong>der</strong>([]) &<br />

sem_content(Cont).<br />

% N-N-compound with a deverbal head<br />

argument_saturation(syn:head:noun & sem:refarg:TypeOfArgument,<br />

syn:head:(verb & cat:v) &<br />

syn:argstr:(verbal_argstr & subj:Subj &<br />

dir_obj:sem:refarg:SelRestrOfHead &<br />

indir_obj:[] & prep_obj:[] & sent_compl:[] &<br />

defargs:_Defargs) &<br />

219


Anhang C: Programmcode<br />

sem_content(Cont)) :=<br />

selectional_restrictions_fullfilled(SelRestrOfHead,TypeOfArgument) &<br />

argstr_subj(Subj) &<br />

argstr_dirobj([]) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([]) &<br />

defargs([]) &<br />

sem_content(operator:op_possibility & scope:Cont).<br />

% V-N-compound: Second part fills a role in the event structure of the verb<br />

% e.g. "Hackmesser"<br />

argument_saturation(syn:head:verb & sem_content(Cont) &<br />

sem:content:eventstr:Eventstr,<br />

syn:head:noun &<br />

syn:argstr:(noun_argstr & relarg:[] & defargs:Defargs) &<br />

argstr_refarg(Ref)) :=<br />

true(a_role_in_eventstr(Eventstr) & Ref) &<br />

argstr_refarg(Ref) &<br />

argstr_relarg([]) &<br />

defargs(Defargs) &<br />

argstr_or<strong>der</strong>([]) &<br />

sem_content(operator:op_possibility & scope:Cont).<br />

/***************************************************************************************************************<br />

selectional_restrictions_fullfilled/2 tries to collapse argument type and<br />

relarg type. There are two cases:<br />

1) argument has a simple type<br />

a) of uncountable or individual<br />

b) of group<br />

2) argument has a dotted type<br />

****************************************************************************************************************/<br />

selectional_restrictions_fullfilled(Type, simple_type & Type) :=<br />

top.<br />

selectional_restrictions_fullfilled(Type, dotted_type & types:TypeList) :=<br />

member(Type,TypeList).<br />

/*<br />

% Old version: individual or group distinction is enforced, left un<strong>der</strong>specified<br />

% in the version above<br />

%selectional_restrictions_fullfilled(Type, individual & Type) :=<br />

% top.<br />

%selectional_restrictions_fullfilled(Type, uncountable & Type) :=<br />

% top.<br />

%selectional_restrictions_fullfilled(Type, group & type:T & group_of:type:T & Type) :=<br />

% top.<br />

*/<br />

/***************************************************************************************************************<br />

stereotypical_relation(SemanticArgument,SemanticHead):<br />

Tries to find a role in the telic relation of the second parameter whose<br />

selectional restrictions are compatible with the selectional restrictions of<br />

the referential argument of the first parameter.<br />

If a matching role was found it is removed from the accessible roles list<br />

****************************************************************************************************************/<br />

stereotypical_relation( syn:head:noun & sem:refarg:RefargOfArg,<br />

syn:head:noun & argstr_refarg(Ref) &<br />

220


Anhang C: Programmcode<br />

sem:content:(scope:eventstr:event:<br />

(event_type:EventType &<br />

accessible_roles:AccessRoles &<br />

roles:Roles) &<br />

operator:OP) &<br />

syn:argstr:ArgStr &<br />

sem_content(_Cont)) :=<br />

member(sel_restr:SelRestrOfRole, AccessRoles, RestRoles) &<br />

selectional_restrictions_fullfilled(SelRestrOfRole, RefargOfArg) &<br />

syn:argstr:ArgStr &<br />

argstr_refarg(Ref) &<br />

sem:content:(scope:eventstr:event:(<br />

event_type:EventType &<br />

roles:Roles &<br />

accessible_roles:RestRoles) &<br />

operator:OP).<br />

/***************************************************************************************************************<br />

conceptual_relation(SemanticHead,SemanticArgument):<br />

****************************************************************************************************************/<br />

conceptual_relation(syn:head:noun & sem:refarg:RefArgOfArg,<br />

syn:head:noun & sem:refarg:RefArgOfFunctor &<br />

syn:argstr:Argstr & sem_content(Cont)) :=<br />

argstr_refarg(type_relation(type_concept(RefArgOfArg),<br />

type_concept(RefArgOfFunctor))) &<br />

syn:argstr:Argstr &<br />

sem_content(Cont).<br />

/***************************************************************************************************************<br />

type_relation(RefArgOfArg,RefArgOfFunctor):<br />

tries to find a conceptual relationship between the two types and constructs<br />

the new referential argument of the head noun<br />

****************************************************************************************************************/<br />

type_relation(simple_type & ArgType, Simple_Type & type:subconcepts: ConceptList) :=<br />

member(ArgType, ConceptList) &<br />

Simple_Type.<br />

/***************************************************************************************************************<br />

theta_role_merge(SemanticHead,SemanticArgument):<br />

tries to unify the referential arguments of the two components. I´ve only<br />

implemented the A-N-case. I assume that adjectives never have a dotted type.<br />

****************************************************************************************************************/<br />

theta_role_merge(syn:head:adjective & argstr_refarg(RefargOfArg) &<br />

sem_content(_ContAdj),<br />

syn:head:noun & argstr_refarg(RefargOfHead) &<br />

syn:argstr:AS & sem_content(_ContNoun)) :=<br />

selectional_restrictions_fullfilled(RefargOfArg,RefargOfHead) &<br />

argstr_refarg(RefargOfHead) &<br />

syn:argstr:AS &<br />

sem_content(_Cont).<br />

221


Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Lexicon<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

morph(string) -> top.<br />

index_table(morph/1).<br />

index_table(sem/1).<br />

index_table(sem/2).<br />

index_table(sem/3).<br />

index_table(sem/4).<br />

index_table(sem/5).<br />

/***************************************************************************************************************<br />

Noun stems<br />

****************************************************************************************************************/<br />

morph("bibliothek") :=<br />

form: "Bibliothek" &<br />

simple_stem &<br />

noun(fem) &<br />

decl_class(dc_III,dc_III) &<br />

no_arguments &<br />

sem("Bibliothek").<br />

morph("museum") :=<br />

form: "Museum" &<br />

simple_stem &<br />

noun(neut) &<br />

singular &<br />

decl_class(dc_I,top) &<br />

no_arguments &<br />

sem("Museum").<br />

morph("fabrik") :=<br />

form: "Fabrik" &<br />

simple_stem &<br />

noun(fem) &<br />

decl_class(dc_III,dc_III) &<br />

no_arguments &<br />

sem("Fabrik").<br />

morph("buch") :=<br />

form: "Buch" &<br />

simple_stem &<br />

noun(neut) &<br />

singular &<br />

decl_class(dc_I,dc_IV) &<br />

morph_feat(<strong>der</strong>:plus & cmp:plus & flex:plus) &<br />

no_arguments &<br />

sem("Buch").<br />

morph("buech") :=<br />

form: "Buch" &<br />

simple_stem &<br />

noun(neut) &<br />

plural &<br />

morph_feat(<strong>der</strong>:minus & cmp:plus & flex:plus) &<br />

decl_class(dc_I,dc_IV) &<br />

222


no_arguments &<br />

sem("Buch").<br />

morph("messer") :=<br />

form: "Messer" &<br />

simple_stem &<br />

noun(neut) &<br />

decl_class(dc_I,dc_II) &<br />

no_arguments &<br />

sem("Messer").<br />

Anhang C: Programmcode<br />

morph("sohn") :=<br />

form: "Sohn" &<br />

simple_stem &<br />

noun(masc) &<br />

singular &<br />

decl_class(dc_I,dc_I) &<br />

argstr_relarg(Arg & /* n(struc_case) & */<br />

argstr_refarg(OfWhom & individual(human)) ) &<br />

argstr_or<strong>der</strong>([Arg]) &<br />

defargs([]) &<br />

sem("Sohn", OfWhom).<br />

morph("soehn") :=<br />

form: "Söhn" &<br />

simple_stem &<br />

noun(masc) &<br />

plural &<br />

decl_class(dc_I,dc_I) &<br />

argstr_relarg(Arg & /* n(struc_case) & */<br />

argstr_refarg(OfWhom & individual(human)) ) &<br />

argstr_or<strong>der</strong>([Arg]) &<br />

defargs([]) &<br />

sem("Sohn", OfWhom).<br />

morph("fan") :=<br />

form: "Fan" &<br />

simple_stem &<br />

noun(masc) &<br />

decl_class(dc_I,dc_V) &<br />

argstr_relarg(Arg & argstr_refarg(OfWhat & simple_type(entity))) &<br />

argstr_or<strong>der</strong>([Arg]) &<br />

defargs([]) &<br />

sem("Fan", OfWhat).<br />

morph("stahl") :=<br />

form: "Stahl" &<br />

simple_stem &<br />

noun(masc) &<br />

decl_class(dc_I,dc_I) &<br />

no_arguments &<br />

sem("Stahl").<br />

morph("wasser") :=<br />

form: "Wasser" &<br />

simple_stem &<br />

noun(neut) &<br />

singular &<br />

decl_class(dc_I,dc_II) &<br />

223


no_arguments &<br />

sem("Wasser").<br />

morph("waesser") :=<br />

form: "Wasser" &<br />

simple_stem &<br />

noun(neut) &<br />

plural &<br />

decl_class(dc_I,dc_II) &<br />

no_arguments &<br />

sem("Wasser").<br />

morph("brot") :=<br />

form: "Brot" &<br />

simple_stem &<br />

noun(neut) &<br />

decl_class(dc_I,dc_I) &<br />

no_arguments &<br />

sem("Brot").<br />

morph("tasse") :=<br />

form: "Tasse" &<br />

simple_stem &<br />

noun(masc) &<br />

decl_class(dc_III,dc_III) &<br />

no_arguments &<br />

sem("Tasse").<br />

morph("horn") :=<br />

form: "Horn" &<br />

simple_stem &<br />

noun(neut) &<br />

decl_class(dc_I,dc_IV) &<br />

no_arguments &<br />

sem("Horn").<br />

morph("streik") :=<br />

form: "Streik" &<br />

simple_stem &<br />

noun(masc) &<br />

decl_class(dc_I,dc_V) &<br />

no_arguments &<br />

sem("Streik").<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Adjective stems<br />

****************************************************************************************************************/<br />

morph("frei") :=<br />

form: "frei" &<br />

simple_stem &<br />

adj &<br />

argstr_intarg([]) &<br />

argstr_or<strong>der</strong>([]) &<br />

defargs([]) &<br />

sem("frei").<br />

224


morph("schoen") :=<br />

form: "schön" &<br />

simple_stem &<br />

adj &<br />

argstr_intarg([]) &<br />

argstr_or<strong>der</strong>([]) &<br />

defargs([]) &<br />

sem("schoen").<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Verb stems<br />

****************************************************************************************************************/<br />

morph("rett") :=<br />

form: "rett" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(Th & countable(animate_ind))) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />

defargs([Arg3 & argstr_refarg(Inst & countable(tool))]) &<br />

sem("rett",Ag,Th,Inst).<br />

morph("renovier") :=<br />

form: "renovier" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:minus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(Th & countable(building))) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2]) &<br />

defargs([]) &<br />

sem("renovier",Ag,Th).<br />

morph("pruef") :=<br />

form: "prüf" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(Th & simple_type(entity))) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />

defargs([Arg3 & argstr_refarg(Inst & countable(tool))]) &<br />

sem("pruef",Ag,Th,Inst).<br />

225


Anhang C: Programmcode<br />

morph("verkauf") :=<br />

form: "verkauf" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(Th & simple_type(entity))) &<br />

argstr_indirobj(Arg3 & n(struc_case) &<br />

argstr_refarg(Goal & countable(human))) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg3,Arg2]) &<br />

defargs([]) &<br />

sem("verkauf",Ag,Th,Goal).<br />

morph("giess") :=<br />

form: "giess" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(countable(human))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(uncountable(liquid))) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj(Arg3 & p(acc,auf) &<br />

argstr_refarg(simple_type(physical_entity))) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />

defargs([]) &<br />

sem("giess").<br />

morph("staun") :=<br />

form: "staun" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj([]) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj(Arg2 & p(acc,'über') &<br />

argstr_refarg(Th & countable(physical_entity))) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2]) &<br />

defargs([]) &<br />

sem("staun",Ag,Th).<br />

morph("bau") :=<br />

form: "bau" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(animate_ind))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(Th & countable(building))) &<br />

argstr_indirobj([]) &<br />

226


Anhang C: Programmcode<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />

defargs([Arg3 & argstr_refarg(M & simple_type(solid_state))]) &<br />

sem("bau",Ag,Th,M).<br />

morph("bohr") :=<br />

form: "bohr" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(Th & countable(top))) & % $$ "hole"<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

defargs([Arg3 & argstr_refarg(Tool & countable(tool)),<br />

Arg4 & argstr_refarg(Loc & countable(physical_entity))]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg3,Arg2,Arg4]) &<br />

sem("bohr",Ag,Th,Tool,Loc).<br />

morph("arbeit") :=<br />

form: "arbeit" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj([]) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

defargs([]) &<br />

argstr_or<strong>der</strong>([Arg1]) &<br />

sem("arbeit",Ag).<br />

morph("hack") :=<br />

form: "hack" &<br />

simple_stem &<br />

verb(verb) &<br />

morph_feat(prefixable_with_ge:plus) &<br />

argstr_subj(Arg1 & n(struc_case) &<br />

argstr_refarg(Ag & countable(human))) &<br />

argstr_dirobj(Arg2 & n(struc_case) &<br />

argstr_refarg(Th & simple_type(physical_entity))) &<br />

argstr_indirobj([]) &<br />

argstr_prepobj([]) &<br />

argstr_sentcompl([]) &<br />

defargs([Arg3 & argstr_refarg(Inst & countable(tool))]) &<br />

argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />

sem("hack",Ag,Th,Inst).<br />

/***************************************************************************************************************<br />

Special entry for unknown_stems<br />

****************************************************************************************************************/<br />

morph("$unknown$") :=<br />

form: "unknown" &<br />

227


unknown_stem &<br />

syn:head:verb &<br />

sem:extarg:top &<br />

syn:argstr:defargs:[].<br />

morph("$unknown$") :=<br />

form: "unknown" &<br />

unknown_stem &<br />

syn:head:noun &<br />

sem:refarg:simple_type &<br />

syn:argstr:defargs:[].<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

Derivational affixes:<br />

Every affix must deliver the following<br />

syn:argstr, sem:refarg (if appropriate), sem:content<br />

****************************************************************************************************************/<br />

morph("bar") := % ok<br />

form: "bar" &<br />

suffix &<br />

adj &<br />

morph_subcat(syn:(head:(verb & cat:v) &<br />

argstr:(subj:sem:SubjSem & dir_obj:argstr_refarg(R) &<br />

indir_obj:[] & prep_obj:[] & sent_compl:[])) &<br />

sem_content(Cont)) &<br />

argstr_or<strong>der</strong>([DefArg]) &<br />

defargs([DefArg & (p(lacc,durch) ; p(ldat,von)) & sem:SubjSem]) &<br />

argstr_refarg(R) &<br />

argstr_intarg([]) &<br />

sem_content(operator:op_possibility & scope:Cont).<br />

morph("er") := % ok<br />

form: "er" &<br />

suffix &<br />

noun(masc) &<br />

decl_class(dc_I,dc_II) &<br />

morph_subcat(syn:(head:(verb & cat:v) &<br />

argstr:(subj:Subj & dir_obj:DO & indir_obj:[] & defargs:DefArgs)) &<br />

sem:Sem) &<br />

process_or_accomplishment_verb(sem:Sem) &<br />

agent_instrument(sem:Sem, Subj, DO, syn:argstr:defargs:DefArgs).<br />

morph("ung") := % ok<br />

form:"ung" &<br />

suffix &<br />

noun(fem) &<br />

decl_class(dc_III,dc_III) &<br />

morph_subcat(syn:(head:cat:v &<br />

argstr:(subj:S & dir_obj:DO & defargs:Defargs &<br />

indir_obj:[] & prep_obj:[] & sent_compl:[])) &<br />

sem_content(eventstr:(accomplishment & event:E1 & state:E2 &<br />

eventrestr:Restr))) &<br />

argstr_refarg(dotted_type([Activity & countable(E1), State & countable(E2)],<br />

[relation(Restr,[Activity,State])])) &<br />

(<br />

objectivus(S, DO, Defargs) ; subjectivus(S, DO, Defargs)<br />

) &<br />

sem:content:no_content.<br />

228


Anhang C: Programmcode<br />

% -ung for intransitive verbs with prepositional objects<br />

morph("ung") := % ok<br />

form:"ung" &<br />

suffix &<br />

noun(fem) &<br />

decl_class(dc_III,dc_III) &<br />

morph_subcat(syn:(head:cat:v &<br />

argstr:(subj:sem_content(SubjSem) & dir_obj:[] & indir_obj:[] &<br />

prep_obj:(PO & ~ elist) &<br />

sent_compl:[])) &<br />

sem_content(eventstr:(accomplishment & event:E1 & state:E2 &<br />

eventrestr:Restr) )) &<br />

argstr_or<strong>der</strong>([PO,DefArg]) &<br />

argstr_relarg(PO) &<br />

argstr_refarg(dotted_type([Activity & countable(E1), State & countable(E2)],<br />

[relation(Restr,[Activity,State])])) &<br />

defargs([DefArg & sem_content(SubjSem)]) &<br />

sem:content:no_content.<br />

morph("$") := % event nominalisation with empty affix<br />

form:"" &<br />

suffix &<br />

noun(masc) &<br />

decl_class(dc_I,dc_I) &<br />

morph_subcat(syn:(head:cat:v &<br />

argstr:(subj:sem:SubjSem & dir_obj:sem:DO_Sem &<br />

indir_obj:sem:IO_Sem &<br />

prep_obj:[] & sent_compl:[] & defargs:_Defargs)) &<br />

sem_content(eventstr:(accomplishment & event:E1 & state:E2 &<br />

eventrestr:Restr))) &<br />

argstr_refarg(dotted_type([Activity & countable(E1), State & countable(E2)],<br />

[relation(Restr,[Activity,State])])) &<br />

argstr_relarg(Rel & n(struc_case) & sem:DO_Sem) &<br />

defargs([Def1 & p(lacc,an) & sem:IO_Sem, Def2 & p(lacc,durch) & sem:SubjSem]) &<br />

argstr_or<strong>der</strong>([Rel,Def1,Def2]) &<br />

sem:content:no_content.<br />

morph("heit") :=<br />

morph("heit/keit").<br />

morph("keit") :=<br />

morph("heit/keit").<br />

morph("heit/keit") := % ok<br />

form: "heit/keit" &<br />

suffix &<br />

noun(fem) &<br />

decl_class(dc_III,dc_III) &<br />

morph_subcat(syn:head:cat:a & sem:refarg:R & sem_content(Cont)) &<br />

argstr_relarg(Arg & syn:top & sem:refarg:R) &<br />

argstr_or<strong>der</strong>([Arg]) &<br />

defargs([]) &<br />

argstr_refarg(countable(property)) &<br />

sem_content(operator:op_abstraction & scope:Cont).<br />

morph("ist") :=<br />

form: "ist" &<br />

suffix &<br />

noun(masc) &<br />

decl_class(top,top) &<br />

229


Anhang C: Programmcode<br />

morph_subcat(syn:head:noun & sem:refarg:_R & sem_content(Cont)) &<br />

argstr_relarg([]) &<br />

argstr_or<strong>der</strong>([]) &<br />

defargs([]) &<br />

argstr_refarg(countable(human)) &<br />

sem_content(Cont). %% $$ korrigieren<br />

morph("un") :=<br />

form: "un" &<br />

prefix &<br />

morph_subcat(syn:head:(adjective & cat:a) &<br />

syn:argstr:(intarg:Rel & defargs:Defargs) &<br />

sem:refarg:Ref &<br />

sem_content(Cont) &<br />

empty_morph_subcat) &<br />

argstr_refarg(Ref) &<br />

argstr_intarg(Rel) &<br />

argstr_or<strong>der</strong>(delete_elist([Rel])) &<br />

defargs(Defargs) &<br />

sem_content(operator:op_negation & scope:Cont).<br />

morph("un") :=<br />

form: "un" &<br />

prefix &<br />

morph_subcat(syn:head:(noun & cat:n) &<br />

syn:argstr:(relarg:Rel & defargs:Defargs) &<br />

sem:refarg:Ref &<br />

sem_content(Cont) &<br />

empty_morph_subcat) &<br />

argstr_refarg(Ref) &<br />

argstr_relarg(Rel) &<br />

argstr_or<strong>der</strong>(delete_elist([Rel])) &<br />

defargs(Defargs) &<br />

sem_content(operator:op_negation & scope:Cont).<br />

% be- for verbs with direct and prepositional object<br />

morph("be") :=<br />

form: "be" &<br />

prefix &<br />

morph_subcat(syn:(head:cat:v &<br />

argstr:(subj:(S & sem:refarg:SubjSem) & dir_obj:sem:DO_Sem &<br />

indir_obj:[] & prep_obj:sem:PO_Sem & sent_compl:[] &<br />

defargs:Defargs)) &<br />

sem_content(Cont)) &<br />

syn:argstr:(subj:S &<br />

dir_obj:(DO & n(struc_case) & sem:PO_Sem) &<br />

prep_obj:(PO & p(acc,mit) & sem:DO_Sem) &<br />

indir_obj:[] & sent_compl:[]) &<br />

argstr_or<strong>der</strong>([S,DO,PO]) &<br />

argstr_extarg(SubjSem) &<br />

defargs(Defargs) &<br />

sem_content(Cont).<br />

% be- for verbs with only a prepositional object<br />

morph("be") :=<br />

form: "be" &<br />

prefix &<br />

morph_subcat(syn:(head:cat:v &<br />

230


Anhang C: Programmcode<br />

argstr:(subj:(S & sem:refarg:SubjSem) & dir_obj:[] &<br />

indir_obj:[] & prep_obj:sem:PO_Sem &<br />

sent_compl:[] & defargs:Defargs)) &<br />

sem_content(Cont)) &<br />

syn:argstr:(subj:S &<br />

dir_obj:(DO & n(struc_case) & sem:PO_Sem) &<br />

prep_obj:[] & indir_obj:[] & sent_compl:[] & defargs:Defargs) &<br />

argstr_or<strong>der</strong>([S,DO]) &<br />

argstr_extarg(SubjSem) &<br />

sem_content(Cont).<br />

morph("ge") :=<br />

form: "ge" &<br />

prefix &<br />

morph_subcat(syn:(Syn & head:(verb & cat:v)) &<br />

morph:Morph &<br />

sem:Sem &<br />

morph_feat(prefixable_with_ge:plus)) &<br />

syn:(Syn & head:verb_partII) &<br />

morph:Morph &<br />

sem:Sem.<br />

/***************************************************************************************************************<br />

Inflectional suffixes (after Duden (1984))<br />

****************************************************************************************************************/<br />

% nouns, S1<br />

morph("$") :=<br />

form: "" &<br />

n_infl_affix & singular & case(nom;acc;dat) &<br />

decl_class(dc_I,top).<br />

morph("s") :=<br />

form: "s" &<br />

n_infl_affix & singular & case(gen) &<br />

decl_class(dc_I,top).<br />

% nouns, S2<br />

morph("$") :=<br />

form: "" &<br />

n_infl_affix & singular & case(nom) &<br />

decl_class(dc_II,dc_III).<br />

morph("en") :=<br />

form: "en" &<br />

n_infl_affix & singular & case(acc;dat;gen) &<br />

decl_class(dc_II,dc_III).<br />

% nouns, S3<br />

morph("$") :=<br />

form: "" &<br />

n_infl_affix & singular & case(nom;acc;dat;gen) &<br />

decl_class(dc_III,~dc_IV).<br />

% nouns, P1<br />

morph("e") :=<br />

form: "e" &<br />

n_infl_affix & plural & case(acc;nom;gen) &<br />

decl_class(~dc_II,dc_I).<br />

morph("en") :=<br />

231


form: "en" &<br />

n_infl_affix & plural & case(dat) &<br />

decl_class(~dc_II,dc_I).<br />

Anhang C: Programmcode<br />

% nouns, P2<br />

morph("$") :=<br />

form: "" &<br />

n_infl_affix & plural & case(acc;nom;gen) &<br />

decl_class(~dc_II,dc_II).<br />

morph("n") :=<br />

form: "n" &<br />

n_infl_affix & plural & case(dat) &<br />

decl_class(~dc_II,dc_II).<br />

% nouns, P3<br />

morph("en") :=<br />

form: "en" &<br />

n_infl_affix & plural & case(acc;nom;dat;gen) &<br />

decl_class(top,dc_III).<br />

morph("n") :=<br />

form: "n" &<br />

n_infl_affix & plural & case(acc;nom;dat;gen) &<br />

decl_class(top,dc_III).<br />

% nouns, P4<br />

morph("er") :=<br />

form: "er" &<br />

n_infl_affix & plural & case(acc;nom;gen) &<br />

decl_class(dc_I,dc_IV).<br />

morph("ern") :=<br />

form: "ern" &<br />

n_infl_affix & plural & case(dat) &<br />

decl_class(dc_I,dc_IV).<br />

% nouns, P5<br />

morph("s") :=<br />

form: "s" &<br />

n_infl_affix & plural & case(acc;nom;gen;dat) &<br />

decl_class(~dc_II,dc_V).<br />

% verb inflectional affixes<br />

morph("e") :=<br />

form: "e-1" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:((pers:first & num:sg & tense:pres & mood:ind ) ;<br />

(pers:(first;third) & num:sg & tense:pres & mood:subjI) ;<br />

(pers:(first;third) & num:sg & tense:pret)).<br />

morph("st") :=<br />

form: "st-1" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:second & num:sg & mood:(ind;subjII)).<br />

morph("est") :=<br />

form: "est-1" &<br />

232


Anhang C: Programmcode<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:second & num:sg & mood:(ind ; subjII)).<br />

morph("et") :=<br />

form: "et-1" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(tense:pres & mood:ind &<br />

((pers:second & num:pl) ; (pers:third & num:sg))).<br />

morph("t") :=<br />

form: "t-1" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(tense:pres & mood:ind &<br />

((pers:second & num:pl) ; (pers:third & num:sg))).<br />

morph("et") :=<br />

form: "et-2" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:second & num:pl & tense:pret).<br />

morph("est") :=<br />

form: "est-2" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:second & num:sg & tense:pres & mood:subjI).<br />

morph("et") :=<br />

form: "et-3" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:second & num:pl & tense:pres & mood:subjI).<br />

morph("$") :=<br />

form: "$-1" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:(first;third) & num:sg & tense:pret).<br />

morph("en") :=<br />

form: "en-1" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:(first;third) & num:pl).<br />

morph("n") :=<br />

form: "n-1" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(pers:(first;third) & num:pl).<br />

morph("$") :=<br />

form: "$-2" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(tense:pres & mood:(ind;subjI)).<br />

morph("et") :=<br />

form: "et-4" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(tense:pret & mood:(ind;subjII)).<br />

morph("t") :=<br />

form: "t-2" &<br />

v_infl_affix(verb_infl) &<br />

syn:head:(tense:pret & mood:(ind;subjII)).<br />

morph("en") :=<br />

233


form: "en-2" &<br />

v_infl_affix(verb_inf_base).<br />

morph("n") :=<br />

form: "n-2" &<br />

v_infl_affix(verb_inf_base).<br />

morph("end") :=<br />

form: "end-1" & v_infl_affix(verb_partI).<br />

morph("nd") :=<br />

form: "nd-1" & v_infl_affix(verb_partI).<br />

morph("et") :=<br />

form: "et-5" & v_infl_affix(verb_partII).<br />

morph("t") :=<br />

form: "t-3" & v_infl_affix(verb_partII).<br />

morph("$") :=<br />

form: "$-3" & v_infl_affix(verb_imp & num:sg).<br />

morph("e") :=<br />

form: "e-2" & v_infl_affix(verb_imp & num:sg).<br />

morph("et") :=<br />

form: "et-6" & v_infl_affix(verb_imp & num:pl).<br />

morph("t") :=<br />

form: "t-4" & v_infl_affix(verb_imp & num:pl).<br />

% Linking morphemes<br />

morph("$") :=<br />

linking_morph.<br />

morph("s") :=<br />

linking_morph.<br />

morph("er") :=<br />

linking_morph.<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Semantics<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

sem("Bibliothek") :=<br />

argstr_refarg(<br />

dotted_type([countable(institution) & Inst & no_subconcepts,<br />

countable(building) & Building & no_subconcepts,<br />

group_of(human) & Staff & no_subconcepts,<br />

group_of(book & Book) & Collection & no_subconcepts],<br />

[relation(substratum_for,<br />

[role(substratum,Building),<br />

role(top,Inst)]),<br />

relation(work_for,<br />

234


Anhang C: Programmcode<br />

[role(worker,Staff),<br />

role(organisation,Inst)]),<br />

relation(exhibits,<br />

[role(exhibiter,Inst),<br />

role(exhibited,Collection)])<br />

] )) &<br />

purpose_relation(<br />

lend,<br />

[role(len<strong>der</strong>,Staff),role(lended_thing,countable(Book))],<br />

[Book]).<br />

sem("Museum") :=<br />

argstr_refarg(<br />

dotted_type([countable(institution) & Inst & no_subconcepts,<br />

countable(building) & Building & no_subconcepts,<br />

group_of(human) & Staff & no_subconcepts,<br />

group_of(physical_entity & ExhibitedThing) & Collection &<br />

no_subconcepts<br />

],<br />

[relation(contains,[Building,Inst]),<br />

relation(work_for,[Staff,Inst]),<br />

relation(exhibits,[Inst,Collection]) ] )) &<br />

purpose_relation(<br />

exhibits,<br />

[role(exhibiter,Inst), role(exhibited,countable(ExhibitedThing))],<br />

[ExhibitedThing]).<br />

sem("Fabrik") :=<br />

argstr_refarg(<br />

dotted_type([countable(factory) & Building & no_subconcepts,<br />

group_of(human) & Staff & no_subconcepts],<br />

[relation(work_in,<br />

[Who & role(worker,Staff),role(location,Building)])])) &<br />

purpose_relation(<br />

produce,<br />

[Who, role(produced, simple_type(physical_entity) & Produced)],<br />

[Produced] ).<br />

sem("Buch") :=<br />

argstr_refarg(<br />

dotted_type([countable(book) & Book & no_subconcepts,<br />

uncountable(text) & Text & no_subconcepts],<br />

[relation(substratum_for, [Book,Text])] )) &<br />

purpose_relation(<br />

read,<br />

[role(agent,countable(human)), role(theme,Text)],<br />

[]).<br />

sem("Messer") :=<br />

argstr_refarg(countable(knife) & Tool) &<br />

purpose_relation(<br />

cut,<br />

[role(agent,countable(human)),<br />

role(patient,simple_type(physical_entity & physical_state:soft) & What),<br />

role(instrument,Tool)],<br />

[What] ).<br />

235


Anhang C: Programmcode<br />

sem("Sohn",OfWhom) :=<br />

argstr_refarg(countable(human) & Who & no_subconcepts) &<br />

state(relation(son_of,[Who,OfWhom])).<br />

sem("Fan",OfWhat) :=<br />

argstr_refarg(countable(human) & Who & no_subconcepts) &<br />

state(relation(fan_of,[Who,OfWhat])).<br />

sem("Stahl") :=<br />

argstr_refarg(uncountable(steel & physical_state:hard) & no_subconcepts) &<br />

sem:content:no_content.<br />

sem("Wasser") :=<br />

argstr_refarg(uncountable(water) & no_subconcepts) &<br />

sem:content:no_content.<br />

sem("Brot") :=<br />

argstr_refarg(<br />

dotted_type(<br />

[Ind & countable(bread) & no_subconcepts,<br />

Mass & uncountable(bread) & no_subconcepts],<br />

[relation(made_of,[Ind,Mass])])) &<br />

sem:content:no_content.<br />

sem("Tasse") :=<br />

argstr_refarg(countable(cup) & Cup & no_subconcepts) &<br />

purpose_relation(<br />

drink,<br />

[role(agent,countable(human)),<br />

role(theme,uncountable(liquid) & What),<br />

role(instrument,Cup)],<br />

[What] ).<br />

sem("Horn") :=<br />

argstr_refarg(countable(musical_instrument) & no_subconcepts) &<br />

sem:content:no_content.<br />

sem("Streik") :=<br />

argstr_refarg(countable(event) & no_subconcepts). % $$<br />

sem("frei") :=<br />

argstr_refarg(countable(animate_ind) & Who) &<br />

state(relation(free,[Who])).<br />

sem("schoen") :=<br />

argstr_refarg(countable(physical_entity) & Who) &<br />

state(relation(beautiful,[Who])).<br />

sem("rett",Ag,Th,Inst) :=<br />

transition_event(<br />

accomplishment,<br />

E1 & activity &<br />

236


Anhang C: Programmcode<br />

event(rescue,[role(agent,Ag), R & role(theme,Th), role(instrument,Inst)]),<br />

relation(rescued,[R]),<br />

event_sequence,<br />

E1).<br />

sem("bau",Ag,Th,Mat) :=<br />

transition_event(<br />

accomplishment,<br />

E1 & activity &<br />

event(build,[role(agent,Ag), role(top,Mat)]),<br />

relation(exists,[role(theme,Th)]),<br />

event_sequence,<br />

E1).<br />

sem("renovier",Ag,Th) :=<br />

transition_event(<br />

accomplishment,<br />

E1 & activity &<br />

event(renovate,[role(agent,Ag), Theme & role(theme,Th)]),<br />

relation(renovated,[Theme]),<br />

event_sequence,<br />

E1).<br />

sem("pruef",Ag,Th,Inst) :=<br />

transition_event(<br />

accomplishment,<br />

E1 & activity &<br />

event(check,[role(agent,Ag),<br />

R & role(theme,Th),<br />

role(instrument,Inst)]),<br />

relation(checked,[R]),<br />

event_sequence,<br />

E1).<br />

sem("verkauf",Ag,Th,Goal) :=<br />

transition_event(<br />

accomplishment,<br />

E1 & activity &<br />

event(sell,[role(agent,Ag),<br />

What & role(theme,Th),<br />

ToWhom & role(goal,Goal)]),<br />

relation(possesses,[ToWhom,What]),<br />

event_sequence,<br />

E1).<br />

sem("arbeit",Ag) :=<br />

process(work,[role(worker,Ag)]).<br />

sem("staun",Ag,Th) :=<br />

state(relation(to_be_astonished,[role(experiencer,Ag),role(theme,Th)]) ).<br />

sem("bohr",Ag,Th,Inst,Loc) :=<br />

transition_event(<br />

accomplishment,<br />

E1 & activity &<br />

event(drill,[role(agent,Ag),<br />

R & role(theme,Th),<br />

237


sem("giess") :=<br />

sem:semantics.<br />

Anhang C: Programmcode<br />

role(instrument,Inst)]),<br />

relation(exists,[R,Loc]),<br />

event_sequence,<br />

E1).<br />

sem("hack",Ag,Th,Inst) :=<br />

process(hack,[role(agent,Ag), role(theme,Th), role(instrument,Inst)]).<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Concepts<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

concept(entity) -> entity.<br />

concept(knife & Knife) :=<br />

Knife &<br />

physical_state: hard &<br />

consists_of: [Material & uncountable(metal)] &<br />

has_parts: [individual(blade)] &<br />

subconcepts: [Material].<br />

concept(temporal & Temporal) :=<br />

Temporal &<br />

type_of(Temporal) &<br />

takes_place_at: (Place & individual(place)) &<br />

subconcepts: [Place].<br />

concept(entity & Entity) :=<br />

Entity &<br />

subconcepts: [].<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Principles<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

/***************************************************************************************************************<br />

head-feature-inheritance<br />

****************************************************************************************************************/<br />

unified_head_features(HF) :=<br />

syn_head_features(HF) &<br />

morph_head_features(HF).<br />

syn_head_features([syn:head:H]) := syn:head:H.<br />

syn_head_features([syn:head:H, syn:head:H]) := syn:head:H.<br />

morph_head_features([morph:mhead:H]) := morph:mhead:H.<br />

morph_head_features([morph:mhead:H, morph:mhead:H]) := morph:mhead:H.<br />

238


* Commented out because of the danger of loops<br />

syn_head_features([]) := top.<br />

syn_head_features([syn:head:H|Rest]) :=<br />

syn:head:H & syn_head_features(Rest).<br />

Anhang C: Programmcode<br />

morph_head_features([]) := top.<br />

morph_head_features([morph:mhead:H|Rest]) :=<br />

morph:mhead:H & morph_head_features(Rest).<br />

*/<br />

/***************************************************************************************************************<br />

morph_subcat_principle(Affix,Stem):<br />

checks whether Stem is morphologically subcategorised by Affix and<br />

returns the semantics and argument structure of the affix<br />

****************************************************************************************************************/<br />

morph_subcat_principle( morph:msubcat:needs:Stem & syn:argstr:AffixSC & sem:Sem,<br />

Stem) :=<br />

syn:argstr:AffixSC &<br />

morph:msubcat:needs:[] &<br />

sem:Sem.<br />

/***************************************************************************************************************<br />

selector functions<br />

****************************************************************************************************************/<br />

syn_head(syn:head:Head) :=<br />

Head.<br />

roles_of_event(event:roles:Roles) :=<br />

Roles.<br />

semantics(sem:Sem) :=<br />

sem:Sem.<br />

infl_semantics(sem:Sem,_) :=<br />

sem:Sem.<br />

type_concept(simple_type & Simple_type & type:Type) :=<br />

Simple_type &<br />

type: concept(Type).<br />

type_concept(dotted_type & types:TypeList) :=<br />

member(Simple_type & type:Type, TypeList) &<br />

Simple_type & type: concept(Type).<br />

/***************************************************************************************************************<br />

****************************************************************************************************************/<br />

% for <strong>der</strong>ivation with -ung:<br />

subjectivus(sem:SubjSem, _DO, _Defargs) :=<br />

argstr_relarg(Rel & sem:SubjSem) &<br />

argstr_or<strong>der</strong>([Rel]) &<br />

defargs([]).<br />

% Realisation of default arguments sounds odd:<br />

% "die Überprüfung <strong>der</strong> Beamten mit dem Meßgerät ..."<br />

% with the intended reading "die Beamten prüfen ...<br />

239


Anhang C: Programmcode<br />

objectivus(sem:SubjSem, DO, Defargs) :=<br />

argstr_relarg(DO) &<br />

argstr_or<strong>der</strong>(append(delete_elist([DO]),[Subj])) &<br />

defargs(append(Defargs,[Subj & sem:SubjSem])).<br />

/***************************************************************************************************************<br />

agent_instrument: construct a dotted type for the agent/instrument alternation<br />

****************************************************************************************************************/<br />

agent_instrument(sem:content:eventstr:EventStr, _S, DO, _DefArgs) :=<br />

sem:refarg:types:[agent_thetarole(EventStr), instrument_thetarole(EventStr)] &<br />

sem_content(operator:op_possibility & scope:eventstr:EventStr) &<br />

argstr_relarg(DO) &<br />

argstr_or<strong>der</strong>(delete_elist([DO])) &<br />

defargs([]).<br />

% accomplishment verb with agent-role alone<br />

agent_instrument(sem:content:eventstr:EventStr, _S, DO, _DefArgs) :=<br />

no_instrument_thetarole(roles_of_event(EventStr)) &<br />

argstr_refarg(agent_thetarole(EventStr)) &<br />

sem_content(operator:op_possibility & scope:eventstr:EventStr) &<br />

argstr_relarg(DO) &<br />

argstr_or<strong>der</strong>(delete_elist([DO])) &<br />

defargs([]).<br />

% process verb<br />

agent_instrument(sem:content:eventstr:(activity_eventstr & ~accomplishment &<br />

~ achievement & EventStr),<br />

_S, DO, _DefArgs) :=<br />

argstr_refarg(agent_thetarole(EventStr)) &<br />

sem_content(operator:op_possibility & scope:eventstr:EventStr) &<br />

argstr_relarg(DO) &<br />

argstr_or<strong>der</strong>(delete_elist([DO])) &<br />

defargs([]).<br />

process_or_accomplishment_verb(sem_content(eventstr:(activity_eventstr & ~achievement))) :=<br />

top.<br />

%<br />

% agent_thetarole: check the event structure for the presence of an agent subject<br />

%<br />

%agent_thetarole(accomplishment & event:roles:Roles) :=<br />

% member(role:agent & sel_restr:Type, Roles) &<br />

% Type.<br />

agent_thetarole(activity_eventstr & event:roles:Roles) :=<br />

member(role:agent & sel_restr:Type, Roles) &<br />

Type.<br />

%<br />

% instrument_thetarole: check the event structure for the presence of an instrument<br />

%<br />

instrument_thetarole(activity_eventstr & event:roles:Roles) :=<br />

member(role:instrument & sel_restr:Type, Roles) &<br />

Type.<br />

experiencer_thetarole(achievement & event:roles:Roles) :=<br />

240


Anhang C: Programmcode<br />

member(role:experiencer & sel_restr:Type, Roles) &<br />

Type.<br />

no_instrument_thetarole([]) :=<br />

top.<br />

no_instrument_thetarole([role: ~instrument|RestRoles]) :=<br />

no_instrument_thetarole(RestRoles).<br />

% return non-deterministically a role of the given event structure<br />

a_role_in_eventstr(activity_eventstr & event:roles:Roles) :=<br />

member(sel_restr:Type, Roles) &<br />

Type.<br />

/***************************************************************************************************************<br />

affix_or<strong>der</strong>_constraint<br />

****************************************************************************************************************/<br />

affix_or<strong>der</strong>_constraint(top, top) :=<br />

top.<br />

affix_prece<strong>des</strong>_star(Head1,Head2) :=<br />

affix_prece<strong>des</strong>(Head1,Head2).<br />

affix_prece<strong>des</strong>_star(Head1,Head2) :=<br />

affix_prece<strong>des</strong>(Head1,Head) &<br />

affix_prece<strong>des</strong>(Head,Head2).<br />

% it's necessary to code this in Prolog<br />

affix_prece<strong>des</strong>(cat:cat, tense:tense) := top.<br />

affix_prece<strong>des</strong>(cat:cat, degree:degree) := top.<br />

affix_prece<strong>des</strong>(degree:degree, case:case) := top.<br />

affix_prece<strong>des</strong>(tense:tense, mood:mood) := top.<br />

affix_prece<strong>des</strong>(mood:mood, num:num) := top.<br />

affix_prece<strong>des</strong>(num:num, pers:pers) := top.<br />

affix_prece<strong>des</strong>(pers:pers, case:case) := top.<br />

/***************************************************************************************************************<br />

SYN:HEAD:-maximality: check whether the syn:head:-features - depending<br />

on the category - are complete<br />

****************************************************************************************************************/<br />

% nouns<br />

type_maximal(Head) :=<br />

value_instantiated(cat:n &<br />

num:(sg;pl) &<br />

case:(nom;acc;gen;dat) &<br />

gen<strong>der</strong>:(fem;masc;neut),<br />

Head).<br />

% inflected verbs<br />

type_maximal(Head) :=<br />

value_instantiated(cat:v &<br />

num:(sg;pl) &<br />

pers:(first;second;third) &<br />

tense:(pres;pret) &<br />

mood:(ind;imp;subjI;subjII),<br />

Head).<br />

% infinitive verbs<br />

type_maximal(Head) :=<br />

241


Anhang C: Programmcode<br />

value_instantiated(verb_inf_base & cat:v, Head).<br />

% verb particple<br />

type_maximal(Head) :=<br />

value_instantiated(verb_part & cat:v, Head).<br />

% verb imperative forms<br />

type_maximal(Head) :=<br />

value_instantiated(verb_imp & cat:v & num:(sg;pl), Head).<br />

% adjectives<br />

type_maximal(Head) :=<br />

value_instantiated(cat:a, Head).<br />

% last resort<br />

%type_maximal(top) := top.<br />

/***************************************************************************************************************<br />

Principles concerning argument structure<br />

****************************************************************************************************************/<br />

argument_inheritance(syn:argstr:Subcat) :=<br />

syn:argstr:Subcat.<br />

% argument realisation of infinitival verb forms (participles, infinitives ...)<br />

% => do nothing<br />

argument_realisation(PSA & argstr_extarg(Ext) & syn:head:verb_infinitive) :=<br />

argstr_extarg(Ext) &<br />

type_shift_args_to_phrase(PSA) &<br />

semantics(PSA).<br />

% argument realisation of inflected verbs<br />

% => type shift the external argument<br />

argument_realisation(PSA & argstr_extarg(Ext) & syn:head:(verb & num:Num)) :=<br />

argstr_extarg(type_shift(Num,Ext)) &<br />

type_shift_args_to_phrase(PSA) &<br />

semantics(PSA).<br />

% argument realisation of singular nouns with simple or dotted type<br />

% => type shift the referential argument<br />

argument_realisation(PSA & argstr_refarg(Ref & simple_or_dotted_type) &<br />

syn:head:(noun & cat:n & num:sg) &<br />

sem_content(Cont) ) :=<br />

argstr_refarg(type_shift(sg,Ref)) &<br />

type_shift_args_to_phrase(PSA) &<br />

sem_content(Cont).<br />

% argument realisation of singular adj with simple or dotted type<br />

% => type shift the referential argument<br />

argument_realisation(PSA & argstr_refarg(Ref & simple_or_dotted_type) &<br />

syn:head:(adjective & cat:a & num:sg) &<br />

sem_content(Cont) ) :=<br />

type_shift_args_to_phrase(PSA) &<br />

argstr_refarg(type_shift(sg,Ref)) &<br />

sem_content(Cont).<br />

242


Anhang C: Programmcode<br />

% argument realisation of plural nominals with simple type or dotted type<br />

% => type shift the referential argument<br />

argument_realisation(PSA & syn:head:(nominal & num:pl) &<br />

argstr_refarg(Ref) & sem_content(Cont) ) :=<br />

type_shift_args_to_phrase(PSA) &<br />

argstr_refarg(type_shift(pl,Ref)) &<br />

sem_content(Cont).<br />

/***************************************************************************************************************<br />

type_shift_args_to_phrase/1: shift the type of all arguments to phrase and<br />

realise their cases and categories<br />

****************************************************************************************************************/<br />

% nouns<br />

type_shift_args_to_phrase(syn:argstr:(AS & noun_argstr & relarg:Rel & defargs:DA)) :=<br />

syn:argstr:(AS &<br />

relarg:realize_relarg(Rel) &<br />

defargs:realize_default_arguments(DA)<br />

).<br />

% adjectives<br />

type_shift_args_to_phrase(syn:argstr:(AS & adj_argstr & intarg:Int & defargs:DA)) :=<br />

syn:argstr:(AS &<br />

intarg:realize_intarg(Int) &<br />

defargs:realize_default_arguments(DA)<br />

).<br />

% verbs<br />

type_shift_args_to_phrase(syn:argstr:(AS & verbal_argstr & subj:Subj & dir_obj:DO &<br />

indir_obj:IO & prep_obj:PO & sent_compl:SC &<br />

defargs:DefArgs )) :=<br />

syn:argstr:(<br />

AS &<br />

subj:realize_subject(Subj) &<br />

dir_obj:realize_direct_object(DO) &<br />

indir_obj:realize_indirect_object(IO) &<br />

prep_obj:realize_prep_object(PO) &<br />

sent_compl:realize_sent_compl(SC) &<br />

defargs:realize_default_arguments(DefArgs)<br />

).<br />

realize_relarg(Rel) := phrase & Rel & syn:head:(noun & cat: n & case:sgen).<br />

realize_relarg(Rel) := phrase & Rel & p(ldat,von).<br />

%realize_relarg(Rel) := phrase & Rel & p(lacc,durch).<br />

realize_relarg([]) := [].<br />

realize_intarg(Int) := phrase & Int.<br />

realize_intarg([]) := [].<br />

realize_subject(Subj & syn:head:(cat:n & case:struc_case)) :=<br />

phrase & Subj & syn:head:case:snom.<br />

realize_subject([]) := [].<br />

realize_direct_object(DirObj & syn:head:(cat:n & case:struc_case)) :=<br />

phrase & DirObj & syn:head:case:sacc.<br />

realize_direct_object([]) := [].<br />

realize_indirect_object(InDirObj) := phrase & InDirObj.<br />

realize_indirect_object([]) := [].<br />

243


ealize_prep_object(PO) := phrase & PO.<br />

realize_prep_object([]) := [].<br />

realize_sent_compl(SC) := phrase & SC.<br />

realize_sent_compl([]) := [].<br />

Anhang C: Programmcode<br />

% agentive default arg may be realised as a PP<br />

realize_default_arguments([]) := top.<br />

realize_default_arguments([phrase]) := top.<br />

realize_default_arguments([phrase,phrase]) := top.<br />

realize_default_arguments([phrase,phrase,phrase]) := top.<br />

%realize_default_arguments([]) :=<br />

% top.<br />

%realize_default_arguments([phrase|Rest]) :=<br />

% realize_default_arguments(Rest).<br />

/***************************************************************************************************************<br />

type_shift(Number,SimpleOrDottedType): shift a type to a group type.<br />

****************************************************************************************************************/<br />

type_shift(sg, Type & individual & is_group:minus) :=<br />

Type.<br />

type_shift(sg, Type & uncountable) :=<br />

Type.<br />

type_shift(sg, Type & group & is_group:plus) :=<br />

% value_instantiated(group_of:top, Type) &<br />

Type & group_of:individual.<br />

type_shift(sg, dotted_type & type_rel:TR & types:Types) :=<br />

dotted_type &<br />

type_rel:TR &<br />

types:type_shift_all_subtypes_sg(Types).<br />

% simple type, countable, plural<br />

type_shift(pl, Ind & is_group:minus & type:T) :=<br />

Ind &<br />

group_of:(individual & type:T).<br />

% simple type, group, plural<br />

type_shift(pl, Group & group & is_group:plus & type:T) :=<br />

Group &<br />

group_of:(type:T & group_of:(individual & type:T)).<br />

% dotted type, plural<br />

type_shift(pl, dotted_type & type_rel:TR & types:Types) :=<br />

dotted_type &<br />

type_rel:TR &<br />

types:type_shift_all_subtypes_pl(Types).<br />

type_shift_all_subtypes_sg([]) := [].<br />

type_shift_all_subtypes_sg([Type|Types]) :=<br />

[type_shift(sg,Type)|type_shift_all_subtypes_sg(Types)].<br />

244


Anhang C: Programmcode<br />

%type_shift_all_subtypes_sg([T]) := [simple_type & type_shift(sg,T)].<br />

%type_shift_all_subtypes_sg([T1,T2]) :=<br />

% [simple_type & type_shift(sg,T1),simple_type & type_shift(sg,T2)].<br />

%type_shift_all_subtypes_pl([T]) := [simple_type & type_shift(pl,T)].<br />

%type_shift_all_subtypes_pl([T1,T2]) :=<br />

% [simple_type & type_shift(pl,T1),simple_type & type_shift(pl,T2)].<br />

type_shift_all_subtypes_pl([]) := [].<br />

type_shift_all_subtypes_pl([Type|Types]) :=<br />

[type_shift(pl,Type)|type_shift_all_subtypes_pl(Types)].<br />

% ignore uncountable in plural<br />

type_shift_all_subtypes_pl([uncountable|Types]) :=<br />

type_shift_all_subtypes_pl(Types).<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Lexicon templates<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

noun(Gen<strong>der</strong>) := syn:head:(noun & cat:n & gen<strong>der</strong>:Gen<strong>der</strong>).<br />

verb(VForm) := syn:head:(verb & VForm & cat:v).<br />

adj := syn:head:(adjective & cat:a).<br />

n(Case) := syn:head:(noun & cat:n & case: Case).<br />

p(Case,PForm) := syn:head:(cat:p & pform: PForm & dp_case: Case).<br />

n_infl_affix := infl_affix & syn:head:cat:n.<br />

v_infl_affix(VType) := infl_affix & syn:head:(cat:v & VType).<br />

plural := syn:head:num:pl.<br />

singular := syn:head:num:sg.<br />

case(Case) := syn:head:case:Case.<br />

% Verb stems for irregular verbs<br />

verbstem(0) :=<br />

verb(top).<br />

verbstem(1) :=<br />

verb(top) ;<br />

verb(num:pl & tense:pres) ;<br />

verb(tense:pres & mood:subjI).<br />

verbstem(2) :=<br />

verb(pers:first & num:sg & tense:pres & mood:ind) &<br />

morph_feat(complete:minus).<br />

verbstem(3) :=<br />

verb(pers:(second;third) & num:sg & tense:pres & mood:ind) &<br />

morph_feat(complete:minus).<br />

verbstem(4) :=<br />

verb(tense:pret & mood:ind).<br />

verbstem(5) :=<br />

verb(tense:pret & mood:subjII).<br />

verbstem(6) :=<br />

verb(verb_partII).<br />

245


verbstem(7) :=<br />

verb(verb_imp & mood:imp).<br />

Anhang C: Programmcode<br />

decl_class(DC_sg,DC_pl) :=<br />

morph:mhead:decl_class:(decl_class_sg: DC_sg & decl_class_pl: DC_pl).<br />

morph_feat(Morph_feat) :=<br />

morph:mfeat:Morph_feat.<br />

prefixable_with_ge(Bool) :=<br />

morph:mfeat:prefixable_with_ge:Bool.<br />

morph_subcat(MorphObject) :=<br />

morph:msubcat:needs:MorphObject.<br />

simple_type(OfType) :=<br />

simple_type & type:OfType.<br />

individual(OfType) :=<br />

individual & type:OfType.<br />

countable(OfType) :=<br />

countable & type:OfType & is_group:minus.<br />

uncountable(OfType) :=<br />

uncountable & type:OfType.<br />

group_of(Type) :=<br />

group & type:Type & group_of:type:Type & is_group:plus.<br />

dotted_type(Types,Type_Relations) :=<br />

types: Types & type_rel: Type_Relations.<br />

transition_event(Type,E1,E2,EventRestr,EventHead) :=<br />

sem_content(eventstr:(Type & event:(activity & E1) & state:(state & E2) &<br />

eventrestr:EventRestr & eventhead:EventHead)).<br />

process(Type,Roles) :=<br />

sem_content(eventstr:event:(activity & event(Type,Roles))).<br />

state(Rel) :=<br />

sem_content(eventstr:state:(state & Rel)).<br />

relation(RelConst,RelArgs) :=<br />

relconst:RelConst & relargs:RelArgs.<br />

accessible_relation(RelConst,RelArgs,AccessibleArgs) :=<br />

relation(RelConst,RelArgs) &<br />

accessible_args:AccessibleArgs.<br />

purpose_relation(RelConst,RelArgs,_AccessibleArgs) :=<br />

sem:content:(operator:op_possibility &<br />

scope:(lexical_content &<br />

eventstr:event:event(RelConst,RelArgs)<br />

)<br />

).<br />

246


event(Type,Roles) :=<br />

event_type:Type &<br />

roles:Roles &<br />

accessible_roles: listcopy(Roles).<br />

Anhang C: Programmcode<br />

telic_roles(sem_content(operator:op_possibility &<br />

scope:(lexical_content &<br />

eventstr:event:roles:Roles ))) :=<br />

Roles.<br />

sem_content(Content) :=<br />

sem:content:Content.<br />

has_part(Part) :=<br />

relation(has_part,[Part]).<br />

consists_of(Material) :=<br />

relation(consists_of,[Material]).<br />

container_for(What) :=<br />

relation(container_for,[What]).<br />

no_subconcepts := type:subconcepts:[].<br />

unknown(_) := "$unknown$".<br />

/***************************************************************************************************************<br />

subcategorisation<br />

****************************************************************************************************************/<br />

argstr([Subj,DirObj,IndirObj,PrepObj,SentCompl]) :=<br />

argstr_subj(Subj) &<br />

argstr_dirobj(DirObj) &<br />

argstr_indirobj(IndirObj) &<br />

argstr_prepobj(PrepObj) &<br />

argstr_sentcompl(SentCompl).<br />

argstr_refarg(Type) := sem:refarg:Type.<br />

argstr_extarg(Type) := sem:extarg:Type.<br />

argstr_subj(Sign & sem:refarg:Sem) := syn:argstr:subj:Sign & sem:extarg:Sem.<br />

argstr_dirobj(Sign) := syn:argstr:dir_obj:Sign.<br />

argstr_indirobj(Sign) := syn:argstr:indir_obj:Sign.<br />

argstr_prepobj(Sign) := syn:argstr:prep_obj:Sign.<br />

argstr_sentcompl(Sign) := syn:argstr:sent_compl:Sign.<br />

argstr_relarg(Sign) := syn:argstr:(noun_argstr & relarg:Sign).<br />

argstr_intarg(Sign) := syn:argstr:(adj_argstr & intarg:Sign).<br />

argstr_or<strong>der</strong>(Or<strong>der</strong>List) := syn:argstr:argstr_or<strong>der</strong>:Or<strong>der</strong>List.<br />

defargs(Arglist) := syn:argstr:defargs:Arglist.<br />

adjuncts(Adjuncts) := syn:argstr:adjuncts:Adjuncts.<br />

247


Anhang C: Programmcode<br />

no_arguments := argstr_relarg([]) & argstr_or<strong>der</strong>([]) & defargs([]).<br />

empty_morph_subcat := morph:msubcat:needs:[].<br />

/***************************************************************************************************************<br />

Theta roles<br />

****************************************************************************************************************/<br />

role(Thetarole,RoleArg) :=<br />

role:Thetarole &<br />

sel_restr:RoleArg.<br />

agent(Type) := role(agent, Type).<br />

patient(Type) := role(patient, Type).<br />

instrument(Type) := role(instrument, Type).<br />

experiencer(Type) := role(experiencer, Type).<br />

goal(Type) := role(goal, Type).<br />

source(Type) := role(source, Type).<br />

theme(Type) := role(theme, Type).<br />

location(Type) := role(location, Type).<br />

beneficiary(Type) := role(beneficiary, Type).<br />

/***************************************************************************************************************<br />

****************************************************************************************************************<br />

Testing<br />

****************************************************************************************************************<br />

****************************************************************************************************************/<br />

% Note: due to the incomplete proof strategy of CUF the empty inflectional<br />

% categories are explicitly marked with "$"<br />

% main test predicate<br />

test(No) :=<br />

cat(syntactic_atom &<br />

syn:head:cat:cat &<br />

syn:argstr:argstr &<br />

sem:content:content,<br />

testword(No)).<br />

% inflection<br />

testword(1) := ["bibliothek","$"].<br />

testword(2) := ["bibliothek","en"].<br />

testword(3) := ["buch","$"].<br />

testword(4) := ["buech","er"].<br />

testword(5) := ["buech","ern"].<br />

testword(6) := ["rett","en"].<br />

testword(7) := ["giess","en"].<br />

testword(8) := ["staun","en"].<br />

testword(9) := ["rett","$","en"].<br />

testword(10) := ["rett","et","en"].<br />

testword(11) := ["rett","et","est"].<br />

testword(12) := ["messer","$"].<br />

testword(13) := ["sohn","$"].<br />

testword(14) := ["soehn","e"].<br />

testword(15) := ["messer","n"].<br />

testword(16) := ["fabrik","en"].<br />

testword(17) := ["arbeit","$","en"].<br />

testword(18) := ["renovier","t"].<br />

testword(19) := ["ge","renovier","t"]. % *<br />

testword(20) := ["ge","rett","et"].<br />

248


testword(21) := ["rett","end"].<br />

testword(22) := ["fan","$"].<br />

testword(23) := ["fan","s"].<br />

testword(24) := ["ge","pruef","t"].<br />

testword(25) := ["brot","$"].<br />

testword(26) := ["brot","e"].<br />

testword(27) := ["wasser","$"].<br />

testword(28) := ["fabrik","$"].<br />

testword(29) := ["museum","$"].<br />

testword(50) := ["frei"].<br />

testword(51) := ["schoen"].<br />

Anhang C: Programmcode<br />

% <strong>der</strong>ivation: suffixation<br />

testword(100) := ["rett","bar"].<br />

testword(101) := ["rett","ung","$"].<br />

testword(102) := ["rett","ung","en"].<br />

testword(103) := ["frei","ung","$"]. % * [-ung subkategorisiert Verben]<br />

testword(104) := ["giess","ung","$"]. % * [-ung subkategorisiert trans. Verben]<br />

testword(105) := [""].<br />

testword(106) := ["frei","heit","$"].<br />

testword(107) := ["arbeit","er","$"].<br />

testword(108) := ["bohr","er","$"].<br />

testword(109) := ["pruef","er","$"].<br />

testword(110) := ["rett","er","$"].<br />

testword(111) := ["pruef","ung","$"].<br />

testword(112) := ["rett","bar","keit","$"].<br />

testword(113) := ["fall","er","$"]. % * (Lexikoneintrag fehlt)<br />

testword(114) := ["be","staun","er","$"].<br />

testword(115) := ["renovier","er","$"].<br />

testword(116) := ["renovier","bar","keit","$"].<br />

testword(117) := ["fall","bar","keit","$"]. % *<br />

testword(118) := ["renovier","ung","$"].<br />

testword(119) := ["verkauf","$","$"].<br />

testword(120) := ["horn","ist","$"].<br />

% <strong>der</strong>ivation: prefixation<br />

testword(200) := ["un","frei"].<br />

testword(201) := ["be","giess","en"].<br />

testword(202) := ["be","staun","en"].<br />

% <strong>der</strong>ivation: suffixation + prefixation<br />

testword(300) := ["be","staun","bar","keit","$"].<br />

testword(301) := ["be","staun","bar"].<br />

testword(302) := ["un","rett","bar"].<br />

testword(303) := ["un","rett","bar","keit","$"].<br />

% conversion<br />

testword(400) := ["",""].<br />

testword(401) := ["schoen","en"].<br />

% composition: NN with relational head<br />

testword(500) := ["messer","fan","$"].<br />

testword(501) := ["messer","sohn","$"]. % * because of selectional restrictions of Sohn<br />

testword(550) := ["museum","s","fan","$"].<br />

testword(551) := ["buch","fan","$"].<br />

testword(552) := ["buech","er","fan","$"].<br />

249


% relational V<br />

testword(580) := ["hack","messer","$"].<br />

Anhang C: Programmcode<br />

% composition: NN with deverbal head<br />

testword(600) := ["buech","er","pruef", "er", "$"].<br />

testword(601) := ["buch","pruef", "er", "$"].<br />

testword(602) := ["messer","pruef", "er", "$"].<br />

testword(603) := ["buch","pruef", "ung","$"].<br />

testword(604) := ["bibliothek","s","renovier","ung","$"].<br />

testword(605) := ["fabrik","verkauf","$","$"]. % has also a conceptual reading<br />

testword(606) := ["museum","s","verkauf","$","$"].<br />

% composition: NN with stereotypical relation<br />

testword(700) := ["museum","s","buch","$"].<br />

testword(701) := ["buch","museum","$"].<br />

testword(702) := ["buech","er","museum","$"].<br />

testword(703) := ["buech","er","verkauf","$","$"].<br />

testword(704) := ["buech","er","fabrik","$"]. % ok<br />

testword(705) := ["messer","fabrik","$"]. % ok<br />

testword(706) := ["brot","fabrik","$"]. % ok<br />

testword(707) := ["brot","messer","$"]. % ok<br />

testword(708) := ["fabrik","streik","$"].<br />

testword(709) := ["wasser","tasse","$"].<br />

testword(710) := ["buch","verkauf","$","$"].<br />

% composition: NN with general relation<br />

testword(800) := ["stahl","messer","$"].<br />

testword(801) := [""].<br />

testword(802) := ["museums","s","bibliothek","$"].<br />

testword(803) := ["buech","er","bibliothek","$"]. % * aus semant. Gründen<br />

testword(804) := ["stahl","bohr","er","$"].<br />

% composition & <strong>der</strong>ivation<br />

testword(900) := ["buech","er","be","staun","er","$"].<br />

% base relation<br />

testword(950) := ["schoen","tasse","$"]. % this is an artificial example<br />

% words with unknown parts<br />

testword(1000) := [unknown("schumisier"),"bar"].<br />

testword(1001) := [unknown("umleit"),"ung","$"].<br />

testword(1002) := [unknown("haendl"),"er","$"].<br />

/*<br />

% composition: N-N<br />

testword(502) := ["museum","s","kosten","$"].<br />

testword(504) := ["museum","s","streik","$"].<br />

testword(505) := ["tasse","n","museum","$"].<br />

testword(507) := ["streik","museum","$"]. % *<br />

testword(514) := ["fabrik","buch","$"].<br />

% General relations<br />

test_word(300) := ['Tasse',n,'Tisch'].<br />

250


% Composition & Derivation<br />

test_word(600) := [rett,ung,s,'Kosten'].<br />

test_word(601) := ['Kosten',rechn,ung,en].<br />

test_word(603) := ['Tisch',rechn,er].<br />

*/<br />

Anhang C: Programmcode<br />

/***************************************************************************************************************<br />

**********************************************************************************<br />

Utils<br />

Note: all normally recursive predicates like append etc. are reduced to a finite<br />

set of special cases to prevent loops<br />

**********************************************************************************<br />

****************************************************************************************************************/<br />

foreign(value_instantiated(intern,intern) -> (-extern)).<br />

foreign(value_not_instantiated(intern,intern) -> (-extern)).<br />

foreign(is_of_type(intern,intern) -> (-extern)).<br />

foreign(is_of_type_group(intern) -> (-extern)).<br />

foreign(is_of_type_individual(intern) -> (-extern)).<br />

foreign(type_of(intern) -> (-extern)).<br />

true(top) := top.<br />

split([X1,X2], [X1], [X2]) := top.<br />

split([X1,X2,X3], [X1,X2], [X3]) := top.<br />

split([X1,X2,X3], [X1], [X2,X3]) := top.<br />

split([X1,X2,X3,X4], [X1,X2,X3], [X4]) := top.<br />

split([X1,X2,X3,X4], [X1,X2], [X3,X4]) := top.<br />

split([X1,X2,X3,X4], [X1], [X2,X3,X4]) := top.<br />

split([X1,X2,X3,X4,X5], [X1], [X2,X3,X4,X5]) := top.<br />

split([X1,X2,X3,X4,X5], [X1,X2], [X3,X4,X5]) := top.<br />

split([X1,X2,X3,X4,X5], [X1,X2,X3], [X4,X5]) := top.<br />

split([X1,X2,X3,X4,X5], [X1,X2,X3,X4], [X5]) := top.<br />

split([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4,X5], [X6]) := top.<br />

split([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4], [X5,X6]) := top.<br />

split([X1,X2,X3,X4,X5,X6], [X1,X2,X3], [X4,X5,X6]) := top.<br />

split([X1,X2,X3,X4,X5,X6], [X1,X2], [X3,X4,X5,X6]) := top.<br />

split([X1,X2,X3,X4,X5,X6], [X1], [X2,X3,X4,X5,X6]) := top.<br />

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5,X6], [X7]) := top.<br />

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5], [X6,X7]) := top.<br />

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4], [X5,X6,X7]) := top.<br />

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3], [X4,X5,X6,X7]) := top.<br />

split([X1,X2,X3,X4,X5,X6,X7], [X1,X2], [X3,X4,X5,X6,X7]) := top.<br />

split([X1,X2,X3,X4,X5,X6,X7], [X1], [X2,X3,X4,X5,X6,X7]) := top.<br />

split3([X1,X2,X3], [X1], [X2], [X3]) := top.<br />

split3([X1,X2,X3,X4], [X1], [X2], [X3,X4]) := top.<br />

split3([X1,X2,X3,X4], [X1,X2], [X3], [X4]) := top.<br />

split3([X1,X2,X3,X4,X5], [X1], [X2], [X3,X4,X5]) := top.<br />

split3([X1,X2,X3,X4,X5], [X1,X2], [X3], [X4,X5]) := top.<br />

split3([X1,X2,X3,X4,X5], [X1,X2,X3], [X4], [X5]) := top.<br />

split3([X1,X2,X3,X4,X5,X6], [X1], [X2], [X3,X4,X5,X6]) := top.<br />

251


Anhang C: Programmcode<br />

split3([X1,X2,X3,X4,X5,X6], [X1,X2], [X3], [X4,X5,X6]) := top.<br />

split3([X1,X2,X3,X4,X5,X6], [X1,X2,X3], [X4], [X5,X6]) := top.<br />

split3([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4], [X5], [X6]) := top.<br />

split3([X1,X2,X3,X4,X5,X6,X7], [X1], [X2], [X3,X4,X5,X6,X7]) := top.<br />

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2], [X3], [X4,X5,X6,X7]) := top.<br />

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3], [X4], [X5,X6,X7]) := top.<br />

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4], [X5], [X6,X7]) := top.<br />

split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5], [X6], [X7]) := top.<br />

testsplit(L) := split(L,L1,L2) & [L1,L2].<br />

testsplit3(L) := split3(L,L1,L2,L3) & [L1,L2,L3].<br />

%<br />

% delete_elist(List): delete all occurences of elist from List<br />

%<br />

delete_elist([]) := [].<br />

delete_elist([[]]) := [].<br />

delete_elist([A & ~elist]) := [A].<br />

%delete_elist([]) := [].<br />

%delete_elist([elist|T]) := delete_elist(T).<br />

%delete_elist([A & ~elist|T]) := [A|delete_elist(T)].<br />

append([],L) := L.<br />

append([X],L) := [X|L].<br />

append([X,Y],L) := [X,Y|L].<br />

append([X,Y,Z],L) := [X,Y,Z|L].<br />

member(X,[X]) := top.<br />

member(X,[_,X]) := top.<br />

member(X,[X,_]) := top.<br />

member(X,[X,_,_]) := top.<br />

member(X,[_,X,_]) := top.<br />

member(X,[_,_,X]) := top.<br />

member(X,[X,_,_,_]) := top.<br />

member(X,[_,X,_,_]) := top.<br />

member(X,[_,_,X,_]) := top.<br />

member(X,[_,_,_,X]) := top.<br />

% member-predicate that returns the list without the found element X<br />

member(X,[X],[]) := top.<br />

member(X,[A1,X],[A1]) := top.<br />

member(X,[X,A1],[A1]) := top.<br />

member(X,[X,A1,A2],[A1,A2]) := top.<br />

member(X,[A1,X,A2],[A1,A2]) := top.<br />

member(X,[A1,A2,X],[A1,A2]) := top.<br />

member(X,[X,A1,A2,A3],[A1,A2,A3]) := top.<br />

member(X,[A1,X,A2,A3],[A1,A2,A3]) := top.<br />

member(X,[A1,A2,X,A3],[A1,A2,A3]) := top.<br />

member(X,[A1,A2,A3,X],[A1,A2,A3]) := top.<br />

%append([],L) := L.<br />

%append([H|T],L) := [H|append(T,L)].<br />

%member(X,[X|_]) := top.<br />

%member(X,[_|R]) := member(X,R).<br />

% create a copy of the list<br />

listcopy([]) := [].<br />

listcopy([H|T]) := [H|listcopy(T)].<br />

252

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!