Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Aspekte</strong> <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong><br />
<strong>des</strong> <strong>Deutschen</strong><br />
Dissertation<br />
zur Erlangung <strong>des</strong> akademischen Gra<strong>des</strong><br />
Doctor philosophiae (Dr. phil.)<br />
eingereicht an <strong>der</strong> Philosophischen Fakultät II<br />
<strong>der</strong> <strong>Universität</strong> Potsdam<br />
im August 1999<br />
von<br />
Thomas Hanneforth
Meinen Eltern gewidmet
Inhaltsverzeichnis<br />
1 EINFÜHRUNG ....................................................................................................................1<br />
1.1 Zielsetzung <strong>der</strong> Arbeit ..................................................................................................................................1<br />
1.2 Vorarbeiten und verwandte Arbeiten zur Computer-Morphologie ....................................................4<br />
1.2.1 Two-Level-Morphologie und ihre Vorläufer ...........................................................................................4<br />
1.2.2 Vorarbeiten aus dem Bereich <strong>der</strong> Lemmatisierung ............................................................................9<br />
1.2.3 Die Lemmatisierungskonzeption von Finkler & Neumann (1986) ................................................12<br />
1.2.4 Die objektorientierte Konzeption von Daelemans (1987) ................................................................15<br />
1.2.5 Lexikalische Regeln ...............................................................................................................................19<br />
1.3 Fazit.................................................................................................................................................................21<br />
1.4 Methodisches................................................................................................................................................22<br />
1.5 Zum Aufbau <strong>der</strong> Arbeit ..............................................................................................................................23<br />
2 MERKMALSSTRUKTUREN.......................................................................................... 24<br />
2.1 Typisierte Merkmalsstrukturen................................................................................................................24<br />
2.2 Typsysteme....................................................................................................................................................26<br />
2.2.1 Konstruktion von Typsystemen ..........................................................................................................27<br />
2.3 Subsumption.................................................................................................................................................28<br />
2.4 Beschreibungslogik .....................................................................................................................................29<br />
2.4.1 Semantik von Merkmalstermen...........................................................................................................32<br />
2.4.2 Normalformen........................................................................................................................................32<br />
2.5 Phrasenstrukturregeln ................................................................................................................................41<br />
3 WORTSYNTAX UND WORTSEMANTIK DES DEUTSCHEN.............................. 44<br />
3.1 Wortsyntax.....................................................................................................................................................44<br />
3.1.1 Flexion .....................................................................................................................................................44<br />
3.1.1.1 Modelle <strong>der</strong> Flexion .......................................................................................................................46<br />
3.1.1.2 Minimalistische Morphologie.......................................................................................................49<br />
3.1.2 Derivation und Komposition ...............................................................................................................55<br />
3.1.2.1 Strukturregeln.................................................................................................................................56<br />
3.1.2.2 Argumentvererbung ......................................................................................................................59<br />
3.2 Wortbildung im <strong>Deutschen</strong> .......................................................................................................................61<br />
3.2.1 Komposition ...........................................................................................................................................61<br />
3.2.2 Derivation ...............................................................................................................................................64<br />
3.2.2.1 Suffigierung.....................................................................................................................................64<br />
3.2.2.2 Präfigierung ....................................................................................................................................65<br />
3.2.2.3 Konversion ......................................................................................................................................67<br />
3.3 Wortsemantik................................................................................................................................................69<br />
3.3.1 Wortsemantik als Wissensrepräsentation ..........................................................................................69<br />
i
3.3.2 Wortsemantik als freie Anwendung semantischer Operationen....................................................75<br />
3.4 Das generative Lexikon ..............................................................................................................................82<br />
3.4.1 Struktur ...................................................................................................................................................82<br />
3.4.2 Generative Operationen........................................................................................................................87<br />
3.5 Resümee.........................................................................................................................................................88<br />
3.5.1 Vereinheitlichung von Komposition und Derivation?.....................................................................88<br />
3.5.2 Lexikalisierte Wortgrammatiken?.......................................................................................................89<br />
3.5.3 Ziele .........................................................................................................................................................90<br />
4 EIN MODELL EINES MORPHOLOGISCHEN ANALYSESYSTEMS .................. 91<br />
4.1 Die Organisation <strong>des</strong> Lexikons ................................................................................................................ 92<br />
4.2 Der segmentierende Automat................................................................................................................... 93<br />
4.2.1 Das Automatenmodell......................................................................................................................... 93<br />
4.3 Wortstrukturparsing................................................................................................................................... 99<br />
4.3.1 Das Parsverfahren .............................................................................................................................. 100<br />
4.3.2 Behandlung unbekannter Segmente ................................................................................................ 105<br />
4.3.2.1 Verfeinerungen............................................................................................................................ 108<br />
4.4 Behandlung <strong>der</strong> Allomorphie................................................................................................................. 110<br />
4.4.1 Kompilation <strong>der</strong> Allomorphe............................................................................................................ 113<br />
4.4.2 Behandlung von morphographematischen Kombinationsbeschränkungen.............................. 114<br />
4.5 Weitere <strong>Aspekte</strong> ........................................................................................................................................ 114<br />
4.5.1 Aktualisierung <strong>des</strong> Automaten ........................................................................................................ 114<br />
4.5.2 Interaktion mit dem Satzstrukturparser.......................................................................................... 116<br />
4.6 Zusammenfassung.................................................................................................................................... 117<br />
5 EINE MERKMALSBASIERTE BESCHREIBUNG EINIGER ASPEKTE DER<br />
MORPHOLOGIE IM DEUTSCHEN.............................................................................. 119<br />
5.1 Morphologische Typenhierarchie und Lexikon ................................................................................. 120<br />
5.1.1 Syntax ................................................................................................................................................... 120<br />
5.1.2 Semantik............................................................................................................................................... 124<br />
5.2 Derivation................................................................................................................................................... 132<br />
5.2.1 Syntax ................................................................................................................................................... 132<br />
5.2.2 Semantik............................................................................................................................................... 134<br />
5.2.2.1 -bar .............................................................................................................................................. 134<br />
5.2.2.2 -ung .............................................................................................................................................. 136<br />
5.2.2.3 -er .............................................................................................................................................. 138<br />
5.2.2.4 be- .............................................................................................................................................. 140<br />
5.2.2.5 Weitere Affixe .............................................................................................................................. 140<br />
5.3 Komposition............................................................................................................................................... 141<br />
5.3.1 Syntax ................................................................................................................................................... 141<br />
5.3.2 Semantik............................................................................................................................................... 143<br />
5.3.2.1 Interpretation von relationalen Komposita ............................................................................. 144<br />
5.3.2.2 Interpretation von Stereotyp-Komposita ................................................................................. 149<br />
ii
5.3.2.3 Interpretation von Komposita mit konzeptueller Relation ................................................... 151<br />
5.3.3 Fazit ...................................................................................................................................................... 154<br />
5.4 Flexion......................................................................................................................................................... 156<br />
5.4.1 Syntax ................................................................................................................................................... 156<br />
5.4.1.1 Merkmalsbasierte Flexion am Beispiel <strong>der</strong> Verbflexion ........................................................ 159<br />
5.4.1.2 Flexion an<strong>der</strong>er Kategorien........................................................................................................ 165<br />
5.4.2 Semantik............................................................................................................................................... 167<br />
5.5 Konversion ................................................................................................................................................. 170<br />
5.6 Unbekannte Wortteile.............................................................................................................................. 172<br />
5.7 Verwandte Arbeiten ................................................................................................................................. 174<br />
5.7.1 Antworth (1994) .................................................................................................................................. 174<br />
5.7.2 Ritchie et al. (1992).............................................................................................................................. 175<br />
5.8 Implementierung ...................................................................................................................................... 175<br />
6 ZUSAMMENFASSUNG................................................................................................ 176<br />
6.1 Was erzielt wurde und was nicht........................................................................................................... 176<br />
6.2 Typisierte Merkmalsstrukturen............................................................................................................. 177<br />
6.3 Wortzerlegung und -analyse................................................................................................................... 178<br />
LITERATURVERZEICHNIS ........................................................................................... 179<br />
ANHANG A: ANALYSEALGORITHMEN .................................................................. 187<br />
A.1 Konstruktion <strong>des</strong> Segmentierers .......................................................................................................... 187<br />
A.1.1 Konstruktion von Übergangs-, failure- und Ausgabefunktion.................................................... 187<br />
A.1.2 Umwandlung <strong>des</strong> parallelen Pattern-Matchers in einen DEA.................................................... 189<br />
ANHANG B: TYPENHIERARCHIE UND MERKMALSEINFÜHRUNG.............. 190<br />
ANHANG C: PROGRAMMCODE ................................................................................ 194<br />
C.1 Der Segmentierer ..................................................................................................................................... 194<br />
C.2 Der Chart-Parser....................................................................................................................................... 203<br />
C.3 CUF-Programmtext <strong>der</strong> <strong>morphologischen</strong> Grammatik..................................................................... 209<br />
iii
1 Einführung<br />
1.1 Zielsetzung <strong>der</strong> Arbeit<br />
Kapitel 1: Einführung<br />
Das Ziel <strong>der</strong> vorliegenden Arbeit besteht ganz allgemein darin, Architekturprinzipien eines<br />
Paradigmas <strong>der</strong> Informatik und neueren Computerlinguistik mit Theorien und Resultaten<br />
<strong>der</strong> generativen Grammatik in Verbindung zu bringen, um auf diese Weise einen neuen Ansatz<br />
zur Lösung von Problemen zu entwickeln, mit denen sich die Computerlinguistik beschäftigt.<br />
Konkret geht es um den Problemkreis <strong>der</strong> maschinellen <strong>morphologischen</strong> <strong>Analyse</strong><br />
natürlicher Sprache, d.h. um die Entwicklung von Verfahren, die Wörter in ihre kleinsten<br />
Bestandteile zerlegen, um ihre syntaktischen und semantischen Eigenschaften zu bestimmen.<br />
Diese Art <strong>der</strong> <strong>Analyse</strong> ist erst relativ spät in das Zentrum <strong>des</strong> computerlinguistischen Interesses<br />
gerückt, was sich sicher auf die vorherrschende Stellung <strong>des</strong> Englischen in diesem Bereich<br />
und <strong>des</strong>sen wenig ausgeprägte Oberflächenmorphologie zurückführen läßt. Konsequenterweise<br />
wurden morphologische Regularitäten dadurch abgebildet, daß man sie „mit<br />
Silikon bewarf", wie es An<strong>der</strong>son (1988) pointiert formuliert hat – sie also überhaupt nicht<br />
berücksichtigte und sog. Vollformenlexika verwendete, somit Lexika, die alle flektierten Formen<br />
einer bestimmten Grundform enthalten und <strong>der</strong>en morphosyntaktische Merkmale verzeichnen.<br />
Die <strong>Analyse</strong>verfahren waren dementsprechend einfach und beschränkten sich im<br />
Grunde auf einen reinen Lexikonzugriff, um die Wortform aufzufinden und <strong>der</strong>en relevante<br />
Merkmale zu erhalten. Da im Zuge <strong>der</strong> internationalen Ausbreitung <strong>der</strong> Computerlinguistik<br />
auch an<strong>der</strong>e Sprachen, darunter auch solche mit ausgeprägteren <strong>morphologischen</strong> Phänomen,<br />
einer <strong>Analyse</strong> mit dem Computer zugänglich gemacht werden sollten, ergab sich jedoch<br />
die Notwendigkeit, bei <strong>der</strong> Merkmalsbestimmung von Wortformen mit Hilfe <strong>der</strong> offenkundigen<br />
und in je<strong>der</strong> Grammatik verzeichneten Regeln <strong>der</strong> Flexion und Wortbildung<br />
diese Formen in ihre Bestandteile zu zerlegen.<br />
Vollformenlexika sind folglich aus min<strong>des</strong>tens zwei Gründen inadäquat. Aus technischer<br />
Sicht führen Vollformen eine erhebliche Redundanz in die Sprachbeschreibung ein, da an<br />
sich vorhersagbare Informationen an vielen Stellen im Lexikon dupliziert werden müssen.<br />
Zum einen hat das seinen Grund darin, daß die Anzahl <strong>der</strong> flektierten Formen einer Grundform<br />
gegenüber dieser um Größenordnungen höher sein kann. In mild flektierenden Sprachen<br />
wie dem <strong>Deutschen</strong> hält sich diese noch in Grenzen, wobei sich jedoch im Verbbereich<br />
einige Dutzend Flexionsformen zu einem einzelnen Verb wie beispielsweise singen bilden<br />
lassen. In an<strong>der</strong>en Sprachen wie dem Finnischen wird das Problem jedoch deutlicher, da<br />
finnische Verben bis zu 15.000 verschiedene Formen aufweisen können (nach Karlsson<br />
(1986)). In solchen Sprachen erreicht ein hinreichend großes Lexikon Dimensionen, die auch<br />
mo<strong>der</strong>ne Computer an die Grenzen ihrer Kapazität stoßen lassen. Zum an<strong>der</strong>en verzeichnet<br />
das Lexikon üblicherweise nicht nur morphosyntaktische Merkmale wie Person, Numerus,<br />
Tempus etc. zu den enthaltenen Einträgen, son<strong>der</strong>n auch Angaben zum syntaktischen und<br />
semantischen Verhalten <strong>der</strong> Form, beispielsweise in Form eines Subkategorisierungsrahmens<br />
mit thematischen Rollen und Kasuszuweisungseigenschaften. Flexionsparadigmen<br />
sind nun gerade dadurch definiert, daß alle in ihnen enthaltenen Formen über eine annähernd<br />
gleiche Bedeutung verfügen, diese aber in einem Vollformenlexikon je<strong>der</strong> Form erneut<br />
zugeordnet werden muß.<br />
1
Kapitel 1: Einführung<br />
Dies führt über zum zweiten Grund <strong>der</strong> Inadäquatheit dieses Lexikontyps, <strong>der</strong> linguistischer<br />
Natur ist. Die Regelgeleitetheit vieler morphologischer Phänomene, also die Abhängigkeit<br />
bestimmer Formen untereinan<strong>der</strong>, geht in dieser Konzeption verloren.<br />
Das Alternativmodell hierzu, das sog. Grundformenlexikon, vermeidet diese Probleme. Bei<br />
diesem Typ von Lexikon definiert man für jede Wortart ausgezeichnete Grundformen, die<br />
man im Lexikon zusammen mit Informationen über <strong>der</strong>en Kombinierbarkeit mit Flexionsaffixen<br />
u.ä. verzeichnet. Die Grundbedingung ist, daß sich mit Hilfe <strong>der</strong> Grundform und <strong>der</strong><br />
Zusatzinformationen alle flektierten Formen und nur diese gewissermaßen »errechnen« lassen.<br />
Umgekehrt soll von einer konkreten Wortform auf ihre Grundform und <strong>der</strong>en Merkmale<br />
geschlossen werden können. Es ist einleuchtend, daß ein solches System von den <strong>morphologischen</strong><br />
Regelmäßigkeiten <strong>der</strong> betreffenden Sprache in irgendeiner Weise Gebrauch<br />
machen muß, auch wenn dies auf sehr verschiedene Weise geschehen kann. Die hierbei gewählten<br />
Ansätze, von denen einige in Abschnitt 1.2 etwas detaillierter behandelt werden,<br />
lassen sich jedoch alle in das auch an an<strong>der</strong>en Stellen nützliche Spektrum zwischen Deklarativität<br />
und Prozeduralität einordnen.<br />
Grundformenlexika stellen nun zwar einen Fortschritt gegenüber <strong>der</strong> Verzeichnung aller<br />
Formen eines Wortes dar, weisen jedoch noch einige Mängel auf, auf die ich allerdings erst<br />
im 4. Kapitel zu sprechen kommen werde.<br />
Das Ziel dieser Arbeit ist es, ein Modell eines Programms zur <strong>morphologischen</strong> <strong>Analyse</strong> zu<br />
entwickeln und zu implementieren. Dieses soll auf einer ebenfalls zu entwickelnden Lexikonkonzeption<br />
beruhen, welche geeignet ist, morphologische Regularitäten konzis und elegant<br />
abzubilden. Das Gesamtprogramm soll so angelegt sein, daß es in einen größeren Systemzusammenhang<br />
eingebunden ist und folgende Aufgaben wahrnehmen kann:<br />
� Deflexion<br />
� De-Derivation und Dekomposition<br />
� Lexikalische Akquisition und morphologisches Lernen<br />
Auf den ersten Punkt <strong>der</strong> Deflexion bin ich schon im Kontext <strong>der</strong> Vollformenlexika eingegangen.<br />
Es geht hierbei um die Reduktion einer im Text erscheinenden Wortform auf eine<br />
Grundform, von <strong>der</strong> vorausgesetzt wird, daß sie im Lexikon verzeichnet ist, zum Zwecke<br />
<strong>der</strong> Bestimmung <strong>der</strong> für die Syntax relevanten Merkmale <strong>der</strong> Form.<br />
Die zweite Aufgabe <strong>des</strong> Morphologiesystems ist, den produktiven Wortbildungsprozessen<br />
<strong>der</strong> Komposition und Derivation im <strong>Deutschen</strong> gerecht zu werden, bei denen neue Wörter<br />
in regelgeleiteter Weise auf <strong>der</strong> Grundlage bereits bekannter Bestandteile gebildet werden.<br />
Auch hier wird davon ausgegangen, daß diese Bestandteile im Lexikon <strong>des</strong> Systems enthalten<br />
sind.<br />
Der dritte Punkt schließlich betrifft die Strategien, die gewählt werden können, falls die bei<br />
den beiden vorangegangen Punkten gefor<strong>der</strong>te Bedingung <strong>des</strong> Enthaltenseins aller Bestandteile<br />
im Lexikon nicht mehr eingehalten werden kann. Es geht also um Methoden, wie die<br />
Arbeit <strong>des</strong> <strong>Analyse</strong>programms auch dann fortgesetzt werden kann, wenn Teile einer Wortform<br />
unbekannt sind. Darüber hinaus soll versucht werden, unter Ausnutzung sprachlichen<br />
Wissens über Bildungsregelmäßigkeiten von komplexen Wörtern ein Maximum an Information<br />
über solche Formen zu erschließen und für an<strong>der</strong>e Systemkomponenten verwertbar<br />
zu machen. Aus Gründen <strong>der</strong> Beschränkung werden allerdings hierbei nur Informationen<br />
verwendet, die auf <strong>der</strong> Wortebene verfügbar sind, d.h. Informationen aus dem syntaktischen,<br />
semantischen und pragmatischen Kontext <strong>des</strong> ganz bzw. teilweise unbekannten<br />
Wortes werden nicht berücksichtigt. Beabsichtigt ist, daß die Morphologiekomponente eine<br />
2
Kapitel 1: Einführung<br />
Reihe von alternativen Interpretationen erzeugt, die Eingabe <strong>der</strong> an<strong>der</strong>en Systemkomponenten<br />
sind.<br />
Nachdem die Funktionalität <strong>des</strong> <strong>Analyse</strong>modells in grober Form festgelegt ist, möchte ich<br />
noch einige Worte zu den Prinzipien sagen, an denen sich das Modell orientiert. Diese sind:<br />
� Typisierung und Vererbung<br />
� Einbeziehung generativer Wortstrukturtheorien.<br />
Die Prinzipien <strong>der</strong> Typisierung und Vererbung, die in Kapitel 2 näher vorgestellt werden,<br />
sind wichtige Elemente im Paradigma <strong>der</strong> sog. Objektorientierung. Dieser Begriff spielt in <strong>der</strong><br />
theoretischen und angewandten Informatik mittlerweile eine wichtige Rolle 1 und kann unter<br />
zwei verschiedenen Blickwinkeln gesehen werden. Einmal bezieht er sich auf Objektorientierung<br />
auf <strong>der</strong> Implementationsseite, also auf eine bestimmte Technik <strong>des</strong> Softwareentwurfs,<br />
die für sich in Anspruch nimmt, einen verbesserten Beitrag zur Wie<strong>der</strong>verwendbarkeit,<br />
Erweiterbarkeit etc. von Softwareprodukten zu machen. Dieser Aspekt ist für die Modellbildung<br />
innerhalb <strong>der</strong> Linguistik jedoch nicht so interessant. Wichtiger in diesem Zusammenhang<br />
ist die Objektorientierung auf <strong>der</strong> Ebene <strong>der</strong> Beschreibung. Hierbei wird versucht,<br />
schon bei <strong>der</strong> Konstruktion eines Modells einer bestimmten Domäne Datenelemente und<br />
Operationen zu einer syntaktischen Einheit zusammenzufassen. Möchte man ein Realsystem<br />
(beispielsweise ein Unternehmen) und die Beziehungen seiner Subsysteme untereinan<strong>der</strong><br />
innerhalb eines Computermodells abbilden (z.B. im Rahmen eines betrieblichen Führungssystems),<br />
so liegt es auf <strong>der</strong> Hand, diese Subkomponenten und <strong>der</strong>en interne Zustände als<br />
die Objekte auf <strong>der</strong> Modellebene anzusehen.<br />
Im Bereich <strong>der</strong> Linguistik liegt es nun nahe, die Wörter 2 einer Sprache und die daraus aufgebauten,<br />
komplexeren Strukturen als die relevanten Objekte <strong>der</strong> Beschreibungsebene zu rekonstruieren.<br />
Wörter legen ein bestimmtes syntaktisches und semantisches Verhalten an den<br />
Tag und haben einerseits idiosynkratische, an<strong>der</strong>erseits aber auch vorhersagbare Eigenschaften.<br />
Faßt man diese Eigenschaften zu einer Einheit zusammen, so hat dies zum einen<br />
den Vorteil, daß damit die Informationen, die das Wort charakterisieren, an einer einzigen<br />
Stelle im Modell, <strong>der</strong> diesem Wort zugeordneten Klasse, repräsentiert sind. Möchte man<br />
dann eine <strong>der</strong> Eigenschaften eines Wortes än<strong>der</strong>n, so muß man das nur an einer Stelle tun.<br />
Zum an<strong>der</strong>en ist durch ein solches Wort-Objekt die Gesamtheit <strong>der</strong> zu beschreibenden Eigenschaften<br />
eines Wortes gegeben, und nicht nur die häufig im Vor<strong>der</strong>grund stehenden syntaktischen<br />
Eigenschaften. Ein Parsing-Verfahren, also ein Verfahren, welches die strukturellen<br />
Beziehungen von syntaktischen Symbolen (z.B. Wörtern o<strong>der</strong> Morphemen) untereinan<strong>der</strong><br />
maschinell rekonstruiert, kann hierbei schon beim Aufbau von Strukturen an<strong>der</strong>e Informationsquellen<br />
(Semantik, Weltwissen etc.) nutzen und dadurch im Falle mehrdeutiger Strukturzuweisung<br />
fundiertere Entscheidungen treffen.<br />
Das Ziel objektorientierter Konzeptionen in <strong>der</strong> Sprachverarbeitung ist es somit, einen Beitrag<br />
zur Integration verschiedener sprachlicher und nichtsprachlicher Informationsquellen<br />
(Morphologie, Syntax, Semantik, Pragmatik) zu leisten und diese nicht in <strong>der</strong> sonst üblichen<br />
1 Objektorientierung wird beispielsweise diskutiert im Bereich <strong>der</strong> Wissensrepräsentation (Frame-basierte<br />
Systeme), Datenbanken (objektorientierte Datenbanken), Programmiersprachen, Aktorensysteme<br />
usw.<br />
2 Das hier vorgestellte Modell setzt noch eine Ebene tiefer an, nämlich auf <strong>der</strong> Ebene <strong>der</strong> Morph(em)e.<br />
Mehr dazu findet sich in Kapitel 4.<br />
3
Kapitel 1: Einführung<br />
Weise als relativ von einan<strong>der</strong> unabhängige Systeme aufzufassen; 3 man kann daher auch<br />
von datenseitiger Integration dieser Systeme auf <strong>der</strong> Wortebene sprechen.<br />
Das an<strong>der</strong>e Entwurfsprinzip betrifft die linguistische Seite <strong>der</strong> Aufgabenstellung. Bei <strong>der</strong><br />
Konzeption <strong>des</strong> <strong>Analyse</strong>modells für zusammengesetzte Wörter im <strong>Deutschen</strong> versuche ich,<br />
intensiven Gebrauch von generativen Theorien <strong>der</strong> Wortbildung und Flexion zu machen.<br />
Diese Theorien haben in den letzten zehn Jahren mit Selkirk (1982), Höhle (1982), Toman<br />
(1987), Bierwisch (1989), Pustejovsky (1995) u.a. einen gewissen Reifegrad und ein damit<br />
verbundenes Beschreibungs- und Erklärungspotential erreicht, daß es ignorant wäre, von<br />
diesen Erkenntnissen keinen Gebrauch zu machen. Ich werde im Kapitel 5 zeigen, daß sich<br />
die Leistungsfähigkeit einer Morphologiekomponente durch Nutzung generativer Ideen<br />
beträchtlich steigern läßt.<br />
1.2 Vorarbeiten und verwandte Arbeiten zur Computer-Morphologie<br />
Dieser Abschnitt ist <strong>der</strong> kritischen Beleuchtung einiger Arbeiten gewidmet, die im weitesten<br />
Sinne als Vorarbeiten gelten können. Zunächst sei das seit Mitte <strong>der</strong> achtziger Jahre einflußreichste<br />
Computermodell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> vorgestellt. Anschließend wende<br />
ich mich einigen Arbeiten zur sog. Lemmatisierung zu, einem Problemkreis, <strong>der</strong> im deutschen<br />
Sprachraum in den 70iger Jahren einige Anstrengungen hervorgerufen hat. Zum Schluß<br />
möchte ich noch auf die Arbeit von Daelemans (1987) zu sprechen kommen, da diese die<br />
einzige mir bekannte Arbeit ist, die versucht, morphologische <strong>Analyse</strong> und Objektorientierung<br />
zusammenzuführen.<br />
1.2.1 Two-Level-Morphologie und ihre Vorläufer<br />
Der erste, <strong>der</strong> sich meines Wissens mit einem universellen, also sprachunabhängigen Modell<br />
<strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> beschäftigte, war Martin Kay (1977). Das Herzstück seines<br />
<strong>Analyse</strong>modells bildet ein Chart-Parser 4 , <strong>der</strong> im Verlauf <strong>der</strong> <strong>Analyse</strong> aufgrund von Regeln,<br />
die <strong>der</strong> generativen Phonologie (vgl. Chomsky/Halle (1968)) entlehnt sind, Kanten in seinen<br />
Chart aufnimmt. Ein Beispiel soll dies verdeutlichen (nach Kay (1977:141)):<br />
y<br />
t r i e d<br />
i<br />
+<br />
e<br />
Abb. 1.1: Chart für die Deflexion von "tried"<br />
3 Wie dies beispielsweise die meisten theoretischen Modelle <strong>der</strong> Sprachkompetenz (z.B. Chomsky<br />
(1981)) aus verständlichen methodologischen Gründen tun.<br />
4 Eine ausführliche Charakterisierung <strong>des</strong> Chart-Parsings gibt beispielsweise Kay (1980).<br />
4<br />
+<br />
e<br />
e<br />
d<br />
d
Kapitel 1: Einführung<br />
Der Chart besteht vor <strong>der</strong> <strong>Analyse</strong> nur aus den "trivialen" Kanten, die die Buchstaben <strong>des</strong> zu<br />
analysierenden Wortes verbinden. Im Verlauf <strong>der</strong> <strong>Analyse</strong> werden aufgrund <strong>der</strong> quasi-phonologischen<br />
Regel<br />
(1) ied� � y + ed�<br />
(� steht für ein Leerzeichen, also für das Wortende) weitere Kanten in den Chart eingeführt.<br />
Integriert in dieses Modell ist eine ökonomische Lexikonorganisation und ein Mechanismus,<br />
<strong>der</strong> die Anwendungsreihenfolge <strong>der</strong> Regeln <strong>der</strong> obengenannten Art regelt. 5<br />
Festzuhalten bleibt, daß dieser Ansatz wohl eher theoretisch als praktisch erfolgreich war; er<br />
war jedoch <strong>der</strong> erste, dem es gelang, ein deklaratives Moment, das aber prozedural interpretiert<br />
werden kann, in die morphologische Beschreibung einzuführen.<br />
Eine weitere Verbesserung morphologischer <strong>Analyse</strong>methoden bedeutete die Einführung<br />
<strong>der</strong> sog. Two-Level-Morphology durch Koskenniemi (1983), seinerzeit beeinflußt von unveröffentlichte<br />
Ideen von M. Kay und R. Kaplan, die erst 1994 in Druck gingen (Kaplan/Kay<br />
(1994)). Ausgehend von einer kurz angedeuteten Idee in Kay (1982) 6 verwendet Koskenniemi<br />
ebenfalls endliche, überführende Automaten (sog. Transducer) 7 , läßt diese jedoch nicht<br />
seriell wie Kay, son<strong>der</strong>n parallel operieren. Die <strong>der</strong> seriellen Transducer-Komposition eigenen<br />
expliziten o<strong>der</strong> impliziten Zwischenbän<strong>der</strong>, die jeweils nach <strong>der</strong> Anwendung einer Regel<br />
gebildet werden, fallen hierbei fort, somit auch das Problem <strong>der</strong> Regelanordnung. Es gibt<br />
nur zwei Bän<strong>der</strong>, dasjenige mit <strong>der</strong> Oberflächenform und dasjenige mit <strong>der</strong> zugrundeliegenden<br />
lexikalischen Form (durch Pluszeichen verbundene Morpheme); das parallele Operieren<br />
<strong>der</strong> jeweils für einzelne Regeln stehenden Transducer legt die Beziehungen o<strong>der</strong> auch<br />
Abweichungen fest, die zwischen den beiden Bän<strong>der</strong>n vorliegen dürfen. Koskenniemi geht<br />
jedoch zunächst nicht von Transducern, son<strong>der</strong>n von einer Regelnotation aus, die erst später<br />
als Transducer abgebildet wird. Eine Two-Level-Regel hat die folgende Form:<br />
a:b op LC __ RC<br />
5 Die phonologische Konzeption von Chomsky/Halle (1968) macht ähnlich <strong>der</strong> generativen Syntaxtheorie<br />
Gebrauch von verschiedenen Beschreibungsebenen, die über Transformationen miteinan<strong>der</strong><br />
in Bezug gesetzt werden. Ähnlich wie in <strong>der</strong> Syntax stellt sich jedoch das Problem, in welcher Reihenfolge<br />
die Transformationsregeln bei <strong>der</strong> Ableitung <strong>der</strong> Oberflächenstruktur angewandt werden sollen.<br />
Dieses Problem ist bedeutsam für das weiter unten dargestellte Two-Level-Modell von Koskenniemi<br />
(1983).<br />
6 Kay (1982) schlägt vor, die einzelnen phonologischen Regeln als Transducer aufzufassen, die jeweils<br />
Beschränkungen zwischen <strong>der</strong> Oberflächenform und <strong>der</strong> zugrundeliegenden lexikalischen Form (den<br />
beiden Bän<strong>der</strong>n <strong>des</strong> Transducers) abbilden. Das oben erwähnte Problem <strong>der</strong> Reihenfolge <strong>der</strong> Regelanordnung<br />
könnte durch eine festgelegte Kaskadierung <strong>der</strong> einzelnen Transducer gelöst werden. Da ein<br />
Theorem <strong>der</strong> Automatentheorie besagt (vgl. Reape/Thomson (1988)), daß eine Menge via Komposition<br />
verknüpfter endlicher Transducer äquivalent zu einem einzigen Transducer ist, ist es möglich, die<br />
Transducer-Kaskade durch einen einzigen Automaten zu ersetzen, <strong>der</strong> dann den bekannten Optimierungsverfahren<br />
für endliche Automaten (Zustandsminimierung) zugänglich ist.<br />
7 Formal ist ein Transducer ein 6-Tupel (Q, �, �, �, q0, F ), bei dem Q, q0 und F wie bei einem endlichen<br />
Automaten sind. � und � bilden die Alphabete <strong>der</strong> beiden Bän<strong>der</strong>, während � eine Abbildung von<br />
Q × (� � {�}) auf endliche Teilmengen von Q � � * realisiert. Man kann sich die Funktionsweise eines<br />
Transducers so vorstellen, daß er in einem Zustand Q i einer Kante, die mit einem Symbol aus � � {�}<br />
etikettiert ist, in einen Zustand Q j folgt und dabei einen String aus � * ausgibt.<br />
5
Kapitel 1: Einführung<br />
wobei a und b Alphabetsymbole <strong>der</strong> beiden Bän<strong>der</strong> sind, op aus <strong>der</strong> Menge { �, �, � } ist<br />
und LC und RC den linken bzw. rechten Kontext <strong>des</strong> durch __ veranschaulichten Symbolpaares<br />
auf <strong>der</strong> linken Regelseite bildet. Bei <strong>der</strong> Notation <strong>der</strong> Kontexte kann von Verkettung,<br />
Disjunktion und Kleene-Stern Gebrauch gemacht werden. Als Beispiel für eine konkrete Regel<br />
gebe ich eine Regel für das Englische wie<strong>der</strong> (vgl. Ritchie et al. (1992:152)):<br />
(2) +:e � { s:s x:x z:z } __ s:s<br />
Diese Regel, die die Bildung <strong>des</strong> Plurals von englischen Nomen beschreibt, besagt, daß ein +<br />
auf dem Lexikonband mit einem e auf dem Oberflächenband korrespondiert, gdw. es zwischen<br />
dem angegebenen linken Kontext (geschweifte Klammern stehen dabei für Disjunktion,<br />
eckige für Optionalität) und dem Symbol s auf dem Oberflächenband steht. Das Symbol<br />
+ steht für ein Morphemverknüpfungszeichen auf dem lexikalischen Band. Diese Regel<br />
leistet also einen Teil <strong>des</strong>sen, was die weiter oben wie<strong>der</strong>gegebene Regel von Kay leistet. Die<br />
Semantik <strong>der</strong> Operatoren � , � und � ist in Tabelle 1.1 wie<strong>der</strong>gegeben (vgl. Ritchie et al.<br />
(1992:26f)):<br />
� Context Restriction Das Symbolpaar links vom Operator kann nur in den rechts davon<br />
angegebenen Kontexten stehen.<br />
� Surface Coercion Ist <strong>der</strong> Kontext wie rechts angegeben und befindet sich das erste<br />
Symbol <strong>des</strong> Paares links auf dem Lexikonband, dann muß sich<br />
das zweite Paarsymbol auf dem Oberflächenband befinden.<br />
� Composite Bezeichnet die Kombination von � und �.<br />
Tabelle 1.1: Mögliche Operatoren in Two-Level-Regeln<br />
Der in <strong>der</strong> Regel verwendete �-Operator besagt also beispielsweise, daß, falls <strong>der</strong> angegebene<br />
Kontext vorliegt, das Paar +:e sich auf den beiden Bän<strong>der</strong>n befinden muß und umgekehrt,<br />
wenn das Paar +:e vorliegt, <strong>der</strong> Kontext so wie angegeben beschaffen sein muß.<br />
Eine Beson<strong>der</strong>heit <strong>des</strong> Modells ist sein relationaler Charakter, also die Nichtdirektionalität<br />
<strong>der</strong> beiden Bän<strong>der</strong>. Es kann daher sowohl für die <strong>Analyse</strong> von Oberflächenformen in Morphemfolgen<br />
als auch für die Generierung von Oberflächenformen aus Morphemfolgen eingesetzt<br />
werden. Im Ansatz von Koskenniemi (1983) werden diese Regeln anschließend von<br />
Hand in parallelgeschaltete Transducer umgesetzt; Koskenniemi (1986) schlägt hierzu einen<br />
Regelcompiler vor. Ritchie et al. (1992:150ff) gehen einen etwas an<strong>der</strong>en Weg und erzeugen<br />
speziell interpretierte Automaten, um die zahlreichen Automatenübergänge zu vermeiden,<br />
die nur dazu dienen, einen „Neustart“ je<strong>der</strong> TL-Regel zu ermöglichen, solange noch ihr linker<br />
Kontext abgearbeitet wird. Nach <strong>der</strong> Compilierung von obiger Beispielregel (2) resultiert<br />
beispielsweise <strong>der</strong> in Abbildung 1.2 wie<strong>der</strong>gegebene Automat (aus Ritchie et al. (1992:154)):<br />
s1<br />
s:s<br />
c:c<br />
z:z<br />
x:x<br />
LICENCE TERMINAL<br />
s:s<br />
s3<br />
+:e<br />
s4<br />
s:s<br />
s5<br />
s2<br />
h:h<br />
+:0<br />
s6<br />
6<br />
s:s<br />
ERROR<br />
Abb. 1.2: Korrespondieren<strong>der</strong> Automat zu Regel (2) (unter einem speziellen Interpretationsalgorithmus)
Kapitel 1: Einführung<br />
Verbunden ist diese Konzeption mit einer bestimmten Lexikonorganisation. Das gesamte<br />
Lexikon wird in mehrere Teillexika aufgeteilt, die aufgrund einer durch das morphosyntaktische<br />
Verhalten <strong>der</strong> verschiedenen Morpheme definierten Äquivalenzrelation gebildet werden.<br />
Zu jedem Morphem im Lexikon wird notiert, welche Morphemklassen ihm in <strong>der</strong><br />
Wortstruktur folgen können, also beispielsweise, welche Flexionsendungen nach einem bestimmten<br />
Stamm erlaubt sind. Hieraus ergibt sich implizit eine reguläre Grammatik, die die<br />
Kombinierbarkeit <strong>der</strong> Morpheme auf dem Lexikonband zusätzlich restringiert.<br />
Die Two-Level-Morphology ist für eine ganze Reihe von Sprachen implementiert worden,<br />
neben Finnisch und Englisch auch für „exotische“ Sprachen wie Altkirchenslawisch. Der<br />
Umfang <strong>der</strong> Regelmenge liegt dabei nach Koskenniemi/Church (1988:336) zwischen sieben<br />
(Englisch) und vierzig (klassisches Griechisch). Interessanterweise ist Deutsch bei den üblicherweise<br />
in <strong>der</strong> Literatur angeführten Sprachen nicht dabei. Das Two-Level-Modell ist<br />
wohl auch entgegen den Behauptungen <strong>des</strong> Autors kein Universalmodell, son<strong>der</strong>n vor allem<br />
aufgrund <strong>des</strong> Folgelexikamechanismus dafür geschaffen, die <strong>morphologischen</strong> Phänomene<br />
von sprachtypologisch gesehen agglutinierenden Sprachen wie Finnisch und Türkisch zu<br />
beschreiben. Bei diesen Sprachen gibt es eine 1-zu-1-Beziehung zwischen Morphem(kette)<br />
und Morphembedeutung, wobei die quasi-phonologischen Regeln (quasi, weil es ja Regeln<br />
sind, die auf <strong>der</strong> Orthographie beruhen, die erheblich von <strong>der</strong> Aussprache abweichen kann)<br />
nur noch gewisse Anpassungen bei <strong>der</strong> Juxtaposition <strong>der</strong> Morpheme vornehmen<br />
(beispielsweise Prozesse <strong>der</strong> Vokalharmonie). Wichtig ist hierbei, daß die Anwendung einer<br />
Regel nur durch das Symbolpaar links vom Operator und den linken und rechten Kontext<br />
determiniert wird. An<strong>der</strong>e Indizien können hierzu nicht herangezogen werden. Das Deutsche,<br />
als eine flektierend-fusionierende Sprache kennt jedoch nicht so viele Prozesse, die sich<br />
auf rein phonologische Gründe zurückführen lassen. Vielmehr ist die Wahl bestimmter<br />
Morpheme in vielen Fällen lexikalisch determiniert, beispielsweise bei Nomen die Wahl <strong>des</strong><br />
Pluralmorphems durch die Flexionsklasse <strong>des</strong> Nomens. Ebenso müssen Umlautungen bei<br />
<strong>der</strong> Pluralbildung von Nomen im entsprechenden Lexikoneintrag verzeichnet sein, vgl.<br />
Wald – Wäl<strong>der</strong>, Hund – Hunde, ähnliches gilt für die Wahl <strong>des</strong> Fugenmorphems bei Komposita,<br />
welches vom Vor<strong>der</strong>glied determiniert wird (vgl. Fanselow (1981:10f)). 8 Insbeson<strong>der</strong>e<br />
sind bestimmte Endungen bedeutungsmäßig überladen, wie umgekehrt ein bestimmtes<br />
Merkmal wie Plural auf sehr verschiedene Weise realisiert werden kann. Was <strong>der</strong> Two-<br />
Level-Morphology m. a. W. fehlt ist die Einbeziehung von morphosyntaktischen Bedingungen<br />
und Merkmalen in den <strong>Analyse</strong>prozeß <strong>der</strong> Transducer. Im Finnischen liegen diese Informationen<br />
in indirekter Weise über die wechselseitige Abhängigkeit <strong>der</strong> Merkmale und<br />
die sie realisierenden Morpheme vor, doch ist dies eher als ein Spezialfall <strong>der</strong> Ausbuchstabierung<br />
morphologischer Merkmale aufzufassen. Dieser Mangel wurde wohl auch schon<br />
von Koskenniemi erkannt, da bestimmte Irregularitäten <strong>des</strong> Finnischen durch die Einführung<br />
arbiträrer diakritischer Zeichen auf <strong>der</strong> Lexikonbandebene aufgelöst wurden. Einige<br />
<strong>der</strong> Two-Level-Regeln nehmen dann auf diese Zeichen Bezug. Man kann dagegen einwenden,<br />
und dies ist auch getan worden, vgl. Bear (1988), daß hiermit Dinge zusammengewürfelt<br />
werden, die nicht zusammengehören und sich damit die Formulierung <strong>der</strong> Regeln kompliziert<br />
hat.<br />
8 Natürlich gibt es auch im <strong>Deutschen</strong> rein lautliche Modifikationen. Kandidaten für Two-Level-Regeln<br />
im <strong>Deutschen</strong> sind beispielsweise e-Erweiterung, e-Tilgung, e/i-Wechsel und Konsonantenwechsel<br />
bei <strong>der</strong> Verbkonjugation. Allerdings hängen diese Modifikationen häufig auch von syntaktischen<br />
Merkmalen ab: e/i-Wechsel betrifft beispielsweise die 2. und 3. Pers. Sing. Präs. Ind. und den Imp.<br />
Sing.<br />
7
Kapitel 1: Einführung<br />
Es gibt nun einige Ansätze, die sich dieser Probleme annehmen: Bear (1988) schlägt vor, bestimmte<br />
Irregularitäten <strong>des</strong> Englischen (beispielsweise ist <strong>der</strong> Plural von piano pianos und<br />
nicht pianoes.) dadurch in den Two-Level-Mechanismus zu integrieren, daß man Son<strong>der</strong>fälle<br />
dieser Art explizit im Lexikon mit einem Merkmal markiert, so daß die normalerweise angewendete<br />
Pluralregel von Nomen auf -o (o + s � oes) nicht anwendbar ist. Trost (1990) setzt<br />
hierauf auf, ersetzt jedoch das prozedural interpretierte Regelmerkmal durch eine Unifikation<br />
<strong>der</strong> bis dahin aufgebauten Merkmalsstruktur für die Syntax <strong>des</strong> analysierten Wortes mit<br />
einem <strong>der</strong> Two-Level-Regel zugeordneten Filterterm. Gelingt diese Unifikation, so kann die<br />
Regel angewendet werden. Ist beispielsweise ein Nomen mit [Umlaut: +] für die Pluralbildung<br />
markiert, so wird nur die Two-Level-Regel verwendet, die ebenfalls mit [Umlaut: +]<br />
attribuiert ist.<br />
Eine an<strong>der</strong>e Richtung für Probleme dieser Art schlagen Karttunen et al. (1992) ein: Sie schlagen<br />
vor, die <strong>morphologischen</strong> Merkmale von Morphemen nicht in einem Lexikoneintrag zu<br />
halten, son<strong>der</strong>n direkt auf das Lexikonband <strong>des</strong> Two-Level-Modells zu schreiben. Man<br />
würde dann beispielsweise auf dem Lexikonband nicht mehr try+s stehen haben, son<strong>der</strong>n<br />
try+3pers+sing. Auf diese Weise würde auch mit allomorphen Varianten verfahren werden.<br />
Der "Abstand" zwischen Oberflächen- und Lexikonband würde damit zwar vergrößert,<br />
die Autoren meinen jedoch, durch Komposition <strong>der</strong> Two-Level-Transducer mit dem gesamten<br />
Lexikon unter Vermittlung entsprechen<strong>der</strong> Zwischenbän<strong>der</strong> die Größe <strong>des</strong> entstehenden<br />
Gesamttransducers in passablen Grenzen zu halten. Details hierzu finden sich in<br />
Karttunen et al. (1992) .<br />
Abramson (1992) schlägt vor, die prozedurale Interpretation <strong>der</strong> Two-Level-Regeln als<br />
Transducer außer acht zu lassen und die Regeln vielmehr als deklarativ spezifizierte Relation<br />
zwischen den beiden Bän<strong>der</strong>n aufzufassen. Er veranschaulicht seine Idee durch die Angabe<br />
<strong>der</strong> für das Englische benötigten Two-Level-Regeln als Prolog-Klauseln und überläßt<br />
es dabei dem Prolog-System, den Pfad vom Ausgangszustand in einen Endzustand zu suchen.<br />
Am Ende dieser Übersicht zur Two-Level-Morphology möchte ich noch auf einige Probleme<br />
dieses Modells zu sprechen kommen, die generellerer Natur sind.<br />
� Zuallererst ist es Aufgabe <strong>des</strong> Computerlinguisten, bei <strong>der</strong> Regelspezifikation darauf zu<br />
achten, daß die Regeln nicht in unerwünschter Weise miteinan<strong>der</strong> interagieren. Interaktion<br />
kann auf verschiedene Weise stattfinden; <strong>der</strong> „schlimmste” Fall ist beispielsweise<br />
<strong>der</strong>, wenn in zwei verschiedenen Regeln das gleiche Symbolpaar auftritt, <strong>der</strong> verwendete<br />
Operator « ist und die linken und rechten Kontexte sich gegenseitig ausschließen. Ein<br />
„intelligenter” Regelcompiler wäre zur Vermeidung solcher Fälle nützlich.<br />
� Der zweite Punkt betrifft die implizite reguläre Organisation <strong>des</strong> Lexikons, <strong>der</strong> sog. Folgelexikamechanismus,<br />
<strong>der</strong> zu eng an die Operation <strong>der</strong> Transducer geknüpft ist. Es könnte<br />
sich herausstellen, daß die dem Lexikon implizite reguläre Grammatik zu schwach ist,<br />
um alle <strong>morphologischen</strong> Prozesse aller Sprachen zu beschreiben. Und auch wenn dies<br />
nicht <strong>der</strong> Fall ist, so könnte eine Grammatik stärkeren Typs linguistisch doch transparenter<br />
sein. 9 Auf jeden Fall wäre es besser, den regulären Lexikonmechanismus durch<br />
Angabe einer entsprechenden Grammatik explizit zu machen.<br />
� Drittens überprüfen Transducer auf <strong>der</strong> Grundlage <strong>der</strong> Two-Level-Morphology prinzipiell<br />
nur die Zulässigkeit bzw. Nichtzulässigkeit von bestimmten Morphkombinationen.<br />
9 Eine Analogie zur Satzsyntax sei hier gezogen. Man könnte den beschränkten Charakter <strong>der</strong> Zentraleinbettung<br />
in natürlichen Sprachen beispielsweise durch eine reguläre Grammatik modellieren, die<br />
in die Satzsymbole hinein den Grad ihrer Einbettung kodiert. Die entsprechende kontextfreie Grammatik<br />
für das gleiche Phänomen wäre jedoch um einiges einfacher.<br />
8
Kapitel 1: Einführung<br />
Man kann jedoch <strong>der</strong> Ansicht sein, daß zu semantischen Interpretation von komplexen<br />
Wörtern, insbes. Komposita, auch die Struktur eines Wortes eine Rolle spielt. Der Transducer<br />
operiert hierzu jedoch auf <strong>der</strong> falschen Ebene, da seine Terminalsymbole Grapheme<br />
o.ä. sind, die für die Strukturermittlung auf <strong>der</strong> Ebene <strong>der</strong> Morpheme keine Rolle spielen.<br />
Darüber hinaus sind endliche Automaten bei Zugrundelegung einer rechtslinearen<br />
Grammatik lediglich in <strong>der</strong> Lage, nur rein rechtsverzweigende Strukturen zu erzeugen.<br />
Dies wird jedoch den verschiedenen strukturellen Möglichkeiten innerhalb <strong>der</strong> Komposition<br />
im <strong>Deutschen</strong> nicht gerecht.<br />
� Ein vierter Einwand ist von komplexitätstheoretischer Seite gemacht worden. Barton et al.<br />
(1987) haben durch Reduktion <strong>des</strong> (NP-vollständigen) Erfüllungsproblems für aussagenlogische<br />
Formeln (SAT) auf Automaten <strong>des</strong> Two-Level-Modells gezeigt, daß dieses NPhart<br />
ist. Dies kann im schlechtesten Fall zur Folge haben, daß die <strong>Analyse</strong>zeit eines Two-<br />
Level-Erkennungsproblems exponentiell (o<strong>der</strong> schlechter) von seiner Länge abhängt.<br />
Auch wenn Koskenniemi/Church (1988) auf den artifiziellen Charakter eines SAT-Problems<br />
im Two-Level-Gewand hinweisen, so sollte dieses Resultat doch zu denken geben.<br />
Zum einen gibt es in einigen Sprachen tatsächlich Prozesse, die eine gewisse Ähnlichkeit<br />
mit <strong>der</strong> Belegung <strong>der</strong> aussagenlogischen Variablen mit Wahrheitswerten haben, beispielsweise<br />
Prozesse <strong>der</strong> Vokalharmonie, die über das ganze Wort verlaufen. Zum an<strong>der</strong>en<br />
haben morphologische Phänomene in natürlichen Sprachen anscheinend Beson<strong>der</strong>heiten,<br />
die exponentielle <strong>Analyse</strong>zeiten bei menschlichen Hörern ausschließen, welche<br />
jedoch nicht im Rahmen <strong>des</strong> Two-Level-Modells ausgedrückt werden können. Die blinde,<br />
kombinatorische Suche, die für das exponentielle Laufzeitverhalten verantwortlich ist,<br />
kommt bei algorithmischen <strong>Analyse</strong>problemen immer nur dann zur Anwendung, wenn<br />
absolut keine lokalen Kriterien zur Verfügung stehen, die bei <strong>der</strong> Lösungsfindung mit<br />
herangezogen werden können.<br />
Zusammenfassend kann man also festhalten, daß das Two-Level-Modell einerseits zu stark,<br />
an<strong>der</strong>erseits auch wie<strong>der</strong>um zu schwach ist (siehe Einwand 2). Sein eklatantester Mangel ist<br />
m.E. jedoch seine Beschränkung auf rein morphographematische Phänomene und damit das<br />
Fehlen je<strong>der</strong> transparenten Interaktion von im Lexikon verzeichneten morphosyntaktischen<br />
Merkmalen mit den Regel-Transducern. Das Ziel meines Modells ist, alle möglichen Informationsquellen<br />
bei <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> auszunutzen, also Lexikon, Satzparser<br />
und Domänenwissen, und auf diese Weise die Beschränkung auf morphographematische<br />
Regularitäten zu überwinden.<br />
1.2.2 Vorarbeiten aus dem Bereich <strong>der</strong> Lemmatisierung<br />
In den siebziger Jahren wurde unter dem Stichwort Lemmatisierung vor allem in <strong>der</strong> Computerlinguistik<br />
im deutschen Sprachraum versucht, die Flexionsmorphologie unter Zugrundelegung<br />
einer prozeduralen Konzeption in einem Computermodell abzubilden. Stellvertretend<br />
für die Vielzahl <strong>der</strong> damaligen Bemühungen seien an dieser Stelle Dietrich (1973),<br />
Eggers et al. (1980), Hoeppner (1980) und Finkler/Neumann (1986) genannt. Zunächst muß<br />
geklärt werden, was unter Lemmatisierung verstanden wird: Lemmatisierung ist die Rückführung<br />
einer Wortform auf ein Lemma. Wortformen können einfache Wörter<br />
(Zeichenfolgen zwischen Leerzeichen) sein, jedoch auch mehrere Wörter umfassen, beispielsweise<br />
im Fall <strong>der</strong> periphrastischen Zeiten im <strong>Deutschen</strong>, wobei die die Wortform konstituierenden<br />
Wörter nicht notwendigerweise kontinuierlich angeordnet sein müssen. Ein<br />
Lemma L wird zunächst einmal verstanden als diejenige Menge von Wortformen w, die alle<br />
eine festgesetzte Menge von Prädikaten P erfüllen, formal:<br />
9
Kapitel 1: Einführung<br />
L = { w | P 1 (w) � P 2 (w) � ... � P n (w) }<br />
Zu klären ist, welcher Art die oben verwendeten Prädikate P i sind. Dietrich (1973:21f) klassifiziert<br />
diese Prädikate in semantische, paradigmatische und strukturale. Paradigmatische<br />
Eigenschaften sind Wortklassenzugehörigkeit und Flexionsklasse, zu den strukturalen zählen<br />
syntaktische Anfor<strong>der</strong>ungen einer Wortform an ihre Umgebung, beispielsweise <strong>der</strong> Valenzrahmen.<br />
Zu unterscheiden ist zwischen dem Lemma und dem Lemmanamen. Das Lemma ist, wie oben<br />
definiert, eine Menge von Wortformen, die in einem bestimmten Verhältnis zueinan<strong>der</strong> stehen.<br />
Als Lemmanamen wählt man meist eine ausgezeichnete, merkmalsmäßig maximal<br />
unmarkierte Form (vgl. Gallmann (1990)) aus dem Lemma, die sog. Zitierform. Ziel <strong>der</strong><br />
Lemmatisierung ist, Wortformen im Text auf diese Zitierform zurückzuführen und gleichzeitig<br />
ihre für die jeweilige Anwendung relevanten Merkmale zu bestimmen. Die hierbei<br />
verwendeten Verfahren sind durchweg operational, d.h. in den <strong>Analyse</strong>mechansimus ist das<br />
sprachliche Wissen über Wortformen, Endungen einer Sprache etc. direkt hineinkodiert.<br />
Typischerweise wird ein Eingabewort von rechts nach links analysiert, wobei im allgemeinen<br />
abwechselnd Endungsgrapheme abgespalten und Lexikonzugriffe durchgeführt werden.<br />
Eine eigene Beschreibungsebene <strong>der</strong> sprachlichen Seite existiert nicht, das fertige Programm<br />
ist die Lemmatisierung. Der Kontrollfluß innerhalb dieses Programms wird üblicherweise<br />
durch Flußdiagramme dargestellt; Abb. 1.3 zeigt einen Ausschnitt aus Dietrich<br />
(1973: 172).<br />
Gegen die vorgeschlagenen Modelle und Methoden <strong>der</strong> Lemmatisierung können eine ganze<br />
Reihe von Einwänden gemacht werden.<br />
Zuallererst wird natürlich die selbst auferlegte Beschränkung auf die Behandlung <strong>der</strong> Flexion<br />
dem prinzipiell offenen Charakter <strong>der</strong> Lexika natürlicher Sprachen nicht gerecht. Verständlich<br />
ist dieses Defizit allerdings vor dem Hintergrund <strong>der</strong> Leistungsfähigkeit damaliger<br />
Rechenanlagen und dem Fehlen jeglicher konkreter Theorien zur Wortbildung.<br />
Ein weiterer Kritikpunkt läßt sich an <strong>der</strong> Prozeduralität <strong>der</strong> postulierten Modelle festmachen.<br />
Auch wenn diese generell begrüßt werden kann – Hockett (1954) hält die prozedurale<br />
Item-and-Process-Konzeption gegenüber dem (deklarativen) Item-and-Arrangement-Modell für<br />
überlegen – so stört doch ihr kaum restringierter Charakter. Wie oben schon beschrieben<br />
bestehen <strong>der</strong>artige <strong>Analyse</strong>verfahren nur aus einer Spezifikation <strong>des</strong> Kontrollflusses während<br />
<strong>der</strong> <strong>Analyse</strong>, <strong>der</strong> üblicherweise in Form eines Flußdiagrammes visualisiert wird. Die Verfahren<br />
selbst rekurrieren dabei nicht auf eine abstrakte Ebene eines <strong>der</strong> bekannten Automatenmodelle,<br />
um beispielsweise generelle Aussagen zur Kapazität und Komplexität zu machen,<br />
son<strong>der</strong>n überspringen diese Zwischenebene und beziehen sich gleich auf die zur Implementierung<br />
<strong>des</strong> Modells verwendeten Programmiersprache (bei den ersten Lemmatisierungsprogrammen<br />
war dies FORTRAN). Da Programmiersprachen dieser Art sämtlich turingmaschinenäquivalent<br />
sind, kommt das <strong>der</strong> Aussage gleich, daß Methoden zur <strong>morphologischen</strong><br />
<strong>Analyse</strong> diese Kapazität zwingend aufweisen müssen. Nun sind nicht wenige Autoren (z.B.<br />
Gazdar (1985)) <strong>der</strong> Ansicht, daß sich die Modelle <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> natürlicher<br />
Sprachen in Form von endlichen Automaten darstellen lassen (vgl. Abschnitt 1.2.1); es stellt<br />
sich also die Frage, warum man dann implizit Turingmaschinen dazu verwendet.<br />
Dem "Überfluß" an Prozeduralität in diesen Modellen steht ein Mangel an Deklarativität<br />
gegenüber. Die Lemmatisierungsalgorithmen <strong>der</strong> 70iger Jahre sind alle dadurch charakterisiert<br />
(vgl. z.B. Dietrichs (1973)), keine Unterscheidung zwischen Daten auf <strong>der</strong> einen Seite<br />
und Verfahren zur Manipulation dieser Daten auf <strong>der</strong> an<strong>der</strong>en Seite vorzunehmen. Dies<br />
führt dazu, daß es nur schwer möglich ist, die spezifizierten Algorithmen für die <strong>Analyse</strong><br />
an<strong>der</strong>er Sprachen zu adaptieren. Darüber hinaus ist es unmöglich, innerhalb <strong>der</strong> Lemmati-<br />
10
Kapitel 1: Einführung<br />
sierungsverfahren ein Kernmodell zu isolieren, daß dann an die Erfor<strong>der</strong>nisse <strong>der</strong> Untersuchung<br />
<strong>der</strong> <strong>morphologischen</strong> Strukturen verschiedener Sprachen angepaßt werden kann.<br />
Diese Lemmatisierungsalgorithmen sind m.a.W. nur auf eine Einzelsprache bezogen und<br />
lassen sich daher nicht als universelles Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> natürlicher<br />
Sprachen ansehen. Vor diesem Hintergrund ist erklärlich, warum das in Abschnitt 1.2.1 vorgestellte<br />
Modell <strong>der</strong> Two-Level-Morphologie theoretisch und auch praktisch so ein großer<br />
Erfolg war. Es ist von hinreichen<strong>der</strong> Einfachheit und Universalität, bezieht Deklaratives in<br />
Form <strong>der</strong> Two-Level-Regeln ein und stützt sich auf ein Automatenmodell, daß hinsichtlich<br />
seiner generativen Kapazität und Komplexität gut untersucht ist. Die traditionellen Lemmatisierungsverfahren<br />
können diese Vorteile nicht für sich in Anspruch nehmen.<br />
Ein letzter Punkt betrifft die Übersichtlichkeit und Verständlichkeit <strong>der</strong> vorgeschlagenen<br />
Methoden. Das Verfolgen <strong>des</strong> Kontrollflusses fällt dem menschlichen Leser bei <strong>der</strong> Komplexität<br />
<strong>der</strong> Lemmatisierungsalgorithmen so schwer, daß es kaum möglich ist, die Richtigkeit<br />
<strong>des</strong> Verfahrens zu überprüfen. Dies ist nun natürlich ein generelles softwaretechnisches<br />
Problem; die Einführung objektorientierter Techniken, d.h. die syntaktische Kopplung von<br />
Daten und auf sie operierenden Prozeduren könnte jedoch in dieser Hinsicht Vorteile erwirken.<br />
Abb. 1.3: Ausschnitt aus dem Lemmatisierungsprogramm von Dietrich (1973)<br />
11
Kapitel 1: Einführung<br />
1.2.3 Die Lemmatisierungskonzeption von Finkler & Neumann (1986)<br />
Während die Arbeiten von Dietrich (1973) u.a. als typische Vertreter <strong>der</strong> Lemmatisierungsansätze<br />
in den 70iger Jahren aufgefaßt werden können, ist die Arbeit von Finkler und<br />
Neumann (1986) charakteristisch für die Auffassung von Lemmatisierung in den Jahren ab<br />
1980; sie soll daher hier kurz vorgestellt werden.<br />
Finkler & Neumann teilen zunächst den Gesamtbestand <strong>des</strong> Lexikons in zwei Teillexika auf.<br />
Das erste dieser Lexika wird Vollformenteil genannt und enthält nicht-endungsflektierende<br />
Wörter. Dazu zählen Wortformen, die überhaupt nicht flektieren (beispielsweise Adverbien,<br />
Präpositionen usw.) und solche, die nicht regelmäßig endungsflektiert sind (z.B. Pronomen,<br />
Artikel). Das zweite Lexikon, <strong>der</strong> sog. Grundformenteil, verzeichnet alle endungsflektierenden<br />
Wörter wie beispielsweise Nomen, Verben, Adjektive u.a.<br />
Der morphologische <strong>Analyse</strong>algorithmus schlägt die ihm übergebene Wortform zuerst einmal<br />
im Vollformenteil nach. Diese Vorgehensweise erspart das aufwendige und nicht von<br />
Erfolg gekrönte Unterfangen, nicht endungsflektierende Wörter einer <strong>Analyse</strong> zu unterziehen.<br />
Wird die Wortform im Vollformenteil gefunden und ist <strong>der</strong> korrespondierende Lexikoneintrag<br />
nicht mit einer speziellen Markierung versehen, die darauf hinweist, daß auch<br />
noch eine zur Vollform homographe endungsflektierende Grundform existiert, so ist <strong>der</strong><br />
<strong>Analyse</strong>prozeß bereits beendet. An<strong>der</strong>nfalls beginnt die Grundformenbehandlung. Hierzu<br />
wird zunächst unter Ausnutzung von Informationen <strong>des</strong> weiter unten beschriebenen Endungsbaumes<br />
das längste Suffix <strong>der</strong> Wortform bestimmt, welches eine potentielle Flexionsendung<br />
<strong>des</strong> Stammes, also <strong>des</strong> verbliebenen Teils <strong>der</strong> Wortform sein kann. Ein Beispiel soll<br />
dies erläutern. Angenommen, die zu analysierende Wortform lautete fliegen. Diese Form<br />
kann unter Vernachlässigung <strong>der</strong> Groß/Kleinschreibung 10 entwe<strong>der</strong> eine Konjugationsform<br />
<strong>des</strong> Verbs fliegen o<strong>der</strong> die Pluralform <strong>des</strong> Nomens Fliege sein. Die oben beschriebene Suffixabspaltung<br />
liefert die Zerlegung (flieg,en), da en die längstmögliche übereinstimmende<br />
und im Endungsbaum verzeichnete Flexionsendung ist. Ausgehend von dieser Zerlegung<br />
werden weitere Zerlegungen konstruiert, die sich aus <strong>der</strong> sukzessiven Vermin<strong>der</strong>ung <strong>der</strong><br />
gefundenen Endung um einen Buchstaben und <strong>des</strong>sen Anhängen an den Stamm ergeben,<br />
im Beispielfall also (fliege,n) und (fliegen,nil). Enthält die zu analysierende Wortform einen<br />
Umlaut, so wird dieser tentativ auf den entsprechenden nichtumgelauteten Vokal reduziert<br />
(beispielsweise ä � a). Anschließend wird noch versucht, ein eventuell vorhandenes Partizip-II-Präfix<br />
(ge-) abzuspalten. Alle auf diese Weise gewonnenen Zerlegungen werden zusammen<br />
mit Informationen über Umlautreduktion und ge-Abspaltung <strong>der</strong> eigentlichen<br />
<strong>Analyse</strong>funktion übergeben, die die morphosyntaktischen Merkmale <strong>der</strong> Wortform bestimmt.<br />
Diese Funktion macht entscheidenen Gebrauch von dem schon mehrfach erwähnten<br />
Endungsbaum, bei dem es sich um einen erweiterten Trie o<strong>der</strong> Buchstabenbaum (vgl. Knuth,<br />
1973) handelt. Die Kanten dieses Endungsbaums sind mit Endungsgraphemen etikettiert,<br />
während einige Baumknoten einen speziellen Informationszeiger (Info-Ptr) enthalten, <strong>der</strong>,<br />
falls die Endungsgrapheme von <strong>der</strong> Wurzel <strong>des</strong> Baumes bis zu diesem Knoten eine zulässige<br />
Flexionsendung ergeben, auf die morphosyntaktischen Merkmale dieser Endung verweist.<br />
Ein Ausschnitt aus dem von Finkler/Neumann verwendeten Endungsbaums ist in Abb. 1.4<br />
10 Die Ausnutzung <strong>der</strong> Schreibung zur Auflösung <strong>der</strong>lei Ambiguitäten ist in ihrer Anwendbarkeit<br />
eingeschränkter, als dies auf den ersten Blick scheinen mag. Genaugenommen können nur Verfahren,<br />
die sich auf reine Deflexion beschränken und alle <strong>Aspekte</strong> <strong>der</strong> Wortbildung außer Acht lassen, dieses<br />
Kriterium heranziehen. Innerhalb von komplexen Wörtern (beispielsweise Komposita) gelten die<br />
Klein- bzw. Großschreibungskonventionen nicht mehr und können also auch nicht ausgenutzt werden.<br />
12
Kapitel 1: Einführung<br />
wie<strong>der</strong>gegeben (zur besseren Lesbarkeit sind die Endungen an den Baumkanten ausgeschrieben;<br />
die Endungen im Baum sind von hinten nach vorne zu lesen):<br />
E<br />
NDE<br />
ERE<br />
ENE<br />
SE<br />
TE<br />
ENDE<br />
NDERE<br />
TERE<br />
ENERE<br />
STE<br />
ETE<br />
13<br />
ENDERE<br />
ETERE<br />
NDSTE<br />
TSTE<br />
ENSTE<br />
ESTE<br />
ENDSTE<br />
ETSTE<br />
Abb. 1.4: Beispiel für einen Endungsbaum (aus Finkler/Neumann (1986:28))<br />
Der <strong>Analyse</strong>algorithmus folgt nun solange den mit den Graphemen <strong>der</strong> potentiellen Endung<br />
markierten Kanten im Endungsbaum, bis diese abgearbeitet ist. Handelt es sich um<br />
eine im <strong>Deutschen</strong> zulässige Flexionsendung, so enthält <strong>der</strong> erreichte Baumknoten den besagten<br />
Informationszeiger, welcher auf einen Testbaum verweist, <strong>der</strong> nach Wortarten gruppiert<br />
die Bedingungen enthält, die <strong>der</strong> potentielle Stamm <strong>der</strong> Wortform erfüllen muß. Ein<br />
Ausschnitt dieses Bedingungsbaumes ist in Abb. 1.5 dargestellt.<br />
Info<br />
Nomen Adjektiv Verb Possessivpronomen<br />
Umlaut Nichtumlaut<br />
Flexionskl. er<br />
(sg (dat))<br />
Abb. 1.5: Ausschnitt aus dem Bedingungsbaum (nach Finkler/Neumann (1986:29))<br />
E<br />
T
Kapitel 1: Einführung<br />
Die zu testenden Bedingungen sind in <strong>der</strong> Abbildung durch Kursivsetzung gekennzeichnet.<br />
Der Informationsunterbaum unterhalb von -e ist folgen<strong>der</strong>maßen zu lesen: Die Endung -e ist<br />
für einen Stamm dann zulässig, wenn es sich bei ihm um ein Nomen handelt, bei dem keine<br />
Umlautreduktion durchgeführt wurde und das einer bestimmten Deklinationsklasse mit<br />
Namen er angehört. Sind alle diese Bedingungen erfüllt, so können die Endungsmerkmale<br />
<strong>der</strong> Wortform zu Singular Dativ bestimmt werden. Diese Merkmale werden mit den Merkmalen<br />
<strong>des</strong> Stammes vereinigt und als Ergebnis <strong>der</strong> <strong>Analyse</strong> ausgegeben.<br />
Aufgrund <strong>der</strong> Tatsache, daß alle Stamm-Endungs-Kombinationen <strong>der</strong> <strong>morphologischen</strong><br />
<strong>Analyse</strong> unterzogen und dabei alle Bedingungen im Bedingungsbaum geprüft werden, erhält<br />
man im Beispielfall <strong>der</strong> Wortform fliegen sowohl die Nomen- als auch die Verblesart.<br />
Allomorphe Stämme werden in <strong>der</strong> Konzeption von Finkler/Neumann nicht regelgeleitet<br />
behandelt (wie beispielsweise bei Paulus (1986)), son<strong>der</strong>n sinnvollerweise als unterspezifizierte<br />
Einträge in das Grundformenlexikon aufgenommen. Diese Einträge enthalten zusätzliche<br />
Informationen darüber, für welche Wortformen <strong>der</strong> betreffende Stamm verwendet<br />
werden kann. Im Verlaufe <strong>der</strong> <strong>Analyse</strong> werden dann die beim Stamm verzeichneten Angaben<br />
mit den Zusatzinformationen <strong>des</strong> Allomorphs vereinigt und so ein vollständiger Lexikoneintrag<br />
für das Allomorph dynamisch erzeugt.<br />
Zur Kritik: An<strong>der</strong>s als in den weiter oben beschriebenen Lemmatisierungsentwürfen ist <strong>der</strong><br />
Anteil <strong>der</strong> Prozeduralität im Modell von Finkler/Neumann stark vermin<strong>der</strong>t zugunsten<br />
einem Mehr an Deklarativität bezüglich <strong>der</strong> Abbildung sprachlicher Sachverhalte. Es läßt<br />
sich zudem eine Trennung zwischen <strong>Analyse</strong>modell und den von <strong>der</strong> einzelnen Sprache abhängigen<br />
Daten ausmachen, so daß die Kritik einer zu starken Vermischung bei<strong>der</strong> Ebenen<br />
hinfällig wird. Das <strong>Analyse</strong>modell ist prozedural und besteht aus dem Segmentierungsalgorithmus<br />
und den Funktionen, die den Endungsbaum traversieren und dabei zur Ermittlung<br />
<strong>der</strong> einer Endung zukommenden Merkmale die im Baum angegebenen Bedingungen prüfen.<br />
Der einzelsprachliche Anteil ist – abgesehen von <strong>der</strong> Umlautreduktion und ge-Abtrennung<br />
– vollständig im Lexikon und im Endungsbaum kodiert, so daß sich das Modell durch<br />
Ersetzung dieser Komponenten wahrscheinlich leicht auf die <strong>Analyse</strong> an<strong>der</strong>er, dem <strong>Deutschen</strong><br />
ähnlicher Sprachen übertragen läßt.<br />
Dennoch sind Einwände zu machen, die die Repräsentation von agglutinierenden <strong>Aspekte</strong>n<br />
<strong>der</strong> deutschen Flexion betreffen. Diese äußern sich in erster Linie bei komparierten und zusätzlich<br />
flektierten Adjektiven. Hierbei tritt nach einem Komparationsmorphem (-er o<strong>der</strong> -<br />
(e)st) zusätzlich noch ein Flexionsmorphem auf. Finkler/Neumann behandeln dieses Phänomen<br />
unter <strong>der</strong> Bezeichnung Mehrfachendungen dadurch, daß sie die zulässigen Morphemkombinationen<br />
von vornherein bestimmen und als Einheit in den Endungsbaum aufnehmen.<br />
Auch wenn sie dem Vorwurf <strong>der</strong> Merkmalsredundanz im Endungsbaum durch Einführung<br />
eines speziellen Verweismechanismus (Finkler/Neumann (1986:30)) entgehen, resultiert<br />
daraus jedoch eine erhebliche Vergrößerung <strong>des</strong> Baumes, wie sich leicht durch Vergleich<br />
<strong>des</strong> Endungsbaumes von Finkler/Neumann und seinem Automatenäquivalent in<br />
meiner Konzeption (vgl. Kapitel 4) feststellen läßt. In mild agglutierenden Sprachen mag<br />
dieses Verfahren noch akzeptabel sein, in Sprachen jedoch wie dem Finnischen halte ich eine<br />
<strong>der</strong>artige Auskompilation für problematisch.<br />
Zusammenfassend kann man festhalten, daß die Konzeption von Finkler/Neumann einen<br />
beträchtlichen Fortschritt gegenüber den rein prozeduralen Lemmatisierungsverfahren bedeutet.<br />
Die aus dem System VIE-LANG (vgl. Trost/Buchberger (1981)) übernommene Idee<br />
<strong>des</strong> Endungsbaums ist zudem so interessant und entwicklungsfähig, daß ich sie als Ausgangspunkt<br />
in meinem eigenen Modell verwende.<br />
14
Kapitel 1: Einführung<br />
1.2.4 Die objektorientierte Konzeption von Daelemans (1987)<br />
Eine Arbeit, die versucht, Techniken <strong>der</strong> Objektorientierung im Rahmen eines word-and-paradigm-Ansatzes<br />
für die morphologische <strong>Analyse</strong> nutzbar zu machen, ist die von Daelemans<br />
(1987).<br />
Daelemans Dissertation, die verschiedene Verfahren für unterschiedliche <strong>Aspekte</strong> <strong>der</strong><br />
Sprachverarbeitung (morphologische <strong>Analyse</strong> und Synthese, Silbentrennung, automatische<br />
Fehlerkorrektur etc.) beschreibt, befaßt sich in Kapitel 3 mit <strong>der</strong> Abbildung <strong>der</strong> holländischen<br />
Morphologie innerhalb eines objektorientierten Systems. Daelemans unterscheidet<br />
zwischen einem Programm-Modul <strong>der</strong> <strong>morphologischen</strong> Synthese und einem solchen <strong>der</strong><br />
<strong>morphologischen</strong> <strong>Analyse</strong>; beide Module sind unabhängig voneinan<strong>der</strong>, können jedoch zusammen<br />
eingesetzt werden.<br />
Im Mittelpunkt <strong>des</strong> von Daelemans vorgestellten Modells <strong>der</strong> <strong>morphologischen</strong> Synthese<br />
steht die Abbildung <strong>des</strong> Flexionsverhaltens <strong>der</strong> regelmäßigen und unregelmäßigen holländischen<br />
Verben. Sein Synthesemodell ist in Abb. 1.6 wie<strong>der</strong>gegeben.<br />
AFFIXES STEMS<br />
MORPHOLOGICAL RULES<br />
WORD FORMS<br />
SPELLING RULES PHONOLOGICAL RULES<br />
SPELLING PRONUNCIATION<br />
Abb. 1.6: Daelemans Modell <strong>der</strong> <strong>morphologischen</strong> Synthese (1987:53)<br />
Morphologische Regeln erzeugen aus Wortstämmen und Flexionsaffixen zugrundeliegende<br />
lexikalische Repräsentationen 11 konkreter Wortformen, die dann mittels zweier Filter in eine<br />
geschriebene bzw. phonetische Form überführt werden können. Diese Filter enthalten Regeln<br />
ähnlich den phonologischen <strong>des</strong> Koskenniemischen Two-Level-Modells, die orthographische<br />
bzw. phonetische Modifikationen an den beteiligten Morphemen vornehmen.<br />
Um das unterschiedliche Verhalten <strong>der</strong> an <strong>der</strong> Verbkonjugation beteiligten Morpheme zu<br />
beschreiben, bedient sich Daelemans einer Vererbungshierarchie, die in Abb. 1.7 wie<strong>der</strong>gegeben<br />
ist.<br />
11 Lexikalische Repräsentationen können wie bei Koskenniemi (1984) neben den eigentlichen Morphemen<br />
auch Symbole zur Markierung von Morphemgrenzen und sog. Archiphoneme enthalten<br />
(Archiphoneme sind in <strong>der</strong> generativen Phonologie abstrakte Phoneme, die je nach lautlichen Kontext<br />
unterschiedlich realisiert werden können).<br />
15
FREE-MORPHEME<br />
WORD-FORM<br />
VERB-FORM<br />
MORPHEME<br />
Kapitel 1: Einführung<br />
BOUND-MORPHEME<br />
PREFIX SUFFIX<br />
PAST-PARTICIPLE-PREFIX PLURAL-SUFFIX<br />
PRESENT-SINGULAR-SUFFIX<br />
16<br />
PRESENT-PARTICIPLE-SUFFIX<br />
PAST-PARTICIPLE-SUFFIX<br />
Abb. 1.7: Die von Daelemans (1987:42) verwendete Lexikonhierarchie<br />
PAST-SINGULAR-SUFFIX<br />
Als Beschreibungssprache für diese Hierarchie verwendet Daelemans die Wissensrepräsentationssprache<br />
KRS; die Klassen werden dort durch sog. Konzepte ausgedrückt. Das Konzept<br />
REGULAR-VERB-LEXEME bildet den Kern seines Synthesemodells. Es dient dazu, das Konjugationsverhalten<br />
regelmäßiger Verben zu erfassen. Hierzu verfügt dieses Konzept über die<br />
Unterkonzepte PRESENT-SINGULAR-ONE, PRESENT-SINGULAR-TWO, PAST-PARTICIPLE usw.,<br />
die als Prozeduren realisiert sind und die entsprechenden Verbformen aus einer in <strong>der</strong> Konzeptinstanz<br />
gespeicherten konkreten Verbwurzel "errechnen". Abb. 1.8 zeigt einen Ausschnitt<br />
aus <strong>der</strong> Definition <strong>des</strong> Konzepts REGULAR-VERB-LEXEME.<br />
(DEFCONCEPT REGULAR-VERB-LEXEME<br />
(A VERB-PARADIGM<br />
(CITATION-FORM (A STRING)))<br />
(PARADIGM (A CONCEPT-LIST<br />
(>>PRESENT-SINGULAR_ONE)<br />
(>>PRESENT-SINGULAR_TWO)<br />
(>>PRESENT-SINGULAR_THREE)<br />
. . . . .<br />
(>>PAST-PARTICPLE)))<br />
(ROOT (A MORPHEME))<br />
. . . . .<br />
(PRESENT-SINGULAR-ONE<br />
(A VERBFORM)<br />
(FINITENESS FINITE)<br />
(TENSE PRESENT)<br />
(NUMBER SINGULAR)<br />
(PERSON THIRD)<br />
(LEXICAL-REPRESENTATION<br />
{ Apply the present-singular-one-rule<br />
to the citation form } ))<br />
Abb. 1.8: Definition von REGULAR-VERB-LEXEME (nach Daelemans (1987:43))
Kapitel 1: Einführung<br />
Diese Definition besagt folgen<strong>des</strong>: das Konzept REGULAR-VERB-LEXEME ist von VERB-<br />
PARADIGM abgeleitet, verfügt über eine Zitierform, eine Wurzel (ROOT) und eine Liste von<br />
Konzepten, die für das Paradigma <strong>des</strong> Verbs stehen. Diese Konzepte, von denen nur eines<br />
(PRESENT-SINGULAR-ONE) angedeutet ist, bestimmen aus <strong>der</strong> Verbwurzel mit Hilfe einer aus<br />
einer an<strong>der</strong>en Hierarchie stammenden <strong>morphologischen</strong> Regel die konkrete Verbform und<br />
<strong>der</strong>en Merkmale. Von dem Konzept REGULAR-VERB-LEXEME sind weitere Konzepte abgeleitet,<br />
die das Flexionsverhalten <strong>der</strong> unregelmäßigen Verben <strong>des</strong> Nie<strong>der</strong>ländischen beschreiben.<br />
In diesen Klassen werden Prozeduren von REGULAR-VERB-LEXEME überschrieben; beispielsweise<br />
die Prozedur Past-Participle bei den Ablautverben, bei denen das Partizip mit -en<br />
statt mit -t/-d gebildet wird. Ich möchte hier nicht weiter auf diese Verbhierarchie eingehen,<br />
da deutlich geworden sein sollte, wie Daelemans objektorientierte Techniken in Zusammenhang<br />
mit <strong>der</strong> Beschreibung morphologischer Regularitäten verwendet und statt<strong>des</strong>sen noch<br />
das Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> vorstellen.<br />
Der Grobaufbau dieses Modells ist in Abb. 1.9 dargestellt:<br />
Lexical Database<br />
Morphological<br />
Grammar<br />
Spelling or phoneme representation<br />
17<br />
Segmentation<br />
Dictionary<br />
Lookup<br />
List of segmentations<br />
Parsing<br />
List of analyses<br />
Abb. 1.9: Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> nach Daelemans (1987:58)<br />
Die Segmentierungsprozedur zerlegt rekursiv die zu analysierende Wortform in Teilketten<br />
und schlägt diese im Lexikon (lexical database) nach; Daelemans spezifiziert dieses Lexikon<br />
jedoch nicht näher.<br />
Da naive Segmentierungsalgorithmen aus komplexitätstheoretischer Sicht zu aufwendig<br />
sind, macht Daelemans bei <strong>der</strong> Zerlegung Gebrauch von einer Reihe von Heuristiken (vgl.<br />
Daelemans (1987:59f)):<br />
� Zeichenketten, die kürzer als <strong>der</strong> kürzeste o<strong>der</strong> länger als <strong>der</strong> längste Lexikoneintrag<br />
sind, werden nicht nachgeschlagen<br />
� Zeichenketten, die nicht den Bedingungen <strong>der</strong> holländischen Morphemstruktur genügen,<br />
werden ebenfalls nicht im Lexikon gesucht.
Kapitel 1: Einführung<br />
Nach Daelemans gelingt es mit Hilfe dieser Heuristiken, die Anzahl <strong>der</strong> Lexikonaufrufe in<br />
den Grenzen einer Funktion <strong>der</strong> Ordnung O(n) zu halten (n = Länge <strong>des</strong> Eingabewortes).<br />
Die möglichen Segmentierungen <strong>der</strong> Eingabekette werden an einen nachgeschalteten Parser<br />
übergeben. Dieser Parser, <strong>der</strong> in erster Linie für die <strong>Analyse</strong> von Komposita konzipiert ist,<br />
greift zurück auf eine morphologische Grammatik, die aus Regeln wie <strong>der</strong> in Abb. 1.10 wie<strong>der</strong>gegebenen<br />
besteht:<br />
Rule Noun = x + Noun<br />
If x = Noun<br />
Then x = one of Singular Noun, Plural Noun, Diminutive Plural Noun<br />
If x = Adjektive<br />
Then x = one of Normalform Adjective, Inflected Adjektive<br />
If x = Verb<br />
Then x = Present Singular First Verb<br />
Abb. 1.10: Regel <strong>der</strong> <strong>morphologischen</strong> Grammatik (vgl. Daelemans (1987:61))<br />
Parser und Segmentierer sind als Prozeduren einem Konzept POSSIBLE-WORD-FORM zugeordnet.<br />
Die Funktionsweise <strong>des</strong> Parsers wird auch nicht näher beschrieben; es ist jedoch in<br />
Anbetracht <strong>der</strong> <strong>morphologischen</strong> Regeln anzunehmen, daß es sich um ein traditionelles,<br />
regelbasiertes Parsverfahren handelt.<br />
Weiter oben habe ich angedeutet, daß sich die Regeln <strong>des</strong> Parsers auf die Regularitäten <strong>der</strong><br />
Komposition im Holländischen beziehen. Hieraus ergibt sich die Frage, wie flektierte Wortformen<br />
behandelt werden.<br />
Daelemans plädiert in diesem Zusammenhang dafür, alle flektierten Formen (also beispielsweise<br />
bei Verben alle Konjugationsformen) in das Lexikon aufzunehmen. Sein Argument<br />
für diese Ansicht geht in die Richtung, daß heutzutage die Speichertechnologien und<br />
Suchalgorithmen so ausgereift sind, daß es ohne Schwierigkeiten möglich ist, große Mengen<br />
an Wortformen einfach abzuspeichern, was eine vereinfachte morphologische <strong>Analyse</strong>, die<br />
sich auf die produktiven <strong>Aspekte</strong> <strong>der</strong> Wortbildung konzentriert, zur Folge habe.<br />
Dieser Standpunkt ist insofern interessant, als man ihm nicht den Vorwurf machen kann, er<br />
vernachlässige die Abbildung sprachlicher Regularitäten innerhalb <strong>des</strong> Systems. Daelemans<br />
schlägt nämlich vor, die Flexionsformen einer Grundform nicht manuell zu erstellen, son<strong>der</strong>n<br />
sie durch ein regelgeleitetes Synthesesystem, wie es weiter oben vorgestellt wurde,<br />
automatisch erzeugen zu lassen.<br />
Auch wenn diese Auffassung einiges für sich hat – Synthese ist im Bereich <strong>der</strong> Morphologie<br />
einfacher als <strong>Analyse</strong> –, so ergeben sich natürlich Probleme bei Sprachen wie dem Finnischen,<br />
wo die Anzahl <strong>der</strong> flektierten Formen sehr groß sein kann. Wollte man auf die vorgeschlagene<br />
Weise ein Vollformenlexikon mit einem realistischen Bestand an finnischen Verben<br />
erzeugen, so stieße man auch bei mo<strong>der</strong>nsten Rechnersystemen an die Grenzen ihrer<br />
Kapazität.<br />
Der nächste Einwand betrifft das Zerlegungsverfahren. Um den Parser, <strong>der</strong> auf Regeln wie<br />
<strong>der</strong> in Abb. 1.10 gezeigten basiert, einzusetzen, muß das zu analysierende Wort zunächst in<br />
seine morphematischen Bestandteile zerlegt werden. Daelemans (1987) verwendet hierzu<br />
einen extrem einfachen Algorithmus, <strong>der</strong> in seiner Grundform sukzessiv Teilzeichenketten<br />
vom Wortanfang her abspaltet, im Lexikon nachschlägt und diese Teilketten rekursiv einer<br />
weiteren Zerlegung unterwirft. Nun ist leicht zu sehen, daß eine Zeichenkette <strong>der</strong> Länge n<br />
2 n-1 verschiedene Dekompositionen in Teilstrings zuläßt. Wenn man als Beispiel die Zeichenkette<br />
abcd betrachtet, so erhält man als Zerlegungen { (abcd), (a,bcd), (ab,cd), (abc,d), (a,b,cd),<br />
18
Kapitel 1: Einführung<br />
(a,bc,d), (ab,c,d), (a,b,c,d) }, d.h. 8 = 2 4-1 Zerlegungen. 12 Ist nun jede Zerlegung auch nur mit<br />
einem Lexikonzugriff verknüpft, erhält man einen Algorithmus <strong>der</strong> Komplexität O(2 n ), d.h.<br />
man hätte es schon im Bereich <strong>der</strong> Morphologiekomponente mit exponentiellen Laufzeiten<br />
zu tun. Daelemans hat dieses Problem erkannt und verwendet daher die weiter oben bereits<br />
betrachteten Heuristiken, um nicht jede während <strong>der</strong> Segmentierung auftretende Teilkette<br />
im Lexikon nachschlagen zu müssen. Dazu ist natürlich zu sagen, daß Heuristiken dieser<br />
Art keine hun<strong>der</strong>tprozentige Gültigkeit aufweisen, da beispielsweise im <strong>Deutschen</strong> durchaus<br />
monographematische Morpheme existieren, vgl. a- in asymmetrisch. Was schwerer wiegt,<br />
ist jedoch <strong>der</strong> Einwand, warum eine zwingend vorhandene Informationsquelle wie das Lexikon<br />
nicht aktiv für die Segmentierung eingesetzt wird. Das dies möglich ist, möchte ich in<br />
Kapitel 4 demonstrieren.<br />
Mein letzter Kritikpunkt betrifft den Status <strong>des</strong> Prinzips <strong>der</strong> Objektorientierung in den beiden<br />
Modellen (Synthese und <strong>Analyse</strong>). Während dieses Prinzip im Fall <strong>des</strong> Synthesemodells<br />
Teil <strong>der</strong> linguistischen Beschreibung ist, ist es bezüglich <strong>des</strong> <strong>Analyse</strong>modells nur ein softwaretechnisches<br />
Mittel zur Strukturierung <strong>des</strong> Programms. Bei dem <strong>Analyse</strong>modell handelt es<br />
sich m.a.W. um kein objektorientiertes System auf <strong>der</strong> Beschreibungsebene.<br />
Ohne die Leistung Daelemans schmälern zu wollen – seine Arbeit behandelt diesen Bereich<br />
ja nur als einen unter mehreren an<strong>der</strong>en <strong>der</strong> Sprachtechnologie –, so bleibt doch festzuhalten,<br />
daß eine objektorientierte <strong>Analyse</strong>konzeption mit ganz an<strong>der</strong>en Problemen konfrontiert<br />
ist als denjenigen, denen sich das Synthesemodell zu stellen hat, bei dem schließlich die Umsetzung<br />
<strong>der</strong> sprachlichen Seite in das Paradigma <strong>der</strong> Objektorientierung relativ nahe liegt 13 .<br />
1.2.5 Lexikalische Regeln<br />
Zum Schluß dieser Sichtung <strong>des</strong> Forschungstan<strong>des</strong> möchte ich noch auf eine Technik eingehen,<br />
die mit <strong>der</strong> Konzeption von Daelemans (1987) verwandt ist und fester Bestandteil <strong>des</strong><br />
Methodeninventars von unifikationsbasierten Grammatikformalismen geworden ist (vgl.<br />
z.B. Shieber (1986) und Pollard/Sag (1987).<br />
Hiernach konstituieren lexikalische Regeln und die eigentlichen Lexikoneinträge das Lexikon.<br />
Lexikalische Regeln, die verwandt sind mit den Redundanzregeln in <strong>der</strong> Konzeption<br />
von Jackendoff (1975) 14 , bestehen aus einer Eingabespezifikation, die festlegt, auf welche<br />
Lexikonelemente die Regel angewendet werden kann und einer Ausgabespezifikation, die<br />
die Eigenschaften <strong>des</strong> aufgrund <strong>der</strong> Regelanwendung neu entstandenen Wortes festhält.<br />
Lexikalische Regeln erzeugen demnach aus einem vorhandenen Wort ein neues Wort. Entscheidend<br />
für diese lexikalischen Regeln sind variable Elemente in beiden Spezifikationen,<br />
mit <strong>der</strong>en Hilfe Eigenschaften <strong>des</strong> Ursprungswortes, die die Regel selbst nicht festlegt, auf<br />
das neue Wort überträgt. Wie man sieht, ist dies die gleiche <strong>Analyse</strong>-durch-Synthese-Idee<br />
wie bei Daelemans (1987). Lexikalische Regeln werden meist nicht nur für die Erzeugung<br />
von Flexionsformen verwendet, son<strong>der</strong>n auch für die Derivation von Basiskategorien und<br />
für Operationen wie <strong>der</strong> Passivierung. Abb. 1.11 zeigt eine solche Regel, die die Passivform<br />
eines transitiven Verbs erzeugt und gleichzeitig <strong>des</strong>sen Argumentliste verän<strong>der</strong>t, während<br />
Abb. 1.12 die Erzeugung von be-Präfixverben aus Simplexverben demonstriert.<br />
12 Auch wenn man nur die verschiedenen Teilstrings über alle Zerlegungen hinweg betrachtet, kommt<br />
n<br />
man auf eine Zahl von �i =<br />
i�1<br />
n n ( ) �1<br />
, also eine Funktion <strong>der</strong> Ordnung O(n<br />
2<br />
2 ) .<br />
13 Dies ist Daelemans durchaus bewußt; vgl. Daelemans/De Smedt (1994:152)<br />
14 Wenn ich es recht verstehe, sind Jackendoffs Redundanzregeln inhärent relational, während die hier<br />
besprochenen lexikalischen Regeln eher prozedural aufzufassen sind.<br />
19
PHON 1<br />
PAST-PART<br />
2<br />
SYN|LOC|SUBCAT <br />
Kapitel 1: Einführung<br />
�<br />
PHON PSP ( 1 , 2 )<br />
f<br />
SYN|LOC|SUBCAT <br />
, 4 ><br />
20<br />
graph<br />
syn<br />
head<br />
be-prefixable-Verb be-Verb<br />
�<br />
be�<br />
2<br />
1<br />
3<br />
><br />
subcat < 3 , 4 ><br />
Abb. 1.12: Lexikalische Regel zur Argumentdiathese bei be-Verben (aus Dörfler/Hanneforth (1995))<br />
Die Regel in Abb. 1.12 erfaßt den systematischen Zusammenhang zwischen einer ganzen<br />
Reihe von Simplexverben und ihren mit be- präfigierten Ableitungen, vgl. (3)<br />
(3) Er gießt [ NP Wasser] [ PP auf die Blumen]<br />
Er begießt [ NP die Blumen] [ PP mit Wasser]<br />
Die Eingabespezifikation links vom Pfeil legt u.a. fest, daß sie nur auf Verben <strong>der</strong> Klasse<br />
be-prefixable-Verb 15 anwendbar ist.<br />
Lexikalische Regeln dieser Art werden nun meist so verwendet, daß sie während einer<br />
Kompilationsphase offline auf alle passenden Lexikoneinträge angewendet werden und das<br />
Lexikon auf diese Weise erweitert wird, was mengentheoretisch einer Hüllenbildung gleichkommt.<br />
Die eigentliche morphologische <strong>Analyse</strong> besteht dann lediglich noch aus Lexikonzugriffen.<br />
Die Vor- und Nachteile dieser Methode sind im wesentlichen die gleichen wie bei <strong>der</strong> Konzeption<br />
von Daelemans (1987). Durch Ausdehnung <strong>des</strong> Verfahrens auf die eigentliche Wortbildung<br />
ergibt sich jedoch ein neues Problem. Während die Behandlung <strong>der</strong> Derivation noch<br />
praktikabel ist, stellt sich das Problem, daß die Komposition – an<strong>der</strong>s als die Derivation 16 –<br />
durch rekursive Mechanismen charakterisiert ist, die es unmöglich machen, eine Obergrenze<br />
für die Maximallänge eines Kompositums festzulegen. M.a.W.: die Komposition ist im <strong>Deutschen</strong><br />
potentiell unendlich, womit sich eine offline-Anwendung von lexikalischen Regeln<br />
von selbst verbietet. Wenn man also lexikalische Regeln zur Beschreibung von Flexion und<br />
Derivation verwenden möchte, so benötigt man in jedem Fall noch einen Mechanismus, <strong>der</strong><br />
online die <strong>Analyse</strong> von Komposita vornimmt. Aber auch dann ergibt sich noch das Problem,<br />
wie zusammengesetzte Wörter wie<strong>der</strong>um in den Mechanismus <strong>der</strong> Flexion eingehen kön-<br />
15 Dies wird durch Zuordnung <strong>der</strong> betreffenden Verben zu dieser Klasse sichergestellt.<br />
16 Eine Ausnahme hierzu ist jedoch die Präfixableitung mit vor- o<strong>der</strong> anti-, die iteriert werden kann:<br />
z.B. Vorversion, Vorvorversion (vgl. Krieger (1994)).
Kapitel 1: Einführung<br />
nen, <strong>der</strong> schließlich vor <strong>der</strong> eigentlichen <strong>Analyse</strong> vonstatten geht. Als Lösung hierfür muß<br />
man davon ausgehen, daß beispielsweise die Komposition bereits flektierte Wortformen mit<br />
unflektierten Stämmen kombiniert.<br />
Ein weiteres Problem ergibt sich aus dem theoretischen Status <strong>der</strong> lexikalischen Regeln. Wie<br />
auch schon von Krieger (1994) bemerkt worden ist, fallen diese aus dem Rahmen <strong>der</strong> Unifikationsgrammatiken<br />
heraus. Ihre Struktur ist von gänzlich an<strong>der</strong>er Art als alle an<strong>der</strong>en Beschreibungsmittel<br />
dieses Grammatiktyps, weswegen ein Verzicht auf lexikalische Regeln zu<br />
größerer Durchsichtigkeit <strong>des</strong> Formalismus führen würde.<br />
Letztendlich stellt sich noch das Problem <strong>der</strong> Reihenfolge <strong>der</strong> Anwendung von kaskadenförmig<br />
anwendbaren Regeln. Dieses Problem erinnert an die Schwierigkeiten mit <strong>der</strong> Regelanwendung<br />
in frühen Versionen <strong>der</strong> Transformationsgrammatik, was mit dazu beigetragen<br />
hat, diese Grammatiken obsolet werden zu lassen.<br />
1.3 Fazit<br />
Welches Fazit ist aus <strong>der</strong> vorangegangenen Kurzdarstellung <strong>des</strong> Forschungsstan<strong>des</strong> zu ziehen,<br />
insbeson<strong>der</strong>e vor dem Hintergrund <strong>des</strong> Ziels dieser Arbeit, ein einheitliches <strong>Analyse</strong>modell<br />
für alle wesentlichen <strong>Aspekte</strong> <strong>der</strong> Flexion und Wortbildung zu entwickeln?<br />
Bei den genuinen <strong>Analyse</strong>modellen sind die „Steinzeitmethoden“ <strong>der</strong> „algorithmischen Linguistik“<br />
von vornherein auszuschließen, da sie ganz einfach heutigen Standards in bezug<br />
auf Deklarativität etc. (vgl. Kapitel 2) nicht genügen. Mo<strong>der</strong>nere Konzeptionen, wie beispielsweise<br />
die von Finkler/Neumann (1986), bieten Vorteile, wie beispielsweise Trennung<br />
von Daten und Algorithmus, sind jedoch noch allzu sehr dem Ziel <strong>der</strong> Lemmatisierung verhaftet.<br />
Die Two-Level-Morphologie stellt demgegenüber wie<strong>der</strong>um einen Fortschritt dar, da<br />
sie das Problem Deflexion in ein sauber definiertes Automatenmodell einbettet und somit<br />
auf Morphkombinatorik reduziert. Dennoch weist die Two-Level-Morphologie einige<br />
Nachteile auf:<br />
� Um grammatisch gesteuerte Two-level-Regeln zu realisieren, ist sie entwe<strong>der</strong> auf eine<br />
Erweiterung <strong>des</strong> Formalismus o<strong>der</strong> auf arbiträre diakritische Zeichen auf dem Lexikonband<br />
angewiesen, dies zeigen auch existierende Implementationen.<br />
� Sie setzt auf einer Ebene zu tief an, da sie – zumin<strong>des</strong>t in ihrer Originalform – wortinterne<br />
Strukturen, die für die Semantik von Wörtern von Belang sind, nicht identifizieren kann.<br />
Die <strong>Analyse</strong>-durch-Synthese-Modelle, hier vertreten durch die Konzeption von Daelemans<br />
(1987) und die Idee <strong>der</strong> lexikalischen Regeln, sind in linguistischer Hinsicht durchweg weiter<br />
entwickelt. Letztendlich müssen diese Ansätze jedoch vor dem Wortbildungsmittel <strong>der</strong><br />
Komposition scheitern, da Komposition auf keinen Fall während einer Lexikonaufbau- bzw.<br />
Kompilationsphase abgehandelt werden kann.<br />
Die Schlußfolgerungen, die ich daraus ziehe, sehen folgen<strong>der</strong>maßen aus:<br />
� Da man ohnehin einer Parser benötigt, um Komposita zu analysieren, verzichtet man auf<br />
lexikalische Regeln und <strong>der</strong>gleichen und konzipiert diesen Parser auch im Hinblick von<br />
Flexion und Derivation; hieraus ergibt sich eine klarere Grundkonzeption.<br />
� Man benötigt mit Sicherheit ein mehrstufiges <strong>Analyse</strong>verfahren, um einerseits Wörter zu<br />
zerlegen und die Zulässigkeit von Morphemkombinationen zu überprüfen und an<strong>der</strong>erseits<br />
syntaktische und semantische Beziehungen zwischen den isolierten Morphemen offenzulegen.<br />
Wünschenswert wäre es, diese verschiedenen Stufen nicht sequentiell hintereinan<strong>der</strong><br />
zu schalten, son<strong>der</strong>n eng miteinan<strong>der</strong> zu verzahnen, um Restriktionen einer höheren<br />
Ebene bereits auf einer tieferen zur Verfügung zu haben.<br />
21
1.4 Methodisches<br />
Kapitel 1: Einführung<br />
Naturgemäß hat man bei <strong>der</strong> Realisierung eines natürlichsprachlichen Systems eine Reihe<br />
von Entwurfsentscheidungen zu treffen, die weitreichende und augenblicklich kaum zu<br />
übersehende Folgen haben können. Man ist daher gut beraten, schon vor <strong>der</strong> Modellierung<br />
einer Domäne auf dem Computer einen Kriterienkatalog aufzustellen, an dem verschiedene<br />
Formalismen und Vorgehensweisen gemessen und bewertet werden können.<br />
Vorschläge für <strong>der</strong>artige Kriterien wurden in <strong>der</strong> Literatur schon geäußert. In Shieber (1985:<br />
193ff.) werden beispielsweise drei Hauptkriterien vorgeschlagen:<br />
� Linguistic felicity: inwieweit eignet sich <strong>der</strong> Formalismus, Konzepte und Generalisierungen<br />
<strong>der</strong> linguistischen Beschreibung und Theoriebildung konzis auszudrücken?<br />
� Expressivness: ist <strong>der</strong> Formalismus ausdrucksstark genug, um die linguistisch motivierten<br />
<strong>Analyse</strong>n auszudrücken?<br />
� Computational effectiveness: ist <strong>der</strong> Formalismus prozedural interpretierbar und, falls dies<br />
<strong>der</strong> Fall ist, von welcher Komplexität sind die interpretierenden Algorithmen?<br />
Aus diesen Hauptkriterien lassen sich eine Reihe von konkreteren Kriterien wie Deklarativität,<br />
Modularität, Einfachheit, Mächtigkeit, mathematische Erschlossenheit, Implementierbarkeit<br />
etc. ableiten.<br />
Die wesentliche Entwurfsentscheidung, die zu treffen ist, betrifft den Grundcharakter <strong>des</strong><br />
Formalismus: soll er deklarativ, prozedural o<strong>der</strong> eine Kombination dieser beiden Extreme<br />
sein? Unbeschränkt prozedurale Konzeptionen scheiden aus einer Reihe von Gründen, die<br />
z.T. bereits in <strong>der</strong> Kritik an Alternativansätzen zur <strong>morphologischen</strong> <strong>Analyse</strong> zur Sprache<br />
kamen, von vornherein aus. Gegen sie ist einzuwenden:<br />
� sie sind bei den Komplexitäten, wie sie natürlichsprachliche Systeme im allgemeinen aufweisen,<br />
konzeptuell nicht durchsichtig genug und daher relativ schwer zu verstehen.<br />
� sie sind, wenn sie auf einer <strong>der</strong> üblichen Programmiersprachen beruhen, hinsichtlich ihrer<br />
Ausdrucksstärke viel zu unbeschränkt.<br />
Deklarative Konzeptionen sind aus einer ganzen Reihe von Gründen geeigneter, um<br />
sprachlichen Phänomenen gerecht zu werden. Damit sie jedoch in ein operationales Modell<br />
eingebettet werden können, müssen sie eine prozedurale Interpretation zulassen. Deklarativität<br />
bedeutet darüber hinaus, daß <strong>der</strong> Formalismus soweit mathematisch verstanden ist,<br />
daß detaillierte Aussagen über die Komplexität <strong>der</strong> Interpretationsalgorithmen möglich<br />
sind, da nur so ein Vergleich verschiedener Ansätze durch Abstraktion von Details durchführbar<br />
ist. Die beiden grundlegenden Formalismen, auf denen das hier vorgestellte <strong>Analyse</strong>modell<br />
basiert, sind nun:<br />
� endliche Automaten bzw. Transducer<br />
� typisierte Merkmalsstrukturen<br />
Während ein modifizierter endlicher Automat und eine Reihe von Transducern die Segmentierung<br />
von möglicherweise zusammengesetzten Wörtern vornehmen, dient eine<br />
Grammatik auf <strong>der</strong> Grundlage von typisierten Merkmalsstrukturen zusammen mit einem<br />
Chart-Parser zur <strong>Analyse</strong> <strong>der</strong> Wortstruktur und zur Bedeutungskonstruktion. Beide Formalismen<br />
sind sehr gut untersucht und (relativ) effizient zu implementieren, was sie zur ersten<br />
Wahl für die gestellte Aufgabenstellung werden ließ.<br />
22
1.5 Zum Aufbau <strong>der</strong> Arbeit<br />
Kapitel 1: Einführung<br />
Die restliche Arbeit glie<strong>der</strong>t sich in zwei weitere Teile und dem (unvermeidlichen) Kapitel<br />
„Zusammenfassung“:<br />
� Teil I: Grundlagen (Kapitel 2 und 3)<br />
� Teil II: Modellierung (Kapitel 4 und 5)<br />
Teil I wird zunächst die formalen und linguistischen Grundlagen für das Projekt legen. Kapitel<br />
2 führt in den gewählten Beschreibungsformalismus <strong>der</strong> typisierten Merkmalsstrukturen<br />
ein, während sich Kapitel 3 <strong>der</strong> linguistischen Seite <strong>der</strong> Aufgabenstellung zuwendet und<br />
einen Überblick über Theorien zur Wortbildung und Morphologie im generativen Rahmen<br />
gibt. In den sich anschließenden Kapiteln werde ich versuchen zu zeigen, wie diese Theorien<br />
innerhalb <strong>der</strong> Computerlinguistik gewinnbringend nutzbar gemacht werden können.<br />
Kapitel 4 in Teil II erläutert dann das Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> en detail und<br />
zeigt, wie generative Grammatiktheorien mit computerlinguistischen Fragestellungen verbunden<br />
werden können. Kapitel 5 beschreibt im Anschluß daran eine Morphologie- und<br />
Wortbildungsgrammatik und macht auch Aussagen darüber, welchen Beitrag sie für den<br />
Bereich <strong>des</strong> robusten Parsens leisten kann.<br />
Kapitel 6 schließlich versucht, kritisch <strong>der</strong> Frage nachzugehen, inwieweit die in Kapitel 1<br />
gestellten Ansprüche vom vorgestellten System erfüllt werden und welche Verbesserungsmöglichkeiten<br />
noch bestehen.<br />
23
2 Merkmalsstrukturen<br />
Kapitel 2: Merkmalsstrukturen<br />
Merkmalsstrukturen – auch Attribut-Wert-Strukturen genannt – haben sich nach einem Entwicklungsprozeß<br />
als lingua franca <strong>der</strong> heutigen Computerlinguistik herauskristallisiert. Sie<br />
bieten eine Reihe von Vorteilen (vgl. auch Shieber (1985)):<br />
• Deklarativität<br />
• Unabhängigkeit <strong>des</strong> Ergebnisses von <strong>der</strong> Berechnungsreihenfolge<br />
• Mathematische Erschlossenheit<br />
• Mächtigkeit<br />
Nicht zuletzt gibt es eine Reihe von hochentwickelten Werkzeugen – beispielsweise CUF<br />
(Dörre et al. (1996)) – die zur Entwicklung von Sprachverarbeitungsanwendungen zur Verfügung<br />
stehen.<br />
Diese Vorteile gaben den Ausschlag, das hier vorgestellte Modell ebenfalls auf <strong>der</strong> Grundlage<br />
von Merkmalsstrukturen – genauer typisierten Merkmalsstrukturen – zu entwerfen. Der<br />
nachfolgende Abriß <strong>der</strong> Theorie typisierter Merkmalsstrukturen orientiert sich an Carpenter<br />
(1992), ist jedoch nicht vollkommen voraussetzungslos gehalten. Shieber (1986) führt alle<br />
zum Verständnis notwendigen Begriffe ein, die hier aus Platzgründen nicht definiert werden<br />
können.<br />
2.1 Typisierte Merkmalsstrukturen<br />
Typisierte Merkmalsstrukturen stellen eine Verbesserung gegenüber untypisierten Merkmalsstrukturen<br />
(vgl. Shieber (1986)) dar:<br />
• In Verbindung mit festgelegten Typisierungs- und Appropriateness-Bedingungen (s.u.)<br />
kann für jede Merkmalsstruktur festgestellt werden, ob sie in einem wohldefinierten Sinn<br />
korrekt und vollständig ist.<br />
• Typisierung erlaubt, unzulässige Merkmale und Merkmalswerte zu erkennen.<br />
Aber auch aus implementatorischer Perspektive ergeben sich einige Vorteile:<br />
• Durch die Typisierung kann für jede Merkmalsstruktur während einer Kompilationsphase<br />
<strong>der</strong> von ihr beanspruchte Speicherplatz berechnet und beim Zugriff auf bestimmte<br />
Attribute von effizienten Record-Offset-Adressierungsverfahren Gebrauch gemacht<br />
werden.<br />
• Die wichtigste, jedoch aufwendige Operation in Zusammenhang mit Merkmalstrukturen,<br />
die <strong>der</strong> Unifikation (s.u.), kann in vielen Fällen vermieden werden, wenn die zu unifizierenden<br />
Strukturen typeninkompatibel sind, was sich durch eine einfache Tabellenoperation<br />
feststellen läßt.<br />
• Nicht zuletzt erleichtert Typisierung, analog zur Festlegung von Datentypen in imperativen<br />
Programmiersprachen wie Pascal, die Feststellung von semantischen Fehlern etc.<br />
während <strong>der</strong> Implementierungsphase eines Grammatikmodells.<br />
(Typisierte) Merkmalsstrukturen werden üblicherweise als endliche Automaten formalisiert.<br />
Eine typisierte Merkmalsstruktur über einer Menge von Typen Type und einer endlichen<br />
Menge von Merkmalen Feat ist dabei ein 4-Tupel F = , wobei gilt: 1<br />
1 Zur Notation: Typen werden immer fett und kursiv wie<strong>der</strong>gegeben, MERKMALE in Kapitälchen.<br />
24
Kapitel 2: Merkmalsstrukturen<br />
• Q ist eine endliche Menge von Knoten (Zuständen);<br />
• q0 ∈ Q ist <strong>der</strong> Wurzelknoten (Startzustand);<br />
• θ : Q � Type ist eine (totale) Funktion, die jedem Knoten einen Typ zuordnet;<br />
• δ : Feat × Q � Q ist eine partielle Funktion.<br />
F sei die Menge aller typisierten Merkmalsstrukturen.<br />
Abb. 2.1 zeigt eine typisierte Merkmalsstruktur in Automatennotation.<br />
Abb. 2.1: Eine typisierte Merkmalsstruktur in Automatennotation<br />
Die Übergangsfunktion δ überführt Zustände und Merkmalsnamen in an<strong>der</strong>e Zustände, d.h.<br />
Knoten im Graph. Sie kann in naheliegen<strong>der</strong> Weise für sog. Pfade – Elemente aus Feat* - zu<br />
einer Funktion δ‘ verallgemeinert werden:<br />
1. δ‘ (ε , q) = q<br />
2. δ‘ (fπ , q) = δ‘(π, δ( f, q))<br />
Meist werden Merkmalsstrukturen jedoch in sog. Matrix-Schreibweise repräsentiert; die<br />
Merkmalsstruktur aus Abb. 2.1 sähe dann wie folgt aus:<br />
CAT: vp<br />
HEAD: VFORM: finite<br />
phrase<br />
AGR: PERSON:<br />
NUMBER:<br />
head agr<br />
third<br />
plural<br />
Abb. 2.2: Eine typisierte Merkmalsstruktur in Matrixnotation<br />
Gilt für zwei verschiedene Pfade r und s δ’(r, q) = δ’(s, q), so heißen diese beiden Pfade reentrant.<br />
Reentranz wird in Matrixform durch sog. Tags wie 1 ausgedrückt, die am Ende <strong>der</strong><br />
reentranten Pfade hinzugefügt werden.<br />
Manchmal ist es nötig, sich auf Substrukturen einer Merkmalsstruktur zu beziehen. Hierzu<br />
definiert man eine partielle Funktion @ : F × Feat � F mit den folgenden Eigenschaften:<br />
@ F = , falls δ(F, q0) = q0‘, Q’ ⊆ Q die Menge <strong>der</strong> von q0‘ erreichbaren<br />
Zustände ist und θ’ und δ’ entsprechend die Einschränkungen von θ und δ auf Q’ sind. Ist δ<br />
für q0 und F nicht definiert, so ist auch @ undefiniert.<br />
25
Kapitel 2: Merkmalsstrukturen<br />
Die Menge <strong>der</strong> Typen Type wird zuvor festgelegt und ergibt sich aus einer Klassifikation <strong>der</strong><br />
Objekte <strong>des</strong> Beschreibungsbereichs. Die dabei verwendeten Methoden sind Gegenstand <strong>des</strong><br />
nächsten Abschnitts.<br />
2.2 Typsysteme<br />
Entscheidend ist, daß die einzelnen Typen aus Type nicht beziehungslos nebeneinan<strong>der</strong> existieren,<br />
son<strong>der</strong>n – ähnlich wie bei den objektorientierten Programmiersprachen – in sog.<br />
Vererbungshierarchien organisiert sind.<br />
Abb. 2.3 zeigt eine solche Hierarchie, wie sie im Modell zur Beschreibung <strong>der</strong> verschiedenen<br />
Typen von <strong>morphologischen</strong> Formativen verwendet wird (vgl. Kapitel 5).<br />
unknown_stem<br />
simple_stem complex_stem<br />
simple_or_complex_stem<br />
linking_morph pre_syntactic_atom affix<br />
morph_object syntactic_atom<br />
morph_or_syn_object<br />
top<br />
infl_affix <strong>der</strong>ivative<br />
suffix<br />
prefix<br />
Abb. 2.3: Ausschnitt aus einer Vererbungshierarchie zur Beschreibung <strong>der</strong> deutschen Morphologie<br />
Demnach weist beispielsweise <strong>der</strong> Typ affix die Subtypen suffix und prefix auf.<br />
Durch Kanten mittelbar o<strong>der</strong> unmittelbar verbundene Typen stehen – je nach Sichtweise – in<br />
einer Super- bzw. Subtypbeziehung zueinan<strong>der</strong>. Ein allgemeinster Typ, üblicherweise Top<br />
(>) genannt, wird eingeführt, um einen Typ zu schaffen, <strong>der</strong> zu allen Typen <strong>des</strong> zu beschreibenden<br />
Bereichs in einer Supertypbeziehung steht; diese Beziehung wird auch als Subsumption<br />
bezeichnet. Hiernach subsumiert ein Typ A einen Typ B (symbolisch A v B), wenn A<br />
allgemeiner ist als B (also A ein Supertyp von B ist) bzw. B von A erbt. Top subsumiert demnach<br />
alle an<strong>der</strong>en Typen aus Type.<br />
Die Subsumptionsbeziehung bildet eine partielle Ordnung über Type und ist daher :<br />
1. reflexiv: ∀t: t v t<br />
2. antisymmetrisch: ∀s,t: s v t ∧ t v s → t = s<br />
3. transitiv: ∀s,t,u: s v t ∧ t v u → s v u<br />
26
2.2.1 Konstruktion von Typsystemen<br />
Kapitel 2: Merkmalsstrukturen<br />
Es gibt nun eine Reihe unterschiedlicher Möglichkeiten, Typsysteme für Merkmalsstrukturen<br />
zu definieren. Die nachfolgend beschriebene definiert ein Typsystem als eine Menge von<br />
sog. Typformeln, die aus atomaren Typen und aussagenlogischen Konnektiven aufgebaut<br />
sind:<br />
Die Menge <strong>der</strong> Typformeln über einer Menge von atomaren Typen AtomType läßt sich als<br />
die kleinste Menge charakterisieren, die folgen<strong>des</strong> enthält:<br />
• Je<strong>der</strong> atomare Typ aus AtomType ist eine Typformel.<br />
• Wenn T, T1 und T2 Typformeln sind, dann sind auch ¬T, (T1 ∧ T2), (T1 ∨ T2), (T1 ↔ T2),<br />
(T1 | T2) und (T1 → T2) Typformeln.<br />
In Typsystemen gebrauchte Typformeln lassen sich dabei in drei Gruppen einteilen:<br />
• Subtyp: T1 → T2 („T1 ist Subtyp von T2“)<br />
• Äquivalenz: T1 ↔ T2 („T1 und T2 sind äquivalent“)<br />
• Disjunktheit: T1 | T2 (die Typen T1 und T2 sind disjunkt)<br />
Eine Teilmenge <strong>der</strong> Typformeln heißt auch eine Menge von Typaxiomen bzgl. AtomType.<br />
Beispiel 2.1:<br />
Ein Ausschnitt <strong>der</strong> in Abb. 2.3 dargestellten Hierarchie kann durch folgende Typaxiome<br />
wie<strong>der</strong>geben werden:<br />
morph_or_syn_object → ><br />
affix ↔ prefix | suffix<br />
suffix ↔ infl_affix | <strong>der</strong>ivative<br />
Die Konnektive für Implikation, Äquivalenz und Disjunktheit lassen sich in üblicher Weise<br />
eliminieren:<br />
t1 → t2 ≡ ¬ t1 ∨ t2<br />
t1 ↔ t2 ≡ t1 → t2 ∧ t2 → t1<br />
t1 | t2 ≡ ( t1 ∨ t2 ) ∧ ¬ ( t1 ∧ t2 )<br />
Ergänzt werden die Typaxiome durch eine Menge von Merkmalseinführungsaxiomen <strong>der</strong> Form<br />
(t, t1, ..., tn ∈ AtomType):<br />
t :: F 1 : t1 ∧ F 2 : t2 ∧ ... ∧ F n : tn<br />
Dieses Axiom hält fest, daß für den Typ t die Merkmale F 1 bis F n angemessen sind und <strong>der</strong><br />
Wertebereich dieser Merkmale auf die Typen t1 bis tn beschränkt ist. Merkmalseinführungen<br />
vererben sich dabei auch auf alle Subtypen von t. Wird ein Merkmal F durch mehr als einen<br />
Typ eingeführt, so handelt es sich um ein sog. Polyfeature. Im weiteren soll jedoch davon<br />
abgesehen werden.<br />
27
Kapitel 2: Merkmalsstrukturen<br />
Beispiel 2.2:<br />
In <strong>der</strong> <strong>morphologischen</strong> Grammatik werden für die Typen morph_or_syn_object und<br />
morph_object folgende Merkmalseinführungsaxiome definiert:<br />
morph_or_syn_object ::<br />
GRAPH: list ∧<br />
SYN: syntax ∧<br />
SEM: semantics<br />
morph_object ::<br />
MORPH: morph ∧<br />
STRUCTURE: list<br />
Da morph_object ein Subtyp von morph_or_syn_object ist, erbt er <strong>des</strong>sen Merkmale.<br />
Die Erfüllbarkeit einer Typformel kann nun analog zum Erfüllungsbegriff <strong>der</strong> Aussagenlogik<br />
definiert werden, indem die atomaren Typen als atomare Formeln interpretiert werden.<br />
Eine Typformel T ist erfüllbar, wenn es eine Belegung M für die atomaren Typen aus T mit w<br />
bzw. f gibt, so daß M(T) = w ist; <strong>der</strong> Wahrheitswert komplexer Formeln bestimmt sich in<br />
bekannter Weise aus den Wahrheitswerten <strong>der</strong> Teilformeln und den Wahrheitstafeln <strong>der</strong><br />
Konnektive; man schreibt in gewohnter Form auch M T.<br />
Mit Hilfe <strong>der</strong> Erfüllbarkeit läßt sich auch die Subsumptionsrelation v zwischen zwei Typen t1<br />
und t2 definieren. Es sei Σ das zugrundegelegte Typaxiomssystem, d.h. die Menge <strong>der</strong><br />
Typaxiome. Man sagt, t1 subsumiert t2 in Σ, symbolisch t1 v t2, wenn die Formel t2 → t1 eine<br />
logische Folgerung aus Σ ist.<br />
Die Unifikation zweier Typen t1 und t2 – symbolisch t1 t t2 – ist definiert, wenn Σ ∪ { t1 ∧ t2 }<br />
erfüllbar ist; an<strong>der</strong>nfalls gilt t1 t t2 = ? („?“ steht für den inkonsistenten Typ).<br />
2.3 Subsumption<br />
Nicht nur für Typen, son<strong>der</strong>n auch für Merkmalsstrukturen kann man eine Subsumptionsrelation<br />
definieren: Subsumption definiert dann eine partielle Ordnung über Merkmalsstrukturen<br />
hinsichtlich ihres Grads an Spezifizität. Intuitiv gesprochen subsumiert eine<br />
Merkmalsstruktur A eine an<strong>der</strong>e Merkmalsstruktur B (notiert als A v B), wenn A allgemeiner<br />
ist als B o<strong>der</strong> - an<strong>der</strong>s formuliert - wenn die Menge <strong>der</strong> von B charakterisierten Objekte <strong>des</strong><br />
Diskursuniversums eine Teilmenge <strong>der</strong> von A beschriebenen bildet. Formal kann Subsumption<br />
als Homomorphismus zwischen zwei Merkmalsstrukturen definiert werden, die<br />
durch deterministische endliche Automaten gegeben sind.<br />
Definition 2.1: Subsumption zweier Merkmalsstrukturen<br />
Eine Merkmalsstruktur F = subsumiert eine Merkmalsstruktur F’ =<br />
gdw. es eine totale Funktion h: Q � Q’ gibt, so daß gilt:<br />
1. h(q0 ) = q’0<br />
2. θ(q ) v θ‘(h(q)) für alle q ∈ Q<br />
3. h(δ (F, q)) = δ‘(F, h(q)) für alle q ∈ Q und Merkmale F, für die δ(F, q) definiert ist.<br />
28
Beispiel 2.3: Subsumption<br />
AGR: PERS:<br />
sign<br />
in Automatendarstellung:<br />
agr<br />
und sign v phrase, agr v agr, 1 v 1<br />
Kapitel 2: Merkmalsstrukturen<br />
1<br />
gdw.<br />
sign phrase<br />
PERS:<br />
AGR:<br />
NUM:<br />
agr<br />
phrase<br />
Die Subsumption zweier Merkmalsstrukturen wird demnach auf das Vorhandensein eines<br />
Homomorphismus und die im vorigen Abschnitt definierte Typensubsumption zurückgeführt.<br />
2.4 Beschreibungslogik<br />
An dieser Stelle angekommen könnte man nun versuchen, grammatische Prozesse und Phänomene<br />
durch typisierte Merkmalsstrukturen zu beschreiben. Es zeigt sich aber, daß Merkmalsstrukturen<br />
in mancher Ansicht zur adäquaten Beschreibung <strong>des</strong> Gegenstandsbereichs<br />
noch zu kurz greifen:<br />
1. Häufig tritt <strong>der</strong> Fall auf, daß Lexikoneinträge und phrasale Elemente hinsichtlich gewisser<br />
Merkmale wie beispielsweise Kasus unterspezifiziert, d.h. letztendlich disjunktiv spezifiziert<br />
sind. Dieser Disjunktion hinsichtlich <strong>der</strong> Merkmalswerte läßt sich ohne Erweiterung<br />
<strong>des</strong> formalen Apparats nur so begegnen, daß man sie auf die Gesamtstruktur überträgt,<br />
daß man also z.B. einer Wortform wie Haus mit Kasuswert Nominativ, Akkusativ<br />
o<strong>der</strong> Dativ statt einer Merkmalsstruktur drei verschiedene zuordnet, was natürlich dazu<br />
führt, daß gleichbleibende Merkmalswerte in unnötiger Weise dupliziert werden. Treten<br />
mehrere Disjunktionen an verschiedenen Fällen auf, so ergibt sich somit ein exponentielles<br />
Anwachsen <strong>der</strong> Zahl <strong>der</strong> Merkmalsstrukturen bei <strong>der</strong> Ausmultiplikation, was letztendlich<br />
zu schweren Verarbeitungsproblemen führt.<br />
29<br />
1<br />
sing
Kapitel 2: Merkmalsstrukturen<br />
2. Die Möglichkeit, Merkmalswerte zu negieren, kann zur konzisen Beschreibung <strong>des</strong> Phänomenbereichs<br />
beitragen. Hierbei kann man zwei verschiedene Anwendungsbereiche<br />
unterscheiden (vgl. Carpenter (1992:111):<br />
• Abkürzende Negation: Eine Struktur [CASE: ¬gen] kann vor dem Hintergrund eines<br />
Typsystems - allerdings auf Kosten <strong>der</strong> Beschreibungskürze - durch eine endliche<br />
Disjunktion von Werten [CASE: nom ∨ acc ∨ dat] repräsentiert werden. Dieser abkürzende<br />
Gebrauch <strong>der</strong> Negation reduziert sich daher auf die Disjunktion.<br />
• Nicht-abkürzende Negation: Diese läßt sich nicht auf die beschriebene Weise reduzieren<br />
und wird dann verwendet, wenn ausgedrückt werden soll, daß zwei verschiedene<br />
Pfade in einer Struktur F in keiner Struktur F’, die F erweitert, reentrant, d.h. tokenidentisch<br />
werden können.<br />
Disjunktion und Negation können nun nicht ohne weiteres in den Formalismus <strong>der</strong> typisierten<br />
Merkmalsstrukturen integriert werden. Auf <strong>der</strong> an<strong>der</strong>en Seite waren diese Operationen<br />
von vornherein Bestandteil von Logiken wie <strong>der</strong> Aussagenlogik, so daß die Lösung für<br />
das oben beschriebene Integrationsproblem im Wechsel von <strong>der</strong> Ebene <strong>der</strong> Merkmalsstrukturen<br />
auf eine logische Ebene liegt. Hierzu haben Kasper und Rounds (1986) eine Beschreibungslogik<br />
für untypisierte Merkmalsstrukturen entwickelt; sie wird hier in <strong>der</strong> Version von<br />
Smolka (1992) wie<strong>der</strong>gegeben, die um Typen und Variablenbindungen erweitert worden ist.<br />
Die Formeln <strong>der</strong> Beschreibungslogik (auch Merkmalsterme bzw. feature terms genannt) bezüglich<br />
einer Menge Feat von Merkmalsnamen, einer Menge AtomType von atomaren Typen<br />
und einer Menge Var von Variablen sind gegeben durch die kleinste Menge Desc, die<br />
folgen<strong>des</strong> enthält:<br />
• > („Top“)<br />
• ? („Bottom“)<br />
• X (für alle X ∈ Var)<br />
• t für alle t ∈ AtomType<br />
• F : φ, wobei F ∈ Feat<br />
• ( φ ∧ ψ )<br />
• ( φ ∨ ψ )<br />
• X ≈ φ (X ∈ Var)<br />
• ¬ (φ)<br />
• π 1 = π 2<br />
• s(φ 1 ,..., φ n ) (für φ 1 ... φ n ∈ Desc, n ≥ 0)<br />
Bottom ? bezeichnet einen inkonsistenten Merkmalsterm, d.h. denotiert die leere Menge.<br />
Die Metasymbole φ und ψ bezeichnen Merkmalsterme, π1 und π2 sind Pfade aus Feat*.<br />
X ≈ φ repräsentiert die Bindung <strong>des</strong> Merkmalsterms φ an die Variable X; hiervon wird vor<br />
allen Dingen bei <strong>der</strong> Konstruktion von Normalformen (s.u.) Gebrauch gemacht.<br />
Teilformeln <strong>der</strong> Form π 1 = π 2 sind sog. Pfadgleichungen. Neben Variablen dienen sie dazu,<br />
reentrante Merkmalsstrukturen zu charakterisieren.<br />
Beispiel 2.4:<br />
F:a ∧ F = G hat in seinem Denotat beispielsweise<br />
folgende Merkmalsstruktur:<br />
30<br />
F: 1 a<br />
G: 1
Kapitel 2: Merkmalsstrukturen<br />
Das Symbol s ist ein sog. Sortensymbol, welches durch Argumente parametrisiert werden<br />
kann. Sorten werden durch eine Menge von Sortenklauseln<br />
() ← <br />
eingeführt und können als Funktionen (doch s.u.) aufgefaßt werden, die in Abhängigkeit<br />
von ihren Parametern Merkmalsterme zurückgeben. Der eine Sorte s definierende Merkmalsterm<br />
T kann an<strong>der</strong>e Sortensymbole o<strong>der</strong> auch direkt o<strong>der</strong> indirekt wie<strong>der</strong>um s enthalten;<br />
letzterer Typ von Sorte heißt auch rekursiv. Die Argumente einer Sortendefinition werden<br />
auch formale Parameter genannt. Die Verwendung einer Sorte in einem Merkmalsterm<br />
heißt auch Sortenaufruf, <strong>des</strong>sen Argumente werden aktuelle Parameter genannt.<br />
Zur Vereinfachung <strong>der</strong> in Abschnitt 2.4.2 beschriebenen Bildung von Normalformen werden<br />
noch folgenden Bedingungen für Sortendefinitionen festgelegt:<br />
a) Die formalen Parameter φ i einer Sortendefinition dürfen keine Disjunktionen enthalten.<br />
Dies än<strong>der</strong>t nichts an <strong>der</strong> Ausdrucksfähigkeit <strong>des</strong> Formalismus, da etwaige Disjunktionen<br />
durch alternative Klauseln einer Sortendefinition repräsentiert werden können.<br />
b) In den formalen Parametern vorkommende Variablen dürfen nicht negiert sein.<br />
c) Die φ i sowie <strong>der</strong> rechts von ← stehende Merkmalsterm sind selbst konsistent, d.h. denotieren<br />
nicht-leere Mengen (s.u.).<br />
Sorten werden nun in grammatischen Beschreibungen auf zweifache Weise eingesetzt:<br />
a) Nicht-rekursive Sorten spielen die Rolle <strong>der</strong> Templates von PATR-II (vgl. Shieber (1986a)),<br />
d.h. ein immer wie<strong>der</strong>kehren<strong>der</strong> Merkmalsterm T kann durch einen Funktionsaufruf<br />
einer Sorte s ersetzt werden, <strong>der</strong> genau zu T evaluiert.<br />
Beispiel 2.5:<br />
third_sing ← agr(3,sing)<br />
agr(Person,Number) ← SYN:HEAD:AGR:(PERSON:Person ∧ NUMBER:Number)<br />
lex(“kennt“) ← FORM:“kennt“ ∧ SYN:HEAD:CAT:verb ∧ third_sing<br />
b) Rekursive Sorten können dazu verwendet werden, Beziehungen in rekursiv spezifizierten<br />
Merkmalsstrukturen zu erfassen:<br />
Beispiel 2.6:<br />
append(elist, L) ← L<br />
append(HEAD:H ∧ TAIL:T, L) ← HEAD:H ∧ TAIL:append(T, L)<br />
Die Attribute HEAD und TAIL kodieren den Kopf bzw. Rest einer Liste. Beispielsweise wird<br />
die Liste [a,b,c] als HEAD:a ∧ TAIL:(HEAD:b ∧ TAIL:(HEAD:c ∧ TAIL:elist)) repräsentiert; elist<br />
steht dabei für die leere Liste.<br />
Sorten können darüber hinaus mit einer Typdeklaration <strong>der</strong> Form<br />
s(t1,...,tn) -> t<br />
versehen werden. Da die aktuellen und formalen Sortenparameter mit diesen Typen kompatibel<br />
sein müssen, können Typisierungsfehler frühzeitig schon während <strong>der</strong> Überset-<br />
zungsphase<br />
erkannt werden.<br />
31
Kapitel 2: Merkmalsstrukturen<br />
Beispiel 2.7:<br />
Die oben beschriebene Sorte append/2 kann durch folgende Typdeklaration ergänzt werden:<br />
append(list, list) -> list<br />
Gibt man keine Typdeklaration an, so wird die Sorte implizit mit<br />
s(>,...,>) -> ><br />
typisiert.<br />
Sorten sehen wie Funktionen aus (sie werden daher in den folgenden Kapiteln auch immer<br />
wie<strong>der</strong> Funktionen genannt), sie sind aber Relationen, bei denen ein Argument, <strong>der</strong> Resultatparameter,<br />
beson<strong>der</strong>s hervorgehoben ist. Sie sind keine Funktionen, da sie nichtdeterministisch<br />
sein können, also mehr als ein Ergebnis als „Funktionswert“ zurückgeben.<br />
2.4.1 Semantik von Merkmalstermen<br />
Eine Möglichkeit, Merkmalsterme zu interpretieren, sind sog. Merkmalsalgebren (engl. feature<br />
graph algebras):<br />
Eine (erweiterte) Merkmalsalgebra relativ zu einer Menge Feat von Merkmalen, einer Menge<br />
Type von Typen und einer Menge Sorts von Sortensymbolen ist ein Tripel , wobei<br />
D eine nicht-leere Menge und θ D eine totale Funktion <strong>der</strong> Form θ D : D � Type ist, die jedem<br />
Element aus D einen Typ zuweist.<br />
I, die Interpretationsfunktion, weist jedem Merkmal F aus Feat eine einstellige partielle<br />
Funktion I(F) 2 : D � D zu. Merkmale werden demnach als unäre Funktionen gesehen. Dar-<br />
über hinaus ordnet I jedem n-stelligen Sortensymbol s eine n+1-stellige Relation Rs zu; die<br />
letzte Argumentstelle dient zur Repräsentation <strong>des</strong> „Funktionsergebnisses“ einer Sorte.<br />
Setzt man nun D mit <strong>der</strong> Menge <strong>der</strong> typisierten Merkmalsstrukturen F gleich und for<strong>der</strong>t<br />
darüber hinaus, daß<br />
• F I (A) = A’ gdw. A@ F = A’ und<br />
• θ D (A) = θ(q0), falls A = <br />
gilt, so erhält man eine sog. Merkmalsgraphalgebra. Vor dem Hintergrund solcher Merkmalsgraphalgebren<br />
kann dann die Denonat einer Formel <strong>der</strong> Beschreibunglogik φ in Form einer<br />
Menge von Merkmalsgraphen (also Merkmalsstrukturen) angegeben werden. Für Einzelheiten<br />
dazu möchte ich auf Smolka (1992) und Carpenter (1992) verweisen.<br />
2.4.2 Normalformen<br />
Die von einem Merkmalsterm denotierte Menge kann, in Abhängigkeit von <strong>der</strong> gewählten<br />
Menge D, unendlich groß sein. Beispielsweise ist die von einem Typ list denotierte Menge<br />
unendlich und umfaßt alle Merkmalsgraphen, die entwe<strong>der</strong> vom Typ elist (leere Liste) sind<br />
o<strong>der</strong> vom Typ nelist (nicht-leere Liste) mit den Merkmalen HEAD und TAIL. Damit stellt sich<br />
die Frage, wie man Mengen von Merkmalsgraphen auf endliche Weise charakterisiert (vgl.<br />
auch Johnson (1988, 1994)). Eine Möglichkeit hierzu ist natürlich <strong>der</strong> (endliche) Merkmalsterm<br />
selbst, wobei es zweckmäßig ist, ihn in eine Normalform, hier DNF, zu bringen, um<br />
festzustellen, ob er überhaupt eine nicht-leere Menge denotiert. Wenn dies <strong>der</strong> Fall ist, dann<br />
kann aus jedem Disjunkt <strong>der</strong> DNF direkt ein Merkmalsgraph in Matrixnotation abgelesen<br />
werden.<br />
2 I(F) wird im folgenden <strong>der</strong> Einfachheit halber als F I geschrieben.<br />
32
Kapitel 2: Merkmalsstrukturen<br />
Dies leistet folgen<strong>des</strong> System von logischen Äquivalenzen (nach Carpenter (1992), adapiert<br />
an das verwendete aussagenlogische Typsystem und den Sortenmechanimus): 3<br />
1. Konnektive<br />
a) >∨ φ ≡ > >∧ φ ≡ φ<br />
b) ?∨ φ ≡ φ ? ∧ φ ≡ ?<br />
c) φ ∧ ψ ≡ ψ ∧ φ φ ∨ ψ ≡ ψ ∨ φ Kommutativität<br />
d) (φ ∧ ψ) ∧ ξ ≡ (φ ∧ ψ) ∧ ξ (φ ∨ ψ) ∨ ξ ≡ (φ ∨ ψ) ∨ ξ Assoziativität<br />
e) φ ∧ (ψ ∨ ξ) ≡ (φ ∧ ψ) ∨ (φ ∧ ξ) φ ∨ (ψ ∧ ξ) ≡ (φ ∨ ψ) ∧ (φ ∨ ξ) Distributivität<br />
f) φ ∧ φ ≡ φ φ ∨ φ ≡ φ Idempotenz<br />
g) (φ ∨ ψ) ∧ φ ≡ φ (φ ∧ ψ) ∨ φ ≡ φ Absorption<br />
h) ¬¬ φ ≡ φ Doppelte<br />
Negation<br />
i) ¬ (φ ∧ ψ) ≡ ¬ φ ∨ ¬ ψ ¬(φ ∨ ψ) ≡ ¬ φ ∧ ¬ ψ DeMorgan-Regeln<br />
j) ¬ (F : φ) ≡ ¬Domain(F) ∨ F :¬φ Merkmalsnegation<br />
Die unter 1a) - 1i) aufgeführten Äquivalenzen entsprechen denen <strong>der</strong> Aussagenlogik. 1j) regelt<br />
die Negation eines Merkmal-Wert-Paares. Da Merkmale partielle Funktionen denotieren,<br />
heißt ¬(F : φ), daß entwe<strong>der</strong> F I auf den Objekten <strong>des</strong> Denotats dieser Formel nicht definiert<br />
ist, o<strong>der</strong> an<strong>der</strong>nfalls zwar definiert ist, diese aber nicht in Objekte <strong>des</strong> Denotats von φ<br />
abbildet. Domain(F) ist <strong>der</strong> Typ, auf dem F und damit F I definiert ist.<br />
2. Pfadgleichungen<br />
a)<br />
b)<br />
π = π ≡ π = π 1 2 2 1<br />
π = π ∧ π = π ≡<br />
1 2 2 3<br />
π = π ∧ π = π ∧ π = π 1 2 2 3 1 3<br />
Pfadsymmetrie<br />
Pfadtransitivität<br />
3. Pfad-Wert-Paare<br />
a) π 1 :(π 2 : φ) ≡ (π 1 π 2 ):φ ≡ π 1 π 2 :φ Pfadassoziativität<br />
b) π:? ≡ ? Inkonsistenz-<br />
propagierung<br />
c) π:φ ∧ π:ψ ≡ π:(φ ∧ ψ) π:φ ∨ π:ψ ≡ π:(φ ∨ ψ) Pfaddistributivität<br />
d) π:(π 1 = π 2 ) ≡ π:π 1 = π:π 2<br />
3b) sorgt für die Inkonsistenz eines Terms, <strong>der</strong> einen unter einem Pfad eingebetteten inkonsistenten<br />
Subterm enthält.<br />
4. Variablen<br />
a) π :X ∧ π :Y ∧ X ≈ Y ≡<br />
1 2<br />
π :X ∧ π :Y ∧ π = π 1 2 1 2<br />
b) π :X ∧ π :X ≡<br />
1 2<br />
π :X ∧ π = π 1 1 2<br />
c) π: X ∧ X ≈ φ ≡ π: (X ∧ φ)<br />
Eliminierung von<br />
Variablenbindungen<br />
Variablen-Pfad-<br />
Äquivalenz<br />
Eliminierung von VB<br />
d) X ≈ Y ≡ Y ≈ X Symmetrie von<br />
Variablenbindungen<br />
e) X ≈ Y ∧ Y ≈ Z ≡<br />
Transitivität von<br />
X ≈ Y ∧ Y ≈ Z ∧ X ≈ Z<br />
Variablenbindungen<br />
3 φ, ψ, ξ bezeichnen beliebige Merkmalsterme; F, G ,... Merkmale; π, π1, π2 Pfade; X,Y, ... Variablen;<br />
t, t1, t2 ... Typen.<br />
33
Kapitel 2: Merkmalsstrukturen<br />
f) X ≈ φ ∧ X ≈ ψ ≡ X ≈ (φ ∧ ψ) Konjunktion von<br />
Variablenbindungen<br />
g) X ≈ Y ∧ π: X ≡ X ≈ Y ∧ π: Y Substitution<br />
h) π: (X ≈ φ) ≡ π:> ∧ (X ≈ φ) Propagierung einer<br />
Variablenbindung<br />
Die Äquivalenzen 4a) bis 4c) zeigen, daß Variablenbindungen und das Vorkommen identischer<br />
Variablen zugunsten von Pfadgleichungen eliminiert werden können. 4h) zeigt, daß<br />
die Bindung einer Variablen an einen Merkmalsterm nicht von <strong>der</strong> Einbettungstiefe abhängt.<br />
Ein Beispiel soll einige <strong>der</strong> Äquivalenzen demonstrieren:<br />
Beispiel 2.8:<br />
Der Merkmalsterm F: X ∧ G:Y ∧ H: X ∧ X ≈ Y kann wie folgt transformiert werden:<br />
F: X ∧ G:Y ∧ X ≈ Y ∧ H: X ≡ (4a)<br />
F: X ∧ G:Y ∧ F = G ∧ H: X ≡ (4b)<br />
F: X ∧ G:Y ∧ F = G ∧ F = H ≡ (2a,b)<br />
F: X ∧ G:Y ∧ F = G ∧ F = H ∧ G = H<br />
5. Typen<br />
a) t1 ∧ t2 ≡ φ wobei<br />
φ = ? , falls t1 t t2 = ?<br />
φ = t1 , falls t1 t t2 ≠ ? und t2 v t1<br />
φ = t2 , falls t1 t t2 ≠ ? und t1 v t2<br />
φ = t1 ∧ t2, an<strong>der</strong>nfalls<br />
5a) regelt die Umsetzung zweier Typen t1 und t2. Ist <strong>der</strong>en Unifikation definiert, so ist das<br />
Ergebnis t1 ∧ t2 , an<strong>der</strong>nfalls ?. Subsumiert einer <strong>der</strong> Typen den jeweils an<strong>der</strong>en, so kann<br />
dieser Ausdruck auf den jeweils spezifischeren Typ reduziert werden.<br />
Beispiel 2.9:<br />
Vor dem Hintergrund <strong>des</strong> folgen<strong>des</strong> Typaxiomsystems<br />
affix ↔ prefix | suffix<br />
cat ↔ nominal | verbal<br />
gilt beispielsweise:<br />
affix ∧ suffix ≡ suffix<br />
suffix ∧ nominal ≡ suffix ∧ nominal<br />
prefix ∧ suffix ≡ ?<br />
34
Kapitel 2: Merkmalsstrukturen<br />
6. Merkmalseinführung („Monofeatures“)<br />
a) F: φ ≡ t ∧ F :(φ ∧ t1) falls es ein Merkmalseinführungsaxiom<br />
t :: ... ∧ F : t1 ∧ ... gibt<br />
Die Äquivalenz 6a) regelt die Typisierung von Merkmalsstrukturen. Wird in einer Formel<br />
ein Merkmal F gebraucht, so wird zu dieser Formel <strong>der</strong>jenige Typ t konjugiert, dem dieses<br />
Merkmal angemessen ist. 6a) geht allerdings davon aus, daß je<strong>des</strong> Merkmal von genau einem<br />
Typ eingeführt wird. Im Falle <strong>der</strong> oben erwähnten Polyfeatures muß die Äquivalenz<br />
folgen<strong>der</strong>maßen aussehen (vgl. auch König (1998)):<br />
6. Merkmalseinführung (allg. Fassung)<br />
a’) F : φ ≡ (t1 ∨ ... ∨ tn) ∧ F : φ ∧<br />
(t1 → F : t1’) ∧ ... ∧ (tn → F : tn’ ) 4<br />
falls es Merkmalseinführungsaxiome<br />
t1 :: ... ∧ F : t1’ ∧ ... bis<br />
tn :: ... ∧ F : tn’ ∧ ... gibt<br />
Ein Merkmal F bewirkt demnach das Hinzufügen einer Disjunktion <strong>der</strong>jeniger Typen, die F<br />
einführen. In Abhängigkeit vom „zutreffenden“ Typ wird dann <strong>der</strong> Typ von F gemäß <strong>des</strong><br />
Merkmalseinführungsaxioms festgelegt.<br />
Sortendefinitionen entsprechen in naheliegen<strong>der</strong> Weise <strong>der</strong> Definition von Hornklauseln in<br />
Programmiersprachen wie Prolog, d.h. ein Sortenaufruf wird mit dem Kopf einer Sortendefinition<br />
in Übereinstimmung gebracht und dann durch den Rumpf <strong>der</strong> Definition ersetzt.<br />
Das Problem bei <strong>der</strong> Verwendung von Sorten ist, daß sich Bindungen von Merkmalstermen<br />
an die Variablen <strong>der</strong> formalen Sortenparametern auf den Merkmalsterm im Sortenrumpf<br />
auswirken können. Die Situation wird dadurch noch komplizierter, daß auch Bindungen<br />
über Variablen möglich sind, die in den aktuellen Parametern eines Sortenaufrufs und<br />
außerhalb davon vorkommen.<br />
Beispiel 2.10:<br />
Gegeben seien die folgenden Sortendefinitionen:<br />
s 1 (X ∧ G:b) ← X<br />
s 2 (F:a) ← G:b<br />
und die auszuwertenden Merkmalsterme:<br />
1. s 1 (F:a)<br />
2. X ∧ s 2 (X)<br />
Im Falle von 1. wird die Variable X an F:a ∧ G:b gebunden und im Rumpf substituiert, so daß<br />
<strong>der</strong> Term zu F:a ∧ G:b äquivalent ist.<br />
Bei 2. wird X durch den formalen Sortenparameter von s2 an F:a gebunden, so daß <strong>der</strong> Term<br />
zu F:a ∧ G:b evaluiert werden kann (s.u.).<br />
Die Sachlage wird auch noch dadurch komplexer, daß im Sortenaufruf Disjunktionen enthalten<br />
sein und Variablen in den formalen Sortenparametern und im Sortenrumpf mehrfach<br />
4 Die Implikationen können in <strong>der</strong> üblichen Weise eliminiert werden und dienen nur <strong>der</strong> größeren<br />
Anschaulichkeit.<br />
35
Kapitel 2: Merkmalsstrukturen<br />
vorkommen können. Zudem ist die Bindung von Variablen an Terme nicht wie im herkömmlichen<br />
prädikatenlogischen Resolutionsverfahren (vgl. Chang/Lee (1973), Schöning<br />
(1989)) durch ihre feste Position innerhalb eines Terms festgelegt, son<strong>der</strong>n ergibt sich erst<br />
durch eine Normalisierung <strong>des</strong> Merkmalsterms. Dies soll im folgenden konkreter gemacht<br />
werden.<br />
7. Sorten<br />
a) s(φ 1 ,...,φ n ) ≡<br />
(Eval(, s(ψ 1,1 ,..., ψ 1,n ) ← ψ 1 , s(t1,...,tn) -> t))<br />
∨ .... ∨<br />
(Eval(, s(ψ k,1 ,..., ψ k,n ) ← ψ k , s(t1,...,tn) -> t))<br />
falls es Sortendefinitionen<br />
s(ψ 1,1 ,..., ψ 1,n ) ← ψ 1 bis<br />
s(ψ k,1 ,..., ψ k,n ) ← ψ k<br />
u. eine Typdeklaration für s<br />
s(t1,...,tn) -> t gibt<br />
Bevor die Funktion Eval genauer erläutert wird, benötigt man noch eine spezielle Version<br />
von disjunktiver Normalform, genannt VDNF, die es erlaubt, Variablenbindungen in den<br />
formalen Parametern einer Sortenklausel deutlich zu machen. Ein Merkmalsterm ist in<br />
VDNF, wenn er die Form φ 1 ∨ φ 2 ∨ ... ∨ φ k (k ≥ 1) hat und für je<strong>des</strong> Disjunkt φ i (das aus einer<br />
Konjunktion von literalen Merkmalstermen (s.u.) besteht) gilt:<br />
• Es seien X 1 ... X m die Variablen unter den Konjunkten in φ i .<br />
Ist m > 0, dann hat φ i die Form [X 1 ∧ (φ i,1 ∧ ... ∧ φ i,l )] ∧ ... ∧ [X m ∧ (φ i,1 ∧ ... ∧ φ i,l )], an<strong>der</strong>nfalls<br />
die Form φ i,1 ∧ ... ∧ φ i,l . Dies ist aufgrund <strong>der</strong> Assoziativität und Kommutativität von ∧ in<br />
jedem Falle möglich.<br />
• „Untergeordnete“ Konjunktionen sind aufgrund <strong>der</strong> Äquivalenz 3c) soweit wie möglich<br />
unter Pfade eingebettet. Beispielsweise wird F:a ∧ F:b zu F :(a ∧ b).<br />
• Terme <strong>der</strong> Form X ≈ φ wurden aufgrund <strong>der</strong> Äquivalenz 4c) beseitigt.<br />
Je<strong>des</strong> maximale Konjunkt T <strong>der</strong> Form X ∧ (φ 1 ∧ ... ∧ φ l ) für l ≥ 1 (die φ i sind keine Variablen)<br />
heißt auch Variablenbindung für X bzgl. T. Ist l = 0, dann heißt die Variable ungebunden. Die<br />
Variablenbindung für X bzgl. eines Merkmalsterms ψ (=ψ 1 ∨ ... ∨ ψ k ) in VDNF, Bind(X, ψ), ist<br />
φ 1 ∨ ... ∨ φ m für alle Variablenbindungen X ∧ φ i in den ψ j (1 ≤ i ≤ k). Ist X ungebunden in ψ,<br />
dann ist Bind(X, ψ) = >.<br />
Schließlich ist die Variablenbindung für X bzgl. einer Menge S von Merkmalstermen in VDNF,<br />
formal BindS(X, S), die Konjunktion aller Bind(X,ψ) für ψ ∈ S. BindS wird gebraucht, um die<br />
Bindung einer Variablen X zu erfassen, die in mehr als einem formalen Parameter einer Sorte<br />
s vorkommt.<br />
Beispiel 2.11:<br />
Bind(X, (X ∧ F:a) ∨ (X ∧ G:b) ) = F:a ∨ G:b<br />
BindS(X, { (X ∧ F:a) ∨ (X ∧ G:b), X ∧ H:c } ) = ( F:a ∨ G:b ) ∧ H:c<br />
Es liegt auf <strong>der</strong> Hand, daß Variablenbindungen hier die gleiche Rolle wie die Variablensubstitution<br />
bei prädikatenlogischen Termen fester Stelligkeit spielen.<br />
Die Variablen in einer Sortendefinition s(ψ 1 ,...,ψ n ) ← ψ können in drei Gruppen eingeteilt<br />
werden:<br />
1. solche, die nur in ψ vorkommen<br />
2. solche, die nur in ψ 1 ,...,ψ n vorkommen<br />
3. solche, die in ψ und ψ 1 ,...,ψ n vorkommen<br />
36
Kapitel 2: Merkmalsstrukturen<br />
Variablen <strong>der</strong> ersten Gruppe müssen bei <strong>der</strong> Auswertung eines Sortenaufrufs nicht beson<strong>der</strong>s<br />
behandelt werden, solange sie nicht auch in dem Term auftreten, <strong>der</strong> den Sortenaufruf<br />
enthält; dem kann durch Variablenumbenennung begegnet werden. Die Variablen unter 2.<br />
können – wenn sie in mehr als einem <strong>der</strong> ψ i vorkommen –, zu Inkonsistenzen und damit<br />
einer Nichtanwendbarkeit einer Sortendefinition führen. Zusätzlich dazu müssen bei den<br />
Variablen unter 3. noch Substitutionen im Sortenrumpf durchgeführt werden.<br />
Es sei S eine Menge von Merkmalstermen. Vars(S) sei die Menge aller Variablen, die in den<br />
Termen in S vorkommen.<br />
Eval gibt einen Merkmalsterm zurück und ist wie folgt definiert:<br />
Algorithmus 2.1: Evaluation eines Sortenaufrufs<br />
Eingabe Die aktuellen Parameter φ ,...φ eines Sortenaufrufs,<br />
1 n<br />
eine Sortendefinition s(ψ ,..., ψ ) ← ψ und<br />
1 n<br />
eine Typdeklaration s(t1,...,tn) -> t<br />
Ausgabe Ein Mermalsterm<br />
Verfahren 1<br />
2<br />
function Eval(, s(ψ ,..., ψ ) ← ψ, -> t): Desc<br />
1 n 1 n<br />
begin<br />
3<br />
4<br />
Rename the variables in ψ ,...,ψ , ψ consistently<br />
1 n<br />
such that they have names which were never used before<br />
5 for i = 1 to n do begin<br />
6<br />
7<br />
8 end<br />
ϕ = VDNF(φ ∧ ψ ∧ ti)<br />
i i i<br />
if ϕ = ? then return(?)<br />
i<br />
9<br />
10<br />
11<br />
12<br />
13<br />
14<br />
15<br />
16<br />
17<br />
18<br />
19<br />
20<br />
21<br />
end<br />
for all V ∈ Vars({ϕ 1 ,...,ϕ n }) do begin<br />
σ V = BindS(V,{ϕ 1 ,...,ϕ n })<br />
if σ V = ? then return(?)<br />
if ψ contains V once then<br />
replace V in ψ by σ V<br />
else if ψ contains V more than once then<br />
replace the first occurence of V in ψ by V ∧ σ V<br />
if V ∈ Vars({φ 1 ,...φ n }) then<br />
let ψ = ψ ∧ V ≈ σ V<br />
end<br />
return(ψ)<br />
Algorithmus 2.1: Evaluierung eines Sortenaufrufs s(φ1,...φn)<br />
Die Schleife von 5-8 bildet die VDNF <strong>der</strong> Konjunktion von den korrespondierenden formalen<br />
und aktuellen Parametern mit dem für die jeweilige Argumentstelle gegebenen Typen.<br />
Resultiert daraus eine Inkonsistenz, so gibt Eval ebenfalls ? zurück, was die Nichtanwendbarkeit<br />
<strong>der</strong> gegebenen Sortendefinition signalisiert. Dies ist beispielsweise bei einem Sortenaufruf<br />
s(F:a) und einer Sortendefinition s(F:b) ← G:a <strong>der</strong> Fall, falls die Typen a und b nicht<br />
unifizierbar sind.<br />
In <strong>der</strong> Schleife von 10-18 wird dann für jede Variable V in den ϕ i <strong>der</strong>en Bindung σ V ermittelt.<br />
Erscheint V im Sortenrumpf ψ, so wird ihr erstes Auftreten durch σ V ersetzt; für die weiteren<br />
Vorkommen ist das nicht mehr nötig. Zusätzlich wird an das Ergebnis für jede Variable, die<br />
in den aktuellen Parametern ϕ i vorkam, ein Ausdruck <strong>der</strong> Form V ≈ σ V hinzugefügt, um<br />
Bindungen dieser Variablen in den den Sortenaufruf enthaltenden Term zu „tragen“, was im<br />
folgenden Beispiel noch einmal demonstriert werden soll:<br />
37
Kapitel 2: Merkmalsstrukturen<br />
Beispiel 2.12:<br />
Gegeben seien die folgenden Sortendefinitionen s(F:a) ← G:b und <strong>der</strong> auszuwertende Merkmalsterm<br />
H:X ∧ s(X). Die Typisierung <strong>der</strong> Sorte s sei hier vernachlässigt.<br />
Ausgewertet wird: Eval(s(X), s(F:a) ← G:b , ... )<br />
Variablenbindung für X: σ X = F:a<br />
Ergebnis von Eval: G:b ∧ X ≈ F:a, d.h. <strong>der</strong> Gesamtterm ist: H:X ∧ G:b ∧ X ≈ F:a<br />
Dies kann mit 4c) vereinfacht werden zu: H:(X ∧ F:a) ∧ G:b<br />
Man sieht daran, daß X ≈ φ nicht äquivalent zu X ∧ φ ist. Wäre dies <strong>der</strong> Fall, dann wäre das<br />
Ergebnis in Beispiel 2.12 gleich H:X ∧ G:b ∧ X ∧ F:a, ein zyklischer Term.<br />
Anstelle eines formalen Beweises, <strong>der</strong> wie<strong>der</strong>um außerhalb <strong>des</strong> Rahmens einer solchen<br />
Übersicht liegt, sollen nochmals die vier Basisfälle beim Sortenaufruf charakterisiert weren5<br />
d :<br />
SortenSorten- Resultat von<br />
Kommentar<br />
definitionaufruf Eval<br />
1. s(a) ← ψ s(a) ψ Die formalen Parameter und <strong>der</strong> Aufruf <strong>der</strong><br />
Sorte enthalten keine Variablen<br />
⇒ <strong>der</strong> Aufruf wird literal durch den<br />
Sortenrumpf ersetzt<br />
2. s(a) ← ψ s(X) ψ ∧ X ≈ a Die formalen Parameter enthalten keine<br />
Variablen, an<strong>der</strong>s als <strong>der</strong> Aufruf <strong>der</strong> Sorte.<br />
⇒ <strong>der</strong> Aufruf wird literal durch den Sortenrumpf<br />
ersetzt, hinzu tritt aber noch eine Aufzeichnung<br />
<strong>der</strong> Bindung von X, da X außerhalb<br />
<strong>des</strong> Sortenaufrufs auftreten kann.<br />
3. s(X) ← ψ[X] s(a) ψ[X/a] Eine Variable X aus einem formalen<br />
bzw. Parameter kommt im Rumpf <strong>der</strong><br />
ψ[X/X ∧ a] Sortendefinition ein- o<strong>der</strong> mehrfach vor. Der<br />
aktuelle Parameter enthält keine Variable.<br />
⇒ Je nachdem ob X in ψ einfach o<strong>der</strong> mehrfach<br />
vorkommt, wird es durch a bzw. X ∧ a<br />
ersetzt.<br />
4. s(X) ← ψ[X] s(Y) ψ[X/Y] ∧ Y ≈ X Variablen kommen sowohl in den formalen<br />
bzw. als auch aktuellen Parametern vor.<br />
ψ[X/X∧Y] ∧ Y≈X ⇒ Je nachdem ob X in ψ einfach o<strong>der</strong> mehrfach<br />
vorkommt, wird es durch Y bzw.<br />
X ∧ Y ersetzt.<br />
Tabelle 2.1: Basisfälle bei <strong>der</strong> Verwendung einer Sorte<br />
5 ψ[X] bedeutet, daß X in ψ vorkommt.<br />
38
Kapitel 2: Merkmalsstrukturen<br />
Das nächste Beispiel demonstriert nochmals die Fälle 2 und 4 von Algorithmus 2.1.<br />
Beispiel 2.13<br />
Der Sortenaufruf append(HEAD:a ∧ TAIL:elist, HEAD:b ∧ TAIL:elist) soll in DNF gebracht werden.<br />
Die Definition <strong>der</strong> Sorte append/2 sei hier nochmals wie<strong>der</strong>gegeben:<br />
append(elist, L) ← L<br />
append(HEAD:H ∧ TAIL:R, L) ← HEAD:H ∧ TAIL: append(R, L)<br />
Als Typdeklaration für append/2 wird angenommen:<br />
append(list,list) -> list (=T append )<br />
append(HEAD:a ∧ TAIL:elist, HEAD:b ∧ TAIL:elist) ≡<br />
(Eval(, append(elist, L) ← L, T append ) ∨<br />
(Eval(,<br />
append(HEAD:H ∧ TAIL:R, L) ← HEAD:H ∧ TAIL: append(R, L), T append ) ≡<br />
(wegen Inkonsistenz <strong>des</strong> ersten Disjunkts und 1b)<br />
Eval( ,<br />
append(HEAD:H ∧ TAIL:R,L) ← HEAD:H ∧ TAIL: append(R, L), T append )<br />
Die Normalisierung <strong>der</strong> Sortenargumente (Zeilen 5-8 von Algorithmus 2.1) liefert:<br />
ϕ 1 = nelist ∧ HEAD:(H ∧ a) ∧ TAIL:(R ∧ elist)<br />
ϕ 2 = L ∧ nelist ∧ HEAD:b ∧ TAIL: elist<br />
Die Variablenbindungen von σ H , σ R und σ L sind:<br />
σ H = a<br />
σ R = elist<br />
σ L = L ∧ nelist ∧ HEAD:b ∧ TAIL: elist<br />
Die Substitution im Sortenrumpf liefert:<br />
HEAD:a ∧ TAIL: append(elist, nelist ∧ HEAD:b ∧ TAIL: elist)<br />
Durch Anwendung von Eval auf den neuen Sortenaufruf ergibt sich daraus:<br />
HEAD:a ∧ TAIL:(HEAD:b ∧ TAIL:elist)<br />
Hieraus läßt sich folgende Merkmalsstruktur konstruieren:<br />
HEAD: a<br />
HEAD: b<br />
TAIL: TAIL:<br />
nelist<br />
nelist<br />
39<br />
elist
Kapitel 2: Merkmalsstrukturen<br />
8. Totale Typisierung<br />
a) t ≡ t ∧ F 1 : t1 ∧ F 2 : t2 ∧ ... ∧ F n : tn falls es ein Merkmalseinführungsaxiom<br />
t :: F 1 :t1 ∧ F 2 :t2 ∧ ... ∧ F n :tn<br />
gibt<br />
Die unter 8. aufgeführte Äquivalenz entspricht dem Begriff <strong>der</strong> totalen Typisierung von Carpenter<br />
(1992); sobald also eine Formel einen Typ t enthält, werden alle Merkmale, die diesem<br />
Typ angemessen sind, hinzugefügt. Allerdings können Merkmalsterme vor dem Hintergrund<br />
einer Menge von Typaxiomen mit sog. appropriateness loops im Sinne von Carpenter<br />
(1992:98f) nicht total typisiert werden; solche liegen vor, wenn einem Typ t direkt o<strong>der</strong> indirekt<br />
ein Merkmal angemessen ist, das als Werterestriktion wie<strong>der</strong>um t aufweist, also beispielsweise<br />
t :: F : t.<br />
Hier würde ein Typisierungsalgorithmus, <strong>der</strong> 8. verwendet, in eine Endlosschleife geraten.<br />
Nicht je<strong>des</strong> rekursive Typsystem führt allerdings zu diesen Problemen. Betrachtet man folgen<strong>des</strong><br />
Typsystem für den Typ list:<br />
list ↔ elist | nelist<br />
nelist :: HEAD:> ∧ TAIL: list<br />
so sieht man, daß sich jede Formel, die die Merkmale HEAD bzw. TAIL enthält, total typisieren<br />
läßt.<br />
Beispiel 2.14:<br />
Der Merkmalsterm HEAD:a kann durch 6a) und 8a) wie folgt transformiert werden:<br />
HEAD:a ≡<br />
HEAD:a ∧ nelist ≡<br />
HEAD:a ∧ TAIL: list ∧ nelist<br />
Darüber hinaus kann noch eine weitere Transformation auf einen Merkmalsterm φ angewandt<br />
werden. Kommt eine Variable V in φ nur einmal vor, dann kann sie durch > ersetzt<br />
werden. Hierzu muß allerdings <strong>der</strong> Merkmalsterm in seiner Ganzheit betrachtet werden. ><br />
kann anschließend durch die Transformationen unter 1a) eliminiert werden.<br />
Ähnliches gilt für Variablenbindungen <strong>der</strong> Form X ≈ ψ. Kommt die Variable X nochmals<br />
(außerhalb einer an<strong>der</strong>en Variablenbindung) in einem Term φ vor, dann kann X ≈ ψ mittels<br />
4c) und 4h) eliminiert werden; tritt X nicht in φ auf, kann die Bindung auch entfernt werden.<br />
Beispiel 2.15:<br />
X ∧ HEAD:a ∧ TAIL: list ≡ > ∧ HEAD:a ∧ TAIL: list ≡ HEAD:a ∧ TAIL: list<br />
Es folgen noch einige Definitionen für später verwendete Begriffe:<br />
Definition 2.1: Normalisierter konjunktiver Merkmalsterm<br />
Ein normalisierter konjunktiver Merkmalsterm φ besteht aus einer Konjunktion von Literalen mit<br />
den folgenden Eigenschaften:<br />
• Literale sind Variablen, Typen, Pfad-Typ-Paare, Pfad-Variable-Paare und Pfadgleichungen.<br />
• Negationen sind so weit wie möglich unter Pfade eingebettet, d.h. sie stehen vor einzelnen<br />
Typen bzw. Variablen. Dies ist mit Hilfe von 1j) möglich.<br />
40
Kapitel 2: Merkmalsstrukturen<br />
• φ und je<strong>der</strong> seiner Subterme enthält ein Konjunkt mit dem Typ <strong>des</strong> (Sub)terms.<br />
• Einzeln vorkommende Variablen und Variablenbindungen wurden eliminiert.<br />
Aus <strong>der</strong>artigen Merkmalstermen kann auf einfache Weise eine Merkmalsstruktur M konstruiert<br />
werden: Pfad-Typ-Paare entsprechen den Pfaden von M, Pfad-Variable-Paare und<br />
Pfadgleichungen den Koreferenzen in M, Typen den Typen <strong>der</strong> Substrukturen.<br />
Definition 2.2: typenmaximaler Merkmalsterm<br />
Ein typenmaximaler Merkmalsterm φ ist ein normalisierter konjunktiver Merkmalsterm, für den<br />
zusätzlich gilt: Je<strong>der</strong> in φ vorkommen<strong>der</strong> Typ t ist maximal, d.h. hat selber keine Subtypen<br />
mehr.<br />
Beispiel 2.16:<br />
Vor dem Hintergrund <strong>der</strong> in Kapitel 5 verwendeten Typenhierarchie ist<br />
φ = SYN: (syntax ∧ HEAD: (noun ∧ CASE: case))<br />
ein normaliserter konjunktiver Merkmalsterm.<br />
φ ist jedoch nicht typenmaximal, da case noch die Subtypen nom, acc, gen und dat aufweist.<br />
Typenmaximalität hat demnach etwas mit vollständiger Spezifikation einer Merkmalsstruktur<br />
zu tun. Dem Merkmalsterm φ in Beispiel 2.15 „fehlt“ noch ein Wert für Kasus.<br />
2.5 Phrasenstrukturregeln<br />
Merkmalsterme können aufgrund <strong>des</strong> Sortenmechanismus dazu verwendet werden, kontextfreie<br />
Phrasenstrukturregeln zu repräsentieren. Hierbei sind zwei generelle Vorgehensweisen<br />
möglich:<br />
a) Die Nichtterminalsymbole <strong>der</strong> kontextfreien Grammatik werden als Typen repräsentiert.<br />
b) Die Nichtterminalsymbole werden zu Sorten.<br />
Eine kontextfreie Regel X → Y1 Y2 ... Yk kann nach <strong>der</strong> ersten Möglichkeit wie folgt ausgedrückt<br />
werden:<br />
category ↔ x | y1 | y2 | ... | yk<br />
cat(append(S 1 , append(S 2 , ... append(S k ) ... )) ←<br />
x ∧<br />
true(cat(S 1 ) ∧ y1 ) ∧<br />
true(cat(S 2 ) ∧ y2 ) ∧<br />
... ∧<br />
true(cat(S k ) ∧ yk )<br />
Lexikalische Einsetzungsregeln X→ w werden zu:<br />
cat([w]) ← x<br />
Die Sorte cat/1 ist eine Funktion cat: list � category, die eine Kette s auf ihre Kategorie C<br />
abbildet, falls C ⇒* s bezüglich <strong>der</strong> gegebenen Grammatik G gilt.<br />
Die Sorte true/1 ist wie folgt definiert:<br />
true(>) ← ><br />
41
Kapitel 2: Merkmalsstrukturen<br />
d.h. true/1 ist eine konstante Funktion, die als Funktionswert die allgemeinste Beschreibung<br />
> (top) zurückliefert; ihr eigentlicher Zweck besteht darin, die Konsistenz ihres Funktionsarguments<br />
zu prüfen.<br />
Beispiel 2.17:<br />
Die Anfrage<br />
true(append(L1,L2) ∧ [a,b,c]) ∧ [L1,L2]<br />
ergibt alle Listen, die aus zwei Listen bestehen, <strong>der</strong>en Verkettung gerade [a,b,c] ergibt. Ohne<br />
die Verwendung von true/1 wäre dieser Term inkonsistent, da die Konjunktion von [a,b,c]<br />
und [L1,L2] inkonsistent ist.<br />
Das folgende Beispiel zeigt, wie eine kontextfreie Grammatik mit Hilfe von true/1 umgesetzt<br />
werden kann:<br />
Beispiel 2.18:<br />
Eine kontextfreie Grammatik G=<br />
wird zu 6<br />
category ↔ s | np | vp | v<br />
cat(append(L1, L2)) ← s ∧ true(cat(L1) ∧ np) ∧ true(cat(L2) ∧ vp)<br />
cat(append(L1, L2)) ← vp ∧ true(cat(L1) ∧ v) ∧ true(cat(L2) ∧ np)<br />
cat([“Hans“]) ← np<br />
cat([“Maria“]) ← np<br />
cat([“kennt“]) ← v<br />
Man kann auf die Verwendung von true/1 auch verzichten, wenn category ein Merkmal<br />
einführt, das die von <strong>der</strong> betreffenden Kategorie dominierten Teilbäume enthält.<br />
Beispiel 2.19:<br />
category ↔ s | np | vp | v<br />
category :: STRUCTURE: list<br />
cat(append(L1, L2)) ←<br />
s ∧<br />
STRUCTURE: [np ∧ cat(L1), vp ∧ cat(L2)]<br />
6 Im folgenden wird die Prolog-Schreibweise für Listen verwendet, d.h. [] steht für elist und eine<br />
nicht-leere Liste nelist ∧ HEAD:H ∧ TAIL:T wird als [H|T] notiert.<br />
42
Kapitel 2: Merkmalsstrukturen<br />
Der zweite Weg macht aus jedem Nichtterminalsymbol N <strong>der</strong> Grammatik ein einstelliges<br />
Sortensymbol:<br />
n(append(S 1 , append(S 2 , ... append(S k ) ... )) ←<br />
y1(S 1 ) ∧<br />
y2(S 2 ) ∧<br />
... ∧<br />
yk(S k )<br />
Lexikalische Einsetzungsregeln <strong>der</strong> Form N → w werden zu:<br />
n([w]) ← ><br />
Beispiel 2.20:<br />
Die Grammatik <strong>des</strong> vorangegangenen Beispiels wird dann wie folgt umgesetzt:<br />
s(append(L1, L2)) ← np(L1) ∧ vp(L2)<br />
vp(append(L1, L2)) ← v(L1) ∧ np(L2)<br />
np([“Hans“]) ← ><br />
np([“Maria“]) ← ><br />
v([“kennt“]) ← ><br />
Diese beiden Verfahren sind ohne weiteres verallgemeinerbar auf nichtatomare Nichtterminalsymbole,<br />
d.h. grammatische Kategorien in Form von Merkmalsstrukturen, die als Merkmalsterme<br />
repräsentiert werden. Ebenso kann das aufwendige append/2 durch effizientere<br />
Differenzlisten ersetzt werden. Hiervon wird im Kapitel 5 über die morphologische Grammatik<br />
Gebrauch gemacht.<br />
Regeln in merkmalsbasierten Grammatiken beziehen sich üblicherweise nicht nur auf die<br />
Verkettung von Zeichenketten, son<strong>der</strong>n instantiieren grammatische Kategorien, bauen<br />
Strukturen auf usw. Man kann sie daher in zwei Teile zerglie<strong>der</strong>n: einen Teil, <strong>der</strong> die Verkettung<br />
<strong>der</strong> Teilstrings regelt und einen, <strong>der</strong> weitere Bedingungen für die diesen Teilstrings<br />
zugeordneten Strukturen spezifiziert:<br />
X → Y 1 Y 2 ... Y k : conditions(X, Y 1 ,Y 2 , ..., Y k )<br />
Dies sei äquivalent zu:<br />
cat(P 0 ,P k ) ←<br />
x ∧ X ∧<br />
true(cat(P 0 ,P 1 ) ∧ y1 ∧ Y 1 ) ∧<br />
true(cat(P 1 ,P 2 ) ∧ y2 ∧ Y 2 ) ∧<br />
... ∧<br />
true(cat(P k-1 ,P k ) ∧ yk ∧ Y k ) ∧<br />
conditions(X, Y 1 ,Y 2 , ..., Y k )<br />
Beide Notationen werden in Kapitel 4 und 5 verwendet.<br />
43
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
3 Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Kapitel 3 faßt wesentliche theoretische Vorarbeiten aus den Bereichen Wortsyntax und<br />
Wortsemantik zusammen und beurteilt sie nach ihrer Brauchbarkeit für ein <strong>Analyse</strong>modell.<br />
Das Kapitel glie<strong>der</strong>t sich zunächst in die Gebiete Wortsyntax und Wortsemantik, wobei ersteres<br />
<strong>der</strong> traditionellen Aufteilung <strong>der</strong> Morphologie in die Bereiche Derivation und Komposition<br />
folgt. Ich möchte Flexion noch dazu nehmen, auch wenn dies inhaltlich ein an<strong>der</strong>er<br />
Prozeß ist. Die vorgeschlagene Aufglie<strong>der</strong>ung ist nicht immer glücklich, gerade in Anbetracht<br />
von vereinheitlichenden Theorien wie die von Fanselow (1985) und Höhle (1982), hilft<br />
aber dennoch, etwas Struktur in den Komplex Morphologie im weiteren Sinne hereinzubringen.<br />
3.1 Wortsyntax<br />
Der Begriff Wortsyntax impliziert, daß man Wörter nicht als unanalysierte Einheiten auffaßt,<br />
son<strong>der</strong>n ihnen auf systematische Weise eine Struktur zuweist, die sowohl für ihre syntaktischen<br />
wie auch semantischen Eigenschaften ausschlaggebend ist.<br />
Wortsyntax in dem Sinne, daß man zusammengesetzte Wörter als strukturiert auffaßt, wird<br />
von <strong>der</strong> traditionellen Grammatik nur auf durch Komposition entstandene Wörter angewandt.<br />
Es ist jedoch in Anbetracht neuerer generativer Theorien sinnvoll, diesen Begriff<br />
auch auf die Bereiche <strong>der</strong> Flexion und Derivation auszudehnen.<br />
3.1.1 Flexion<br />
Unter Flexion soll hier – in Anlehnung an Gallmann (1994) – die Bereitstellung von Wortformen<br />
mit bestimmten Merkmalen verstanden werden. Diese „Definition“ ist nicht exakt<br />
und muß noch weiter präzisiert werden. Wortformen (grammatische Wörter in <strong>der</strong> Terminologie<br />
von Di Sciullo/Williams (1987)) sind Elemente einer aus drei Komponenten aufgebauten<br />
Relation L = �* � SYN-FEATURES � SEM. Die erste Komponente ist durch die Laut-<br />
bzw. Graphemkette (Signifiant-Merkmal) <strong>der</strong> Wortform gegeben, während die zweite bzw.<br />
dritte aus den grammatischen bzw. semantischen Merkmalen <strong>der</strong> Form (Signifié-Merkmalen)<br />
besteht.<br />
Beispiel 3.1:<br />
Die Wortform lachst ist durch folgen<strong>des</strong> Tupel gegeben:<br />
.<br />
Für die Graphemkette lachen gibt es hingegen drei Elemente in dieser Relation:<br />
,<br />
und<br />
.<br />
Wortformen dürfen daher nicht mit Laut- bzw. Graphemketten verwechselt werden.<br />
Die Teilrelation L mit festgelegter dritter Komponente wird auch als Lemma, Lexem o<strong>der</strong> Wort<br />
bezeichnet. Eine Funktion lemma ordnet einer Zeichenkette Z das Lemma von Z zu. Z heißt<br />
auch Zitier- o<strong>der</strong> Nennform und benennt das Lemma. Als Nennform kann selbstverständlich<br />
je<strong>der</strong> beliebige Name gewählt werden; aus konventionellen Gründen verwendet man hierzu<br />
jedoch bestimmte, möglichst unmarkierte Wortformen aus dem Lemma, beispielsweise die<br />
Form Nominativ Singular bei Nomen o<strong>der</strong> die Infinitivform (bzw. den Stamm) bei Verben.<br />
44
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Beispiel 3.2:<br />
Das Lemma <strong>der</strong> Zitierform lachen (lemma(‘lachen’)) ist die Menge <strong>der</strong> Wortformen<br />
L = { ,<br />
... }.<br />
Möchte man Lemmata nicht lediglich extensional – also durch Aufzählung <strong>der</strong> Elemente – ,<br />
son<strong>der</strong>n nicht-extensional charakterisieren, so benötigt man ein Kriterium, welches die Zugehörigkeit<br />
einer Wortform zu einem bestimmten Lemma festlegt. Traditionell wird hierfür<br />
die Bedeutung einer Wortform herangezogen: ein Lemma besteht demzufolge aus <strong>der</strong> Menge<br />
<strong>der</strong> Wortformen mit gleicher Bedeutung. Dieses Kriterium ist allerdings aus einer Reihe von<br />
Gründen nicht ausreichend, um Lemmata korrekt zu charakterisieren, z.B.:<br />
� die Formen lacht und lachte möchte man intuitiv im Lemma von lachen wissen, obwohl<br />
zwischen ihnen ein Bedeutungsunterschied besteht<br />
� es ist durchaus möglich, daß zwei Wortformen – im Fall von Synonymie – die gleiche<br />
Bedeutung zukommt, sie aber dennoch zu verschiedenen Lemmata gezählt werden sollten,<br />
z.B. Formen von rennen und laufen<br />
Das Zugehörigkeitskriterium muß also zugleich restriktiver – durch Angabe von gemeinsamen<br />
Signifiant-Merkmalen, beispielsweise eines gemeinsamen Stammes – als auch schwächer<br />
– durch Abschwächung von Bedeutungsgleichheit zu Bedeutungsähnlichkeit – gefaßt<br />
werden.<br />
Strukturiert man ein Lemma nach den Merkmalen, die in <strong>der</strong> zweiten Komponente <strong>der</strong> Relation<br />
L vorkommen, so erhält man ein Paradigma. Ein Paradigma ist nach traditioneller Auffassung<br />
eine mehrdimensionale Tabelle, <strong>der</strong>en Dimensionen durch die Anzahl verschiedener<br />
Kategorien wie Person, Numerus etc. gegeben sind. Ich möchte die Begriffe Lemma und<br />
Paradigma auseinan<strong>der</strong>halten, da Paradigmen im Gegensatz zu Lemmata strukturiert sind:<br />
sie legen fest, welche Merkmale zur Unterscheidung von Wortformen herangezogen werden<br />
und definieren hierdurch die tabellenartige Struktur, die auch Paradigmenlücken, Nichtexistenz<br />
von Wortformen mit bestimmten Merkmalen, sichtbar macht. Während die SYN-<br />
FEATURES-Komponente einer Wortform noch weitere, nicht-distinktive Merkmale enthalten<br />
kann (z.B. Subkategorisierungsanfor<strong>der</strong>ungen), enthält die Tabelle <strong>des</strong> Paradigmas nur<br />
distinktive, d.h. dimensionsbildende Merkmale.<br />
Die Frage ist nun, welche Flexionskategorien man benötigt, um alle Wortformen, die man<br />
intuitiv in einem Paradigma vereinigen möchte, zu charakterisieren.<br />
Ich nehme, wie<strong>der</strong>um Gallmann teilweise (1994: Kap. 2.5) folgend, Merkmalskategorien an,<br />
die sich in zwei Gruppen unterteilen lassen:<br />
1. Morphosyntaktische Merkmale<br />
2. Wortartmerkmale<br />
Zu den morphosyntaktischen Merkmalen zählen u.a. Person, Numerus, Genus und Kasus.<br />
Die Wortart zählt zu den Flexionskategorien, da sich Flexion in Än<strong>der</strong>ungen <strong>der</strong> Wortart<br />
bemerkbar machen kann, z.B. bei<br />
� Nominalisierungen: lachen – (das) Lachen<br />
� Substantivischer Verwendung von Adjektiven: <strong>der</strong> lachende Dritte<br />
Der Begriff Bereitstellung in obiger Definition von Flexion läßt offen, ob die Wortformen<br />
durch morphologische Aktivität entstehen o<strong>der</strong> durch einfaches Auslesen aus dem Lexikon<br />
gewonnen werden. Während man ersteres für regelmäßig gebildete Formen annehmen darf,<br />
45
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
dürfte letzteres für unregelmäßige bzw. suppletive Formen (z.B. die Flexionsformen von<br />
sein) <strong>der</strong> Fall sein.<br />
Gallmann (1994) führt noch die Gruppe <strong>der</strong> Selektionsmerkmale auf; diese scheinen mir jedoch<br />
im <strong>Deutschen</strong> nicht distinktiv zu sein. Gallmann führt als Beispiele Phänomene auf, die<br />
man besser syntaktisch erklärt, beispielsweise die Verwendung <strong>des</strong> Partizips II im Aktiv<br />
und im Passiv:<br />
(1)<br />
a) Der Mann hat die Frau geliebt.<br />
b) Die Frau wurde geliebt<br />
Gallmann verwendet Selektionsmerkmale, um diese beiden Verwendungsweisen zu unterscheiden<br />
und setzt somit für Partizipien wie geliebt zwei Wortformen an. Die systematische<br />
Homonymie bei<strong>der</strong> Formen deutet m.E. jedoch auf einen Unterschied in <strong>der</strong> syntaktischen<br />
Verwendung einer einzigen Wortform geliebt hin, den man beispielsweise durch unterschiedliche<br />
Subkategorisierungseigenschaften <strong>der</strong> Hilfsverben haben und werden erklären<br />
kann, wie dies beispielsweise Heinz/Matiasek (1994) tun.<br />
3.1.1.1 Modelle <strong>der</strong> Flexion<br />
Hockett (1954) klassifizierte linguistische Modelle <strong>der</strong> Morphologie (er bezog sich aber auch<br />
auf die phrasale Syntax) in drei Gruppen:<br />
� Item-and-Arrangement-Modelle<br />
� Item-and-Process-Modelle<br />
� Word-and-Paradigm-Modelle<br />
Da <strong>der</strong> in Kapitel 4 und 5 beschriebene Ansatz – wie auch die meisten computerlinguistischen<br />
Modelle <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> – <strong>der</strong> Item-and-Arrangement-Konzeption verhaftet<br />
sind, möchte ich hier nur auf diesen Typ näher eingehen. Der nächste Abschnitt wird<br />
allerdings ein interessantes Modell vorstellen, welches Eigenschaften <strong>der</strong> beiden an<strong>der</strong>en<br />
Modelle in sich vereinigt.<br />
Item-and-Arrangement-Modelle (z.B. Selkirk (1982)) fassen die grammatischen und semantischen<br />
Eigenschaften von komplexen Wörtern als Funktion <strong>der</strong> Anordnung und <strong>der</strong> Eigenschaften<br />
<strong>der</strong> nicht weiter zerlegbaren, morphematischen Grundbausteine auf. Dies führt im<br />
allgemeinen zur Zuweisung von Konstituentenstrukturen an zusammengesetzte (grammatische)<br />
Wörter, z.B.:<br />
(2)<br />
a)<br />
stamm affix<br />
frag st<br />
b)<br />
46<br />
stamm affix affix<br />
frag t est<br />
Die Konstituentenstrukturen implizieren die Angabe eines expliziten o<strong>der</strong> impliziten Regelsystems,<br />
mit denen sie erzeugt werden können. Explizite Regelsysteme sind von einer Reihe<br />
von Autoren vorgeschlagen worden; <strong>der</strong> für die Flexion relevante Teil <strong>der</strong> Version von Di<br />
Sciullo/Williams (1987:23) ist hier wie<strong>der</strong>gegeben:
(3)<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
stem � stem af<br />
stem � af stem<br />
word � stem<br />
Regeln dieser Art sind – wie ihre Pendants aus <strong>der</strong> Satzsyntax – i.a. dem sog. Binaritätsprinzip<br />
verpflichtet, d.h. die rechten Seiten <strong>der</strong> Regeln enthalten höchstens zwei Kategorien.<br />
Im Versuch <strong>der</strong> weiteren Angleichung von phrasensyntaktischen und <strong>morphologischen</strong><br />
Strukturen nimmt man weiterhin an, daß jede morphologische (Sub)Konstituente eine ausgezeichnete<br />
Tochter besitzt, die die wesentlichen Eigenschaften <strong>der</strong> Konstituente besitzt und<br />
daher Kopf <strong>der</strong> Konstituente genannt wird. Die merkmalsmäßige Übereinstimmung von einer<br />
Konstituente mit ihrem Kopf kann dann mit Hilfe einer Merkmalsperkolationskonvention<br />
(z.B. <strong>der</strong> Head Feature Convention <strong>der</strong> GPSG, Gazdar et al. (1985)) ausgedrückt werden.<br />
Während sich Auffassung <strong>der</strong> Köpfigkeit von Strukturen in <strong>der</strong> Satzsyntax noch relativ<br />
leicht nachvollziehen läßt, ist dies für morphologische Strukturen nicht ohne weiteres offensichtlich.<br />
Welcher Bestandteil von (2a) ist <strong>der</strong> Kopf? Für die Wahl <strong>des</strong> Stamms (frag-) spricht,<br />
daß das Gesamtwort ein Verb ist und auch seine semantischen Eigenschaften (u.a. den Argumentrahmen)<br />
augenscheinlich vom Stamm erbt. Für das Affix -st spricht, daß es anscheinend<br />
die morphosyntaktischen Merkmale Person und Numerus trägt, denen man in <strong>der</strong><br />
Phrasensyntax sogar den Status von Satzköpfen (INFL etc.) einräumt. Offenkundig tragen<br />
Stamm und Affix gleichermaßen zu den syntaktischen und semantischen Eigenschaften <strong>des</strong><br />
komplexen Wortes bei. Dies gilt auch beispielsweise in (2b), wenn man annimmt, daß -t- <strong>der</strong><br />
Träger <strong>des</strong> Tempusmerkmals ist.<br />
Möchte man nun an <strong>der</strong> Köpfigkeit von flektierten Wörtern festhalten – aus größtenteils<br />
theorieinternen Gründen, wie ich meine – so bleibt einem nichts an<strong>der</strong>es übrig, als Köpfe<br />
einfach positionell festzumachen, wie dies u.a. Williams (1981:248) vorschlägt:<br />
(4)<br />
Righthand Head Rule (RHR):<br />
In morphology, we define the head of a morphologically complex word to be the righthand<br />
member of the word.<br />
Diese Regel ist nun kein grammatisches Prinzip, son<strong>der</strong>n eine empirische Generalisierung,<br />
die zumin<strong>des</strong>t für die indoeuropäischen Sprachen zutrifft (vgl. jedoch Scalise (1988), <strong>der</strong><br />
Gegenbeispiele im Italienischen beibringt). Trotz dieser positionellen Festlegung <strong>des</strong> Wortkopfes<br />
ist damit noch nicht das oben diskutierte Problem aus <strong>der</strong> Welt geschafft, daß verschiedene<br />
Morpheme Unterschiedliches zu den Gesamteigenschaften <strong>des</strong> Wortes beisteuern.<br />
Anhänger <strong>der</strong> Wortkonstituentenstrukturtheorie tragen dem durch Definition von komplexeren<br />
Merkmalsperkolationsbedingungen Rechnung, z.B. Selkirk (1982: 76):<br />
(5)<br />
a) If a head has a feature specification [�Fi], � � u, its mother node must be specified [�Fi],<br />
and vice versa.<br />
b) If a non-head has a feature specification [�Fj], and the head has the feature specification<br />
[uFj], then the mother node must have the feature specification [�Fj].<br />
47
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
(‘[uF]’ bedeutet ‘unmarkiert für Merkmal F’). Diese Bedingungen, die im übrigen bei Di<br />
Sciullo/Williams (1987) unter <strong>der</strong> Bezeichnung relativized head 1 firmieren, besagen, daß sich<br />
Merkmale von Nichtköpfen nach oben vererben können, solange <strong>der</strong> Kopf nichts an<strong>der</strong>es<br />
über diese Merkmale aussagt, was sich technisch durch sog. Default-Unifikation realisieren<br />
läßt. In (2b) ist also z.B. <strong>der</strong> Stamm <strong>der</strong> KopfArgumentstruktur und <strong>der</strong> KopfKategorie, das Tempusaffix<br />
-t- <strong>der</strong> KopfTempus und das äußerste Flexionsaffix <strong>der</strong> KopfPerson/Numerus.<br />
Allerdings entleert man hierdurch natürlich den Begriff Kopf seines Sinngehalts, da zu fragen<br />
ist, welche Beschränkungen das Kopf-Prinzip den Wörtern überhaupt noch auferlegt.<br />
Zudem wird rein kontextuell und nicht intrinsisch, d.h. im Lexikon festgelegt, was ein Kopf<br />
in bezug auf ein bestimmtes Merkmal F ist.<br />
Akzeptiert man jedoch dieses Prinzip, so kann man, wie auch in <strong>der</strong> Phrasensyntax, die<br />
Phrasenstrukturkomponente prinzipiell eliminieren und durch Subkategorisierungsanfor<strong>der</strong>ungen<br />
<strong>der</strong> Köpfe ersetzen (vgl. z.B. Lieber (1980), Gallmann (1990)). Köpfe legen nun fest,<br />
welche Nicht-Köpfe zu ihnen hinzutreten können und welche Eigenschaften diese Nicht-<br />
Köpfe aufweisen müssen. Dies ist attraktiv, da eine gewisse Redundanz in Wortstrukturregeln<br />
und unabhängig davon notwendigen Kombinationsrestriktionen beseitigt wird, was zu<br />
einem theoretisch einfacheren Beschreibungsapparat und einer weitgehenden Lexikalisierung<br />
von Flexion (und Derivation) führt.<br />
Die Einführung <strong>des</strong> Kopfbegriffs in die Flexionsmorphologie ist nun – wie schon gesagt –<br />
nicht unproblematisch, insbeson<strong>der</strong>e dann, wenn man die Flexionsstrukturregeln nicht als<br />
einen unabhängig vorhandenen Mechanismus betrachtet und ihn – wie skizziert - durch<br />
Subkategorisierungsanfor<strong>der</strong>ungen <strong>der</strong> Köpfe ersetzt.<br />
Zum ersten führt dies zu einem äußerst liberalen Begriff von Argument, o<strong>der</strong> wie auch immer<br />
man die Nicht-Köpfe auf <strong>der</strong> Wortebene nennen möchte. Man muß dann alle <strong>morphologischen</strong><br />
Beziehungen als Beziehungen zwischen Kopf und Nicht-Kopf abbilden, was zu<br />
einigen Ungereimtheiten führt. Wie sollen beispielsweise semantische leere Morpheme behandelt<br />
werden, wie z.B. das Partizip-II-Präfix ge-? Als Kopf wird man es kaum ansehen<br />
können, folglich muß es etwas Subkategorisiertes sein, also ein „Argument“ o<strong>der</strong> ein Modifikator.<br />
Beide Alternativen sind jedoch nicht zufriedenstellend, da <strong>der</strong> Beitrag dieses Präfixes<br />
eben kein semantischer o<strong>der</strong> syntaktischer, son<strong>der</strong>n ein phonetischer ist. Das Problem stellt<br />
sich im übrigen auch bei <strong>der</strong> Komposition in bezug auf die sog. Fugenelemente.<br />
Diese Problemfälle können durch allgemeine kontextfreie Wortstrukturregeln vermieden<br />
werden, da hier die Beziehungen zwischen Schwesterkonstituenten nicht unbedingt durch<br />
weitere grammatische Grundprinzipien festgelegt werden und so eine größere <strong>des</strong>kriptive<br />
Adäquatheit erreicht werden kann.<br />
Die zweite Schwierigkeit ergibt sich daraus, daß sich, wie oben bereits zur Sprache kam, <strong>der</strong><br />
starke Kopfbegriff <strong>der</strong> Syntax wohl nicht halten läßt. Relativierte Köpfe führen zu verhältnismäßig<br />
komplizierten Beziehungen zwischen den Wortbestandteilen. Beispielsweise wäre<br />
in <strong>der</strong> Wortform fragtest <strong>der</strong> Stamm frag- <strong>der</strong> KopfArgumentstruktur, -t- <strong>der</strong> KopfTempus und -est <strong>der</strong><br />
KopfPerson/Numerus. Welche Elemente subkategorisieren nun welche an<strong>der</strong>en? Daß -t- den<br />
Stamm subkategorisiert, erscheint mir unplausibel, wird aber von einigen Autoren, auch<br />
solchen aus dem Bereich <strong>der</strong> Computerlinguistik, beispielsweise Trost (1991) angenommen.<br />
Ein dritter Punkt betrifft leere Köpfe, die zur Wahrung <strong>der</strong> Einheitlichkeit <strong>des</strong> ganzen Ansatzes<br />
notwendig zu sein scheinen. Es stellt sich z.B. die Frage, welche Komponenten in<br />
Wortformen wie warf (1./3. Pers. Prät.) Träger <strong>der</strong> Person- und Numerusmerkmale sind.<br />
Nimmt man an, daß <strong>der</strong> Verbstamm selbst hierfür markiert ist – was im Rahmen <strong>der</strong> Konzeption<br />
<strong>des</strong> relativierten Kopfs durchaus möglich ist, da in Formen wie warfst ein weiter<br />
1 Definition <strong>des</strong> relativierten Kopfs nach Di Sciullo/Williams (1987:26): „The headF [d.h. head für<br />
Merkmal F; m.E.] of a word is the rightmost element of the word marked for the feature F.“<br />
48
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
rechts stehen<strong>des</strong> und für die betreffenden Merkmale spezifiziertes Affix die Oberhand gewinnt<br />
– so handelt man sich damit jedoch eine Inhomogenität im Lexikon ein, da dann einige<br />
Verbstämme im Lexikon mit Person- und Numerusmerkmalen verzeichnet sind und<br />
an<strong>der</strong>e nicht. Die Alternative hierzu, leere Kategorien anzunehmen ist jedoch aus theoretischer<br />
wie parstechnischer Hinsicht unattraktiv. Theoretisch <strong>des</strong>halb, da leere Kategorien<br />
hier basisgeneriert sind und nicht durch Bewegung entstehen und daher nicht durch ein<br />
an<strong>der</strong>es overtes Element lizensiert sind. Aus <strong>der</strong> Perspektive <strong>des</strong> Parsings sind leere Köpfe<br />
unerwünscht, da <strong>der</strong> Parser sie effizient nur mit Hilfe einer Top-Down-Komponente<br />
(beispielsweise den Zustandsautomaten eines LR(k)- o<strong>der</strong> Earley-Parsers) identifizieren<br />
kann, die wie<strong>der</strong>um eine Regelgrammatik voraussetzt.<br />
Im nächsten Abschnitt wird ein Mischmodell vorgestellt, welches einerseits Züge eines itemand-process-Modells,<br />
an<strong>der</strong>erseits solche eines word-and-paradigm-Modells aufweist.<br />
3.1.1.2 Minimalistische Morphologie<br />
Der Begriff Minimalistische (Flexions-)Morphologie (vgl. z.B. Wun<strong>der</strong>lich (1992), Wun<strong>der</strong>lich/Fabri<br />
(1994), Fabri et al. (1994)) bezieht sich auf Ansätze, die nicht einfach nur <strong>des</strong>kriptiv<br />
angeben, welche Flexionsaffixe an welche Stämme herantreten können und welche morpho-syntaktischen<br />
Merkmale <strong>der</strong> resultierenden Wortform zukommen, son<strong>der</strong>n auf solche,<br />
die das Zustandekommen von Flexionsparadigmen aus einer Reihe von Wohlgeformtheitsprinzipien<br />
erklären. Man könnte daher, in Anlehnung an neuere grammatische Theorien,<br />
auch von prinzipienbasierter Morphologie reden.<br />
Im folgenden sollen kurz wesentliche Züge dieses Ansatzes vorgestellt und nach ihrer<br />
Brauchbarkeit für den Zweck <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong>, genauer <strong>der</strong> Deflexion, beurteilt<br />
werden.<br />
Das Lexikon <strong>des</strong> minimalistischen Modells enthält Stämme und Affixe. Verbale Flexionsaffixe<br />
werden als Funktoren mit phonetischer Matrix angesehen, die Verbstämme subkategorisieren,<br />
indem sie bestimmte Merkmalsspezifikationen <strong>des</strong> Verbstamms for<strong>der</strong>n. Hierzu verfügen<br />
die Affixe über eine Eingabebedingung, die die Anfor<strong>der</strong>ungen festhält, die ein zulässiger<br />
Verbstamm erfüllen muß. Affixe führen in einer Ausgabespezifikation neue Merkmale<br />
ein, die die komplexe Wortform aus Stamm und Affix erhält, wenn <strong>der</strong> Stamm die in <strong>der</strong><br />
Eingabebedingung festgelegten Erfor<strong>der</strong>nisse erfüllt.<br />
Tabelle 3.1 hält die Affixe fest, die für die <strong>Analyse</strong> <strong>des</strong> verbalen Flexionsverhaltens angenommen<br />
werden können (nach Fabri et al. (1994:5)).<br />
Affix Ausgabespezifikation Eingabebedingung<br />
1 (/e/) [+imp ] [–pret,-subj ]<br />
2 /te/ [+pret ] [ ]<br />
3 /e/ [+subj ] [ ]<br />
4 /t/ [+2,+pl ] [ ]<br />
5 /n/ [+pl ] [ ]<br />
6 /st/ [+2 ] [ ]<br />
7 /e/ [+1 ] [ ]<br />
8 /t/ [ ] [–pret, –subj, –pl ]<br />
9 /t/ [+part] [–pret, –subj, –pl ]<br />
10 /n/ [ ] [–agr]<br />
Tabelle 3.1: Verbale Flexionsaffixe<br />
Affix 2 (/te/) führt das Merkmal +pret bei <strong>der</strong> Flexion regelmäßiger Verben ein (Beispiel:<br />
(wir) fragten), Affix 3 verknüpft das Merkmal +subj (Konjunktiv) an das Affix /e/ (Beispiel:<br />
49
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
(sie) frage). Die Affixe 4 bis 8 sind für die Verbflexion im Präsens, Affix 9 für die Partizip-II-<br />
Bildung bei schwachen Verben und Affix 10 für den Infinitiv verantwortlich.<br />
Bei unregelmäßigen Verben enthält das Lexikon alle verschiedenen Verbstämme, zusammen<br />
mit einem Verweis auf die Zitierform (Infinitivform) <strong>des</strong> Lexems. Das Verb werfen weist beispielsweise<br />
folgende Stämme auf, die zusammen mit ihren Merkmalsspezifikationen in Tabelle<br />
3.2 aufgeführt sind:<br />
Stamm Merkmalsspezifikation<br />
werf- [+V]<br />
wirf- [+V] � ([–1] � [+imp])<br />
warf- [+V, +pret]<br />
worfn 2 [+V, +part]<br />
würf- [+V, +subj, +pret]<br />
Tabelle 3.2: Stämme <strong>des</strong> Lemmas werfen<br />
Durch die Merkmale V, pret, part, subj, 1, 2, pl, agr, imp, die alle zweiwertig sind, sind<br />
Stämme und Affixe vollständig bestimmt; es gibt also keine weiteren Merkmale und insbes.<br />
keine Klassenmerkmale wie RegularVerb, IrregularVerb etc., vgl. Wun<strong>der</strong>lich (1992:4):<br />
„In the morphological system of a language, no arbitrary class features are used“<br />
Zugelassen sind demnach nur sog. inhärente Klassenmerkmale, d.h. Merkmale, die man aus<br />
unabhängigen Gründen benötigt.<br />
Es ist leicht zu sehen, daß das System, welches Stämme und Affixe kombiniert, massiv übergeneriert,<br />
da die meisten Affixe keine Eingabebedingungen definieren und somit mit einer<br />
ganzen Reihe von Stämmen kompatibel sind. Unerwünschte Kombinationen werden daher<br />
durch eine Reihe von Prinzipien ausgeschlossen, die sich in vier verschiedene Gruppen unterteilen<br />
lassen (vgl. Fabri et al. (1994:23)):<br />
A) Prinzipien, die festlegen, was ein mögliches Affix ist: Unterspezifikation, Strikte<br />
Monotonität<br />
B) Prinzipien, die den möglichen Stamm-Affix-Kombinationen Beschränkungen auferlegen:<br />
Affix-Reihenfolge, Nicht-Redundanz, Feature Cooccurence Restrictions, Ein- und<br />
Ausgabespezifizität<br />
C) Prinzipien, die den Inhalt eines Paradigmas festlegen: Spezifizität und Simplizität<br />
D) Prinzipien, die die Struktur eines Paradigmas festlegen: Eindeutigkeit und Vollständigkeit<br />
1. Unterspezifikation:<br />
a) Die Ausgabespezifikation eines Affixes enthält nur Merkmale mit dem Wert „+“.<br />
b) Merkmale, die we<strong>der</strong> in <strong>der</strong> Eingabebedingung noch <strong>der</strong> Ausgabespezifikation eines Affixes<br />
erwähnt werden, haben den Default-Wert „–“.<br />
Prinzip 1a) hält fest, daß Affixe immer vom Default abweichende Werte einführen müssen,<br />
während 1b) diesen Default festlegt.<br />
2 Das Affix /n/, welches das Partizip II <strong>der</strong> starken Verben bildet, wird als nicht mehr produktiv angesehen<br />
und daher als Teil <strong>des</strong> Stamms betrachtet.<br />
50
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Beispiel 3.3:<br />
Das Affix 6 in Tabelle 3.1 enthält als Ausgabe die Spezifikation [+2]. Da das Merkmal pl<br />
nicht erwähnt ist, hat es den Wert „–“.<br />
2. Strikte Monotonität:<br />
Affixe als morphologische Operatoren führen immer neue Informationen, d.h. positiv spezifizierte<br />
Merkmale ein.<br />
3. Affix-Reihenfolge<br />
Affixe (und auch Stämme) werden klassifiziert nach ihrer Position, die sie innerhalb einer<br />
gegebenen Affigierungshierarchie einnehmen (vgl. Wun<strong>der</strong>lich (1992)):<br />
Verb < Tempus < Modus < Numerus < Person<br />
An den Verbstamm treten also zunächst Affixe, die ein Tempus-Merkmal einführen, bevor<br />
Affixe mit Numerus- und Personmerkmalen hinzugenommen werden können.<br />
Beispiel 3.4:<br />
Die Form fragten (1./3. Pers. Pl. Prät.) ergibt sich folgen<strong>der</strong>maßen:<br />
(6)<br />
frag te n<br />
[+V] [+pret] [-2,+pl]<br />
Das Prinzip <strong>der</strong> Affix-Reihenfolge besagt, daß, falls eine Form – inhärent o<strong>der</strong> durch eine<br />
bereits durchgeführte Anwendung einer Affigierungsoperation – bereits für ein Merkmal m<br />
aus dieser Hierarchie spezifiziert ist, nur noch Affixe hinzutreten können, die Merkmale<br />
einführen, die rechts von m stehen.<br />
Prinzip 3 schließt beispielsweise aus, daß an den Stamm warf, <strong>der</strong> schon mit +pret markiert<br />
ist, noch das Präteritalaffix /t/ angehängt werden kann, welches ja das Merkmal +pret<br />
nochmals einführen würde. Hinzutreten können lediglich noch Affixe mit Person- und Numerusmerkmalen<br />
wie /n/, /st/ und /t/.<br />
4. Feature Cooccurence Restrictions (FCRs)<br />
Mit Beschränkungen dieser Art legt man fest, daß bestimmte Merkmale zwangsläufig mit<br />
bestimmten an<strong>der</strong>en auftreten, bzw. diese implizieren. Der minimalistische Ansatz geht von<br />
den in Tabelle 3.3 aufgeführten FCRs aus:<br />
1 [+part] � [–part] � [–agr]<br />
2 [+pret] � [–pret] � [+agr]<br />
3 [+V, +C] � [+2]<br />
4 [+1] � [–2]<br />
5 [+2] � [–1]<br />
Tabelle 3.3: Feature Cooccurence Restrictions<br />
Insbes. die drei letzten FCRs sind Stipulationen, da sie nicht als Konsequenz unabhängiger<br />
Prinzipien zu erhalten sind.<br />
51
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
5. Ein- und Ausgabespezifizität:<br />
Bei <strong>der</strong> Bildung von Stamm-Affix-Kombinationen werden spezifischere gegenüber weniger<br />
spezifischen Kombinationen bevorzugt:<br />
a) Wenn die Anwendung eines Affixes auf zwei verschiedene Eingaben das gleiche Ergebnis<br />
liefert, dann ziehe die spezifischere Eingabe vor.<br />
b) Wenn auf eine Eingabe zwei Affixe anwendbar sind, dann ziehe die Eingabe vor, die die<br />
spezifischere Ausgabe erzeugt.<br />
Beispiel 3.5:<br />
Die Form wirfst, die mit <strong>der</strong> Form werfst konkurriert, gewinnt aufgrund Prinzip 5a<br />
(Eingabespezifizität), da <strong>der</strong> Stamm wirf- durch seine Markierung –1 spezifischer als <strong>der</strong><br />
Stamm werf- ist.<br />
Die Prinzipien <strong>der</strong> Gruppen C und D beziehen sich auf einen zentralen Punkt <strong>des</strong> minimalistischen<br />
Ansatzes, dem Paradigmen-Mechanismus.<br />
Ein Paradigma im Sinne <strong>des</strong> minimalistischen Modells ist eine mehrdimensionale, möglicherweise<br />
rekursive Tabelle (d.h. eine Tabelle, die in ihren Zellen weitere Tabellen enthalten<br />
kann), <strong>der</strong>en Dimensionen mit Merkmalen wie ±1, ±2, ±pl gegeben sind. Paradigmen befinden<br />
sich an <strong>der</strong> Schnittstelle zwischen Flexionsmorphologie und Satzsyntax, indem sie aufgrund<br />
ihrer Struktur spezifizieren, welche von keiner Affigierungsoperation erwähnten<br />
Merkmale noch als Default-Werte zu einer Stamm-Affix-Kombination hinzukommen können.<br />
Paradigmen werden merkmalsgetrieben aus <strong>der</strong> Ausgabespezifikation eines Affixes (o<strong>der</strong><br />
Stammes) konstruiert. Das spezifischste Affix aus <strong>der</strong> Liste <strong>der</strong> möglichen Affixe – Affix 4<br />
aus Tabelle 3.1 – spannt eine Matrix auf, <strong>der</strong>en Dimensionen durch die Anzahl <strong>der</strong> positiv<br />
gegebenen Merkmale gegeben sind, also [+2] und [+pl]:<br />
(7)<br />
+2<br />
–2<br />
+pl –pl<br />
Formen konkurrieren nun um die Besetzung <strong>der</strong> Zellen <strong>des</strong> Paradigmas. Dabei gilt das Prinzip<br />
<strong>der</strong> Spezifizität und Simplizität:<br />
6. Spezifizität und Simplizität<br />
Bei <strong>der</strong> Besetzung von Paradigmenzellen werden einfachere bzw. spezifischere gegenüber<br />
komplexeren bzw. weniger spezifischen Formen vorgezogen.<br />
52
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Beispiel 3.6:<br />
Im Fall <strong>der</strong> Flexion von werfen wird die Zelle durch die Form werft besetzt, da diese<br />
– dank ihres Affixes – die spezifischste Form ist. Die Formen wirfst und werfen werden dann,<br />
da sie weniger spezifisch sind, in die Zellen und eingefügt, woraus sich<br />
folgen<strong>des</strong> Teilparadigma ergibt:<br />
(8) +pl –pl<br />
+2 werf-t wirf-st<br />
–2 werf-n<br />
Aufgrund <strong>des</strong> Simplizitätsprinzips sind Formen wie werf-n-st für die Zelle ausgeschlossen.<br />
Affix 7 (/e/) aus Tabelle 3.1 eröffnet nun, da es explizit mit +1 und via Default mit –2 und -pl<br />
markiert ist, in <strong>der</strong> Zelle ein Subparadigma für die Werte +1 und –1. Die Form<br />
werfe, die durch ihr Affix -e mit +1 markiert ist, wird eingefügt, woraufhin die am wenigsten<br />
spezifische Form wirft in die Spalte <strong>des</strong> Paradigmas eingesetzt wird. Das fertige Paradigma<br />
sieht dann folgen<strong>der</strong>maßen aus:<br />
(9)<br />
+pl –pl<br />
+2 werf-t wirf-st<br />
–2 werf-n +1 werf-e<br />
–1 wirf-t<br />
Dieses Paradigma ist wie<strong>der</strong>um eingebettet in ein Paradigma, welches sich aus <strong>der</strong> Markierung<br />
<strong>des</strong> Stamms warf mit dem Merkmal +pret ergibt.<br />
Die Prinzipien <strong>der</strong> Gruppe D legen schließlich Wohlgeformtheitsbedingungen für Paradigmen<br />
fest:<br />
7. Vollständigkeit<br />
Jede Zelle eines Paradigmas muß belegt sein<br />
8. Eindeutigkeit<br />
Jede Zelle eines Paradigmas muß eindeutig belegt sein<br />
Die Erzeugung eines Paradigmas wird als ein Vorgang angesehen, <strong>der</strong> während einer Lernphase,<br />
also offline, nach einem generate-and-test-Modell abläuft. Die zur Verfügung stehenden<br />
Stämme und Affixe werden kombiniert und den verschiedenen Wohlgeformtheitsprinzipien<br />
unterworfen. Dabei ist zu beachten, daß insbes. die Spezifizitätsprinzipien nicht nur Informationen<br />
zu <strong>der</strong> gerade untersuchten Stamm-Affix-Kombination in Betracht ziehen, son<strong>der</strong>n<br />
Zugriff auf alle Affixe und auch auf alle Stämme <strong>des</strong> untersuchten Lemmas haben. Hierdurch<br />
wird die Paradigmenkonstruktion ein relativ aufwendiger Vorgang, <strong>der</strong> aber nach<br />
Meinung von Fabri et al. (1994:26) nicht ins Gewicht fällt, da er eben offline und nicht während<br />
<strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> vonstatten geht. Unklar bleibt nun, wie man sich die<br />
Verwendung eines mithilfe <strong>des</strong> eben vorgestellten Verfahrens gewonnenen Paradigmas<br />
während <strong>der</strong> online-Deflexion von Wörtern vorzustellen hat. Fabri et al. (1994:37) extrahieren<br />
53
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
aus dem gewonnenen Paradigma, beispielsweise <strong>des</strong> von werfen, die Information, welche<br />
Endungen auf welchen Stamm folgen können:<br />
Stamm kann gefolgt werden von<br />
warf -n, -t, -st, -0<br />
wirf st, -0<br />
werf -e, -n, -e-st, -e-t<br />
würfe -n, -t, -st, -0<br />
worf -n<br />
Tabelle 3.4: Stämme und mögliche Affixe, die nachfolgen können<br />
Dabei wird jedoch nicht gesagt, wie nun die flektierten Formen zu ihren morphosyntaktischen<br />
Merkmalen kommen.<br />
Nimmt man an, daß im <strong>Deutschen</strong> nicht alle (verbalen) Wortformen als Listeme im Lexikon<br />
verzeichnet sind und weiterhin, daß Paradigmen keine Epiphänomene sind und einen vom<br />
Lexikon unabhängigen Status haben – es demnach nur zwei verschiedene Paradigmen, je<br />
eines für regelmäßige und unregelmäßige Verben gibt –, so stellt sich das Problem <strong>der</strong> Zuordnung<br />
von bestimmten Verben zu diesen unterschiedlichen Paradigmentypen. Hier<br />
kommt man nicht daran vorbei, die Verben entsprechend zu klassifizieren, mithin Klassenmerkmale<br />
einzuführen. Darüber hinaus muß man bei den unregelmäßigen Verben die verschiedenen<br />
Stämme ebenfalls klassifizieren, um ihre Zuordnung zu den „richtigen“ Flexionsaffixen<br />
sicherzustellen. Fabri et al. (1994) verschleiern dies, da sie in ihrer Stamm-Affix-<br />
Tabelle (Tabelle 3.4) in <strong>der</strong> linken Spalte konkrete Verbstämme und nicht <strong>der</strong>en Äquivalenzklassen<br />
angeben, was aber bedeuten würde, daß die Informationen aus Tabelle 3.4 für je<strong>des</strong><br />
Verb dupliziert werden müßten; dies gilt jedoch nicht nur für die etwa 170 unregelmäßigen,<br />
son<strong>der</strong>n auch für die ungleich größere Zahl <strong>der</strong> regelmäßigen Verben. M.a.W.: ohne<br />
Einführung von Klassenmerkmalen erhält man eine höchst redundante Konzeption <strong>des</strong><br />
Begriffs „Paradigma“.<br />
Wun<strong>der</strong>lich (1992:15) ist sich dieses Problems anscheinend bewußt und schlägt daher<br />
„generalisierte Paradigmen“ vor; hier ist beispielsweise das Präteritum-Paradigma <strong>der</strong> starken<br />
Verben angegeben:<br />
(10)<br />
+pl –pl<br />
+2 /st/ /t/<br />
–2 /n/<br />
Hier stellt sich natürlich sofort die Frage, was sich in <strong>der</strong> Zelle befindet: ein Nullaffix<br />
o<strong>der</strong> gar nichts? Nimmt man ein Nullaffix an, so führt man an dieser Stelle eine Entität<br />
ein, die man bisher, bei <strong>der</strong> Paradigmenkonstruktion, bewußt vermieden hat. 3 Nimmt man<br />
nichts an, so muß man einen Träger für die Merkmalskombination [–2, +pl] finden: dies<br />
kann jedoch nur <strong>der</strong> Stamm sein. Dieser Stamm, z.B. warf, muß folglich diese beiden<br />
Merkmale tragen, im Gegensatz zu <strong>der</strong> Annahme, daß er nur mit +pret markiert ist. Möchte<br />
man nun die an<strong>der</strong>en Formen <strong>des</strong> Paradigmas bilden, so müssen diese Merkmale jedoch<br />
außer Kraft gesetzt werden können, d.h. man benötigt dann einen Default-Mechanismus,<br />
beispielsweise Default-Unifikation (vgl. Bouma (1992)):<br />
3 vgl. Wun<strong>der</strong>lich/Fabri (1994:3): „Inflectional morphology is <strong>des</strong>cribed in terms of affixes which have a<br />
phonological form and not in terms of abstract morphemes.“ [meine Hervorhebung]<br />
54
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
cat: V<br />
pers: 1 � 3<br />
head: agr:<br />
num: sg<br />
tense: pret<br />
warf + t<br />
55<br />
!<br />
head: agr:<br />
pers: 2<br />
num: pl<br />
Abb. 3.1: Anwendung von Default-Unifikation bei <strong>der</strong> Merkmalsbestimmung<br />
Der zweite Operand <strong>des</strong> Default-Unifikationsoperators t! 4 erhält hierbei Priorität, so daß sich<br />
seine Merkmale gegenüber den Merkmalen <strong>des</strong> ersten Operanden durchsetzen.<br />
Zusammenfassend halte ich die Konzeption <strong>der</strong> minimalistischen Morphologie für ein interessantes<br />
Modell <strong>der</strong> Paradigmenkonstruktion; sie ist jedoch für problematisch für die Aufgabenstellung<br />
<strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong>.<br />
Der Ansatz hat Ähnlichkeit mit dem in Kapitel 1 vorgestellten objektorientierten Ansatz von<br />
Daelemans (1987), insofern, als ein <strong>Analyse</strong>problem durch Generierung (hier Paradigmenelemente,<br />
dort vollständige Wortformen) gelöst wird. Man könnte also, Daelemans folgend,<br />
mit Hilfe <strong>des</strong> Paradigmenmechanismus alle verbalen Wortformen generieren und<br />
dann im Lexikon abspeichern. Dann greifen jedoch die Einwände, die ich auch gegen<br />
Daelemans Idee vorgebracht habe. Eine abgeschwächte Variante könnte beispielsweise das<br />
Paradigma eines Verbs dynamisch generieren, d.h. durch das Auftreten einer bestimmten<br />
Stammform <strong>des</strong> Verbs wird <strong>der</strong> Paradigmenmechanismus angestoßen; auch dies scheint mir<br />
zu aufwendig zu sein.<br />
Zusammenfassend bleibt festzuhalten, daß <strong>der</strong> Ansatz <strong>der</strong> minimalistischen Flexionsmorphologie<br />
eine Mischform zwischen verschiedenen Modellen ist. Der Mechanismus zur Paradigmenkonstruktion<br />
ist vom Typ item-and-process, die spätere Verwendung <strong>der</strong> Paradigmen<br />
läuft auf das word-and-paradigm-Modell hinaus.<br />
3.1.2 Derivation und Komposition<br />
Die Syntax <strong>der</strong> Derivation und Komposition sollen hier weitgehend gemeinsam behandelt<br />
werden, da die meisten neueren Theorien <strong>der</strong> Wortstruktur (z.B. Toman (1987), Höhle<br />
(1982)) sie als Ergebnis <strong>des</strong> gleichen Mechanismus ansehen. Unterschiede zwischen diesen<br />
beiden Wortbildungsarten werden, wie noch gezeigt wird, durch unterschiedliche Lexikoneinträge<br />
<strong>der</strong> beteiligten Morpheme erklärt.<br />
Für komplexe Wörter eine hierarchische Struktur anzunehmen ist nun keineswegs selbstverständlich<br />
5 . M.E. ist diese Annahme nur dann sinnvoll, wenn man von <strong>der</strong> Prämisse ausgeht,<br />
daß sich die semantische Interpretation zusammengesetzter Wörter kompositionell entlang<br />
ihrer internen Strukturierung ergibt. Auf diese Weise ist es dann z.B. möglich, die beiden<br />
Lesarten eines Kompositums wie Hochleistungscomputer strukturell zu fassen, vgl.:<br />
4 t! ist damit keine kommutative Operation.<br />
5 vgl. etwa Spencer (1991:189): „The idea that words have their own constituent structure has been<br />
predominant, to the extent of being taken for granted in some circles. However, it is not a necessary<br />
assumption, and [..] we will see approaches in which constituent structure plays a less prominent role<br />
or no role whatever.“
(11) a)<br />
A<br />
Hoch<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
N<br />
N N<br />
leistungs<br />
N<br />
computer<br />
56<br />
b)<br />
Hoch<br />
N<br />
A N<br />
N<br />
leistungs<br />
N<br />
computer<br />
Die Bedeutung von (11a) könnte man umschreiben mit „hoher Leistungscomputer“, die von<br />
(11b) mit „Computer mit hoher Leistung“ (die präferierte Lesart).<br />
Eine semantisch induzierte Wortsyntax wird, eingeschränkt auf die Komposition, auch von<br />
<strong>der</strong> traditionellen Grammatik angenommen (z.B. Duden (1984: 440), ohne daß jedoch ihre<br />
semantische Bedingtheit offengelegt würde.<br />
Gründe für die Annahme einer autonomen wortsyntaktischen Komponente, analog <strong>der</strong><br />
These <strong>der</strong> Autonomie <strong>der</strong> Syntax, sind nicht ohne weiteres beizubringen, da die Wortsyntax<br />
von erheblich geringerer Komplexität als die Satzsyntax ist. Darüber hinaus erklärt auch<br />
eine angenommene Wortsyntax nicht alle <strong>Aspekte</strong> <strong>der</strong> Morphologie, beispielsweise solche,<br />
die sich nicht durch bloße Morphemkonkatenation erklären lassen. Erwähnenswert ist hier<br />
z.B. die Konversion.<br />
Vor dem Hintergrund <strong>des</strong> Ziels dieser Arbeit, auch einen Beitrag zur maschinellen Interpretation<br />
von komplexen Wörtern zu leisten, möchte ich jedoch von <strong>der</strong> Arbeitshypothese<br />
ausgehen, daß man solchen Wörtern eine hierarchische Struktur zuweisen kann. Dies findet<br />
nicht zuletzt seinen pragmatischen Grund darin, daß Computer mit Strukturen weitaus besser<br />
umgehen können als mit Inhalten.<br />
3.1.2.1 Strukturregeln<br />
Hinsichtlich <strong>des</strong> Formats <strong>der</strong> strukturaufbauenden Regeln gibt es in <strong>der</strong> Literatur prinzipiell<br />
zwei Auffassungen:<br />
1. Wortstrukturregeln als auf Binarität eingeschränkte Regeln einer kontextfreien Grammatik.<br />
2. Wortstrukturregeln als Instanzen eines <strong>morphologischen</strong> X-Bar-Schemas.<br />
Vertreter <strong>der</strong> ersten Auffassung sind u.a Di Sciullo/Williams (1987) o<strong>der</strong> aus computerlinguistischer<br />
Anwendungsperspektive Thurmair (1986a, b). Di Sciullo/Williams (1987: 23)<br />
geben folgende Grammatik für die syntaktische Struktur englischer Wörter an:<br />
(12)<br />
a) stem � af stem<br />
b) stem � stem af<br />
c) word � af word<br />
d) word � word af<br />
e) word � stem<br />
f) word � word word<br />
Die Regeln (12a-f) sind für Flexion und Derivation zuständig, Regel (12f) für die Komposition.<br />
In ähnlicher Form könnte man auch eine Wortgrammatik für das Deutsche angeben.<br />
Der Ansatz von Di Sciullo/Williams nimmt darüber hinaus die Gültigkeit <strong>der</strong> Righthand<br />
Head Rule an, die jedoch in den Regeln selbst nicht explizit ist.
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Demgegenüber geht die an<strong>der</strong>e, u.a. von Toman (1987) und Selkirk (1982) vorgebrachte<br />
Sichtweise davon aus, daß <strong>der</strong> Begriff <strong>des</strong> <strong>morphologischen</strong> Kopfes bei <strong>der</strong> Formulierung<br />
von Strukturregeln im Zentrum stehen muß. Toman (1987) nimmt beispielsweise ein allgemeines<br />
X-Bar-Schema<br />
(13) X n � ... X n-1 ...<br />
an, welches durch eine zusätzliche Bedingung<br />
(14) Wenn n = 0, dann n–1 = 0<br />
für die Erzeugung von Wortstrukturen parametrisiert wird. Für (zusammengesetzte) Wörter<br />
wird demnach angenommen, daß sie X 0-Kategorien sind und wie<strong>der</strong>um aus solchen aufgebaut<br />
sind. Das X auf den beiden Seiten <strong>des</strong> Pfeils in (13) drückt dabei die Kopflinie aus, entlang<br />
<strong>der</strong> sich Merkmale eines Wortbestandteils an das Gesamtwort vererben.<br />
Während Toman durch sein Schema (13) zunächst noch 6 nicht-binäre Strukturen und damit<br />
solche, in denen <strong>der</strong> Kopf nicht peripher steht, zuläßt, beschränkt Selkirk ihr X-Bar-Schema<br />
durch Ausmultiplizierung (Selkirk 1982:16)):<br />
(15) N � N N<br />
N � A N<br />
N � V N<br />
N � P N<br />
A � N A<br />
A � A A<br />
A � P A<br />
V � P V<br />
Meiner Meinung nach gibt es jedoch eine ganze Reihe von Argumenten, die gegen eine<br />
Parallelisierung von Wort- und Satzsyntax mit Hilfe eines verallgemeinerten X-Bar-Schema<br />
sprechen:<br />
1. Köpfe in Wortstrukturen sind positionell – durch die Righthand Head Rule – nicht inhaltlich,<br />
d.h. aufgrund bestimmter Merkmale festgelegt.<br />
2. Der Kopfbegriff <strong>der</strong> Wortsyntax ist viel schwächer als <strong>der</strong> <strong>der</strong> Phrasensyntax, wenn man<br />
– was notwendig scheint – das Vorhandensein von relativierten Köpfen annimmt.<br />
3. Maximalität ist keine Kategorie <strong>der</strong> Wortsyntax; dementsprechend sind die „Komplemente“<br />
von Wortköpfen nicht maximal.<br />
4. Überhaupt kann man kaum von Komplementen o<strong>der</strong> – negativ gefaßt – auch nur von<br />
Nicht-Köpfen sprechen, da fast je<strong>der</strong> Bestandteil eines komplexen Wortes hinsichtlich<br />
eines bestimmten Merkmals zu den Gesamteigenschaften <strong>des</strong> Wortes beiträgt, m.a.W.<br />
ein Kopf ist. Hinzu kommt, daß ausgesprochen grammatische Beziehungen, wie es<br />
Kopf-Komplement-Beziehungen sind, auf <strong>der</strong> Wortebene eher selten anzutreffen sind;<br />
lediglich bei Rektionskomposita und Strukturen mit relationalem Zweitglied kann davon<br />
die Rede sein.<br />
5. Schließlich ist (13) nur ein Teil <strong>des</strong> für die Phrasensyntax angenommenen X-Bar-Schemas.<br />
Der fehlende Teil führt sog. Phrasenspezifikatoren ein, eine Kategorie, die auf <strong>der</strong><br />
Wortebene vollständig fehlt.<br />
6 Toman ersetzt (13) später (S. 50) durch X n � ... X n-1 .<br />
[+N]<br />
57
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Nimmt man nun die Gültigkeit <strong>der</strong> Righthand Head Rule von Williams (1981) an – wenn auch<br />
nur als empirische Generalisierung bezüglich einer gewissen Anzahl von Sprachen, dann<br />
muß man Abschied nehmen von Kategorien wie Suffix etc. wie in (16):<br />
(16) a) N<br />
V<br />
Kopier er<br />
b) A<br />
58<br />
V<br />
begeh bar<br />
da Strukturen wie diese gegen die angenommene Rechtsköpfigkeit verstoßen. Statt<strong>des</strong>sen ist<br />
man gezwungen, die Suffixe -er und -bar als Elemente <strong>der</strong> Klasse Nomen bzw. Adjektiv anzusehen,<br />
so daß für (16) folgende Strukturen resultieren:<br />
(17) a) N<br />
V N<br />
Kopier er<br />
b)<br />
A<br />
V A<br />
begeh bar<br />
Dieser Schluß ist nun keineswegs ad hoc, da die genannten und auch noch weitere Suffixe<br />
wie -ung, -heit/keit etc. nicht nur die Wortart <strong>des</strong> <strong>der</strong>ivierten Worts bestimmt, son<strong>der</strong>n auch –<br />
bei Nomen – <strong>des</strong>sen Genus und Flexionsklasse.<br />
Der einzige Unterschied zwischen diesen Suffixen und „richtigen“ Nomen, Verben und<br />
Adjektiven scheint nunmehr lediglich darin zu bestehen, daß erstere im Lexikon mit dem<br />
Merkmal +gebunden spezifiziert sind. Dieses Merkmal ±gebunden darf allerdings kein vererbtes<br />
Kopfmerkmal im Sinne <strong>der</strong> head features <strong>der</strong> GPSG/HPSG sein, da es nicht auf das<br />
abgeleitete Wort übertragen werden darf. Hieraus kann man ersehen, daß, abgesehen von<br />
<strong>der</strong> Tatsache, ein morphologischer Kopf aufgrund seiner Relativität die <strong>morphologischen</strong><br />
Eigenschaften <strong>des</strong> Gesamtwortes nur partiell bestimmt, er darüber hinaus nicht alle seine<br />
Merkmale vererben darf. Dies bedeutet, daß <strong>der</strong> Begriff <strong>des</strong> Kopfes selbst noch zu schwach<br />
ist, um alle Phänomene zu erklären; was man zusätzlich benötigt, ist also <strong>der</strong> Begriff <strong>des</strong><br />
Kopfmerkmals.<br />
Stellt man die beiden vorgestellten Möglichkeiten zur Wortstrukturbildung gegenüber, so<br />
ergibt sich folgen<strong>des</strong> Bild:<br />
1. Der Formalismus <strong>des</strong> <strong>morphologischen</strong> X-Bar-Schemas ist eingeschränkter als <strong>der</strong> <strong>der</strong><br />
kontextfreien Regeln. Eine Wortgrammatik auf <strong>der</strong> Grundlage <strong>des</strong> letzteren läßt sich jedoch<br />
leicht erweitern, um eine höhere <strong>des</strong>kriptive Adäquatheit zu erzielen; dies ist umso<br />
wichtiger, als es bei <strong>der</strong> maschinellen <strong>morphologischen</strong> <strong>Analyse</strong> ja darum geht, Regularitäten<br />
<strong>der</strong> Wortbildung <strong>der</strong> Gegenwartssprache abzubilden, die nicht in die eigentliche<br />
Wortsyntax fallen, beispielsweise Analogiebildungen. Diese Situation kann man auch in<br />
<strong>der</strong> Phrasensyntax wie<strong>der</strong>finden, wo das X-Bar-Schema in den Bereich <strong>der</strong> Kerngrammatik<br />
i.S. von Chomsky (1981) fällt, die vollständige Grammatik <strong>der</strong> Gegenwartssprache<br />
aber viele Elemente aus <strong>der</strong> Peripherie enthält.<br />
2. An<strong>der</strong>erseits ist das X-Bar-Schema meist mit einer Lexikalisierung <strong>der</strong> Syntax gekoppelt:<br />
syntaktische Strukturen entstehen aus <strong>der</strong> Interaktion von aus dem Lexikon projizierten<br />
Informationen mit universellen Phrasenstrukturprinzipien. Für das morphologische X-<br />
Bar-Schema bedeutet dies, daß man die Anfor<strong>der</strong>ungen, die ein Kopf an seine Umgebung<br />
stellt, in seinem Lexikoneintrag festhalten muß.
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
3.1.2.2 Argumentvererbung<br />
Mit Argumentvererbung wird <strong>der</strong> Sachverhalt bezeichnet, daß abgeleitete Wörter häufig<br />
thematische Rollen vor ihrer Basis übernehmen.<br />
(18)<br />
a) Der Notar beurkundete den Grundstücksverkauf<br />
Agens Thema<br />
b) Die Beurkundung <strong>des</strong> Grundstücksverkaufs (durch den Notar)<br />
Thema (Agens)<br />
(19)<br />
a) Das Gericht überträgt das Nutzungsrecht an die Alteigentümer<br />
Agens Thema Benefizient<br />
b) Die Übertragung <strong>des</strong> Nutzungsrechts (durch das Gericht) an die Alteigentümer<br />
Thema (Agens) Benefizient<br />
(20)<br />
a) Die Funken entflammen das Material<br />
?? Thema<br />
b) Das Material ist (durch Funken) entflammbar<br />
Thema ??<br />
Anscheinend werden in (18)-(20) die Thetarollen-Raster <strong>der</strong> zugrundeliegenden Verben an<br />
das Derivat vererbt. Die Thetarolle <strong>des</strong> Subjekts (Agens in (18) und (19), ?? in (20)) muß im<br />
abgeleiteten Wort nicht unbedingt realisiert werden; dies ist analog zur Passivierung in <strong>der</strong><br />
Satzsyntax.<br />
Vererbt werden nur Thetarollen, nicht jedoch <strong>der</strong>en syntaktische Realisierung. Die Thema-<br />
Thetarolle <strong>des</strong> Akkusativobjekts in (19a) wird in (19b) beispielsweise als postnominaler Genitiv<br />
verwirklicht. Die syntaktische Realisierung einer Thetarolle muß also kompatibel sein<br />
mit den allgemeinen kategorialen Eigenschaften <strong>des</strong> Derivats. Nomina lassen z.B. nur Genitiv-Nominalphrasen<br />
und Präpositionalphrasen als Komplemente bzw. Modifikatoren zu,<br />
dementsprechend werden die Thetarollen <strong>des</strong> Basisverbs verwirklicht.<br />
Als Struktur kann man etwa für (19b) folgen<strong>des</strong> annehmen:<br />
(21)<br />
V N<br />
59<br />
N<br />
übertrag ung<br />
[ Agens, Thema, Benefizient ]<br />
Während <strong>der</strong> morphologische Kopf in (21) für Wortart und Genus <strong>des</strong> Derivats verantwortlich<br />
ist, stammt das Thetarollen-Raster vom Verb. Daß <strong>der</strong> linke Zweig für die Argumente<br />
<strong>des</strong> abgeleiteten Nomens verantwortlich ist, kann wie<strong>der</strong> mit <strong>der</strong> Annahme von relativierten<br />
Köpfen erklärt werden. Das Suffix -ung ist hinsichtlich <strong>des</strong> Merkmals Argumentstruktur nicht<br />
spezifiziert, so daß <strong>der</strong> nächste Zweig links davon, <strong>der</strong> dieses Merkmal hat, sich durchsetzt.<br />
Allerdings kann die Argumentstruktur durch morphologische Prozesse auch verän<strong>der</strong>t<br />
werden; als Beispiel wären Kausativierungen zu nennen.<br />
In bestimmten Fällen kann Argumentvererbung nicht stattfinden (vgl. Toman (1987:61)):
(22)<br />
a) die Soldaten beobachten die Grenze<br />
b) die Beobachtung <strong>der</strong> Grenze<br />
c) *<strong>der</strong> Beobachtungsturm <strong>der</strong> Grenze<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Das Nomen Beobachtungsturm in <strong>der</strong> Nominalphrase in (22c) mit <strong>der</strong> Interpretation „Turm,<br />
von dem aus die Grenze beobachtet wird“, nicht in <strong>der</strong> Possessiv-Lesart, ist wie erwartet strukturiert:<br />
(23) [N [N [V Beobacht] [N ung(s)]] [N turm]]<br />
Mit großer Wahrscheinlichkeit ist <strong>der</strong> Kontrast in (22) darauf zurückzuführen, daß sich gebundene<br />
und freie Instanzen von Kategorien wie N nicht nur hinsichtlich eines Merkmals<br />
±gebunden unterscheiden, son<strong>der</strong>n darüber hinaus in ihrem semantischen Beitrag zum Gesamtwort.<br />
Während gebundene Kategorien (Suffixe) wie -ung nur die Bedeutung <strong>der</strong> ihnen<br />
vorangehenden Konstituente transformieren, machen freie Kategorien einen eigenständigen<br />
Beitrag zum Gesamtwort. Beispielsweise wird im Determinativkompositum Beobachtungsturm<br />
das Nomen Turm durch das Erstglied näher bestimmt. Die Nicht-Akzeptabilität von<br />
(22c) ist daher wahrscheinlich darauf zurückzuführen, daß<br />
(24) ??* <strong>der</strong> Turm <strong>der</strong> Grenze<br />
bereits nicht akzeptabel ist.<br />
Neben diesen Beschränkungen semantischer Natur gibt es weitere, die dem Anschein nach<br />
wie<strong>der</strong> syntaktisch zu erklären sind. Es gibt einen interessanten Kontrast zwischen den ung-<br />
Nominalisierungen von Verben mit Akkusativobjekt und solchen mit Dativobjekt.<br />
(25)<br />
a) Die Touristen vertreiben das Wild<br />
b) Die Vertreibung <strong>des</strong> Wilds<br />
(26)<br />
a) das Geräusch <strong>der</strong> Rasenmäher belästigt den Linguisten<br />
b) die Belästigung <strong>des</strong> Linguisten<br />
Die meisten <strong>der</strong> Verben mit Akkusativobjekt, die unter dem entsprechenden Satzbauplan im<br />
Duden (1984:607) verzeichnet sind, lassen eine Ableitung mit -ung zu. Dabei wird immer die<br />
Thetarolle, die das Akkusativobjekt trägt, an das Derivat vererbt. Demgegenüber ist ung-<br />
Derivation bei den Verben mit Dativobjekt fast nie möglich, vgl.<br />
(27)<br />
a) <strong>der</strong> Soldat gehorcht dem Befehl<br />
b) * die Gehorchung <strong>des</strong> Befehls<br />
Einige Verben mit Dativobjekt bilden ihre Nominalisierung durch Ableitung mit -e (vgl.<br />
Toman (1987:60)):<br />
(28)<br />
a) <strong>der</strong> Sohn hilft dem Vater<br />
b) die Hilfe <strong>des</strong> Vaters<br />
Ein Verb mit ähnlicher Semantik wie helfen, unterstützen, realisiert die Thetarolle Benefizient<br />
als Akkusativobjekt.<br />
(29)<br />
a) <strong>der</strong> Sohn unterstützt den Vater<br />
b) die Unterstützung <strong>des</strong> Vaters<br />
60
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Während man (28b) nicht so interpretieren kann, daß dem Vater Hilfe zuteil wird<br />
(Benefizient-Rolle), ist dies in (29b) ohne weiteres möglich, wobei allerdings auch die an<strong>der</strong>e<br />
Lesart nicht ausgeschlossen ist.<br />
Die Generalisierung, die man aus <strong>der</strong> oben dargestellten Datenlage bilden kann, ist folgende:<br />
unter Zugrundelegung <strong>der</strong> Unterscheidung zwischen lexikalischem und strukturellem<br />
Kasus (letzterer ergibt sich aus bestimmten Konfigurationen <strong>der</strong> Phrasenstruktur, ersterer<br />
ist in den Lexikoneinträgen verzeichnet) können zumin<strong>des</strong>t bei <strong>der</strong> Nominalisierung mit<br />
-ung nur Argumente mit strukturellem Kasus vererbt werden.<br />
Argumentvererbung betrifft nun, wie in (20b) schon deutlich geworden ist, nicht alle Argumente<br />
<strong>der</strong> Basis gleichermaßen. Bei <strong>der</strong> bar-Suffigierung wird das ursprüngliche Objekt <strong>des</strong><br />
Basisverbs vererbt, während das zugrundeliegende Subjekt fakultativ als Präpositionalphrase<br />
verwirklicht werden kann. Wenn das die richtige Erklärung für diesen Vorgang ist,<br />
so setzt das voraus, daß das Basisverb überhaupt eine Objektsthetarolle vergibt. Toman<br />
(1987) schlägt als Generalisierung vor, daß nur transitive Verben, also solche mit Akkusativobjekt,<br />
zum Gegenstand <strong>der</strong> Ableitung mit -bar gemacht werden können. Dieses Kriterium<br />
ist noch nicht ausreichend; daß auch semantische Faktoren eine Rolle spielen, wird im nächsten<br />
Abschnitt deutlich.<br />
Als Fazit dieses Abschnitts ergibt sich:<br />
1. Das Phänomen <strong>der</strong> Argumentvererbung wird auf syntaktische Weise durch einen Perkolationsmechanismus<br />
erklärt (es gibt auch an<strong>der</strong>e Erklärungsversuche, s.u.)<br />
2. Suffixe sind i.a. transparent für die Vererbung von Argumenten. Einige Suffixe wie -bar<br />
sind jedoch nicht für alle Argumente gleichermaßen durchlässig.<br />
3. Vererbt werden thematische Rollen, nicht <strong>der</strong>en syntaktische Träger. Die syntaktische<br />
Realisierung <strong>der</strong> Rolle beim Derivat ergibt sich aus den Möglichkeiten, die einer Kategorie<br />
hierzu zur Verfügung stehen. Nomen z.B. erlauben als Argumente und Modifikatoren<br />
Nominalphrasen im Genitiv und Präpositionalphrasen, Verben darüber hinaus auch<br />
Nominalphrasen in den übrigen Kasus.<br />
3.2 Wortbildung im <strong>Deutschen</strong><br />
Vor dem Hintergrund <strong>der</strong> Ideen, die in diesem und im letzten Abschnitt diskutiert wurden,<br />
möchte ich in diesem Abschnitt die Wortbildungstypen Komposition, Derivation und Konversion<br />
im <strong>Deutschen</strong> etwas detaillierter untersuchen.<br />
3.2.1 Komposition<br />
Die traditionelle Grammatik klassifiziert Komposita in drei Grundtypen:<br />
1. Determinativkomposita<br />
2. Kopulativkomposita<br />
3. Exozentrische Komposita<br />
Determinativkomposita bestehen aus zwei Teilen, dem Grundwort und dem Bestimmungswort,<br />
die beide komplex sein können. Das Grundwort bildet das Hinterglied <strong>des</strong> Kompositums<br />
und ist – aufgrund <strong>der</strong> Rechtsköpfigkeit deutscher Substantive – für die wesentlichen syntaktischen<br />
und semantischen Eigenschaften <strong>des</strong> Gesamtworts verantwortlich. Das in Erstgliedposition<br />
stehende Bestimmungswort bestimmt den durch das Zweitglied ausgedrückten<br />
Begriff näher. Determinativkomposita sind beispielsweise Datensicherheit und Speicherkapazität.<br />
61
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Demgegenüber sind bei Kopulativkomposita Erst- und Zweitglied in semantischer Hinsicht<br />
gleichwertig, so daß Instanzen <strong>des</strong> Kompositatyps durch Konjunktion interpretiert werden.<br />
Ein Beispiel hierfür ist <strong>der</strong> schon klassisch zu nennende Dichterkomponist.<br />
Exozentrische Komposita (o<strong>der</strong> Possessivkomposita) wie beispielsweise Schafskopf schließlich<br />
drücken eine Eigenschaft aus, die meist einem Lebewesen zukommt. Sie sind stark lexikalisiert<br />
und daher kaum ein produktiver Wortbildungstypus im <strong>Deutschen</strong>; allerdings haben<br />
sie fast immer auch eine Lesart als Determinativkompositum.<br />
In <strong>der</strong> traditionellen Grammatik (z.B. Lühr (1986)) wie auch in mo<strong>der</strong>neren generativen Ansätzen<br />
herrscht Konsens darüber, daß deutsche Komposita in <strong>der</strong> großen Mehrzahl binär<br />
aufgebaut sind; Ausnahmen hierzu sind Konstruktionen wie Scharping-Schrö<strong>der</strong>-Konflikt u.<br />
dgl. Von den unter dieser Annahme denkbaren Strukturtypen, z.B. bei Komposita mit vier<br />
Glie<strong>der</strong>n, sind fünf Strukturtypen denkbar, für die sich allesamt Beispiele finden lassen:<br />
(30)<br />
a) b) c) d) e)<br />
N<br />
N<br />
N<br />
N<br />
N<br />
X<br />
N<br />
N<br />
X X X N X N<br />
X<br />
X<br />
N<br />
X<br />
X<br />
62<br />
X N<br />
Beispiele sind (z.T. nach Olsen (1986:55)):<br />
(31)<br />
a) Straßenverkehrszulassungsordnung, Luftwaffenstützpunkt<br />
b) Theaterwochenspielplan, Bezirksjahreshauptversammlung<br />
c) Rauschgifthändlerring, Bergbauwissenschaftsstudium,<br />
Trauerbegleitungsausbildungsschulung (ZEIT 16/1999)<br />
d) Bun<strong>des</strong>hauptstadtsumzug<br />
e) Jugendarbeitsschutzgesetz<br />
X<br />
X<br />
X<br />
X N<br />
X<br />
X<br />
X<br />
X<br />
X<br />
N<br />
X N<br />
Dies deutet darauf hin, daß keine syntaktischen Beschränkungen bei <strong>der</strong> Komposition existieren.<br />
7 Aus methodologischen Gründen nimmt man weiterhin an, daß die Komposition im<br />
<strong>Deutschen</strong> ein unbeschränkt rekursiver Prozeß ist, <strong>der</strong> lediglich in <strong>der</strong> Performanz seine<br />
Grenze findet. Dies vereinfacht – wie die analoge Annahme hierzu in <strong>der</strong> Satzsyntax – die<br />
Konstruktion <strong>der</strong> Grammatik.<br />
Eine wichtige Unterklasse <strong>der</strong> Determinativkomposita, <strong>der</strong>en Interpretation am ehesten<br />
grammatisch gesteuert zu sein scheint, sind die sog. Rektionskomposita. Als Zweitglied bei<br />
Instanzen dieser Klasse fungiert ein deverbales Derivat, beispielsweise eine er-Nominalisierung:<br />
(32)<br />
a) Zeitungsholer<br />
b) Wagenheber<br />
Der Name Rektionskomposita erklärt sich aus <strong>der</strong> Nähe zu den korrespondierenden syntaktischen<br />
Konstruktionen:<br />
7 Dies konnte auch experimentell gezeigt werden, vgl. Wisniewski/Gentner (1991).<br />
X
(33)<br />
a) x holt eine Zeitung<br />
b) x hebt den Wagen<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
In (32a,b) sieht es so aus, als würde <strong>der</strong> verbale Bestandteil <strong>des</strong> Zweitglieds aufgrund <strong>der</strong><br />
Transparenz <strong>des</strong> Suffixes eine Thetarolle an das Derivat vererben, die dann an das Erstglied<br />
zugewiesen wird. Interessant ist in diesem Zusammenhang (vgl. hierzu auch Abschnitt<br />
3.1.2.2), daß die Zweitglie<strong>der</strong> allein nicht grammatisch sind, vgl.<br />
(34)<br />
a) * Holer<br />
b) * Heber<br />
Auch eine externe Sättigung <strong>der</strong> Argumentstellen scheint nicht in Frage zu kommen, vgl.<br />
(35)<br />
a) * <strong>der</strong> Holer <strong>der</strong> Zeitung<br />
b) * <strong>der</strong> Heber <strong>des</strong> Wagens<br />
Eine Beson<strong>der</strong>heit <strong>der</strong> Komposition im <strong>Deutschen</strong> ist, daß zwischen Erst- und Zweitglied<br />
eines Kompositums häufig sog. Fugenelemente eingesetzt werden. Im <strong>Deutschen</strong> gibt es 8<br />
verschiedene Fugenelemente, die in Tabelle 3.5 zusammengefaßt sind (nach Eisenberg<br />
(1998:227ff.):<br />
Fugen– Anfor<strong>der</strong>ungen an das Vor<strong>der</strong>glied<br />
element<br />
� Standardfuge bei fast 75% aller Komposita<br />
e Verb: meist einfache Stämme mit stimmhaftem Obstruent<br />
en Nomen: schwache Maskulina<br />
ns/ens Nomen: stark lexikalisiert<br />
er Stämme mit Zahlwörtern<br />
es Nomen: Maskulina und Neutra mit (e)s-Genitiv<br />
n Nomen: schwache Maskulina; Femina mit Schwa-Auslaut<br />
s Nomen: regelmäßig nach Suffixen wie -keit/heit/igkeit, -tum, -schaft, -ung, -sal,<br />
und -ling; Deverbativa auf -en mit einfachem o<strong>der</strong> präfigiertem Verbstamm als<br />
Basis; maskulinen und femininen Ableitungen von Partikelverben<br />
Tabelle 3.5: Fugenelemente und ihre Eigenschaften<br />
Die Herkunft <strong>der</strong> Fugenelemente ist unterschiedlich. Teils handelt es sich um Flexive, teils<br />
werden sie aus prosodischen Gründen eingefügt. Fugenelemente zwischen Erst- und Zweitglied<br />
werden fast ausschließlich durch Eigenschaften <strong>des</strong> Erstglieds determiniert. Neben<br />
diesen Fugen gibt es nichtnative Fugen wie -ial (in Territorialverteidung) und sog. Substraktionsfugen<br />
(z.B. Wolldecke).<br />
Da <strong>der</strong> Anteil <strong>der</strong> Syntax am Mechanismus <strong>der</strong> Komposition nur vergleichsweise gering ist<br />
und Semantik, Konzeptwissen und Pragmatik eine ungleich größere Rolle spielen, ist dieser<br />
Wortbildungstyp Hauptgegenstand von Abschnitt 3.3.<br />
63
3.2.2 Derivation<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Dieser Abschnitt versucht, die Eigenschaften <strong>der</strong> wichtigsten Suffixe und Präfixe <strong>des</strong> <strong>Deutschen</strong><br />
einigermaßen detailliert wie<strong>der</strong>zugeben; dabei beschränke ich mich auf die produktiven<br />
Wortbildungstypen. Die Darstellung orientiert sind im wesentlichen an Toman (1987:<br />
Kap. 3), Eisenberg (1998) und Olsen (1986).<br />
3.2.2.1 Suffigierung<br />
Tabelle 3.6 gibt eine Übersicht über die Eigenschaften <strong>der</strong> wichtigsten Suffixe <strong>des</strong> <strong>Deutschen</strong><br />
und ihren Einfluß auf das Derivat. Einige <strong>der</strong> Suffixe, die später auch eine Rolle in <strong>der</strong><br />
<strong>morphologischen</strong> Grammatik von Kapitel 5 spielen, werden noch etwas detaillierter beleuchtet.<br />
Suffix Kat. Anfor<strong>der</strong>ungen morphosyntaktische semantische<br />
an die Basis<br />
Auswirkung<br />
Auswirkung<br />
-heit/ N Adjektive;<br />
Festlegung von Genus Abstrakta-Bildung,<br />
-keit/<br />
phonotaktische<br />
(feminin) und<br />
Resultat denotiert einen<br />
-igkeit Beschränkungen<br />
bestimmen, welches<br />
Allomorph gewählt wird<br />
Flexionsklasse<br />
Zustand<br />
-schaft N Nomen Bildung femininer Bildung von<br />
Nomen<br />
Personenkollektiva<br />
-ung N transitive Verben Festlegung von Genus Verbalabstraktion<br />
intransitive Verben mit (feminin) und<br />
Bildung von Nomina actionis<br />
o<strong>der</strong> ohne PP-Objekt Flexionsklasse<br />
(80%)<br />
Stammkomplexität Argumentvererbung Vorgang/Zustandsalternation<br />
irrelevant<br />
Bildung von Subjektivus bzw.<br />
nicht möglich: Verben<br />
mit Dativobjekten<br />
Objektivus<br />
-er N Verben Bildung maskuliner, Bildung von Nomina agenti,<br />
movierbarer Nomen Nomina instrumenti,<br />
Argumentvererbung Nomina acti<br />
-ismus N nicht-native Basis:<br />
Nomen, Adjektive<br />
(insbes. auf -al)<br />
Abstraktion<br />
-bar A transitive Verben Absorption bzw. Hinzufügung eines<br />
Rückstufung <strong>der</strong><br />
Subjektsthetarolle<br />
Potentialitätsaspekts<br />
-el V native Nomen, Verben regelmäßige Flexion Hinzufügung eines iterativen<br />
und Adjektive<br />
Aspekts<br />
-er V native Nomen, Verben regelmäßige Flexion Hinzufügung eines iterativen<br />
und Adjektive<br />
Aspekts<br />
-ier / V N, (V), A<br />
regelmäßige Flexion „etwas zu Bed(N) machen“<br />
-ifizier / überwiegend nicht-nativ, Deadjektivische Ableit- „etwas mit Bed(N) versehen“<br />
-izier<br />
auch komplex<br />
ungen sind transitiv „etwas Bed(A) machen“<br />
-ig V einfache Nomen und<br />
Adjektive<br />
regelmäßige Flexion<br />
-isier V Nomen und Adjektive transitive Verben mit<br />
regelmäßiger Flexion<br />
Affizierung, Effizierung<br />
-ist N Nomen Bildung maskuliner, Bildung von<br />
movierbarer Nomen Personenbezeichnungen<br />
Stereotyperschließung<br />
Tabelle 3.6: Einige native und nicht-native Suffixe <strong>des</strong> <strong>Deutschen</strong> und ihre Eigenschaften<br />
64
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
-er<br />
Das Suffix -er bildet mit einer verbalen Basis Nomina agenti (Arbeiter, Schnei<strong>der</strong>), Nomina<br />
instrumenti (Büchsenöffner, Bleistiftspitzer) und Nomina acti (Jodler). Die Alternation zwischen<br />
Agens und Instrument findet sich in systematischer Weise auch schon bei den<br />
zugrundeliegenden Verben, vgl. Eisenberg (1998:265):<br />
(36)<br />
a) Karla öffnet die Tür mit dem Schlüssel<br />
b) Der Schlüssel öffnet die Tür<br />
Bei Nomina instrumenti scheint Argumentvererbung vorzuliegen, da die Argumentstelle<br />
<strong>des</strong> direkten Objekts bevorzugt kompositumsintern realisiert wird:<br />
(37) Nußknacker – *Knacker – ?*Knacker <strong>der</strong> Nüsse<br />
Ausgeschlossen für er-Nominalisierungen sind Psych-Verben (erstaunen, freuen), bei den für<br />
das Akkusativobjekt eine Selektionsbeschränkung auf Person existiert und ergative Verben<br />
(aufblühen, fallen). Zurückzuführen ist dies vermutlich auf die Aktionsart <strong>des</strong> Basisverbs.<br />
Neben den genannten Typen gibt es Ableitungen mit substantivischer Basis, die aber z.T.<br />
recht heterogen sind: Regensburger (Ortsname), Gewerkschafter (Institution) etc.<br />
-bar<br />
Die Generalisierung, die bezüglich <strong>der</strong> Ableitung mit -bar bereits in Abschnitt 3.1.2.2 diskutiert<br />
wurde, war die, daß nur transitive Verben als Basis möglich sind. Dies erklärt zunächst<br />
die folgenden Ungrammatikalitäten (vgl. Toman (1987:70)):<br />
(38)<br />
a) * Dieses Hotel ist schlafbar (schlafen, intransitiv)<br />
b) * Der Mann ist nicht helfbar (helfen, Dativobjekt)<br />
c) * Die Toten sind gedenkbar (gedenken, Genitivobjekt)<br />
Allerdings gibt es transitive Verben wie verbittern, enttäuschen und überraschen, die ebenfalls<br />
eine bar-Ableitung blockieren. Toman (1987) schlägt zur Erklärung dieser Daten daher ein<br />
semantisches Kriterium vor: das <strong>der</strong> Intentionalität. Transitive Verben, die eine intentionale<br />
Handlung ausdrücken, können danach zum Ausgangspunkt <strong>der</strong> Ableitung mit -bar gemacht<br />
werden.<br />
Argumentvererbung kann bei <strong>der</strong> bar-Ableitung auch hinsichtlich von Dativargumenten bei<br />
Verben mit dem Subkategorisierungsrahmen Subjekt – Dativobjekt – Akkusativobjekt stattfinden,<br />
da Dativargumente schließlich auch von Adjektiven (beispielsweise jdm. treu sein) subkategorisiert<br />
werden können (vgl. Toman (1987:78)):<br />
(39)<br />
a) Solche Gegenstände sind den Touristen leicht entwendbar<br />
b) Die Tat war dem Angeklagten nicht nachweisbar<br />
Zuletzt gibt es morphologische Beschränkungen: Verben, die auf -ig(en), -lich(en) o<strong>der</strong> -el(n)<br />
enden, können nicht durch -bar adjektiviert werden.<br />
3.2.2.2 Präfigierung<br />
Die Operation <strong>der</strong> Präfigierung unterscheidet sich formal von <strong>der</strong> Suffigierung, da Präfixe -<br />
wenn man an <strong>der</strong> positionellen Festlegung <strong>des</strong> Kopfes festhält – nicht <strong>der</strong> Kopf eines Wortes<br />
sein können. Hieraus ergeben sich einige Probleme. Es gibt nämlich eine Reihe von Präfixverben<br />
im <strong>Deutschen</strong>, <strong>der</strong>en Basis Nomen bzw. Adjektive sind (vgl. Olsen (1990:34)):<br />
65
(40)<br />
a) versalzen<br />
b) befeuchten, verdünnen<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Das Problem, welches sich hierbei stellt ist, auf welche Weise die verbalen Eigenschaften<br />
dieser Verben mit adjektivischer bzw. nominaler Basis zustande kommen. Die Präfixe ver-<br />
und be- können auch mit <strong>der</strong> Definition <strong>des</strong> relativierten Kopfes nicht Köpfe <strong>der</strong> Wortstrukturen<br />
sein, da die entsprechenden Basen bereits kategoriell festgelegt sind.<br />
Präfixe wie be-, ent-, er-, ver- und zer- weisen, wie Olsen (1990) zeigt, we<strong>der</strong> eine bestimmte<br />
Flexionsklasse (wie beispielsweise die verbalisierenden Suffixe) noch eine bestimmte Argumentstruktur<br />
auf, was gegen ihren Kopfstatus spricht. Theoretisch ist dies durchaus erfreulich,<br />
da dann die Right Hand Head Rule im <strong>Deutschen</strong> universell gelten würde. Zu lösen<br />
bleibt aber das Problem, was <strong>der</strong> verbalisierende Kopf in diesen Wörtern ist. Die Vorschläge<br />
hierzu reichen von Konversionsregeln, leeren V-Köpfen (Olsen (1991)) und <strong>der</strong> Annahme<br />
von semantischen, verbähnlichen Primitiven (Wun<strong>der</strong>lich (1987)). Allen diesen Ansätzen ist<br />
gemeinsam, daß sie das Problem nicht befriedigend zu lösen vermögen.<br />
Ein interessantes Muster ergibt sich bei <strong>der</strong> be-Präfigierung einer ganzen Reihe von<br />
deutschen Verben (vgl. auch Wun<strong>der</strong>lich (1987) und Dörfler et al. (1995)):<br />
(41)<br />
a) Hans staunte [PP über Peters neues Auto]<br />
b) Hans bestaunte [NP Peters neues Auto]<br />
(42)<br />
a) Sie gießt [NP Wasser] [PP auf die Blumen ]<br />
b) Sie begießt [NP die Blumen] [NP mit Wasser ]<br />
In (41) bewirkt die Präfigierung mit be-, daß die thematische Rolle Thema, die das Simplexverb<br />
staunen als Präpositionalphrase verwirklicht, bei bestaunen an eine Nominalphrase zugewiesen<br />
wird. Bei dreiwertigen Verben wie gießen/begießen in (42) kommt es neben dieser<br />
Än<strong>der</strong>ung <strong>der</strong> syntaktischen Realisierung einer Thetarolle zu einer charakteristischen Verän<strong>der</strong>ung<br />
in <strong>der</strong> Basisabfolge <strong>der</strong> Argumente.<br />
Schematisch lassen sich diese Modifikationen folgen<strong>der</strong>maßen darstellen:<br />
3-wertige be-Verben: 2-wertige be-Verben:<br />
Subjekt Akk.-Objekt Präp. Objekt/<br />
Dativ objekt<br />
Basiv erb: Ag<br />
Be-Verb: Ag<br />
(Th)<br />
Lok<br />
66<br />
Lok<br />
(Th (mit))<br />
Subjekt<br />
Ag<br />
Ag<br />
Th (Präp.) Präp.Objekt<br />
Abb. 3.2: Argumentdiathese bei <strong>der</strong> be-Präfigierung (aus Dörfler et al. (1995))<br />
Th<br />
Akk.-Objekt<br />
Ein dritter Typus ist die Bildung von <strong>des</strong>ubstantivischen Verben (vgl. Reifen – bereifen, Bild –<br />
bebil<strong>der</strong>n).<br />
Be-Präfigierung stellt somit einen Son<strong>der</strong>fall <strong>der</strong> Argumentvererbung dar. Eine Reihe von<br />
Präpositionen (z.B. durch) zeigen im übrigen ein ähnliches Verhalten. Die be-Präfigierung<br />
unterscheidet sich jedoch von <strong>der</strong> Präfixverbbildung mit Hilfe von Präpositionen, da sie<br />
immer ein agentivisches Basisverb erfor<strong>der</strong>t. Ein ähnliches Verhalten legen im übrigen an<strong>der</strong>e<br />
Verbpräfixe wie durch-, über- und um- an den Tag.
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Tabelle 3.7 enthält einige weitere produktive Präfixe.<br />
Präfix Basis morphosyntaktische<br />
Auswirkung<br />
un- komplexe Adjektivstämme mit Stammmodifikation, d.h. das<br />
partizipialer o<strong>der</strong> suffigierter Derivat hat die gleiche<br />
Basis<br />
weniger produktiv:<br />
Nomenstämme<br />
Kategorie wie die Basis<br />
Ge- einfache Verbstämme + -Ge- hat Kopfeigenschaften: es<br />
Schwasilbe (Gesinge, Getue, bestimmt die Kategorie <strong>des</strong><br />
Geheule)<br />
Derivats wie auch <strong>des</strong>sen<br />
Genus und Flexionstyp<br />
Tabelle 3.7: Einige Präfixe im <strong>Deutschen</strong> und ihre Eigenschaften<br />
67<br />
semantische<br />
Auswirkung<br />
Bildung eines<br />
Antonyms zur Basis<br />
Wie<strong>der</strong>holung <strong>des</strong><br />
durch den Stamm<br />
ausgedrückten<br />
Vorgangs<br />
3.2.2.3 Konversion<br />
Als ein dritter Wortbildungtypus, <strong>der</strong> aus dem Rahmen <strong>der</strong> konkatenativen Morphologie<br />
und damit auch aus dem item-and-arrangment-Modell herausfällt, ist die sog. Konversion aufzufassen.<br />
Hierbei än<strong>der</strong>n Stämme ohne Hinzutreten von Affixen ihre Kategorie, beispielsweise<br />
(aus Olsen (1986:111)):<br />
(43)<br />
a) Schule – schulen, Schicht – schichten<br />
b) weit – weiten, kurz – kürzen<br />
c) schlafen – Schlaf, treffen – Treff<br />
Damit sind alle im <strong>Deutschen</strong> produktiven Konversionsmuster beschrieben, schematisch<br />
demnach:<br />
(44)<br />
a) N � V<br />
b) A � V<br />
c) V � N<br />
Die an<strong>der</strong>en drei möglichen Muster N � A, A � N, V � A sind im <strong>Deutschen</strong> nicht produktiv<br />
8 .<br />
Üblicherweise nicht als Gegenstand <strong>der</strong> Konversion werden Nominalisierungen von Infinitiven<br />
und die substantivische Verwendung von Adjektiven angesehen, da in diesen Fällen<br />
Flexionsaffixe mit übernommen werden.<br />
Prinzipiell gibt es vier Möglichkeiten, Konversion zu formalisieren:<br />
1. durch Annahme von phonetisch leeren Köpfen<br />
2. durch die Annahme, daß Morpheme kategoriell unterspezifiziert sind<br />
3. durch Annahme von unären Regeln X � Y<br />
4. durch Umkategorisierung<br />
8 Das zeigt auch ein Blick in die CELEX-Datenbank (Baayen et al. (1993)). Unter den knapp 9700 dort<br />
verzeichneten Adjektivlemmata war lediglich <strong>der</strong> Typ N � A 22 mal vertreten. Die an<strong>der</strong>en Möglichkeiten<br />
sind dort überhaupt nicht belegt. Nicht berücksichtigt sind dabei allerdings substantivische<br />
Verwendungen von Adjektiven, wie beispielsweise schwarz – (das) Schwarze. Hierbei handelt es sich<br />
jedoch möglicherweise um Ellipsen.
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Gegen die ersten beiden Ansätze finden sich gewichtige Gegenargumente in Olsen<br />
(1986:113ff). Ich möchte noch kurz auf die beiden an<strong>der</strong>en eingehen, da sich hieraus methodologische<br />
Konsequenzen ergeben.<br />
Den Unterschied zwischen 3. und 4. kann man am Beispiel von weit (A) – weiten (V) strukturell<br />
folgen<strong>der</strong>maßen fassen:<br />
(45) a) b)<br />
V<br />
A<br />
weit<br />
V<br />
weit<br />
(45b) ist mit einem monotonen Formalismus wie dem in Kapitel 2 dargestellten nicht (ohne<br />
weiteres) kompatibel, da es nicht möglich ist, eine Merkmalsstruktur <strong>des</strong>truktiv durch eine<br />
an<strong>der</strong>e zu ersetzen. Zudem ist es unter <strong>der</strong> Annahme, daß sich die semantische Interpretation<br />
entlang <strong>der</strong> Wortstruktur vollzieht, unklar, wie sich die Bedeutung von weiten als weit<br />
machen ergibt. Daher werden in <strong>der</strong> Wortgrammatik von Kapitel 5 unäre Konversionsregeln<br />
angesetzt.<br />
Als morphologische Restriktion für Konversion gilt, zumin<strong>des</strong>t für nominale und adjektivische<br />
Basen, daß nur affixlose Stämme ihr unterworfen werden können.<br />
68
3.3 Wortsemantik<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
In Abschnitt 3.1 wurde festgestellt, daß es durchaus möglich ist, Wörtern durch Anwendung<br />
einfacher, binär verzweigen<strong>der</strong> Regeln hierarchische Strukturen zuzuweisen. Damit dies<br />
jedoch auch sinnvoll ist, müssen diese wortsyntaktischen Strukturen auch in die Interpretation<br />
<strong>des</strong> komplexen Wortes mit eingehen – denn dies muß das letztendliche Ziel je<strong>der</strong> Theorie<br />
<strong>der</strong> Wortbildung sein. Kapitel 3.3 befaßt sich daher mit drei verschiedenen Theorien <strong>der</strong><br />
Interpretation komplexer Wörter, die textuell danach geordnet sind, welchen Stellenwert sie<br />
<strong>der</strong> Syntax bei <strong>der</strong> Interpretation von Wortbildungen einräumen. Die erste, in Meyer (1993)<br />
vorgestellte Konzeption, nimmt nur sehr einfache Wortsyntaxregeln an und verlagert die<br />
Bürde <strong>der</strong> Interpretation auf das konzeptuelle System. Die zweite, von Gisbert Fanselow<br />
vertretene Theorie (z.B. Fanselow (85)), streicht Wortstruktur ganz aus dem Beschreibungsinventar<br />
zugunsten einfacher Merkmalsperkolationsprinzipien und erklärt den Mechanismus<br />
<strong>der</strong> Bedeutungskonstruktion durch einen u.a. durch diese Prinzipien beschränkten Prozeß<br />
<strong>der</strong> freien Anwendung von semantischen Grundoperationen. Der dritte hier dargelegte<br />
Ansatz, <strong>der</strong> von Pustejovsky (1995), ist eine Summe von Ideen aus Semantik und Wissensrepräsentation,<br />
die auch in den an<strong>der</strong>en Ansätzen ihre Rolle spielen.<br />
3.3.1 Wortsemantik als Wissensrepräsentation<br />
Die Arbeit von Meyer (1993) hat nicht den Gesamtbereich <strong>der</strong> Komposition zum Gegenstand,<br />
vielmehr richtet Meyer sein Hauptinteresse auf sog. novel noun-noun compounds, die er<br />
definiert als „non-lexicalized noun-noun compounds appearing as names for a certain concept provided<br />
by the text“ (Meyer (1993:XIV)). An<strong>der</strong>s als Rektionskomposita wie Autoverschrotter,<br />
<strong>der</strong>en Interpretation sich zum größten Teil noch auf <strong>der</strong> Grundlage von grammatischen<br />
Prozessen vollzieht, scheinen bei <strong>der</strong> Deutung dieser Art von Komposita überwiegend<br />
konzeptuelle Operationen eine Rolle zu spielen, was auch durch experimentelle<br />
Untersuchungen (vgl. Wisniewski/Gentner 1991) nahegelegt wird. Der Schluß, <strong>der</strong> hieraus<br />
für ein Modell zur Interpretation von NN-Komposita zu ziehen ist, ist <strong>der</strong>, daß ein solches<br />
Modell nicht ohne Bezug auf Konzeptwissen und im Weltwissen begründete Relationen<br />
zwischen Konzepten funktionieren kann.<br />
Um dem Rechnung zu tragen, konstruiert Meyer einen theoretischen Apparat, <strong>der</strong> auf drei<br />
Grundpfeilern ruht:<br />
� einer Variante <strong>der</strong> Zwei-Ebenen-Semantik von Bierwisch<br />
� <strong>der</strong> Diskursrepräsentationstheorie<br />
� Techniken <strong>der</strong> Wissensrepräsentation<br />
Die Zwei-Ebenen-Semantik mit ihrer Annahme einer im Lexikon verankerten zusätzlichen<br />
Ebene <strong>der</strong> semantischen Form ist nach Meinung <strong>des</strong> Autors geeignet, die Unterscheidung<br />
zwischen dem Kerngehalt eines Konzepts, von Meyer als lexical meaning bezeichnet, und<br />
seiner Erweiterung bezüglich einer bestimmten Äußerungssituation (utterance meaning) zu<br />
erklären. Diese Erweiterung von Konzepten – in <strong>der</strong> Terminologie <strong>der</strong> Zwei-Ebenen-<br />
Semantik conceptual shift – läßt sich anhand <strong>des</strong> Konzepts Museum mit seinen Lesarten Gebäude,<br />
Institution, Sammlung und Personal verdeutlichen:<br />
(46)<br />
a) Das Museum brannte ab (Gebäude)<br />
b) Das Museum zahlt schlecht (Institution)<br />
c) Das Museum war langweilig (Sammlung)<br />
d) Das Museum hat gestreikt (Personal)<br />
69
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Hauptgrundlage von Meyers Modell ist eine auf die Erfor<strong>der</strong>nisse <strong>der</strong> Kompositainterpretation<br />
zugeschnittene Version <strong>der</strong> Diskursrepräsentationstheorie, die in zwei Varianten auftritt:<br />
Die erste, DRLlex, ist als Menge von lexikalischen Diskursrepräsentationsstrukturen<br />
(DRSen) gegeben, die ihrerseits <strong>der</strong> Notation <strong>der</strong> semantischen Form von durch Nomina<br />
ausgedrückten Konzepten dienen. Eine lexikalische DRS ist ein Paar , wobei Ulex<br />
eine Menge von Variablen { x1,...,xn} und Conlex eine Menge von DRS-Bedingungen spezifiziert.<br />
DRS-Bedingungen sind im wesentlichen Relationskonstanten r(x1,...,xk) mit Variablen<br />
als Argumenten, Gleichsetzungen von Variablen (xi = xj) und rekursive Einbettungen von<br />
weiteren lexikalischen DRSen. Entscheidend jedoch für die Interpretation von Nomen, die<br />
Artefakte bezeichnen (wie z.B. Buch, Museum etc.), ist <strong>der</strong> sog. purpose-Operator �, 9 <strong>der</strong> dazu<br />
verwendet wird, mit einem Begriff eine Menge von typischen, kontextunabhängigen<br />
Zweckangaben 10 zu assoziieren. Am Beispiel <strong>des</strong> Nomens Museum soll dies näher erläutert<br />
werden. Die im Lexikon für Museum verzeichnete lexikalische DRS sieht folgen<strong>der</strong>maßen<br />
aus (Meyer (1993:92)):<br />
(47)<br />
� x<br />
x<br />
�(x,p)<br />
p=<br />
y e1 e2<br />
exhibiting(e1)<br />
informing(e2)<br />
theme(e1,y)<br />
theme(e2,y)<br />
Diese DRS repräsentiert eine Funktion von Individuen nach Wahrheitswerten, wobei die<br />
Variable x aus Ulex mit Hilfe <strong>des</strong> Operators � mit einer eingebetteten DRS K verknüpft wird,<br />
die die für Museen typischen Zweckbestimmungen enthält: Museen gehören zur Menge <strong>der</strong><br />
ausstellenden und informierenden Entitäten, wobei <strong>der</strong> Gegenstand dieser Aktivitäten nicht<br />
weiter beschränkt ist, da mit <strong>der</strong> Themavariablen y keine weiteren Restriktionen verknüpft<br />
sind.<br />
Die zweite Variante <strong>der</strong> Diskursrepräsentationstheorie, DRLc, dient zur Repräsentation von<br />
konzeptuellem Wissen. Meyer gibt eine Übersetzungsfunktion an, die es ermöglicht, die<br />
Grundelemente (genauer: die TBOX-Elemente) von terminologischen Wissensrepräsentationssprachen<br />
(beispielsweise KL-ONE) in Ausdrücke von DRLc umzusetzen, um auf diese<br />
Weise einen einigermaßen einheitlichen Rahmen sowohl für die Repräsentation von lexikalischen<br />
Bedeutungen wie auch die Abbildung von Konzeptwissen zu erhalten. Nachstehend<br />
ist ein Teil <strong>des</strong> Gesamtkonzeptes von Museum, die Lesart Institution wie<strong>der</strong>gegeben (Meyer<br />
(1993:98)):<br />
9 Dieser Operator entspricht weitgehend <strong>der</strong> sog. telischen Rolle in <strong>der</strong> Qualia-Struktur von Pustejovsky<br />
(1995); s.u..<br />
10 Stereotype Eigenschaften und Relationen in <strong>der</strong> Terminologie von Boase-Beier at al. (1984).<br />
70
museum-institution(b)<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
�<br />
institution(b)<br />
e3<br />
organizes(b,e3)<br />
e4<br />
organizes(b,e4)<br />
n<br />
has-worker(b,n)<br />
71<br />
�<br />
�<br />
�<br />
exhibiting(e3)<br />
z<br />
theme(e3,z)<br />
informing(e4)<br />
w<br />
theme(e4,w)<br />
�<br />
�<br />
museum-lea<strong>der</strong>(n)<br />
Card(n) � 1<br />
Abb. 3.3: Teilkonzept „Institution“ <strong>des</strong> Gesamtkonzepts „Museum“<br />
all(z)<br />
all(w)<br />
Das Gesamtkonzept von Museum beinhaltet darüber hinaus noch die Lesarten für Gebäude,<br />
Sammlung und Personal.<br />
DRLc ist die Gesamtmenge <strong>der</strong> sog. konzeptuellen DRSen, die wie<strong>der</strong>um Paare <br />
von Mengen von Diskursreferenten und Mengen von DRS-Bedingungen sind. Grundelemente<br />
<strong>der</strong> Syntax von konzeptuellen DRSen sind, neben den DRT-üblichen Konnektiven<br />
wie Implikation, Äquivalenz, Disjunktion und Negation und den mit ihrer Hilfe rekursiv<br />
eingebetteten konzeptuellen DRSen, Konzepte und Rollen. Konzepte sind in einer<br />
Subsumptionshierarchie organisiert. Das Konzept museum-institution wird beispielsweise<br />
durch die Bedingung institution(b) in Abb. 3.3 als Subkonzept <strong>des</strong> Konzepts institution definiert,<br />
was <strong>der</strong> Aussage gleichkommt, daß jede Instanz von museum-institution auch eine Instanz<br />
von institution ist.<br />
Konzepte sind untereinan<strong>der</strong> durch Rollen - zweistellige Relationen - verbunden. Im Beispiel<br />
ist das Konzept museum-institution über die organizes-Rolle mit dem Konzept exibiting<br />
verbunden.<br />
Lexikalische und konzeptuelle DRSen sind über eine sog. confirmation-Relation miteinan<strong>der</strong><br />
in Beziehung gesetzt, die gleichzeitig die Semantik von lexikalischen DRSen bestimmt. Intuitiv<br />
ordnet diese Relation einer lexikalischen DRS (wie <strong>der</strong> in (47) angegebenen) die Menge<br />
von konzeptuellen DRSen zu, auf die sich die lexikalische DRS in verschiedenen Kontexten<br />
beziehen kann; im Falle von Museum sind dies die verschiedenen konzeptuellen Strukturen<br />
für die Lesarten Gebäude, Institution, Sammlung und Personal.<br />
In welcher Weise wird nun von diesem Apparat bei <strong>der</strong> Interpretation von NN-Komposita<br />
Gebrauch gemacht?<br />
Meyer nimmt einen mehrstufigen, durch einfache, binär verzweigende Syntaxregeln (N �<br />
N N) gesteuerten Algorithmus an, <strong>der</strong> schematisch in Abb. 3.4 wie<strong>der</strong>gegeben ist (Meyer<br />
(1993:147)) 11 :<br />
11 Ein ähnlicher Vorschlag findet sich auch schon in Boase-Beier et al. (1984).
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Theta-role assignment<br />
fail or search for alternatives<br />
relation from lexical DRS of the head noun<br />
conceptually founded relations<br />
fail or search for alternatives<br />
Abb. 3.4: Schematischer Algorithmus zur kontextunabhängigen Interpretation von NN-Komposita<br />
Zunächst wird demnach versucht, eine Interpretation auf grammatischer Basis zu finden,<br />
indem untersucht wird, ob das Hinterglied ein relationales Nomen ist, welches eine Argumentstelle<br />
aufweist, die durch das Vor<strong>der</strong>glied gesättigt werden kann. Ist dies <strong>der</strong> Fall, dann<br />
wird die lexikalische DRS für das Vor<strong>der</strong>glied in die DRS <strong>des</strong> Hinterglieds eingebettet, so<br />
daß eine neue komplexe lexikalische DRS entsteht. Als Beispiel ist in Abb. 3.5 die DRS für<br />
Museumsfan angegeben.<br />
� x<br />
x y<br />
fan-of(x,y)<br />
!<br />
[z]<br />
�(z,p)<br />
p=<br />
z = y<br />
t e1 e2<br />
exhibiting(e1)<br />
informing(e2)<br />
theme(e1,t)<br />
theme(e2,t)<br />
Abb. 3.5: DRS für „Museumsfan“<br />
(„!“ ist <strong>der</strong> Generizitätsoperator, <strong>der</strong> ausdrücken soll, daß Modifizierer bei NN-Komposita<br />
häufig in ihrer generischen Lesart verstanden werden). Voraussetzung für die Anwendung<br />
dieser Interpretationsregel ist natürlich, daß die Selektionsbeschränkungen für die interne<br />
Argumentstelle <strong>des</strong> relationalen Nomens nicht verletzt werden; dies wird durch einen Test<br />
sichergestellt, <strong>der</strong> überprüft, ob eine <strong>der</strong> Argumentstellenbeschränkungen <strong>des</strong> Kopfes eines<br />
<strong>der</strong>jenigen Konzepte <strong>des</strong> Modifizierers subsumiert, die mit seiner lexikalischen DRS in besagter<br />
confirmation-Relation stehen. Fan weist keine Beschränkungen für sein internes Argument<br />
auf (man kann Fan von allem sein), während Sohn festlegt, daß sich sein internes<br />
Argument auf ein Subkonzept von menschlich bezieht.<br />
Nachdem <strong>der</strong> Interpretationsalgorithmus versucht hat, Deutungen auf <strong>der</strong> Grundlage einer<br />
Thetarollenzuweisung zu finden, prüft er nun im zweiten Schritt, ob sich eine Relation zwischen<br />
Vor<strong>der</strong>- und Hinterglied auf <strong>der</strong> Grundlage <strong>der</strong> mit den beteiligten DRSen mittels <strong>des</strong><br />
�-Operators verknüpften Zweckangaben finden läßt. Hierbei wird aus dem durch die lexikalische<br />
DRS <strong>des</strong> Zweitglie<strong>des</strong> denotierten Gesamtkonzept ein Teilkonzept herausgegriffen,<br />
72
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
welches das Denotat <strong>der</strong> durch den �-Operator eingebetteten Rollen enthält. Wenn das mit<br />
dem zweiten Argument dieser Rolle verknüpfte Konzept ein Konzept aus dem Gesamtkonzept<br />
<strong>der</strong> lexikalischen DRS <strong>des</strong> Erstglie<strong>des</strong> subsumiert, dann kann die Interpretationsregel<br />
erfolgreich angewandt werden.<br />
Dieser zunächst kompliziert anmutende Sachverhalt soll beispielhaft am Kompositum Büchermuseum<br />
erläutert werden, <strong>des</strong>sen lexikalische DRS in Abb. 3.6 gezeigt ist.<br />
� x<br />
x u<br />
�(x,q)<br />
q=<br />
!<br />
y e1 e2<br />
exhibiting(e1)<br />
informing(e2)<br />
theme(e1,y)<br />
theme(e2,y)<br />
y = u<br />
[w]<br />
�(w,p)<br />
p=<br />
w = u<br />
i j e3 e4<br />
mediating(e3)<br />
publishing-company-institution(i)<br />
publishing(e4)<br />
theme(e3,j)<br />
agent(e4,i)<br />
Abb. 3.6 Lexikalische DRS für „Büchermuseum“:<br />
Die u.a. mögliche Lesart „Institution, die über Bücher informiert“ erhält man folgen<strong>der</strong>maßen:<br />
aus dem durch die lexikalische DRS für Museum denotierten Gesamtkonzept – bestehend<br />
aus den Teilkonzepten für Gebäude, Institution (in Abb. 3.3 wie<strong>der</strong>gegeben), Sammlung und<br />
Personal – wählt man das Teilkonzept museum-institution aus. Dann sucht man eine Rolle aus<br />
diesem Konzept – theme(e4, w) in Abb. 3.3 – und betrachtet das mit dem zweiten Argument<br />
dieser Rolle (w) verbundene Konzept all, welches das allgemeinste Konzept in <strong>der</strong> Konzepthierarchie<br />
ist. Wenn dieses Konzept eines <strong>der</strong> durch das Nomen Buch ausgedrückten<br />
Konzepte (beispielsweise physical-object und information-carrier) subsumiert, was <strong>der</strong> Fall ist,<br />
dann ist das Ergebnis eine zulässige Interpretation.<br />
Sollte <strong>der</strong> Algorithmus bis jetzt gescheitert sein bzw. sollen noch weitere Interpretationsalternativen<br />
ermittelt werden, so versucht das Verfahren, Relationen zwischen den Kompositaglie<strong>der</strong>n<br />
zu finden, die vollständig konzeptuell motiviert sind; hierbei gibt es erwartungsgemäß<br />
die größte Bandbreite an Interpretationsmöglichkeiten.<br />
Ist es nicht möglich, Relationen zwischen den beiden Gesamtkonzepten zu finden, so setzt<br />
sich die Suche in den übergeordneten Konzepten fort. Abhängig von <strong>der</strong> Art <strong>der</strong> Konzepte<br />
werden hier auch konzept- und domänenspezifische Relationen wie part-of, has-part, made-of,<br />
location etc. in Erwägung gezogen. Im Rahmen dieser Arbeit kann ich nicht weiter auf die<br />
vorgeschlagenen Möglichkeiten zur Relationenbestimmung eingehen; <strong>der</strong> interessierte Leser<br />
sei auf Kapitel 5.4 in Meyers Arbeit verwiesen.<br />
73
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Obwohl Meyers Arbeit sehr fundiert den Zusammenhang von Wortsyntax, grammatisch<br />
und konzeptuell gesteuerter Interpretation rekonstruiert, gibt es doch einige Punkte, die<br />
kritisiert werden können:<br />
(i) Wie verhält sich Meyers Ansatz zu den wenigen Restriktionen die für NN-Komposita<br />
gelten (vgl. auch Olsen 1994)?<br />
1. Negation kann nicht Teil <strong>der</strong> erschlossenen Relation zwischen den beiden Kompositabestandteilen<br />
sein<br />
2. "Zu weit hergeholte Relationen" wie bei "Benzinfabrik = Fabrik, bei <strong>der</strong> zum Reinigen <strong>der</strong> Reaktionsbehälter<br />
Benzin verwendet wird" sind bei einer Interpretation im Nullkontext ausgeschlossen.<br />
Restriktion 1 wird von Meyer schon dadurch Rechnung getragen, daß die Syntax von DRSlex<br />
insbes. bei <strong>der</strong> Einbettung von DRSen mittels <strong>des</strong> �-Operators keine Negation zuläßt, was<br />
sich über die confirmation-Relation auch auf diejenigen konzeptuellen DRSen überträgt, die<br />
das Gesamtkonzept einer lexikalischen DRS wie<strong>der</strong>geben. Negation kann somit bei Interpretationen<br />
auf <strong>der</strong> Grundlage einer stereotypen Relation keine Rolle spielen.<br />
Die Relationen, auf die sich Restriktion 2 bezieht, könnten sich entwe<strong>der</strong> aus den mit <strong>der</strong><br />
lexikalischen DRS verknüpften stereotypen Zweckangaben ergeben o<strong>der</strong> aus <strong>der</strong> mit Hilfe<br />
von DRSc abgebildeten Konzepthierarchie rekonstruiert werden. Die erste Möglichkeit ist<br />
jedoch ausgeschlossen, da stereotype Relationen nur prototypische Verwendungsweisen<br />
wi<strong>der</strong>spiegeln können; die typische Verwendungsweise einer Fabrik ist beispielsweise die,<br />
daß in ihr etwas hergestellt wird. Somit können "zu weit hergeholte" Relationen nur durch<br />
die über <strong>der</strong> Konzepthierarchie operierenden dritten Interpretationsregel zustande kommen.<br />
Hier würden jedoch aufgrund einer von Meyer vorgeschlagenen Anordnung (S. 148) von<br />
verschiedenen Interpretationsstrategien zunächst weitaus plausiblere Interpretationen generiert,<br />
so daß Deutungen wie bei <strong>der</strong> erwähnten Benzinfabrik kaum möglich sind.<br />
(ii) Meyers zweite Interpretationsregel geht davon aus, daß nur stereotype Relationen aus<br />
dem Zweitglied <strong>des</strong> Kompositums bei <strong>der</strong> Deutung Verwendung finden können. Dies greift<br />
jedoch zu kurz, da in manchen Fällen auch stereotype Relationen aus dem Erstglied herangezogen<br />
werden wie z.B. in Dosenfisch (enthält(x, y)) o<strong>der</strong> Fabrikschuh (produziert(x, y)). Das<br />
von Meyer erfaßte Interpretationsmuster ist jedoch zugegebenermaßen das produktivere.<br />
(iii) In Übereinstimmung mit Boase-Beier et al. (1984:79) bin ich <strong>der</strong> Ansicht, daß die Ähnlichkeitsrelation<br />
(die beispielsweise bei <strong>der</strong> Interpretation von Samtstimme eine Rolle spielt), keine<br />
stereotype Relation sein kann. Sie ist jedoch meiner Meinung nach auch keine in <strong>der</strong> statischen<br />
Konzepthierarchie verankerte Relation, son<strong>der</strong>n eine, die aufgrund von Inferenzprozessen<br />
erschlossen wird. Inferenzprozesse läßt Meyer nun ausdrücklich zu, ohne jedoch explizit<br />
zu machen, auf welche Weise Hörer zu Deutungen auf <strong>der</strong> Grundlage <strong>der</strong> Ähnlichkeitsrelation<br />
kommen.<br />
(iv) Mein letzter Einwand betrifft Meyers formalen Apparat, insbes. seine Übersetzungfunktion<br />
von TBOX-Ausdrücken <strong>der</strong> zum Ausgangspunkt genommenen Wissensrepräsentationssprache<br />
nach Elementen aus DRLc. Es scheint mir nicht möglich, das vom Autor auf S. 77<br />
wie<strong>der</strong>gegebene Beispiel <strong>der</strong> TBOX-Konzeptrepräsentation von CAR in Ausdrücke von<br />
DRLc zu überführen. Bei den Übersetzungs- und mengentheoretischen Deutungsregeln fehlen<br />
insbes. diejenigen für die Definition von Konzepten (� und �). Konkret: aufgrund welcher<br />
Übersetzungsregeln kommt beispielsweise die auf Seite 79 abgebildete konzeptuelle<br />
DRS für CAR zustande. Darüber hinaus ist mir nicht klar geworden, wie man mit Hilfe dieses<br />
Übersetzungsapparates zu dreistelligen Relationen wie containment(t,x,y) (Meyer<br />
(1993:131)) gelangen kann.<br />
74
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
3.3.2 Wortsemantik als freie Anwendung semantischer Operationen<br />
In einer Reihe von Arbeiten hat Gisbert Fanselow (Fanselow 1985, 1987, 1988a, b) einen Ansatz<br />
vorgestellt, <strong>der</strong> in Kontrast zu den in Kapitel 3.1 behandelten, syntaxorientierten<br />
Theorien steht. Ausgangspunkt von Fanselow ist die Tatsache, daß auch eine postulierte<br />
syntaktische Struktur von Wörtern letztendlich dem Ziel dienen muß, eine Interpretation<br />
komplexer Wörter zu ermöglichen. Grundsätzlich gibt es jedoch zwei Möglichkeiten,<br />
Bedeutungen zu konstruieren:<br />
1. Die Interpretation vollzieht sich syntaxgesteuert, d.h. es gibt eine Reihe von Syntaxregeln<br />
zum Aufbau komplexer Wörter und je<strong>der</strong> dieser Regeln ist eine semantische Operation<br />
zugeordnet, die kompositionell die Bedeutung <strong>der</strong> Konstituente aus ihren Teilen errechnet.<br />
2. Die Interpretation ist unabhängig von <strong>der</strong> syntaktischen Struktur <strong>des</strong> Wortes und ergibt<br />
sich durch Anwendung bestimmter semantischer Basisoperationen.<br />
Möglichkeit 1 wird im wesentlichen in Fanselow (1981) verfolgt. Auf <strong>der</strong> Grundlage <strong>des</strong><br />
Ansatzes von Montague postulierte Fanselow dort etwa 30 Paare von Syntaxregel –<br />
semantischer Operation, um einen substantiellen Ausschnitt <strong>der</strong> Komposition im <strong>Deutschen</strong><br />
zu beschreiben. Diese Vorgehensweise ist jedoch kritisiert worden (z.B. von Handwerker<br />
(1985)):<br />
� Dieses Grammatik/Interpretations-Fragment erfaßt nur <strong>des</strong>kriptiv die verschiedenen<br />
Interpretationsalternativen, gibt jedoch keine prinzipielle Antwort darauf, warum gerade<br />
diese Möglichkeiten realisiert sind und an<strong>der</strong>e nicht.<br />
� Aufgrund <strong>der</strong> sehr armen Syntax von Komposita – im wesentlichen gibt es nur Regeln<br />
<strong>der</strong> Form X � Y X – werden demnach einer einzigen syntaktischen Struktur sehr viele<br />
verschiedene Interpretationsregeln zugeordnet, was letztlich natürlich ineffizient ist, zu<br />
unplausiblen Deutungen führt und <strong>der</strong> rule-by-rule-Konzeption von Montague zuwi<strong>der</strong>läuft.<br />
Sinnvoll ist eine syntaxgesteuerte Interpretationskomponente m.a.W. nur dann, wenn aus<br />
einer bestimmten syntaktischen Konstruktion eindeutig die anzuwendende semantische<br />
Regel folgt.<br />
Der Schlüssel zur Lösung dieses Zuordnungsproblems und damit Möglichkeit 2 liegt nun<br />
darin, daß das Repertoire <strong>der</strong> semantischen Grundoperationen in diesen Interpretationsregeln<br />
sehr beschränkt ist, was an einem Fanselow (1985:294) entnommenen Beispiel demonstriert<br />
werden soll:<br />
(48)<br />
For all compounds AB, if A denotes the property a and B denotes the property b, and<br />
if r is a two-place relation stereotypically associated with B, the AB denotes:<br />
�x (b(x) � r(�P(�y �z (a(y) � a(z) � P(y) � P(z) ))(x)))<br />
Regel (48) wird zur Interpretation von Komposita mit einer aus dem Zweitglied erschlossenen<br />
stereotypen Relation – beispielsweise Computerfabrik – herangezogen, <strong>des</strong>sen semantische<br />
Struktur als Funktion von Individuen zu Wahrheitswerten dann so aussieht:<br />
(49)<br />
�x (fabrik’(x) � produziert’(�P(�y �z (computer’(y) � computer’(z) � P(y) � P(z) ))(x)))<br />
M.a.W. eine Computerfabrik ist eine Fabrik, die min<strong>des</strong>tens zwei Computer produziert.<br />
Fanselows Schlüsselbeobachtung ist nun die, daß alle ähnlich gearteten Deutungsregeln aus<br />
dem folgenden Grundinventar aufgebaut sind:<br />
75
(50)<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
a) Funktionalapplikation, d.h. Anwendung einer Funktion auf ein o<strong>der</strong> mehrere Argumente<br />
b) Konjunktion<br />
c) Pluralische Quantifikation<br />
d) Erschließen einer stereotypen Relation<br />
e) Existentielles Schließen einer Argumentstelle<br />
Die Operationen a) bis d) sind in (49) realisiert: Funktionalapplikation bei <strong>der</strong> Anwendung<br />
<strong>der</strong> stereotypen Relation r auf das Denotat <strong>des</strong> Erstglieds, Konjunktion bei <strong>der</strong> Verknüpfung<br />
<strong>des</strong> Denotats <strong>des</strong> Zweitglieds mit dieser Relation r, Pluralquantifikation in sehr rudimentärer<br />
Form durch die For<strong>der</strong>ung, daß es zwei Individuen y und z geben muß, die die Eigenschaft,<br />
die das Erstglied denotiert, erfüllen. Erschließen einer stereotypen Relation schließlich<br />
durch Einführung <strong>der</strong> Relation r aufgrund <strong>der</strong> Semantik <strong>des</strong> Zweitglie<strong>des</strong>.<br />
Fanselow nimmt nun an, daß sich die Anwendung dieser Operationen frei ohne einen Bezug<br />
zur syntaktischen Struktur (die er in rudimentärer Form immer noch annehmen muß; mehr<br />
dazu weiter unten) vollzieht. Hierzu formuliert er folgen<strong>des</strong> Prinzip (Fanselow 1985: 295):<br />
(51)<br />
The interpretation of any compound can be obtained by a successive application of the simple,<br />
possibly universal processes given in [50] [im Original (8)].<br />
Die Anwendung dieser Grundoperationen – die Fanselow im übrigen auch in <strong>der</strong> Satzsyntax<br />
annimmt – ist hier wie dort vollkommen frei. Da sich bei unbeschränkter Anwendung jedoch<br />
auch viele unzulässige Deutungen ergeben, müssen diese Prozesse wie<strong>der</strong>um beschränkt<br />
werden, ganz im Sinne <strong>des</strong> modularen Aufbaus <strong>der</strong> Syntaxtheorie im Anschluß an<br />
Chomsky (1981), <strong>der</strong> neben Generatormodulen wie <strong>der</strong> X-Bar-Theorie und <strong>der</strong> Transformation<br />
„Move �“ eine Reihe von Testmodulen wie <strong>der</strong> Kasus-, Theta- und Bindungstheorie<br />
annimmt.<br />
Diese Beschränkungen speisen sich aus wenigstens zwei Quellen:<br />
� Merkmalsperkolationsbedingungen<br />
� Einer Verbindung zwischen syntaktischen und typentheoretischen Kategorien<br />
Merkmalsperkolationsbedingungen (vgl. Kapitel 3.1.1.1) stellen nach Fanselow den letzten<br />
Rest syntaktischer Struktur auf <strong>der</strong> Ebene <strong>der</strong> Wörter her. Im wesentlichen geht es hierbei<br />
um die Gleichheit <strong>der</strong> Wortartmerkmale zwischen dem im <strong>Deutschen</strong> rechts stehenden Kopf<br />
und dem Gesamtwort. Das Zweitglied bestimmt demnach immer die syntaktische Kategorie<br />
und eine Reihe von weiteren Eigenschaften <strong>des</strong> zusammengesetzten Wortes.<br />
Die Verbindung zwischen syntaktischen und typentheoretischen Kategorien ist nun das<br />
Bindeglied zwischen Wortsyntax und Wortsemantik, das die syntaxgesteuerten Interpretationsregeln<br />
<strong>der</strong> vorhergehenden Konzeption in Fanselow (1981) ablöst. Hierzu wird eine<br />
Korrelation zwischen Kategorien und logischen Typen im Rahmen <strong>der</strong> Montague-<br />
Grammatik angenommen, die in Tabelle 3.8 wie<strong>der</strong>gegeben ist (frei nach Fanselow (1985:<br />
298)):<br />
76
Syntaktische<br />
Kategorie<br />
Nomen<br />
(Individuennomina)<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Typenlogische Kategorie<br />
<br />
77<br />
Informelle<br />
Umschreibung<br />
Einstellige Prädikate<br />
(Mengen)<br />
Beispiele<br />
Frau, Buch<br />
Relationale Nomen Zweistellige Relationen Bru<strong>der</strong>, Sohn<br />
Verben <br />
<br />
<br />
Adjektive <br />
<br />
Ein- bis dreistellige<br />
Relationen<br />
Ein- und zweistellige<br />
Relationen<br />
laufen,<br />
kennen,<br />
geben<br />
frei,<br />
treu<br />
Tabelle 3.8: Beziehung zwischen syntaktischen Typen und typenlogischen Kategorien<br />
Die Anwendung <strong>der</strong> semantischen Grundoperationen in (50) wird jetzt durch das folgende,<br />
universell geltende Prinzip eingeschränkt (nach Fanselow (1985:299)):<br />
(52)<br />
Kein Ergebnis <strong>der</strong> Anwendung <strong>der</strong> semantischen Operationen in (50) darf <strong>der</strong> Korrelation<br />
aus Tabelle 3.8 und den Bedingungen für die Verteilung von Wortartmerkmalen<br />
wi<strong>der</strong>sprechen; darüber hinaus muß die Konjunktion auf Konjunkte mit gleichem<br />
logischen Typ beschränkt werden.<br />
Wie die freie Anwendung <strong>der</strong> semantischen Operationen aus (50) mit den Restriktionen aus<br />
Tabelle 3.8 interagiert, möchte ich am Beispiel <strong>des</strong> Nomens Anwaltssohn darstellen, <strong>des</strong>sen<br />
syntaktische Struktur in (53) wie<strong>der</strong>gegeben ist:<br />
(53)<br />
N<br />
N N<br />
Anwalt Sohn<br />
� x anwalt'(x) �y<br />
�z<br />
sohn'(y,z)<br />
Aufgrund <strong>der</strong> Rechtsköpfigkeit deutscher Wortstrukturen ist das Gesamtwort ebenfalls ein<br />
Nomen und muß daher, nach Prinzip (50) und Tabelle 3.8, ein Prädikat bzw. eine<br />
zweistellige Relation denotieren. Durch freie Applikation <strong>der</strong> Operationen aus (50) sind u.a.<br />
folgende Interpretationen herstellbar:<br />
� �x (�y sohn’(x,y) � anwalt’(x)): Die zweite Argumentstelle von sohn’ wird existentiell geschlossen<br />
und, da jetzt beide Konjunkte von gleichem Typ sind – Funktionen von Individuen<br />
zu Wahrheitswerten –, können sie mit � verknüpft werden. Informell bedeutet dies:<br />
x ist ein Sohn von irgend jemandem und x ist Anwalt. Diese Lesart ist zwar nicht die präferierte,<br />
grundsätzlich jedoch nicht ausgeschlossen, vgl.<br />
(54)<br />
Ich hörte, daß gestern dein Anwaltssohn wie<strong>der</strong> mal zu Besuch war. (im Gegensatz zum<br />
Physikersohn)<br />
� �x �y (anwalt’(y) � sohn’(x,y)): Die offene Argumentstelle von �y anwalt’(y) wird existentiell<br />
geschlossen und die Funktion sohn’ auf die existenzquantifizierte Variable y angewandt,<br />
was die bevorzugte Lesart „x ist <strong>der</strong> Sohn eines Anwalts“ ergibt.
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
� �x ( �y sohn’(x,y) � anwalt’(x)): Alle Argumentstellen werden existentiell geschlossen und<br />
die Konjunktion <strong>der</strong> entstehenden Formeln gebildet. Die informelle Lesart hiervon lautet:<br />
„Der Sohn ist Anwalt“. Diese Deutung ist jedoch ausgeschlossen, da die Und-Verknüpfung<br />
zweier Sätze wie<strong>der</strong>um einen solchen ergibt, <strong>der</strong> logische Typ von Sätzen aber nicht<br />
mit dem Individuennomen zugeordneten Typ kompatibel ist.<br />
Obwohl Merkmals- und Typ-Kategorie-Beschränkungen viele unzulässige Interpretationen<br />
ausfiltern, gibt es eine ganze Reihe von Restriktionen, die durch diesen relativ grob arbeitenden<br />
Apparat nicht berücksichtigt werden können, beispielsweise<br />
� konzeptuelle Beschränkungen: die zweite Argumentstelle von Sohn ist z.B. auf Nomen<br />
mit dem Merkmal +menschlich festgelegt.<br />
� Beschränkungen, die sich aufgrund <strong>der</strong> Aktionsart von an Wortbildungsprozessen beteiligten<br />
Verben ergeben.<br />
Um seinen Ansatz zu rechtfertigen, muß Fanselow (1985) auch den Wortbildungstyp Derivation<br />
aus semantischer Perspektive sehen, d.h. auch die Derivation ist nicht von primär<br />
syntaktischer Natur, son<strong>der</strong>n ergibt sich wie die Komposition durch freies Applizieren semantischer<br />
Grundoperationen.<br />
Soll dieser semantisch-konzeptuelle Interpretationsansatz als Gegenmodell zu den syntaktischen<br />
Ansätzen etabliert werden, so muß er Aussagen zu den Daten machen, <strong>der</strong>en Erklärung<br />
letztere sich selbst als ihre Stärke anrechnen. Dies sind vor allem:<br />
� Argumentstrukturvererbung<br />
� Beschränkungen in <strong>der</strong> Produktivität von Wortbildungsprozessen<br />
Verfechter eines syntaktischen Ansatzes <strong>der</strong> Wortbildung versuchen, Datenpaare wie in (55)<br />
(55)<br />
a) die Mannschaft verliert das Spiel<br />
b) die Verlierer <strong>des</strong> Spiels<br />
durch Argumentvererbung (vgl. Kap. 3.1.2.2) in Beziehung zu setzen. Hiernach erhalten das<br />
Akkusativobjekt in (55a) und das Genitivkomplement in (55b) die gleiche Thetarolle<br />
(Thema), d.h. bei <strong>der</strong> Ableitung von transitiven Verben mit -er vererbt sich diese Argumentrolle<br />
vom Basisverb an das Derivat. Daneben wird auch die Agens-Thetarolle an das<br />
deverbale Nomen als externes Argument vererbt.<br />
Argumentvererbung wird von den Vertretern eines syntaktischen Ansatzes formal in <strong>der</strong><br />
Weise rekonstruiert, daß als weitere semantische Operation die sog. Funktionalkomposition<br />
angenommen wird, d.h. es wird zugelassen, daß das Argument einer Funktion selbst eine<br />
Funktion sein kann, also noch offene Argumentstellen besitzt. Funktionalkomposition kann<br />
auch zur Deutung einiger modifizieren<strong>der</strong> Ausdrücke in <strong>der</strong> phrasalen Syntax herangezogen<br />
werden, beispielsweise bei <strong>der</strong> <strong>Analyse</strong> von A-N-Konstruktionen wie (56)<br />
(56) <strong>der</strong> angebliche Mör<strong>der</strong><br />
was sich als Anwendung <strong>der</strong> durch angeblich ausgedrückten Funktion auf die Funktion<br />
�x Mör<strong>der</strong>(x) analysieren läßt.<br />
Der Vorteil <strong>der</strong> Funktionalkomposition zur <strong>Analyse</strong> besteht darin, daß sie unerwünschte<br />
Redundanzen im Lexikon beseitigt (vgl. Moortgart (1986)).<br />
Beispiel:<br />
Das Suffix -er kann mit transitiven und intransitiven Verben verbunden werden, vgl.<br />
(57)<br />
a) rauchen – Raucher<br />
78
) verlieren – Verlierer<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Zur <strong>Analyse</strong> kann man zwei homophone er-Suffixe mit „leerer“ Semantik ansetzen, die<br />
mittels Funktionalapplikation auf die Übersetzung <strong>des</strong> jeweiligen Verbs angewendet<br />
werden:<br />
(58)<br />
Syntax Semantik<br />
er1-Regel: N � Vi er1 Ü(er1)(Ü(Vi)) = [�Pi Pi ]( Ü(Vi))<br />
er2-Regel: N � Vt er2 Ü(er2)(Ü(Vt)) = [�Pt Pt]( Ü(Vt))<br />
d.h. angewendet auf die Beispiele in (57):<br />
(59)<br />
a) Raucher: [�Pi Pi ]( �x rauch’) = �x rauch’(x)<br />
b) Verlierer: [�Pt Pt(x,y)]( �x �y verlier’) = �x �y verlier’(x,y)<br />
Statt <strong>des</strong>sen könnte auch nur ein er-Suffix angewendet werden, das durch Funktionalkomposition<br />
mit <strong>der</strong> Verbsemantik verknüpft wird.<br />
Zu erklären gilt es jedoch, warum Argumentvererbung in vielen Fällen blockiert ist, vgl.<br />
(60) * <strong>der</strong> Verhüter <strong>des</strong> Unfalls<br />
während, die wortinterne Sättigung ohne weiteres möglich ist:<br />
(61) <strong>der</strong> Unfallverhüter<br />
Im Rahmen <strong>der</strong> Konzeption von Fanselow (1988b) wird dieser Kontrast folgen<strong>der</strong>maßen<br />
erklärt: das Suffix -er verlangt für sein Argument das typenlogische Äquivalent eines intransitiven<br />
Verbs. Als Basisverben sind demzufolge nur intransitive Verben wie beispielsweise<br />
rauchen o<strong>der</strong> transitive Verben mit einer intransitiven Lesart (d.h. transitive Verben, bei denen<br />
die Objektsstelle existentiell geschlossen ist, wie bei essen) zugelassen. Das scheinbare<br />
Gegenbeispiel (55b) wird nun dadurch erklärt, daß aus dem deverbalen Nomen Verlierer<br />
wie<strong>der</strong>um eine stereotype Relation verlieren erschlossen wird, <strong>der</strong>en zweite Argumentstelle<br />
zur Bindung <strong>des</strong> Genitivkomplements dient. Evidenz hierfür liefert die Tatsache, daß<br />
Genitivkomplemente auch bei nicht-<strong>der</strong>ivierten Nomen möglich sind, vgl.<br />
(62)<br />
a) <strong>der</strong> Autor <strong>des</strong> Romans<br />
b) <strong>der</strong> Verfasser <strong>des</strong> Romans<br />
Sowohl das Simplexnomen Autor wie das deverbale Nomen Verfasser lassen die Inferenz<br />
einer Relation schreiben zu, die zur Bindung <strong>des</strong> Komplements verwendet wird. Da das Erschließen<br />
<strong>der</strong> Relation i.a. keine allzu großen Schwierigkeiten macht, muß nun jedoch erklärt<br />
werden, warum (60) nicht möglich ist. Die Erklärung könnte darin liegen, daß Verben wie<br />
verhüten obligat transitiv sind und daher eine er-Nominalisierung nicht zulassen. Die Tatsache<br />
schließlich, daß in solchen Fällen eine kompositainterne Sättigung wie in (61) immer<br />
möglich scheint, ergibt sich daraus, daß hierdurch eine Intransitivierung <strong>des</strong> Verbs eintritt,<br />
welche die Ableitung mit -er möglich macht. Die aufgrund dieser semantischen <strong>Analyse</strong><br />
rekonstruierte syntaktische Struktur sieht daher wie in (63) aus:<br />
(63)<br />
V<br />
N<br />
N V N<br />
Unfall verhüt er<br />
79
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Allerdings ist eine intransitive Verbbasis noch keine hinreichende Bedingung für die Zulässigkeit<br />
einer Nominalisierung mit -er. Intransitive Verben wie ankommen, aufwachen, fallen<br />
usw. erlauben keine er-Ableitung (vgl. auch Abschnitt 3.4.1):<br />
(64)<br />
a) * Ankommer<br />
b) * Aufwacher<br />
c) * Faller<br />
Punktuelle Verben wie erblicken 12 , erschlagen, aufwachen gestatten i.a. keine er- Nominalisierung,<br />
wobei es jedoch Ausnahmen wie finden – Fin<strong>der</strong> gibt. Die Ableitung mit -er ist auch bei<br />
<strong>der</strong> überwiegenden Zahl <strong>der</strong> ingressiven (erblühen, aufstehen, erklingen) und resultativen Verben<br />
(verblühen, verbrennen, ausklingen) nicht möglich; Ausnahmen hierbei wie Vollen<strong>der</strong> müssen<br />
wohl durch Lexikalisierung „erklärt“ werden. Fanselow (1988b) schlägt zur Erklärung<br />
dieser Ableitungsblockierung vor, daß <strong>der</strong> semantische Beitrag von -er bei <strong>der</strong> Nominalisierung<br />
u.a. <strong>der</strong> ist, daß man die durch das Verb ausgedrückte Tätigkeit gewohnheitsmäßig<br />
ausübt. Punktuelle Verben lassen eine solche Interpretation jedoch kaum zu. Besser müßten<br />
sich daher Durativa wie blühen, schlafen, wohnen nominalisieren lassen, was interessanterweise<br />
mit Ausnahme von schlafen nicht geht. Die iterativen Verben wie beispielsweise sticheln,<br />
krabbeln, grübeln bestätigen jedoch diese Erklärung.<br />
Obwohl Fanselows Ansatz zunächst äußerst vielversprechend ist, gibt es doch einige z.T.<br />
erhebliche Kritikpunkte:<br />
1. Welche Konsequenzen hat die Verlagerung <strong>der</strong> Hauptlast von den Syntaxregeln zu den<br />
logischen Typen, die den Morphemen zugeordnet sind? Zunächst einmal wird die Wortsyntax<br />
im semantischen Ansatz von Fanselow keineswegs abgeschafft; sie ist vielmehr<br />
implizit in <strong>der</strong> typenlogischen Charakterisierung <strong>der</strong> verschiedenen syntaktischen Kategorien<br />
und explizit mit den Merkmalsperkolationsbedingungen präsent. Da sich nach<br />
traditioneller Auffassung <strong>der</strong> Montague-Semantik die semantischen Typen aus den syntaktischen<br />
Kategorien durch Anwendung einer einfachen Abbildungsvorschrift ergeben,<br />
setzt Fanselows Konzeption implizit eine wortinterne Strukturierung voraus, entlang <strong>der</strong><br />
die semantischen Operationen angewendet werden. Dies bedeutet, daß die Syntax in gewisser<br />
Weise <strong>der</strong> Semantik „vorgeordnet“ ist und die Anwendung <strong>der</strong> semantischen<br />
Auswertung leitet. Nur dadurch kann u.a. verhin<strong>der</strong>t werden, daß eine Funktion auf ein<br />
Argument appliziert werden kann, das dem syntaktischen Träger <strong>der</strong> Funktion nicht<br />
benachbart ist. Meiner Meinung nach argumentiert Fanselow nicht gegen die Annahme<br />
einer syntaktischen Struktur von Wörtern, son<strong>der</strong>n nur dagegen, daß a) diese Struktur<br />
autonom ist und unabhängigen Prinzipien folgt und b) die Wortsyntax und ihre<br />
Prinzipen in <strong>der</strong> Universalgrammatik verankert sind. 13 Fanselow folgt hier Chomsky<br />
(1982), <strong>der</strong> die Wortsyntax für so trivial hält, daß sie lediglich auf <strong>der</strong> Grundlage positiver<br />
Evidenz während <strong>des</strong> Spracherwerbs erlernt werden kann.<br />
2. Was ist nun – nachdem in 1. festgestellt wurde, daß eine wortsyntaktische Ebene weiterhin<br />
angenommen werden muß – <strong>der</strong> eigentliche Gehalt von G. Fanselows Ansatz? Lei<strong>der</strong><br />
bleibt von dieser äußerst interessanten Idee weniger übrig als zuvor angenommen. Zur<br />
Explizitmachung <strong>der</strong> Wortstruktur benötigt man zunächst einen Formalismus, <strong>der</strong> in <strong>der</strong><br />
Lage ist, die Anfor<strong>der</strong>ungen, die ein syntaktischer Kopf an seine Umgebung stellt, in seiner<br />
syntaktischen Kategorie zu codieren. In Frage kämen hierzu Kategorialgrammatiken<br />
o<strong>der</strong> HPSG-ähnliche Formalismen, die in einer einem <strong>morphologischen</strong> Kopf zugeord-<br />
12 Die hier angeführten Verben entstammen dem Duden (1994:93).<br />
13 Gisbert Fanselow (p.M.) bestätigt diese Auffassung.<br />
80
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
neten Argumentliste zu sättigende Argumentstellen festhalten. Auf diese Weise ist es<br />
möglich, semantische Kombinationsbeschränkungen wie<strong>der</strong> auf syntaktische zurückzuführen.<br />
Anschließend kann das etwas ineffiziente generate-and-test-Verfahren <strong>des</strong> Ansatzes<br />
verbessert werden, indem Beschränkungen <strong>der</strong> Testphase in den Generator vorverlegt<br />
werden und somit so früh wie möglich zur Anwendung kommen.<br />
3. Wie wir weiter oben gesehen haben, kann sinnvollerweise zwischen stereotypen Relationen<br />
– diejenigen, die mit dem �-Operator in <strong>der</strong> Konzeption von Meyer (1993) verknüpft<br />
sind –, und Relationen, die eher konzeptuellen Ursprungs sind, unterschieden werden.<br />
Diese Unterscheidung findet keinen Reflex in Fanselows Ansatz, trivialerweise <strong>des</strong>halb,<br />
da er – obgleich semantisch-konzeptuell orientiert – nur stereotype Relationen kennt. Eine<br />
Erweiterung um konzeptuelle Relationen scheint jedoch kein Problem darzustellen.<br />
4. Wenn man Fanselow (1987, 1988b) folgt, dann ist die Interpretation von Wort- wie von<br />
Phrasenstrukturen nicht eng an diese gebunden, son<strong>der</strong>n Teil <strong>des</strong> konzeptuellen Systems.<br />
Es gibt demnach nur eine solche Komponente, die in beiden Fällen nach exakt den gleichen<br />
Prinzipien arbeitet. Wie ist es aber dann zu erklären, daß diese Komponente sensitiv<br />
gegenüber <strong>der</strong> Unterscheidung wortintern – wortextern ist, die sich beispielsweise bei <strong>der</strong><br />
Argumentvererbung bemerkbar macht: „[...] we are forced to conclude that obligatory<br />
arguments of verbs must be filled within the complex word itself [...]“ (Fanselow<br />
(1988b:40)).<br />
5. Fanselows Leugnung <strong>der</strong> Möglichkeit von Argumentvererbung ist bereits kritisiert worden,<br />
so u.a. von Reis (1983); diese Argumente sollen hier nicht wie<strong>der</strong>holt werden. Einen<br />
weiteren Einwand gegen Fanselow möchte ich jedoch noch hinzufügen; dieser ergibt<br />
sich, wenn man die in Abschnitt 3.2.2.2 dargestellte be-Präfigierung für einen produktiven<br />
und damit regelgeleiteten Prozeß hält. Das dort genannte Beispiel sei hier noch einmal<br />
wie<strong>der</strong>holt:<br />
(65)<br />
a) Sie gießt [NP Wasser] [PP auf die Blumen ]<br />
b) Sie begießt [NP die Blumen] [PP mit Wasser ]<br />
Bei <strong>der</strong> be-Präfigierung von dreiwertigen Verben kommt es zu einer charakteristischen<br />
Än<strong>der</strong>ung <strong>der</strong> syntaktischen Realisierung <strong>der</strong> Objektsthetarollen. Fanselow schließt nun –<br />
wie oben dargestellt – Funktionalkomposition und damit Argumentvererbung aus dem<br />
Repertoire <strong>der</strong> für die Derivation zur Verfügung stehenden Operationen aus. Er bezieht<br />
sich zwar nur auf die Suffigierung, aber ich sehe nicht, warum seine Argumente nicht<br />
auch für die Präfigierung gelten sollten. Die m.E. systematische Beziehung zwischen be-<br />
und Simplexverb wird danach so hergestellt, daß aus dem be-Verb eine stereotype Relation<br />
erschlossen wird, die eben Argumente von einer bestimmten Art erfor<strong>der</strong>t. Diese<br />
Relation kann in Beispiel (65b) jedoch nur gießen sein, nicht jedoch begießen, da das Verb,<br />
welches letztere ausdrückt, ja erst gebildet wird. Ist gießen jedoch die aus begießen erschlossene<br />
Relation, so bleibt ungeklärt, warum <strong>des</strong>sen Argumente in einer an<strong>der</strong>en Reihenfolge<br />
und syntaktisch in unterschiedlicher Weise verwirklicht werden. Die Argumentreihenfolge<br />
<strong>des</strong> Simplexverbs übertragen auf das be-Verb würde schließlich so aussehen:<br />
(66) * Sie begießt [PP mit Wasser ] [NP die Blumen]<br />
was jedoch nicht akzeptabel ist. Der Schluß, den ich daraus ziehe ist <strong>der</strong>, daß man das<br />
Phänomen <strong>der</strong> Argumentvererbung nicht gänzlich leugnen kann und daher im formalen<br />
semantischen Apparat auch eine Operation – Funktionalkomposition – benötigt, die dieses<br />
Phänomen rekonstruiert.<br />
81
3.4 Das generative Lexikon<br />
3.4.1 Struktur<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Ein sehr interessanter Versuch, eine einheitliche semantische Beschreibung aller Kategorien<br />
im Lexikon zu geben und <strong>der</strong> als eine elaborierte Synthese und Weiterentwicklung <strong>der</strong> zuvor<br />
vorgestellten Ideen angesehen werden kann, ist <strong>der</strong> von Pustejovsky (1991, 1995). Da<br />
dieser Ansatz in stark abgewandelter Form auch Grundlage <strong>der</strong> <strong>Analyse</strong>n in Kapitel 5 ist,<br />
soll er an diese Stelle etwas ausführlicher dargestellt werden.<br />
Der Ausgangspunkt für Pustejovsky ist, ebenso wie bei Bierwisch (1983) und Meyer (1993),<br />
das Phänomen <strong>der</strong> Polysemie, d.h. daß die verschiedenen Lesarten mancher Wörter systematische<br />
Bezüge untereinan<strong>der</strong> aufweisen. In Pustejovsky (1995:28) wird in erster Linie ein<br />
Subtyp <strong>der</strong> Polysemie, die sog. logische Polysemie betrachtet, die definiert wird als „a<br />
complementary ambiguity where there is no change in lexical category, and the multiple senses of the<br />
word have overlapping, dependent, or shared meanings.“<br />
Traditionellerweise wird Polysemie im Lexikon durch eine Aufzählung <strong>der</strong> verschiedenen<br />
Lesarten behandelt – eine Methode, die Pustejovsky Sense Enumeration Lexicon nennt. Dabei<br />
erhält jede Lesart einen Eintrag, beispielsweise in Form einer Merkmalsstruktur, was am<br />
Beispiel von bank exemplifiziert wird (vgl. Pustejovsky (1995:34)):<br />
(67)<br />
CAT:<br />
GENUS:<br />
bank 1<br />
count_noun<br />
financial_institution<br />
82<br />
CAT:<br />
GENUS:<br />
bank 2<br />
count_noun<br />
shore<br />
Die gleiche Technik wird auch bei polysemen Nomen wie Museum usw. angewendet, d.h.<br />
jede Lesart erhält einen separaten Lexikoneintrag.<br />
Gegen diese Technik gibt es eine ganze Reihe von Einwänden (vgl. auch Pustejovsky<br />
(1995:39ff); das Hauptgegenargument ist natürlich das, daß die Gemeinsamkeiten <strong>der</strong> verschiedenen<br />
Lesarten im Fall von Polysemie – die Kernbedeutung nach Bierwisch (1983) –<br />
unausgedrückt bleiben.<br />
Wie sieht nun <strong>der</strong> Gegenentwurf von Pustejovsky aus? Lexikoneinträge sind hiernach hochstrukturierte<br />
Gebilde im Format <strong>der</strong> in Kapitel 2 betrachteten typisierten Merkmalsstrukturen<br />
(ein Umstand, <strong>der</strong> einer Verwendung dieser Konzeption in dieser Arbeit entgegenkommt).<br />
Ein solcher Lexikoneintrag weist zunächst vier Beschreibungsebenen auf:<br />
� Argumentstruktur<br />
� Qualia-Struktur<br />
� Ereignisstruktur<br />
� Vererbungsstruktur (lexical inheritance structure)<br />
Die Argumentstruktur ist gegeben durch eine Reihe von benannten Attributen (ARG1, ARG2<br />
usw.), <strong>der</strong>en Werte in vier verschiedene Argumenttypen klassifiziert werden:<br />
� True Arguments: Notwendig syntaktisch realisierte Parameter eines lexikalischen Kopfs,<br />
d.h. solche, die eine thematische Rolle tragen<br />
� Default Arguments: „Mitverstandene“ Argumente, d.h. existentiell gebundene Variablen<br />
in <strong>der</strong> dem lexikalischen Kopf zugeordneten, weiter unten näher beschriebenen Ereignisstruktur.<br />
� Shadow Arguments
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
� True Adjuncts: Modifikatoren, die vom lexikalischen Element nicht gefor<strong>der</strong>t werden.<br />
Anhand <strong>des</strong> Verbs bauen können die ersten beiden Argumenttypen veranschaulicht werden:<br />
(68)<br />
ARGSTR:<br />
bauen<br />
ARG1:<br />
ARG2:<br />
D-ARG1:<br />
83<br />
animate_ind<br />
artifact<br />
material<br />
ARG1 und ARG2 beschreiben dabei Subjekt bzw. Objekt von bauen als belebtes Individuum<br />
bzw. Artefakt. Default-Argument ist ein Ausdruck vom Typ material, womit ausgedrückt<br />
wird, daß je<strong>der</strong> Bauvorgang sich normalerweise eines Baumaterials bedient. Im Satz<br />
(69) Der Erfin<strong>der</strong> baut einen Automaten aus alten Bierdosen<br />
werden alle Argumente <strong>des</strong> Verbs durch passende Ausdrücke gebunden.<br />
Hervorhebenswert ist, daß die Argumentstruktur in dieser Konzeption semantischer Natur<br />
ist und folglich eine Art von konzeptueller Tiefenstruktur beschreibt. Es ist daher nicht notwendigerweise<br />
<strong>der</strong> Fall, daß „richtige“ Argumente (true arguments) auch syntaktisch realisiert<br />
werden müssen, was anhand <strong>der</strong> Argumentstruktur von Nomen verdeutlicht werden<br />
kann.<br />
(70)<br />
ARGSTR: ARG1: x: animal<br />
Vogel<br />
Nomen werden in <strong>der</strong> Prädikatenlogik üblicherweise als Funktionen von Individuen zu<br />
Wahrheitswerten repräsentiert, d.h. als einstellige Prädikate. In (69) wird dies durch die typisierte<br />
Variable x ausgedrückt. Allerdings wäre es besser, dieses referentielle Argument<br />
von den an<strong>der</strong>en Argumenten deutlicher zu unterscheiden, da es sich in vielfacher Weise<br />
an<strong>der</strong>es verhält; beispielsweise kann es – an<strong>der</strong>s als nominale Argumente – unter ARG1,<br />
ARG2 etc. nicht mit morphosyntaktischen Merkmalen wie Kasus markiert werden.<br />
Eine in Pustejoysky (1995:132ff) skizzierte Realisierungstheorie ordnet dann diesen semantischen<br />
Argumenten ihre syntaktisch-kategoriale Realisierung zu; m.E. kann man hiermit aber<br />
nicht restfrei ideosynkratische Kasuszuweisungen u.ä. erklären, weswegen man kaum umhin<br />
kann, in die Angaben über die Argumente auch syntaktische Merkmale aufzunehmen.<br />
Die nächste Beschreibungsebene, Qualiastruktur genannt, kommt dem am nächsten, was<br />
normalerweise mit Techniken <strong>der</strong> Wissensrepräsentation erreicht wird. Hier wird festgelegt,<br />
wie die durch ein Wort ausgedrückten Konzepte untereinan<strong>der</strong> und mit an<strong>der</strong>en Konzepten<br />
in Verbindung stehen. Die Qualiastruktur enthält vier Substrukturen (Rollen, roles genannt),<br />
die in Pustejovsky (1995:85f.)) wie folgt definiert und hier im Original wie<strong>der</strong>gegeben<br />
werden:<br />
1. CONSTITUTIVE: the relation between an object and its constituents, or proper parts.<br />
i. Material<br />
ii. Weight<br />
iii. Parts and component elements<br />
2. FORMAL: That which distinguishes the object within a larger domain.<br />
i. Orientation<br />
ii. Magnitude<br />
iii. Shape<br />
iv. Dimensionality
v. Color<br />
vi. Position<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
3. TELIC: Purpose and function of the object.<br />
i. Purpose that an agent has in performing an act<br />
ii. Built-in function or aim which specifies certain activities<br />
4. AGENTIVE: Factors involved in the origin or „bringing about“ of an object.<br />
i. Creator<br />
ii. Artifact<br />
iii. Natural Kind<br />
iv. Causal Chain<br />
Auch wenn diese Unterglie<strong>der</strong>ung auf den ersten Blick plausibel erscheint, werden doch<br />
eine ganze Reihe von Fragen aufgeworfen, u.a.:<br />
1. Sind diese Unterscheidungen für die Wortbildung relevant?<br />
2. Beschreiben Sie nicht eher durch Nomen ausgedrückte Konzepte als durch Verben ausgedrückte<br />
Relationen?<br />
Zudem ist die „Unterbringung“ gewisser Relationen innerhalb <strong>der</strong> Qualia-Struktur, die<br />
schließlich den Weltwissensaspekt von lexikalischen Einheiten repräsentieren soll, innerhalb<br />
dieses Schemas manchmal ziemlich unklar. An welcher Stelle soll beispielsweise die Relation<br />
repräsentiert werden, die relationale Nomen wie Fan o<strong>der</strong> Sohn kennzeichnet?<br />
Doch zurück zur ersten Frage. Für die Wortbildung kann man diese Qualia-Rollen grob in<br />
zwei Gruppen unterteilen: FORMAL und CONSTITUTIVE auf <strong>der</strong> einen Seite, TELIC und<br />
AGENTIVE auf <strong>der</strong> an<strong>der</strong>en. Letztere entsprechen ungefähr dem, was bei Fanselow die stereotype<br />
Relation und bei Meyer <strong>der</strong> Purpose-Operator ist. Die telische Rolle eines Nomens wie<br />
Messer wird beispielsweise durch eine Relation schneiden belegt 14 :<br />
(71)<br />
ARGSTR: ARG1: x: tool<br />
QUALIA:<br />
Messer<br />
FORMAL: x<br />
TELIC: cut(e,x,y)<br />
Beim Kompositum Brotmesser z.B. belegt das Erstglied eine Argumentstelle (y) <strong>der</strong> telischen<br />
Relation schneiden. Die Variable y muß zudem noch in geeigneter Weise typisiert werden,<br />
um auf diese Weise die notwendigen Selektionsbeschränkungen zum Ausdruck zu bringen.<br />
Die beiden an<strong>der</strong>en Qualia-Rollen, FORMAL und CONSTITUTIVE entsprechen eher den allgemeinen<br />
konzeptuellen Relationen, die auch zur Wortinterpretation herangezogen werden<br />
können. Bei <strong>der</strong> Interpretation von Stahlmesser kann etwa die telische Relation von Messer<br />
aufgrund von Selektionsbeschränkungen (Stahl kann man normalerweise nicht mit Messern<br />
schneiden) nicht verwendet werden. Statt<strong>des</strong>sen wird die Interpretation „Messer aus (dem<br />
Material) Stahl“ bevorzugt, wobei die Relation „x ist aus dem Material y“ aus <strong>der</strong> formalen<br />
Rolle <strong>des</strong> Zweitglieds stammt. Das Kompositum Türklinke würde dementsprechend die<br />
CONSTITUTIVE-Rolle verwenden. Als Interpretationsheuristik könnte man also folgen<strong>des</strong><br />
formulieren:<br />
14 Anmerkungen zum Beispiel: zur Frage, warum unter FORMAL die Variable x nochmal erscheint, s.u.;<br />
e steht für eine Ereignisvariable. Wie man übrigens erkennen kann, wird das „Mentalesische“ in <strong>der</strong><br />
üblichen Weise mit dem Englischen identifiziert.<br />
84
(72)<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Probiere erst die Relationen unter TELIC und AGENTIVE, dann die unter FORMAL und<br />
CONSTITUTIVE aus.<br />
Wenn man dies noch um ein an<strong>der</strong>es „Prinzip“ erweitert, nämlich<br />
(73)<br />
Verwende zunächst die Einträge in <strong>der</strong> Argumentstruktur und dann erst die<br />
Relationen <strong>der</strong> Qualiastruktur,<br />
so kann man die in Boase-Beier at al. (1984) und auch in Meyer (1993) vorgeschlagene Interpretationshierarchie<br />
ziemlich genau rekonstruieren.<br />
Auf die zweite <strong>der</strong> oben gestellten Frage möchte ich im Zusammenhang mit <strong>der</strong> Ereignisstruktur<br />
zurück kommen.<br />
Ein weiteres Problem, was Pustejovsky m.E. nicht bedacht hat, ist das Phänomen <strong>der</strong> Argumentsättigung.<br />
Es ist wohl so, daß die in den unterschiedlichen Relationen <strong>der</strong> Qualia-<br />
Struktur manifestierten Argumentstellen wortintern und auch phrasal nur höchstens einmal<br />
verwendet werden können, was die folgenden Beispiele zeigen:<br />
(74)<br />
a) *Stahlstahlmesser<br />
b) *Stahlmesser aus Stahl<br />
c) Stahlbrotmesser<br />
d) Brotmesser aus Stahl<br />
Innerhalb <strong>des</strong> Interpretationsprozesses müssen „verwendete“ Argumente demnach entsprechend<br />
gekennzeichnet werden. Dies kann man etwa durch den geläufigen Mechanismus <strong>der</strong><br />
Argumentlistenabarbeitung erreichen: Die zugänglichen Argumentstellen <strong>der</strong> Relationen<br />
befinden sich in einer Liste, die verkürzt o<strong>der</strong> unverän<strong>der</strong>t während <strong>der</strong> Bottom-Up<br />
operierenden Interpretation an die Mutterkategorie weitergereicht wird; technische Details<br />
hierzu finden sich ebenfalls in Kapitel 5. Ähnlich muß natürlich auch mit den Elementen in<br />
<strong>der</strong> Argumentstruktur verfahren werden.<br />
Der Schwerpunkt <strong>der</strong> Konzeption von Pustejovsky (1995) liegt jedoch wie bereits erwähnt in<br />
einer adäquaten Behandlung <strong>der</strong> Polysemie, genauer gesagt <strong>der</strong> Repräsentation von regelgeleiteten<br />
Alternationen <strong>der</strong> folgenden Art (vgl. auch Pustejovsky (1995:92)):<br />
Alternation Beispiel<br />
Prozeß / Resultat Rettung, Verkauf<br />
Institution / Gebäude Museum, Bibliothek<br />
Individuum / Stoff Brot, Stahl<br />
Abb. 3.7: Typische Alternationen bei Nomen<br />
Da dies die Typisierung <strong>der</strong> referentiellen Argumentvariablen 15 betrifft, stellt sich die Frage,<br />
wie hiermit zu verfahren ist. Ein Typsystem wie das in Kapitel 2 vorgestellte böte zwei<br />
Möglichkeiten <strong>der</strong> Formalisierung dieser Alternatitionen:<br />
a) Typunifikation<br />
b) Typgeneralisierung<br />
Typunifikation hieße, daß die Typen <strong>der</strong> in Frage kommenden Alternanten einen gemeinsamen<br />
Subtyp aufwiesen, im Falle <strong>der</strong> Typen Institution und Gebäude also den Typ Institu-<br />
15 Pustejovsky unterscheidet wie oben angedeutet nicht zwischen referentiellen und syntaktischen<br />
Argumenten.<br />
85
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
tion_Gebäude, <strong>der</strong> dann <strong>der</strong> referentiellen Argumentstelle zugewiesen wird. Dies löst das<br />
Problem jedoch nicht, da dieser Typ nunmehr gleichzeitig beide Lesarten ausdrücken<br />
würde, was aber nicht <strong>der</strong> Fall ist, wie die in Abschnitt 3.3.2 gegebenen Sätze mit dem Beispiel<br />
Museum zeigen. Zudem blieben hier auch die Relationen zwischen den Lesarten unausgedrückt,<br />
im Beispielfall etwa substrat_für(Gebäude,Institution), weil es eben keine zwei<br />
verschiedenen Typen gibt, son<strong>der</strong>n nur ihren gemeinsamen Subtyp.<br />
Typgeneralisierung – also das referentielle Argument mit dem spezifischsten Supertyp <strong>der</strong><br />
Ausgangstypen zu versehen – bietet auch keine Lösung, da dieser Supertyp u.U. im Vergleich<br />
zu den Ausgangstypen sehr viel unspezifischer sein könnte.<br />
Pustejovskys Antwort ist die Einführung eines speziellen Typkonstruktors, <strong>der</strong> aus zwei<br />
Typen �1 und �2 einen sog. dotted type �1 � �2 bildet; dieser ist <strong>der</strong> Typ <strong>des</strong> referentiellen Arguments<br />
von solchen Nomen wie Museum. Der FORMAL-Teil <strong>der</strong> Qualiastruktur enthält dann<br />
die Relationen, die zwischen den einfachen Typen gelten. Unter <strong>der</strong> Annahme <strong>der</strong> Assoziativität<br />
<strong>des</strong> dot-Operators kann dies auch noch auf weitere Lesarten ausgedehnt werden. Die<br />
nächste Abbildung zeigt die dem Nomen Museum zugeordnete Merkmalsstruktur 16 :<br />
(75)<br />
ARGSTR:<br />
Museum<br />
ARG1: x: building<br />
ARG2: y: institution<br />
QUALIA: FORMAL: in(y,x)<br />
TELIC: exibit(e,y,z:collection)<br />
Die nächste Substruktur <strong>des</strong> Qualia-Merkmals ist die Ereignisstruktur. Es sieht so aus, als<br />
würde sie in Pustejovsky (1995) nur Verben zukommen, obwohl man fragen könnte, ob sie<br />
nicht auch Prozeß/Resultat-Alternationen an den Tag legende Nominalisierungen wie Rettung<br />
eigen wäre.<br />
Die Ereignisstruktur dient dazu, die unterschiedlichen Aktionsarten von Verben zu erfassen.<br />
Unterschieden werden hier Zustände, Aktivitäten, und sog. Zustandsverän<strong>der</strong>ungen. Letztere<br />
werden nochmals klassifiziert in accomplishment und achievement-Ereignisse. Die Aufnahme<br />
von Zuständen in die Ereignisstruktur ist eigentlich eine Fehlbenennung, soll aber im<br />
Augenblick nicht stören. Aktivitäten ausdrückende Verben wie arbeiten und laufen bezeichnen<br />
Ereignisse, die sich mehr o<strong>der</strong> weniger gleichförmig über ein bestimmtes Zeitintervall<br />
hinziehen. Zustandsverän<strong>der</strong>ungen werden durch Verben ausgedrückt, bei denen eine Aktivität<br />
zu einem Abschluß gelangt. Zu unterscheiden sind hier Verben, bei denen dieser Abschluß<br />
augenblicklich erfolgt (wie finden und ankommen) und solche, bei denen dies eher<br />
graduell erfolgt (wie bei aufbauen und zerstören).<br />
Die Zugehörigkeit eines Verbs zu einer <strong>der</strong> obengenannten Klassen kann durch Modifikation<br />
<strong>der</strong> impliziten Ereignisvariablen mit Zeitadverbialen ermittelt werden (diese Tests sind<br />
aber lediglich als Heuristiken zu verstehen). So erlauben Aktivitätsverben eine Modifikation<br />
mit Zeitraumadverbialen, was bei achievement-Verben jedoch nicht möglich ist, vgl.<br />
16 In dieser, in Analogie zu einer Struktur in Pustejovsky (1995:101) gebildeten Merkmalsstruktur gibt<br />
es so manche Ungereimtheiten: Warum sind unter ARGSTR zwei Argumente angegeben, ganz so wie<br />
sonst bei transitiven Verben? Vielmehr müßte es doch so sein, daß das (einzige) referentielle Argument<br />
ein dotted type ist, <strong>der</strong> aus building und institution konstruiert wurde. Desweiteren ist nicht klar,<br />
warum die Relation in(y,x) unter FORMAL wie<strong>der</strong>gegeben wird; es ist nicht zu erkennen, wie dies mit<br />
<strong>der</strong> oben zitierten Definition <strong>der</strong> FORMAL-Rolle in Einklang zu bringen ist. Eine Konzeption, die diese<br />
Probleme vermeidet, wird in Kapitel 5 beschrieben.<br />
86
(76) Er fand seine Uhr eine Stunde lang<br />
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Welche Rollen spielt die Ereignisstruktur bei <strong>der</strong> Wortbildung? Es sieht so aus, als könnten<br />
Aktivitätsverben wie arbeiten, krabbeln usw. ohne Einschränkung mit -er nominalisiert werden.<br />
Bei achievement-Verben scheint dies nicht zu funktionieren, vgl. *Ankommer. Auf <strong>der</strong><br />
an<strong>der</strong>en Seite lassen sich Ereignisnominaliserungen gut auf <strong>der</strong> Grundlage von accomplishment-Verben<br />
mit ihrer charakteristischen Prozeß/Resultat-Alternation bilden, vgl. Rettung<br />
und Verkauf. Da er-Derivate überwiegend eine an<strong>der</strong>e Alternation – die zwischen Agent<br />
und Instrument – an den Tag legen, ist zu erwarten, daß accomplishment-Verben eher nicht<br />
mit -er nominalisiert werden können; Beispiele wie *Aufbauer scheinen dies zu bestätigen<br />
(daß *Aufbauung und *Verkaufung nicht möglich sind, ist vermutlich durch Blockierung zu<br />
erklären).<br />
Allerdings gibt es hier viele Interferenzen mit <strong>der</strong> Lexikalisierung. Verben sind hinsichtlich<br />
<strong>der</strong> Neubildung nicht son<strong>der</strong>lich produktiv (eine Ausnahme ist die Entstehung von Partikelverben),<br />
so daß sich die meisten <strong>der</strong>ivationellen Bildungen auf <strong>der</strong> Basis von Simplexverben<br />
vollziehen. Dementsprechend gibt es hier auch sehr viele lexikalisierte Bildungen wie Sucher<br />
(Teil <strong>der</strong> Kamera), Zerstörer (Schiff) und Ausnahmen zu den erwähnten Regularitäten wie<br />
Fin<strong>der</strong>.<br />
Über die letzte Beschreibungsebene, die Vererbungsstruktur, haben Pustejoysky und auch ich<br />
nicht allzuviel zu sagen. Die Grundidee hiervon ist, daß Konzepte nicht nur in einer eindimensionalen,<br />
son<strong>der</strong>n vielmehr mehrdimensionalen Hierarchie organisiert ist. Die Dimensionen<br />
werden hierbei durch die vier Substrukturen <strong>der</strong> Qualiastruktur aufgespannt; in verschiedenen<br />
Merkmalen IS_FORMAL, IS_CONSTITUTIVE etc. werden hinsichtlich <strong>der</strong> unterschiedlichen<br />
Hierarchien verschiedene Supertypen <strong>des</strong> betrachteten Konzepts festgehalten.<br />
Details finden sich in Pustejoysky (1995:144ff).<br />
3.4.2 Generative Operationen<br />
Welche Operationen operieren nun über den zuvor beschriebenen Merkmalsstrukturen? Im<br />
wesentlichen sind es die folgenden:<br />
1. Type Coercion<br />
2. Kokomposition<br />
3. Selektive Bindung<br />
Kokomposition und selektive Bindung (vgl. Pustejovsky (1995: Kapitel 7) spielen für die<br />
Mechanismen <strong>der</strong> Wortbildung keine beson<strong>der</strong>e Rolle und werden <strong>des</strong>wegen nicht behandelt.<br />
Type Coercion wird (Pustejovsky (1995:111)) wie folgt definiert:<br />
A semantic operation that converts an argument to the type which is expected by a<br />
function, where it would otherwise result in an type error.<br />
Die Grundidee hiervon ist die, daß semantische Ausdrücke nicht allein mit einem Typ assoziiert<br />
sind, son<strong>der</strong>n mit einer Typenleiter, d.h. einer Hierarchie von Typen.<br />
Zwei Fälle können hierbei unterschieden werden:<br />
a) Subtype Coercion<br />
b) True Complement Coercion<br />
Subtype Coercion kann sehr elegant unter <strong>der</strong> Annahme einer Typenhierarchie, wie sie in Kapitel<br />
2 beschrieben wurde, abgebildet werden. Wenn beispielsweise ein Verb ein Argument<br />
vom Typ animate verlangt, die gefundene Nominalphrase aber den Typ human aufweist,<br />
dann ist dies ein Fall von subtype coercion, wenn man davon ausgeht, daß letzerer ein Subtyp<br />
von ersterem ist.<br />
87
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
True Complement Coercion beschreibt hingegen den Sachverhalt, daß zur Interpretation nicht<br />
die Elemente <strong>der</strong> Argumentstruktur, son<strong>der</strong>n Argumente von Relationen, die innerhalb <strong>der</strong><br />
Qualiastruktur eines Wortes o<strong>der</strong> Wortbestandteiles, herangezogen werden. Beispiele aus<br />
dem phrasalen Bereich und <strong>der</strong> Wortbildung sind:<br />
(77)<br />
a) Theo hat das Buch gerade erst angefangen<br />
b) Nagelfabrik<br />
In beiden Fällen wird eine Argumentstelle <strong>der</strong> telischen Relation benutzt (bei a) lesen, bei b)<br />
herstellen), die an das Objekt bzw. das Worterstglied gebunden wird.<br />
Dies sollte nun fürs Erste genügen, um eine Vorstellung von den Interpretationsmechanismen,<br />
die innerhalb <strong>der</strong> Wortbildung wirksam sind, zu erhalten. Eine modifizierte, erweiterte<br />
und an die Wortbildung angepaßte Variante <strong>der</strong> Konzeption von Pustejovsky ist schließlich<br />
Gegenstand von Kapitel 5.<br />
3.5 Resümee<br />
3.5.1 Vereinheitlichung von Komposition und Derivation?<br />
Die augenscheinlichen Parallelen zwischen Eigenschaften <strong>der</strong> Komposition einerseits und<br />
Derivation an<strong>der</strong>erseits – zu nennen sind hier nur Binarität und Rechtsköpfigkeit komplexer<br />
Strukturen – haben einige Autoren (wie z.B. Höhle (1982)) zu <strong>der</strong> Annahme geführt, daß<br />
beiden <strong>der</strong> gleiche Mechanismus zugrundeliegt und sie sich lediglich im beteiligten Material<br />
unterscheiden, genauer, hinsichtlich <strong>des</strong> Werts für ein Merkmal gebunden. Höhle (1982) führt<br />
als Argumente für diesen Standpunkt – auch Kompositionstheorie <strong>der</strong> Affigierung genannt<br />
– eine Reihe von Argumenten an (vgl. Höhle (1982:88ff.)):<br />
a) Bei Komposita wie bei Derivaten flektieren nur die Zweitglie<strong>der</strong>.<br />
b) Fugenelemente können bei beiden Wortbildungstypen zwischen die Glie<strong>der</strong> treten, vgl.<br />
Haltungsschäden vs. haltungslos.<br />
c) Die Daten zur Tilgung unter Koordination entsprechen sich, vgl. Herrenmäntel und<br />
-schuhe, erkenn- und begreifbar.<br />
d) Die Zulässigkeit von Argumentvererbung scheint bei beiden Typen weniger an <strong>der</strong> Unterscheidung<br />
Komposition – Derivation zu hängen als an Eigenschaften <strong>der</strong> beteiligten<br />
Morpheme.<br />
M.E. gibt es jedoch einige gewichtige Gegenargumente. Man muß zwar konzedieren, daß,<br />
wenn man sich auf die formalen Eigenschaften <strong>der</strong> beiden Wortbildungstypen beschränkt,<br />
Höhles Argumentation sehr plausibel erscheint. An<strong>der</strong>erseits sind seine Argumente ausschließlich<br />
morphologischer Natur, was, wie ich meine, <strong>der</strong> Sache nicht gerecht wird. Die<br />
These, die ich in dieser Arbeit vertrete (und die natürlich nicht neu ist) ist die, daß das Interessante<br />
an Wörtern nicht ihre Syntax ist, son<strong>der</strong>n ihre Interpretation. Diese ist, wie in Kapitel<br />
5 noch ausführlich diskutiert werden wird, bei den beiden betrachteten Wortbildungsoperationen<br />
jedoch grundverschieden. Derivation und Rektionskomposition zeigen noch eine<br />
weitgehende Kopplung von Formations- und Interpretationsregeln, was bei <strong>der</strong> allgemeinen<br />
Komposition nicht mehr <strong>der</strong> Fall ist.<br />
Man könnte nun versucht sein, zur Grenzziehung zwischen Komposition und Derivation<br />
nicht morphologische Merkmale wie �GEBUNDEN, son<strong>der</strong>n die semantische Interpretation<br />
dieser Konstruktionstypen heranzuziehen. Affixe hätten dieser Idee zur Folge keine eigene<br />
Semantik und ihr Beitrag bei <strong>der</strong> Wortbildung sei ein rein funktionaler. Frei vorkommende<br />
88
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
Morpheme an<strong>der</strong>erseits verfügten über das volle, unter 3.3 und 3.4 vorgestellte Inventar <strong>der</strong><br />
Argumentsättigung, Stereotyperschließung und Nutzung weiterer konzeptueller Relationen.<br />
Lei<strong>der</strong> ist diese Ansicht auch nicht ganz zutreffend. Es gibt zumin<strong>des</strong>t ein sehr produktives<br />
Suffix – -ist –, das als Basis Nomen nimmt und daraus Personenbezeichnungen bildet. Betrachtet<br />
man als Basis etwa Nomen, die Musikinstrumente wie<br />
(78) Gitarre, Horn, Flöte<br />
denotieren, so sieht man, daß bei den entsprechenden ist-Ableitungen anscheinend auch<br />
eine stereotype Relation, die <strong>des</strong> Spielens, zur Deutung benutzt wird. Ein Gitarrist, ist jemand,<br />
<strong>der</strong> berufsmäßig o<strong>der</strong> gelegentlich Gitarre spielt. Stereotype Relationen können demnach<br />
auch bei <strong>der</strong> Derivation eine Rolle spielen.<br />
Abschließend halte ich Höhles Theorie auch unter einer syntaktischen Perspektive für nicht<br />
ganz zutreffend, da <strong>der</strong> Wert eines Merkmals allein noch nicht für die Beschreibung <strong>der</strong><br />
Phänomene ausreicht, was man sieht, wenn man sich etwa fragt, warum Derivationsaffixe<br />
immer rechts stehen müssen? Weitere Einwände, die hier nicht wie<strong>der</strong>gegeben werden können,<br />
finden sich in Reis (1983).<br />
3.5.2 Lexikalisierte Wortgrammatiken?<br />
Ein Trend in <strong>der</strong> heutigen Sprachwissenschaft generativer Tradition geht in Richtung zunehmen<strong>der</strong><br />
Lexikalisierung und Prinzipienbildung: Die Syntax wird verarmt, die Lexikonstruktur<br />
dagegen immer reicher. Der radikalste Standpunkt wird hierbei von <strong>der</strong> Kategorialgrammatik<br />
eingenommen, die sämtliche syntaktischen Regeln in den rekursiv aufgebauten<br />
lexikalischen Kategorien repräsentiert und nur noch zwei syntaktische Operationen (Vorwärts-<br />
und Rückwärtsapplikation) kennt.<br />
Eine interessante Frage ist nun: können die Ideen und Techniken <strong>der</strong> Lexikalisierung auch<br />
auf mögliche Wortgrammatiken angewendet werden?<br />
Hierzu muß zunächst bestimmt werden, was Lexikalisierung eigentlich bedeutet (vgl. König<br />
(1996:6)):<br />
Definition 3.1 Lexikalisierter Baum:<br />
Ein Baum T heißt lexikalisiert, wenn er min<strong>des</strong>tens ein Terminalsymbol enthält.<br />
Definition 3.2 Lexikalisierte Grammatik:<br />
Eine Grammatik G heißt lexikalisiert, wenn je<strong>der</strong> ihrer lokalen Bäume 17 lexikalisiert ist.<br />
Grammatikmodelle wie die HPSG sind nach dieser Definition lexikalisiert, da die einem<br />
Zeichen S mit Kopf H zugeordnete SUBCAT-Liste L kategorialgrammatisch wie folgt zu interpretieren<br />
sind: H braucht die Elemente aus L um ein S zu erzeugen.<br />
Ist es nun sinnvoll, auch Wortgrammatiken als Kategorialgrammatiken o<strong>der</strong> im Stil <strong>der</strong><br />
HPSG zu definieren? Die These, die ich an dieser Stelle vertreten möchte, ist die: Es ist trivialerweise<br />
möglich, bietet aber keinerlei Einsicht in die Natur <strong>der</strong> Wortbildung.<br />
Zur Begründung: Wir haben gesehen, daß die Wortbildung, zumin<strong>des</strong>t im <strong>Deutschen</strong>, durch<br />
folgen<strong>des</strong> Motto charakterisiert werden kann: „Arme Syntax, reiche Semantik“. Es gibt, abgesehen<br />
von <strong>der</strong> Derivation 18 und vielleicht <strong>der</strong> Bildung von Rektionskomposita und N-N-<br />
Komposita mit relationalem Zweitglied praktisch keine Subkategorisierungsbeziehungen<br />
zwischen lexikalischen Wortbestandteilen. Natürlich kann man beispielsweise für Nomen<br />
17 Lokale Bäume sind hier Bäume, die aufgrund einer einzigen Phrasenstrukturregel gebildet werden<br />
können.<br />
18 Und hier kann man fragen, ob die Derivationssuffixe als eigenständige Einheiten im Lexikon eingetragen<br />
sind und nicht vielmehr synkategorematisch in Derivationsregeln erscheinen.<br />
89
Kapitel 3: Wortsyntax und Wortsemantik <strong>des</strong> <strong>Deutschen</strong><br />
alternative Subkategorisierungsrahmen annehmen, im System <strong>der</strong> HPSG etwa ein leerer<br />
Rahmen (das Nomen steht allein) und ein Rahmen, <strong>der</strong> ein an<strong>der</strong>es Nomen enthält (für N-N-<br />
Komposita). Dies ist aber vollkommen uninstruktiv, und das meine ich mit „trivialerweise“.<br />
Konversionsprozesse bilden eine weitere Schwierigkeit für rein lexikalisierte Wortgrammatiken,<br />
da wenig an<strong>der</strong>e Möglichkeiten bleiben als unäre Regeln <strong>der</strong> Form X � Y zu verwenden.<br />
Man kommt also kaum umhin, solche Wortstrukturregeln wie N � N N anzunehmen<br />
und ansonsten soweit zu lexikalisieren, wie es sinnvoll ist.<br />
3.5.3 Ziele<br />
Zum Ende dieses dritten Kapitels möchte ich die Folgerungen zusammenfassen, die sich<br />
meiner Ansicht nach aus den zuvor dargestellten Ansätzen und <strong>der</strong> daran festgemachten<br />
Kritik ergeben.<br />
1. Wünschenswert ist eine einheitliche Beschreibung von Flexion, Derivation und Komposition.<br />
Im Bereich <strong>der</strong> Syntax scheint dies durch Annahme von syntaktischen Köpfen relativ<br />
unproblematisch zu sein, wenn auch die Flexion hierbei etwas aus dem Rahmen fällt<br />
und es neben <strong>der</strong> konkatenativen Morphologie eine Reihe von Operationen gibt, die sich<br />
nicht auf diese Weise integrieren lassen. Eine uniforme semantische Charaktersierung zu<br />
finden ist weitaus problematischer, da sich das Inventar <strong>der</strong> semantischen Operationen<br />
doch in wesentlicher Weise unterscheidet. Während <strong>der</strong> semantische Beitrag von Flexion<br />
und Derivation 19 in relativ vorhersagbarer Weise aus dem Kompositionalitätsprinzip<br />
folgt, spielen in <strong>der</strong> Komposition Operationen wie die Relationserschließung eine Rolle,<br />
die im eigentlichen Sinn nicht-kompositionell sind, da ja hier die Bedeutung eines komplexen<br />
Wortes nicht ausschließlich von <strong>der</strong> Bedeutung seiner Bestandteile und <strong>der</strong> Art ihrer<br />
Kombination festgelegt, son<strong>der</strong>n in wesentlicher Weise durch „unsichtbare“, erschlossene<br />
Komponenten bestimmt wird, die natürlich irgendwo Teil <strong>der</strong> Semantik <strong>der</strong> Bestandteile<br />
sind. Dieser Unterschied in <strong>der</strong> Semantik zwischen Komposition und Derivation<br />
ist m.E. ein Hauptargument gegen die Kompositionstheorie <strong>der</strong> Affigierung, die ihr<br />
Blickfeld zu sehr auf Parallelen in <strong>der</strong> Syntax bei<strong>der</strong> Wortbildungstypen verengt.<br />
2. Syntaktische Regeln anzunehmen ist von <strong>der</strong> Literatur nicht wi<strong>der</strong>legt. Wie gezeigt<br />
wurde, gehen alle Ansätze <strong>der</strong> Wortsemantik von expliziten o<strong>der</strong> impliziten Wortstrukturregeln<br />
aus. Es ist daher legitim, in einem operationalen Modell <strong>der</strong> deutschen Wortbildung<br />
und Flexion von diesem Mittel Gebrauch zu machen, zumal es die maschinelle Verarbeitung<br />
wesentlich erleichtert. Darüber hinaus stimme ich mit Pustejovsky (1991) 20<br />
überein, daß die Annahme einer syntaktischen Struktur von Wörtern auch in theoretischer<br />
Hinsicht Vorteile bringt, beispielsweise beim Erfassen von Ambiguitäten. Die Ausführungen<br />
im letzten Abschnitt machen die Annahme wortsyntaktischer Regeln sogar<br />
mehr o<strong>der</strong> min<strong>der</strong> zwingend.<br />
3. Ein Computermodell <strong>der</strong> Wortbildung darf sich jedoch nicht allzusehr auf die syntaktische<br />
Beschreibung von komplexen Wörtern konzentrieren, son<strong>der</strong>n muß sein Schwergewicht<br />
auf den Interpretationsmechanismus legen, <strong>der</strong> zur Deutung zusammengesetzter<br />
Wörter notwendig ist. Daß hierzu konzeptuelles Wissen und damit eine Form <strong>der</strong> Wissensrepräsentation<br />
erfor<strong>der</strong>lich ist, wurde von Meyer (1993) und auch Pustejovsky (1991,<br />
1995) in deutlicher Weise gezeigt.<br />
19 Von Phänomenen <strong>der</strong> Lexikalisierung (jetzt im an<strong>der</strong>en Wortsinn) soll hier abgesehen werden.<br />
20 „[...] without an appreciation of the syntactic structure of a language, the study of lexical semantics is bound<br />
to fail. There is no way in which meaning can be completely divorced from the structure that carries it.“<br />
(Pustejovsky (1991:410))<br />
90
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
4 Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Konzeptionell kann das Problem <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> in zwei Teilschritte zerlegt<br />
werden:<br />
1. Ein erster Schritt zerlegt das möglicherweise komplexe Wort in seine bekannten, d.h. im<br />
Lexikon verzeichneten Teile. Dieser Vorgang, im weiteren Segmentierung, Zerlegung o<strong>der</strong><br />
Partitionierung genannt, unterscheidet morphologische <strong>Analyse</strong>verfahren von solchen <strong>der</strong><br />
Satzsyntax, die mit geschriebener Sprache arbeiten. Bei letzteren genügt ein einfacher<br />
Tokenizer, <strong>der</strong> aufgrund <strong>der</strong> einfachen operationalen Definition von Wort – ein Wort ist<br />
alles, was zwischen Leerzeichen steht – diese Wörter auffindet.<br />
2. Ein zweiter Schritt, <strong>der</strong> mittels einer strukturellen <strong>Analyse</strong> feststellt, in welchen konfigurationellen<br />
Beziehungen die gefundenen Segmente stehen und wie sich die Merkmale <strong>des</strong><br />
Gesamtwortes aus den Merkmalen seiner Teile ergeben.<br />
Diese Unterglie<strong>der</strong>ung muß jedoch nicht zwangsläufig auch zu einer Sequentialität <strong>des</strong> Verfahrens<br />
führen, wie weiter unten deutlich wird.<br />
Die methodologische Grundlage <strong>des</strong> hier vorgestellten Modells bilden nun zwei Grundannahmen:<br />
• Die Segmentierungskomponente sollte so einfach und so effizient wie möglich sein; alle<br />
restlichen Aufgaben erledigt die strukturelle <strong>Analyse</strong>.<br />
• Soweit wie möglich sollen Techniken <strong>der</strong> Präkompilation genutzt werden, um einen<br />
möglichst großen Teil <strong>der</strong> <strong>Analyse</strong>last in <strong>der</strong> Kompilationsphase aufzufangen.<br />
Folgende Vorteile sollen sich aus einer <strong>der</strong>artigen Aufgabenteilung ergeben:<br />
• Die Effizienz <strong>der</strong> Segmentierung wird durch die Einfachheit <strong>des</strong> Algorithmus gesteigert.<br />
• Schnittstellenprobleme zwischen Segmentierungsverfahren und struktureller <strong>Analyse</strong>,<br />
die sich aufgrund <strong>der</strong> Verwendung unterschiedlicher Formalismen ergeben können,<br />
werden auf diese Weise vermieden 1 .<br />
Allerdings sind auch eventuelle Nachteile in Kauf zu nehmen:<br />
• Parsing ist im allgemeinen Fall komplexitätstheoretisch aufwendiger als das Erkennen<br />
von regulären Sprachen.<br />
• Parsverfahren für natürliche Sprachen neigen im allgemeinen zur Übergenerierung.<br />
Zum weiteren Aufbau dieses Kapitels: Abschnitt 4.2 geht auf die Funktionsweise <strong>des</strong> segmentierenden<br />
Automaten ein, während Abschnitt 4.3 sich dem verwendeten Parsverfahren<br />
widmet. Zunächst kommt aber die Organisation <strong>des</strong> Lexikons zur Sprache.<br />
1 Eine an<strong>der</strong>e Möglichkeit <strong>der</strong> Vermeidung solcher Schnittstellenprobleme besteht darin, die<br />
<strong>Analyse</strong>automaten im gleichen Formalismus zu repräsentieren wie die Wortgrammatik. Vgl. dazu<br />
beispielsweise die Arbeiten von Krieger et al. (1993).<br />
91
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
4.1 Die Organisation <strong>des</strong> Lexikons<br />
Bevor die Automatenkonzeption <strong>des</strong> Modells diskutiert wird, muß zunächst noch geklärt<br />
werden, was sinnvollerweise im Lexikon zu verzeichnen ist. Zu unterscheiden ist hier die<br />
Makrostruktur eines Lexikons von seiner Mikrostruktur. Erstere bezeichnet die äußere Organisationsform<br />
<strong>des</strong> Lexikons, was also aufgenommen wird und in welcher Form, wohingegen<br />
Mikrostruktur die Informationen und Attribute meint, die zu den einzelnen Einträgen verzeichnet<br />
sind. Die Mikrostruktur ist erst Gegenstand <strong>des</strong> folgenden Kapitels, in dem Typenhierarchie<br />
und Typisierungsspezifikationen dargelegt werden.<br />
Unter makrostruktureller Sichtweise enthält das Lexikon Objekte, die Paradigmen bzw.<br />
Lemmata verwandt sind, jedoch nicht vollkommen unter diese Begriffe fallen, und die hier<br />
(Eisenberg (1998) folgend) morphologische Paradigmen genannt werden. Diese enthalten unter<br />
einem Namen, <strong>der</strong> sich aus einer maximal unmarkierten Stammform ergibt und <strong>der</strong> als<br />
Hauptschlüssel in das Lexikon dient, u.U. eine Reihe weiterer, alternativer Stämme, die (wie<br />
bei regulären Lemmata auch) semantisch zusammenhängen und zu denen die Merkmale<br />
notiert sind, die ihnen selbst zukommen ebenso wie die Anfor<strong>der</strong>ungen, die sie an die wortsyntaktische<br />
Umgebung stellen. Bei unregelmäßigen Verben wären hier z.B. die allomorphen<br />
Stämme verzeichnet. Diese Stämme dienen wie<strong>der</strong>um als Unterschlüssel innerhalb <strong>des</strong><br />
<strong>morphologischen</strong> Paradigmas. Ein zusammengesetzter Schlüssel wie z.B. werf/warf bezeichnet<br />
also eindeutig die Merkmale, die dem Stamm warf im Lexikon und Lemma von werf(en)<br />
zugeordnet sind. Der Unterschied zum normalen Paradigma ist <strong>der</strong>, daß dieses ja vollständige<br />
Wortformen und nicht nur Stämme enthält, diese Wortformen und ihre Merkmale hier<br />
jedoch erst durch die <strong>Analyse</strong> bestimmt werden, um die Probleme zu großer Paradigmentabellen<br />
etc. zu vermeiden. Bei den Elementen nichtflektieren<strong>der</strong> Wortklassen ist das reduzierte<br />
Paradigma natürlich trivial, da es nur einen Eintrag enthält. Dadurch, daß das Lexikon<br />
Paradigmen enthält und nicht nur eine Auflistung einzelner Stammformen ist, wird es möglich,<br />
paradigmatische Beziehungen zwischen Stämmen zu repräsentieren. Davon getrennt ist<br />
jedoch die Indexstruktur, die zur <strong>morphologischen</strong> <strong>Analyse</strong> verwendet wird und in Form<br />
eines Automaten vorliegt, <strong>der</strong> in Abschnitt 4.2 genau beschrieben wird.<br />
Unter einer an<strong>der</strong>en Perspektive betrachtet, enthält das Lexikon Listeme im Sinne von Williams/Di<br />
Scuillo (1987); siehe auch Kapitel 3. Listeme sind danach all das, was man im Verlauf<br />
<strong>des</strong> Erwerbs einer Sprache an Vokabular erlernen muß, also neben Wörtern beispielsweise<br />
auch idiomatische Wendungen u.ä.<br />
Hier wird unter Listem folgen<strong>des</strong> verstanden:<br />
• Inhaltstragende Simplexwörter und ihre allomorphen Stämme<br />
• Funktionswörter<br />
• Flexionsaffixe<br />
• Derivationsaffixe<br />
• Zusammengesetzte Wörter, die semantisch verdunkelt, also nicht mehr kompositionell<br />
sind<br />
• Fugenelemente<br />
Zu jedem Element dieser Klassen werden dann die für die <strong>Analyse</strong> notwendigen Eigenschaften<br />
in Form von Merkmalsstrukturen notiert.<br />
Nachfolgend werden noch einige Begriffe erläutert, die im weiteren Verlauf <strong>der</strong> Arbeit eine<br />
Rolle spielen:<br />
92
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Ein Morphem – in üblicher strukturalistischer Weise als kleinste bedeutungstragende Einheit<br />
definiert – kann bei gleichbleiben<strong>der</strong> Bedeutung 2 eine Reihe verschiedener Oberflächenrealisationen,<br />
die sog. (Allo)Morphe, aufweisen, was auch als Allomorphie bezeichnet wird. Unter<br />
Basismorph wird im weiteren ein Stellvertreter aus <strong>der</strong> Menge <strong>der</strong> Allomorphe verstanden,<br />
<strong>der</strong> das Morphem benennt, wozu das kürzeste bzw. dasjenige Allomorph ausgewählt wird,<br />
welches die vergleichsweise allgemeinste Merkmalsbestimmung aufweist.<br />
4.2 Der segmentierende Automat<br />
Der Segmentierungsalgorithmus muß neben seiner Hauptaufgabe – dem effizienten Zerlegen<br />
eines Wortes – noch eine Reihe von weiteren Problemen lösen:<br />
1. Eine Reihe von zusammengesetzten Wörtern wie Staubecken, Wachstube, herzeigen etc.<br />
weist mehr als eine Segmentierung auf. Dies ist z.T. natürlich ein Problem <strong>der</strong> gewählten<br />
Repräsentationsebene – die orthographische Repräsentation ist ärmer als die phonetische<br />
–, stellt sich jedoch auch auf letzterer. Das Problem ist im übrigen keineswegs marginal,<br />
son<strong>der</strong>n ein Standardproblem je<strong>des</strong> Ansatzes <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong>. Es ist<br />
manchmal überraschend, welche sinnvollen und unsinnigen Wortanalysen ein gänzlich<br />
mechanisches Verfahren erzeugt 3 ; dies ist durchaus parallel zu sehen mit dem Phänomen<br />
<strong>der</strong> sog. attachment ambiguities, die sich aufgrund alternativer Anbindungsmöglichkeiten<br />
von Adjunktpräpositionalphrasen ergeben. Ein menschlicher Leser ist sich dieser Ambiguitäten<br />
selten bewußt, da er sie semantisch und pragmatisch auflöst, ein vollständiger<br />
Parser jedoch bringt sie ausnahmslos an den Tag.<br />
2. Komplexe Wörter können Teile enthalten, die nicht im Lexikon aufgeführt sind. Dies<br />
sollte nicht zum Abbruch <strong>der</strong> <strong>Analyse</strong> führen und auch nicht die Erkennung <strong>der</strong> bekannten<br />
Wortteile beeinträchtigen.<br />
3. Morphkonkatenation führt häufig zu phonetischen Än<strong>der</strong>ungen an den Morphgrenzen,<br />
die sich auch orthographisch nie<strong>der</strong>schlagen; so wird beispielsweise bei <strong>der</strong> Präteritumsbildung<br />
von schwachen Verben auf –chn ein e nach dem Stamm eingefügt: rechn + t ⇒<br />
rechnet. Solche Än<strong>der</strong>ungen beschränken sich nicht ausschließlich auf Morphgrenzen,<br />
son<strong>der</strong>n können sich, wie z.B. bei <strong>der</strong> Pluralumlautung von Nomen, ausschließlich beim<br />
Stammvokal bemerkbar machen.<br />
Der nächste Abschnitt stellt ein Automatenmodell vor, das sich für jeden dieser Problembereiche<br />
um eine Lösung bemüht.<br />
4.2.1 Das Automatenmodell<br />
Bei <strong>der</strong> Konzeption <strong>der</strong> Teilkomponente, die die Segmentierung eines möglicherweise komplexen<br />
Wortes in seine Bestandteile vornimmt, waren folgende Kriterien ausschlaggebend:<br />
1. Das <strong>Analyse</strong>modell muß eine Trennung zwischen den verarbeiteten Daten (den Morphen<br />
bzw. Morphemen <strong>der</strong> zu analysierenden Sprache) und dem Algorithmus, <strong>der</strong> die<br />
<strong>Analyse</strong> durchführt, gewährleisten. Auch wenn nicht die For<strong>der</strong>ung erhoben werden<br />
soll, daß das Verfahren sich für alle natürlichen Sprachen eignet, so sollte es zumin<strong>des</strong>t<br />
möglich sein, Sprachen, die dem <strong>Deutschen</strong> hinsichtlich Wortbildung und Flexion ähnlich<br />
sind, durch Austausch <strong>der</strong> Daten (also <strong>des</strong> Lexikons) zu analysieren.<br />
2 Dieses Kriterium ist nicht unproblematisch, da es von <strong>der</strong> „Trennschärfe“ <strong>des</strong> Bedeutungsbegriffs<br />
abhängt, etwa weil die Flexionskategorie „Plural“ Einfluß auf das Denotat eines Nomens nimmt.<br />
3 Beispielsweise die Zerlegung von Rin<strong>der</strong>braten in Rind+erb+rat-en.<br />
93
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
2. Grundlage <strong>der</strong> Segmentierung soll ein wohlverstandenes Automatenmodell sein.<br />
3. Sämtliche mögliche Segmentierungen eines komplexen Wortes sollen gefunden werden.<br />
4. Die Segmentierung soll effizient, d.h. deterministisch und in linearer Zeit durchgeführt<br />
werden.<br />
5. Das Verfahren soll robust sein, d.h. im Fall fehlen<strong>der</strong> Information – also bei Antreffen<br />
unbekannter Wortteile – die <strong>Analyse</strong> nicht scheitern lassen, son<strong>der</strong>n konstruktiv fortsetzen.<br />
6. Alle verfügbaren Informationen – wortsyntaktische und wortsemantische ebenso wie<br />
graphematisch/phonetische – sollen so früh wie möglich dazu verwendet werden, den<br />
<strong>Analyse</strong>durchlauf zu steuern und Alternativen, die letztendlich fehlschlagen, auszuson<strong>der</strong>n.<br />
Kriterium 1 schließt zunächst einmal Verfahren aus, die, wie die in Kapitel 1 beschriebenen<br />
Lemmatisierungsansätze <strong>der</strong> siebziger Jahre, zu analysierende Daten in Form von Spezifikationen<br />
<strong>des</strong> Kontrolflusses fest in ein Programm „hineinverdrahten“. Wie bereits gesagt,<br />
verhin<strong>der</strong>t eine solche Konzeption die Portierung eines <strong>Analyse</strong>moduls von einer Sprache in<br />
eine an<strong>der</strong>e und verbirgt die evtl. vorhandenen Gemeinsamkeiten zwischen den <strong>Analyse</strong>verfahren<br />
verwandter Sprachen.<br />
Kriterium 2 läßt darüber hinaus nur Verfahren zu, die vollständig auf einem <strong>der</strong> bekannten<br />
Automatenmodelle basieren. Die Einhaltung dieses Kriterium hat einige Vorteile. Zum einen<br />
lassen sich präzise Aussagen über die Zeitkomplexität und die Kapazität <strong>des</strong> Verfahrens<br />
treffen, zum an<strong>der</strong>en bieten Automatenmodelle, insbeson<strong>der</strong>e endliche Automaten, die<br />
Möglichkeit <strong>der</strong> Anbindung an die im Bereich <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> überaus erfolgreiche<br />
Two-Level-Morphology. Durch dieses Kriterium werden also zumin<strong>des</strong>t teilweise prozedurale<br />
Ansätze wie <strong>der</strong> von Finkler/Neumann (1986), bei dem die Wortzerlegung durch<br />
einzelsprachliche Regeln vorgenommen wird (Abtrennung <strong>des</strong> Präfixes ge- beim Partizip II<br />
etc.), ausgeschlossen 4 .<br />
Kriterium 3 ist selbstverständlich. Kriterium 4 wendet sich gegen Verfahren, die bei <strong>der</strong><br />
Segmentierung auf allzu naive Algorithmen bzw. Heuristiken zurückgreifen, wie dies z.B.<br />
Daelemans (1987) tut. Die Frage ist, warum man, wenn man schon über ein Lexikon mit den<br />
Morphemen <strong>der</strong> zu behandelnden Sprache verfügt, trotzdem ein komplexes Wort in alle<br />
möglichen Zerlegungen segmentieren muß? M.a.W.: Bei <strong>der</strong> Zerlegung sollte dieses Lexikon<br />
schon aktiv miteinbezogen und nicht nur – gewissermaßen passiv – zum Nachschlagen <strong>der</strong><br />
vorgeschlagenen Segmente herangezogen werden.<br />
Kriterium 5 ist in realen sprachverarbeitenden Anwendungen überaus wichtig, da man –<br />
auch wenn man die Wortbildung einmal ganz außer Acht läßt – kaum hoffen kann, ein vollständiges<br />
Morphemlexikon einsetzen zu können.<br />
Aus dem letzten Kriterium schließlich folgt, daß das Verfahren inkrementell ist, demnach<br />
keine Unterteilung in sequentiell angeordnete <strong>Analyse</strong>stufen stattfindet, beispielsweise erst<br />
Segmentierung, dann (wort–)syntaktische <strong>Analyse</strong> und zuletzt Interpretation.<br />
Das hier vorgestellte <strong>Analyse</strong>modell erfüllt m.E. diese Kriterien. Die Grundidee ist, hier einer<br />
Idee von Aho/Corasick (1975) folgend – nämlich die <strong>der</strong> parallelen Schlüsselwortsuche in<br />
größeren Texten –, daß man die Suche nach im Lexikon verzeichneten Wortbestandteilen in<br />
einem komplexen Wort als ein solches paralleles Suchen nach Schlüsselworten auffaßt. Die<br />
Schlüsselworte sind dabei die verschiedenen Segmente <strong>des</strong> Wortes, das, worin gesucht wird,<br />
ist kein (evtl. sehr großer) Text, son<strong>der</strong>n das zu zerlegende Wort. Es ergibt sich jedoch<br />
4 Der an<strong>der</strong>e Teil <strong>der</strong> Konzeption von Finkler/Neumann (1986) – die Suche in den Endungsbäumen –<br />
entspricht durchaus diesem Kriterium, da solche Bäume im Grunde deterministische, um eine<br />
Ausgabefunktion erweiterte endliche Automaten sind.<br />
94
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
hierbei das Problem, daß das Verfahren von Aho/Corasick nicht garantiert, daß die Segmente<br />
das Gesamtwort partitionieren; es ist vielmehr möglich, daß Segmente sich überlappen,<br />
dies ist ja geradezu <strong>der</strong> prototypische Fall <strong>der</strong> Anwendung dieses Automatentyps.<br />
Formal ist <strong>der</strong> segmentierende Automat durch ein 7-Tupel beschrieben.<br />
Die ersten fünf Tupelkomponenten sind wie beim (deterministischen) endlichen<br />
Automaten definiert:<br />
Σ dem Automatenalphabet (hier also aus den Symbolen <strong>der</strong> Zielsprache Deutsch<br />
{ a,...,z,ä,ö,ü,ß,-} bestehend)<br />
S eine Menge von Zuständen<br />
Q0 q0 ∈ S, dem Anfangszustand <strong>des</strong> Automaten<br />
goto eine (totale) Übergangsfunktion S × Σ � S ∪ { fail }; <strong>der</strong> Funktionswert ist , fail für<br />
alle Symbole aus Σ, für die kein Übergang definiert ist (entspricht <strong>der</strong> δ -Funktion<br />
eines endlichen Automaten)<br />
F F ⊆ S, <strong>der</strong> Menge <strong>der</strong> Endzustände <strong>des</strong> Automaten<br />
Hinzu kommen zwei weitere Funktionen:<br />
ƒ die sog. failure-Funktion S � S<br />
Σ* Σ*<br />
output die Ausgabefunktion oS : � 2 ;<br />
×<br />
die erste Komponente in einem 2-Tupel in output(s) ist <strong>der</strong> Name <strong>des</strong><br />
<strong>morphologischen</strong> Paradigmas, die zweite enthält einen Schlüssel in dieses Paradigma.<br />
Bei trivialen Paradigmen ohne Allomorphie ist die zweite Komponente ε.<br />
Die nachfolgende Abbildung zeigt einen Beispielautomaten nach dem Einfügen <strong>der</strong> Lexeme<br />
tausch- 5 , Tausch, Stau, Staub, staun-, Becken, Ecke, –s– (Fugenelement) und -n (Flexiv). Unterschiede<br />
hinsichtlich Groß- und Kleinschreibung werden hierbei nicht berücksichtigt, da sie<br />
nicht signifikant sind: Einerseits werden normalerweise klein geschriebene Wörter am Satzanfang<br />
groß geschrieben, während das Umgekehrte bei Wörtern/Stämmen gilt, die innerhalb<br />
von komplexen Wörtern stehen.<br />
5 Um das Beispiel einfach zu halten, wird darauf verzichtet, in die Ausgabefunktion ein Schlüsselpaar<br />
aufzunehmen; es wird lediglich das im Automaten repräsentierte Morph angegeben.<br />
95
a) Die Übergangsfunktion goto<br />
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
s 1 2 3 4 5 6 7 8 9 10 11<br />
f(s) 0 0 0 7 0 0 0 1 2 3 13<br />
s 12 13 14 15 16 17 18 19 20 21 22 23<br />
f(s) 23 0 19 20 21 22 23 0 0 0 19 0<br />
b) Die failure-Funktion<br />
s 6 7 10 11 12<br />
output(s) {Tausch, tausch} {s} {Stau} {Staub} {staun, n}<br />
s 17 18 22 23<br />
output(s) {Ecke} {Becken, n} {Ecke} { n}<br />
c) Die Ausgabefunktion (∅ für alle nicht aufgeführten Zustände)<br />
Abb. 4.1: Der Beispielautomat<br />
Die Übergangsfunktion goto realisiert, wie man aus Abb. 4.1 ersehen kann, im wesentlichen<br />
eine Trie-Indexstruktur, mit <strong>der</strong> Ausnahme, daß für alle Symbole, für die es aus q0 (im Beispielfall<br />
Zustand 0) keinen Übergang in einen an<strong>der</strong>en Zustand gibt, ein zyklischer Übergang<br />
nach q0 existiert. Dieser Übergang stellt sicher, daß in jedem Operationszyklus <strong>des</strong><br />
Automaten (s.u.) ein Symbol konsumiert wird, was für die Effizienz <strong>des</strong> Verfahrens von Bedeutung<br />
ist.<br />
Die failure-Funktion ist so konstruiert, daß im Falle einer Sackgasse bei <strong>der</strong> <strong>Analyse</strong> nicht<br />
ganz von vorn begonnen werden muß, son<strong>der</strong>n in einen Zustand übergewechselt werden<br />
kann, <strong>der</strong> einen möglicherweise erfolgreich fortsetzbaren Teil <strong>der</strong> bisherigen <strong>Analyse</strong> reflektiert.<br />
96
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Beispiel 4.1:<br />
Die Zeichenfolge Wohnungstausch soll analysiert werden. Nach dem Finden <strong>des</strong> Segments<br />
Wohnung (dies ist im Automaten nicht gezeigt), befindet sich <strong>der</strong> Automat wie<strong>der</strong> im Zustand<br />
0 und folgt <strong>der</strong> Teilkette stau bis zum Zustand 10. Dieser Zustand weist für das nächste<br />
Symbol (s) keinen Übergang auf, woraufhin die failure-Funktion konsultiert wird, die als<br />
Ergebnis f(10) den Zustand 3 liefert. Der Automat befindet sich nun in einem Zustand, den er<br />
auch erreicht hätte, wenn er vom Zustand 0 ausgehend die Zeichenkette tau gelesen hätte.<br />
Die failure-Funktion kodiert m.a.W., welche Suffixe von Schlüsselwörtern (tau von Stau in<br />
Beispiel 4.1) wie<strong>der</strong>um Präfixe an<strong>der</strong>er Schlüsselwörter (tau von tausch) sind. Hierdurch muß<br />
je<strong>des</strong> Zeichen in <strong>der</strong> Tat nur einmal gelesen werden.<br />
Die Ausgabefunktion output weist jedem Zustand eine möglicherweise leere Menge von<br />
Tripeln <strong>der</strong> Form zu, mit <strong>der</strong> intendierten Bedeutung, daß sich von den Wortpositionen<br />
i bis j ein Segment erstreckt, welches einen Verweis σ ins Lexikon darstellt.<br />
Der Algorithmus, <strong>der</strong> die im Lexikon verzeichneten Segmente eines Wortes findet und <strong>der</strong><br />
verän<strong>der</strong>ten Ausgabefunktion angepaßt ist, ist nachstehend wie<strong>der</strong>gegeben. Ein Operationszyklus<br />
ist hierbei ein einmaliger Durchlauf <strong>der</strong> for-Schleife, umfaßt demnach einen „erfolgreichen“<br />
goto-Übergang und eine Anzahl (möglicherweise null) failure-Übergänge.<br />
Algorithmus 4.1: Suche nach Wortsegmenten<br />
Eingabe: Die zu analysierende Zeichenkette a1a2 ... an<br />
Ausgabe: Eine Menge von Tripeln <strong>der</strong> Form N × Σ* × N, beispielsweise , mit<br />
<strong>der</strong> Bedeutung, daß im Wort ein Segment mit Verweis staub von <strong>der</strong> Wortposition<br />
1 bis zur Position 5 gefunden wurde.<br />
Verfahren begin<br />
result := ∅<br />
state := 0<br />
for i := 1 until n do begin<br />
while goto(state, ai) = fail do<br />
state := f(state)<br />
state := goto(state, ai)<br />
if output(state) ≠ ∅ then begin<br />
for each s ∈ output(state) do<br />
{*1*} result := result ∪ <br />
end<br />
end<br />
return result<br />
end<br />
Die Algorithmen zur Konstruktion <strong>der</strong> Übergangs-, Ausgabe- und failure-Funktion sind in<br />
Anhang A zu finden.<br />
Der Schlüssel zur effizienten Lösung <strong>des</strong> Problems <strong>der</strong> ambigen Zerlegungen ist in erster<br />
Linie das Zusammenspiel von Ausgabefunktion und failure-Funktion. Bei <strong>der</strong> Konstruktion<br />
<strong>der</strong> Ausgabefunktion (siehe Anhang A) findet eine Präkompilation möglicher Ambiguitäten<br />
statt, welche sich anhand <strong>des</strong> Zustands 18 im obigen Beispiel exemplifizieren läßt. Die Wert<br />
von output(18) ist {Becken,n}, was soviel bedeutet wie, daß in Zustand 18 bei Wortposition i<br />
ein Segment mit Verweis -n von i bis i und ein Segment mit Verweis Becken von i – 5 bis i<br />
gefunden wurde. Die Ausgabefunktion enthält diese beiden Zeichenketten, da -n ein echtes<br />
97
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Suffix von Becken ist. Allgemeiner gefaßt enthält die Ausgabefunktion für einen Zustand s<br />
neben dem Eintrag σ, <strong>der</strong> von s charakterisiert wird (s.u.) auch alle echten Suffixe von σ.<br />
Beispiel 4.2: <strong>Analyse</strong> <strong>des</strong> Wortes „Staubecken“<br />
Durchlaufene<br />
Zustandsfolge:<br />
Ausgegebene<br />
Segmente:<br />
0 7 8 9 10 11 13<br />
(=f(11))<br />
14 15 16 17 18<br />
↓ ↓ ↓ ↓ ↓<br />
s Stau Staub Ecke Becken,n<br />
Aho/Corasick (1975) haben gezeigt, daß bei einer Wortlänge von n höchstens 2n Zustände 6<br />
durchlaufen werden, d.h. das Durchlaufen <strong>der</strong> Automatenzustände ist von <strong>der</strong> Ordnung<br />
O(n). Die aufwendigste Operation <strong>des</strong> Algorithmus 4.1 ist die mit { *1* } gekennzeichnete<br />
Zeile. Im schlechtesten Fall muß die Ausgabefunktion für einen Zustand Verweise für alle in<br />
den Automaten eingefügten Morpheme ausgeben, d.h. <strong>der</strong> Algorithmus hat hierfür einen<br />
Zeitbedarf, <strong>der</strong> linear proportional zur Summe <strong>der</strong> Längen aller eingefügten Verweise ist<br />
(Aho/Corasick (1975), Theorem 3), wobei zu beachten ist, daß die Komplexität dieser Ausgabe<br />
nicht von n, <strong>der</strong> Länge <strong>des</strong> zu analysierenden Wortes abhängt. Dieser schlechteste Fall<br />
ist im Fall <strong>der</strong> Anwendung <strong>des</strong> Automaten für die morphologische <strong>Analyse</strong> sehr unwahrscheinlich<br />
(dies hieße nämlich, daß es einen Zustand s gibt, <strong>der</strong> eine Zeichenkette z charakterisiert,<br />
die alle Lexeme <strong>des</strong> <strong>Deutschen</strong> als Suffixe enthält).<br />
Eine weitere Frage ist noch zu klären: Ein Kriterium für die Konzeption <strong>des</strong> <strong>Analyse</strong>modells<br />
war, es auf einem <strong>der</strong> bekannten Automatenmodelle zu basieren, vorzugsweise auf dem<br />
Modell endlicher Automaten. Die failure-Funktion <strong>des</strong> segmentierenden Automaten scheint<br />
nun aus diesem Rahmen herauszufallen. Dies ist jedoch nicht <strong>der</strong> Fall, da es ohne weiteres<br />
möglich ist, den Automaten mit seiner failure-Funktion in einen deterministischen endlichen<br />
Automaten mit Ausgabefunktion umzuwandeln. Der entsprechende Algorithmus hierfür ist<br />
in Anhang A wie<strong>der</strong>gegeben. Der Grund, warum diese Determinisierung <strong>des</strong> Segmentierers<br />
nicht durchgeführt wird, ist <strong>der</strong>, daß sich dadurch die Anzahl <strong>der</strong> Zustandsübergänge stark<br />
erhöhen kann. Dies ist ein Umstand, <strong>der</strong> für das ursprüngliche Problem <strong>der</strong> Suche mit einer<br />
relativen kleinen Menge von Schlüsselwörtern in einem größeren Text ohne Relevanz ist,<br />
beim Problem von sehr vielen Schlüsselwörtern (in <strong>der</strong> Größenordnung einiger zehntausend)<br />
jedoch deutlich zu Buche schlagen kann. Beispiel 4.3 veranschaulicht die deterministische<br />
Version <strong>des</strong> Automaten aus Abb. 4.1. Die Determinisierung kommt durch Ausrechnen<br />
<strong>des</strong> Gesamteffekts <strong>der</strong> failure-Funktion zustande.<br />
Beispiel 4.3: Der Automat aus Abb. 4.1 als deterministischer Automat<br />
Die zu einer Relation umgewandelte δ-Funktion <strong>des</strong> deterministischen Automaten weist bei<br />
einem Alphabet S={ a-z, ä, ö, ü, ß, - } 744 Tupel auf, davon führen 132 zu Zuständen ungleich<br />
0. Demgegenüber enthalten goto- und failure-Funktion <strong>des</strong> Beispielautomaten zusammen 72<br />
Tupel, also ca. 1/10 davon. Die Ausgabefunktion ist in beiden Fällen gleich.<br />
6 Diese Zahl setzt sich zusammen aus n goto–Übergängen und höchstens n Aufrufen <strong>der</strong> failure–<br />
Funktion, da für jeden Zustand s <strong>der</strong> Zustand f(s) dem Startzustand „näher“ ist als s selbst.<br />
98
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Ein Problem <strong>des</strong> Ansatzes scheint zu sein, daß komplexe Worte w in Ketten ασβ partitioniert<br />
werden, wobei σ ein im Lexikon verzeichnetes Morphem ist, α jedoch nicht im Lexikon vorkommt<br />
(β ∈ Σ*), beispielsweise die Zerlegung von Staub in S und taub, wobei S kein Lexikoneintrag<br />
zugeordnet ist. Was hier jedoch wie ein Problem <strong>des</strong> Algorithmus aussieht, erweist<br />
sich als Vorteil, wenn man annimmt, daß es sich bei α um ein zulässiges Morphem <strong>der</strong><br />
zu analysierenden Sprache handelt, welches lediglich im verwendeten Lexikon nicht verzeichnet<br />
ist. Unbekannt sind in diesem Sinne also alle Segmente eines Wortes, die von keiner<br />
Partitionierung <strong>des</strong> Wortes erfaßt werden. Dieses Identifizieren von nicht im Lexikon verzeichneten<br />
Segmenten ist wesentlich für das mitverfolgte Ziel, auch Wörter mit unbekannten<br />
Teilen zu analysieren und wird durch den im nächsten Abschnitt beschriebenen Wortstrukturparser<br />
geleistet.<br />
4.3 Wortstrukturparsing<br />
Der Parser – als zweiter Teilschritt <strong>des</strong> hier vorgestellten <strong>Analyse</strong>verfahrens – erzeugt aus<br />
den gefundenen Wortsegmentierungen die von <strong>der</strong> Wortgrammatik definierten Wortstrukturen.<br />
Zwei Möglichkeiten sind denkbar, diesen Parser in den <strong>Analyse</strong>vorgang zu integrieren:<br />
1. <strong>der</strong> üblichen Konzeption <strong>der</strong> Compilerkonstruktion folgend hat <strong>der</strong> Parser die Hauptkontrolle<br />
und ruft den Segmentierer auf, sobald <strong>der</strong> Parser ein neues Token in seine<br />
<strong>Analyse</strong> zu integrieren hat.<br />
2. <strong>der</strong> Segmentierer hat die Kontrolle über die <strong>Analyse</strong> und übermittelt sukzessiv gefundene<br />
Token an den Parser, <strong>der</strong> damit angefangene <strong>Analyse</strong>n fortzusetzen versucht.<br />
Beide Grundstrategien sind mit einer gewünschten Inkrementalität <strong>des</strong> Gesamtverfahrens<br />
zunächst einmal vereinbar. Allerdings stellt sich bei Möglichkeit 1 das nicht einfach zu lösende<br />
Problem, daß <strong>der</strong> Segmentierer aufgrund seiner parallelen Operationsweise nicht immer<br />
nur ein Token zurückgibt, son<strong>der</strong>n möglicherweise auch mehrere, die in unterschiedliche<br />
Strukturbäume zu integrieren sind. So erscheint es zweckmäßiger, Zuflucht zu Möglichkeit<br />
2 zu nehmen, <strong>der</strong> zumal noch <strong>der</strong> Reiz <strong>des</strong> Unüblichen anhaftet.<br />
Allerdings schränkt diese Entscheidung die anwendbaren Parsstrategien ein. Da nun <strong>der</strong><br />
Segmentierer den Parser steuert – abweichend also von Standardverfahren in vergleichbaren<br />
Problembereichen wie dem Compiling von Programmiersprachen – können nicht mehr alle<br />
Parsverfahren eingesetzt werden. Beispielsweise impliziert eine ausschließlich hypothesengetriebene<br />
Strategie, wie sie das Top-Down-Parsing charakterisiert, daß <strong>der</strong> Parser immer<br />
dann den Scanner zur Rückgabe eines neuen Symbols auffor<strong>der</strong>t, wenn ersterer Regeln angewendet<br />
hat, die auf <strong>der</strong> rechten Regelseite Terminalsymbole enthalten. Sollen Parser und<br />
Scanner bezüglich <strong>der</strong> Steuerung im umgekehrten Verhältnis stehen, kommt nur ein wenigstens<br />
teilweise datengetriebenes (Bottom-up) Verfahren in Frage. Hierbei erzeugt <strong>der</strong> Scanner/Segmentierer<br />
ein neues Symbol, was im Zuge <strong>des</strong> Versuchs, dieses zu integrieren, zu<br />
rekursiv sich fortsetzenden Reduktionen führen kann, die schließlich im Erfolgsfalle beim<br />
Startsymbol enden.<br />
Geeignete Parsverfahren, die den hier gestellten Erfor<strong>der</strong>nissen – zumin<strong>des</strong>t teilweise Bottom-up-Strategie,<br />
Zugriff auf Zustandsinformationen und inkrementelle Vorgehensweise –<br />
entsprechen, sind Chart-Parsing und das auf <strong>der</strong> LR(k)-Technik beruhende Verfahren von<br />
Tomita (vgl. Tomita (1987)). Allerdings müßten auf den ersten Blick beide Verfahren aufgrund<br />
<strong>des</strong> prinzipiell nichtdeterministischen Charakters <strong>des</strong> Zerlegungsprozesses modifiziert<br />
werden, beispielsweise, indem je<strong>der</strong> Zerlegungsalternative ein separater Parser zugeordnet<br />
wird. Da alternative Zerlegungen jedoch häufig gemeinsame Segmente an den glei-<br />
99
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
chen Wortpositionen aufweisen, entsteht hieraus in<strong>des</strong> ein Mehraufwand, <strong>der</strong> jedoch durch<br />
Anwendung <strong>der</strong> Grundidee <strong>des</strong> Chart-Parsings vermieden werden kann. Die Effizienz <strong>des</strong><br />
Chart- bzw. Earley-Parsings ergibt sich schließlich in erster Linie daraus, daß über bereits<br />
analysierte Konstituenten Buch geführt wird. Verwendet man nun einen gemeinsamen Chart<br />
für alle Zerlegungsalternativen, so werden Wortteile, die in mehr als einer Segmentierung<br />
vorhanden sind, auch nur einmal analysiert. Hierzu sind jedoch leichte Än<strong>der</strong>ungen <strong>des</strong><br />
ursprünglichen Chart-Parsing-Algorithmus nötig, die Gegenstand <strong>des</strong> folgenden Abschnitts<br />
sind.<br />
4.3.1 Das Parsverfahren<br />
Wie zuvor erwähnt, wird die strukturelle <strong>Analyse</strong> durch einen Bottom-Up-Chart-Parser (<strong>der</strong><br />
genau genommen ein Left-Corner-Parser mit Speicherung <strong>der</strong> Teilresultate ist) geleistet, <strong>der</strong><br />
den Zerlegungen auf <strong>der</strong> Basis einer typisierten Unifikationsgrammatik, wie sie in Kapitel 2<br />
beschrieben wurde, Strukturen zuordnet.<br />
Wie bei allen Chart-Parsern lassen sich drei Grundoperationen – Shift, Expand und Complete<br />
– ausmachen, die jeweils auf eine zentrale Funktion Closure() zurückgreifen, die abhängig<br />
vom Status <strong>der</strong> Kante (aktiv bzw. passiv) die weiteren Schritte (Expansion o<strong>der</strong> Kombination)<br />
bestimmt. Zur Handhabung strukturierter Kategorien werden die üblichen Erweiterungen<br />
vorgenommen. Die Darstellungsform <strong>der</strong> Algorithmen lehnt sich an die in Naumann/Langer<br />
(1994:252ff.) an. Um den Beson<strong>der</strong>heiten <strong>des</strong> Wortstrukturparsings gerecht zu<br />
werden, wurde vor allem die Shift()-Funktion modifiziert.<br />
Eine Kante ist gegeben durch ein 4-Tupel<br />
< i, j, A → α • β, Condition ><br />
wobei i und j die Anfangs- bzw. Endpositionen <strong>des</strong> bereits analysierten Teils <strong>der</strong> Konstituente<br />
und A→ α β eine Regel <strong>der</strong> Unifikationsgrammatik ist, von <strong>der</strong> α bereits erkannt wurde.<br />
Da im verwendeten Grammatikformalismus (vgl. Kapitel 2) Regeln mit Bedingungen<br />
attribuiert werden können, die einerseits die Anwendbarkeit einer Regel prüfen und<br />
an<strong>der</strong>erseits Variablenbindungen vornehmen, wird in <strong>der</strong> letzten Komponente <strong>des</strong> Tupels<br />
ein Verweis auf die mit <strong>der</strong> Regel A→ α β verknüpfte Bedingung gespeichert. Diese Bedingungen,<br />
die en detail erst im nächsten Kapitel besprochen werden, dienen dazu, allgemeine<br />
Aufbauprinzipien deutscher Wortstrukturen nichtredundant in die <strong>Analyse</strong> mit einzubeziehen.<br />
100
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Algorithmus 4.2: Inkrementelles, Left-Corner-Chart-Parsing<br />
Eingabe: Ein Wortsegment s=<br />
Daten: Ein Chart Chart, vor Beginn <strong>der</strong> <strong>Analyse</strong> ist Chart = ∅<br />
Eine Unifikationsgrammatik G<br />
Ein als zweistellige Relation Lex = Σ* × Desc gegebenes Lexikon<br />
Ausgabe: Ein aktualisierter Chart<br />
Verfahren procedure Shift()<br />
begin<br />
Chart := Chart ∪ UnknownSegments(i)<br />
for each ∈ Lex (B is a lexical category) do<br />
Closure()<br />
end;<br />
procedure Closure(k: )<br />
begin<br />
if passive_edge(k) then begin<br />
k = <br />
/* apply Condition to the completed production */<br />
k’ := Evaluate()<br />
if k’ = ? then<br />
return<br />
end<br />
else k’ := k<br />
Result := ∅<br />
if ¬∃e ∈ Chart such that e subsumes k’ then begin<br />
/* make a copy of the edge */<br />
k’’ := copy_edge(k’)<br />
/* add the copy to the Chart */<br />
Chart := Chart ∪ { k’’ }<br />
if passive_edge(k’’) then begin<br />
Expand(k’’)<br />
Complete(k’’)<br />
end<br />
end<br />
end;<br />
procedure Expand()<br />
begin<br />
for each ∈ R do begin<br />
A* := A t A’<br />
if A* ≠ ? then<br />
Closure()<br />
end<br />
end;<br />
procedure Complete(): <br />
begin<br />
for each ∈ Chart do begin<br />
A* := A t A’<br />
if A* ≠ ? then<br />
Closure()<br />
end<br />
end;<br />
101
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Interessanterweise muß das Standardverfahren <strong>des</strong> Chart-Parsings nicht geän<strong>der</strong>t werden,<br />
um mit ambigen Zerlegungen umgehen zu können. Die Funktion Complete() bedient sich<br />
nur <strong>des</strong> Kriteriums, daß sich ein Segment, welches zur Erweiterung einer aktiven Kante untersucht<br />
wird, unmittelbar anschließt an die von <strong>der</strong> Mutterkategorie dieser Kante dominierte<br />
Folge von Terminalsymbolen. Ob daneben noch an<strong>der</strong>e, überlappende Segmente existieren,<br />
spielt hierbei keine Rolle.<br />
Die Funktion Shift() erhält ein durch den Segmentierer identifiziertes Wortsegment7 , das in den aktuellen Chart integriert werden soll. Bevor dies jedoch geschieht,<br />
wird eine Funktion UnknownSegments() aufgerufen, die versucht, ausgehend von <strong>der</strong> Position<br />
<strong>des</strong> gefundenen Segments eventuell nötige Segmente vom Typ „unbekannt“ einzusetzen,<br />
die es erlauben, auch dann eine <strong>Analyse</strong> für das komplexe Wort zu finden, wenn nicht<br />
alle Teile im Listemlexikon verzeichnet sind. Diese Funktion wird weiter unten näher erläutert.<br />
Closure() testet eine übergebene Kante zunächst daraufhin, ob sie passiv<br />
ist. Ist das <strong>der</strong> Fall, so wird eine evtl. für sie definierte Bedingung ausgewertet, die, falls<br />
sie scheitert, zur Ausson<strong>der</strong>ung <strong>der</strong> Kante führt, an<strong>der</strong>nfalls jedoch Einfluß auf Variablenbindungen<br />
und -koreferenzen innerhalb <strong>der</strong> Merkmalsstrukturen in <strong>der</strong> Kante haben kann.<br />
Eine Einschränkung gegenüber den im Grammatikformalismus möglichen Bedingungen<br />
liegt darin, daß sie mit einer Kante selbst und nicht mit einzelnen Positionen innerhalb einer<br />
Kante verknüpft sind. Somit werden solche Bedingungen erst dann ausgewertet, wenn eine<br />
passive Kante dem Chart hinzugefügt wird, m.a.W. die zugrundeliegende Regel vollständig<br />
abgearbeitet wurde. Eine an<strong>der</strong>e Vorgehensweise wäre durchaus möglich, wenn auch aufwendiger<br />
und für die zu verarbeitende Grammatik, die im wesentlichen binäre Regeln enthält,<br />
nicht beson<strong>der</strong>s sinnvoll.<br />
Gelingt anschließend <strong>der</strong> Subsumptionstest, <strong>der</strong> bei Unifikationsgrammatiken das Kriterium<br />
<strong>der</strong> kategorialen Identität ersetzt, so fügt <strong>der</strong> Parser eine Kopie dieser Kante dem Chart<br />
hinzu und prüft dann (erneut), ob die Kante passiv ist. Kann dies positiv entschieden werden,<br />
so wird durch Expand() versucht, Regeln zu finden, die das Symbol auf <strong>der</strong> linken Regelseite<br />
als linke Ecke aufweisen. Expand() ist damit verantwortlich für den Aufbau „höherer“<br />
Strukturen.<br />
Complete() schließlich versucht, zu einer passiven Kante solche aktive zu finden, die die passive<br />
Kante integrieren können. Complete() kann zu nicht-lexikalischen passiven Kanten führen,<br />
die dann via Expand() den Strukturaufbau in Richtung <strong>des</strong> Startsymbols vorantreiben.<br />
Um Strukturen effizient im Chart zu repräsentieren und sie später aus dem Chart zu rekonstruieren,<br />
bedient man sich <strong>der</strong> üblichen Techniken <strong>des</strong> structure sharings und local ambiguity<br />
packings (vgl. hierzu beispielsweise Naumann/Langer (1994: 140f, 202f)). Parsergebnisse<br />
werden<br />
als 6-Tupel repräsentiert.<br />
Beispiel 4.4:<br />
Ein Chart-Eintrag<br />
<br />
repräsentiert eine passive Kante mit Mutterkategorie complex_stem 8 und zwei Töchtern <strong>der</strong><br />
Kategorie simple_stem. Diese Töchter, zusammen mit den Positionsinformationen, verweisen<br />
auf an<strong>der</strong>e Kanten im Chart und werden verwendet, um aus dem Chart Strukturbäume<br />
zu generieren.<br />
7 Der Anfangsindex <strong>des</strong> Segments wird um eins vermin<strong>der</strong>t, da beim Chart-Parsing die<br />
Symbolzwischenräume und nicht die Symbole selbst gezählt werden.<br />
8 Die Hierarchie <strong>der</strong> <strong>morphologischen</strong> Typen ist Gegenstand <strong>des</strong> nächsten Kapitels.<br />
102
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Beispiel 4.5 verdeutlicht das Zusammenspiel von Segmentierer und Parser anhand eines<br />
Wortes mit mehr als einer Zerlegung.<br />
Beispiel 4.5: Strukturanalyse von „Staubecken“.<br />
Zur Vereinfachung <strong>des</strong> Beispiels wird angenommen, daß die Zerlegung 4a) aus Beispiel 4.2,<br />
die ein unbekanntes Segment „b“ enthält, nicht in die Strukturanalyse gelangt (vgl. auch<br />
Abschnitt 4.3.2). Der <strong>Analyse</strong> zugrundegelegt wird eine stark idealisierte Grammatik mit den<br />
beiden Regeln<br />
N → N N und N → N Naf<br />
wobei ein Nichtterminal X die Merkmalsstruktur [SYN:HEAD:CAT:X] abkürzt.<br />
Gefundene Segmente Hinzugefügte Kanten Operationen<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
103<br />
Shift<br />
Expand<br />
Complete<br />
Shift<br />
Expand<br />
Complete<br />
Shift<br />
Expand<br />
Complete<br />
Expand<br />
Shift<br />
Expand<br />
Complete<br />
Expand<br />
Shift<br />
Complete
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Die Hauptfunktion <strong>des</strong> Parsers ist durch folgende Funktion Parse() gegeben:<br />
Eingabe Das zu analysierende Wort Word<br />
Ausgabe Eine Menge von <strong>Analyse</strong>n<br />
Datenstrukturen<br />
Eine Wortgrammatik WordGrammar<br />
Eine Chart-Datenstruktur Chart<br />
Ein Segmentierer Segmentizer<br />
Verfahren function parse(Word:): <br />
begin<br />
Chart.Init_Chart<br />
% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />
Symbollist := atom_to_atomlist(Word)<br />
% shift the found segments into the chart<br />
Segmentizer.Insert_segments_into_chart(Symbollist,Word)<br />
% check whether it's necessary to insert "unknown"-segments<br />
% after the last lexical segment<br />
Chart.Complete_Chart(Word),<br />
% find all edges spanning the whole word<br />
return(Chart.Generate_Structures(WordGrammar.Startcat,|Word|)).<br />
end<br />
Die Funktion Insert_segments_into_chart() ist im wesentlichen durch Algorithmus 4.1 gegeben;<br />
lediglich die durch {*1} markierte Zeile wird durch einen Shift()-Aufruf für das Segment<br />
(s.o.) ersetzt. Die Funktion Complete_Chart() fügt weitere "unknown"-Segmente in den Chart<br />
ein, für den Fall, daß das zuletzt gefundene Segment kein Suffix <strong>des</strong> zu analysierenden<br />
Wortes ist. Generate_Structures() schließlich erzeugt alle möglichen <strong>Analyse</strong>n aus dem Chart.<br />
Eine Prolog-Implementierung dieses Verfahrens befindet sich in Anhang C.<br />
4.3.2 Behandlung unbekannter Segmente<br />
Die Grundidee, Strukturanalyse eines Wortes auch dann fortzuführen, wenn Teile von ihm<br />
nicht im Lexikon aufgeführt sind, besteht darin, diese Wortteile als „unbekannt“ zu markieren,<br />
sie mit einer unterspezifizierten grammatischen Kategorie zu versehen und sie dann<br />
während <strong>des</strong> Wortstrukturparsings wie „normale“ lexikalische Segmente zu behandeln.<br />
Aufgrund <strong>der</strong> Nichtdirektionalität <strong>des</strong> gewählten Grammatikformalismus können diese<br />
speziellen Kanten dann mit Hilfe ihres Kontextes im Wort, <strong>der</strong> angewandten grammatischen<br />
Regeln und Prinzipien weiter instantiiert werden, so daß sie, wenn diese Instantiierung ein<br />
bestimmtes Maß erreicht hat, in einen speziellen Teil <strong>des</strong> Lexikons, <strong>der</strong> Morphemhypothesen<br />
enthält, aufgenommen werden können.<br />
Wie im nächsten, <strong>der</strong> Wortgrammatik gewidmeten Kapitel noch näher ausgeführt wird, sind<br />
im Lexikon alle Elemente <strong>der</strong> offenen Klassen, also <strong>der</strong> Klassen, die in <strong>der</strong> Hauptsache an<br />
<strong>der</strong> Wortbildung beteiligt sind, mit <strong>der</strong> <strong>morphologischen</strong> Kategorie simple_stem markiert, so<br />
daß auch unbekannte Wortteile dieser Kategorie zugeordnet werden. Der Grund für die<br />
Wahl gerade dieser Kategorie liegt natürlich darin, daß sich alle an<strong>der</strong>en Wortbildungskategorien<br />
wie Präfixe, Suffixe und Flexive ohne großen Aufwand vollständig im Lexikon erfassen<br />
lassen.<br />
104
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Zunächst soll aber definiert werden, was unter einer Segmentierung verstanden werden soll:<br />
Definition 4.1: (Vollständige) Segmentierung<br />
Eine Segmentierung Ω einer Zeichenkette w ist eine Zerlegung s1s2...sk = w (k ≥ 1). Eine Segmentierung<br />
bzgl. eines Lexikons Lex = Σ* × Desc heißt vollständig, wenn für alle si gilt:<br />
∃E ∈ Lex (abgekürzt im folgenden mit si ∈ Lex). Ein Segment si heißt unbekannt bzgl.<br />
einer Segmentierung Ω = s1s2...sk, wenn<br />
a) si ∉ Lex<br />
b) i = 1 o<strong>der</strong> si-1 ∈ Lex<br />
c) i = k o<strong>der</strong> si+1 ∈ Lex<br />
d) si keinen Teilstring z ∈ Lex enthält.<br />
Für „unbekannt“-Segmente soll im folgenden die Kurzformen U-Segment bzw. U-Kante<br />
verwendet werden; für im Lexikon enthaltene Wortteile entsprechend L-Segment (L-Kante).<br />
Bedingungen b) und c) stellen sicher, daß U-Segmente entwe<strong>der</strong> an den Wortenden auftreten<br />
o<strong>der</strong> an im Lexikon verzeichnete Segmente angrenzen. Bedingung d) soll gewährleisten, daß<br />
nicht "unnötig" lange Segmente als "unbekannt" postuliert werden, beispielsweise ein<br />
Kompositum AB, wenn A und B im Lexikon aufgeführt sind, AB jedoch nicht.<br />
Segmente für unbekannte Wortteile werden in den Chart eingetragen, nachdem ein weiteres<br />
Wortsegment gefunden wurde, das sich nicht an alle bereits bestehenden Segmentierungen<br />
im Chart anschließen läßt:<br />
Endpunkte bereits Neu gefundenes<br />
bestehen<strong>der</strong> Segmentierungen Wortsegment<br />
Abb. 4.2: Einfügen neuer Wortsegmente<br />
U-Segmente dienen also dazu, die „Lücken“ zwischen im Lexikon aufgeführten Wortteilen<br />
zu schließen und werden nach folgendem Verfahren eingefügt:<br />
105
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Algorithmus 4.3: Einfügen von im Lexikon nicht verzeichneter Wortsegmente 9<br />
Eingabe: Die Anfangsposition p <strong>des</strong> zuletzt gefundenen Wortsegment <br />
Ausgabe: Eine Menge von „unknown“- Kanten<br />
Daten: Das zu analysierende Wort w = a1a2...ak<br />
Verfahren<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
13<br />
14<br />
15<br />
function UnknownSegments(): <br />
begin<br />
Q = { p }; Result = ∅; done = false<br />
Ordne alle Kanten k mit end(k) < p in bzgl. end(k) absteigen<strong>der</strong> Reihenfolge.<br />
while ¬done<br />
k sei eine Kante mit end(k) < p;<br />
wenn es einen Pfad von end(k) zu einem s ∈ Q gibt<br />
dann done := true<br />
sonst<br />
U_Segment := < end(k), unknown(ak+1...ap), p ><br />
wenn U_Segment alle heuristischen Tests erfolgreich passiert<br />
dann<br />
Result := Result ∪ { U_Segment }<br />
Q := Q ∪ { end(k) }<br />
return(Result)<br />
end<br />
Der Algorithmus prüft also ausgehend von <strong>der</strong> Anfangsposition <strong>des</strong> gerade eingefügten<br />
Wortsegments alle Segmente, die davor enden. Dies passiert solange, wie es keinen Pfad<br />
vom Ende <strong>des</strong> gerade betrachteten Segments zu einem <strong>der</strong> bereits verarbeiteten gibt, <strong>der</strong>en<br />
Endpositionen in <strong>der</strong> Menge Q gespeichert werden.<br />
Die Behauptung ist nun, daß jede Segmentierung, die durch Algorithmus 4.3 um U-Segmente<br />
ergänzt wurde, die Bedingungen von Definition 4.1 erfüllt. Darüber hinaus muß gezeigt<br />
werden, daß das Gesamtverfahren alle Segmentierungen herstellt, die Definition 4.1<br />
Genüge leisten.<br />
Zu zeigen ist daher folgen<strong>des</strong>:<br />
a) Algorithmus 4.3 erzeugt keine aufeinan<strong>der</strong>folgenden U-Segmente U1 und U2 mit<br />
start(U2) = end(U1).<br />
b) es wird kein U-Segment eingefügt, so daß ap+1...aq ein L-Segment<br />
enthält.<br />
c) Algorithmus 4.3 ist vollständig, erzeugt also alle möglichen Segmentierungen nach Def.<br />
4.1.<br />
Zu a): Angenommen, Algorithmus 4.3 versucht, eine U-Kante zwischen k‘ und n einzufügen.<br />
Position k‘ ist demnach unverbunden mit n und allen Endpunkten von Kanten zwischen k‘<br />
und n. Das Segment von n zu n‘ sei das gerade einzufügende L-Segment (d.h. p=n) und die<br />
Kante von k zu k‘ sei ebenfalls eine U-Kante.<br />
(1)<br />
k k‘ n n‘<br />
9 start(k) und end(k) sind Funktionen, die zu einer gegebenen Kante k jeweils <strong>der</strong>en Start- bzw. End-<br />
punkt zurückgeben.<br />
106
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Die Kante von k nach k‘ kann keine U-Kante sein. Wäre sie es, dann hätte <strong>der</strong> Algorithmus<br />
zuvor eine L-Kante von k‘ zu einer Position l mit k‘< l ≤ n eingefügt, da U-Kanten immer vor<br />
den gerade gefundenen L-Segmenten eingefügt werden. Dies wi<strong>der</strong>spricht aber <strong>der</strong> Annahme,<br />
daß es keinen Pfad von k‘ zu einer Position l zwischen k‘ und n gibt, so daß Algorithmus<br />
4.3 die Zeilen 9-13 nicht erreicht hätte. Demnach ist die Kante von k nach k‘ eine L-<br />
Kante.<br />
Zu b): es wird kein U-Segment eingefügt, so daß ap+1...aq ein L-Segment<br />
enthält. Angenommen, eine gerade eingefügte U-Kante U von k bis k‘ enthielte ein L-<br />
Segment L von n zu n‘. In Abhängigkeit von <strong>der</strong> Position von L bzgl. U ergeben sich vier<br />
Fälle: a) n = k, n‘= k‘ b) n = k, n‘ < k‘ c) n > k, n‘ = k‘ und d) n > k, n‘ < k‘. Alle Möglichkeiten<br />
lassen sich mit dem gleichen Argument wie eben ausschließen, so daß L keine Teilkette von<br />
U sein kann.<br />
Zu c), Vollständigkeit: es reicht aus, folgenden Grenzfall zu betrachten; die an<strong>der</strong>en folgen<br />
aus <strong>der</strong> Transitivität <strong>der</strong> „verbunden“-Relation. Angenommen <strong>der</strong> Chart enthielte zwei L-<br />
Kanten L1 = (k , k‘) und L2 = (k‘‘, k‘‘‘) (k‘ < k‘‘) . L2 sei das zuletzt gefundene Wortsegment, es<br />
gibt keine U-Kante von k‘ nach k‘‘ und kein weiteres L-Segment zwischen L1 und L2:<br />
(2)<br />
k k‘ n k‘‘ k‘‘‘<br />
Wenn Algorithmus 4.3 keine U-Kante zwischen k‘ und k‘‘ eingefügt hat, dann muß sich dazwischen<br />
ein Knoten n mit einer Kante (n, k‘‘) befinden, da das Verfahren beim ersten mit k‘‘<br />
über einen Pfad verbundenen Knoten (also n) anhält. Diese Kante (n, k‘‘) kann keine L-Kante<br />
sein, da zwischen L1 und L2 laut Annahme keine weitere L-Kante „interveniert“. Angenommen<br />
also, sie wäre also eine U-Kante. Dann muß es aber noch eine weitere L-Kante k‘ – n<br />
geben, für die die U-Kante (n, k‘‘) eingefügt wurde, als p im Algorithmus 4.3 gleich k‘‘ war –<br />
ein weiterer Wi<strong>der</strong>spruch zu <strong>der</strong> Annahme, daß sich zwischen L1 und L2 keine L-Kanten befinden.<br />
Hierdurch ist gezeigt worden, daß es in Algorithmus 4.3 ausreicht, das Einfügen von U-<br />
Kanten beim ersten „verbundenen“ Knoten zu beenden.<br />
4.3.2.1 Verfeinerungen<br />
Algorithmus 4.3 stellt zwar u.U. durch U-Segmente „aufgefüllte“ Segmentierungen her, behandelt<br />
aber alle L-Segmente formal gleich, d.h. beachtet nicht, ob es sich bei L-Segmenten,<br />
für die eine U-Kante eingeführt wird, um Stämme o<strong>der</strong> Affixe handelt. Hierdurch kann es in<br />
manchen Fällen zum Einfügen nicht angemessener U-Kanten kommen.<br />
Beispiel 4.5:<br />
Das Wort Baustein soll analysiert werden, wobei Bau und das Fugenelement s im Lexikon<br />
verzeichnet sind, Stein jedoch nicht. Vor <strong>der</strong> Komplettierung <strong>des</strong> Charts durch<br />
Complete_Chart() in <strong>der</strong> Funktion Parse() enthält <strong>der</strong> Chart die partielle Segmentierung<br />
<br />
Eine U-Kante wird eingefügt, was hier jedoch nicht gewünscht ist.<br />
107
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Der Grund hierfür ist natürlich, daß das Fugenelement s zufällig ein Präfix <strong>des</strong> eigentlich als<br />
unbekannt anzusetzenden Wortteils stein ist. Darüber hinaus kann <strong>der</strong> Fall eintreten, daß<br />
Kandidaten für U-Kanten, die nicht den weiter unten dargelegten heuristischen Tests Genüge<br />
tun, erst gar nicht in den Chart eingefügt werden, mit dem Ergebnis, daß die gesamte<br />
<strong>Analyse</strong> durch den Chartparser scheitert.<br />
Es ist demnach wünschenswert, zwischen Affixen und Stämmen eine Gewichtung vorzunehmen.<br />
Hierzu ist eine Än<strong>der</strong>ung an Definition 4.1 d) vorzunehmen:<br />
(3)<br />
si keinen Teilstring z ∈ Lex enthält, so daß die z zugeordnete Beschreibung Desc von<br />
simple_stem subsumiert wird.<br />
Algorithmus 4.3 ist dann entsprechend so anzupassen, daß er auf <strong>der</strong> Suche nach Anschlußpunkten<br />
alle Kategorien bis auf solche vom Typ simple_stem „überspringt“.<br />
Weiterhin kann man Heuristiken einsetzen, um die Anzahl <strong>der</strong> eingefügten U-Kanten zu<br />
minimieren; schließlich bedeutet jede solche Kante für den Parser einen erhöhten <strong>Analyse</strong>aufwand.<br />
Alle in Zeile 9 <strong>des</strong> Algorithmus postulierten Segmente werden daher einer zweistufigen<br />
heuristischen Filterung unterworfen, die unplausible Kandidaten zurückweist:<br />
1. Enthält das Lexikon Elemente <strong>der</strong> geschlossenen Klassen (also Flexive, Affixe etc.) vollständig,<br />
so kann ein unbekannter Wortteil einer <strong>der</strong> drei Hauptklassen zugeordnet werden,<br />
die an <strong>der</strong> Wortbildung partizipieren – Nomen, Verben und Adjektive. Führt man<br />
zudem eine Min<strong>des</strong>tlänge für unbekannte Teile ein - unter <strong>der</strong> Voraussetzung, daß Listeme<br />
mit kleinerer Länge sämtlich im Lexikon verzeichnet sind, kann man das Postulieren<br />
„zu kurzer“ Segmente vom Typ unbekannt verhin<strong>der</strong>n.<br />
2. Die Graphemstruktur unbekannter Wortteile muß natürlich den Regularitäten <strong>des</strong> Silben-<br />
und Wortaufbaus im <strong>Deutschen</strong> unterliegen, die am besten wie<strong>der</strong>um in Form eines o<strong>der</strong><br />
mehrerer endlicher Automaten (o<strong>der</strong> Two-Level-Transducer) repräsentiert werden, womit<br />
dann vorgeschlagene Segmente mit unzulässigen Konsonantenabfolgen usw. unterdrückt<br />
werden können. Dieses Vorgehen kann natürlich nicht exakt sein, da <strong>der</strong> unbekannte<br />
Wortteil selbst wie<strong>der</strong>um komplex sein kann, ohne daß seine Teile im Lexikon<br />
stehen. An den Morphgrenzen zwischen diesen Teilen sind jedoch Laut- und indirekt<br />
damit Graphemkombinationen erlaubt, die innerhalb eines Simplexwortes nicht möglich<br />
wären. Dem könnte damit begegnet werden, daß man einen Automaten einsetzt, <strong>der</strong> den<br />
Silbenaufbau deutscher Wörter korrekt abbildet und <strong>der</strong> ε-Übergänge o<strong>der</strong> Übergänge,<br />
die mit Fugensymbolen etikettiert sind von seinen Endzuständen in den Startzustand besitzt.<br />
Ein solche Automat akzeptiert somit Folgen von Simplexwörtern, <strong>der</strong>en Teile untereinan<strong>der</strong><br />
möglicherweise durch Fugensymbole getrennt sind. Die einfachste Möglichkeit<br />
besteht jedoch darin, eine vollständige Liste <strong>der</strong> Silben im <strong>Deutschen</strong> heranzuziehen und<br />
damit zu überprüfen, ob das vorgeschlagene Segment aus einer Folge dieser Silben besteht.<br />
Hierbei wird jedoch außer Acht gelassen, daß nicht alle Silben an allen Positionen<br />
im Wort auftreten können. Eine weitere Variante, die bei <strong>der</strong> Implementierung <strong>des</strong> hier<br />
vorgestellten Systems ebenfalls weiter verfolgt wurde, ist die, aus einem in maschinenlesbarer<br />
Form vorliegenden Lexikon – beispielsweise <strong>der</strong> CELEX-Datenbank (Baayen et<br />
al. (1993)) alle monomorphematischen Stämme und Wurzeln zu extrahieren und in Form<br />
eines Tries zum Überprüfen von als unbekannt postulierten Wortsegmenten zu verwenden.<br />
Dies engt die Hypothesen auf tatsächlich vorkommende Stämme ein, ohne daß für<br />
jeden dieser Stämme ein voll ausdifferenzierter Lexikoneintrag vorliegen müßte. Wählt<br />
man diesen Weg, so gibt es allerdings noch eine effizientere Alternative. Man könnte alle<br />
Simplexwörter, für die kein Lexikoneintrag existiert, ebenso gleich in den segmentieren-<br />
108
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
den Automaten einfügen, so daß <strong>der</strong> Schritt <strong>des</strong> Postulierens von „unbekannt“-Segmenten<br />
(beinahe) gänzlich unnötig wird.<br />
Diese Heuristiken garantieren in den meisten Fällen ein erfolgreiches Abschließen <strong>der</strong> <strong>Analyse</strong>,<br />
da in jedem Fall zwischen dem „letzten“ Segment im Chart mit <strong>der</strong> Kategorie<br />
simple_stem und dem gerade gefundenen Segment ein „unbekannt“-Segment eingesetzt<br />
wird. Scheitern kann diese Strategie nur dann, wenn sich das „unbekannt“-Segment strukturell<br />
nicht integrieren läßt, was angesichts <strong>des</strong> Aufbaus <strong>der</strong> Wortgrammatik eher unwahrscheinlich<br />
ist.<br />
Trotz aller Filterung legt das Verfahren doch noch ein gewissen Maß an Übergenerierung an<br />
den Tag, die vor allem durch unplausible „unbekannt“-Segmente bedingt ist. Eine mögliche<br />
heuristische Bewertungsfunktion von unterschiedlichen Segmentierungen könnte daher<br />
folgen<strong>der</strong>maßen aussehen:<br />
1. Ziehe Segmentierungen mit weniger Segmenten solchen mit mehr Segmenten vor.<br />
2. Weisen zwei Segmentierungen die gleiche Anzahl von Segmenten auf, dann präferiere<br />
diejenige mit <strong>der</strong> kleineren Zahl unbekannter Segmente.<br />
Eine geringere Anzahl von Segmenten bedeutet eine Maximierung <strong>der</strong> Länge <strong>der</strong> einzelnen<br />
Segmente und hat eine effizientere Strukturanalyse zur Folge. Zudem hat dies Vorteile bei<br />
zusammengesetzten Lexikalisierungen (Beispiel: Geizhals), wenn alle ihre Teile im Lexikon<br />
aufgeführt sind, da dann die lexikalisierte Lesart präferiert wird.<br />
Die zweite Heuristik, die Präferenz von Zerlegungen mit weniger unbekannten Teilen, führt<br />
weiterhin zur Reduzierung von Ambiguitäten, da <strong>der</strong> „unbekannt“-Segmenten zugeordnete<br />
Lexikoneintrag (vgl. Kapitel 5) naturgemäß hochgradig unterspezifiziert ist.<br />
Zur Erhaltung eines inkrementellen Verfahrens ist es jedoch notwendig, diese eher globalen<br />
Kriterien einer lokalen Verwendung zugänglich zu machen. Der geeignete Platz hierfür ist<br />
<strong>der</strong> Complete()-Schritt von Algorithmus 4.2, in dem eine passive Kante dazu verwendet wird,<br />
aktive Kanten weiter zu vervollständigen. Hierzu muß die Reihenfolge, mit <strong>der</strong> aktive<br />
Kanten betrachtet werden, so geän<strong>der</strong>t werden, daß solche mit weniger unbekannten Segmenten<br />
zunächst den Vorzug erhalten, um auf diese Weise ein Best-First-Suchverfahren zu<br />
realisieren. Da Algorithmus 4.2 ansonsten eine Tiefensuche durchführt, ist garantiert, daß<br />
solche Kanten Teil von denjenigen zuerst erzeugten Strukturen werden, die den Chart so<br />
weit wie möglich abdecken.<br />
Interessant sind solche Heuristiken jedoch nur, wenn man nicht an einer vollständigen Ausgabe<br />
aller <strong>Analyse</strong>n <strong>des</strong> Wortes interessiert ist.<br />
4.4 Behandlung <strong>der</strong> Allomorphie<br />
Das bisher entwickelte Verfahren segmentiert Wörtern effizient, bezieht dabei jedoch nur die<br />
orthographische Ebene mit ein und verweist die Behandlung <strong>der</strong> regelmäßigen Allomorphie<br />
10 letztendlich an das Lexikon. Dies ist natürlich aus zwei Gründen unbefriedigend:<br />
Zum einen geht durch bloße Auflistung <strong>der</strong> Allomorphe <strong>der</strong> Regelcharakter solcher Modifikationen<br />
verloren, zum an<strong>der</strong>en verzichtet man auf eine Informationsquelle, die bei unbekannten<br />
Wortteilen zur Einengung <strong>der</strong> Hypothesenmenge führen könnte.<br />
10 Hierzu gehören phonetische Än<strong>der</strong>ungen wie beispielsweise Umlautung, e-Epenthese wie auch<br />
rein orthographische Modifikationen wie ß → ss bei <strong>der</strong> Pluralbildung (z.B. Prozeß - Prozesse)<br />
109
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Ein geeigneter Kandidat zur Lösung dieses Mißstands ist die Two-Level-Morphology (s. a. Kapitel<br />
1) in einer ihrer elaborierten Varianten, beispielsweise <strong>der</strong> von Trost (1990) - m.E. <strong>der</strong><br />
beste Vorschlag zur engen Kopplung von morphotaktischen und phonetischen <strong>Analyse</strong>komponenten.<br />
Wie bereits beschrieben, arbeitet dieser Ansatz mit Regeln, die zwischen<br />
konkreter Wortrealisierung und den zugrundeliegenden Morphemen vermitteln und in 2-<br />
Band-Transducer umgesetzt werden. Die Neuerung von Koskenniemi (1984) gegenüber früheren<br />
Ansätzen war die, die einzelnen Transducer aufgrund ihrer relativen Unabhängigkeit<br />
parallel zu schalten, so daß sich schematisch folgen<strong>des</strong> Bild ergibt:<br />
Oberflächenband<br />
a<br />
T T .... T<br />
1 2 n<br />
....<br />
b<br />
Lexikonband<br />
Abb. 4.3: Parallel geschaltete Transducer<br />
Eine Oberflächenform, d.h. eine Zeichenkette auf dem Oberflächenband, wird dann akzeptiert,<br />
wenn alle Automaten sich nach dem Lesen <strong>der</strong> Symbolkette in einem Endzustand befinden<br />
und dabei gleich etikettierten Übergängen gefolgt sind. Parallel geschaltete Transducer<br />
akzeptieren damit die Schnittmenge <strong>der</strong> durch die einzelnen Automaten definierten<br />
Sprachen. 11 Aufgrund dieses Akzeptanzkriteriums muß dafür gesorgt werden, daß Symbole,<br />
auf die sich ein bestimmter Transducer nicht bezieht, von diesem dennoch konsumiert werden.<br />
Im <strong>der</strong> ursprünglichen Fassung <strong>der</strong> Two-Level-Morphology (vgl. Koskenniemi (1984)) ging<br />
mit <strong>der</strong> Segmentierung <strong>der</strong> Oberflächenform auch gleich die Anwendung eines endlichen<br />
Zustandsmechanismus auf die Morpheme <strong>des</strong> Lexikonbands einher. Dies wurde realisiert<br />
durch eine Unterteilung <strong>des</strong> Lexikons in Äquivalenzklassen und durch Aktivierung bzw.<br />
Deaktivierung einzelner Lexikonabschnitte aufgrund <strong>der</strong> bereits gefundenen Segmente.<br />
Diese auch als Folgelexikamechanismus bezeichnete Technik ist äquivalent zu einem endlichen<br />
Automaten bzw. einer Typ-3-Grammatik, macht diese jedoch nicht explizit.<br />
Die folgende Abbildung zeigt einen Transducer, <strong>der</strong> die e-Einfügung bei Verbstämmen, die<br />
auf bestimmte Konsonanten enden, realisiert:<br />
11 Ein Theorem <strong>der</strong> Theorie regulärer Relationen besagt, daß reguläre Relationen, bei denen beide<br />
Komponenten die gleiche Länge aufweisen, abgeschlossen sind unter Schnittmengenbildung. Das<br />
heißt, daß es prinzipiell möglich ist, alle Transducer zu einem einzigen zusammenzufassen (vgl.<br />
Reape/Thompson (1988), Kaplan/Kay (1994)).<br />
110
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Abb. 4.4: (Vereinfachter) Transducer T1 zur Behandlung <strong>der</strong> e-Erweiterung bei Verbstämmen auf<br />
Dental bzw. Frikativ/Nasal vor Flexiven (die Endzustände sind grau dargestellt)<br />
Die Anwendbarkeit von Two-Level-Regeln hängt nun jedoch nicht nur von phonetischen<br />
bzw. graphematischen Gesichtspunkten ab, son<strong>der</strong>n auch von morphosyntaktischen.<br />
Beispiel 4.6:<br />
Die Kette WEINTEST darf nur in <strong>der</strong> Verblesart in wein+t+st zerlegt werden; bei <strong>der</strong> Nomenlesart<br />
muß die Segmentierung wein+test lauten. Groß- und Kleinschreibung wird, aus<br />
bereits erwähnten Gründen, nicht als Mittel zur Disambiguierung herangezogen.<br />
Der Notwendigkeit <strong>des</strong> Einbeziehung von grammatischer Information durch arbiträre diakritische<br />
Symbole o<strong>der</strong> gar Merkmale auf dem Lexikonband (vgl. Karttunen et al. (1992)) zu<br />
begegnen, erscheint sehr unelegant und schafft eine ganze Reihe von Schnittstellenproblemen,<br />
beispielsweise zu Lexikon und Parser. Sehr viel besser ist <strong>der</strong> Ansatz von Trost, bisher<br />
aufgebaute Strukturen im Merkmalsstrukturformat mit einer mit <strong>der</strong> Two-Level-Regel assoziierten<br />
Filterstruktur zu unifizieren und vom Gelingen dieser Operation die Anwendung<br />
<strong>der</strong> Regel abhängig zu machen. Im übrigen kann die Ungerichtetheit <strong>der</strong> hier verwendeten<br />
Unifikationsoperation im Fall von unbekannten Teilen dazu dienen, die hierfür aufgebaute<br />
partielle Merkmalsstruktur weiter zu instantiieren.<br />
Wie kann im vorliegenden Modell sinnvoll mit regelmäßiger Allomorphie umgegangen<br />
werden? Die Grundidee hierzu sieht folgen<strong>der</strong>maßen aus:<br />
1. Der Segmentierer enthält nach wie vor alle Allomorphe eines Morphems, diese werden<br />
jedoch nun durch Präprozessierung eingeführt.<br />
2. Der Parser prüft die Zulässigkeit von Morphkombinationen.<br />
Da <strong>der</strong> Segmentierer oberflächenorientiert arbeitet, muß er alle Allomorphe eines Morphems<br />
enthalten. Hierdurch fällt auch eine <strong>der</strong> Hauptaufgaben weg, die üblicherweise durch Two-<br />
Level-Automaten geleistet wird: die Reduktion einer Form auf dem Oberflächenband auf<br />
eine Reihe von Morphemen auf dem Lexikonband.<br />
Die morphosyntaktische Kombinierbarkeit <strong>der</strong> durch den Segmentierer gelieferten Morphe<br />
wird mit Hilfe <strong>der</strong> diesen zugeordneten Merkmalsstrukturen und den Regeln und Prinzipien<br />
111
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
<strong>der</strong> Wortgrammatik überprüft. Diese bezieht jedoch nur morphosyntaktische Merkmale,<br />
nicht jedoch die graphematische Form <strong>der</strong> beteiligten Morphe mit ein. Hierzu muß <strong>der</strong><br />
Parser um einen geeigneten Mechanismus erweitert werden.<br />
Beispiel 4.7:<br />
Unter <strong>der</strong> Annahme, daß <strong>der</strong> Segmentierer den Verbstamm lieb und die Flexive -t- (Präteritumsaffix),<br />
-st bzw. -est enthält, muß ausgeschlossen werden, daß das System Formen wie<br />
*liebtst akzeptiert.<br />
4.4.1 Kompilation <strong>der</strong> Allomorphe<br />
Wie oben schon beschrieben enthält <strong>der</strong> segmentierende Automat alle Allomorphe <strong>der</strong> im<br />
Lexikon repräsentierten Morpheme. Diese werden mit Hilfe von sog. Allomorphieregeln erzeugt,<br />
die eine Verwandtschaft mit den in Kapitel 1 beschriebenen lexikalischen Regeln<br />
aufweisen, bei denen die gegen letztere erhobenen Einwände jedoch nicht greifen. Beispielsweise<br />
besteht das Problem <strong>der</strong> Anwendungsreihenfolge von Allomorphieregeln nicht,<br />
da Allomorphieregeln nur auf Elemente aus dem Morphemlexikon angewendet werden, ihr<br />
Ergebnis jedoch im <strong>Analyse</strong>lexikon (Listemlexikon) gespeichert wird.<br />
Allomorphieregeln haben folgende formale Gestalt:<br />
FS_in ⇒ { FS_out1, FS_out2, ..., FS_outk }<br />
Eine <strong>der</strong>artige Regel kann auf ein Morphem M angewendet werden, wenn M mit FS_in unifizierbar<br />
ist. Das Ergebnis ist eine Menge von Einträgen, die in das <strong>Analyse</strong>lexikon aufgenommen<br />
werden. Um die Übernahme von Informationen aus FS_in in diese Lexikoneinträge<br />
zu ermöglichen, sind Koreferenzen von Pfaden in FS_in und FS_Outi erlaubt. Allomorphieregeln<br />
dienen zur Abdeckung folgen<strong>der</strong> Fälle von regelmäßiger Allomorphie:<br />
1. Stammumlautung bei Nomen, Verben und Adjektiven<br />
2. Stammelision bei Verben.<br />
Unregelmäßige Allomorphie (beispielsweise Ablaut bei starken Verben) wird einfach durch<br />
Auflisten <strong>der</strong> verschiedenen Stämme samt ihren Merkmalsbestimmungen abgedeckt.<br />
Abbildung 4.5 zeigt das Beispiel einer solchen (vereinfachten) Regel, die aus einem<br />
umlautenden Nomenstämmen zwei Stammmorphe herstellt, die mit Singular bzw. Plural<br />
markiert sind.<br />
GRAPH: 1<br />
SYN:<br />
2<br />
HEAD: CAT: N<br />
SEM: 3<br />
MORPH: 4 MFEAT: UMLAUT: +<br />
GRAPH: surface ( 1 )<br />
SYN:<br />
2<br />
SEM: 3<br />
MORPH: 4<br />
HEAD: NUM: sg<br />
,<br />
GRAPH: f_umlaut( 1 )<br />
SYN:<br />
2<br />
SEM: 3<br />
MORPH: 4<br />
HEAD: NUM: pl<br />
Abb. 4.5: Allomorphieregel zur Behandlung von Stammumlautung<br />
112
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Beispielsweise wird aus einer Merkmalsstruktur mit dem GRAPH-Wert H$aus ($ kennzeichnet<br />
den umlautenden Vokal, <strong>der</strong> durch die Funktion f_umlaut durch seinen Umlaut ersetzt<br />
wird) die Pluralstammform Häus-. Die Markierung dieser Form mit dem Pluralmerkmal<br />
stellt sicher, daß sie nur mit Pluralflexiven kombiniert werden kann. Die an<strong>der</strong>e Merkmalsstruktur<br />
beschreibt die Verwendung <strong>des</strong> Morphs (im Beispiel also Haus-) im Kontext von<br />
Flexiven mit dem Merkmal Singular. Surface ist eine Funktion, die die zur Kennzeichnung<br />
relevanter Grapheme verwendeten diakritischen Zeichen entfernt.<br />
4.4.2 Behandlung von morphographematischen Kombinationsbeschränkungen<br />
Die Markierung <strong>der</strong> durch die Allomorphieregeln erzeugten Morphe mit bestimmten<br />
Merkmalen stellt – zusammen mit den Regeln <strong>der</strong> Wortgrammatik – sicher, daß nur kompatible<br />
Morphe miteinan<strong>der</strong> kombiniert werden können. Beispielsweise erfor<strong>der</strong>t die rekursive<br />
Flexionsregel im nächsten Kapitel, daß die morphosyntaktischen Merkmale von Stamm und<br />
Flexiv miteinan<strong>der</strong> unifiziert werden. Auf diese Weise werden unzulässige Wortformen wie<br />
*Hauser aufgrund <strong>der</strong> inkompatiblen Werte <strong>des</strong> Numerus-Merkmals ausgeschlossen.<br />
Was die Unifikation von Merkmalsstrukturen allerdings nicht leistet, ist <strong>der</strong> Ausschluß von<br />
in morphographematischer Hinsicht unzulässigen Morphkombinationen wie die in Beispiel<br />
4.7 erwähnten. Dies macht daher einen weiteren Mechanismus erfor<strong>der</strong>lich, für <strong>des</strong>sen Realisierung<br />
zunächst einmal zwei grundsätzliche Möglichkeiten bestehen: Integration in die<br />
Wortgrammatik o<strong>der</strong> Integration in den Parser.<br />
Kombinationsbeschränkungen <strong>der</strong> genannten Art mit Hilfe <strong>der</strong> Wortgrammatik auszudrükken<br />
ist aus min<strong>des</strong>tens drei Gründen die theoretisch befriedigen<strong>der</strong>e Möglichkeit:<br />
1. Um sie auszudrücken macht man ebenfalls von Merkmalsstrukturen und Unifikation<br />
Gebrauch, also von den Beschreibungsmitteln, die ohnehin notwendig sind.<br />
2. Es werden keine weiteren Automaten wie Two-Level-Transducer u.ä. mehr benötigt<br />
3. Der einzige Ort, an dem morphographematische Regularitäten ausgedrückt werden, sind<br />
die Allomorphieregeln. Sie werden so erweitert, daß sie die erzeugten Morphe mit den<br />
gewünschten Beschränkungen versehen.<br />
Da die Graphematik relativ ausdrucksarm ist, wäre es notwendig, hierzu die phonetische<br />
Ebene mit einzubeziehen, was aber außerhalb <strong>des</strong> gesteckten Rahmens dieser Arbeit liegt.<br />
Daß es jedoch möglich ist, phonetische und phonologische Regelmäßigkeiten mit Unifikations-<br />
bzw. constraint-basierten Formalismen abzubilden, zeigen die Arbeiten aus dem Bereich<br />
<strong>der</strong> computational phonology (z.B. Bird (1995)).<br />
Die an<strong>der</strong>e Option, morphographematische Kombinationsbeschränkungen zu realisieren, ist,<br />
sie in Form von Automaten in den Parsvorgang zu integrieren. Dies könnte durch Hinzufügen<br />
von Zustandsinformationen dieser Automaten in die Kanten <strong>des</strong> Chart-Parsers bewerkstelligt<br />
werden, soll aber hier auch nicht weiter verfolgt werden.<br />
4.5 Weitere <strong>Aspekte</strong><br />
4.5.1 Aktualisierung <strong>des</strong> Automaten<br />
Ein Ziel <strong>des</strong> Gesamtansatzes ist, ein robustes <strong>Analyse</strong>verfahren zu entwickeln, welches mit<br />
<strong>der</strong> notorischen Unvollständigkeit <strong>des</strong> Lexikons umgeht und daher in <strong>der</strong> Lage ist, unbekannte<br />
Wortteile nicht nur zu ignorieren, son<strong>der</strong>n diese zu identifizieren und unter Ausnut-<br />
113
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
zung von Regularitäten <strong>der</strong> unterschiedlichsten Art soviel Informationen wie möglich über<br />
sie zu erschließen. Sobald die so erzeugten unvollständigen Lexikoneinträge eine gewisses<br />
Maß an Spezifizität erreichen, kann man erwägen, sie in das Listemlexikon aufzunehmen,<br />
was eine Aktualisierung <strong>des</strong> Automaten nach sich ziehen muß. Die Frage ist nun, wie aufwendig<br />
dieser Vorgang ist, d.h. inwieweit eventuell sogar <strong>der</strong> ganze Automat davon betroffen<br />
sein kann.<br />
Die Aktualisierung <strong>der</strong> Übergangsfunktion goto ist unproblematisch, da hierbei höchstens so<br />
viele neue Zustände und Übergänge erzeugt werden müssen, wie das neu einzufügende<br />
Listem lang ist. Ist kein Präfix <strong>des</strong> neuen Listems im Automaten verzeichnet (gibt es also für<br />
das erste Wortsymbol keinen Übergang vom Startzustand <strong>des</strong> Automaten in einen an<strong>der</strong>en,<br />
vom Startzustand verschiedenen Zustand), so muß zudem aus <strong>der</strong> Startzustandsschleife <strong>der</strong><br />
Übergang für das erste Wortsymbol entfernt werden.<br />
Die Neuanpassung <strong>der</strong> failure–Funktion ist u.U. aufwendiger. Über die Berechnung <strong>der</strong><br />
Funktionswerte für die neu erzeugten Zustände hinaus können auch an<strong>der</strong>e failure–Werte<br />
von einer Än<strong>der</strong>ung betroffen sein. Das folgende Theorem charakterisiert die Zustände, für<br />
die die failure–Funktion geän<strong>der</strong>t werden muß. Zuvor muß jedoch noch ein Hilfsbegriff eingeführt<br />
werden.<br />
Definition 4.2: Charakterisierung<br />
Ein Automatenzustand s charakterisiert eine Kette w, gdw. sich w aus <strong>der</strong> Verkettung <strong>der</strong><br />
Label entlang <strong>des</strong> Pfads vom Startzustand zum Zustand s ergibt. Man schreibt hierfür auch<br />
String(s) = w.<br />
Theorem 4.1<br />
Das neu einzufügende Listem sei w = δβ, wobei δ (möglicherweise ε) <strong>der</strong> Teil sei, bei dem<br />
bereits vorhandene Übergänge verfolgt werden und β≠ε <strong>der</strong>jenige sei, für den neue Automatenzustände<br />
und -übergänge eingeführt werden müssen. Dann muß die failure-Funktion<br />
(außer für die Zustände, die für β eingefügt wurden) für genau die Zustände s aktualisiert<br />
werden, für die gilt:<br />
s charakterisiert eine Folge von Symbolen αδγ (α ≠ ε) und es gibt Ketten π (möglicherweise ε),<br />
so daß gilt: β=γπ.<br />
Beweisskizze:<br />
δ<br />
α<br />
q<br />
β<br />
γ π<br />
t<br />
δ p γ s<br />
Es gilt (vor und nach dem Einfügen <strong>der</strong> Zustände und Übergänge für β): failure(p) = q. Da<br />
allgemein gilt (aufgrund <strong>der</strong> Konstruktionsvorschrift von failure, siehe Anhang A): failure(δ*(r,σ))<br />
= δ*(failure(r), σ), ist auch failure(s) = t (mit r = p und σ = γ ).<br />
Das Zustände wie s die einzigen sind, <strong>der</strong>en failure-Funktionswerte aktualisiert werden<br />
müssen, ist ebenfalls leicht zu sehen.<br />
114
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Beispiel 4.8:<br />
In den Beispielautomaten aus Abb. 4.1 soll das Wort Taube eingefügt werden (δ=tau, β=be).<br />
Dann muß <strong>der</strong> Wert <strong>der</strong> failure-Funktion von Zustand 11 (charakterisiert staub, α=s, γ=b)<br />
aktualisiert werden.<br />
Für je<strong>des</strong> α müssen somit failure-Werte von höchstens |β| Zuständen verän<strong>der</strong>t werden. Im<br />
schlechtesten Fall (mit δ = ε) ist das neue Listem ein echtes Suffix je<strong>des</strong> Pfads im Automaten,<br />
<strong>der</strong> in einem Zustand endet, für den die Ausgabefunktion ≠ ∅ ist. Dann muß die failure–<br />
Funktion für<br />
|β| * Anzahl Pfade<br />
Zustände im ursprünglichen Automaten neu berechnet werden.<br />
Ein Problem ist, wie man die Präfixe α im Automaten findet. Hier bieten sich zwei Möglichkeiten<br />
an, <strong>der</strong>en Wahl davon abhängt, wie häufig die Operation <strong>des</strong> Aktualisierens vorgenommen<br />
wird:<br />
• man verwendet entwe<strong>der</strong> eine spezielle Indexstruktur o<strong>der</strong><br />
• benutzt den Automaten selbst, die Präfixe aufzufinden.<br />
Bei einer Entscheidung für die letzte Möglichkeit müßte man alle Listeme im Lexikon nach<br />
den Ketten δγ absuchen. Mit Hilfe <strong>des</strong> Mechanismus zur Identifizierung von unbekannten<br />
Wortteilen ist es dann möglich, die verschiedenen Präfixe α zu rekonstruieren. Die Zeitkomplexität<br />
hiervon wäre O(L), wobei L die Summe <strong>der</strong> Längen aller Listeme ist.<br />
4.5.2 Interaktion mit dem Satzstrukturparser<br />
Eine Morphologiekomponente ist meist nur ein Bestandteil im Zusammenhang eines größeren<br />
sprachverarbeitenden Systems und steht normalerweise mit dem Satzstrukturparser in<br />
enger Interaktion. Der Umstand, daß auch die Wortstrukturanalyse auf einem Merkmalsformalismus<br />
beruht, macht es bei Wahl eines geeigneten „gemeinsamen Vokabulars“ möglich,<br />
die Schnittstelle zwischen beiden Subsystemen allein auf die ausgetauschten Merkmalsstrukturen<br />
zu begrenzen. Erwartungen, die ein zumin<strong>des</strong>t partiell hypothesengetriebenes<br />
Verfahren über das nächste zu analysierende Wort aufbaut, reflektieren sich in einer Instantiierung<br />
von Merkmalen, die wie<strong>der</strong>um die morphologische <strong>Analyse</strong> steuern. Erwartet <strong>der</strong><br />
Satzparser beispielsweise, daß das nächste Token ein Nomen ist, so führt das zu einer entsprechenden<br />
Instantiierung <strong>der</strong> Startkategorie <strong>des</strong> <strong>morphologischen</strong> Parsers und verhin<strong>der</strong>t,<br />
daß Lesarten mit an<strong>der</strong>er Kategorie überhaupt erzeugt werden. Beson<strong>der</strong>s interessant ist<br />
dieser Mechanismus wie<strong>der</strong>um in Verbindung mit Wörtern mit nicht im Lexikon verzeichneten<br />
Teilen, insbeson<strong>der</strong>e dann, wenn <strong>der</strong> unbekannte Teil als letzter im Wort auftritt. Aufgrund<br />
<strong>der</strong> Rechtsköpfigkeit <strong>der</strong> Wortstrukturen kann mit den Informationsquellen, die <strong>der</strong><br />
Morphologiekomponente zur Verfügung stehen, eher wenig über den unbekannten Teil<br />
inferiert werden. Erwartungen <strong>des</strong> Satzparsers über Eigenschaften <strong>des</strong> Gesamtworts gelangen<br />
über die morphologische Startkategorie und via structure sharing zum „unbekannten“<br />
Kopf <strong>des</strong> Wortes und führen somit zu einer Einengung <strong>der</strong> durch die morphologische <strong>Analyse</strong><br />
aufgestellten Hypothesen.<br />
115
4.6 Zusammenfassung<br />
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
Die nachfolgende Abbildung zeigt noch einmal die Zusammenhänge zwischen den im Verlauf<br />
<strong>des</strong> Kapitels vorgestellten Komponenten <strong>des</strong> <strong>morphologischen</strong> <strong>Analyse</strong>systems:<br />
Morphem-<br />
Lexikon<br />
Allomorphieregeln<br />
WortMorphgrammatik<br />
Lexikon<br />
erzeugen<br />
Präkompilation<br />
verwendet<br />
Eingabe:<br />
Zu analysieren<strong>des</strong><br />
Wort<br />
paralleler<br />
Segmentierer<br />
Wortsegmente<br />
Wortstruktur-<br />
Parser<br />
Ausgabe:<br />
liefert<br />
Wortstrukturen<br />
Abb. 4.6: Architekturskizze <strong>des</strong> <strong>Analyse</strong>systems<br />
aktivieren<br />
Erzeugung von<br />
Segmenten<br />
für unbekannte<br />
Wortteile<br />
Zum Abschluß dieses Kapitels soll noch ein Vergleich zu zwei an<strong>der</strong>en <strong>morphologischen</strong><br />
<strong>Analyse</strong>systemen gezogen werden, welche ebenfalls Segmentation, Two-Level-Morphology<br />
und Strukturanalyse auf <strong>der</strong> Grundlage einer Unifikationsgrammatik in sich vereinen. Die<br />
Rede ist vom LILOG/2LM-System (vgl. Schiller/Steffens (1991) und vom System von Ritchie<br />
et al. (1992), die hinsichtlich Lexikon, Segmentierung und <strong>Analyse</strong> folgende Unterschiede<br />
und Gemeinsamkeiten bezüglich <strong>des</strong> hier präsentierten Modells aufweisen. Zunächst zu<br />
LILOG/2LM:<br />
• Lexikon: LILOG/2LM verwendet zwei verschiedene Lexikontypen: ein Morph-Lexikon,<br />
welches zu jedem Morph die für die morphologische Verarbeitung benötigten Informationen<br />
notiert, und ein base lexicon, welches syntaktische und semantische Eigenschaften<br />
<strong>der</strong> Grundformen festhält. Das Morph-Lexikon, welches zum <strong>Analyse</strong>zeitpunkt in Form<br />
eines Tries vorliegt, ist zudem in Abschnitte eingeteilt, die sich auf den Folgeklassenmechanismus<br />
<strong>des</strong> Parsers beziehen. Von den Autorinnen so genannte lexical rules vermitteln<br />
zwischen den Einträgen bei<strong>der</strong> Lexika. M. E. sind diese lexikalischen Regeln doch von<br />
an<strong>der</strong>er Art als die in Kapitel 1.2.5 kritisierten, da sie nicht neue Lexikoneinträge aus bereits<br />
vorhandenen erzeugen, son<strong>der</strong>n lediglich die syntaktischen und semantischen In-<br />
116
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
formationen für einen Eintrag <strong>des</strong> Grundformenlexikons mit denen durch die morphologische<br />
<strong>Analyse</strong> gewonnenen mittels einer Unifikationsoperation zusammenführen. Im<br />
Prinzip kann auf diese Regeln verzichtet werden, beispielsweise durch eine genaue Klassenbildung<br />
und Verknüpfung von Typbedingungen (sog. recursive type constraints) mit<br />
bestimmten Typen. Auf diese Weise können aus einer Kategorisierung sich ergebende<br />
Implikationen für an<strong>der</strong>e Merkmale und Werte (beispielsweise, daß Verben ein SUBCAT-<br />
Merkmal aufweisen) automatisch berücksichtigt werden.<br />
• Two-Level-Morphology: LILOG/2LM verwendet mit diakritischen Zeichen versehene<br />
Two-Level-Regeln. Obwohl dies sicherlich effizienter ist als <strong>der</strong> Gebrauch von Filtertermen,<br />
führt man doch neben den Merkmalsstrukturen eine weitere Beschreibungsebene<br />
ein und handelt sich zusätzlich Probleme <strong>der</strong> Interaktion dieser beiden Ebenen ein. Dies<br />
haben die Autorinnen auch erkannt, da sie schreiben: „We consi<strong>der</strong> the implementation of<br />
such rule filters [Filterterme, TH] a necessary extension to the architecture of LILOG/2LM.“<br />
(Schiller/Steffens (1991:125).<br />
• Strukturanalyse: LILOG/2LM benutzt Wortstrukturregeln auf Merkmalsstrukturbasis,<br />
die jedoch lediglich die Flexion beschreiben. Diese Regeln werden in Form eines „Morpho-Syntax-Baums“<br />
repräsentiert, <strong>des</strong>sen Kanten mit nichtterminalen Kategorien etikettiert<br />
sind und die im Laufe einer <strong>Analyse</strong> potentielle Folgekategorien charakterisieren;<br />
Abb. 4.7 veranschaulicht das.<br />
adj_stem<br />
verb_stem<br />
comp_ending decl_ending<br />
verb_prefix verb_stem<br />
verb_fin_ending<br />
verb_fin_ending<br />
Abb. 4.7: Morpho-Syntax-Baum (aus Schiller/Steffens (1991:117))<br />
Aufgrund seines endlichen Mechanismus ist ein solcher Baum jedoch nicht in <strong>der</strong> Lage,<br />
an<strong>der</strong>e als rechtsrekursive Einbettungen abzubilden, die in<strong>des</strong> zur Beschreibung von<br />
Komposition und Derivation notwendig sind.<br />
Das an<strong>der</strong>e hier interessante Modell, das von Ritchie et al. (1992), weist folgende Charakteristika<br />
auf:<br />
• Lexikon: Die Autoren verwenden ein Grundformenlexikon, welches an<strong>der</strong>s als bei Schiller/Steffens<br />
(1991) nicht in einzelne Abschnitte unterglie<strong>der</strong>t ist, die jeweils Morphe mit<br />
gleicher Distribution enthalten. Beschränkungen <strong>der</strong> Morphkombination werden somit<br />
nicht durch einen Folgeklassenmechanismus à la Koskenniemi, son<strong>der</strong>n durch eine unabhängige<br />
Wortgrammatik festgehalten, die auch rekursive Strukturen zuläßt (s.u.). Das<br />
zur <strong>Analyse</strong> bereitgestellte Lexikon entsteht durch einen Kompilationsschritt, bei dem<br />
lexical rules die durch den Lexikonautor definierten partiellen Einträge ergänzen bzw.<br />
ausmultiplizieren. Ähnlich wie bei LILOG/2LM könnten diese Regeln jedoch ersetzt<br />
117
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
werden durch eine hierarchische Strukturierung <strong>der</strong> lexikalischen Kategorien auf <strong>der</strong><br />
Grundlage von (Default)Vererbung, rekursiven Typbeschränkungen und eines Paradigmenmechanismus,<br />
wie er im hier beschriebenen Modell verwendet wird. Aus dem Lexikon<br />
wird wie bei LILOG/2LM ein Trie erzeugt, <strong>der</strong> das Lexikonband <strong>der</strong> Two-Level-<br />
Komponente bildet.<br />
• Two-Level-Morphology: Das Modell verwendet Two-Level-Regeln, die durch einen<br />
Compiler in spezielle nichtdeterministische Transducer übersetzt werden, die wie<strong>der</strong>um<br />
während <strong>der</strong> <strong>Analyse</strong> von einem Interpreter benutzt werden. Da das von den Autoren<br />
beschriebene System im Hinblick auf das Englische konzipiert ist, verwun<strong>der</strong>t es nicht,<br />
daß von Filtertermen o<strong>der</strong> äquivalenten Mechanismen kein Gebrauch gemacht wird.<br />
• Strukturanalyse: Die strukturelle <strong>Analyse</strong> vollzieht sich bezüglich einer Reihe von Wortstrukturregeln,<br />
denen <strong>der</strong> formalen Apparat <strong>der</strong> GPSG (vgl. Gazdar et al. (1985)) zugrundeliegt,<br />
d.h. typisierte Merkmalsstrukturen werden nicht verwendet. Ergänzt werden<br />
diese Regeln durch Perkolationsbeschränkungen, die Prinzipien wie das <strong>des</strong> „relativierten<br />
Kopfs“ realisieren. Segmentierer, die Two-Level-Komponente und <strong>der</strong> Chart-Parser<br />
arbeiten zur Vermeidung unsinniger Zerlegungen ineinan<strong>der</strong> verzahnt, wobei letzterer<br />
die an<strong>der</strong>en Komponenten steuert. Das System kommt mit ambigen Zerlegungen zurecht,<br />
indem mit je<strong>der</strong> dieser Zerlegungen <strong>der</strong> Zustand <strong>der</strong> Two-Level-Komponente nach <strong>der</strong><br />
<strong>Analyse</strong> aller ihrer Symbole verknüpft ist. Nachteile legt <strong>der</strong> Ansatz von Ritchie et al. daher<br />
an den Tag, sobald Lexikoneinträge Disjunktionen enthalten, da diese von den Chart-<br />
Parsern i.a. durch Überführung in disjunktive Normalform beseitigt werden, was zur Einfügung<br />
mehrerer Chart-Kanten für ein gefundenes Morph(em) führt und damit die mit<br />
diesem verbundenen Automatenzustände dupliziert. Da in den Chart Wortsegmente eingehen<br />
und nicht Symbole <strong>der</strong> Oberflächenform, hat er keine lineare Struktur mehr, son<strong>der</strong>n<br />
präsentiert sich als gerichteter azyklischer Graph, was in Ritchie et al. (1991:164) am<br />
Beispiel von preached verdeutlicht wird.<br />
1<br />
pre<br />
2<br />
preach<br />
ache (N)<br />
ache (V)<br />
4<br />
3<br />
ed<br />
ed<br />
Abb. 4.8: Chart-Struktur für preached<br />
Für die Verarbeitung von Wörtern mit unbekannten Teilen wird schließlich keine erkennbare<br />
Vorsorge getroffen.<br />
Neben den genannten Abweichungen gibt es natürlich auch Gemeinsamkeiten <strong>der</strong> Modelle.<br />
Alle drei arbeiten mit Merkmalsstrukturen und Lexika in Form von Tries und sind dadurch<br />
gekennzeichnet, daß Steuerungsinformationen zwischen Parser und Segmentierer ausgetauscht<br />
werden, was zu einer effizienteren <strong>Analyse</strong> führt als rein serielle Verfahren.<br />
Das nächste Kapitel wendet sich <strong>der</strong> <strong>morphologischen</strong> Grammatik zu.<br />
118<br />
5
Kapitel 4: Ein Modell eines <strong>morphologischen</strong> <strong>Analyse</strong>systems<br />
119
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
5 Eine merkmalsbasierte Beschreibung einiger <strong>Aspekte</strong> <strong>der</strong><br />
Morphologie im <strong>Deutschen</strong><br />
Der in Kapitel 4 dargelegte <strong>Analyse</strong>automat zerlegt Wörter auf jede mögliche Weise in ihre<br />
Bestandteile und überprüft mit Hilfe eines aus <strong>der</strong> Grammatik gewonnenen Zustandsmechanismus<br />
bereits die Zulässigkeit <strong>der</strong> gefundenen Morph(em)abfolgen. Zerlegungen, die<br />
diesen Filter passieren, werden – parallel zur Segmentierung – durch einen erweiterten<br />
Chart-Parser analysiert. Dies geschieht relativ zu einer Grammatik, die in diesem Kapitel<br />
ausführlich erörtert wird. Ihre Darstellung erfolgt gewissermaßen bottom-up, d.h. ausgehend<br />
von den Lexikoneinträgen werden die Regeln erläutert, die diese zu immer größeren Gebilden<br />
zusammenfügen, bis schließlich die Ebene <strong>der</strong> vollständig spezifizierten einfachen o<strong>der</strong><br />
komplexen Wörter erreicht wird.<br />
Als Gegenstand einer Theorie <strong>der</strong> Wortsyntax lassen sich drei Bereiche ausmachen:<br />
1. Kombinationsbeschränkungen: was sind zulässige Morphemkombinationen, was unzulässige?<br />
2. Präzedenzbeschränkungen: welche Morpheme müssen vor welchen an<strong>der</strong>en zu stehen<br />
kommen?<br />
3. Beschränkungen über Wortstrukturen: welche Art von Wortstrukturen sind für eine semantische<br />
Interpretation notwendig?<br />
Viele Standardansätze zur Beschreibung von Konstituentenstrukturen verwenden kontextfreie<br />
Grammatiken, die somit die ersten beiden oben genannten Beschränkungstypen in einem<br />
homogenen Formalismus fest inkorporieren.<br />
Gegen diese Ansätze ist eine Reihe von Argumenten vorgebracht worden, die letztlich zur<br />
Entwicklung von an<strong>der</strong>en Formalismen wie GPSG und HPSG geführt haben:<br />
• Dominanz und lineare Präzedenz allein durch starre Phrasenstrukturregeln auszudrükken<br />
führt zum Verlust von Beschreibungsadäquatheit, da es dann nicht mehr möglich ist,<br />
Generalisierungen über verschiedene Regeln zu formulieren.<br />
• Damit verwandt ist <strong>der</strong> Einwand, daß diese Verschmelzung auch an<strong>der</strong>en linguistischen<br />
Generalisierungen über Phrasenstrukturen wie X’-Schema, Kopf- und Subkategorisierungsprinzip<br />
etc. nicht gerecht wird.<br />
• Letztendlich führt <strong>der</strong> kontextfreie Ansatz zu einer großen Anzahl von sehr speziellen<br />
Konstruktionsregeln, <strong>der</strong>en Zusammenhang untereinan<strong>der</strong> in keiner Weise ausgedrückt<br />
wird.<br />
Welche Konsequenzen ergeben sich hieraus für eine Beschreibung deutscher Wortstrukturen,<br />
<strong>der</strong>en hervorstechende Merkmale noch einmal kurz zusammengefaßt werden sollen:<br />
• Deutsche Wortstrukturen gehorchen einem abgewandelten Kopfprinzip, wobei unklar ist,<br />
ob dieses auch auf die Flexion ausgedehnt werden soll. Die Bestimmung <strong>des</strong> Kopfes wird<br />
dabei nicht ausschließlich inhaltlich aufgrund gemeinsamer Merkmale zweier in einem<br />
Dominanzverhältnis stehen<strong>der</strong> Kategorien festgemacht, son<strong>der</strong>n positionell, d.h. Köpfe<br />
von Wortstrukturen im <strong>Deutschen</strong> sind Positionskategorien. Darüber hinaus können auch<br />
Nichtköpfe zu den Merkmalen einer Mutterkategorie beitragen, eine Tatsache, <strong>der</strong> man<br />
durch einen Default-Mechanismus, dem Begriff <strong>des</strong> relativierten Kopfes gerecht zu werden<br />
versucht.<br />
• Wortstrukturregeln im <strong>Deutschen</strong> sind im wesentlichen binär verzweigend, obwohl diese<br />
<strong>Analyse</strong> zu Problemen bei Komposita wie Lafontaine-Schrö<strong>der</strong>-Konflikt führt.<br />
119
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
• Ausschließlich formalgrammatisch bedingte Beziehungen zwischen Wortbestandteilen<br />
sind selten und in <strong>der</strong> Literatur umstritten; am ehesten könnte man hierunter noch das<br />
Phänomen <strong>der</strong> Argumentvererbung bei Rektionskomposita und bestimmten Derivationsvorgängen<br />
erfassen. Ansonsten scheint die Deutung von komplexen Wörtern in wesentlicher<br />
Weise von nichtsyntaktischen Bedingungen abzuhängen.<br />
• Eine Zusammenfassung von Derivation und Komposition als unterschiedliche <strong>Aspekte</strong><br />
eines zugrundeliegenden Prinzips ist aus formalen Gründen interessant, führt jedoch zu<br />
Problemen bei <strong>der</strong> Interpretation, die bei beiden Mechanismen unterschiedlich zu sein<br />
scheint. Darüber hinaus müssen bei einer vereinheitlichten Betrachtung Beschränkungen<br />
über die Abfolge von freien und gebundenen Kategorien wirksam sein.<br />
5.1 Morphologische Typenhierarchie und Lexikon<br />
5.1.1 Syntax<br />
Morphologische Objekte werden syntaktisch nach einer Typenhierarchie klassifiziert, die in<br />
<strong>der</strong> folgenden Abbildung wie<strong>der</strong>gegeben ist:<br />
unknown_stem<br />
simple_stem complex_stem<br />
simple_or_complex_stem<br />
STRUCTURE: list<br />
linking_morph pre_syntactic_atom affix<br />
morph_object<br />
MORPH: morph<br />
infl_affix <strong>der</strong>ivative<br />
morph_or_syn_object<br />
GRAPH: list<br />
SYN: syntax<br />
SEM: semantics<br />
top<br />
suffix<br />
prefix<br />
syntactic_atom<br />
sign<br />
Abb. 5.1: Typenhierarchie zur Klassifizierung <strong>der</strong> <strong>morphologischen</strong> Kategorien<br />
phrase<br />
Unter einem Morph(ological) Object verstehe ich, <strong>der</strong> Terminologie von Williams/Di Sciullo<br />
(1987) folgend, ein aus Morphemen aufgrund von produktiven Formationsregeln aufgebautes<br />
morphologisches Gebilde mit interner Struktur. Auf <strong>der</strong> an<strong>der</strong>en Seite sind Elemente<br />
120
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
<strong>der</strong> Kategorie syntactic_atom die primitiven X 0-Kategorien <strong>der</strong> Syntax; sie weisen keine<br />
interne Struktur auf und besitzen nur noch Merkmale, die in <strong>der</strong> phrasalen Syntax relevant<br />
werden können. Subtypen <strong>der</strong> Kategorie morph_object sind u.a. die Typen affix und simple_or_complex_stem;<br />
letzterer besitzt Subtypen für einfache (simple_stem) o<strong>der</strong> zusammengesetzte<br />
Stämme bzw. Wurzeln (complex_stem). Eine beson<strong>der</strong>e Rolle kommt <strong>der</strong> Klasse<br />
unknown_stem zu, mit <strong>der</strong> unbekannte Wortstämme klassifiziert werden.<br />
Mit Hilfe einer Reihe von Merkmalseinführungsaxiomen werden für diese einzelnen Typen<br />
Merkmale und für diese wie<strong>der</strong>um Werterestriktionen festgelegt, die sich an die Subtypen<br />
weiter vererben (diese sind in Abb. 5.1 unterhalb <strong>der</strong> Typen angegeben). Der Typ<br />
morph_or_syn_object führt die beiden Merkmale SYN und SEM ein, die sich an die Typen<br />
phrase – syntactic_atom und morph_object vererben; letzterer führt ein weiteres Merkmal<br />
MORPH mit Werterestriktion morph ein. Der Typ morph_object ist in <strong>der</strong> Typenhierarchie so<br />
definiert, daß seine erste Strukturebene wie in Abb. 5.2 aussieht (die Struktur unter SEM wird<br />
erst weiter unten näher behandelt): 1<br />
GRAPH: list(symbol)<br />
(FORM: symbol)<br />
SYN:<br />
SEM:<br />
MORPH:<br />
HEAD:<br />
ARGSTR:<br />
syntax<br />
morph_object<br />
semantics<br />
MFEAT:<br />
morph<br />
STRUCTURE: list<br />
head<br />
argstr<br />
MHEAD: mhead<br />
mfeat<br />
MSUBCAT: morph_subcat<br />
Abb. 5.2: Merkmale <strong>des</strong> Typs morph_object<br />
Die <strong>der</strong> HPSG (vgl. Pollard & Sag (1987, 1994)) nachgebildeten Merkmale SYN und SEM repräsentieren<br />
die Worteigenschaften, die in <strong>der</strong> Phrasensyntax relevant sind. Unter SYN:HEAD:<br />
sind daher die morphosyntaktischen Merkmale wie Person, Numerus usw. verzeichnet.<br />
Demgegenüber befinden sich in <strong>der</strong> Struktur unter MORPH Merkmale, die nur für die<br />
Morphologie wesentlich sind. Unterschieden wird hier zwischen <strong>morphologischen</strong><br />
Kopfmerkmalen (MORPH:MHEAD) – hierzu gehören Merkmale wie ±LATINATE und Angaben<br />
zur Deklinationsklasse (bei Nomen) – und an<strong>der</strong>en <strong>morphologischen</strong> Merkmalen (MFEAT),<br />
die keine Kopfmerkmale sind (z.B. das weiter unten erwähnte Merkmal COMPLETE). Hinzu<br />
kommt ein Merkmal MSUBCAT zur Wie<strong>der</strong>gabe morphologischer Subkategorisierungseigenschaften,<br />
das für die Affigierung verwendet wird. Das Merkmal GRAPH schließlich enthält<br />
eine graphematische Repräsentation <strong>des</strong> Stammmorphems bzw. die von morph_object dominierte<br />
Kette von Wortsegmenten. Die Struktur unter MORPH ähnelt <strong>der</strong> in Krieger (1994),<br />
1 Die Notationskonventionen seien hier noch einmal kurz wie<strong>der</strong>holt: Typen werden fett und kursiv,<br />
MERKMALE in Kapitälchen, Sorten kursiv und Variablen normal mit großem Anfangsbuchstaben<br />
wie<strong>der</strong>gegeben.<br />
121
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
an<strong>der</strong>s als dort wird die Morphemkategorie jedoch nicht explizit durch ein Merkmal dargestellt,<br />
son<strong>der</strong>n durch die Typenhierarchie wie<strong>der</strong>gegeben. Das Merkmal STRUCTURE enthält<br />
in einer Liste die unmittelbaren Töchter von morph_object.<br />
Allen präterminalen Kategorien wie simple_stem, infl_affix usw. kommt darüber hinaus<br />
noch ein Merkmal FORM zu, das durch einen separaten Typ form_t eingeführt wird und die<br />
Grundform <strong>des</strong> <strong>morphologischen</strong> Paradigmas enthält.<br />
Syntaktische Atome auf <strong>der</strong> an<strong>der</strong>en Seite haben we<strong>der</strong> MORPH- noch STRUCTURE-Attribute,<br />
da morphologische Merkmale wie die interne Struktur eines Wortes für die Phrasensyntax<br />
nicht sichtbar sind (so jedenfalls die These). Die morphosyntaktischen Merkmale – in <strong>der</strong><br />
Terminologie von Williams/Di Sciullo (1987) das gemeinsame Vokabular von Morphologie<br />
und Syntax – befinden sich unter SYN. Die Merkmale und Typen hierunter sind durch folgende<br />
Axiome definiert:<br />
(1) syntax :: HEAD: head ∧ ARGSTR: argstr<br />
head ↔ nominal | verbal | preposition<br />
head :: CAT: cat 2<br />
nominal ↔ noun | adjective | pronoun | determiner<br />
nominal :: CASE: case ∧ GENDER: gen<strong>der</strong><br />
adjective ::DEGREE: degree ∧ DECL: decl ∧ PRED: boolean<br />
verb → verbal<br />
verb ↔ verb_infl_or_imp | verb_infinitive<br />
verb_infl_or_imp ↔ verb_infl | verb_imp<br />
verb_infinitive ↔ verb_part | verb_inf_base<br />
verb_inf_base ↔ verb_inf | verb_zuinf<br />
verb_part ↔ verb_partI | verb_partII<br />
verb_infl_or_imp :: MOOD: mood<br />
verb_infl :: TENSE: tense<br />
preposition :: PFORM: symbol ∧ DP_CASE: case<br />
num_t ↔ verb_infl_or_imp ∨ nominal<br />
num_t :: NUM: num<br />
pers_t ↔ verb_infl ∨ nominal<br />
pers_t :: PERS: pers<br />
cat ↔ n | v | a | p |adv | d | pn<br />
case ↔ nom | gen | dat | acc<br />
pers ↔ first | second | third<br />
num ↔ sg | pl<br />
tense ↔ pres | pret<br />
mood ↔ ind | subjI | subjII | imp<br />
gen<strong>der</strong> ↔ masc | fem | neut<br />
decl ↔ strong | weak | mixed<br />
degree ↔ pos | comp | sup<br />
2 Das Merkmal CAT ist eigentlich redundant, da es wesentlich differenzierter in <strong>der</strong> Typenhierarchie<br />
unter head ausgedrückt wird. Es dient lediglich <strong>der</strong> besseren Anschaulichkeit.<br />
122
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Der Typ head wird zunächst einmal disjunktiv in nominale, verbale und präpositionale<br />
Köpfe partitioniert. Es wären hier noch weitere Disjunkte nötig, für die Zwecke <strong>der</strong> Wortgrammatik<br />
reicht es jedoch aus, sich auf diese drei zu beschränken. Vor allem <strong>der</strong> Typ verb<br />
wird dann in eine ganze Reihe von Subtypen zerlegt, je nachdem, ob es sich um ein flektiertes<br />
Verb (verb_infl), ein Verbpartizip (verb_partI o<strong>der</strong> verb_partII) und dgl. handelt. Diese<br />
Typen werden in den in Abschnitt 5.4 dargestellten Flexionsregeln verwendet. Die Verwendung<br />
<strong>der</strong> separaten Typen num_t und pers_t, die jeweils nur das entsprechende Merkmal<br />
einführen, macht eine Kreuzklassifikation <strong>der</strong> Typen in solche möglich, die die Merkmale<br />
PERS(ON) bzw. NUM(ERUS) tragen und solche, die dafür nicht gekennzeichnet sind. Die Unterteilung<br />
von case in seine vier offensichtlichen Subtypen wird in 5.4 noch etwas verfeinert.<br />
Unter SYN:ARGSTR wird die syntaktische und morphologische Argumentstruktur eines Kopfes<br />
festgelegt. Auch hier wird die Argumentstruktur von Verben von <strong>der</strong> von Nomen und<br />
Adjektiven unterschieden. Folgende Axiome sind hier festgelegt:<br />
(2) argstr ↔ verbal_argstr | nominal_argstr<br />
argstr ::<br />
DEFARGS: list(morph_or_syn_object) ∧<br />
ADJUNCTS: list(morph_or_syn_object) ∧<br />
ARGSTR_ORDER: list(morph_or_syn_object)<br />
verbal_argstr ::<br />
SUBJ: morph_or_syn_object_or_elist ∧<br />
DIR_OBJ: morph_or_syn_object_or_elist ∧<br />
INDIR_OBJ: morph_or_syn_object_or_elist ∧<br />
PREP_OBJ: morph_or_syn_object_or_elist ∧<br />
SENT_COMPL: morph_or_syn_object_or_elist ∧<br />
nominal_argstr ↔ noun_argstr | adj_argstr<br />
nominal_argstr :: RELARG: morph_or_syn_object_or_elist<br />
adj_argstr :: INTARG: morph_or_syn_object_or_elist<br />
morph_or_syn_object_or_elist ↔ morph_or_syn_object | elist<br />
Zunächst einmal sind alle Werte in den verschiedenen Merkmalen zur Argumentstruktur<br />
unterspezifiziert bzgl. <strong>der</strong> Unterscheidung Wort – Phrase, d.h. ihre Werterestriktion ist<br />
morph_or_syn_object bzw. elist (empty list, für den Fall, daß ein Argument nicht vorhanden<br />
ist). Diese Unterspezifikation ist notwendig, da Argumente wortintern an<strong>der</strong>s realisiert<br />
werden als wortextern, wie das Beispiel Renovierung zeigt. Das hier relationales Argument<br />
(RELARG) genannte Objekt von Renovierung wird phrasal als Nominalphrase verwirklicht,<br />
vgl. Renovierung <strong>der</strong> Bibliothek, wortintern jedoch als Nomen, vgl. Bibliotheksrenovierung. Beim<br />
Übergang in die Syntax wird schließlich <strong>der</strong> Typ verbliebener, d.h. wortintern nicht realisierter<br />
Argumente zu phrase angehoben (vgl. Abschnitt 5.4).<br />
Allen verschiedenen Kopftypen sind drei Merkmale gemeinsam: DEFARGS, ADJUNCTS und<br />
ARGSTR_ORDER. Default-Argumente sind (wie bei Pustejovsky (1995)) solche, die nicht unbedingt<br />
realisiert werden müssen, die jedoch eine Thetarolle in <strong>der</strong> unterliegenden Ereignisstruktur<br />
tragen. Bei Nomen sind dies oft durch Präpositionalphrasen ausgedrückte Subjekte,<br />
bei Verben Instrument-PPs. Die Standardreihenfolge <strong>der</strong> verschiedenen Argumente wird<br />
mittels <strong>des</strong> Attributs ARGSTR_ORDER festgehalten.<br />
123
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Die Teilhierarchie unter MORPH ist folgen<strong>der</strong>maßen strukturiert:<br />
(3) morph :: MHEAD: mhead ∧ MFEAT: mfeat ∧ MSUBCAT: morph_subcat<br />
noun_mhead → mhead<br />
mhead :: LATINATE: boolean<br />
noun_mhead :: DECL_CLASS: decl_class<br />
morph_object_or_elist ↔ morph_object | elist<br />
mfeat ::<br />
COMPLEX: boolean ∧ % ist die Form komplex?<br />
COMPLETE: boolean ∧ % ist die Form flektionsmäßig vollständig ?<br />
UMLAUT: boolean ∧ % kann <strong>der</strong> Grundvokal umgelautet werden?<br />
DER: boolean ∧ % kann die Form für die Derivation verwendet werden?<br />
CMP: boolean ∧ % kann die Form für die Komposition verwendet werden?<br />
verb_mfeat → mfeat<br />
verb_mfeat ::<br />
SEP_VERB: boolean ∧ % handelt es sich um ein Partikelverb?<br />
V_PARTICLE: symbol % wenn ja, dann enthält dieses Merkmal den Partikel<br />
affix_subcat → morph_subcat<br />
affix_subcat :: NEEDS: morph_object_or_elist<br />
Wie oben bereits erwähnt, wird zwischen <strong>morphologischen</strong> Kopf- und Nicht-Kopfmerkmalen<br />
unterschieden. Merkmale wie DER und CMP dienen nach Eisenberg (1998) dazu, die verschiedenen<br />
Elemente eines <strong>morphologischen</strong> Paradigmas zu unterscheiden. Beispielsweise<br />
ist <strong>der</strong> Stamm sprung im Paradigma von spring- mit CMP:+ markiert, da diese Form die Kompositionsstammform<br />
ist. COMPLETE wird im Abschnitt über die Flexion näher erläutert.<br />
Der Typ morph_subcat mit seinem hier alleinigen Subtyp affix_subcat und dem damit verbundenen<br />
Merkmal NEEDS dient schließlich dazu, morphologische Kombinationsbeschränkungen<br />
zwischen freien und gebundenen Morphemen zu repräsentieren. Suffixe und Präfixe<br />
definieren unter NEEDS Anfor<strong>der</strong>ungen, die sie an das „subkategorisierte“ freie Morphem<br />
stellen. Gemeinsam mit dem im nächsten Abschnitt zur Derivation festgelegten <strong>morphologischen</strong><br />
Subkategorisierungsprinzip dient das Merkmal auch dazu, die Vererbung von Argumenten<br />
von <strong>der</strong> Basis an das Derivat zu ermöglichen.<br />
5.1.2 Semantik<br />
Die Hierarchie, die die Typen unter SEM in Abb. 5.2 strukturiert, ist ausschnittsweise in (4)<br />
wie<strong>der</strong>gegeben.<br />
(4) semantics ↔ nominal_semantics | verbal_semantics<br />
semantics :: CONTENT: content<br />
nominal_semantics :: REFARG: simple_or_dotted_type<br />
verbal_semantics :: EXTARG: simple_type<br />
content ↔ lexical_content | operator_content<br />
lexical_content :: EVENTSTR: eventstr<br />
124
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Hiernach wird die Semantik von nominalen Kategorien wie Nomen und Adjektiven auf <strong>der</strong><br />
einen Seite von <strong>der</strong> von Verben auf <strong>der</strong> an<strong>der</strong>en unterschieden. Erstere weisen ein sog. referentielles<br />
Argument 3 (REFARG) auf, das an<strong>der</strong>s als die unter ARGSTR definierten Argumente<br />
semantischer Natur ist, da es <strong>der</strong> durch λ-Abstraktion gebundenen Argumentstelle in <strong>der</strong><br />
semantischen Repräsentation von Nomen entspricht, z.B. in λx Baum(x). Ähnlich wie das<br />
sog. externe Argument bei Verben ist es bei Derivations- und Flexionsprozessen in systematischer<br />
Weise mit an<strong>der</strong>en Argumenten in <strong>der</strong> Argumentstruktur korreliert, was in den entsprechenden<br />
Abschnitten dieses Kapitels verdeutlicht wird.<br />
Der Typ <strong>der</strong> Merkmale REFARG und EXTARG ist simple_or_dotted_type bzw. simple_type. Die<br />
Subtypen von simple_or_dotted_type zeigt die nächste Abbildung:<br />
uncountable<br />
individual<br />
simple_type<br />
TYPE:entity<br />
countable<br />
group<br />
GROUP_OF:countable<br />
simple_or_dotted_type<br />
dotted_type<br />
TYPES: listof(simple_type)<br />
TYPE_REL:listof(relations)<br />
Abb. 5.3: Strukturierung <strong>der</strong> Wertetypen von REFARG und EXTARG<br />
Der Typ simple_type unterteilt sich in die maximalen Typen uncountable, individual und<br />
group. Nomen mit REFARG:uncountable beziehen sich auf Massennomina, also Stoff- und<br />
Kollektivnomina, die dadurch gekennzeichnet sind, daß sie nicht in den Plural gesetzt werden<br />
können, ohne ihre Singularbedeutung regelgeleitet zu verän<strong>der</strong>n und die auch im Singular<br />
ohne Artikel auftreten können. Während beispielsweise Stahl sich auf ein bestimmtes<br />
Material bezieht, bezieht sich Stähle auf eine Menge von Stahlsorten. Demgegenüber stehen<br />
die abzählbaren Entitäten individual und group; individual denotiert alle eindeutig individuierten<br />
Dinge, wohingegen group Mengen solcher Dinge umfaßt; die Natur dieser ist im<br />
Merkmal GROUP_OF festgehalten. GROUP_OF hat als Werterestriktion wie<strong>der</strong>um countable, so<br />
daß hierdurch auch Gruppen von Gruppen möglich werden, die bei Nomen wie Gruppe<br />
selbst, das bereits im Singular Mengen denotiert, aber auch im Zusammenhang mit den<br />
schon angesprochenen dotted types notwendig sind. Der Plural von Gruppe sähe als Merkmalsstruktur<br />
folgen<strong>der</strong>maßen aus:<br />
3 REFARG wurde auch <strong>des</strong>wegen eingeführt, um die Ungenauigkeiten in Pustejovskys (1995) Konzeption<br />
bzgl. <strong>des</strong> referentiellen Arguments zu beseitigen.<br />
125
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
TYPE: 1 entity<br />
TYPE: 1<br />
TYPE: 1<br />
GROUP_OF: GROUP_OF:<br />
individual<br />
group<br />
group<br />
Abb. 5.4: Plural von „Gruppe“<br />
Aufgrund <strong>der</strong> Existenz <strong>des</strong> Typs individual kann je<strong>der</strong> Merkmalsterm vom Typ group mittels<br />
<strong>der</strong> Äquivalenz 8 (Kapitel 2) vollständig typisiert werden.<br />
Es gibt an<strong>der</strong>e Möglichkeiten, Gruppen und Individuen in Beziehung zu setzen: Link (1991)<br />
und Carpenter (1997) rekonstruieren Gruppen als Subtypen von Individuen, was folgen<strong>der</strong>maßen<br />
axiomatisiert werden könnte:<br />
(5) individual → simple_type<br />
simple_type :: TYPE: entity<br />
group → individual<br />
group :: GROUP_OF: individual<br />
Merkmalsterme vom Typ group könnten auch nach dieser Hierarchie vollständig typisiert<br />
werden, da keine appropriateness loop (vgl. Kapitel 2) vorliegt.<br />
Der Hauptgrund für die Wahl <strong>der</strong> an<strong>der</strong>en, oben beschriebenen Methode <strong>der</strong> Gruppenbildung<br />
liegt aber woan<strong>der</strong>s. Eine methodische Leitlinie bei <strong>der</strong> Konstruktion <strong>der</strong> Wortgrammatik<br />
war, soweit wie möglich vom Mittel <strong>der</strong> Unterspezifikation Gebrauch zu machen. Beinahe<br />
alle vorgenommenen Typisierungen erfolgen auf disjunktive Art und Weise, d.h. ein<br />
Supertyp definiert seine Subtypen aufgrund einer Disjunktion. An<strong>der</strong>e Vorgehensweisen<br />
sind hier möglich, vgl. auch Carpenter (1992: Kap. 2), und in Fällen wie <strong>der</strong> Rekonstruktion<br />
<strong>des</strong> Kasussystems (s. Abschnitt 5.4) wurde auch von <strong>der</strong> konjunktiven Konstruktion Gebrauch<br />
gemacht. Disjunktive Typen machen es möglich, Generalisierungen über Supertypen<br />
zu formulieren, die sich qua Vererbung automatisch auch auf <strong>der</strong>en Subtypen erstrecken; die<br />
Typen countable o<strong>der</strong> morph_or_syn_object sind nur zwei Beispiele hierfür.<br />
Unterspezifikation <strong>des</strong> referentiellen Arguments wird u.a. in den Lexikoneinträgen von Individuennomen<br />
benutzt, also Nomen, die Mengen von Individuen im Singular und Mengen<br />
von Mengen von Individuen im Plural denotieren. Im Lexikon ist ihr referentielles Argument<br />
jedoch lediglich mit countable (unter)spezifiziert, wie das Beispiel in Abb. 5.5 zeigt 4 :<br />
4 Alle im weiteren Verlauf dargestellten Merkmalsstrukturen sind direkt aus <strong>der</strong> Ausgabe <strong>der</strong> in CUF<br />
implementierten <strong>morphologischen</strong> Grammatik entnommen. Die CUF-Terme wurden mit Hilfe <strong>der</strong><br />
selbstgeschriebenen Prolog-Bibliotkek cuf2clig in das Eingabeformat <strong>des</strong> CLIG-Graphers transformiert<br />
(Konrad (1995, 1997)), <strong>der</strong> die Postscript-Ausgabe <strong>der</strong> graphischen Strukturen ermöglichte.<br />
126
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
FORM: Messer<br />
SYN:<br />
SEM:<br />
HEAD:<br />
ARGSTR:<br />
syn<br />
CAT: n<br />
GENDER: neut<br />
noun<br />
RELARG:<br />
DEFARGS:<br />
ARGSTR_ORDER:<br />
noun_argstr<br />
REFARG: TYPE: knife<br />
countable<br />
nominal_semantics<br />
MORPH: morph<br />
simple_stem<br />
Abb. 5.5: Lexikoneintrag von „Messer“<br />
Die Typanhebung von countable zu individual bzw. group wird erst später während <strong>der</strong><br />
Flexion durch das Hinzutreten <strong>des</strong> Numerus-Merkmals ausgelöst, was ausführlich in 5.4.2<br />
dargestellt wird.<br />
Fast ebenso wichtig wie Unterspezifikation ist jedoch das Kriterium <strong>der</strong> Unterscheidbarkeit<br />
von Typen. Beachtenswert ist, daß individual und group im System (5) durch Unifikation<br />
(Konjunktion mit einem an<strong>der</strong>en Merkmalsterm) nicht mehr zu unterscheiden sind. Es zeigt<br />
sich jedoch (wie<strong>der</strong>um muß ich auf Abschnitt 5.4.2 verweisen), daß Flexionsprozesse diese<br />
Differenzierung notwendig machen. Im System (5) könnte die Frage, welchen Subtyp von<br />
countable ein Merkmalsterm X aufweist, nicht durch Konjunktion mit GROUP_OF:entity (X ∧<br />
GROUP_OF:entity) beantwortet werden, da dies auch für individiual gelingen würde. Diese<br />
Frage könnte nur durch einen Subsumptionstest entschieden werden (ein Term ist vom Typ<br />
group, wenn er von group subsumiert wird), <strong>der</strong> aber in den meisten Formalismen nicht zur<br />
Verfügung steht, nicht zuletzt <strong>des</strong>halb, weil er schlecht mit <strong>der</strong> Semantik von konjunktiven<br />
Termen in Einklang zu bringen ist. Ich werde hierauf nochmals in Kapitel 6 zu sprechen<br />
kommen.<br />
Die hier gewählte Mengenrekonstruktion erlaubt die angesprochene Unterscheidung, da <strong>der</strong><br />
Term individual ∧ group inkonsistent ist, d.h. je<strong>der</strong> Merkmalsterm ist, falls er nicht mit<br />
countable unterspezifiziert ist, entwe<strong>der</strong> vom Typ individual o<strong>der</strong> vom Typ group, aber<br />
nicht bei<strong>des</strong>.<br />
Der Typ dotted_type, <strong>der</strong> schon in Kapitel 3.4 angesprochen wurde, dient dazu, die Polysemie<br />
von Nomen wie Museum, aber auch Brot usw. zu repräsentieren, die je nach Satzkontext<br />
mit verschiedenen Begriffen in Verbindung gebracht werden können. Diese verschiedenen<br />
Konzepte – simple types in <strong>der</strong> Terminologie <strong>des</strong> Systems in Abb. 5.3 – werden im Merkmal<br />
TYPES in Form einer Liste repräsentiert, da ich nicht die Einschränkung von Pustejovsky<br />
(1995) auf genau zwei Typen, die zusammen ein sog. lexical conceptual paradigm bilden, machen<br />
wollte. Möglicherweise bieten diese Paradigmen ein größeres Erklärungspotential; ich<br />
habe diese Idee jedoch nicht weiterverfolgt.<br />
Das Merkmal TYPE_REL(ATIONS) ersetzt das uneinheitlich verwendete FORMAL-Merkmal in<br />
Pustejovsky (1995) und dient dazu, die Beziehungen zwischen den einzelnen Subkonzepten<br />
unter TYPES in Form einer Liste von Relationen zu fassen. Nachfolgend ist ein Teil <strong>des</strong> Lexikoneintrags<br />
von Museum wie<strong>der</strong>gegeben:<br />
127
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
FORM: Museum<br />
SYN:<br />
HEAD:<br />
ARGSTR:<br />
syn<br />
SEM: REFARG:<br />
CAT: n<br />
GENDER: neut<br />
noun<br />
RELARG:<br />
DEFARGS:<br />
ARGSTR_ORDER:<br />
noun_argstr<br />
TYPES:<br />
TYPE_REL:<br />
dotted_type<br />
nominal_semantics<br />
MORPH: morph<br />
simple_stem<br />
1<br />
2<br />
3<br />
5<br />
TYPE: institution<br />
countable<br />
TYPE: building<br />
countable<br />
TYPE: 4 human<br />
GROUP_OF:<br />
group<br />
TYPE: 4<br />
countable<br />
TYPE: 6 physical_entity<br />
GROUP_OF:<br />
group<br />
TYPE: 6<br />
countable<br />
RELCONST: contains<br />
RELARGS: 2 ,1<br />
relation<br />
RELCONST: work_for<br />
RELARGS: 3 ,1<br />
relation<br />
RELCONST: exhibits<br />
RELARGS: 1 ,5<br />
relation<br />
Abb. 5.6: Lexikoneintrag von „Museum“<br />
Interessant ist u.U., daß REFARG in (4) mit simple_or_dotted_type typisiert ist, EXTARG jedoch<br />
lediglich mit simple_type. Möglicherweise gibt es im <strong>Deutschen</strong> keine Verben mit <strong>der</strong> Nomen<br />
wie Museum vergleichbaren polysemen Referenz.<br />
Lexikalische Kategorien weisen neben dem externen bzw. referentiellen Argument auch eine<br />
im weitesten Sinne zu verstehende Ereignisstruktur auf, <strong>der</strong>en Typisierungsaxiome in (6)<br />
dargestellt sind:<br />
(6) event ↔ activity | state<br />
eventstr ↔ activity_eventstr ∨ state_eventstr<br />
activity_eventstr ::<br />
EVENT: activity<br />
state_eventstr ::<br />
STATE: state<br />
128
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
transition_eventstr ↔ activity_eventstr ∧ state_eventstr<br />
transition_eventstr ↔ achievement | accomplishment<br />
transition_eventstr ::<br />
EVENTRESTR: eventrestr ∧<br />
EVENTHEAD: event<br />
Der in Abschnitt 3.4.1 beschriebenen Klassifikation <strong>der</strong> Aktionsarten folgend wird die Ereignisstruktur<br />
eines Lexems (hier nicht-partitionierend 5 ) in die Subtypen activity_eventstr<br />
und state_eventstr unterteilt, die jeweils ein Merkmal EVENT bzw. STATE zur genaueren Angabe<br />
<strong>der</strong> Subereignisse aufweisen. Accomplishment- und achievement-Ereignisse sind im Gegensatz<br />
dazu zusammengesetzte Ereignisse, d.h. bestehen aus einer Aktivität und einem sich<br />
daran anschließenden Zustand. Das Merkmal EVENTRESTR gibt die zeitliche Anordnung von<br />
Ereignis und Zustand an; EVENTHEAD hält fest, welches Teilereignis fokussiert ist (vgl. hierzu<br />
auch Pustejovsky (1995:67ff). Zur Illustration ist in Abb. 5.7 <strong>der</strong> Lexikoneintrag für retten<br />
angegeben, dem u.a. entnommen werden kann, daß die Ereignisstruktur von retten aus zwei<br />
geordneten Teilereignissen besteht: einem Ereignis <strong>des</strong> Rettens mit den Rollen Agens, Thema<br />
und Instrument und einem Zustand, wo das Thema <strong>des</strong> erstens Ereignisses Argument eines<br />
Prädikats gerettet ist. Ereignisnominalisierungen wie Rettung können im übrigen auch genau<br />
diese beiden Sachverhalte ausdrücken.<br />
In Abb. 5.7 sieht man weiterhin, wie die Partizipanten <strong>der</strong> Ereignisse mit Elementen aus <strong>der</strong><br />
syntaktischen Argumentstruktur verknüpft sind. Jede Ereignisrolle hat eine Selektionsbeschränkung<br />
(SEL_RESTR), die mit dem referentiellen Argument <strong>der</strong> jeweiligen NP o<strong>der</strong> PP aus<br />
<strong>der</strong> Argumentstruktur koindiziert ist. Die Rolle Instrument, vgl.<br />
(7) Der Parkwächter rettete die Kin<strong>der</strong> mit einem Seil aus dem Wasser<br />
kann hier durch ein Default-Argument wie<strong>der</strong>gegeben werden. Als Thetarollen habe ich die<br />
Standard-Rollen verwendet, die in einigen Fällen allerdings durch Subtyp-Bildung dem jeweiligen<br />
Ereignistyp angepaßt wurden (diese Rollen heißen in Dowty (1989) individuelle<br />
thematische Rollen und sind jeweils verbspezifisch; das Verb geben hätte beispielsweise eine<br />
Rolle Geber usw.). Die Annahme von Thetarollen ist natürlich nicht unproblematisch, wenn<br />
von ihnen das syntaktische und semantische Verhalten von Lexemen abhängig gemacht<br />
wird. Im Rahmen <strong>des</strong> hier dargelegten Systems haben sie allerdings fast immer nur argumentindizierende<br />
Funktion (vgl. Dowty (1989)).<br />
Das listenwertige Merkmal ARGSTR_ORDER schließlich enthält noch so etwas wie eine kanonische<br />
Reihenfolge <strong>der</strong> Elemente aus <strong>der</strong> Argumentstruktur.<br />
In den bisher gezeigten Merkmalsstrukturen erschienen weitere Typen wie human, institution,<br />
relation usw., die einer Konzepthierarchie entstammen, <strong>der</strong>en allgemeinster Typ entity<br />
ist. Diese weitere Hierarchie soll die verwendeten Begriffe ordnen und dient vor allem dazu,<br />
Generalisierungen über Selektionsbeschränkungen, wie sie bei <strong>der</strong> Komposition benutzt<br />
werden, auszudrücken. Ein Teil dieser Hierarchie ist wie<strong>der</strong>um in (8) auf S. 131 wie<strong>der</strong>gegeben.<br />
5 Unter Typenpartitionierung werden Typaxiome <strong>der</strong> Form t ↔ t1 | t2 | ... | tn verstanden. Der Typ t<br />
wird demnach in paarweise inkonsistente Subtypen zerlegt. Dies ist bei Typenaxiomen <strong>der</strong> Form t ↔<br />
t1 ∨ t2 ∨ ... ∨ tn nicht <strong>der</strong> Fall, d.h. die Schnittmengen <strong>der</strong> Denotate zweier Subtypen müssen nicht leer<br />
sein (vgl. auch Kap. 2). Im Beispielfall darf keine Typenpartitionierung vorgenommen werden, da <strong>der</strong><br />
Typ transition_eventstr ein gemeinsamer Subtyp von activity_eventstr und state_eventstr ist.<br />
129
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
FORM: rett<br />
SYN:<br />
SEM:<br />
HEAD:<br />
ARGSTR:<br />
syn<br />
CAT: v<br />
verb<br />
EXTARG: 2<br />
SUBJ: 1<br />
DIR_OBJ: 3<br />
INDIR_OBJ:<br />
PREP_OBJ:<br />
SYN: HEAD:<br />
SEM:<br />
SENT_COMPL:<br />
syn<br />
CAT: n<br />
CASE: struc_case<br />
noun<br />
REFARG: 2 TYPE: human<br />
countable<br />
nominal_semantics<br />
morph_or_syn_object ∧ sign_elist<br />
SYN: HEAD:<br />
SEM:<br />
DEFARGS: 5<br />
syn<br />
CAT: n<br />
CASE: struc_case<br />
noun<br />
REFARG: 4 TYPE: animate_ind<br />
countable<br />
nominal_semantics<br />
morph_or_syn_object ∧ sign_elist<br />
ARGSTR_ORDER: 1 ,3,5<br />
verbal_argstr<br />
CONTENT: EVENTSTR:<br />
verbal_semantics<br />
MORPH: morph<br />
simple_stem<br />
lexical_content<br />
SEM: REFARG: 6 TYPE: tool<br />
countable<br />
nominal_semantics<br />
morph_or_syn_object<br />
EVENT: 7<br />
STATE:<br />
EVENT_TYPE: rescue<br />
ROLES:<br />
event<br />
8<br />
ROLE: agent<br />
SEL_RESTR: 2<br />
role<br />
ROLE: theme<br />
SEL_RESTR: 4<br />
role<br />
ROLE: instrument<br />
SEL_RESTR: 6<br />
role<br />
RELCONST: rescued<br />
RELARGS: 8<br />
state<br />
EVENTRESTR: event_sequence<br />
EVENTHEAD: 7<br />
accomplishment<br />
Abb. 5.7: Lexikoneintrag von “retten”<br />
130
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(8) entity ↔ physical_entity | abstract_entity<br />
physical_entity ↔ animate_ind | inanimate_ind<br />
animate_ind ↔ human | nonhuman<br />
nonhuman ↔ animal | plant<br />
inanimate_ind ↔ matter | physical_obj<br />
matter ↔ solid_state | liquid<br />
solid_state ↔ metal | stone | china | paper | glass<br />
liquid ↔ water | oil<br />
physical_obj ↔ book | musical_instrument | tool | food | place<br />
tool ↔ knife | cup | blade<br />
food ↔ bread | cake<br />
place ↔ building | room<br />
factory → building<br />
abstract_entity ↔ temporal | nontemporal<br />
event → temporal<br />
activity → event<br />
nontemporal ↔ abstract_obj | abstract_nonobj<br />
abstract_obj ↔ institution<br />
abstract_nonobj ↔ information | property | relation | collection<br />
text → information<br />
state → relation<br />
Diese Hierarchisierung ist nun weit davon entfernt, vollständig zu sein, son<strong>der</strong>n an die Beispiellexikoneinträge<br />
angepaßt; sie könnte durch weitere Kreuzklassifikation auch noch genauere<br />
Unterscheidungen zulassen. Welchen Typ man welcher Entität zuweist, ist bei genauerer<br />
Betrachtung auch weniger wichtig als man auf den ersten Blick annehmen würde.<br />
Entscheiden<strong>der</strong> ist m.E., wie sich die Typen von Argumenten komplexer Wörter während<br />
verschiedener Wortbildungsprozesse auf die Typen ihrer Bestandteile beziehen lassen.<br />
Neben frei vorkommenden Lexemen enthält das Lexikon auch noch Einträge für Präfixe und<br />
Flexions-/Derivationssuffixe; allesamt werden sie in Form einer Sorte morph/1 repräsentiert.<br />
Bevor die morphologische Einsetzung erläutert wird, noch kurz etwas zum Aufbau <strong>der</strong><br />
<strong>morphologischen</strong> Grammatik. Diese besteht aus Klauseln einer dreistelligen Sorte<br />
cat(Category, List0, List1)<br />
die mit cat(morph_or_syn_object, list, list) -> morph_or_syn_object typisiert ist. Das erste<br />
Argument von cat/3 ist die zu parsende Kategorie, die beiden letzten Argumente sind die<br />
Listen, <strong>der</strong>en Differenz die von ihr dominierten Wörter ergibt. Der Funktionswert von cat/3<br />
ist <strong>der</strong> dieser Kategorie zugeordnete Merkmalsterm.<br />
Die morphologische Einsetzung erfolgt durch zwei Klauseln von cat/3: 6<br />
6 Zur größeren Klarheit nochmals eine Erläuterung zu dieser Art von Sorten: bei einer rückwärtverkettenden<br />
Beweisstrategie (wie sie beispielsweise <strong>der</strong> zur Implementierung verwendete Formalismus<br />
CUF verwendet) wird die Variable Cat an den vollständigen Merkmalsterm <strong>des</strong> zu beweisenden Subziels<br />
gebunden. Dieser Merkmalsterm muß mit dem aus dem Morph-Lexikon für Graph ermittelten<br />
Merkmalsterm konsistent sein; in diesem Falle wird die normalisierte Konjunktion bei<strong>der</strong> Terme<br />
zurückgegeben.<br />
131
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(Regel Ia,b: morphologische Einsetzung)<br />
cat(Cat, [Graph|L], L) ←<br />
Cat ∧ morph(Graph)<br />
cat(Cat, L, L) ←<br />
Cat ∧ morph(nil)<br />
Die erste Klausel dient zur Einsetzung von an <strong>der</strong> Wortoberfläche realisierten Kategorien,<br />
die zweite zum Einsetzen leerer Kategorien (wie beispielsweise Flexiven), die durch <strong>der</strong> speziellen<br />
Konstante nil gekennzeichnet sind.<br />
5.2 Derivation<br />
5.2.1 Syntax<br />
Eine formale Integration von Komposition und Derivation ist aus vielen Gründen erstrebenswert,<br />
jedoch, wie ich schon an verschiedenen Stellen versucht habe zu zeigen, nicht<br />
ohne weiteres möglich. Vertreter dieser Idee müssen erklären, warum die meisten Derivationsaffixe<br />
rechts vom Stamm stehen müssen, warum beispielsweise *Ungumleit (statt Umleitung)<br />
nicht möglich ist. Ausflucht zu nehmen zu zweifelhaften Merkmalen wie POS(ITION)<br />
(mit Werten left und right), wie dies in Krieger (1994) geschieht, ist linguistisch natürlich<br />
nicht befriedigend und verschleiert als Pseudo-Erklärung die Angelegenheit eher. Mir ist<br />
keine Erklärung bekannt – vielleicht gibt es auch keine, da das die Sprache erwerbende Kind<br />
an positiven Evidenzen die richtige Unterscheidung festlegen kann – und daher nehme ich<br />
zwei Derivationsregeln an, eine für die Präfigierung und eine für die Suffigierung:<br />
(Regel II, Präfigierung)<br />
cat(complex_stem ∧ Stem, L0,L2) ←<br />
Stem ∧<br />
true(cat(prefix, L0,L1) ∧ Prefix) ∧<br />
true(cat(simple_or_complex_stem, L1,L2) ∧ Stem1) ∧<br />
unified_head_features([Stem1]) ∧<br />
morph_subcat_principle(Prefix, Stem1) ∧<br />
GRAPH: diff(L0, L2) 7 ∧<br />
STRUCTURE: [Prefix,Stem1]<br />
(Regel III, Suffigierung)<br />
cat(complex_stem ∧ Stem, L0,L3) ←<br />
Stem ∧<br />
true(cat(simple_or_complex_stem, L0,L1) ∧ Stem1) ∧<br />
true(cat(linking_morph, L1,L2)) ∧<br />
true(cat(<strong>der</strong>ivative, L2,L3) ∧ Suffix) ∧<br />
unified_head_features([Suffix]) ∧<br />
morph_subcat_principle(Suffix, Stem1) ∧<br />
GRAPH: diff(L0, L3) ∧<br />
STRUCTURE: [Stem1,Suffix]<br />
7 diff/2 ist eine Funktion, die aus den zwei Argumentlisten <strong>der</strong>en Differenz berechnet und als Liste<br />
zurückgibt.<br />
132
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Die Position <strong>des</strong> Affixes relativ zum Stamm ist durch die Regel selbst und eine Klassifizierung<br />
<strong>der</strong> Derivationsaffixe in Präfixe und Suffixe gegeben. Hervorhebenswert ist, daß diese<br />
Regeln aufgrund <strong>der</strong> Vererbungshierarchie jeweils zwei „herkömmliche“ Strukturregeln<br />
repräsentieren, eine für zusammengesetzte Stämme und eine für Simplexstämme. Hierdurch<br />
werden im übrigen auch strukturelle Ambiguitäten bei gleichzeitiger Prä- und Suffigierung<br />
erzeugt. Ein Wort wie Unrettbarkeit hat hiernach die Klammerungen [Un [Rettbarkeit]] und<br />
[unrettbar [keit]]. Beide Regeln sind darüber hinaus rekursiv, erlauben also beliebig viele Präfixe<br />
und Suffixe . Dies scheint bei <strong>der</strong> Präfigierung auch gerechtfertigt zu sein, man denke an<br />
Vor*version (vgl. Krieger (1994)) o<strong>der</strong> vor*letzer. Bei <strong>der</strong> Suffigierung scheint dies ausgeschlossen,<br />
vermutlich <strong>des</strong>halb, weil Suffixe kategorieverän<strong>der</strong>nd wirken und zusätzlich<br />
Kopfeigenschaften haben; hierdurch ist ausgeschlossen, daß sich eine Derivation selbst<br />
„füttert“.<br />
In beiden Regeln vererbt <strong>der</strong> jeweils am weitesten rechts stehende Wortbestandteil seine<br />
syntaktischen und semantischen Kopfmerkmale mit <strong>der</strong> Funktion unified_head_features/1 an<br />
die Mutterkategorie:<br />
(9) unified_head_features(HF) ←<br />
syn_head_features(HF) ∧<br />
morph_head_features(HF)<br />
syn_head_features([]) ← ><br />
syn_head_features([SYN:HEAD: H|Rest]) ←<br />
SYN:HEAD: H ∧ syn_head_features(Rest)<br />
morph_head_features([]) ← ><br />
morph_head_features([MORPH:MHEAD: H|Rest]) ←<br />
MORPH:MHEAD: H ∧ morph_head_features(Rest)<br />
Die Sorten syn_head_features/1 und morph_head_features/1 und sind rekursiv, da bei <strong>der</strong> Flexion<br />
mehr als eine Kategorie zu den Kopfmerkmalen beiträgt (s.a. 5.4).<br />
Zentraler Teil bei<strong>der</strong> Affigierungsregeln ist das sog. morphologische Subkategorisierungsprinzip<br />
(morph_subcat_principle/2). Ritchie et al. (1992), Antworth (1994) und Krieger (1994) folgend<br />
nehme ich an, daß Affixe ihre benachbarten Stämme subkategorisieren, sie demnach in ihrer<br />
lexikalischen Matrix Angaben zu syntaktischen und <strong>morphologischen</strong> Eigenschaften <strong>der</strong><br />
Stämme machen, zu denen sie treten können. Ich verwende hierzu ein Merkmal NEEDS, das<br />
durch den Typ affix_subcat eingeführt wird.<br />
(10) affix_subcat → morph_subcat<br />
affix_subcat :: NEEDS: morph_object_or_elist<br />
NEEDS hat den Wert elist, wenn eine Subkategorisierungsanfor<strong>der</strong>ung „gesättigt“ wurde und<br />
ist bei frei vorkommenden Morphemen unterspezifiziert; Merkmale wie ± GEBUNDEN<br />
erübrigen sich damit.<br />
Die Funktion morph_subcat_principle(Affix, Stamm) in den Regeln II und III ist relativ einfach:<br />
(11) morph_subcat_principle(MORPH:MSUBCAT:NEEDS: Stem ∧<br />
SYN:ARGSTR: AffixSC ∧ SEM:Sem, Stem) ←<br />
MORPH:MSUBCAT:NEEDS: elist ∧<br />
SYN:ARGSTR: AffixSC ∧ SEM: Sem.<br />
Die Funktion überprüft demnach, ob <strong>der</strong> Stamm den Anfor<strong>der</strong>ungen <strong>des</strong> Affixes entspricht<br />
und gibt dann die syntaktische Argumentstruktur und Semantik <strong>des</strong> Affixes als Wert<br />
zurück. Da Affixe selbst diese Eigenschaften nicht haben, kann dies nur dann korrekt sein,<br />
133
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
wenn das Affix die Werte, die <strong>der</strong> Stamm unter SYN:ARGSTR und SEM trägt, an sich zieht und<br />
in einer dem Affix entsprechenden Weise verän<strong>der</strong>t. Dies wird im Lexikoneintrag <strong>des</strong><br />
Affixes festgelegt (ausführliche Beispiele folgen weiter unten).<br />
5.2.2 Semantik<br />
Von welcher Art ist nun <strong>der</strong> semantische Beitrag von Affixen? Traditionellerweise werden<br />
Affixe als semantisch leere Operatoren betrachtet, die die Bedeutung <strong>des</strong> Stammes verän<strong>der</strong>n.<br />
Um dies zu repräsentieren, habe ich folgende Typenaxiome zugrundegelegt:<br />
(12) content ↔ lexical_content | operator_content<br />
one_place_operator_struct → operator_content<br />
operator_content ::<br />
OPERATOR: operator<br />
one_place_operator_struct ::<br />
SCOPE: content<br />
operator ↔ one_place_operator | two_place_operator<br />
one_place_operator ↔ op_modality | op_negation | op_abstraction |op_identity<br />
op_modality ↔ op_possibility | op_necessity<br />
Der semantische Beitrag eines Affixes besteht demzufolge aus einem ein- o<strong>der</strong> zweistelligen<br />
Operator und seinem Wirkungsbereich:<br />
(13) OPERATOR: operator<br />
SCOPE: content<br />
one_place_operator_struct<br />
Da <strong>der</strong> Wert von SCOPE auf den Typ content eingeschränkt ist, <strong>der</strong> als Subtyp<br />
operator_content aufweist, können Operatoren ineinan<strong>der</strong> verschachtelt werden, was bei<br />
Mehrfachsuffigierung (Beispiele: Unrettbarkeit, Freiheitlichkeit) auch geboten erscheint.<br />
Suffixe wie -ung leisten noch nicht mal einen funktionalen Beitrag und scheinen bloße Nominalisierer<br />
zu sein; bei ihnen könnte man einen Identitätsoperator annehmen. Ich habe es<br />
jedoch vorgezogen, in diesen Fällen die OPERATOR/SCOPE-Teilstruktur ganz wegzulassen.<br />
Betrachten wir im folgenden einige Beispiele.<br />
5.2.2.1 -bar<br />
Suffigierung mit -bar wurde schon in Krieger (1994) dargestellt; es wird hier <strong>der</strong> Vollständigkeit<br />
halber in meinem Grammatiksystem wie<strong>der</strong>holt. Abb. 5.8 zeigt den Lexikoneintrag<br />
für „bar“. Wie daraus ersichtlich, spezifiziert -bar im NEEDS-Merkmal Verben mit direktem<br />
Objekt. Via Koindizierung 3 wird die mit diesem Objekt verknüpfte Selektionsbeschränkung<br />
an das referentielle Argument <strong>des</strong> bar-Adjektivs vererbt und <strong>der</strong> semantische Gehalt<br />
<strong>des</strong> Verbs ( 2 ) in den Skopus <strong>des</strong> Möglichkeitsoperators gebracht. Das Subjekt <strong>des</strong> Verbs<br />
(genauer gesagt: sein SEM:REFARG-Wert) erscheint schließlich in <strong>der</strong> DEFARGS-Liste <strong>der</strong> Gesamtstruktur;<br />
hier kann es durch Regel VII beispielsweise als PP mit <strong>der</strong> Präposition von<br />
o<strong>der</strong> durch verwirklicht werden (s.a. 5.4). Die Werte von SYN:ARGSTR und SEM werden bei<br />
Anwendung <strong>der</strong> Suffigierungsregel durch das morphologische Subkategorisierungsprinzip<br />
vom Affix an das zusammengesetzte Adjektiv weitergereicht.<br />
134
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
FORM: bar<br />
SYN:<br />
SEM:<br />
HEAD:<br />
ARGSTR:<br />
syn<br />
MORPH:<br />
suffix<br />
CAT: a<br />
adjective<br />
INTARG:<br />
DEFARGS: 1<br />
ARGSTR_ORDER: 1<br />
adj_argstr<br />
REFARG: 3 simple_or_dotted_type<br />
CONTENT:<br />
nominal_semantics<br />
SYN: HEAD:<br />
syn<br />
CAT: p<br />
SEM: 2 semantics<br />
DP_CASE: ldat<br />
PFORM: von<br />
preposition<br />
morph_or_syn_object<br />
OPERATOR: op_possibility<br />
SCOPE: 4 content<br />
one_place_operator_struct<br />
MSUBCAT: NEEDS:<br />
morph<br />
SYN:<br />
SEM:<br />
affix_subcat<br />
HEAD:<br />
ARGSTR:<br />
syn<br />
CAT: v<br />
verb<br />
CONTENT: 4<br />
semantics<br />
SUBJ:<br />
DIR_OBJ:<br />
SEM: 2<br />
INDIR_OBJ:<br />
PREP_OBJ:<br />
SENT_COMPL:<br />
verbal_argstr<br />
morph_or_syn_object ∧ sign_elist<br />
SEM: REFARG: 3<br />
nominal_semantics<br />
morph_or_syn_object ∧ sign_elist<br />
morph_object_or_elist ∧ morph_or_syn_object<br />
Abb. 5.8: Lexikoneintrag von „bar“.<br />
Die Semantik eines komplexen Adjektivs wie rettbar sähe dann wie in <strong>der</strong> nächsten Abbildung<br />
gezeigt aus (einige Details wurden ausgelassen):<br />
SEM:<br />
REFARG: 3<br />
CONTENT:<br />
TYPE: animate_ind<br />
individual<br />
nominal_semantics<br />
syntactic_atom<br />
OPERATOR: op_possibility<br />
SCOPE: EVENTSTR:<br />
lexical_content<br />
one_place_operator_struct<br />
EVENT: 4<br />
STATE:<br />
EVENT_TYPE: rescue<br />
ROLES:<br />
event<br />
ROLE: agent<br />
SEL_RESTR: 2<br />
role<br />
RELCONST: rescued<br />
RELARGS: 5<br />
state<br />
accomplishment<br />
Abb. 5.9: SEM-Wert von „rettbar“<br />
135<br />
,5<br />
ROLE: instrument<br />
ROLE: theme<br />
SEL_RESTR: 3<br />
role<br />
, SEL_RESTR:<br />
role<br />
TYPE: tool<br />
countable
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Logisch kann -bar so gedeutet werden, daß es die Ereignisstruktur eines Verbs in den Skopus<br />
<strong>des</strong> Möglichkeitsoperators bringt, vgl.<br />
(14) λx ◊ ∃e [event(e) ∧ type(e,rescue) ∧ theme(e,x)]<br />
5.2.2.2 -ung<br />
Wie schon mehrfach gesagt, bewirkt -ung die Nominalisierung <strong>der</strong> durch accomplishment-<br />
Verben ausgedrückten Ereignisse. Man kann dies nachbilden, indem man die Teilereignisse<br />
activity und state <strong>der</strong> verbalen Ereignisstruktur zu Elementen <strong>des</strong> dotted types <strong>des</strong> abgeleiteten<br />
Nominals macht. Der (etwas vereinfachte) Lexikoneintrag von -ung, <strong>der</strong> dies zusammen<br />
mit dem Subkategorisierungsprinzip bewerkstelligt, sieht folgen<strong>der</strong>maßen aus:<br />
(15) morph("ung") ←<br />
FORM:"ung" ∧<br />
suffix ∧<br />
SYN:HEAD:(noun ∧ CAT:n ∧ GENDER:fem) ∧<br />
decl_class(dc_III,dc_III) ∧<br />
MORPH:MSUBCAT:NEEDS: (<br />
SYN:(HEAD: verb ∧<br />
ARGSTR:(SUBJ: Subj ∧ DIR_OBJ: DirObj ∧ DEFARGS: Defargs ∧<br />
INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] )) ∧<br />
SEM:CONTENT:EVENTSTR: (accomplishment ∧ EVENT: E1 ∧ STATE: E2 )) ∧<br />
SEM:REFARG:(dotted_type ∧ TYPES: [countable ∧ TYPE: E1, countable ∧ TYPE: E2]) ∧<br />
( objectivus(Subj, DirObj, Defargs) ∨<br />
subjectivus(Subj, DirObj, Defargs) )<br />
Nominalisierungen mit -ung können auf zwei Weisen verstanden werden: als Subjektivus<br />
und als Objektivus (vgl. auch Eisenberg (1998)):<br />
(16) a) die Prüfung durch Beamte <strong>des</strong> BKA ergab ...<br />
b) die Prüfung <strong>der</strong> Beamten durch die Gauk-Behörde ergab ...<br />
Diese beiden Lesarten, die einem übrigens auch in den korrespondierenden Rektionskomposita<br />
wie<strong>der</strong> begegnen, werden durch die beiden Funktionen subjectivus/3 und objectivus/3<br />
erzeugt 8 :<br />
(17) subjectivus(SEM:SubjSem, DirObj, Defargs) ←<br />
SYN:ARGSTR:RELARG: (Rel ∧ SEM: SubjSem) ∧<br />
SYN:ARGSTR:DEFARGS: [] ∧<br />
SYN:ARGSTR:ARGSTR_ORDER: [Rel]<br />
objectivus(SEM:SubjSem, DirObj, Defargs) ←<br />
SYN:ARGSTR:RELARG: DirObj ∧<br />
SYN:ARGSTR:DEFARGS: append(Defargs, [Subj ∧ SEM: SubjSem]) ∧<br />
SYN:ARGSTR:ARGSTR_ORDER: append([DirObj], [Subj])<br />
Die erste Funktion macht die Semantik <strong>des</strong> Verbsubjekts zur Semantik <strong>des</strong> relationalen Arguments.<br />
Die Subjektivus-Lesart läßt, an<strong>der</strong>s als <strong>der</strong> Objektivus, keine Default-Argumente<br />
zu. Die objectivus-Funktion macht das direkte Objekt <strong>des</strong> Verbs zum internen <strong>der</strong> Nominali-<br />
8 Die Funktionen sind aus Gründen <strong>der</strong> Anschaulichkeit leicht vereinfacht.<br />
136
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
sierung und ergänzt die Liste <strong>der</strong> Default-Argumente um das Subjekt. Die nächste Abbildung<br />
zeigt die Subjektivus-Lesart von Prüfung.<br />
GRAPH: prüf , ung , $<br />
SYN:<br />
SEM:<br />
NUM: sg<br />
HEAD:<br />
noun<br />
ARGSTR:<br />
syn<br />
REFARG:<br />
RELARG: 1<br />
DEFARGS:<br />
SYN:<br />
SEM:<br />
phrase<br />
ARGSTR_ORDER: 1<br />
noun_argstr<br />
TYPES:<br />
TYPE_REL:<br />
dotted_type<br />
CONTENT: no_content<br />
nominal_semantics<br />
syntactic_atom<br />
HEAD: noun<br />
syn<br />
3 TYPE:<br />
REFARG: 2 TYPE: human<br />
countable<br />
nominal_semantics<br />
individual<br />
7 TYPE:<br />
individual<br />
EVENT_TYPE: check<br />
ROLES:<br />
4<br />
5<br />
6<br />
ROLE: agent<br />
SEL_RESTR: 2<br />
role<br />
ROLE: theme<br />
SEL_RESTR:<br />
role<br />
ROLE: instrument<br />
SEL_RESTR:<br />
role<br />
ACCESSIBLE_ROLES: 4 , 5 , 6<br />
event<br />
RELCONST: checked<br />
RELARGS: 5<br />
state<br />
RELCONST: event_sequence<br />
RELARGS: 3 , 7<br />
relation<br />
TYPE: entity<br />
simple_type<br />
TYPE: tool<br />
countable<br />
Abb. 5.10: Subjektivus-Lesart von „Prüfung“<br />
Für suffixlose Ereignisnominalisierungen (z.B. verkaufen – Verkauf) ist ein ähnlicher Lexikoneintrag<br />
mit einem leeren Suffix wohl am einfachsten zu realisieren.<br />
137
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
5.2.2.3 -er<br />
Nominalisierungen von accomplishment-Verben mit -er erzeugen beim Derivat typische<br />
Agens-Instrument-Alternationen (vgl. Prüfer, Bohrer, Retter), sofern die Ereignisstruktur <strong>des</strong><br />
Verbs eine Instrument-Rolle enthält. Ist dies nicht <strong>der</strong> Fall, wie z.B. bei Renovierer, so tritt in<br />
<strong>der</strong> Regel nur die Agens-Lesart hervor.<br />
Aktivitätsverben wie arbeiten und laufen erlauben ebenfalls Bildungen mit -er. Allen Verbtypen<br />
ist gemeinsam, daß das externe Argument <strong>des</strong> Verbs zum referentiellen Argument <strong>des</strong><br />
Nomens wird.<br />
Der Lexikoneintrag von -er, <strong>der</strong> dies zu repräsentieren versucht, sieht so aus:<br />
(18) morph("er") ←<br />
FORM: "er" ∧<br />
suffix ∧<br />
SYN:HEAD: (noun ∧ CAT: n ∧ GENDER: masc) ∧<br />
decl_class(dc_I,dc_II) ∧<br />
MORPH:MSUBCAT:NEEDS: (<br />
SYN:HEAD: verb ∧<br />
SYN:ARGSTR:(SUBJ: Subj ∧ DIR_OBJ: DirObj ∧<br />
INDIR_OBJ:[] ∧ DEFARGS: DefArgs) ∧<br />
SEM: Sem) ∧<br />
process_or_accomplishment_verb(SEM: Sem) ∧<br />
agent_instrument(SEM: Sem, Subj, DirObj, SYN:ARGSTR:DEFARGS: DefArgs)<br />
Die Funktion process_or_accomplishment_verb/1 prüft, ob es sich um den richtigen Verbtyp<br />
handelt; agent_instrument/4 ist eine Funktion, die das referentielle Argument <strong>des</strong> Nomens in<br />
Abhängigkeit vom Ereignistyp <strong>des</strong> Verbs realisiert und auf <strong>der</strong>en Wie<strong>der</strong>gabe ich hier verzichte<br />
(<strong>der</strong> geneigte Leser kann sich <strong>der</strong>en Aussehen mittlerweile bestimmt schon vorstellen;<br />
in Anhang C.3 findet sie sich zudem in <strong>der</strong> CUF-Implementierung dieser Grammatik).<br />
Abb. 5.11 zeigt die er-Nominalisierung eines Aktivitätsverbs, Abb. 5.12 die eines Accomplishment-Verbs.<br />
GRAPH: arbeit , er , $<br />
SYN:<br />
SEM:<br />
HEAD: NUM: sg<br />
noun<br />
syn<br />
REFARG: 1<br />
CONTENT:<br />
TYPE: human<br />
individual<br />
OPERATOR: op_possibility<br />
SCOPE:<br />
nominal_semantics<br />
syntactic_atom<br />
EVENTSTR: EVENT:<br />
lexical_content<br />
one_place_operator_struct<br />
EVENT_TYPE: work<br />
ROLES: 2<br />
ROLE: worker<br />
SEL_RESTR: 1<br />
role<br />
ACCESSIBLE_ROLES: 2<br />
event<br />
activity_eventstr<br />
Abb. 5.11: <strong>Analyse</strong> von „Arbeiter“<br />
138
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
GRAPH: prüf , er , $<br />
SYN:<br />
SEM:<br />
HEAD: NUM: sg<br />
noun<br />
syn<br />
REFARG: TYPES:<br />
CONTENT:<br />
1<br />
2<br />
dotted_type<br />
nominal_semantics<br />
syntactic_atom<br />
TYPE: human<br />
individual<br />
TYPE: tool<br />
individual<br />
OPERATOR: op_possibility<br />
SCOPE: EVENTSTR:<br />
lexical_content<br />
one_place_operator_struct<br />
EVENT:<br />
STATE:<br />
EVENT_TYPE: check<br />
ROLES:<br />
3<br />
4<br />
5<br />
ROLE: agent<br />
SEL_RESTR: 1<br />
role<br />
ROLE: theme<br />
SEL_RESTR:<br />
role<br />
ROLE: instrument<br />
SEL_RESTR: 2<br />
role<br />
ACCESSIBLE_ROLES: 3 , 4 , 5<br />
event<br />
RELCONST: checked<br />
RELARGS: 4<br />
state<br />
accomplishment<br />
Abb. 5.12: <strong>Analyse</strong> von „Prüfer“<br />
TYPE: entity<br />
simple_type<br />
Wie aus Abb. 5.11 ersichtlich ist, befindet sich das „Arbeitsereignis“ im Skopus eines Möglichkeitsoperators.<br />
Der Grund dafür ist, daß ein Arbeiter üblicherweise auch dann Arbeiter<br />
genannt wird, wenn er gerade nicht arbeitet. Weitere Verwendungen <strong>des</strong> Möglichkeitsoperators<br />
finden sich im Abschnitt über die Komposition 5.3.2.<br />
Die <strong>Analyse</strong> von Prüfer in Abb. 5.12 zeigt im referentiellen Argument die Alternation von<br />
Agens und Instrument.<br />
Die habituelle Lesart, die den er-Nominalisierungen weiterhin zukommt, wird man wohl<br />
durch ein Bedeutungspostulat herstellen müssen.<br />
139
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
5.2.2.4 be-<br />
Auch wenn man sich darüber streiten kann, ob be- ein produktives Präfix ist 9 , so möchte ich<br />
doch die von einigen Autoren (vgl. Wun<strong>der</strong>lich (1987)) festgestellte Argumentalternation im<br />
hier verwendeten System formalisieren. (19) zeigt den Lexikoneintrag für die Variante von<br />
be-, die zu intransitiven Verben mit Präpositionalobjekt (z.B. staunen) treten kann:<br />
(19) morph("be") ←<br />
FORM: "be" ∧<br />
prefix ∧<br />
MORPH:MSUBCAT:NEEDS: (<br />
SYN:HEAD: verb ∧<br />
SYN:ARGSTR:(SUBJ: (S ∧ SEM:REFARG: SubjSem) ∧<br />
DIR_OBJ:[] ∧ INDIR_OBJ:[] ∧ SENT_COMPL:[] ∧<br />
PREP_OBJ:SEM:PO_Sem ∧ DEFARGS: Defargs) ∧<br />
SEM:CONTENT: Cont ) ∧<br />
SYN:ARGSTR:(<br />
SUBJ:S ∧<br />
DIR_OBJ: (DO ∧ SYN:HEAD: (noun ∧ CASE: struc_case) ∧ SEM: PO_Sem) ∧<br />
PREP_OBJ:[] ∧ INDIR_OBJ:[] ∧ SENT_COMPL:[] ∧ DEFARGS: Defargs) ∧<br />
ARGSTR_ORDER: [S, DO] ) ∧<br />
SEM:(EXTARG: SubjSem ∧ CONTENT: Cont)<br />
Das be-Präfix nimmt demnach die Semantik <strong>des</strong> Präpositionalobjekts und realisiert sie als<br />
Nominal mit strukturellem Kasus.<br />
Allerdings legen Präfigierungsregel zusammen mit dem Lexikoneintrag (19) beträchtliche<br />
Übergenerierung an den Tag. Möchte man diese vermeiden, so wäre es möglich, diejenigen<br />
Verben, die mit (19) kompatibel sind, mit einem Typ be_prefixable zu versehen, und in (19)<br />
unter MORPH:MSUBCAT:NEEDS diesen Typ mit anzugeben. Für die Wortbildung wäre dann<br />
zwar nichts gewonnen (es wäre ja möglich, zu allen diesen Verben ihr entsprechen<strong>des</strong> be-<br />
Verb auch gleich ins Lexikon aufzunehmen), man hätte jedoch eine regelgeleitete Beziehung<br />
in Form einer lexikalischen Redundanzregel eingeführt, die ihren Nie<strong>der</strong>schlag in <strong>der</strong> solcherart<br />
verän<strong>der</strong>ten Fassung von (19) finden würde.<br />
5.2.2.5 Weitere Affixe<br />
An<strong>der</strong>e in die Grammatik integrierte Affixe fallen in die gleichen Schemata wie die schon<br />
erwähnten. Das Präfix un- subkategorisiert Nomen und Adjektive und bringt <strong>der</strong>en Semantik<br />
in den Skopus eines Negationsoperators; -heit/keit drückt Abstraktheit durch einen Abstraktionsoperator<br />
aus.<br />
9 von den 165 be-Verben in Heilmanns Verb-Datenbank (1991) zeigen 20 zweiwertige und lediglich 5<br />
dreiwertige be-Verben diese Alternation.<br />
140
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
5.3 Komposition<br />
5.3.1 Syntax<br />
Für die Syntax von Komposita ist eine einzige Regel vorgesehen:<br />
(Regel IV, Komposition)<br />
cat(complex_stem ∧ Stem, L0,L3) ←<br />
Stem ∧<br />
true(cat(simple_or_complex_stem, L0,L1) ∧ Stem1) ∧<br />
true(cat(linking_morph, L1,L2)) ∧<br />
true(cat(simple_or_complex_stem, L2,L3) ∧ Stem2) ∧<br />
unified_head_features([Stem2]) ∧<br />
semantics_construction(Stem1, Stem2) ∧<br />
GRAPH: diff(L0,L3) ∧<br />
structure: [Stem1,Stem2]<br />
Der Einfachheit halber wird das optionale Fugenelement linking_morph gleich zwischen<br />
Erst- und Zweiglied gesetzt und nicht erst, wie in Fanselow (1981), eine separate Erstgliedform<br />
konstruiert. Da nicht je<strong>des</strong> Kompositum Fugenelemente enthält, kann linking_morph<br />
auch als leere Kategorie realisiert werden. Möchte man auf leere Fugenelemente verzichten,<br />
kann man noch ein zweites Schema ohne linking_morph annehmen.<br />
Unter strukturellen Gesichtspunkten erwähnenswert ist bei Regel IV zweierlei:<br />
1) Da simple_or_complex_stem ein Supertyp sowohl von simple_stem als auch von<br />
complex_stem ist, können diese Konstituenten auf <strong>der</strong> rechten Seite von Regel IV einfach<br />
o<strong>der</strong> selbst wie<strong>der</strong>um strukturiert sein. Regel IV repräsentiert demnach vier verschiedene<br />
Wortstrukturregeln. Die Mutterkategorie ist jedoch in jedem Fall vom Typ complex_stem,<br />
weist daher auch ein STRUCTURE-Merkmal auf, welches in Listenform (außer<br />
linking_morph) die unmittelbaren Konstituenten enthält.<br />
2) Regel IV führt Ambiguitäten ein und erlaubt somit, eine Kette von mehr als zwei Morphemen<br />
auf unterschiedliche Weise zu strukturieren. Rein strukturell induzierte Präferenzen<br />
hierfür scheinen zumin<strong>des</strong>t für die deutsche Komposition nicht zu existieren.<br />
Die Funktion unified_head_features/1 stellt die Merkmalsperkolation zwischen <strong>der</strong> am<br />
weitesten rechts stehenden Tochterkategorie und <strong>der</strong> Mutter her.<br />
Die Interaktion zwischen Schemata und Typenhierarchie gewährleistet noch einen weiteren<br />
Punkt. Das Deutsche zeigt keine Binnenflexion, d.h. Komposita und Derivate können Flexionsaffixe<br />
nur ganz außen enthalten. Gegenbeispiele hierzu wie Müttergenesungswerk o<strong>der</strong><br />
Professorenclub sind nur scheinbare, wie schon vielfach nachgewiesen wurde. Als Erstglie<strong>der</strong><br />
kommen beispielsweise auch Formen vor, die nicht im Paradigma <strong>des</strong> entsprechenden<br />
Stamms (wie bei Navigationsoffizier 10 ) vorkommen. Darüber hinaus wird die vom Beispiel<br />
Professorenclub nahegelegte Erklärung, daß hier aus semantischen Gründen eine Erstgliedsform<br />
im Plural notwendig ist – die Mehrheit <strong>der</strong> Clubs haben schließlich mehr als ein Mitglied<br />
– durch Professorengattin wi<strong>der</strong>legt, es sei denn, Polygamie wäre erlaubt. Fanselow<br />
(1984) nimmt daher sogar an, daß Erstglie<strong>der</strong> von Komposita für das Merkmal Plural nicht<br />
10 Die folgenden Beispiele sind aus Fanselow (1985).<br />
141
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
markiert sind. Die vermeintliche Binnenflexion läßt sich sicher besser aus Mechanismen <strong>der</strong><br />
Prosodie und Allomorphie erklären, die durch die Einfügung von Fugenelementen ausgelöst<br />
wird.<br />
Zum Ausschluß von Binnenflexion muß demnach sichergestellt werden, daß (im Sinne <strong>der</strong><br />
Affigierungshierarchie, vgl. 5.4) vollständig o<strong>der</strong> teilweise flektierte Kategorien nicht wie<strong>der</strong>um<br />
in die Wortbildungsprozesse eingehen können; m.a.W.: eine hierarchische Anordnung<br />
<strong>der</strong> unterschiedlichen Operationen ist notwendig. Hierzu benötigt man ein formales<br />
Kriterium, welches die Information mit sich führt, ob ein Stamm bereits flektiert ist o<strong>der</strong><br />
nicht. Die interne Struktur eines <strong>morphologischen</strong> Objekts kann im vorgestellten Ansatz<br />
hierzu nicht herangezogen werden, da Flexion keine Strukturen aufbaut und sich nur in einer<br />
zunehmenden Instantiierung <strong>der</strong> Merkmale unter SYN:HEAD bemerkbar macht. Die hier<br />
vorliegende Spezifikation kann auch nicht zur Bestimmung von Flekiertheit verwendet<br />
werden, da, wie unten in Abschnitt 5.4 deutlich wird, Stämme sehr unterschiedliche Merkmalsbestimmungen<br />
tragen, um sie innerhalb ihres Paradigmas zu identifizieren. Beispielsweise<br />
trägt <strong>der</strong> Stamm Mütter das Merkmal +PLURAL, um festzulegen, daß er nur mit pluralischen<br />
Flexiven wie -n kombiniert werden kann, und die Bestimmung CASE:¬dat. Die Form<br />
Müttern hingegen ist als Erstglied eines Kompositums nicht zugelassen, obwohl sie ebenfalls<br />
für Person und Kasus markiert ist. An<strong>der</strong>s formuliert heißt das: man sieht es Stämmen nur<br />
anhand ihrer Merkmale nicht an, ob sie flektiert sind o<strong>der</strong> nicht. Die Situation ist demnach<br />
ähnlich zu <strong>der</strong>, in <strong>der</strong> ich für die Annahme eines Merkmals COMPLETE argumentiere (s. Abschnitt<br />
5.4.1), um eine Unterscheidung zwischen Stammformen vornehmen zu können, die<br />
sonst nicht zu unterscheiden wären. Eine Lösungsmöglichkeit bestünde folglich darin, ein<br />
Merkmal INFLECTED anzunehmen, auf das das Kompositionsschema Bezug nähme. Es gibt<br />
allerdings die hier weiter verfolgte Alternative, die ein zusätzliches Merkmal vermeidet,<br />
allerdings um den Preis einer zusätzlichen Regel, <strong>der</strong> „Flexionsanhebungsregel“:<br />
(Regel V, Anhebung zur Flexion)<br />
cat(pre_syntactic_atom ∧ PSA, L0,L1) ←<br />
PSA ∧<br />
true(cat(simple_or_complex_stem ∧ SYN:ARGSTR: Subcat ∧ SEM: Sem, L0,L1) ∧<br />
Stem) ∧<br />
unified_head_features([Stem]) ∧<br />
SYN:ARGSTR: Subcat ∧<br />
SEM: Sem ∧<br />
GRAPH: diff(L0,L1) ∧<br />
STRUCTURE: [Stem]<br />
Einfache bzw. zusammengesetzte Stämme können aufgrund von Regel V gewissermaßen<br />
spontan zu <strong>morphologischen</strong> Objekten <strong>der</strong> Kategorie pre_syntactic_atom werden und erben<br />
dabei die Werte <strong>des</strong> Stammes für SEM, SYN:HEAD und SYN:ARGSTR.<br />
Der Typ pre_syntactic_atom ist nun, und das ist entscheidend, trotz <strong>der</strong> weitgehenden formalen<br />
Übereinstimmung mit simple_or_complex_stem kein Subtyp von diesem, son<strong>der</strong>n<br />
befindet sich an an<strong>der</strong>er Stelle in <strong>der</strong> Hierarchie von Abb. 5.1; er wird daher nicht mehr von<br />
Regel IV erfaßt. Sobald für eine Stammform <strong>der</strong> durch Regel V vermittelte Übergang vorgenommen<br />
wurde, kann sie somit nicht mehr in das Kompositionsschema Eingang finden.<br />
Ableitungen, die Regel V innerhalb eines Kompositums verwenden, scheitern demzufolge,<br />
was auch das folgende Beispiel demonstriert.<br />
142
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Beispiel 5.1 Ableitungen für „Professorenclub“:<br />
Inkorrekte Ableitung:<br />
pre_syntactic_atom<br />
syntactic_atom<br />
simple_stem linking_morph simple_stem<br />
Professor<br />
en<br />
?<br />
club<br />
Korrekte Ableitung:<br />
syntactic_atom<br />
pre_syntactic_atom<br />
simple_stem linking_morph simple_stem<br />
Professor<br />
complex_stem<br />
Die Kategorie pre_syntactic_atom ist dann ausschließlich Gegenstand <strong>der</strong> Flexionsregeln VI<br />
und VII.<br />
5.3.2 Semantik<br />
Für die Behandlung <strong>der</strong> Wortsemantik wurde als (sehr) grober Rahmen <strong>der</strong> Ansatz von Pustejovsky<br />
(1995) gewählt, <strong>der</strong> bereits in Kapitel 3.4 ausführlicher dargestellt wurde.<br />
Nach dem Versuch einer Klassifikation <strong>der</strong> verschiedenen Kompositionsformen wird das<br />
Verhalten <strong>der</strong> Elemente je<strong>der</strong> Klasse exemplarisch an jeweils einem Beispiel untersucht.<br />
Eine mögliche Klassifikation (sie folgt in den Grundzügen Boase-Beier et al. (1984), fügt jedoch<br />
die m.E. notwendige Klasse <strong>der</strong> konzeptuell interpretierten Komposita hinzu) könnte<br />
folgen<strong>der</strong>maßen aussehen:<br />
1. Relationale Komposita: Komposita, die eine Relation im Erst- o<strong>der</strong> Zweitglied enthalten,<br />
wobei das jeweils an<strong>der</strong>e Glied eine Argumentstelle dieser Relation füllt.<br />
2. Stereotyp-Komposita: Komposita, bei denen das Erst- o<strong>der</strong> Zweitglied eine über das Weltwissen<br />
zugängliche Relation bereitstellt, die als Stereotyp bezeichnet wird und eng mit<br />
dem korrespondiert, was bei Pustejovsky (1995) als telische Rolle und bei Meyer (1993) als<br />
Zweck-Operator χ bezeichnet wird.<br />
3. Komposita mit konzeptueller Relation: Als konzeptuelle Relationen werden solche bezeichnet,<br />
die nicht direkt aus den an <strong>der</strong> Komposition beteiligten Kategorien erschlossen werden,<br />
son<strong>der</strong>n vielmehr aus Eigenschaften <strong>des</strong> konzeptuellen Typs o<strong>der</strong> Supertyps <strong>des</strong> betreffenden<br />
Wortbestandteils.<br />
4. Kontextabhängige Komposita: Hiermit sind Komposita gemeint, <strong>der</strong>en Interpretation ohne<br />
Informationen aus dem Kontext, in dem das Komposition steht, nicht möglich ist.<br />
Intuitiv betrachtet nimmt die Kompositionalität von 1 bis 4 ab, dies hängt natürlich von einer<br />
genaueren Definition <strong>des</strong> Begriffs ab. Komposita <strong>des</strong> vierten Typs sind sicherlich nichtkompositionell<br />
zu nennen, da sie ohne Kontext nicht zu deuten sind. Dieser Typ wird an<br />
dieser Stelle <strong>des</strong>wegen auch nicht weiterverfolgt.<br />
Die Aufzählung dieser vier Arten läßt sich auch als Hierarchie ansehen, bei <strong>der</strong> – von oben<br />
nach unten betrachtet – lexikalisch-grammatische Faktoren bei <strong>der</strong> Interpretation immer<br />
weniger ins Gewicht fallen.<br />
Die hier betrachteten Klassen 1 bis 3 lassen sich vor dem Hintergrund <strong>des</strong> gewählten formalen<br />
Rahmens noch weiter unterteilen, so daß sich folgende Feinglie<strong>der</strong>ung ergibt:<br />
143<br />
en<br />
club
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Relationale Komposita: • Rektionskomposita mit deverbalem Zweitglied<br />
• Komposita mit einem relationalem Nomen als Zweitglied<br />
• V-N-Komposita<br />
Stereotyp-Komposita: • N-N-Komposita, bei denen ein Konzepttyp <strong>des</strong> Erstglieds<br />
eine Argumentstelle in <strong>der</strong> stereotypen Rolle <strong>des</strong> Zweit-<br />
Komposita mit<br />
konzeptueller Relation:<br />
Tabelle 5.1: Klassifikation <strong>der</strong> Kompositionstypen<br />
glieds besetzt (o<strong>der</strong> umgekehrt)<br />
• N-N-Komposita, bei denen die Teilbedeutungen durch<br />
eine Relation in Beziehung gesetzt werden, die sich aus<br />
<strong>der</strong> Konzepthierarchie ergibt.<br />
Genaugenommen sind Stereotyp-Komposita natürlich ein Spezialfall <strong>der</strong> konzeptuell interpretierten.<br />
Sie werden dennoch als eigene Klasse geführt, weil ihre stereotype Relation „salienter“<br />
ist als die Relationen <strong>der</strong> „Konzeptkomposita“.<br />
Entsprechend dieser Einteilung ist die Funktion semantics_construction/2 in Regel IV folgen<strong>der</strong>maßen<br />
definiert:<br />
(20) semantics_construction(Stem1, Stem2) ←<br />
argument_saturation(Stem1, Stem2)<br />
semantics_construction(Stem2, Stem1) ←<br />
stereotypical_relation(Stem1, Stem2)<br />
semantics_construction(Stem1,Stem2) ←<br />
conceptual_relation(Stem1, Stem2)<br />
Die nächsten drei Teilabschnitte werden alle genannten Interpretationsmöglichkeiten genauer<br />
untersuchen.<br />
5.3.2.1 Interpretation von relationalen Komposita<br />
Relationale Komposita im weiteren Sinne sind, wie oben schon gesagt, solche, die einen relationalen<br />
Bestandteil (Verb, Nomen, Präposition) im Erst- o<strong>der</strong> Zweitglied enthalten. Im<br />
engeren Sinne werden damit nur Interpretationen bezeichnet, bei denen ein Bestandteil auch<br />
tatsächlich eine Argumentstelle <strong>der</strong> Relation füllt. Relationale Komposita (im weiteren Sinn)<br />
haben fast immer auch nichtrelationale Lesarten, bei denen Relationsstellen beispielsweise<br />
existentiell gebunden werden, vgl. z.B. (21) 11<br />
(21) a) Wiesenverkauf (= Verkauf von Wiesen ⇒ relationale Lesart)<br />
b) Wiesenverkauf (= Verkauf von etwas auf <strong>der</strong> Wiese ⇒ nichtrelationale Lesart)<br />
Die Lesart (21b) käme nach <strong>der</strong> Glie<strong>der</strong>ung in Tabelle 5.1 mit Hilfe einer konzeptuellen Relation<br />
zustande: Verkauf kann ein Ereignis bezeichnen, Ereignisse finden an Orten statt, eine<br />
Wiese ist ein Ort; die konzeptuelle Relation wäre demnach etwa: findet_statt(Ereignis, Ort).<br />
Der relationale Teil muß nicht unbedingt das Zweitglied sein, wie die Beispiele Schwimmente<br />
und Sprechvogel zeigen. Die gebundene Argumentstelle muß auch nicht immer ein Objekt <strong>des</strong><br />
deverbalen Zweitglieds sein, wie Kin<strong>der</strong>geschrei zeigt.<br />
Die Interpretation wird durch zwei Klauseln <strong>der</strong> Funktion<br />
argument_saturation(SemanticArgument, SemanticFunctor)<br />
geleistet: (22) betrifft relationale Nomen als Zweitglie<strong>der</strong>, während sich (23) auf Verben an<br />
zweiter Position bezieht.<br />
11 Einige Beispiele stammen aus Boase-Beier et al. (1984).<br />
144
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(22) argument_saturation( SYN:HEAD: noun ∧ SEM:REFARG: TypeOfArgument,<br />
SYN:HEAD: noun ∧<br />
SYN:ARGSTR: (noun_argstr ∧ RELARG:SEM:REFARG: TypeOfHead ∧<br />
DEFARGS: Defargs) ∧<br />
SEM:(REFARG: Ref ∧ CONTENT: Cont) ←<br />
selectional_restrictions_fullfilled(TypeOfHead, TypeOfArgument) ∧<br />
SEM:REFARG: Ref ∧<br />
SYN:ARGSTR:(RELARG:[] ∧ DEFARGS: Defargs ∧ ARGSTR_ORDER:[]) ∧<br />
SEM:CONTENT: Cont<br />
(23) argument_saturation( SYN:HEAD: noun ∧ SEM:REFARG: TypeOfArgument,<br />
SYN:HEAD: verb ∧<br />
SYN:ARGSTR: (verbal_argstr ∧ SUBJ: Subj ∧<br />
DIR_OBJ:SEM:REFARG: SelRestrOfHead ∧<br />
INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧<br />
DEFARGS: Defargs) ∧<br />
SEM:CONTENT: Cont) ←<br />
selectional_restrictions_fullfilled(SelRestrOfHead, TypeOfArgument) ∧<br />
SYN:ARGSTR:(SUBJ: Subj ∧ DIR_OBJ:[] ∧ INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧<br />
DEFARGS:[] ∧ ARGSTR_ORDER:[]) ∧<br />
SEM:CONTENT:(OPERATOR: op_possibility ∧ SCOPE: Cont)<br />
In (22) wie (23) wird geprüft, ob <strong>der</strong> Typ <strong>des</strong> referentiellen Arguments <strong>des</strong> semantischen<br />
Arguments mit dem Typ in <strong>der</strong> offenen Argumentstelle <strong>des</strong> semantischen Funktors kompatibel<br />
ist 12 . Dies leistet die Funktion selectional_restrictions_fullfilled/2, die durch zwei Klauseln<br />
gegeben ist:<br />
(24)<br />
a) selectional_restrictions_fullfilled(Type, simple_type ∧ Type) ← ><br />
b) selectional_restrictions_fullfilled(Type, dotted_type ∧ TYPES:TypeList) ←<br />
member(Type,TypeList)<br />
Die Klauseln in (24) unterscheiden, ob <strong>der</strong> semantische Typ <strong>des</strong> Arguments ein simple_type<br />
o<strong>der</strong> ein dotted_type nach <strong>der</strong> Typenhierarchie aus Abb. 5.3 ist. Durch den Typ simple_type<br />
bleibt das Erstglied hinsichtlich <strong>der</strong> doppelten Dichotomie Individuum – Gruppe und zählbar –<br />
nicht zählbar unterspezifiziert, wie bereits in Fanselow (1984) vorgeschlagen wurde. Zur Demonstration<br />
zeigt Abb. 5.13 die dem Wort Messerfan zugeordnete Merkmalsstruktur: ein<br />
Messerfan kann ein Fan eines einzelnen Messers (vielleicht <strong>des</strong> speziellen Messers, welches<br />
Rambo bei sich trägt) o<strong>der</strong> einer Menge von Messern sein. Aufgrund <strong>der</strong> Numerus-Unmarkiertheit<br />
<strong>des</strong> Erstglieds 13 besteht m.E. auch kein Unterschied in <strong>der</strong> Interpretation von Buchfan<br />
und Bücherfan. Allerdings gibt es Numerus-Festlegungen für das Erstglied, die sich aufgrund<br />
<strong>des</strong> Weltwissens ergeben, wie z.B. bei Dorfbürgermeister.<br />
Abb. 5.14 auf Seite 147 zeigt am Beispiel <strong>des</strong> Wortes Messerprüfer die Anwendung von (23).<br />
Aufgrund <strong>der</strong> <strong>der</strong>ivationellen Eigenschaften von -er ist dem referentiellen Argument <strong>des</strong><br />
Zweitglieds Prüfer ein dotted type zugeordnet, <strong>der</strong> die Alternation zwischen Personenbezeichnung<br />
und Instrument ausdrückt. In <strong>der</strong> Ereignisstruktur <strong>des</strong> Kompositums füllt das<br />
12 Die Bezeichnungen semantisches Argument und semantischer Funktor beziehen sich auf die Parameter<br />
<strong>der</strong> Funktion argument_saturation/2.<br />
13 Für Numerus spezifizierte Erstglie<strong>der</strong> sind durch die „Flexionsanhebungsregel“ V ausgeschlossen.<br />
145
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Erstglied Messer die thematische Rolle Thema. Warum die Ereignisstruktur im Skopus <strong>des</strong><br />
Möglichkeitsoperators steht, wird weiter unten erläutert.<br />
GRAPH: messer , fan , $<br />
SYN:<br />
SEM:<br />
HEAD:<br />
ARGSTR:<br />
syn<br />
CAT: n<br />
NUM: sg<br />
CASE: acc ∨ dat∨ nom<br />
GENDER: masc<br />
noun<br />
REFARG: 1<br />
CONTENT:<br />
RELARG:<br />
DEFARGS:<br />
ARGSTR_ORDER:<br />
noun_argstr<br />
TYPE: human<br />
individual<br />
nominal_semantics<br />
syntactic_atom<br />
EVENTSTR: STATE:<br />
lexical_content<br />
RELCONST: fan_of<br />
RELARGS:<br />
state<br />
state_eventstr<br />
1<br />
TYPE: knife<br />
countable<br />
Abb. 5.13: <strong>Analyse</strong> von „Messerfan“<br />
An<strong>der</strong>s liegt <strong>der</strong> Fall bei einem semantischen Argument mit einem dotted type (24b). Hier<br />
wird geprüft, ob unter den den dotted type konstituierenden einfachen Typen ein Element ist,<br />
welches mit <strong>der</strong> Selektionsbeschränkung <strong>der</strong> zu schließenden Relationenposition kompatibel<br />
ist. Dies ist erfor<strong>der</strong>lich, da sich die Typenbeschränkung nicht auf den gesamten zusammengesetzten<br />
Typ <strong>des</strong> semantischen Arguments beziehen muß. Betrachten wir zwei Beispiele:<br />
Buch und Museum haben als referentielle Argumente jeweils zusammengesetzte Typen<br />
(dotted types): bei Buch gibt es eine Alternation zwischen physikalischem Objekt und den<br />
Informationen <strong>des</strong> Buchinhalts, bei Museum u.a. die Lesarten „Gebäude“ und „Institution“.<br />
Während Buchfan als „Fan von bestimmten Gegenständen“ und „Fan von Buchinhalten“<br />
interpretiert werden kann, erlaubt Museumsrenovierung nur die Deutung, daß hierbei ein<br />
Gebäude renoviert wurde; die an<strong>der</strong>e Möglichkeit ist aufgrund <strong>der</strong> Selektionsbeschränkungen,<br />
die renovieren seinem direkten Objekt auferlegt, ausgeschlossen. Genau dieser Sachverhalt<br />
wird durch (24b) ausgedrückt.<br />
Bei allen Komposita, die aufgrund <strong>der</strong> in Tabelle 5.1 aufgeführten Interpretationsvarianten<br />
zustande kommen, handelt es sich um Determinativkomposita. In den Interpretationsfunktionen<br />
(22) und (23) – wie auch bei den an<strong>der</strong>en, die in diesem Abschnitt noch vorgestellt<br />
werden – wird dies durch Vererbung <strong>des</strong> referentiellen Arguments vom Zweitglied auf die<br />
Mutterkategorie erzielt; Abb. 5.13 verdeutlicht auch dies 14 .<br />
14 Als Platzgründen ist das STRUCTURE-Merkmal in allen hier abgebildeten Merkmalsstrukturen unter-<br />
drückt.<br />
146
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(22) und (23) führen übrigens zusammen mit <strong>der</strong> Derivations- und Kompositionsregel eine<br />
strukturelle Ambiguität bei deverbalen relationalen Komposita ein. Präterminalfolgen <strong>der</strong><br />
Form N + V + Suffix werden als [[N + V] + Suffix] o<strong>der</strong> als [N + [V + Suffix]] strukturiert.<br />
Interessanterweise sind – abgesehen von den strukturellen Unterschieden – die Merkmalsstrukturen<br />
<strong>der</strong> Wurzelkategorien gleich; ich habe es vorgezogen, mich nicht für eine <strong>der</strong><br />
Strukturen zu entscheiden.<br />
GRAPH: messer , prüf , er , $<br />
SYN:<br />
SEM:<br />
HEAD: NUM: sg<br />
noun<br />
syn<br />
REFARG: TYPES:<br />
CONTENT:<br />
1<br />
2<br />
dotted_type<br />
nominal_semantics<br />
syntactic_atom<br />
TYPE: human<br />
individual<br />
TYPE: tool<br />
individual<br />
OPERATOR: op_possibility<br />
SCOPE: EVENTSTR:<br />
lexical_content<br />
one_place_operator_struct<br />
EVENT:<br />
STATE:<br />
EVENT_TYPE: check<br />
ROLES:<br />
3<br />
4<br />
5<br />
ROLE: agent<br />
SEL_RESTR: 1<br />
role<br />
ROLE: theme<br />
SEL_RESTR:<br />
role<br />
ROLE: instrument<br />
SEL_RESTR: 2<br />
role<br />
ACCESSIBLE_ROLES: 3 , 4 , 5<br />
event<br />
RELCONST: checked<br />
RELARGS: 4<br />
state<br />
accomplishment<br />
Abb. 5.14: <strong>Analyse</strong> von „Messerprüfer“<br />
TYPE: knife<br />
countable<br />
Wie sind nun V-N-Komposita wie Hackmesser, Horchgerät, Frankiermaschine 15 zu interpretieren?<br />
Ich habe sie unter die relationalen Komposita subsumiert, da auch ihre Deutung etwas<br />
mit <strong>der</strong> Argumentstruktur – genauer gesagt: <strong>der</strong> Ereignisstruktur – eines Lexems zu tun hat.<br />
Die Differenz zu den zuvor genannten relationalen Komposita besteht jedoch darin, daß<br />
diese Argumentstruktur vom Erstglied <strong>des</strong> zusammengesetzten Wortes stammt und <strong>der</strong> Typ<br />
<strong>des</strong> semantischen Funktors <strong>des</strong> Zweitglieds meist ein Werkzeug o<strong>der</strong> Instrument charakterisiert,<br />
zumin<strong>des</strong>t dann, wenn dieser Typ sich auf ein Artefakt bezieht. M.a.W.: <strong>der</strong> Unterschied<br />
zu den an<strong>der</strong>en Typen <strong>der</strong> relationalen Interpretation besteht darin, daß das referenti-<br />
15 Die Beispiele stammen aus <strong>der</strong> CELEX-Datenbank, die immerhin über 1200 einfache V-N-Komposita<br />
verzeichnet, die allerdings nicht immer richtig klassifiziert wurden.<br />
147
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
elle Argument <strong>des</strong> Gesamtworts vom Zweitglied stammt, <strong>der</strong> semantische Funktor jedoch<br />
vom Erstglied.<br />
Wie kann die Bedeutung von V-N-Komposita umschrieben werden? Eine Paraphrase ist<br />
meiner Ansicht nach die NP „ein N, mit dem es möglich ist, zu V-en“. Eine Frankiermaschine<br />
wäre demnach eine Maschine, mit <strong>der</strong> es möglich ist, etwas zu frankieren. Wenn diese <strong>Analyse</strong><br />
korrekt ist, dann sieht <strong>der</strong> dritte Fall von argument_saturation/2 folgen<strong>der</strong>maßen aus:<br />
(25) argument_saturation( SYN:HEAD: verb ∧ SEM:CONTENT: (Content ∧ EVENTSTR: Eventstr),<br />
SYN:HEAD: noun ∧ SYN:ARGSTR: (noun_argstr ∧ RELARG:[]) ∧<br />
SEM:REFARG: Ref) ←<br />
true(role(Eventstr) ∧ Ref) ∧<br />
SEM:REFARG:Ref ∧<br />
SYN:ARGSTR: (RELARG:[] ∧ DEFARGS:[] ∧ ARGSTR_ORDER:[]) ∧<br />
SEM:CONTENT: (OPERATOR: op_possibility ∧ SCOPE: Content)<br />
Die Funktion überprüft mit Hilfe <strong>der</strong> Sorte role/1, die nichtdeterministisch eine Rolle aus <strong>der</strong><br />
Ereignisstruktur <strong>des</strong> Verbs zurückgibt, ob <strong>der</strong>en Selektionsbeschränkungen mit denen <strong>des</strong><br />
referentiellen Arguments <strong>des</strong> Zweitglieds kompatibel sind. Es sind hierbei prinzipiell alle<br />
Rollen zulässig, wie die Beispiele Animiermädchen (Agens) und Ausziehtisch (Thema) zeigen.<br />
Bei den V-N-Komposita, die in <strong>der</strong> CELEX-Datenbank verzeichnet sind, ist allerdings die<br />
Instrument-Rolle die am häufigsten verwendete. Abb. 5.15 zeigt die <strong>Analyse</strong> von „Hackmesser“:<br />
GRAPH: hack , messer , $<br />
SYN:<br />
SEM:<br />
HEAD: noun<br />
syn<br />
REFARG: 1<br />
CONTENT:<br />
TYPE: knife<br />
individual<br />
OPERATOR: op_possibility<br />
SCOPE:<br />
nominal_semantics<br />
syntactic_atom<br />
EVENTSTR: EVENT:<br />
lexical_content<br />
one_place_operator_struct<br />
EVENT_TYPE: hack<br />
ROLES:<br />
event<br />
activity_eventstr<br />
ROLE: agent<br />
SEL_RESTR:<br />
role<br />
ROLE: theme<br />
SEL_RESTR:<br />
role<br />
ROLE: instrument<br />
SEL_RESTR: 1<br />
role<br />
TYPE: human<br />
countable<br />
Abb. 5.15: <strong>Analyse</strong> von „Hackmesser“<br />
TYPE: physical_entity<br />
simple_type<br />
Diese Form <strong>der</strong> semantischen <strong>Analyse</strong> ist demnach analog zur Derivation mit -bar und -er .<br />
Im nächsten Abschnitt werde ich dafür argumentieren, daß es neben diesen „konstruktiven“<br />
Verwendungen <strong>des</strong> Möglichkeitsoperators auch einen „lexikalischen Möglichkeitsoperator“<br />
gibt.<br />
148
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
5.3.2.2 Interpretation von Stereotyp-Komposita<br />
Es ist meiner Ansicht nach schwerlich zu bestreiten, daß manche Lexeme wie Fabrik eine<br />
Interpretation mit einer stereotypen Relation geradezu aufdrängen. Die CELEX-Datenbank<br />
verzeichnet im Falle von Fabrik sechs zusammengesetzte Bildungen – Munitionsfabrik, Papierfabrik,<br />
Schokoladenfabrik, Strumpffabrik, Textilfabrik, Tuchfabrik – und alle haben eine deutlich<br />
bevorzugte Lesart, bei <strong>der</strong> Erst- und Zweitglied über eine Relation produzieren miteinan<strong>der</strong><br />
in Verbindung gesetzt werden. In welcher Weise ist diese Relation, die bei Meyer (1993)<br />
Purpose-Operator und bei Pustejovsky (1995) telische Rolle heißt, in einem Lexem repräsentiert?<br />
Es wäre nun relativ einfach, hierfür ein Merkmal PURPOSE anzunehmen und es an geeigneter<br />
Stelle unter SEM zu plazieren. Allerdings scheint die Angelegenheit einen weiteren<br />
Gedanken wert zu sein. Stereotype Relation bedeutet meiner Ansicht nach so etwas wie eine<br />
lexikalisch verankerte Möglichkeit. In Hinblick auf das Beispiel Fabrik heißt das, daß es möglich<br />
ist, daß eine Fabrik etwas produziert. Sie muß dies nicht tun, auch eine stillgelegte Fabrik ist<br />
vermutlich nach common sense Verständnis immer noch eine Fabrik. Ich repräsentiere daher<br />
die stereotype Relation als eine lexikalisch verankerte Ereignisrelation, die im Skopus <strong>des</strong><br />
Möglichkeitsoperators steht. Abb. 5.16 zeigt die SEM:CONTENT-Teilstruktur von Fabrik.<br />
OPERATOR: op_possibility<br />
SCOPE:<br />
EVENTSTR: EVENT:<br />
lexical_content<br />
one_place_operator_struct<br />
EVENT_TYPE: produce<br />
ROLES:<br />
3<br />
4<br />
ROLE: worker<br />
SEL_RESTR:<br />
role<br />
ROLE: produced<br />
SEL_RESTR:<br />
role<br />
ACCESSIBLE_ROLES: 3 , 4<br />
event<br />
activity_eventstr<br />
TYPE: human<br />
countable<br />
TYPE: physical_entity<br />
simple_type<br />
Abb. 5.16 : SEM:CONTENT-Substruktur von „Fabrik“<br />
Das Merkmal ACCESSIBLE_ROLES hält die noch ungebundenen thematischen Rollen in <strong>der</strong><br />
Ereignisstruktur in Form einer Liste fest. Dieser Mechanismus entspricht in etwa einer<br />
λ-Abstraktion über die Rollen <strong>der</strong> Ereignisrelation und hält daher fest, welche Rollen noch<br />
gebunden werden können. Notwendig ist dies, um Komposita wie *Messermesserfabrik<br />
auszuschließen, bei denen eine Rolle mehrfach gebunden wurde.<br />
Eine weitere Überlegung rechtfertigt diese <strong>Analyse</strong> von stereotyper Relation zumin<strong>des</strong>t in<br />
Rahmen <strong>des</strong> hier gewählten Typsystems. Meyer und Pustejovsky folgend gehe ich davon<br />
aus, daß nur Artefakte über eine solche stereotype Relation verfügen. Man kann sich nun<br />
fragen, ob es Wortbildungsmechanismen gibt, die Einfluß auf die Struktur unter<br />
SEM:CONTENT haben und die möglicherweise mit <strong>der</strong> Verwendung dieser Substruktur als<br />
Träger <strong>der</strong> stereotypen Relation in Konflikt geraten können. Determinativkomposition kann<br />
nicht diesen Effekt haben, da <strong>der</strong> Wert von SEM:CONTENT entwe<strong>der</strong> vom Erstglied o<strong>der</strong> vom<br />
Zweitglied an das Kompositum übergeht. Derivation mit nominalisierenden Suffixen schafft<br />
im allgemeinen Nomen, die Ereignisse o<strong>der</strong> Personenbezeichnungen und nicht Artefakte<br />
bezeichnen. Wenn dies doch geschieht, z.B. bei <strong>der</strong> er-Ableitung von prüfen mit <strong>der</strong> Instrument-Lesart,<br />
dann übernimmt das Derivat die Ereignisstruktur <strong>des</strong> Verbs, die sich ebenfalls<br />
149
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
im Skopus <strong>des</strong> Möglichkeitsoperators befindet. M.a.W.: die Interpretation von deverbalen<br />
relationalen Komposita und Stereotyp-Komposita erfolgt in sehr ähnlicher Weise. Nachfolgend<br />
ist die Interpretationsregel für Stereotyp-Komposita unter diesen Annahmen wie<strong>der</strong>gegeben:<br />
(26) stereotypical_relation( SYN:HEAD:noun ∧ SEM:REFARG: RefargOfArg,<br />
SYN:HEAD:noun ∧ SEM:REFARG: Ref ∧<br />
SEM:CONTENT:( OPERATOR: OP ∧ SCOPE:EVENTSTR:EVENT: (<br />
EVENT_TYPE: EventType ∧ ROLES: Roles ∧<br />
ACCESSIBLE_ROLES: AccessibleRoles )) ∧<br />
SYN:ARGSTR: Argstr ∧ SEM:CONTENT: Cont) ←<br />
delete(SEL_RESTR: SelectionRestrictionsOfRole, AccessibleRoles, RestRoles) ∧<br />
selectional_restrictions_fullfilled(SelectionRestrictionsOfRole, RefargOfArg) ∧<br />
SYN:ARGSTR: Argstr ∧ SEM:REFARG: Ref ∧<br />
SEM:CONTENT:( OPERATOR: OP ∧ SCOPE:EVENTSTR:EVENT: (<br />
EVENT_TYPE: EventType ∧<br />
ROLES: Roles ∧<br />
ACCESSIBLE_ROLES: RestRoles) )<br />
Der zweite Parameter von stereotypical_relation/2 ist dem Teil <strong>des</strong> Kompositums zugeordnet,<br />
aus dem die Relation erschlossen wird. Deren noch zugängliche Rollen werden bestimmt<br />
und dann geprüft, ob eine dieser Rollen mit den Selektionsbeschränkungen, die für das referentielle<br />
Argument <strong>des</strong> semantischen Arguments gelten, kompatibel ist; dies erfolgt durch<br />
die in (24) wie<strong>der</strong>gegebene Funktion selectional_restrictions_fullfilled/2. delete/3 ist wie member/2<br />
definiert, nur daß, nachdem eine passende Rolle gefunden wurde, alle übrigen Rollen<br />
im letzten Argument (RestRoles) zurückgegeben werden. Diese verbleibenden Rollen werden<br />
dann die neuen zugänglichen Rollen <strong>des</strong> N-N-Kompositums unter ACCESSIBLE_ROLES.<br />
Alle übrigen semantischen Eigenschaften <strong>des</strong> Zweitglieds werden durch (26) an das Kompositum<br />
vererbt. Die nächste Abbildung zeigt die <strong>Analyse</strong> von Messerfabrik:<br />
SEM:<br />
REFARG: TYPES:<br />
dotted_type<br />
1<br />
TYPE: factory<br />
individual<br />
TYPE: 2 human<br />
TYPE: 2<br />
GROUP_OF:<br />
individual<br />
group<br />
OPERATOR: op_possibility<br />
ROLES:<br />
EVENT:<br />
EVENTSTR:<br />
CONTENT: SCOPE:<br />
nominal_semantics<br />
syntactic_atom<br />
lexical_content<br />
one_place_operator_struct<br />
EVENT_TYPE: produce<br />
3<br />
ROLE: worker<br />
SEL_RESTR: 1<br />
role<br />
ROLE: produced<br />
SEL_RESTR:<br />
role<br />
ACCESSIBLE_ROLES: 3<br />
event<br />
activity_eventstr<br />
TYPE: knife<br />
countable<br />
Abb. 5.17: SEM-Wert von „Messerfabrik“<br />
150
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
In Abb. 5.17 sieht man, wie die produced-Rolle durch das referentielle Argument von Messer<br />
gefüllt worden ist. Das Numerus-Merkmal bleibt in <strong>der</strong> üblichen Weise unterspezifiziert. Die<br />
Substruktur unter TYPE: knife ist noch umfangreicher, wie <strong>der</strong> nächste Abschnitt zeigt.<br />
5.3.2.3 Interpretation von Komposita mit konzeptueller Relation<br />
Die hier vorgeschlagene Klasse <strong>der</strong> konzeptuell interpretierten Komposita deckt sich nicht<br />
mit <strong>der</strong> in Boase-Beier et al. (1984) so genannten Klasse <strong>der</strong> »Komposita mit Grundrelation«.<br />
Als Grundrelationen werden dort Relationen wie LOC(AL), AUS, UND und ÄHN(LICH)<br />
bezeichnet. Meiner Ansicht nach muß man hier differenzieren: Relationen wie LOC und<br />
AUS hängen mit den durch Lexeme ausgedrückten Konzepten und <strong>der</strong>en Superkonzepten<br />
zusammen, während UND und ÄHN sich möglicherweise aus dem Interpretationsapparat<br />
selbst ergeben, weil schwer vorstellbar ist, daß unser Weltwissen Informationen darüber<br />
enthält, welche Dinge welchen an<strong>der</strong>en Dingen ähneln; hier scheinen vielmehr Inferenzprozesse<br />
vorzuliegen.<br />
Die konzeptuell gesteuerte Interpretation von Wiesenverkauf in seiner nicht relationalen Lesart<br />
»Verkauf von etwas auf einer Wiese« ergibt sich meiner Ansicht nach aus folgendem<br />
Mechanismus:<br />
• Verkauf als Ereignisnominalisierung weist event als Konzepttyp auf;<br />
• Mit dem Typ event ist eine Relation takes_place_at(place) verknüpft ;<br />
• Der Konzepttyp von Wiese erfüllt die Beschränkungen für das Argument dieser Relation.<br />
Wie kann man <strong>der</strong>artige Interpretationsmechanismen im gewählten formalen Rahmen<br />
nachbilden? Da hier konzeptuelles Wissen im Spiel ist, muß man eine Möglichkeit finden,<br />
dieses Wissen auch zu repräsentieren. Als natürlicher Ort hierfür bietet sich die schon benutzte<br />
Konzepthierarchie an, die die durch die Lexeme ausgedrückten Begriffe in grober<br />
Weise vorstrukturiert. Durch Einführung weiterer Merkmale können feinkörnigere Differenzierungen<br />
erzielt werden, wie (27) zeigt:<br />
(27) physical_entity ::<br />
PHYSICAL_STATE: physical_state ∧<br />
CONSISTS_OF: list ∧<br />
HAS_PARTS: list<br />
temporal ::<br />
TAKES_PLACE_AT: place<br />
Eine Instanz von physical_entity hat demnach Attribute für den Aggregatzustand, für das<br />
Material und die Teile, aus denen es besteht; eine Instanz <strong>des</strong> Typs temporal, <strong>der</strong> Supertyp<br />
von event und activity ist, weist ein Merkmal für den Ort auf, an dem <strong>der</strong> zeitliche Ablauf<br />
stattfindet.<br />
Allerdings sind aussagenlogische Typsysteme nicht stark genug, um die Art von Wissensrepräsentation<br />
zu ermöglichen, die benötigt wird. Diese Typsysteme dürfen keine Variablen<br />
enthalten und auch keine Sorten, die aber gerade benötigt würden, um Relationen zu repräsentieren.<br />
Die Lösung für dieses Problem sind sog. rekursive Typenconstraints (vgl. Carpenter<br />
(1992)), bei denen ein Typ mit einem beliebigen Merkmalsterm versehen werden kann:<br />
(28) Const: AtomType � Desc<br />
Const ist demnach eine Funktion, die einem atomaren Typ σ einen Merkmalsterm φ <strong>der</strong> Beschreibungslogik<br />
zuordnet. Die intendierte Bedeutung davon ist, daß jede Instanz von σ mit<br />
φ unifizierbar sein muß. Die nächste Abbildung zeigt Const(knife):<br />
151
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(29) knife ∧<br />
PHYSICAL_STATE: solid ∧<br />
CONSISTS_OF: [uncountable ∧ TYPE: metal] ∧<br />
HAS_PARTS: [individual ∧ TYPE: blade]<br />
In (29) wird ausgesagt, daß ein Messer von festem Aggregatzustand ist, aus Metall besteht<br />
und eine Klinge als Teil besitzt. In <strong>der</strong> Terminologie <strong>der</strong> Wissensrepräsentation sind dies<br />
Default-Eigenschaften (vgl. Reimer (1991)).<br />
Die Interpretation konzeptueller Komposita würde dann auf diese Eigenschaften zurückgreifen.<br />
Das Wort Stahlmesser könnte entwe<strong>der</strong> mit dem CONSISTS_OF-Merkmal von knife<br />
o<strong>der</strong> mit dem gleichen Merkmal von Const(blade) interpretiert werden, d.h. als ein »Messer<br />
aus Stahl« o<strong>der</strong> als ein »Messer mit einer Klinge aus Stahl« 16 .<br />
Allerdings muß unter diesen Voraussetzungen die Interpretationsregel Informationen darüber<br />
haben, welche Merkmale mit einem Typ verknüpft sind, denn die Merkmale <strong>der</strong> verschiedenen<br />
Typen können natürlich unterschiedlich sein. Die Merkmale von Instanzen von<br />
temporal aus (27) und physical_entity sind beispielsweise disjunkt.<br />
Abhilfe schafft hier ein weiteres Merkmal SUBCONCEPTS, das beim obersten Typ <strong>der</strong> Konzepthierarchie<br />
(entity) eingeführt wird und für jeden Typ festhält, welche Merkmale für eine<br />
konzeptuelle Interpretation zur Verfügung stehen. (29) sieht dann wie folgt aus:<br />
(30) knife ∧<br />
PHYSICAL_STATE: solid ∧<br />
CONSISTS_OF: [uncountable ∧ TYPE: metal ∧ Metal] ∧<br />
HAS_PARTS: [individual ∧ TYPE: blade ∧ Blade] ∧<br />
SUBCONCEPTS: [Metal, Blade]<br />
Der nächste Ausschnitt zeigt noch das Typenconstraint von temporal:<br />
(31) temporal ∧<br />
TAKES_PLACE_AT: [individual ∧ TYPE: place ∧ Place] ∧<br />
SUBCONCEPTS: [Place]<br />
Da Typenconstraints in dieser Art und Weise in <strong>der</strong> Beschreibungslogik nicht integriert sind,<br />
werden sie mittels einer Sorte concept/1 realisiert.<br />
Unter Voraussetzung dieser Festlegungen ist die Interpretationsregel für „Konzeptkomposita“<br />
nun relativ einfach, da sie lediglich auf das für alle Konzepttypen einheitliche<br />
SUBCONCEPTS-Attribut zurückgreifen muß:<br />
(32) conceptual_relation( SYN:HEAD: noun ∧ SEM:REFARG: RefArgOfArg,<br />
SYN:HEAD: noun ∧ SEM:REFARG: RefArgOfFunctor ∧<br />
SYN:ARGSTR: Argstr ∧ SEM:CONTENT: Cont) ←<br />
SEM:REFARG: type_relation(type_concept(RefArgOfArg),<br />
type_concept(RefArgOfFunctor)) ∧<br />
SYN:ARGSTR: Argstr ∧<br />
SEM:CONTENT: Cont<br />
Die Funktion type_relation/2 in (32) konstruiert das referentielle Argument <strong>des</strong> N-N-Kompositums,<br />
indem sie versucht, den Konzepttyp <strong>des</strong> Erstglieds mit einer Argumentstelle einer<br />
16 Typen, die in Constraints verwendet werden (wie hier blade) können auch wie<strong>der</strong>um Typen-<br />
constraints zugeordnet sein.<br />
152
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
konzeptuellen Relation <strong>des</strong> Zweitglieds in Übereinstimmung zu bringen. Da sowohl Erstglied<br />
als auch Zweitglied einfache o<strong>der</strong> zusammengesetzte Typen haben können, müssen<br />
vier Fälle unterschieden werden, die durch die nichtdeterministische Sorte type_concept/1<br />
abgedeckt werden. type_concept/1 extrahiert aus zusammengesetzten Typen die Teiltypen<br />
und ist in (33) wie<strong>der</strong>gegeben:<br />
(33) type_concept(simple_type ∧ Simple_type ∧ TYPE: Type) ←<br />
Simple_type ∧<br />
TYPE: concept(Type)<br />
type_concept(dotted_type ∧ TYPES: TypeList) ←<br />
member(Simple_type ∧ TYPE: Type, TypeList) ∧<br />
Simple_type ∧ TYPE: concept(Type)<br />
Type_concept/1 greift auf die Typenconstraints zurück, die in Form von concept/1 vorliegen<br />
und wie (30) o<strong>der</strong> (31) aussehen. Die Funktion type_relation/2 vereinfacht sich damit zu (34):<br />
(34) type_relation( simple_type ∧ ArgType,<br />
Simple_Type ∧ TYPE:SUBCONCEPTS: ConceptList) ←<br />
member(ArgType, ConceptList) ∧<br />
Simple_Type<br />
Die Sorte type_relation/2 versucht demnach den Konzepttyp <strong>des</strong> Arguments in <strong>der</strong><br />
SUBCONCEPTS-Liste <strong>des</strong> semantischen Funktors zu finden und instantiiert die entsprechende<br />
Argumentposition dabei mit diesem Konzepttyp.<br />
Ein Nebeneffekt <strong>des</strong> Typenconstraint-Mechanismus ist, daß sich mit ihm auf einfache Weise<br />
die beispielsweise von Meyer (1993) vorgeschlagene Relationensuche in Superkonzepten<br />
nachbilden läßt. Da ein Typ wie knife auch mit allen seinen Supertypen wie entity, physical_entity,<br />
tool etc. kompatibel ist 17 , können auch <strong>der</strong>en (allgemeinere) Typenconstraints zur<br />
Interpretation herangezogen werden. Man muß dazu nur dafür sorgen, daß spezifischere<br />
Typen vor weniger spezifischen Typen ausgewertet werden, was sich allerdings nur unter<br />
Kenntnis <strong>der</strong> Beweisstrategie und dementsprechen<strong>der</strong> Anordnung <strong>der</strong> Klauseln von concept/1<br />
erzielen läßt.<br />
Die nächsten beiden Abbildungen demonstrieren die beschriebenen Techniken. Abb. 5.18<br />
zeigt die Merkmalsstruktur von Stahlmesser in <strong>der</strong> Deutung »Messer aus Stahl«, während<br />
Abb. 5.19 die <strong>Analyse</strong> von Fabrikverkauf in <strong>der</strong> nicht-relationalen Lesart (z.B. »Fabrikverkauf<br />
von Gummibärchen«) wie<strong>der</strong>gibt. Letztere <strong>Analyse</strong> kommt dadurch zustande, daß Verkauf<br />
eine affixlose Ereignisnominalisierung ist und mit seinem (zusammengesetzten) referentiellen<br />
Argument auf ein Ereignis (vom Typ event) bzw. einen Zustand referiert. Event ist nun<br />
ein Subtyp von temporal, mit dem das in (31) wie<strong>der</strong>gegebene Constraint verbunden ist.<br />
Dessen Merkmal TAKES_PLACE_AT wird schließlich zur Interpretation benutzt, da factory ein<br />
Subtyp von place ist. Eine Vorkehrung zur Vermeidung doppelter „Belegungen“ von Relationsargumenten<br />
wie in *Stahlstahlmesser“ ist übrigens aus Darstellungsgründen in diesem<br />
Mechanismus nicht realisiert. Etwas <strong>der</strong>artiges ist jedoch nötig, da es sich hierbei um keine<br />
pragmatische Einschränkung <strong>der</strong> Art handelt, daß hier ein Sachverhalt doppelt ausgedrückt<br />
würde; dies kann an <strong>der</strong> Nicht-Akzeptabilität von *Stahlmetallmesser und *Stahlsteinmesser<br />
abgelesen werden. Jede Argumentstelle einer konzeptuellen Relation kann anscheinend nur<br />
durch ein Argument gebunden werden.<br />
17 vgl. den Ausschnitt <strong>der</strong> Typenhierarchie in (8).<br />
153
5.3.3 Fazit<br />
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
GRAPH: stahl , messer , $<br />
SYN:<br />
SEM:<br />
NUM: sg<br />
HEAD:<br />
noun<br />
ARGSTR: RELARG:<br />
noun_argstr<br />
syn<br />
REFARG: 1 TYPE:<br />
CONTENT:<br />
individual<br />
PHYSICAL_STATE: hard<br />
CONSISTS_OF:<br />
HAS_PARTS:<br />
knife<br />
OPERATOR: op_possibility<br />
SCOPE:<br />
nominal_semantics<br />
syntactic_atom<br />
EVENTSTR: EVENT:<br />
lexical_content<br />
one_place_operator_struct<br />
TYPE:<br />
PHYSICAL_STATE: hard<br />
steel<br />
uncountable<br />
TYPE: blade<br />
individual<br />
EVENT_TYPE: cut<br />
ROLES:<br />
2<br />
3<br />
4<br />
ROLE: agent<br />
SEL_RESTR:<br />
role<br />
ROLE: patient<br />
SEL_RESTR:<br />
role<br />
ROLE: instrument<br />
SEL_RESTR: 1<br />
role<br />
ACCESSIBLE_ROLES: 2 , 3 , 4<br />
activity<br />
activity_eventstr<br />
TYPE: human<br />
countable<br />
TYPE: PHYSICAL_STATE: soft<br />
physical_entity<br />
simple_type<br />
Abb. 5.18: <strong>Analyse</strong> von „Stahlmesser“<br />
Die bei <strong>der</strong> Komposition wirksamen Interpretationsmechanismen ähneln denen im Ansatz<br />
von Fanselow (vgl. 3.3.2), stehen aber auch im Gegensatz zu diesem. Die Deutung ist nicht<br />
vollkommen frei, son<strong>der</strong>n bezieht frühzeitig die Kategorien <strong>der</strong> beteiligten Stämme mit ein,<br />
da diese gewisse Interpretationen zumin<strong>des</strong>t nahelegen. So wird versucht, N-N-Komposita<br />
mit deverbalem Kopf und V-N-Komposita durch Argumentbindung zu interpretieren, während<br />
bei N-N-Komposita mit nominalen Kopf stereotype und konzeptuelle Relationen herangezogen<br />
werden. Eine Gemeinsamkeit mit Fanselows Ansatz ist jedoch, daß sich die Interpretationsalternativen<br />
überlappen, also durchaus mehrere Deutungen für ein Kompositum<br />
erzeugt werden können. Die Frage ist, wie die unterschiedliche Plausibilität <strong>der</strong> einzelnen<br />
Interpretationen in deduktiv ausgerichteten Formalismen ausgedrückt werden kann.<br />
Dies ist nun nicht ohne weiteres möglich, da die einzelnen Lösungen eines Parsingproblems<br />
voneinan<strong>der</strong> unabhängig sind. Man kann lediglich Einfluß auf die Reihenfolge nehmen, in<br />
<strong>der</strong> die Lösungen gefunden werden.<br />
154
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
GRAPH: fabrik , verkauf , $ , $<br />
NUM: sg<br />
HEAD:<br />
noun<br />
SYN:<br />
ARGSTR: RELARG:<br />
SEM:<br />
SEM:<br />
syn<br />
noun_argstr<br />
REFARG: TYPE:<br />
individual<br />
HEAD: noun<br />
SYN:<br />
syn<br />
phrase<br />
EVENT_TYPE: sell<br />
ROLES:<br />
REFARG: 1 TYPE: entity<br />
simple_type<br />
nominal_semantics<br />
2<br />
3<br />
4<br />
ROLE: agent<br />
SEL_RESTR:<br />
role<br />
ROLE: theme<br />
SEL_RESTR: 1<br />
role<br />
ROLE: goal<br />
SEL_RESTR:<br />
role<br />
TAKES_PLACE_AT:<br />
TYPE: human<br />
countable<br />
TYPE: human<br />
countable<br />
TYPE: factory<br />
individual<br />
ACCESSIBLE_ROLES: 2 , 3 , 4<br />
activity<br />
CONTENT: no_content<br />
nominal_semantics<br />
syntactic_atom<br />
Abb. 5.19: Eine Lesart von „Fabrikverkauf“<br />
Die semantische Interpretation durch semantics_construction/2 geht immer davon aus, daß<br />
<strong>der</strong> semantische Funktor – sei es nun die Ereignisstruktur eines Verbs, eine stereotype o<strong>der</strong><br />
konzeptuelle Relation – immer mit dem Zweitglied zusammenfällt. Sollen auch Relationen<br />
aus dem Erstglied verwendet werden, dann müssen die entsprechenden Interpretationsfunktionen<br />
leicht verän<strong>der</strong>t werden. Diese Än<strong>der</strong>ung betrifft in erster Linie die Tatsache, daß<br />
in diesen Fällen referentielles Argument und semantischer Funktor nicht mehr aus dem<br />
gleichen Kompositumsteil herstammen.<br />
Zum Schluß: ein noch nicht ganz gelöstes Problem betrifft die Position einer evtl. vorhandenen<br />
stereotypen Relation im Gesamtsystem. Wie man an (30) erkennen kann, befindet sie<br />
sich nicht unter den konzeptuellen Eigenschaften eines Typs, son<strong>der</strong>n unter SEM:CONTENT im<br />
Skopus <strong>des</strong> Möglichkeitsoperators. Dafür gibt es zwei Gründe: Zum einen hat sie m.E. einen<br />
an<strong>der</strong>en Status als die konzeptuellen Relationen. Während diese in einem gewissen Sinne<br />
mehr o<strong>der</strong> weniger notwendige Konzepteigenschaften wi<strong>der</strong>spiegeln (ein Messer hat<br />
prototypisch eine Klinge etc.), hat die stereotype Relation den Charakter einer bloßen Möglichkeit:<br />
ein Messer würde sicher auch dann Messer genannt werden, wenn es noch niemals<br />
zum Schneiden verwendet worden ist. Der an<strong>der</strong>e Grund hängt mit den zusammengesetzten,<br />
polysemen Typen zusammen. Wenn Fabrik z.B. die Typen Gebäude und Belegschaft hat<br />
und beiden Konzepten jeweils eine eigene stereotype Relation zukommt, dann müßte <strong>der</strong><br />
155
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
polyseme Typ „Fabrik“ über beide Relationen verfügen. Da Fabrik m.E. aber nur eine solche<br />
Relation hat – die <strong>des</strong> Produzierens (die nicht mit den Typen Gebäude und Belegschaft assoziiert<br />
ist) – muß sie außerhalb <strong>der</strong> Konzepthierarchie, d.h. beim Lexem Fabrik definiert sein.<br />
5.4 Flexion<br />
5.4.1 Syntax<br />
Die größte Herausfor<strong>der</strong>ung für eine Wortsyntax (nicht Wortsemantik) <strong>des</strong> <strong>Deutschen</strong> ist<br />
meiner Ansicht nach die Abbildung <strong>der</strong> Kombinationsbeschränkungen, die durch die Flexionsparadigmen<br />
gegeben sind. Diese Paradigmen sind ein konzeptionell einfaches Mittel,<br />
Beziehungen zwischen unterschiedlichen Formen eines Wortes herzustellen, lassen sich jedoch<br />
auf keine einfache Weise für die Lösung <strong>des</strong> <strong>Analyse</strong>problems heranziehen. Computerlinguistische<br />
Ansätze, wie beispielsweise <strong>der</strong> von Krieger et al. (1993), die Paradigmen in<br />
einem merkmalsbasierten Formalismus rekonstruieren, machen keine Angaben darüber,<br />
welche Rolle Paradigmen bei <strong>der</strong> <strong>Analyse</strong> spielen könnten. Dies ist natürlich unbefriedigend,<br />
da sich die Computerlinguistik auch um die operationale Interpretation ihrer Konstrukte<br />
kümmern sollte.<br />
Eine Möglichkeit zur Nutzbarmachung von Paradigmen für die Zwecke <strong>der</strong> <strong>morphologischen</strong><br />
<strong>Analyse</strong> besteht darin, sie als etwas zu verstehen, aus dem mit Hilfe eines Zwischenschritts<br />
eine invertierte Relation konstruiert werden kann, die einzelnen Morphen eine<br />
Menge alternativer Merkmalsbündel zuweist. Allen Formen gemeinsame Merkmale, beispielsweise<br />
die für Semantik und Argumentstruktur, werden auf diese Weise nur einmal<br />
spezifiziert, durch den Zwischenschritt jedoch an alle Elemente <strong>der</strong> erzeugten Relation weitergegeben.<br />
Beispiel 5.2:<br />
Aus dem Präsens-Indikativ-Paradigma <strong>der</strong> regelmäßigen Verben<br />
kann folgende Relation gewonnen werden:<br />
sg pl<br />
1 e en<br />
2 st t<br />
3 t en<br />
Flexiv Merkmale<br />
e { }<br />
st { }<br />
t { , }<br />
en { , }<br />
Dieses an sich triviale Verfahren kompliziert sich lediglich dann, wenn Paradigmenzellen,<br />
beispielsweise beim Präteritumsparadigma <strong>der</strong> unregelmäßigen Verben, keine phonetisch<br />
realisierten Affixe enthalten. Hier könnten dann phonetisch leere Flexive angenommen werden,<br />
mit denen Chart-Parser ohne größere Schwierigkeiten zurechtkommen würde. Darüber<br />
hinaus ist es möglich, durch Annahme einiger Beschränkungen, die weiter unten erläutert<br />
werden, die Überspezifikation <strong>der</strong> Flexionsaffixe wie<strong>der</strong> zu beseitigen.<br />
156
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Durch Einführung dieses Umformungsschritts behält man Paradigmen als organisationsstiftende<br />
Elemente neben den eigentlichen Lexikoneinträgen bei, kann sie jedoch aus <strong>der</strong><br />
eigentlichen <strong>Analyse</strong> heraushalten, die nur auf die invertierte Relation Bezug nimmt.<br />
Nun müssen die Kombinationsbeschränkungen, die die zum Ausgangspunkt genommenen<br />
generalisierten Paradigmen ausdrücken, in einer „Flexionsgrammatik“ realisiert werden.<br />
Hierfür kontextfreie Regeln anzusetzen führt letztlich zu einer Vielzahl von Konstruktionsregeln<br />
und setzt darüber hinaus eine sehr genaue Klassifizierung <strong>der</strong> einzelnen Flexive voraus,<br />
auf die sich diese Regeln beziehen. Konzeptionell einfacher ist es, diese Kombinationsbeschränkungen<br />
in das Lexikon zu verlagern, die Klassifikation <strong>der</strong> Flexive so weit wie<br />
möglich implizit mit Hilfe ohnehin notwendiger Merkmale vorzunehmen und zusätzlich nur<br />
eine einzige, allerdings übergenerierende Regel anzunehmen, die jedoch durch drei Bedingungen<br />
wie<strong>der</strong> eingeschränkt wird:<br />
(Regel VI’, 1. Fassung)<br />
cat(pre_syntactic_atom ∧ PSA, L0, L2) ←<br />
PSA ∧<br />
true(cat(pre_syntactic_atom, L0, L1)) ∧<br />
true(cat(infl_affix, L1, L2)) ∧<br />
GRAPH: diff(L0, L2)<br />
Im übrigen weist <strong>der</strong> Typ pre_syntactic_atom, wie morph_object und seine Subtypen und<br />
an<strong>der</strong>s als syntactic_atom, noch ein MORPH-Merkmal auf. Wie syntactic_atom jedoch enthält<br />
er kein STRUCTURE-Attribut mehr, da ich – abweichend von Autoren wie Trost (1990) –<br />
nicht annehme, daß die Operation <strong>der</strong> Flexion Strukturen aufbaut. Diese wären m.E. semantisch<br />
nicht mehr deutbar und damit schwindet die letzte Motivation für Wortstrukturen.<br />
In <strong>der</strong> dargelegten Form erlaubt diese rekursive Regel (zusammen mit <strong>der</strong> Terminierungsregel<br />
V), beliebig viele Flexionsaffixe an einen möglicherweise komplexen Stamm o.ä. anzuhängen.<br />
Im <strong>Deutschen</strong> heißt beliebig jedoch höchstens zwei, beispielsweise bei <strong>der</strong> Bildung<br />
<strong>der</strong> Präteritumsformen <strong>der</strong> regelmäßigen Verben wie lieb-t-en, so daß diese Rekursion drastisch<br />
eingeschränkt werden muß. Dies leisten folgende drei Beschränkungen:<br />
(35)<br />
i. Nur vollständig spezifizierte Wortformen können als syntaktische Atome fungieren,<br />
d.h. X 0<br />
-Elemente von maximalen Projektionen bilden.<br />
ii. Die Einführung von Merkmalen wird durch die transitive Hülle einer irreflexiven<br />
Relation < festgelegt, die durch folgende Elemente gegeben ist und eine partielle Ordnung<br />
definiert (s. a. Wun<strong>der</strong>lich (1992)):<br />
Kategorie < Tempus Kategorie < Komparation<br />
Komparation < Kasus Tempus < Modus<br />
Modus < Numerus Numerus < Person<br />
Person < Kasus<br />
Ein Affix F darf demzufolge nur dann zu pre_syntactic_atom hinzutreten, wenn F für<br />
ein Merkmal B spezifiziert ist, so daß es in pre_syntactic_atom ein Merkmal A gibt,<br />
für das gilt: A < B.<br />
Diese Definition for<strong>der</strong>t also nicht, daß alle hinzukommenden Merkmale „neu“ sind,<br />
son<strong>der</strong>n daß lediglich eines <strong>der</strong> Merkmale <strong>des</strong> Affixes F noch nicht vorhanden war.<br />
Der Sinn dieser Lockerung <strong>der</strong> ursprünglichen Fassung in Wun<strong>der</strong>lich (1992) wird<br />
weiter unten deutlich werden.<br />
iii. Die Merkmale von pre_syntactic_atom und infl_affix müssen miteinan<strong>der</strong> unifiziert<br />
werden können, d.h. die Merkmalswerte müssen kompatibel sein.<br />
157
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Bedingung 35 i) verhin<strong>der</strong>t, daß noch nicht vollständig spezifizierte morphologische Objekte<br />
syntaktisch wirksam werden. Wie weiter unten erläutert wird, kann dies durch einen Filter<br />
sichergestellt werden, <strong>der</strong> im technischen Sinn die Typenmaximalität einer typisierten Merkmalsstruktur<br />
überprüft.<br />
Bedingung 35 ii) gewährleistet, daß die Rekursion nach endlich vielen Schritten endet, da<br />
das Inventar <strong>der</strong> Morphologie nur endlich viele Merkmale enthält und je<strong>der</strong> Affigierungsschritt<br />
min<strong>des</strong>tens ein solches Merkmal einführt und aufgrund <strong>der</strong> Irreflexivität <strong>der</strong> Relation<br />
kein Merkmal hinzutreten lassen darf, welches bereits vorhanden war; dies gilt natürlich nur<br />
dann, wenn nicht gleichzeitig auch ein neues Merkmal eingeführt wird. Die Position <strong>des</strong> Flexionsaffixes<br />
(rechts außen) ist bereits durch Regel VI’ festgelegt.<br />
Bedingung 35 iii) schließt sich wi<strong>der</strong>sprechende Merkmale aus –35 ii) läßt diese ja zunächst<br />
zu – und beantwortet auch die Frage, welches <strong>der</strong> beiden Elemente den Kopf <strong>des</strong> komplexen<br />
<strong>morphologischen</strong> Objekts bildet: keines von beiden. Beide Elemente tragen, ähnlich wie bei<br />
<strong>der</strong> Definition <strong>des</strong> relativierten Kopfs, zum En<strong>der</strong>gebnis bei. Zu beachten ist jedoch, daß die<br />
vorgenommene Unifikation keine Defaults und Prioritäten annimmt und daher auch scheitern<br />
kann. Bedingung 35 iii) ist darüber hinaus entscheidend für die „richtige“ Zuordnung<br />
von Stämmen und Flexiven, was weiter unten deutlich wird.<br />
Bedingungen 35 ii) und 35 iii) können mit den zwei Funktionen affix_or<strong>der</strong>_constraint/2 und<br />
unified_head_features/1 realisiert werden:<br />
(Regel VI’’, 2. Version)<br />
cat(pre_syntactic_atom ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA, L0, L2) ←<br />
PSA ∧<br />
true(cat(pre_syntactic_atom, L0, L1) ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA1) ∧<br />
true(cat(infl_affix, L1, L2) ∧ Infl) ∧<br />
affix_or<strong>der</strong>_constraint(PSA1, Infl) ∧<br />
unified_head_features([PSA1, Infl]) ∧<br />
GRAPH: diff(L0, L2)<br />
Regel VI’’ hält fest, daß die syntaktischen Kopfmerkmale <strong>des</strong> Flexivs mit den Kopfmerkmalen<br />
<strong>des</strong> Flexionsaffixes kompatibel sein müssen, was in natürliche Weise durch typisierte<br />
Unifikation definiert werden kann.<br />
Unifizierbarkeit ist auch das Kriterium für die Merkmale unter MHEAD (diese werden von<br />
unified_head_features/1 mit erfaßt, vgl. S. 133), die in <strong>der</strong> Syntax keine Rolle spielen, jedoch<br />
zur Wie<strong>der</strong>gabe bestimmter Kombinationsbeschränkungen herangezogen werden müssen.<br />
Beispielsweise werden hier für Nomen und die Nomen eigenen Flexionsaffixe die entsprechenden<br />
Deklinationsklassen angegeben. Die Merkmale unter MORPH:MHEAD sind zwar arbiträre<br />
Klassenmerkmale im Sinne von Wun<strong>der</strong>lich (1992), es ist jedoch schwer zu sehen, wie<br />
man ohne sie auskommen könnte. Dies muß auch kein Wi<strong>der</strong>spruch zu Wun<strong>der</strong>lich sein, da<br />
es ihm um die Beschreibung produktiver Paradigmen geht, im Rahmen einer einigermaßen<br />
vollständigen <strong>morphologischen</strong> Beschreibung <strong>der</strong> deutschen Flexion jedoch auch nicht länger<br />
produktive Muster berücksichtigt werden müssen.<br />
Im übrigen zeigt sich in dieser Regel eine Reihenfolgeabhängigkeit <strong>der</strong> Funktionen<br />
affix_or<strong>der</strong>_constraint/2 und unified_head_features/1; affix_or<strong>der</strong>_constraint/2 muß vor <strong>der</strong> Unifikationsoperation<br />
evaluiert werden, nach <strong>der</strong> Unifikation <strong>der</strong> Kopfmerkmale kann die<br />
Funktion nicht mehr erfüllt werden, da dann PSA1 und Infl identisch sind. Die tieferliegende<br />
Ursache dafür ist, daß affix_or<strong>der</strong>_constraint/2 auf einem nicht-monotonen Subsumptionstest<br />
beruht. Tests auf Merkmalsinstantiierungen sind daher nicht ohne weiteres in einen<br />
monotonen Formalismus integrierbar.<br />
158
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Neben <strong>der</strong> Überprüfung <strong>der</strong> Kompatibilität <strong>der</strong> Kopfmerkmale sorgt Regel VI‘‘ noch für die<br />
Vererbung <strong>der</strong> Argumentstruktur und <strong>der</strong> Semantik <strong>des</strong> linken Wortbestandteils an die<br />
nächsthöhere Kategorie.<br />
Bedingung 35 i) schließlich muß als Filter beim Übergang von <strong>der</strong> Morphologie zur Syntax<br />
(m.a.W. beim Übergang von pre_syntactic_atom zu syntactic_atom) wirksam werden, so<br />
daß eine vollständige Merkmalsspezifikation sichergestellt ist. Vollständigkeit bestimmt sich<br />
hier relativ zum Typ <strong>der</strong> Merkmalsstruktur am Ende <strong>des</strong> Pfa<strong>des</strong> SYN:HEAD und korrespondiert<br />
mit dem Begriff <strong>der</strong> Typenmaximalität einer Merkmalsstruktur. Dieser Übergang wird<br />
durch folgende Regel abgebildet:<br />
(Regel VII’, vorläufig)<br />
cat(syntactic_atom ∧ SA, L0, L1) ←<br />
SA ∧<br />
true(cat(pre_syntactic_atom, L0, L1) ∧ PSA) ∧<br />
type_maximal(value_of_syn_head(PSA)) ∧<br />
syn_head_features([PSA]) ∧<br />
arg_structure_realisation(PSA) ∧<br />
GRAPH: diff(L0, L1)<br />
Die Funktion arg_structure_realisation/1 schließlich realisiert die syntaktische und semantische<br />
Argumentstruktur und wird unter 5.4.2 näher ausgeführt<br />
Der folgende Abschnitt wird sich konkret mit den Merkmalsbestimmungen für verbale<br />
Wortformen befassen, um die Grundidee <strong>des</strong> Ansatzes klarer zu machen. Lei<strong>der</strong> wird sich<br />
hier auch zeigen, daß die Regeln VI’’ und VII‘‘ noch nicht in ihren jeweils letzten Fassungen<br />
vorliegen.<br />
5.4.1.1 Merkmalsbasierte Flexion am Beispiel <strong>der</strong> Verbflexion<br />
Da Verben im <strong>Deutschen</strong> die umfangreichsten Flexionsparadigmen aufweisen und darüber<br />
hinaus bei <strong>der</strong> Flexion unterschiedliche Grade an Regularität an den Tag legen, stellen sie die<br />
größten Anfor<strong>der</strong>ungen an die Spezifikation <strong>der</strong> Kombinationsbeschränkungen, die für<br />
Stammform und Flexiv gelten. Diese Kombinationsbeschränkungen sind im wesentlichen<br />
durch die Unifizierbarkeit <strong>der</strong> Kopfmerkmale und durch die Affigierungshierarchie gegeben.<br />
Hierzu müssen sowohl Flexionsaffixe als auch Stammformen in geeigneter Weise mit<br />
Merkmalen und Merkmalswerten versehen werden, wobei zwei Zielvorstellungen zugrunde<br />
liegen:<br />
1. Die Merkmalsspezifikation für Stämme und Affixe soll minimal sein, d.h. nach Möglichkeit<br />
sollen nur Merkmale verwendet werden, die man aus unabhängigen Gründen ohnehin<br />
benötigt. Ähnliches gilt für die Stärke <strong>der</strong> verwendeten Mechanismen. Vom Mittel <strong>der</strong><br />
Unterspezifikation soll daneben, wenn immer möglich, Gebrauch gemacht werden.<br />
2. Das <strong>Analyse</strong>verfahren soll natürlich ein Entscheidungsverfahren sein: es soll alle zulässigen<br />
Formen erfolgreich analysieren und die nicht zulässigen zurückweisen.<br />
Konkret auf die Verbflexion bezogen sollte zudem die sehr große Ähnlichkeit <strong>der</strong> Paradigmen<br />
für die regelmäßige und unregelmäßige Flexion – die Flexionsendungen sind nahezu<br />
die gleichen – ohne Rückgriff auf ein Klassenmerkmal hierfür ausgedrückt werden. Des<br />
weiteren sollen auch Regelmäßigkeiten innerhalb <strong>der</strong> Paradigmen (beispielsweise bei <strong>der</strong> 1.<br />
und 3. Pers. Plural) ausgenutzt werden.<br />
Tabelle 5.2 zeigt zunächst die Verbflexionsaffixe samt ihren Merkmalsbestimmungen (nach<br />
Duden (1984)).<br />
159
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Verbflexiv Merkmalsspezifikation unter SYN:HEAD:<br />
-e verb_infl ∧ CAT:v ∧ ((PERS:1 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:ind ) ∨<br />
(PERS:(1∨3)∧NUM:sg∧TENSE:pres∧MOOD:subjI)∨(PERS:(1∨3)∧NUM:sg ∧ TENSE:pret))<br />
-(e)st verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:sg ∧ MOOD:(ind ∨ subjII)<br />
-(e)t verb_infl ∧ CAT:v ∧ TENSE:pres ∧ MOOD:ind ∧<br />
((PERS:2 ∧ NUM:pl) ∨ (PERS:3 ∧ NUM:sg))<br />
-et verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:pl ∧ TENSE:pret<br />
-est verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:subjI<br />
-et verb_infl ∧ CAT:v ∧ PERS:2 ∧ NUM:pl ∧ TENSE:pres ∧ MOOD:subjI<br />
-∅ verb_infl ∧ CAT:v ∧ PERS:(1 ∨ 3) ∧ NUM:sg ∧ TENSE:pret<br />
-(e)n verb_infl ∧ CAT:v ∧ PERS: (1 ∨ 3) ∧ NUM:pl<br />
-∅- verb_infl ∧ CAT:v ∧ MOOD:(ind ∨ subjI)<br />
-(e)t- verb_infl ∧ CAT:v ∧ TENSE:pret ∧ MOOD:(ind ∨ subjII)<br />
-(e)n verb_inf_base ∧ CAT:v<br />
-(e)nd verb_partI ∧ CAT:v<br />
-(e)t verb_partII ∧ CAT:v<br />
-(e) verb_imp ∧ CAT:v ∧ NUM:sg<br />
-(e)t verb_imp ∧ CAT:v ∧ NUM:pl<br />
Tabelle 5.2: Merkmalsspezifikation <strong>der</strong> Verbflexionsaffixe<br />
Die Merkmalsspezifikationen in Tabelle 5.2 sind auf ein Zusammenspiel mit den Flexionsregeln<br />
VI’’ und VII’ ausgerichtet. Zu beachten ist ferner, daß auch phonetisch leere Endungen<br />
verzeichnet sind, da sie zur Einfachheit <strong>des</strong> Gesamtsystems beitragen.<br />
Wie sehen nun diese Merkmalsbelegungen für die Stammformen aus und wie stellt man die<br />
Zuordnungen zwischen konkreten Stämmen und ihren Merkmalen her?<br />
Zunächst müssen dazu die Stammformen klassifiziert werden 18 , was sich bei Verben durch<br />
Partitionierung aller verschiedenen Verbparadigmen in diejenigen Teilparadigmen ergibt,<br />
die jeweils die gleiche Stammform verwenden. Tabelle 5.3 zeigt, welche verschiedenen<br />
Stammformen hierbei unterschieden werden können und welche Spezifikation hinsichtlich<br />
<strong>der</strong> SYN:HEAD-Merkmale diese Formen tragen.<br />
Diese Bestimmungen, die durch eine Sorte vform/1 repräsentiert werden, sind recht komplex,<br />
jedoch notwendig, um dem kontingenten Aufbau <strong>der</strong> Verbparadigmen im <strong>Deutschen</strong><br />
gerecht zu werden. Vform(0) bezieht sich dabei auf regelmäßige Verben, <strong>der</strong>en Stammform<br />
allein mit CAT:v markiert ist und die entwe<strong>der</strong> nur ein Flexiv o<strong>der</strong> das Präteritumsaffix -t-<br />
mit nachfolgenden Flexiv zu sich nimmt. Die an<strong>der</strong>en Formen 1 bis 7 partitionieren das Paradigma<br />
<strong>der</strong> unregelmäßigen Verben in Teilparadigmen, bei denen jeweils die gleiche Stammform<br />
zur Anwendung kommt. Vform(4) beispielsweise definiert das Präteritums-Teilparadigma<br />
<strong>der</strong> unregelmäßigen Verben. Abb. 5.20 zeigt diese Klassifikation für die Formen 1 bis<br />
7 in graphischer Form (ähnliche Darstellungen für die romanischen Sprachen finden sich übrigens<br />
in Holl (1988)).<br />
18 Diese Klassifikation verwendet (mit einer Ausnahme <strong>des</strong> unten besprochenen Merkmals<br />
MORPH:MFEAT:COMPLETE) zunächst nur Flexionsmerkmale, die man ohnedies voraussetzt.<br />
160
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Sorte Merkmalsbestimmung unter SYN:HEAD<br />
Farbe in<br />
Abb. 5.3<br />
vform(0) verb ∧ CAT:v<br />
vform(1) verb ∧ CAT:v ∧ ((NUM:pl ∧TENSE:pres ) ∨ (TENSE:pres∧MOOD:subjI) ∨ >)<br />
vform(2) MORPH:MFEAT:COMPLETE: minus ∧<br />
CAT:v ∧ PERS:1 ∧ NUM:sg ∧ TENSE:pres ∧ MOOD: ind<br />
vform(3) MORPH:MFEAT:COMPLETE: minus ∧<br />
verb ∧ CAT:v ∧ PERS: (2 ∨ 3) ∧ NUM:sg ∧ TENSE:pres ∧ MOOD:ind<br />
vform(4) verb ∧ CAT:v ∧ TENSE:pret ∧ MOOD:ind<br />
vform(5) verb ∧ CAT:v ∧ TENSE:pret ∧ MOOD:subjII<br />
vform(6) verb_partII ∧ CAT:v<br />
vform(7) verb_imp ∧ CAT:v ∧ MOOD:imp<br />
/<br />
Tabelle 5.3: Klassifikation und Merkmalsspezifikation <strong>der</strong> verschiedenen Verbstammformen<br />
1<br />
sg 2<br />
3<br />
1<br />
pl 2<br />
3<br />
pres pret<br />
ind subjI ind subjII<br />
inf partI partII imp sg imp pl<br />
Abb. 5.20: Graphische Darstellung <strong>der</strong> Formenklassifikation<br />
Es zeigt sich jedoch ein generelles Problem, das sich veranschaulichen läßt am Beispiel von<br />
vform(3), die für die Formen im 2/3. Pers. Sing. Präs. Ind. verantwortlich ist und bei einigen<br />
unregelmäßigen Verben wie beispielsweise werfen mit einem eigenen Stamm verknüpft wird<br />
(wirf). Stämme dieser Art sind bereits mit allen Merkmalsausprägungen versehen, die für<br />
morphologische Objekte dieses Typs vorgesehen sind; im Sinne <strong>der</strong> Flexionsregel VI'’ sind<br />
sie daher maximal. Diese Maximalität ist notwendig, damit unzulässige Formen wie z.B.<br />
*wirfe (unzulässige Kombination <strong>des</strong> Stamms mit dem Affix -e, welches als 1. Pers. markiert<br />
ist) ausgeschlossen werden können. Nichts<strong>des</strong>toweniger können jedoch noch die Endungen -<br />
st bzw. -t zur Bildung vollständiger Verbformen (z.B. wirfst) hinzutreten.<br />
Unter <strong>der</strong> Prämisse, daß sowohl Merkmalsbestimmungen als auch Kombinationsbeschränkungen<br />
ohne Rückgriff auf arbiträre Klassenmerkmale beschrieben werden sollen, läßt sich<br />
das Problem auch aus einer allgemeineren Perspektive betrachten – einer Perspektive, die<br />
Bezug nimmt auf den mehrdimensionalen Charakter von Paradigmen. Der informelle Gedankengang<br />
zum Nachweis <strong>der</strong> Notwendigkeit willkürlicher Klassenmerkmale für die<br />
deutsche Verbmorphologie unter den genannten Voraussetzungen sieht folgen<strong>der</strong>maßen<br />
aus:<br />
161
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Sollen Kombinationsbeschränkungen mit Hilfe einer Menge M von Merkmalen, die aus unabhängigen<br />
Gründen benötigt werden, festgehalten werden, so muß man hierfür min<strong>des</strong>tens<br />
ein Merkmal F verwenden, das natürlich aus M stammen muß. Dies setzt jedoch voraus, daß<br />
F noch nicht für an<strong>der</strong>e Zwecke eingesetzt wurde, denn ein Merkmal kann nicht gleichzeitig<br />
zwei unterschiedliche Sachverhalte repräsentieren. Faßt man nun Paradigmen als<br />
mehrdimensionale Tabellen auf, so muß ein solches Merkmal (unter Ausnutzung <strong>der</strong><br />
Möglichkeit <strong>der</strong> Unterspezifikation) dann nicht angegeben werden, wenn die Stammformen<br />
entlang <strong>der</strong> durch F eröffneten Dimension die gleichen Kombinationsbeschränkungen aufweisen.<br />
Sobald eine Stammform jedoch nur bestimmte Zellen in dieser Dimension belegt,<br />
müssen alle zur Verfügung stehenden Merkmale (d.h. alle Merkmale, die das Paradigma<br />
konstituieren) zur Beschreibung dieser Zellen eingesetzt werden, was kein Merkmal mehr<br />
freiläßt, um Kombinationsbeschränkungen zu repräsentieren. Dies ist nun an verschiedenen<br />
Stellen im Paradigma <strong>der</strong> unregelmäßigen Verben <strong>der</strong> Fall, beispielsweise im gerade genannten<br />
Fall.<br />
Zur Lösung dieses Problems muß man also weitere Merkmale annehmen. Die Frage ist nur,<br />
auf welche Weise dies geschehen soll. Eine naheliegende Möglichkeit ist die Einführung von<br />
Subkategorisierungslisten, in denen für jede Stammform die Eigenschaften <strong>der</strong> nachfolgenden<br />
Flexive festgehalten werden, o<strong>der</strong> – dazu äquivalent – eine kategorialgrammatische<br />
Notation, die zwischen Eingabe- und Ausgabespezifikation (ähnlich wie in <strong>der</strong> Konzeption<br />
von Wun<strong>der</strong>lich (1992)) unterscheidet. Subkategorisierungslisten sind nun eine sehr generelle<br />
Methode, die Voll- bzw. Unvollständigkeit von Kategorien zu charakterisieren und es<br />
bleibt fraglich, ob man einen so starken Mechanismus, <strong>der</strong> immerhin Gebrauch von rekursiven<br />
Merkmalsstrukturen macht und daher auch Phänomene beschreiben könnte, die nicht<br />
auftreten, überhaupt benötigt. Mir scheint ein zusätzliches Merkmal ±COMPLETE angemessener,<br />
welches genau den Sachverhalt ausdrückt, daß eine Stammform zwar bereits vollständig<br />
spezifiziert ist, sie dennoch noch Affixe zu sich nimmt. Dieses Merkmal, das im Regelfall<br />
unterspezifiziert bleibt, ist zugegebenermaßen rein stipulativ (jedoch auch nicht mehr als<br />
Subkategorisierungslisten), hat jedoch den Vorteil, daß die Merkmalsbestimmungen für<br />
Stämme und Affixe weiterhin ohne die die Komplexität beträchtlich erweiternde morphologische<br />
Subkategorisierungslisten auskommen und <strong>der</strong> prinzipielle Charakter <strong>der</strong> Flexionsregeln<br />
VI‘‘ und VII‘ gewahrt bleibt, die nun in ihrer jeweils letzten Fassung wie<strong>der</strong>gegeben<br />
werden.<br />
(Regel VI, Endfassung)<br />
cat(pre_syntactic_atom ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA, L0, L2) ←<br />
PSA ∧<br />
true(cat(pre_syntactic_atom, L0, L1) ∧ SYN:ARGSTR:AS ∧ SEM:Sem ∧ PSA1) ∧<br />
true(cat(infl_affix, L1, L2) ∧ Infl) ∧<br />
affix_or<strong>der</strong>_constraint(value_of_complete_path(PSA1), PSA1, IA) ∧<br />
unified_head_features([PSA1, Infl]) ∧<br />
GRAPH: diff(L0, L2)<br />
Der Bedingungsteil für die Flexionsregel ist komplexer geworden und ist so beschaffen, daß<br />
<strong>der</strong> Merkmalswert COMPLETE:minus nur ein einziges Mal verwendet werden kann. Dies leistet<br />
eine neue Funktion affix_or<strong>der</strong>_constraint/3, die als erstes Argument den Wert <strong>des</strong> Pfa<strong>des</strong><br />
MORPH:MFEAT:COMPLETE erhält, und folgen<strong>der</strong>maßen definiert ist:<br />
(36) affix_or<strong>der</strong>_constraint(plus, PSA, IA) ← affix_or<strong>der</strong>_constraint(PSA, IA)<br />
affix_or<strong>der</strong>_constraint(Value, PSA, IA) ← subsumes(minus, Value)<br />
162
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(36) besagt, daß im Falle von COMPLETE: minus auf den Test mit affix_or<strong>der</strong>_constraint/2 verzichtet<br />
wird. Dies muß durch die (Meta-)Operation eines Subsumptionstest festgestellt werden,<br />
da die Unifikation auch mit einem unterspezifizierten COMPLETE-Wert erfolgreich wäre.<br />
(Regel VII)<br />
cat(syntactic_atom ∧ SA, L0, L1) ←<br />
SA ∧<br />
true(cat(pre_syntactic_atom, L0, L1) ∧ MORPH:MFEAT:COMPLETE: plus ∧ PSA) ∧<br />
type_maximal(value_of_syn_head(PSA)) ∧<br />
syn_head_features([PSA]) ∧<br />
arg_structure_realisation(PSA) ∧<br />
GRAPH: diff(L0, L1)<br />
Neben dem Test auf Typenmaximalität wird geprüft, ob das Merkmal COMPLETE mit dem<br />
Wert plus unifizierbar ist. Da <strong>der</strong> Wert nie explizit auf plus gesetzt wird und daher boolean<br />
sein muß, ist dies entwe<strong>der</strong> aufgrund <strong>der</strong> Unterspezifikation im Morph-Lexikon o<strong>der</strong> durch<br />
min<strong>des</strong>tens einmalige Anwendung von Regel VI <strong>der</strong> Fall.<br />
Bei Regel VII werden schließlich nur noch die syntaktischen Kopfmerkmale an<br />
syntactic_atom vererbt, da dieser Typ per Definition über keine <strong>morphologischen</strong> Merkmale<br />
mehr verfügt.<br />
Im letzten Schritt werden nun konkrete Verbstämme mit den Formsorten aus Tabelle 5.3 (die<br />
als Abkürzung für die Beschreibung rechts davon aufzufassen sind), in Beziehung gesetzt.<br />
Ist eine konkrete Verbstammform für mehrere Teilparadigmen einschlägig, so wird dies<br />
durch Disjunktion ausgedrückt. Beispiel 5.3 veranschaulicht diese Zuordnung anhand von<br />
Verben mit unterschiedlichem Flexionsverhalten.<br />
Beispiel 5.3:<br />
Das Verb werfen weist die Maximalanzahl unterschiedlicher Stämme im <strong>Deutschen</strong> auf (Ablaut,<br />
e/i-Wechsel und Umlaut im Konjunktiv). Wie Wun<strong>der</strong>lich (1992) betrachte ich das Partizip-II-Suffix<br />
-en als nicht mehr produktiv, so daß es dem Stamm zugerechnet werden kann.<br />
Die Zuordnung von Stämmen und Formsorten zeigt folgende Tabelle:<br />
werf wirf warf würf worfen<br />
vform(1) ∨ vform(2) vform(3) ∨ vform(7) vform(4) vform(5) vform(6)<br />
Umlaut im Präs. Sing. <strong>der</strong> 2./3. Person zeigt das Verb tragen. Abweichend von werfen wird<br />
diese Stammform jedoch nicht für den Imperativ Sing. verwendet, so daß sich folgende Zuordnung<br />
ergibt:<br />
trag träg trug trüg tragen<br />
vform(1) ∨ vform(2) ∨ vform(7) vform(3) vform(4) vform(5) vform(6)<br />
Das Verb schreiben besitzt drei verschiedene Stämme: schreib, schrieb und schrieben. Als<br />
Merkmalsbestimmungen ergeben sich demnach:<br />
schreib schrieb schrieben<br />
vform(1) ∨ vform(2) ∨ vform(3) ∨ vform(7) vform(4) ∨ vform(5) vform(6)<br />
163
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Regelmäßiges Verben wie lieben werden einfach <strong>der</strong> Funktion vform(0) zugeordnet. Suppletive<br />
Paradigmen wie die von sein und haben erfaßt man am besten in Form von einer Reihe<br />
von Vollformeinträgen.<br />
Beispiele 5.4 und 5.5 verdeutlichen nun, wie die Merkmalsspezifikationen <strong>der</strong> Verbflexive<br />
und Verbstämme unter Vermittlung <strong>der</strong> Flexionsregeln miteinan<strong>der</strong> interagieren. Da das<br />
morphologische <strong>Analyse</strong>problem als Entscheidungsproblem aufgefaßt wird, muß neben <strong>der</strong><br />
Generierung <strong>der</strong> „richtigen“ Wortformen auch die Erzeugung von unzulässigen verhin<strong>der</strong>t<br />
werden.<br />
Beispiel 5.4: Zulässige Wortformen:<br />
1) <strong>Analyse</strong> von lachen<br />
Die Unifikation <strong>der</strong> Merkmale unter SYN:HEAD von lach- und -en ergibt folgende Merkmalsstrukturen:<br />
a) b) c)<br />
CAT: v<br />
PERS:<br />
NUM:<br />
TENSE: pres<br />
MOOD:<br />
verb_infl<br />
1 ∨ 3<br />
pl<br />
ind ∨ subjI<br />
CAT: v<br />
PERS:<br />
NUM:<br />
TENSE: tense<br />
MOOD:<br />
verb_infl<br />
1 ∨ 3<br />
pl<br />
mood<br />
Struktur b) wird durch die Maximalitätsbedingung ausgefiltert.<br />
2) <strong>Analyse</strong> von lachten:<br />
Hierfür wird folgende wohlgeformte Struktur erzeugt:<br />
pre_syntactic_atom<br />
pre_syntactic_atom<br />
simple_or_complex_stem<br />
lach<br />
CAT: v<br />
verbal<br />
syntactic_atom<br />
pre_syntactic_atom<br />
infl_affix<br />
t<br />
TENSE: pret<br />
MOOD: ind ∨ subjII<br />
verb_infl<br />
infl_affix<br />
en<br />
PERS: 1 ∨ 3<br />
NUM: pl<br />
verb_infl<br />
CAT: v<br />
verb_inf_base<br />
Die SYN:HEAD-Merkmale von syntactic_atom ergeben sich durch Unifikation <strong>der</strong> drei angegebenen<br />
Merkmalsstrukturen.<br />
3) <strong>Analyse</strong> von werfe/wirfst:<br />
Aufgrund <strong>der</strong> Spezifikation von werf/wirf mit COMPLETE:minus kann das Flexiv hinzutreten.<br />
164
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Beispiel 5.5: ausgeschlossene Verbformen:<br />
Verbform Ausschlußgrund<br />
*lachenen Die Merkmale <strong>des</strong> zweiten en-Flexivs erfüllen die Funktion<br />
affix_or<strong>der</strong>_constraint/3 nicht, da seine Werte bei pre_syntactic_atom bereits<br />
spezifiziert sind.<br />
*lachent Die Merkmale, die das Präteritumsaffix -t- hinzufügen könnte, liegen in <strong>der</strong><br />
Affigierungshierarchie vor den Merkmalen Person und Numerus<br />
*wirfe Die Unifikation <strong>der</strong> SYN:HEAD-Merkmale von Stamm und Flexiv scheitert<br />
*werf Der Stamm werf ist mit vform(1) ∨ vform(2) klassifiziert. vform(1) ist nicht vollständig<br />
bzgl. <strong>der</strong> für verb_infl definierten Merkmale und verfällt somit dem<br />
Maximalitätsfilter.<br />
vform(2) trägt das Merkmal COMPLETE: minus und macht daher die Anwendung<br />
von Regel VII unmöglich.<br />
*werfte Die Unifikation <strong>der</strong> HEAD-Merkmale von Stamm (TENSE:pres) und Flexiv<br />
(TENSE:pret) scheitert.<br />
*warfte Das Affix -t- kann nur Merkmale hinzufügen, die am Stamm bereits spezifiziert<br />
sind.<br />
*geworfent <strong>der</strong> Stamm worfen ist schon mit allen notwendigen Merkmalen versehen; das<br />
Partizip-II-Suffix kann keine neuen Merkmale hinzufügen.<br />
Zirkumfigierung, die zumin<strong>des</strong>t für die Partizip-II-Bildung (und evtl. noch in an<strong>der</strong>en Fällen,<br />
vgl. Eisenberg (1998:401)) anzusetzen ist, läßt sich lei<strong>der</strong> nicht so einfach in dieses<br />
Schema integrieren, zumal es hier noch Einschränkungen silbischer und morphologischer<br />
Art gibt: ge- tritt nur vor Verben mit Betonung auf <strong>der</strong> ersten Silbe (also nicht vor präfigierte<br />
Verben o<strong>der</strong> solcher fremdsprachiger Herkunft) und wird bei Partikelverben nach dem Partikel<br />
eingefügt. Es ist daher einfacher, hier spezielle Regeln zu formulieren, die diese Beson<strong>der</strong>heiten<br />
berücksichtigen .<br />
Ein Problem <strong>der</strong> Verbflexion muß noch in angemessener Weise gelöst werden. Es betrifft den<br />
Eingang von Partizipformen in die Adjektivflexion, beispielsweise geliebt – geliebte. Erklärungen<br />
dieses Phänomens sind mir nicht bekannt; die einzigen Untersuchungen hierzu<br />
betreffen die Vererbung <strong>der</strong> Verbargumente an das Adjektiv bzw. die Restriktionen, die<br />
hierfür gelten (vgl. z.B. Toman (1986). Es bleibt daher nichts an<strong>der</strong>es übrig, als hierfür Umkategorisierungsregeln<br />
anzunehmen, die selbstverständlich we<strong>der</strong> einem wortsyntaktischen<br />
X’-Schema noch einem Kopfmerkmalsprinzip gehorchen. Konversion wird in Abschnitt 5.5<br />
näher behandelt.<br />
5.4.1.2 Flexion an<strong>der</strong>er Kategorien<br />
Die Regeln VI und VII sind auch auf die Flexion von Nomen und Adjektiven anwendbar (die<br />
übrigen Wortarten, die Flexionsverhalten an den Tag legen – Pronomen, Determinatoren etc.<br />
– werden besser als Vollformen <strong>der</strong> Klasse syntactic_atom im Lexikon verzeichnet).<br />
Bei <strong>der</strong> Nomenflexion wird man kaum ohne eine Klassifizierung in Deklinationsklassen<br />
auskommen, wie sie in je<strong>der</strong> <strong>des</strong>kriptiven Grammatik (z.B. Duden (1984)) vorgenommen<br />
wird. Solche Klassenmerkmale stehen jedoch (wie erwähnt) nicht unbedingt in Wi<strong>der</strong>spruch<br />
mit Wun<strong>der</strong>lich (1992), da <strong>der</strong> Gegenstand von Wun<strong>der</strong>lichs Theorie m.E. nur die Konstruktion<br />
produktiver Paradigmen ist, einige <strong>der</strong> Nomenflexionsparadigmen jedoch nicht<br />
mehr produktiv sind (vgl. dazu Eisenberg (1998)). Da die Deklinationsklasse, <strong>der</strong> ein Nomen<br />
angehört, ein Kopfmerkmal ist, wird für sie ein entsprechen<strong>der</strong> Wert unter MORPH:MHEAD<br />
165
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
verzeichnet. Die (nicht unproblematische) Annahme von phonetisch leeren Flexiven vereinfacht<br />
auch hier die Merkmalsspezifikation. Tabelle 5.4 führt beispielhaft die Bestimmungen<br />
für Stämme und Flexive einer Deklinationsklasse auf.<br />
Stamm/Flexiv Merkmalsbestimmung<br />
z.B. Apfel SYN:HEAD:(CAT:n ∧ NUM:sg ∧ gen:masc) ∧<br />
MORPH:(MHEAD:DECL_CLASS: (DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II) ∧<br />
MFEAT:UMLAUT:plus)<br />
z.B. Äpfel SYN:HEAD:(CAT:n ∧ NUM:pl ∧ gen:masc) ∧<br />
MORPH:(MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II) ∧<br />
MFEAT:UMLAUT:plus)<br />
∅ SYN:HEAD:(NUM:(sg ∨ pl) ∧ CASE:¬gen) ∧<br />
MORPH:MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II)<br />
-s SYN:HEAD:(NUM:sg ∧ CASE:gen) ∧<br />
MORPH:MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II)<br />
-n SYN:HEAD:(NUM:pl ∧ CASE:gen) ∧<br />
MORPH:MHEAD:DECL_CLASS:(DECL_CLASS_SG:I ∧ DECL_CLASS_PL:II)<br />
Tabelle 5.4: Merkmalsbestimmungen für Stämme und Flexive <strong>der</strong> Deklinationsklasse S1/P2 (Duden (1984))<br />
Die Flexion von Adjektiven ist wie<strong>der</strong>um etwas komplexer, zumin<strong>des</strong>t dann, wenn man<br />
Komparation unter Flexion subsumiert. Dies ist natürlich nicht unproblematisch, da die Bildung<br />
von Komparativen und Superlativen Än<strong>der</strong>ungen in <strong>der</strong> Semantik und Argumentstruktur<br />
<strong>des</strong> Basismorphems nach sich zieht, was die Bedeutungsinvarianz als Kriterium <strong>der</strong><br />
Paradigmenbildung in Frage stellt. Dieses Kriterium ist jedoch bereits hinsichtlich <strong>der</strong> Pluralbildung<br />
zweifelhaft.<br />
Die folgende Tabelle zeigt einige Adjektivflexive:<br />
Flexiv Merkmalsbestimmung unter SYN:HEAD<br />
∅ adjective ∧ DEGREE: pos<br />
-er adjective ∧ DEGREE: comp<br />
-st adjective ∧ DEGREE: sup<br />
-em adjective ∧ NUM: sg ∧ CASE: dat ∧ GENDER: (masc ∨ neut ) ∧ DECL: strong<br />
Tabelle 5.5: Einige Adjektivflexive<br />
Da auch Adjektive Allomorphie an den Tag legen, muß wie im Verbbereich eine Formenklassifikation<br />
vorgenommen werden. Unterschieden wird zwischen aform(0), bei denen <strong>der</strong><br />
gleiche Stamm für Positiv, Komparativ und Superlativ verwendet wird (beispielsweise bei<br />
schön), aform(1), die nur für den Positiv verwendet wird (z.B. rot) und aform(2), die für die<br />
restlichen Steigerungsformen heranzogen wird (z.B. röt). Suppletion wie bei gut – besser –<br />
besten wird wie<strong>der</strong>um durch Auflistung im Vollformenbereich <strong>des</strong> Lexikons behandelt.<br />
Die Adjektivflexion mit ihren ausgeprägten Synkretismen – 24 Wortformen fallen auf nur<br />
fünf Endungen – zeigt übrigens einen gewissen Konflikt zwischen Unterspezifikation und<br />
Typenmaximalität. Beim Plural von Adjektiven würde man sicher erwägen, das Genus-<br />
Merkmal unterspezifiziert zu lassen, da alle drei Genera die gleiche Endung aufweisen. Dies<br />
darf aber nicht erfolgen, da sonst die Formen den Maximalitätsfilter nicht passieren. Es bleibt<br />
demnach nichts an<strong>der</strong>es übrig, als einen Typ durch die vollständige Disjunktion aller seiner<br />
maximalen Subtypen zu ersetzen, im Beispielfall also gen<strong>der</strong> mit masc ∨ fem ∨ neut<br />
anzugeben.<br />
166
5.4.2 Semantik<br />
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Flexionsprozesse haben natürlich Einfluß auf die Semantik eines Lexems. Beispielsweise<br />
wird Tempus im Rahmen <strong>der</strong> Montague-Semantik mit Hilfe zweier Satzoperatoren P und F<br />
realisiert. Das Problem ist, daß diese Operatoren Sätze als Argumente nehmen, auf <strong>der</strong><br />
Ebene <strong>der</strong> Morphologie aber nur Prädikate zur Verfügung stehen, woraus die bekannten<br />
Klammerparadoxien entstehen. Ich möchte hier nicht weiter darauf eingehen, son<strong>der</strong>n nur<br />
zeigen, wie man den Einfluß <strong>des</strong> Numerus-Merkmals auf die Semantik eines Nomens, genauer<br />
gesagt eines Individuennomens, im gewählten methodischen Rahmen ausdrücken<br />
kann.<br />
Die Sorte arg_structure_realisation/1 in Regel VII übernimmt die Aufgabe, beim Übergang zu<br />
syntactic_atom die syntaktische (unter SYN:ARGSTR) wie auch die semantische Argumentstruktur<br />
(unter SEM:REFARG bzw. SEM:EXTARG) in einer Weise zu realisieren, daß sie in <strong>der</strong><br />
Satzsyntax verwendet werden kann. Beispielsweise ist die Referenz <strong>des</strong> referentiellen Arguments<br />
im Lexikoneintrag von Individuennomen unterspezifiziert bzgl. <strong>der</strong> Unterscheidung<br />
Individuum–Gruppe, ebenso wie <strong>der</strong> morphologische Status von Elementen unter<br />
SYN:ARGSTR neutral in bezug auf die Opposition syntactic_atom – phrase ist. Beim Übergang<br />
von <strong>der</strong> Wortbildung zur Syntax müssen diese Unterspezifikationen jedoch in richtiger<br />
Weise durch Typenanhebung aufgelöst werden, was eben die verschiedenen Klauseln von<br />
arg_structure_realisation/1 leisten:<br />
(37)<br />
a) arg_structure_realisation(PSA ∧ SYN:HEAD:(verb ∧ NUM: Num) ∧<br />
SEM:(EXTARG: Ext ∧ CONTENT: Content)) ←<br />
type_shift_args_to_phrase(PSA) ∧<br />
SEM:EXTARG:type_shift(Num, Ext) ∧<br />
SEM:CONTENT: Content<br />
b) arg_structure_realisation(PSA ∧ SYN:HEAD: verb_infinitive ∧ SEM: Sem) ←<br />
type_shift_args_to_phrase(PSA) ∧<br />
SEM: Sem<br />
c) arg_structure_realisation(PSA ∧ SYN:HEAD: (nominal ∧ NUM: Num) ∧<br />
SEM:(REFARG: Ref ∧ CONTENT: Content) ) ←<br />
type_shift_args_to_phrase(PSA) ∧<br />
SEM:REFARG: type_shift(Num, Ref) ∧<br />
SEM:CONTENT: Content<br />
Die Variable PSA steht jeweils für den <strong>der</strong> Tochter von syntactic_atom zugeordneten<br />
Merkmalsterm. (37a) regelt die Realisierung <strong>des</strong> externen Arguments von Verbformen, die<br />
für Numerus spezifiziert sind (also alle Formen bis auf die infinitivischen Formen wie Infinitiv<br />
mit o<strong>der</strong> ohne zu, Partizip I und II). In Abhängigkeit vom Wert von NUM wird das externe<br />
Argument durch die weiter unten erläuterte type_shift/2-Funktion realisiert.<br />
(37b) erfaßt alle an<strong>der</strong>en <strong>der</strong> in (37a) nicht berücksichtigten infinitivischen Verbformen, die<br />
in <strong>der</strong> Hierarchie <strong>der</strong> Kopftypen (siehe (1) auf S. 122) genau durch den disjunktiven Typ<br />
verb_infinitive repräsentiert werden. Die syntaktischen Argumente werden zu Phrasen angehoben<br />
(durch type_shift_args_to_phrase/1); <strong>der</strong> Struktur unter SEM wird unverän<strong>der</strong>t an<br />
syntactic_atom weitergegeben.<br />
167
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(37c) bezieht sich auf die beiden nominalen Kategorien Nomen und Adjektiv und verwirklicht<br />
<strong>der</strong>en referentielle Argumente in Abhängigkeit von <strong>der</strong> Ausprägung <strong>des</strong> Numerus-<br />
Merkmals.<br />
Wie sehen nun die verschiedenen Klauseln <strong>der</strong> Funktion type_shift/2 aus?<br />
(38)<br />
(a) type_shift(sg, Type ∧ individual ∧ IS_GROUP: minus) ← Type<br />
(b) type_shift(sg, Type ∧ uncountable ∧ IS_GROUP: minus) ← Type<br />
(c) type_shift(sg, Type ∧ group ∧ IS_GROUP: plus) ← Type ∧ GROUP_OF: individual<br />
(d) type_shift(sg, dotted_type ∧ TYPE_REL:TR ∧ TYPES:Types) ←<br />
dotted_type ∧ TYPE_REL:TR ∧<br />
TYPES: type_shift_all_subtypes(sg, Types)<br />
(e) type_shift(pl, NonGroup ∧ IS_GROUP: minus ∧ TYPE: T) ←<br />
NonGroup ∧ GROUP_OF: (individual ∧ TYPE: T)<br />
(f) type_shift(pl, Group ∧ group ∧ IS_GROUP:plus ∧ TYPE:T) ←<br />
Group ∧ GROUP_OF: (TYPE:T ∧ GROUP_OF: (individual ∧ TYPE:T))<br />
(g) type_shift(pl, dotted_type ∧ TYPE_REL: TR ∧ TYPES: Types) ←<br />
dotted_type ∧ TYPE_REL: TR ∧<br />
TYPES: type_shift_all_subtypes(pl, Types)<br />
(38 a-d) sind für die Typenanhebung im Singular verantwortlich. Das in den Lexikoneinträgen<br />
<strong>der</strong> entsprechenden Nomen spezifizierte Merkmal IS_GROUP legt fest, ob das Nomen<br />
schon im Singular eine Menge denotiert. Das ist bei Mengen bezeichnenden Nomen mit einfachen<br />
Typen wie Gruppe, Menge usw. <strong>der</strong> Fall, aber auch bei Nomen wie Fabrik mit einem<br />
dotted type, bei dem ein Dot-Typ sich ebenfalls auf eine Menge bezieht (vgl. die Fabrik streikt,<br />
d.h. die Menge <strong>der</strong> Werktätigen streikt). (38d) betrifft gerade diesen Fall von dotted types im<br />
Singular, bei dem die Funktion type_shift_all_subtypes/2 einfach rekursiv auf die Elemente in<br />
<strong>der</strong> TYPES-Liste angewendet wird.<br />
(39) type_shift_all_subtypes(Num, []) ← []<br />
type_shift_all_subtypes(Num, [Type|Types]) ←<br />
[type_shift(Num, T ∧ ¬uncountable)|type_shift_all_subtypes(Num, T)]<br />
type_shift_all_subtypes(pl, [uncountable|Types]) ←<br />
type_shift_all_subtypes(pl, Types)<br />
Im Plural (38 e-g) funktioniert das Ganze völlig analog, mit dem Unterschied, daß<br />
type_shift_all_subtypes/2 Subtypen vom Typ uncountable ignoriert. Dies ist nötig, um die unterschiedliche<br />
Referenz von Massenomina im Singular und Plural abzubilden: während sie<br />
im Singular die typische Alternation zwischen Individuum und Stoff an den Tag legen, können<br />
sie im Plural nur noch Mengen von Individuen bezeichnen (vgl. das Paar Brot – Brote).<br />
Klauseln (38 e-g) würden übrigens verhin<strong>der</strong>n, daß Nomen mit einfachem Typ uncountable<br />
in den Plural gesetzt werden, falls es solche Nomen überhaupt gibt.<br />
Die nachstehende Abbildung demonstriert die Wirkung von type_shift/2 am Beispiel <strong>des</strong><br />
Singulars und Plurals von Fabrik.<br />
168
GRAPH: fabrik<br />
SYN:<br />
SEM:<br />
CAT: n<br />
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
NUM: sg<br />
HEAD: CASE: acc ∨ dat ∨ gen∨ nom<br />
ARGSTR:<br />
syn<br />
REFARG:<br />
GENDER: fem<br />
noun<br />
RELARG:<br />
DEFARGS:<br />
ARGSTR_ORDER:<br />
noun_argstr<br />
TYPES:<br />
TYPE_REL:<br />
dotted_type<br />
CONTENT: content<br />
nominal_semantics<br />
syntactic_atom<br />
1<br />
2<br />
TYPE: building<br />
individual<br />
TYPE: 3 human<br />
TYPE: 3<br />
GROUP_OF:<br />
individual<br />
group<br />
RELCONST: work_in<br />
RELARGS:<br />
relation<br />
4<br />
ROLE: worker<br />
SEL_RESTR: 2<br />
role<br />
ROLE: location<br />
SEL_RESTR: 1<br />
role<br />
GRAPH: fabrik , en<br />
SYN:<br />
SEM:<br />
CAT: n<br />
NUM: pl<br />
HEAD: CASE: acc ∨ dat ∨ gen∨ nom<br />
ARGSTR:<br />
syn<br />
REFARG:<br />
GENDER: fem<br />
noun<br />
RELARG:<br />
DEFARGS:<br />
ARGSTR_ORDER:<br />
noun_argstr<br />
TYPES:<br />
TYPE_REL:<br />
dotted_type<br />
CONTENT: content<br />
nominal_semantics<br />
syntactic_atom<br />
1<br />
3<br />
TYPE: 2 building<br />
TYPE: 2<br />
GROUP_OF:<br />
individual<br />
group<br />
TYPE: 4 human<br />
TYPE: 4<br />
GROUP_OF: GROUP_OF:<br />
TYPE: 4<br />
individual<br />
group<br />
group<br />
RELCONST: work_in<br />
RELARGS:<br />
relation<br />
5<br />
ROLE: worker<br />
SEL_RESTR: 3<br />
role<br />
ROLE: location<br />
SEL_RESTR: 1<br />
Abb. 5.21: Typenanhebung <strong>des</strong> referentiellen Arguments bei einem polysemen Nomen<br />
Die Funktion type_shift_args_to_phrase/1 in (37) realisiert auf <strong>der</strong> an<strong>der</strong>en Seite die syntaktische<br />
Argumentstruktur von Lexemen. Sie ist durch Klauseln wie (40)<br />
(40) type_shift_args_to_phrase(SYN:ARGSTR:(AS ∧ noun_argstr ∧ RELARG: R ∧ DEFARGS: DA)) ←<br />
SYN:ARGSTR:(AS ∧<br />
RELARG: realize_relarg(R) ∧<br />
DEFARGS: realize_default_arguments(DA))<br />
gegeben, die – abhängig von den unterschiedlichen Argumentstrukturtypen – Kasus und<br />
an<strong>der</strong>e Eigenschaften <strong>der</strong> Argumente spezifizieren. Im Fall von (40) wird realize_relarg/1<br />
durch die Klauseln<br />
(41) realize_relarg(Rel) ← phrase ∧ Rel ∧ SYN:HEAD:(noun ∧ CASE:gen)<br />
realize_relarg(Rel) ← phrase ∧ Rel ∧ p(ldat,von)<br />
realize_relarg(Rel) ← phrase ∧ Rel ∧ p(lacc,durch) 19<br />
definiert. Das relationale Argument eines Nomens kann demzufolge phrasal als Genitiv-NP<br />
o<strong>der</strong> als PP mit den Präpositionen von bzw. durch verwirklicht werden.<br />
19 p(Case, PForm) ← SYN:HEAD: (CAT: p ∧ PFORM: PForm ∧ DP_CASE: Case)<br />
169<br />
role
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Die Sorte realize_default_arguments/1 in (40) bezieht sich auf die Default-Argumente, die in<br />
<strong>der</strong> hier dargelegten Grammatikversion nur auf den Typ phrase angehoben werden. Denkbar<br />
wären aber weiterreichende Operationen.<br />
Bei <strong>der</strong> Argumentrealisierung wird auch <strong>der</strong> Kasus <strong>der</strong> Argumente festgelegt. Wie unter 5.1<br />
schon einmal kurz angedeutet, sind die Subtypen von case etwas komplizierter als zuvor<br />
dargestellt. Ich verwende hier die Hierarchie von Heinz/Matiasek (1994), die folgen<strong>der</strong>maßen<br />
strukturiert ist:<br />
(42) case ↔ syntactic_case ∨ morphological_case<br />
morphological_case ↔ nom ∨ gen ∨ dat ∨ acc<br />
syntactic_case ↔ lex_case ∨ struc_case<br />
lgen ↔ gen ∧ lex_case<br />
ldat ↔ dat ∧ lex_case<br />
lacc ↔ acc ∧ lex_case<br />
snom ↔ nom ∧ struc_case<br />
sgen ↔ gen ∧ struc_case<br />
sacc ↔ acc ∧ struc_case<br />
Dies ist übrigens eine <strong>der</strong> wenigen Teilhierarchien im Gesamtsystem, wo nicht von einer rein<br />
disjunktiven Typisierungsmethode Gebrauch gemacht wird. Die Grundidee ist, zwischen<br />
morphologischem und syntaktischem Kasus zu unterscheiden. Letzterer zerfällt in<br />
strukturellen Kasus, <strong>der</strong> davon abhängt, in welcher strukturellen Konfiguration (Subjekt,<br />
Objekt, relationales Argument) sich das Argument befindet, und lexikalischen Kasus, bei<br />
dem das nicht <strong>der</strong> Fall ist. Letzterer muß in den Lexikoneinträgen mit lgen, ldat und lacc<br />
angegeben werden, während <strong>der</strong> strukturelle Kasus mit dem Wert struc_case unterspezifiziert<br />
bleibt. Hinsichtlich <strong>der</strong> Wortbildung bietet es Vorteile, mit dieser Unterspezifikation zu<br />
arbeiten, da bei <strong>der</strong> Derivation Argumente unter Wortartwechsel vererbt werden. Wäre ein<br />
Argument hier schon mit dem Kasus versehen, den es später in <strong>der</strong> Satzsyntax hat, so müßte<br />
dieser bei je<strong>der</strong> Vererbung <strong>des</strong> Arguments entsprechend geän<strong>der</strong>t werden.<br />
Die erste Klausel von realize_relarg/1 in (41) verdeutlicht das Zusammenwirken <strong>der</strong> verschiedenen<br />
Kasustypen. Im Lexikoneintrag wird das relationale Argument eines Nomens mit<br />
CASE: struc_case spezifiziert, während realize_relarg/1 hierfür CASE: gen festlegt. Beide Typen<br />
sind miteinan<strong>der</strong> kompatibel, da sie einen gemeinsamen Join – sgen – in <strong>der</strong> Hierarchie aufweisen.<br />
5.5 Konversion<br />
Für die Konversion setze ich eine Umkategorisierungsregel an, die, da Konversion ein relativ<br />
heterogener Bereich ist, in eine gewisse Anzahl von Einzelregeln „verzweigt“.<br />
Im folgenden möchte ich eine Einzelregel etwas näher erläutern: die zur Bildung sog.<br />
Faktitiva-Verben aus Adjektiven (weit – weiten). Während an<strong>der</strong>e Regeln in etwa diesem<br />
Muster folgen, verhält sich die Entstehung von Adjektiven aus Partizipien etwas an<strong>der</strong>s:<br />
1. Die Partizipien sind vor <strong>der</strong> Umkategorisierung zu Adjektiven im Sinne <strong>der</strong> Flexionsregeln<br />
voll flektiert, d.h. typenmaximal. Dies ist bei den an<strong>der</strong>en Konversionsformen nicht<br />
<strong>der</strong> Fall.<br />
2. Zumin<strong>des</strong>t bei <strong>der</strong> Adjektivbildung auf <strong>der</strong> Basis <strong>des</strong> Partizips II kommt es zu Än<strong>der</strong>ungen<br />
in <strong>der</strong> Argumentstruktur, wie sie sonst nur bei <strong>der</strong> Derivation zu beobachten sind.<br />
Die Argumentstruktur ist auch dafür maßgeblich, daß nicht alle Adjektivierungen möglich<br />
sind, vgl. Toman (1987:377):<br />
170
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
(43)<br />
a) <strong>der</strong> gehaßte Hausmeister<br />
b) <strong>der</strong> gefallene Engel<br />
c) *das geschlafene Krokodil<br />
Es sieht so aus, als könnten nur transitive o<strong>der</strong> unakkusativische Verben Basis für die<br />
Bildung von Adjektiven aus den jeweiligen Partizip-II-Formen sein, wobei das interne<br />
Argument <strong>des</strong> Verbs dabei zum referentiellen <strong>des</strong> Adjektivs wird.<br />
Sollen beide Konversionstypen durch eine einzige Strukturregel erfaßt werden, so muß man<br />
einen gemeinsamen Nenner für alle von <strong>der</strong> konvertierten Kategorie dominierten Kategorien<br />
finden. Da die Bildung von Verbpartizipien als Flexion aufgefaßt wird, kann dieser Typ nur<br />
pre_syntactic_atom sein:<br />
(Regel VIII, Konversion)<br />
cat(simple_stem ∧ Stem, L0,L1) ←<br />
Stem ∧<br />
true(cat(pre_syntactic_atom, L0,L1) ∧ Stem1) ∧<br />
stem_conversion(Stem1) ∧<br />
GRAPH: diff(L0, L1) ∧<br />
STRUCTURE: [Stem1]<br />
Hinter stem_conversion/1 verbergen sich die oben erwähnten Einzelregeln. Nachstehend <strong>der</strong><br />
Fall <strong>der</strong> Faktitiva-Verben:<br />
(44) stem_conversion(SYN:HEAD:adjective ∧ SEM:(REFARG:Ref ∧ CONTENT:Cont)) ←<br />
SYN:HEAD:(verb ∧ CAT:v) ∧<br />
SEM:CONTENT: (two_place_operator_struct ∧ OPERATOR: op_causation ∧<br />
CAUSER: Causer ∧ SCOPE: Cont ) ∧<br />
SYN:ARGSTR: SUBJ: (Arg1 ∧ n(struc_case) ∧<br />
SEM:REFARG: (Causer ∧ countable(animate_ind ))) ∧<br />
SYN:ARGSTR:DIR_OBJ:(Arg2 ∧ n(struc_case) ∧ SEM:REFARG:Ref) ∧<br />
SYN:ARGSTR:(INDIR_OBJ:[] ∧ PREP_OBJ:[] ∧ SENT_COMPL:[] ∧ DEFARGS:[]) ∧<br />
SYN:ARGSTR:ARGSTR_ORDER:[Arg1, Arg2] 20<br />
Die Regel bewirkt folgen<strong>des</strong>: die Bildung von Verben aus Adjektiven wie weit o<strong>der</strong> schwarz<br />
wird verstanden als: “y bewirkt, daß A(x) gilt”, im Falle von schwärzen also:<br />
λyλx cause(x, black(y)).<br />
In stem_conversion/1 wird dies dadurch nachgebildet, indem die Struktur, die das Adjektiv<br />
unter SEM:CONTENT trägt, in den Skopus eines Operators op_causation übernommen und ein<br />
neues Argument Causer konstruiert wird, das zum Subjekt <strong>des</strong> neu gebildeten Verbs wird.<br />
Die Selektionsbeschränkungen, die für das referentielle Argument <strong>des</strong> Adjektivs gelten,<br />
vererben sich an das direkte Objekt <strong>des</strong> Verbs. Abb. 5.22 zeigt die Merkmalsstruktur von<br />
“schwärzen”.<br />
20 Die Sorten n/1 und countable/1 sind Templates und folgen<strong>der</strong>maßen definiert:<br />
n(Case) ← SYN:HEAD: (noun ∧ CAT: n ∧ CASE: Case)<br />
countable(OfType) ← COUNTABLE ∧ TYPE: OfType ∧ IS_GROUP: minus<br />
171
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
GRAPH: schwärz , en<br />
SYN:<br />
SEM:<br />
CAT: v<br />
HEAD:<br />
verb_inf<br />
ARGSTR:<br />
syn<br />
EXTARG: 2<br />
CONTENT:<br />
SUBJ: 1<br />
DIR_OBJ: 3<br />
CAT: n<br />
SYN: HEAD: CASE: snom<br />
noun<br />
SEM:<br />
phrase<br />
syn<br />
REFARG: 2 TYPE: animate_ind<br />
countable<br />
nominal_semantics<br />
CAT: n<br />
SYN: HEAD: CASE: sacc<br />
noun<br />
SEM:<br />
phrase<br />
syn<br />
ARGSTR_ORDER: 1 , 3<br />
verbal_argstr<br />
OPERATOR: op_causation<br />
CAUSER: 2<br />
SCOPE:<br />
verbal_semantics<br />
syntactic_atom<br />
5.6 Unbekannte Wortteile<br />
REFARG: 4 TYPE: physical_entity<br />
countable<br />
nominal_semantics<br />
EVENTSTR: STATE:<br />
lexical_content<br />
two_place_operator_struct<br />
RELCONST: black<br />
RELARGS: 4<br />
state<br />
state_eventstr<br />
Abb. 5.22: <strong>Analyse</strong> von „schwärzen“<br />
Erfreulicherweise muß an <strong>der</strong> <strong>morphologischen</strong> Grammatik nichts geän<strong>der</strong>t werden, um mit<br />
unbekannten Wortteilen umzugehen. Der Segmentierer markiert einen nicht im Lexikon<br />
verzeichneten Wortteil w mit unknown, was den Wortparser dazu veranlaßt, es mit <strong>der</strong> minimalen<br />
Spezifikation<br />
(45) unknown ∧ FORM:“unknown(w)“ ∧ SYN:HEAD: (noun ∨ adjective ∨ verb)<br />
zu versehen. Der spezielle Typ unknown dient hier dazu, den unbekannten Wortteil von den<br />
an<strong>der</strong>en im Wort zu unterscheiden. Die Spezifikation unter SYN:HEAD umfaßt gerade die<br />
offenen Wortklassen, da sich die geschlossenen Klassen ohne großen Aufwand vollständig<br />
angeben lassen.<br />
Ist das unbekannte Wortsegment nicht das letzte im Wort, so stehen die Chancen gut, aufgrund<br />
<strong>der</strong> in <strong>der</strong> Grammatik festgeschriebenen Regularitäten Informationen über diesen<br />
Wortteil per Unifikation zu gewinnen. Abb. 5.23 zeigt dies am Beispiel <strong>des</strong> Wortes „schumi-<br />
172
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
sierbar“, bei dem korrekt festgestellt wurde, daß es sich bei „schumisier-“ um ein Verb handelt<br />
(viele Substrukturen wurden unterdrückt).<br />
FORM: schumisier<br />
SYN:<br />
SEM:<br />
HEAD: CAT: v<br />
verb<br />
syn<br />
GRAPH: 1 schumisier , bar<br />
SYN:<br />
SEM:<br />
HEAD: 2<br />
syn<br />
CAT: a<br />
NUM: sg<br />
adjective<br />
REFARG: 3 individual<br />
nominal_semantics<br />
syntactic_atom<br />
GRAPH: 1<br />
SYN:<br />
SEM: 4<br />
HEAD: 2<br />
syn<br />
REFARG: 3<br />
nominal_semantics<br />
pre_syntactic_atom<br />
GRAPH: 1<br />
SYN:<br />
SEM: 4<br />
HEAD: 2<br />
syn<br />
complex_stem<br />
EXTARG: simple_or_dotted_type<br />
verbal_semantics<br />
unknown_stem<br />
FORM: bar<br />
SYN:<br />
SEM: 4<br />
HEAD: 2<br />
syn<br />
<strong>der</strong>ivative<br />
Abb. 5.23: Ein Beispiel für ein Wort mit einem unbekannten Wortteil<br />
Es ergeben sich hieraus jedoch auch Probleme. Zum einen sind alle Parser, auch <strong>der</strong> Top-<br />
Down- o<strong>der</strong> Bottom-up-Chartparser, beim Parsen mit merkmalsbasierten Grammatiken anfällig<br />
für Endlosschleifen. Das Problem läßt sich natürlich darauf zurückführen, daß bei<br />
Verwendung von rekursiven Merkmalstrukturen (für Listen, Gruppen und dgl.), die Anzahl<br />
<strong>der</strong> grammatischen Kategorien nicht mehr endlich ist, das Terminieren dieser Parser aber auf<br />
<strong>der</strong> Endlichkeit <strong>der</strong> Menge <strong>der</strong> Nichtterminalsymbole beruht. Dem kann auf zweifache<br />
Weise begegnet werden: es könnten mehrere Lexikoneinträge für unknown–Segmente angegeben<br />
werden, bei denen insbeson<strong>der</strong>e die Werte <strong>der</strong> rekursiven Merkmale disjunktiv auf<br />
endlich viele Werte reduziert werden. Schließlich haben lexikalische Köpfe im Regelfall nicht<br />
100 Default-Argumente, son<strong>der</strong>n vielleicht höchstens zwei. O<strong>der</strong> man führt in den Chart-<br />
Parser sog. Restriktoren ein (vgl. Shieber (1985a)), die rekursive Merkmale bei <strong>der</strong> Hüllenbildung<br />
ignorieren, was effektiv einer endlichen Äquivalenzklassenbildung bzgl. <strong>der</strong><br />
grammatischen Kategorien gleichkommt.<br />
173
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Das zweite Problem <strong>der</strong> Methode, unbekannte Wortteile unterspezifiziert dem Parser zu<br />
präsentieren, besteht in <strong>der</strong> Vielzahl <strong>der</strong> möglichen <strong>Analyse</strong>n. Hier bietet sich <strong>der</strong> (in Kapitel<br />
4 schon einmal angedeutete) Weg an, Informationen, die ein (robuster) Satzparser über die<br />
syntaktische Umgebung <strong>des</strong> als Ganzes unbekannten Wortes gewinnen kann, über eine passende<br />
Instantiierung <strong>des</strong> Startsymbols <strong>der</strong> Wortgrammatik in die morphologische <strong>Analyse</strong><br />
einzuspeisen. Überhaupt kann die robuste Verarbeitung unbekannter Wörter nicht Aufgabe<br />
<strong>der</strong> Morphologiekomponente allein sein. Und hier liegt gerade ein Vorteil in <strong>der</strong> Tatsache,<br />
daß sich satzsyntaktische und wortsyntaktische Repräsentationen <strong>des</strong> gleichen Formalismus<br />
bedienen.<br />
Die errechneten Strukturen für Stämme vom Typ unknown_stem könnten gespeichert und<br />
bei Erreichen einer bestimmten Vorkommenshäufigkeit ihre Generalisierung berechnet werden,<br />
d.h. <strong>der</strong> spezifischste Merkmalsterm, <strong>der</strong> alle gespeicherten Merkmalsterme subsumiert.<br />
5.7 Verwandte Arbeiten<br />
5.7.1 Antworth (1994)<br />
Antworth (1994) verwendet neben einem Two-Level-Segmentierer eine unifikationsbasierte<br />
morphologische Grammatik auf <strong>der</strong> Grundlage <strong>des</strong> (nichttypisierten) PATR-II-Formalismus<br />
(Shieber (1984)). PATR kennt neben sog. Templates, die nicht-rekursiven Sorten <strong>des</strong> hier verwendeten<br />
Systems entsprechen und vor allem <strong>der</strong> Übersichtlichkeit <strong>des</strong> Lexikonaufbaus<br />
dienen, und um Pfadgleichungen erweiterte kontextfreie Regeln. Pfadgleichungen treten in<br />
zwei Formen auf: in Gestalt von = zur Festlegung von Merkmalswerten am<br />
Ende von Pfaden und in <strong>der</strong> Form = zur Angabe von Reentranzen. Nachstehend<br />
ist ein (in <strong>der</strong> Notation leicht angepaßter) Ausschnitt von Antworths Wortgrammatik<br />
für das Englische wie<strong>der</strong>gegeben:<br />
(46)<br />
R1 Word → Stem Infl<br />
= <br />
= <br />
= <br />
= < Infl TENSE><br />
= < Infl AFORM><br />
R2 Stem → Stem1 Suffix<br />
= <br />
= <br />
= <br />
= <br />
= <br />
= <br />
Regel R1 bezieht sich auf die Flexion. Genau ein Flexiv tritt zu einem Stamm, den es subkategorisiert<br />
( = ); gleichzeitig legt es die Kategorie <strong>des</strong> flektierten<br />
Wortes fest ( = ). Ähnliches gilt für Suffix in <strong>der</strong> Suffigierungsregel<br />
R2; Affixe fungieren demnach wie Slash-Kategorien <strong>der</strong> Kategorialgrammatik.<br />
Für die <strong>Analyse</strong> von Komposita wird keine erkennbare Vorsorge getroffen (wohl weil sie im<br />
Englischen durch die Satzanalyse übernommen werden kann), ebensowenig wie eine semantische<br />
Repräsentation für abgeleitete Stämme erzeugt wird.<br />
5.7.2 Ritchie et al. (1992)<br />
174
Kapitel 5: Eine merkmalsbasierte Beschreibung <strong>der</strong> Morphologie im <strong>Deutschen</strong><br />
Im Ansatz von Ritchie et al. (1992) werden Wortstrukturregeln in einem an <strong>der</strong> GPSG orientierten<br />
Formalismus ausgedrückt und kategorielle Repräsentationen als Vektoren von Attribut-Wert-Paaren<br />
repräsentiert. (47) zeigt die Flexionsregel (Ritchie et al. (1992:83)):<br />
(47) [BAR 0] → [BAR 0], [FIX SUF]<br />
Zusammen mit den Beispiellexikoneinträgen für cup und +s<br />
(48) cup: [BAR 0, V –, N +, PLU –]<br />
+s: [BAR –1, FIX SUF, V –, N +, PLU +]<br />
und einem Word-Head Convention genannten Prinzip zur Perkolation von Kopfmerkmalen<br />
ergibt sich Wortstruktur (49):<br />
(49)<br />
[BAR 0, V-, N +, PLU +]<br />
[BAR 0, V-, N +, PLU -] [BAR -1, FIX SUF, V-, N +, PLU +]<br />
cup +s<br />
Wie man sieht, wird hier <strong>der</strong> Default-Mechanismus <strong>des</strong> relativierten Kopfs herangezogen (das<br />
Merkmal PLU + <strong>des</strong> Flexivs hat Vorrang vor dem PLU – <strong>des</strong> Stamms), was leere Flexionsaffixe<br />
für die Singularformen zumin<strong>des</strong>t für diesen Fall unnötig macht, einen aber gleichzeitig<br />
auch <strong>der</strong> Möglichkeit beraubt, mit Hilfe <strong>der</strong> Unifikation von Kopfmerkmalen die Zulässigkeit<br />
von Morphemkombinationen zu überprüfen.<br />
Mittels <strong>der</strong> Word-Daughter Convention werden Merkmale wie SUBCAT auch von Nichtköpfen<br />
an das Gesamtwort vererbt, eine Word-Sister Convention regelt ähnlich wie das in 5.2.1 dargestellte<br />
morphologische Subkategorisierungsprinzip das Verhältnis von Affixen und Stämmen.<br />
An<strong>der</strong>s als im Modell von Antworth (1994) wird auch die N-N-Komposition durch<br />
Verwendung von Regeln berücksichtigt, die immer ausschließlich linksverzweigende Wortstrukturen<br />
erzeugen, demnach nicht ambig sind, auf <strong>der</strong> an<strong>der</strong>en Seite natürlich <strong>Analyse</strong>n<br />
ausschließen, wie die Autoren selbst einräumen (Ritchie et al. (1992:198)).<br />
Die Semantik von komplexen Wörtern bleibt wie im Entwurf von Antworth unberücksichtigt.<br />
5.8 Implementierung<br />
Ich habe fast alle Teile <strong>der</strong> <strong>morphologischen</strong> Grammatik im Stuttgarter CUF-Formalismus<br />
(Dörre et al. (1996)) implementiert. CUF besteht aus einem Compiler, <strong>der</strong> Merkmalsterme<br />
nach Prolog übersetzt und einem Interpreter, <strong>der</strong> Anfragen ausführt und im wesentlichen<br />
eine disjunktive Normalform <strong>der</strong> Anfrage herstellt. Die experimentelle Grammatik umfaßt<br />
ca. 3000 Zeilen, davon sind ca. 1/3 Lexikoneinträge von knapp 30 Stämmen und 10 Affixen,<br />
dazu kommen noch Flexive. Das System läuft unter Unix und Linux und analysiert komplexe<br />
Wörter mit drei bis vier Teilen auf einem 300 MHz-Pentium-PC in ein bis fünf Sekunden.<br />
Der CUF-Programmtext ist in Anhang C.3 wie<strong>der</strong>gegeben.<br />
175
6 Zusammenfassung<br />
Kapitel 6: Zusammenfassung<br />
In diesem abschließenden Kapitel werden nochmals einige wesentliche <strong>Aspekte</strong> <strong>der</strong> dargestellten<br />
Konzeption kritisch unter die Lupe genommen und mit einem kurzen Fazit bedacht.<br />
6.1 Was erzielt wurde und was nicht<br />
Das vorangegangene Kapitel versuchte, auf <strong>der</strong> Grundlage heutiger Wortbildungstheorien<br />
einen formalen Rahmen zu konstruieren, in dem Hypothesen wie Argumentvererbung usw.<br />
ausgedrückt werden können. Mit diesem Rahmen selbst ist vermutlich kein linguistischer<br />
Erkenntnisgewinn verbunden, höchstens <strong>der</strong>, daß aufgrund <strong>der</strong> formalisierten Darstellung<br />
jetzt genauere Aussagen über den Gegenstand möglich sind und dank <strong>der</strong> Implementierung<br />
auch <strong>der</strong> Computer zum Test <strong>der</strong> Hypothesen herangezogen werden kann.<br />
Man kann sich natürlich fragen, ob überhaupt erwartet werden kann, empirische Vorhersagen<br />
mit Hilfe eines Formalismus zu gewinnen, <strong>der</strong> aufgrund seiner Möglichkeit, rekursive<br />
Merkmalsstrukturen zu bilden, turingmaschinenäquivalent ist (vgl. Johnson (1988)). Allerdings<br />
habe ich von diesen rekursiven Mechanismen eher geringen Gebrauch gemacht: anstelle<br />
rekursiver Argumentlisten gibt es ausdifferenzierte Argumentstrukturen und da wo<br />
Listen verwendet wurden, z.B. bei Default-Argumenten, können sie ohne weiteres durch<br />
nicht-rekursive Strukturen ersetzt werden. Der Einwand in<strong>des</strong>sen, den ich im ersten Kapitel<br />
gegen lexikalische Regeln wegen ihrer Möglichkeit gemacht habe, beliebige funktionale Zusammenhänge<br />
zu repräsentieren, fällt wie<strong>der</strong> auf mich zurück, da erstens Allomorphieregeln<br />
verwendet wurden – die so etwas Ähnliches sind wie lexikalische Regeln auf Morphebene –<br />
und zweitens mit Hilfe <strong>des</strong> <strong>morphologischen</strong> Subkategorisierungsprinzip in Verbindung mit<br />
den Affix-Lexikoneinträgen ebenfalls relativ willkürliche Zusammenhänge zwischen Basis<br />
und Derivat konstruiert werden könnten. Auf <strong>der</strong> Haben-Seite steht allerdings, daß<br />
hierdurch einer notwendigen grammatischen Beschreibung <strong>der</strong> Wortbildung <strong>der</strong> ihr gebührende<br />
Raum verschafft werden konnte.<br />
Bei <strong>der</strong> Konstruktion <strong>der</strong> Grammatik habe ich versucht, mich von einem gewissen Minimalismus<br />
leiten zu lassen, <strong>der</strong> sich in zwei Facetten äußert: erstens, vermittels Vererbungshierarchien<br />
Dinge so weit wie möglich unterspezifiziert zu lassen und möglichst Supertypen<br />
betreffende Generalisierungen zu machen, und zweitens, mit möglichst wenigen Regelschemata<br />
auszukommen, ohne jedoch den Verbiegungen von Autoren wie Krieger (1994) zu folgen,<br />
die versuchen, alles ins Korsett eines HPSG-Nachbaus zu pressen.<br />
Meine Konzeption führte in<strong>des</strong> zu linguistischen Neuerungen wie <strong>der</strong> Kategorie<br />
pre_syntactic_atom (die bisher bestimmt noch kein Linguist entdeckt hat), die aber ein formaler<br />
Reflex <strong>der</strong> augenscheinlichen Hierarchisierung von <strong>morphologischen</strong> Prozessen ist<br />
(vgl. Scalise (1988a)). Wenn es durch Umformung gelingen würde, die Kompositionsregel IV<br />
in das Operatorgrammatikformat (vgl. Aho/Ullman (1972)) zu überführen, dann könnte<br />
man auf solche Kategorien verzichten und sie durch eine Präzedenztabelle mit Einträgen für<br />
die verschiedenen Affixe ersetzen, die dann den Parser bei seiner <strong>Analyse</strong> steuert.<br />
Viele <strong>der</strong> <strong>Analyse</strong>n, die in Kapitel 5 vorgestellt wurden, sind zugegebenermaßen etwas grob<br />
und erreichen nicht die „Trennschärfe“, die beispielsweise in Fanselow (1981) erreicht<br />
wurde. Allerdings war das Ziel dieser Arbeit auch etwas breiter gesteckt: neben einer vereinheitlichten<br />
syntaktischen und (einfachen) semantischen Beschreibung von Wortbildung<br />
und Flexion wurde <strong>der</strong> Gesamtentwurf auch noch in ein Modell <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong><br />
eingebettet und ein kleiner Beitrag zur Robustheit gemacht. Dies geht über das hinaus,<br />
176
Kapitel 6: Zusammenfassung<br />
was an<strong>der</strong>e Unterfangen dieser Art wie das von Ritchie et al. (1992) o<strong>der</strong> Antworth (1994)<br />
erzielten.<br />
6.2 Typisierte Merkmalsstrukturen<br />
Was bringen Grammatiken auf <strong>der</strong> Grundlage typisierter Merkmalsstrukturen? Sicherlich<br />
erzwingen sie bei ihrer Konstruktion größere Genauigkeit und mehr Reflexion über die Ontologie<br />
<strong>des</strong> Gegenstandsbereiches. Ob <strong>der</strong> von einigen Autoren wie Carpenter (1992) behauptete<br />
Effizienzgewinn <strong>der</strong> typisierten Unifikation gegenüber ihrem untypisierten Pendant<br />
tatsächlich eintritt – schließlich muß eine aufwendige Unifikationsoperation nicht<br />
durchgeführt werden, wenn schon die Ausgangstypen nicht kompatibel sind – darf in<strong>des</strong>sen,<br />
vor allem bei überwiegend disjunktiv definierten Hierarchien bezweifelt werden. Meist<br />
werden hierbei Kategorien unifiziert, die entwe<strong>der</strong> vom gleichen Typ sind o<strong>der</strong> in einer Super–Subtyp-Beziehung<br />
zueinan<strong>der</strong> stehen.<br />
Weitere Probleme von typisierten Formalismen im präsentierten Kontext sind:<br />
• Wie im letzten Kapitel schon einmal kurz angedeutet, gibt es einen Zielkonflikt zwischen<br />
Unterspezifikation einerseits und <strong>der</strong> Notwendigkeit, Typen voneinan<strong>der</strong> unterscheidbar<br />
zu machen an<strong>der</strong>erseits. Ein maximal unterscheidbares Typensystem benutzt keine<br />
Hierarchisierung in Subtypen; die einzelnen Typen sind durch Unifikation auseinan<strong>der</strong>zuhalten.<br />
Dafür ist keine Unterspezifikation über Typen hinweg möglich. Auf <strong>der</strong> an<strong>der</strong>en<br />
Seite stehen Typsysteme mit ausgeprägter hierarchischer Ordnung, in denen Sub-<br />
und Supertypen durch Unifikation nicht voneinan<strong>der</strong> zu trennen sind. Dies gelingt nur<br />
durch eine nicht-monotone Subsumptionsoperation, die aber <strong>der</strong> Monotonie als einer<br />
wünschenswerten Eigenschaft eines logischen Systems zuwi<strong>der</strong>läuft, wie folgen<strong>des</strong> Beispiel<br />
noch einmal verdeutlicht:<br />
t ↔ a | b<br />
s1 ← X ∧ t ∧ (X v b) ∧ X ∧ a<br />
s2 ← X ∧ a ∧ (X v b) ∧ X ∧ t<br />
Die Sorten s1 und s2 sind nicht äquivalent.<br />
• Wie ebenfalls im letzten Kapitel deutlich wurde, sind Merkmalsstrukturen nicht geeignet,<br />
Wissensrepräsentationsformalismen zu ersetzen, obwohl sie ja mit diesen eng verwandt<br />
sind. Möchte man sich, wie bei den Kompositadeutung mittels einer konzeptuellen<br />
Relation in <strong>der</strong> Typenhierarchie von den spezifischeren Typen zu ihren Supertypen<br />
bewegen, so erreicht man dies allenfalls durch eine geschickte Anordnung <strong>der</strong> Sorten im<br />
Programmtext, nicht aber auf prinzipielle Weise. Auch sind hierbei keine Inferenzen<br />
möglich. Hilfreich wäre bei <strong>der</strong> gewählten Logik gewesen, wenn sie über rekursive Typenconstraints<br />
verfügen würde, wie sie in Systemen wie ALE (Carpenter/Penn (1994))<br />
und TROLL (Gerdemann et al. (1995)) integriert sind. Mit diesem Hilfsmittel wäre es<br />
möglich, einen guten Teil <strong>der</strong> notwendigen Wissensrepräsentation in die Typenconstraints<br />
zu verlagern. Letztlich aber wird man bei einem realistischen Weltwissensfragment<br />
nicht umhin können, auf einen <strong>der</strong> üblichen frame-basierten Wissensrepräsentationsformalismen<br />
auszuweichen, mit dem auch prozedurales Wissen abgebildet werden<br />
kann (vgl. Reimer (1991)).<br />
• Zum Schluß: Unifikation scheitert o<strong>der</strong> sie scheitert nicht. Es gibt keine „Zwischenwerte“,<br />
mit denen die graduelle Akzeptabilität einer <strong>Analyse</strong> ausgedrückt werden<br />
177
Kapitel 6: Zusammenfassung<br />
könnte und somit auch keine Gewichtung <strong>der</strong> <strong>Analyse</strong>n nach Plausibilität stattfinden<br />
kann.<br />
Vielleicht ist <strong>der</strong> nichtmodulare Aufbau von Unifikationsgrammatiken, die Unmöglichkeit,<br />
bei nichttrivialen Systemen die Konsequenzen kleinster Än<strong>der</strong>ungen vorherzusehen, ihre<br />
exponentielle Komplexität und ihr Alles-o<strong>der</strong>-Nichts-Charakter <strong>der</strong> Grund für das in letzter<br />
Zeit wie<strong>der</strong>erwachte Interesse an <strong>Analyse</strong>methoden auf <strong>der</strong> Grundlage von endlichen Automaten<br />
(vgl. den Sammelband von Roche und Schabes (1997) dazu). Mir fällt es allerdings<br />
schwer zu sehen, wie eine Wortgrammatik mit semantischer Repräsentation mittels solcher<br />
Methoden zu bewerkstelligen sein könnte.<br />
6.3 Wortzerlegung und -analyse<br />
An einigen Stellen – bei <strong>der</strong> Darstellung <strong>der</strong> Präfixverben und <strong>der</strong> -heit/-keit Alternation – ist<br />
sichtbar geworden, daß man auch bei <strong>der</strong> <strong>morphologischen</strong> <strong>Analyse</strong> auf Informationen bzgl.<br />
Silbenstruktur und Wortakzent zurückgreifen muß. Die Frage ist, in welcher Weise diese<br />
Informationen in ein Gesamtsystem integriert werden sollten. Zwei Wege bieten sich an:<br />
man benutzt Verfahren wie die Two-Level-Morphology, in <strong>der</strong>en Automaten man solche Informationen<br />
hineinkodiert, o<strong>der</strong> man bereichert die morphologische Grammatik um Typen<br />
und Merkmale zur Repräsentation phonetischer und phonologischer Sachverhalte, wie dies<br />
im Rahmen <strong>der</strong> constraint-based phonology (Bird (1995)) erfolgt. Ich plädiere für die zweite<br />
Alternative, da sie Schnittstellenprobleme vermeidet und nur einen einzigen Formalismus<br />
zur Darstellung <strong>des</strong> sprachlichen Wissens verwendet. Man muß sich allerdings im klaren<br />
darüber sein, daß man es dann nur noch mit einem reinem item-and-arrangement-Ansatz zu<br />
tun hat und <strong>Aspekte</strong> einer item-and-process-Konzeption, wie sie dem TLM-Modell innewohnen,<br />
vernachlässigt.<br />
178
Literaturverzeichnis<br />
Literaturverzeichnis<br />
Abramson, H. (1992): »A Logic Programming View of Relational Morphology. Proc. of<br />
COLING-92, S. 850-854.<br />
Aho, Alfred V.; Corasick, Margaret J. (1975): »Efficient String Matching: An Aid to<br />
Bibliographic Search«. Comm. ACM 18:6 (1975), S. 333-340.<br />
Aho, Alfred V.; Ullman, Jeffrey D. (1972): The Theory of Parsing, Translating, and Compiling.<br />
Vol. I: Parsing. Prentice-Hall: Englewood Cliffs.<br />
Anick, Peter; Artemieff, Susanne (1992): »A High-level Morphological Description<br />
Language Exploiting Inflectional Paradigms«. Proc. of COLING-92, S. 67-73.<br />
Antworth, Evan L. (1994): »Morphological Parsing with a Unification-based Word<br />
Grammar«. North Texas Natural Language Processing Workshop, University of Texas.<br />
Aronoff, Mark (1976): Word Formation in Generative Grammar. Cambridge, Mass.: MIT Press.<br />
Baayen, R. H.; Piepenbrock, R.; van Rijn, H. (1993): The CELEX Lexical Database (CD-ROM).<br />
Linguistic Data Consortium, University of Pennsylvania, Philadelphia, PA.<br />
Barton, G. Edward; Berwick, Robert C.; Ristad, E.S. (1987): Computational Complexity and<br />
Natural Language. MIT Press, Cambridge, Mass.<br />
Bear, John (1988): »Morphology with Two-Level Rules and Negative Rule Features«. Proc. of<br />
COLING-88, S.28-31.<br />
Bierwisch, Manfred (1983): »Semantische und konzeptuelle Repräsentation lexikalischer<br />
Einheiten«. In: R. Ruzicka; W. Motsch (Hrsg.): Untersuchungen zur Semantik. Berlin:<br />
Akademie Verlag.<br />
Bierwisch, Manfred (1989): »Event Nominalization: Proposals and Problems«. In:<br />
Linguistische Studien, Reihe A Arbeitsberichte, Bd. 194 (Zentralinstitut für<br />
Sprachwissenschaft <strong>der</strong> Akademie <strong>der</strong> Wissenschaften <strong>der</strong> DDR), S. 1-73.<br />
Bird, Steven (1995): Computational Phonology. A constraint-based approach. Cambridge<br />
University Press, Cambridge.<br />
Black, Alan W.; van de Plassche, J.; Williams, B. (1991): »Analysis of Unknown Words<br />
through Morphological Decomposition«. Proc. of the 5th Conference of the European<br />
Chapter of the ACL (1991), S. 101-106.<br />
Boase-Beier, Jean; Toman, J.; Brekle, H.E.; Beier, D.; Stöhr, I. (1984): Endbericht DFG-Projekt<br />
„Nominalkomposita“. Arbeitsbericht Nr. 41, Juli 1984, Regensburg.<br />
Bußmann, Hadumod ( 2 1990): Lexikon <strong>der</strong> Sprachwissenschaft. Stuttgart: Kröner.<br />
Cal<strong>der</strong>, Jonathan (1989): »Paradigmatic Morphology«. Proc. of the 4th Conference of the<br />
European Chapter of the ACL (1989), S. 58-65.<br />
179
Literaturverzeichnis<br />
Carpenter, Robert (1992): The Logic of Typed Feature Structures. Cambridge Tracts in<br />
Theoretical Computer Science 32. Cambridge: Cambridge University Press.<br />
Carpenter, Robert (1997): Type-Logical Semantics. Cambridge: MIT Press.<br />
Carpenter, Robert; Penn, Gerald (1994): The Attribute Logic Engine. Version 2.0.1. User’s<br />
Guide. Carnegie Mellon University, Pittsburgh.<br />
Chang, Chin-Liang; Lee, Richard Char-Tung (1973): Symbolic Logic and Mechanical Theorem<br />
Proving. Boston: Academic Press.<br />
Chomsky, Noam (1965): Aspects of the Theory of Syntax. Cambridge, Mass.: MIT Press.<br />
Chomsky, Noam (1981): Lectures on Government and Binding. Dordrecht: Foris.<br />
Chomsky, Noam (1985): Knowledge of Language. New York: Praeger.<br />
Chomsky, Noam; Halle, Morris (1968): The Sound Pattern of English. New York: Harper &<br />
Row.<br />
Daelemans, Walter (1987): Studies in Language Technology: An Object-Oriented Computer Model<br />
of Morphophonological Aspects of Dutch. Dissertation, Katholieke Universiteit Leuven.<br />
Daelemans, Walter; De Smedt, Koenraad (1994 ): »Default Inheritance in an Object-Oriented<br />
Representation of Linguistic Categories «. International Journal of Human-Computer<br />
Studies 41 (1994), 149-177<br />
Dietrich, Rainer (1973): Automatische Textwörterbücher: Studien zur maschinellen Lemmatisierung<br />
verbaler Wortformen <strong>des</strong> <strong>Deutschen</strong>. Tübingen: Niemeyer.<br />
Dörre, Jochen; Dorna, Michael; Schnei<strong>der</strong>, K. (1996): The CUF User’s Manual. Institut für<br />
maschinelle Sprachverarbeitung, <strong>Universität</strong> Stuttgart.<br />
Di Sciullo, Anna-Maria; Williams, Edwin (1987): On the Definition of Word. Linguistic<br />
Inquiry Monograph No.14. Cambridge, Mass.: MIT Press.<br />
Dörfler, Andreas; Hanneforth, Thomas (1995): »Morphologische <strong>Analyse</strong> und<br />
Argumentstrukturberechnung«. In: Hitzenberger, L. (Hrsg.): Angewandte<br />
Computerlinguistik. Hil<strong>des</strong>heim: Olms.<br />
Dowty, David R. (1989): »On the Semantic Content of the Notion of ‘Thematic Role’«. In:<br />
Chierchia, G.; Partee, Barbara H. und Turner, R. (Hrsg.): Properties, Types and Meaning.<br />
Vol II. Semantic Issues. Dordrecht: Kluwer. S. 69-129.<br />
Dowty, David R.; Wall, R. E.; Peters, S. (1981): Introduction to Montague Semantics. Dordrecht:<br />
Reidel.<br />
Duden (1984 4): Duden: Die Grammatik. Unentbehrlich für richtiges Deutsch. 4. Auflage,<br />
Mannheim: Bibliographisches Institut.<br />
180
Literaturverzeichnis<br />
Earley, Jay (1970): »An Efficient Context-Free Parsing Algorithm«. Comm. ACM 13:2, S. 94-<br />
102.<br />
Eggers, Hans; Luckhardt, H.-D.; Maas, H.-D.; Weissgerber, M. (1980): SALEM: Ein Verfahren<br />
zur automatischen Lemmatisierung deutscher Texte. Tübingen: Niemeyer.<br />
Eisenberg, Peter (1998): Grundriß <strong>der</strong> deutschen Grammatik: Das Wort. Stuttgart: Metzler.<br />
Fabri, Ray; Rumpf, C.; Urbas, M.; Walther, M. (1995): A Computational Model of Minimalist<br />
Morphology. Arbeiten <strong>des</strong> SFB 282 (Theorie <strong>des</strong> Lexikons), Nr.62, 1995.<br />
Fanselow, Gisbert (1981): Zur Syntax und Semantik <strong>der</strong> Nominalkomposition. Tübingen:<br />
Niemeyer.<br />
Fanselow, Gisbert (1985): »What is a cossible complex word?« In: Toman, Jindrich (Hrsg.):<br />
Studies in German Grammar, Dordrecht:Foris, S.289-322.<br />
Fanselow, Gisbert (1987): »Gemeinsame Prinzipien <strong>der</strong> Wort- und Phrasengrammatik«. In:<br />
Asbach-Schnitker, Brigitte; Roggenhofer, J. (Hrsg.): Neuere Forschungen zur<br />
Wortbildung und Historiographie <strong>der</strong> Linguistik, Tübingen: Narr, S. 177-196.<br />
Fanselow, Gisbert (1988a): »'Word Syntax' and Semantic Principles«. In: Booij, G.; van<br />
Marle, J. (Hrsg.): Yearbook of Morphology, 1988, Foris, Dordrecht, S. 95-122.<br />
Fanselow, Gisbert (1988b): »Word Formation and the Human Conceptual System«. In:<br />
Linguistische Studien, Reihe A Arbeitsberichte, Bd. 179 (Zentralinstitut für<br />
Sprachwissenschaft <strong>der</strong> Akademie <strong>der</strong> Wissenschaften <strong>der</strong> DDR), S. 31-52 .<br />
Finkler, Wolfgang; Neumann, Günter (1986): MORPHIX: Ein hochportabler Lemmatisierungsmodul<br />
für das Deutsche. <strong>Universität</strong> <strong>des</strong> Saarlan<strong>des</strong>, KI-Labor Bericht Nr. 8, Juli 1986.<br />
Gallmann, Peter (1990): Kategoriell komplexe Wortformen. Das Zusammenwirken von Morphologie<br />
und Syntax bei <strong>der</strong> Flexion von Nomen und Adjektiv. Tübingen: Niemeyer.<br />
Gazdar, Gerald; Klein, E.; Pullum, G.K.; Sag, I. (1985): Generalized Phrase Structure Grammar.<br />
Oxford: Basil Blackwell.<br />
Gazdar, Gerald (1985): »Review Article: Finite State Morphology«. Linguistics 23 (1985), S.<br />
597-607.<br />
Gerdemann, Dale (1994): »Complement Inheritance as Subcategorization Inheritance«. In:<br />
Nerbonne, John; Netter, K.; Pollard, C. (Hrsg.): German in Head-Driven Phrase Structure<br />
Grammar, 1994, CSLI, S. 341-363.<br />
Gerdemann, Dale; Götz, T.; Griffith, J.; Kesper, S.; Morawietz, F. (1995): Troll Manual.<br />
Seminar für Sprachwissenschaft, <strong>Universität</strong> Tübingen.<br />
Handwerker, B. (1985): »Review of Fanselow (1981)«. Beiträge zur Geschichte Der <strong>Deutschen</strong><br />
Sprache und Literatur 107, S. 114-117.<br />
181
Literaturverzeichnis<br />
Heilmann, Axel (1991): Argumentstruktur. Arbeitspapiere <strong>des</strong> SFB 340: "Sprachtheoretische<br />
Grundlagen <strong>der</strong> Computerlinguistik", Nr.15.<br />
Heinz, Wolfgang; Matiasek, Johannes (1994): »Argument Structure and Case Assignment in<br />
German«. In: Nerbonne, John; Netter, K.; Pollard, C. (Hrsg.): German in Head-Driven<br />
Phrase Structure Grammar, 1994, CSLI, S. 199-236<br />
Hockett, Charles F. (1954): »Two Models of Grammatical Description«. Word 10 (1954), S.<br />
210-234.<br />
Höhle, Tilmann (1982): »Über Komposition und Derivation: zur Konstituentenstruktur von<br />
Wortbildungsprodukten im <strong>Deutschen</strong>«. Zeitschrift für Sprachwissenschaft 1 (1982), S.<br />
76-112.<br />
Hoeppner, Wolfgang (1980): Derivative Wortbildung <strong>der</strong> deutschen Gegenwartssprache und ihre<br />
algorithmische <strong>Analyse</strong>. Tübingen: Narr.<br />
Holl, Alfred (1988): Romanische Verbalmorphologie und relationentheoretische mathematische<br />
Linguistik. Tübingen: Niemeyer.<br />
Hopcroft, John E.; Ullman, J.D. (1979): Introduction to Automata Theory, Languages and<br />
Computation. Reading, Mass.: Addison-Wesley.<br />
Jackendoff, Ray (1975): »Morphological and Semantic Regularities in the Lexicon«. Language<br />
Vol. 51, No. 3 (1975), S. 639-671.<br />
Johnson, Mark (1988): Attribute-Value Logic and the Theory of Grammar. Stanford: CSLI.<br />
Johnson, Mark (1994): »Two Ways of Formalizing Grammars«. Linguistics and Philosophy 17,<br />
1994, S. 221-248.<br />
Karlsson, Fred (1986): »A Paradigm-Based Morphological Analyzer«. In: Karlsson, F. (Hrsg.):<br />
Papers from the Fifth Scandinavian Conference of Computational Linguistics. Helsinki, Dez.<br />
1985, S.95-112.<br />
Karttunen, Lauri; Kaplan, Ronald M.; Zaenen, Annie (1992): »Two-Level-Morphology with<br />
Composition«. Proc. of COLING-92, S. 141-148.<br />
Kasper, R.; Rounds, W. (1986): »A Logical Semantics for Feature Structures«. Proc. ACL 1986,<br />
S. 257-266.<br />
Kay, Martin (1977): »Morphological and Syntactic Analysis«.In: Zampolli, A. (Hrsg.):<br />
Linguistic Structures Processing (1977), S. 131-234.<br />
Kay, Martin (1980): »Algorithm Schemata and Data Structures in Syntactic Processing«. In:<br />
Grosz, Barbara J.; Sparck Jones, Karen; Webber, Bonnie Lynn (Hrsg.): Readings in Natural<br />
Language Processing, 1986, Los Altos: Morgan Kaufmann, S. 35-70.<br />
Kay, Martin (1982): »When Meta-Rules are not Meta-Rules«. In: Sparck-Jones, K; Wilks, Y.<br />
(Hrsg.): Automatic Natural Language Processing.<br />
182
Literaturverzeichnis<br />
Kaplan, Ronald M.; Kay, Martin; (1994): »Regular Models of Phonological Rule Systems«.<br />
Computational Linguistics (1994), S. 331-379.<br />
Karttunen, Lauri (1984): »Features and Values«. In: Proceedings of COLING 84, S. 28-33.<br />
Knuth, Donald E. (1973): The Art of Computer Programming. Volume 3: Searching and Sorting.<br />
Reading, Mass.: Addison-Wesley.<br />
König, Esther (1996): Introduction to Categorial Grammars. Manuskript, Institut für<br />
maschinelle Sprachverarbeitung, <strong>Universität</strong> Stuttgart.<br />
König, Esther (1998): A CUF Tutorial. Manuskript, Institut für maschinelle<br />
Sprachverarbeitung, <strong>Universität</strong> Stuttgart.<br />
Konrad, Karsten (1995): The CLIG Grapher for Linguistic Data Structures. Unveröffentl.<br />
Manuskript, <strong>Universität</strong> <strong>des</strong> Saarlan<strong>des</strong>, Saarbrücken.<br />
Konrad, Karsten (1997): Extending CLIG: Interaction and User Defined Graphics. Unveröffentl.<br />
Manuskript, <strong>Universität</strong> <strong>des</strong> Saarlan<strong>des</strong>, Saarbrücken.<br />
Koskenniemi, Kimmo; Church, Kenneth W. (1988): »Complexity, Two-Level Morphology<br />
and Finnish.« Proc. of COLING-88, S. 335-339.<br />
Koskenniemi, Kimmo (1984): »A General Computational Model for Word-Form Recognition<br />
and Production«. Proc. of COLING-84, S. 178-181.<br />
Koskenniemi, Kimmo (1986): »Compilation of Automata from Morphological Two-Level<br />
Rules.« Papers from the 5th Scandinavian Conference on Computational Linguistics<br />
(<strong>Universität</strong> Helsinki), 1986.<br />
Krieger, Hans-Ulrich (1994): »Derivation without Lexical Rules«. In: Rupp, C.J.; Rosner,<br />
M.A.; Johnson, R.L. (Hrsg): Constraints, Language and Computation. 1994, Academic<br />
Press, S. 277-313.<br />
Krieger, Hans-Ulrich; Nerbonne, J.; Pirker, H. (1993): Feature-Based Allomorphy. Research<br />
Report 93-28, Deutsches Forschungszentrum für Künstliche Intelligenz.<br />
Lieber, Rochelle (1980): The Organization of the Lexicon. PhD Dissertation, MIT.<br />
Link, Godehard (1991): »Plural«. In: Wun<strong>der</strong>lich, D. und von Stechow, A. (Hrsg.): Handbook<br />
of Semantics. Berlin: de Gruyter.<br />
Lühr, Rosemarie (1986): Neuhochdeutsch. München: Fink.<br />
Meyer, Ralf (1993): Compound Comprehension in Isolation and in Context. The Contribution of<br />
Conceptual and Discourse Knowledge to the Comprehension of German Novel Noun-Noun<br />
Compounds. Tübingen: Niemeyer.<br />
Moortgat, Michael (1986): »Compositionality and the Syntax of Words«. In: Groenendijk,<br />
Jereon; de Jongh, Dick; Stokhof, Martin (Hrsg.): Foundations of Pragmatics and Lexical<br />
Semantics, Dordrecht: Foris, S. 41-62.<br />
183
Literaturverzeichnis<br />
Naumann, Sven; Langer, H. (1994): Parsing. Stuttgart: Teubner.<br />
Olsen, Susan (1986): Wortbildung im <strong>Deutschen</strong>. Stuttgart: Kröner.<br />
Olsen, Susan (1990): »Zur Suffigierung und Präfigierung im verbalen Bereich <strong>des</strong><br />
<strong>Deutschen</strong>«. Papiere zur Linguistik Nr. 42 (Heft 1/1990).<br />
Olsen, Susan (1991): »Empty Heads as the Source of Category Change in Word Structures«.<br />
Papiere zur Linguistik 44/45, Heft 1/2 (1991) S. 109-130<br />
Olsen, Susan (1994): Theoretische Schwerpunkte in <strong>der</strong> Morphologie. Vorlesungsskript,<br />
<strong>Universität</strong> Stuttgart, Sommersemester 1994.<br />
Paulus, Dietrich (1986): Ein Programmpaket zur <strong>morphologischen</strong> <strong>Analyse</strong>. Informatik-<br />
Diplomarbeit (1986), <strong>Universität</strong> Erlangen-Nürnberg.<br />
Pollard, Carl; Sag, I.A. (1987): Information-based Syntax and Semantics. Chicago: CSLI.<br />
Pustejovsky, James (1991): »The Generative Lexicon«. Computational Linguistics 17 (4), 1991,<br />
S. 409-441.<br />
Pustejovsky, James (1991): »The Syntax of Event Structure«. Cognition 41 (1991), S. 47-81.<br />
Pustejovsky, James (Hrsg.) (1993): Semantics and the Lexicon. Dordrecht: Kluwer.<br />
Pustejovsky, James (1993): »Type Coercion and Lexical Selection«. In: Pustejovsky, J. (Hrsg.):<br />
Semantics and The Lexicon.<br />
Pustejovsky, James (1995): The Generative Lexicon. Cambridge, Mass.: MIT Press.<br />
Reape, M.; Thompson, H. (1988): »Parallel Intersection and Serial Composition of Finite<br />
State Transducers«. Proc. of COLING-88, S.535-539.<br />
Reimer, Ulrich (1991): Einführung in die Wissensrepräsentation. Stuttgart: Teubner.<br />
Reis, Marga (1983): »Gegen die Kompositionstheorie <strong>der</strong> Affigierung«. Zeitschrift für<br />
Sprachwissenschaft 2,1 (1983), S.110-131.<br />
Riehemann, Susanne (1994): Morphology and the Hierarchical Lexicon. Manuskript, Stanford<br />
University.<br />
Ritchie, Graeme D.; Russell, G. J.; Black, A. W.; Pulman, S. G. (1992): Computational<br />
Morphology: Practical Mechanisms for the English Lexicon. Cambridge, Mass.: MIT Press.<br />
Roche, Emmanuel; Schabes, Yves (1997, Hrsg.): Finite-State Language Procressing.<br />
Cambridge, Mass.: MIT Press.<br />
Rounds, William C.; Kapser, R. (1986): »A Complete Logical Calculus for Record Structures<br />
Representing Linguistic Information«.<br />
Scalise, Sergio: (1988a): »Inflection and Derivation«. Linguistics 26 (1988).<br />
184
Literaturverzeichnis<br />
Scalise, Sergio: (1988b): »The Notion of 'Head' in Morphology«. In: Booij, G.; van Marle, J.<br />
(Hrsg.): Yearbook of Morphology. Foris, Dordrecht, S: 229-246.<br />
Schiller, Anne; Steffens, P. (1991): »Morphological Processing in the Two-Level-Paradigm«.<br />
In: O.Herzog, C.-R.Rollinger (Hrsg.): Text Un<strong>der</strong>standing in LILOG. Berlin: Springer,<br />
S.122-126.<br />
Schöning, Uwe (1989): Logik für Informatiker. Mannheim: BI Wissenschaftsverlag.<br />
Selkirk, Elisabeth O. (1982): The Syntax of Words. Cambridge, Mass.: MIT Press.<br />
Shieber, Stuart M. (1985): »Criteria for Designing Computer Facilities for Linguistic<br />
Analysis«. Linguistics 23. S. 189-211.<br />
Shieber, Stuart M. (1985a): »Using Restrictions to Extend Parsing Algorithms for Complex-<br />
Feature-Based Formalisms«. In : Proceedings of the 23th Annual Meeting of the<br />
Association for Computational Linguistics, S. 145-152.<br />
Shieber, Stuart M. (1986a): »The Design of a Computer Language for Linguistic<br />
Information«. Proc. COLING 1986, S. 211-215.<br />
Shieber, Stuart M. (1986): Introduction to Unification-based Grammar Formalisms. Chicago:<br />
CSLI.<br />
Spencer, Andrew (1991): Morphological Theory. Oxford: Blackwell.<br />
Smolka, Gerd (1992): »Feature Constraint Logics for Unification Grammars«. Journal of Logic<br />
Programming, vol. 12, S. 51-87.<br />
Thurmair, G. (1986a): »Ein morphologisches Prozessorfragment zur Erzeugung von<br />
Grundformen mithilfe von Lernverfahren«. In: Schwarz, C.; Thurmair, G. (Hrsg.):<br />
Informationslinguistische Texterschließung. Olms, Hil<strong>des</strong>heim. S. 8-31<br />
Thurmair, G. (1986b): »Eine maschinelle morphologische <strong>Analyse</strong> <strong>des</strong> <strong>Deutschen</strong>« . In:<br />
Schwarz, C.; Thurmair, G. (Hrsg.): Informationslinguistische Texterschließung. Olms,<br />
Hil<strong>des</strong>heim, S. 66-107<br />
Toman, Jindrich (1986): »A (Word-)Syntax for Participles«. Linguistische Berichte 105, S. 367 -<br />
408.<br />
Toman, Jindrich ( 2 1987): Wortsyntax: Eine Diskussion ausgewählter Probleme deutscher<br />
Wortbildung. Tübingen: Niemeyer.<br />
Tomita, M. (1987): »An Efficient Augemented Context-free Parsing Algorithm«.<br />
Computational Linguistics 13,1/2, S. 31-46.<br />
Trost, Harald (1990): »The Application of the Two-Level Morphology to Nonconcatenative<br />
German Morphology.« Proceedings of COLING-90, S. 371-376.<br />
Trost, Harald; Buchberger, E. (1981): Lexikon, morphologische <strong>Analyse</strong> und Synthese im System<br />
VIE-LANG. Bericht 81-02. Institut für Medizinische Kybernetik, <strong>Universität</strong> Wien.<br />
185
Literaturverzeichnis<br />
Ullman, Jeffrey D. (1988): Principles of Database and Knowledge-Base Systems. Volume I:<br />
Classical Database Systems. Rockville, Maryland: Computer Science Press.<br />
Williams, Edwin (1981): »On the notions of ‘lexically related’ and ‘head of a word’«.<br />
Linguistic Inquiry, 12, S.245-274.<br />
Wisniewski, E.J./Gentner, D. (1991): „On the Combinatorial Semantics of Noun Pairs: Minor<br />
and Major Adjustments to Meaning“. In: G.B. Simpson (Hrsg.): Un<strong>der</strong>standing Word<br />
and Sentence, Elsevier, North-Holland, S. 241-284.<br />
Wun<strong>der</strong>lich, Dieter (1987): »An Investigation of Lexical Composition: the Case of German<br />
be- Verbs«. Linguistics 25 (1987), S. 283 - 332.<br />
Wun<strong>der</strong>lich, Dieter (1992): A Minimalist Analysis of German Verb Morphology. Arbeiten <strong>des</strong><br />
SFB 282 »Theorie <strong>des</strong> Lexikons« Nr.21, Mai 1992.<br />
Wun<strong>der</strong>lich, Dieter; Fabri, Ray (1994): Minimalist Morphology: An Approach to Inflection.<br />
Manuskript, <strong>Universität</strong> Düsseldorf.<br />
186
Anhang A: Algorithmen<br />
Anhang A: <strong>Analyse</strong>algorithmen<br />
Dieser Anhang enthält die Algorithmen zur Konstruktion <strong>des</strong> segmentierenden Automatens.<br />
A.1 Konstruktion <strong>des</strong> Segmentierers<br />
A.1.1 Konstruktion von Übergangs-, failure- und Ausgabefunktion<br />
Nachfolgend sind die (leicht adaptierten, da teilweise in eine objektorientierte Form gebrachten)<br />
Originalalgorithmen von Aho/Corasick (1975) aufgeführt. Alle weiteren Algorithmen<br />
in diesem Anhang machen ebenfalls Gebrauch <strong>der</strong> objektorientierten<br />
Notationsweise.<br />
Algorithmus A.1: Konstruktion <strong>der</strong> Übergangsfunktion<br />
Eingabe: Eine Menge von Schlüsselwörtern (Listemen) S = { s1s2 ... sn}.<br />
Das Alphabet � und <strong>der</strong> Anfangszustand startstate <strong>des</strong> Automaten<br />
Ausgabe Übergangsfunktion g und teilweise berechnete Ausgabefunktion output.<br />
Verfahren begin<br />
newstate := startstate<br />
for i := 1 to n do<br />
insert(si);<br />
for all a � � such that g(startstate,a) = fail do<br />
g(startstate,a) := startstate<br />
end;<br />
procedure insert(a1a2 ... ak);<br />
begin<br />
state := startstate;<br />
for i := 1 to k do begin<br />
if g(state,ak) = fail then begin<br />
newstate := NewState();<br />
g(state,ak) := newstate;<br />
state := newstate<br />
end<br />
else<br />
state := g(state,ak);<br />
end;<br />
output(state) := { a1a2 ... ak }<br />
end;<br />
Algorithmus A.1: Konstruktion <strong>der</strong> Übergangsfunktion (nach Aho/Corasick (1975:336))<br />
Algorithmus A.1 erhält eine Menge von Zeichenketten und fügt diese <strong>der</strong> Reihe nach ein.<br />
Anschließend wird für alle Alphabetsymbole, für die es vom Startzustand keinen Übergang<br />
in einen an<strong>der</strong>en Zustand gibt, ein Übergang zurück zum Startzustand eingefügt. Diese<br />
Schleifen stellen sicher, daß <strong>der</strong> Automat bei jedem Zustandswechsel ein Eingabesymbol<br />
187
Anhang A: Algorithmen<br />
konsumiert und sind darüber hinaus dafür zuständig, unbekannte Teile in <strong>der</strong> Eingabekette<br />
zu überspringen.<br />
Zum Einfügen einzelner Zeichenketten dient die Prozedur insert. Ausgehend vom Startzustand<br />
<strong>des</strong> Automaten wird in jedem aktuellen Zustand geprüft, ob es für das gerade betrachtete<br />
Eingabesymbol einen Übergang in einen an<strong>der</strong>en Zustand gibt. Ist dies <strong>der</strong> Fall, so<br />
wechselt <strong>der</strong> Automat in diesen Zustand, an<strong>der</strong>nfalls wird mit Hilfe <strong>der</strong> Funktion NewState<br />
ein neuer, bisher noch nicht existieren<strong>der</strong> Zustand erzeugt und die Übergangsfunktion um<br />
einen Übergang in diesen Zustand erweitert. Für den nach Abarbeitung <strong>der</strong> Eingabekette<br />
erreichten Zustand wird in <strong>der</strong> Ausgabefunktion output diese Eingabekette eingetragen.<br />
Algorithmus A.2: Konstruktion <strong>der</strong> failure-Funktion<br />
Eingabe: Übergangsfunktion g und Ausgabefunktion output aus Algorithmus A.1.<br />
Das Alphabet � und <strong>der</strong> Anfangszustand startstate <strong>des</strong> Automaten<br />
Ausgabe: failure-Funktion failure und die vervollständigte Ausgabefunktion output.<br />
Verfahren begin<br />
queue := Queue.new;<br />
for each a � � such that g(startstate,a) = s � startstate do begin<br />
queue.enqueue(s);<br />
failure(s) := startstate<br />
end;<br />
while queue.nonempty do begin<br />
r := queue.dequeue;<br />
for each a � � such that g(r,a) = s � fail do begin<br />
queue.enqueue(s);<br />
state := failure(r);<br />
while g(state,a) = fail do<br />
state := failure(state);<br />
failure(s) := g(state,a);<br />
output(s) := output(s) � output(failure(s))<br />
end<br />
end;<br />
end;<br />
Algorithmus A.2: Konstruktion <strong>der</strong> failure- und Ausgabefunktion (nach Aho/Corasick (1975:336))<br />
Zur Zwischenspeicherung von noch nicht bearbeiteten Zuständen wird eine Queue (Last-In-<br />
Last-Out-Struktur) verwendet, die mit den Zuständen initialisiert wird, die vom Startzustand<br />
<strong>des</strong> Automaten durch einen Übergang erreichbar sind und die nicht identisch mit dem<br />
Startzustand selbst sind. Als Funktionswert <strong>der</strong> failure-Funktion wird für jeden dieser Zustände<br />
<strong>der</strong> Startzustand eingetragen, da, falls ein Übergang für irgendein Symbol in einem<br />
dieser Zustände nicht definiert ist, <strong>der</strong> Zustand, in dem die <strong>Analyse</strong> fortgesetzt werden<br />
kann, eben <strong>der</strong> Startzustand ist.<br />
Eine anschließende while-Schleife verarbeitet nun die Queue solange, bis sie leer wird.<br />
Hierzu wird ein Zustand r am Kopf <strong>der</strong> Queue entnommen und alle Zustände s, die von r<br />
erreicht werden können, in die Queue aufgenommen. Für diese wird <strong>der</strong> Wert <strong>der</strong> failure-<br />
Funktion aufgrund <strong>der</strong> failure-Funktionswerte <strong>der</strong> bereits verarbeiteten Zustände berechnet.<br />
188
Anhang A: Algorithmen<br />
A.1.2 Umwandlung <strong>des</strong> parallelen Pattern-Matchers in einen DEA<br />
Algorithmus A.3 formalisiert die Umwandlung eines parallelen Pattern-Matchers, wie ihn<br />
Algorithmus A.1 erzeugt, in einen deterministischen endlichen Automaten (DEA).<br />
Algorithmus A.3: Determinisierung eines parallelen Pattern-Matchers<br />
Eingabe: goto- und failure-Funktion eines Pattern-Matchers<br />
Ausgabe: Der Pattern-Matcher als deterministischer endlicher Automat<br />
Verfahren begin<br />
queue := Queue.emptyQueue<br />
for each a � � do begin<br />
�(startstate,a) := goto(startstate,a)<br />
if goto(startstate,a) � startstate then<br />
queue.enqueue(g(startstate,a))<br />
end;<br />
end<br />
while queue � empty do begin<br />
r := queue.dequeue;<br />
for each a � � do<br />
if s = g(r,a) � fail then begin<br />
queue.enqueue(s)<br />
delta(r,a) := s<br />
end else<br />
delta(r,a) := delta(failure(r),a)<br />
end<br />
Algorithmus A.3: Konstruktion <strong>der</strong> failure- und Ausgabefunktion (nach Aho/Corasick (1975:336))<br />
189
Anhang B: Typenhierarchie und Merkmalseinführung<br />
Anhang B: Typenhierarchie und Merkmalseinführung<br />
Allgemeines<br />
Der allgemeinste Typ > (top) wird unterteilt in afs (atomic feature structure) und cfs (complex<br />
feature structure); nur cfs und seine Subtypen können Merkmale haben.<br />
Listen sind entwe<strong>der</strong> leer (elist) o<strong>der</strong> nicht leer (nelist); im letzten Fall haben sie Merkmale<br />
für Listenkopf und Listenrest. Strings sind Zeichenketten in doppelten Anführungszeichen.<br />
> � afs | cfs<br />
string � afs<br />
list � elist | nelist<br />
nelist :: ´F´: top � ´R´: list<br />
Morphologische Hierarchie<br />
morph_or_syn_object � cfs<br />
morph_or_syn_object � morph_object | sign<br />
morph_or_syn_object :: GRAPH: list(letter) � SYN: syntax � SEM: semantics<br />
morph_object � simple_or _complex_stem | linking_morph | pre_syntactic_atom | affix<br />
morph_object :: MORPH: morph<br />
sign � syntactic_atom | phrase<br />
simple_or _complex_stem � simple_stem | complex_stem<br />
simple_or _complex_stem :: STRUCTURE: list(morph_object)<br />
affix � prefix | suffix<br />
suffix � infl_affix | <strong>der</strong>ivative<br />
simple_stem � unknown_stem<br />
form_t � suffix � prefix � simple_stem<br />
form_t :: FORM: string<br />
Hierarchie unter SYN:<br />
syntax :: HEAD: head � ARGSTR: argstr<br />
head � nominal | verbal | preposition<br />
head :: CAT: cat<br />
nominal � noun | adjective | pronoun | determiner<br />
nominal :: CASE: case � GENDER: gen<strong>der</strong><br />
adjective ::DEGREE: degree � DECL: decl � PRED: boolean<br />
verb � verbal<br />
verb � verb_infl_or_imp | verb_infinitive<br />
verb_infl_or_imp � verb_infl | verb_imp<br />
verb_infinitive � verb_part | verb_inf_base<br />
verb_inf_base � verb_inf | verb_zuinf<br />
verb_part � verb_partI | verb_partII<br />
190
verb_infl_or_imp :: MOOD: mood<br />
verb_infl :: TENSE: tense<br />
Anhang B: Typenhierarchie und Merkmalseinführung<br />
preposition :: PFORM: afs_ymbol � DP_CASE: case<br />
num_t � verb_infl_or_imp � nominal<br />
num_t :: NUM: num<br />
pers_t � verb_infl � nominal<br />
pers_t :: PERS: pers<br />
cat � n | v | a | p |adv | d | pn<br />
case � syntactic_case � morphological_case<br />
morphological_case � nom � gen � dat � acc<br />
syntactic_case � lex_case � struc_case<br />
lgen � gen � lex_case<br />
ldat � dat � lex_case<br />
lacc � acc � lex_case<br />
snom � nom � struc_case<br />
sgen � gen � struc_case<br />
sacc � acc � struc_case<br />
pers � first | second | third<br />
num � sg | pl<br />
tense � pres | pret<br />
mood � ind | subjI | subjII | imp<br />
gen<strong>der</strong> � masc | fem | neut<br />
decl � strong | weak | mixed<br />
degree � pos | comp | sup<br />
Hierarchie unter SYN:AGRSTR:<br />
argstr � verbal_argstr | nominal_argstr<br />
argstr ::<br />
DEFARGS: list(morph_or_syn_object) �<br />
ADJUNCTS: list(morph_or_syn_object) �<br />
ARGSTR_ORDER: list(morph_or_syn_object)<br />
verbal_argstr ::<br />
SUBJ: morph_or_syn_object_or_elist �<br />
DIR_OBJ: morph_or_syn_object_or_elist �<br />
INDIR_OBJ: morph_or_syn_object_or_elist �<br />
PREP_OBJ: morph_or_syn_object_or_elist �<br />
SENT_COMPL: morph_or_syn_object_or_elist �<br />
nominal_argstr � noun_argstr | adj_argstr<br />
nominal_argstr :: RELARG: morph_or_syn_object_or_elist<br />
adj_argstr :: INTARG: morph_or_syn_object_or_elist<br />
morph_or_syn_object_or_elist � sign | elist<br />
191
Hierarchie unter MORPH:<br />
Anhang B: Typenhierarchie und Merkmalseinführung<br />
morph :: MHEAD: mhead � MFEAT: mfeat � MSUBCAT: morph_subcat<br />
noun_mhead � mhead<br />
mhead :: LATINATE: boolean<br />
noun_mhead :: DECL_CLASS: decl_class<br />
morph_object_or_elist � morph_object | elist<br />
mfeat ::<br />
COMPLEX: boolean � % ist die Form komplex?<br />
COMPLETE: boolean � % ist die Form flektionsmäßig vollständig ?<br />
UMLAUT: boolean � % kann <strong>der</strong> Grundvokal umgelautet werden?<br />
DER: boolean � % kann die Form für die Derivation verwendet werden?<br />
CMP: boolean � % kann die Form für die Komposition verwendet werden?<br />
verb_mfeat � mfeat<br />
verb_mfeat ::<br />
SEP_VERB: boolean � % handelt es sich um ein Partikelverb?<br />
V_PARTICLE: afs_symbol % wenn ja, dann enthält dieses Merkmal den Partikel<br />
affix_subcat � morph_subcat<br />
affix_subcat :: NEEDS: morph_object_or_elist<br />
Hierarchie unter SEM:<br />
semantics � nominal_semantics | verbal_semantics<br />
semantics :: CONTENT: content<br />
nominal_semantics :: REFARG: simple_or_dotted_type<br />
verbal_semantics :: EXTARG: simple_type<br />
content � lexical_content | operator_content<br />
lexical_content :: EVENTSTR: eventstr<br />
simple_or_dotted_type � simple_type | dotted_type<br />
simple_type � countable | uncountable<br />
simple_type :: TYPE: entity<br />
countable � individual | group<br />
countable :: IS_GROUP: boolean<br />
group :: GROUP_OF: countable<br />
dotted_type :: TYPES: list � TYPE_REL: list<br />
content � lexical_content | operator_content<br />
one_place_operator_struct � operator_content<br />
operator_content :: OPERATOR: operator<br />
one_place_operator_struct :: SCOPE: content<br />
operator � one_place_operator | two_place_operator<br />
one_place_operator � op_modality | op_negation | op_abstraction |op_identity<br />
192
Anhang B: Typenhierarchie und Merkmalseinführung<br />
op_modality � op_possibility | op_necessity<br />
event � activity | state<br />
eventstr � activity_eventstr � state_eventstr<br />
activity_eventstr :: EVENT: activity<br />
state_eventstr :: STATE: state<br />
transition_eventstr � activity_eventstr � state_eventstr<br />
transition_eventstr � achievement | accomplishment<br />
transition_eventstr :: EVENTRESTR: eventrestr � EVENTHEAD: event<br />
Konzepthierarchie unter TYPE:<br />
entity � physical_entity | abstract_entity<br />
physical_entity � animate_ind | inanimate_ind<br />
animate_ind � human | nonhuman<br />
nonhuman � animal | plant<br />
inanimate_ind � matter | physical_obj<br />
matter � solid_state | liquid<br />
solid_state � metal | stone | china | paper | glass<br />
liquid � water | oil<br />
physical_obj � book | musical_instrument | tool | food | place<br />
tool � knife | cup | blade<br />
food � bread | cake<br />
place � building | room<br />
factory � building<br />
abstract_entity � temporal | nontemporal<br />
event � temporal<br />
activity � event<br />
nontemporal � abstract_obj | abstract_nonobj<br />
abstract_obj � institution<br />
abstract_nonobj � information | property | relation | collection<br />
text � information<br />
state � relation<br />
Diverses<br />
role ::ROLE: thetarole � SEL_RESTR: simple_or_dotted_type<br />
thetarole � agent | patient | theme | instrument | experiencer | goal | source | location |<br />
beneficiary | dont_know<br />
agent � exhibiter | producer | worker | len<strong>der</strong><br />
theme � exhibited | produced | lended_thing<br />
dont_know � substratum | organisation<br />
relation_or_elist � relation | elist<br />
relation ::RELCONST: afs_symbol � RELARGS: list<br />
accessible_relation :: ACCESSIBLE_ARGS: list<br />
event :: EVENT_TYPE: afs_symbol � ROLES: list � ACCESSIBLE_ROLES: list<br />
193
Anhang C: Programmcode<br />
Anhang C: Programmcode<br />
Anhang C enthält die Programmtexte <strong>der</strong> <strong>Analyse</strong>automaten und <strong>der</strong> <strong>morphologischen</strong><br />
Grammatik. In C.1 ist <strong>der</strong> Segmentierer dokumentiert, in C.2 <strong>der</strong> unifikationsbasierte Chart-<br />
Parser.<br />
C.3 gibt die CUF-Implementierung <strong>der</strong> <strong>morphologischen</strong> Grammatik wie<strong>der</strong>.<br />
C.1 Der Segmentierer<br />
/*********************************************************************************************************************************<br />
File: segment.pl<br />
Language: Sicstus Prolog 3.5<br />
Author: Thomas Hanneforth, University of Potsdam, Germany<br />
Date: Feb. 98<br />
Desc.: implements the segmenting automation<br />
*********************************************************************************************************************************/<br />
:- ensure_loaded([library(lists)]).<br />
:- [utils].<br />
:- [automat]. % Alphabet and start state of the segmentizer<br />
/*********************************************************************************************************************************<br />
parse_word(Word:,Structures:)<br />
Top level predicate of the word parser; calls predicates init_chart/0, shift/1 in<br />
wordchart.pl<br />
Use word_segmentation/2 if you are only interested in the known<br />
segments of Word<br />
*********************************************************************************************************************************/<br />
parse_word(Word,Structures) :-<br />
init_chart,<br />
% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />
atom_to_atomlist(Word,Symbollist),<br />
startstate(StartState),<br />
% shift the found segments into the chart<br />
insert_segments_into_chart(Symbollist,StartState,1,Word),<br />
% check whether it's necessary to insert "unknown"-segments<br />
% after the last lexical segment<br />
complete_chart(Word),<br />
startcat(Startcat),<br />
length(Symbollist,Wordlength),<br />
% find all edges spanning the whole word<br />
generate_structures(Startcat,Wordlength,Structures).<br />
194
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
insert_segments_into_chart(Symbollist:,<br />
State:,Pos:,Word:):<br />
Segmentizes the word given in Symbollist into the known segments<br />
(determined by the lexicon) and inserts them via shift/3 into the chart.<br />
*********************************************************************************************************************************/<br />
insert_segments_into_chart([],_State,_Index,_Word).<br />
insert_segments_into_chart([Letter|Restletters],State,I,Word) :-<br />
non_failure_state(State,Letter,NonFailState),<br />
transition(NonFailState,Letter,NewState),<br />
output(NewState,WordList),<br />
(WordList = [] -> % is the output function defined ?<br />
true<br />
;<br />
% yes, so convert the items in output into segments<br />
( word_to_segment_conversion(WordList,I,Segments),<br />
shift_all(Segments,Word) % insert all segments into the chart<br />
)<br />
),<br />
J is I + 1,<br />
insert_segments_into_chart(Restletters,NewState,J,Word).<br />
/*********************************************************************************************************************************<br />
shift_all(Segment:, Word:)<br />
inserts all segments into the chart; Word is the word to be analyzed<br />
*********************************************************************************************************************************/<br />
shift_all([],_Word).<br />
shift_all([Segment|Segments],Word) :-<br />
shift(Segment,Word),<br />
(morphdebug(on) -><br />
( write('Inserted segment:'), write(Segment), nl, nl,<br />
complete_edges, nl,<br />
incomplete_edges, nl,<br />
get0(_)<br />
)<br />
;<br />
true<br />
),<br />
shift_all(Segments,Word).<br />
/*********************************************************************************************************************************<br />
word_segmentation(Atomlist:,Segments:)<br />
Standalone predicate<br />
segmentizes Word into Segments<br />
e.g. 'rechnest' becomes (with suitable lexicon entries): [seg(1,rechn,5),seg(6,st,8)]<br />
*********************************************************************************************************************************/<br />
word_segmentation(Word,Segments) :-<br />
% convert Word into a list of atoms, e.g. 'Hi' becomes ['H',i]<br />
atom_to_atomlist(Word,Symbollist),<br />
startstate(StartState),<br />
word_segmentation(Symbollist,StartState,1,[],ReverseSegments),<br />
% reverse the segment list<br />
reverse(ReverseSegments,Segments).<br />
195
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
word_segmentation(Atomlist:,Startstate:,<br />
Index:,Segments:)<br />
*********************************************************************************************************************************/<br />
word_segmentation([],_State,_Index,Seg,Seg).<br />
word_segmentation([Letter|Rest],State,I,SegsSoFar0,Segments) :-<br />
non_failure_state(State,Letter,NonFailState),<br />
transition(NonFailState,Letter,NewState),<br />
output(NewState,WordList),<br />
(WordList = [] -> % is the output function defined ?<br />
SegsSoFar1 = SegsSoFar0<br />
;<br />
% yes, so convert the items in output into segments<br />
( word_to_segment_conversion(WordList,I,NewSegments),<br />
append(NewSegments,SegsSoFar0,SegsSoFar1)<br />
)<br />
),<br />
J is I + 1,<br />
word_segmentation(Rest,NewState,J,SegsSoFar1,Segments).<br />
/*********************************************************************************************************************************<br />
non_failure_state(State:,Letter:,NonFailState:)<br />
NonFailState = State if there is transition from State with Letter<br />
*********************************************************************************************************************************/<br />
non_failure_state(State,Letter,State) :-<br />
transition(State,Letter,NewState),<br />
NewState \== fail,<br />
!.<br />
non_failure_state(State0,Letter,State) :-<br />
transition(State0,Letter,fail), % no transition<br />
f(State0,State1), % failure function<br />
non_failure_state(State1,Letter,State).<br />
/*********************************************************************************************************************************<br />
transition(State1:,Char:,State2:):<br />
State2 is the state which is reachable from State1 with Char.<br />
if there isn't a transition then State2 = fail<br />
*********************************************************************************************************************************/<br />
transition(State1,AlphabetSymbol,fail) :-<br />
\+ tr(State1,AlphabetSymbol,_),<br />
!.<br />
transition(State1,AlphabetSymbol,State2) :-<br />
tr(State1,AlphabetSymbol,State2).<br />
/*********************************************************************************************************************************<br />
output(State:,WordList:):<br />
Returns a list of morphs if the analysers output function is defined,<br />
otherwise the empty list.<br />
*********************************************************************************************************************************/<br />
output(State,Wordlist) :-<br />
(o(State,Wordlist) -><br />
true<br />
;<br />
Wordlist = []). % function undefined<br />
196
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
File: automat.pl<br />
Description: Definition of the alphabet and the start state of the segmentizer<br />
Date: March 98<br />
/*********************************************************************************************************************************<br />
startstate(s0).<br />
/*********************************************************************************************************************************<br />
automation_alphabet(Alphabet:):<br />
Defines the alphabet of the segmentizer<br />
*********************************************************************************************************************************/<br />
automation_alphabet([a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z,'-','ä','ö','ü','ß']).<br />
/*********************************************************************************************************************************<br />
File: gen_segment.pl<br />
Language: Sicstus Prolog 3.5<br />
Author: Thomas Hanneforth, University of Potsdam, Germany<br />
Date: Feb. 98<br />
Desc.: Creates the segmenting automation<br />
The main predicate is create_automation/0 which compiles a<br />
pattern matching machine (see Aho/Corasick (1975) for details)<br />
out of the lexicon entries<br />
*********************************************************************************************************************************/<br />
:- dynamic<br />
tr/3, % transition function entry<br />
f/2, % failure function entry<br />
o/2. % output function entry<br />
:- unknown(_,fail).<br />
:- ensure_loaded([library(lists)]).<br />
:- [queues,sicsutls]. % Sicstus<br />
:- [automat]. % Alphabet of the automation<br />
:- [os_spec]. % Operating system specific stuff<br />
/*********************************************************************************************************************************<br />
create_automation/0:<br />
top level predicate for the compiler<br />
*********************************************************************************************************************************/<br />
create_automation :-<br />
nl, write('% Compiling segmentizer ...'), nl,<br />
clear_db,<br />
process_lex_entries,<br />
startstate_completition,<br />
construct_failure_function,<br />
% for reasons of efficiency this is done after all words are processed.<br />
write_automation,<br />
segmentizer_information(States,Transitions,Finalstates),<br />
write('% Morph segmentizer created and saved.'), nl,<br />
format("% ~d states, ~d transitions, ~d final states.", [States,Transitions,Finalstates]),<br />
nl, nl.<br />
/*********************************************************************************************************************************<br />
clear_db /0:<br />
Removes all dynamic predicate clauses<br />
*********************************************************************************************************************************/<br />
clear_db :-<br />
abolish(tr/3),<br />
abolish(f/2),<br />
abolish(o/2).<br />
197
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
process_lex_entries/0:<br />
Adds all lexicon entries to the automation and constructs<br />
the failure function afterwards<br />
*********************************************************************************************************************************/<br />
process_lex_entries :-<br />
(--->(Word,_Desc)), % extract lexicon entry<br />
\+ (Word = unknown(_W)), % special entry 'unknown' isn't inserted<br />
add_to_automation(Word), % insert Word into the automation<br />
fail.<br />
process_lex_entries.<br />
/*********************************************************************************************************************************<br />
startstate_completition/0:<br />
adds a transition for all symbols from startstate to startstate for<br />
which no transition is defined yet<br />
*********************************************************************************************************************************/<br />
startstate_completition :-<br />
automation_alphabet(Alphabet),<br />
startstate(Start),<br />
add_start_transitions(Alphabet,Start).<br />
add_start_transitions([],_Start).<br />
add_start_transitions([AlphabetSymbol|RestAlphabet],Start) :-<br />
transition(Start,AlphabetSymbol,State),<br />
((State = fail) -><br />
add_transition(Start,AlphabetSymbol,Start)<br />
;<br />
true % a transition is already there, so do nothing<br />
),<br />
add_start_transitions(RestAlphabet,Start).<br />
/*********************************************************************************************************************************<br />
construct_failure_function/0:<br />
constructs the failure function of the segmentizer.<br />
*********************************************************************************************************************************/<br />
construct_failure_function :-<br />
automation_alphabet(Alphabet),<br />
startstate(Start),<br />
make_queue(Queue),<br />
% initialize the queue<br />
queue_startstates(Alphabet,Start,Queue,NewQueue),<br />
process_queue(NewQueue,Alphabet).<br />
/*********************************************************************************************************************************<br />
queue_startstates(Alphabet:,Start:,Queue1,Queue2):<br />
Adds all states to Queue for which there are transitions to a state not equal<br />
to Start<br />
*********************************************************************************************************************************/<br />
queue_startstates([],_Start,Queue,Queue).<br />
queue_startstates([AlphabetSymbol|RestAlphabet],Start,Queue0,Queue) :-<br />
transition(Start,AlphabetSymbol,NewState), % should never fail<br />
((NewState = Start) -><br />
Queue1 = Queue0<br />
;<br />
( enqueue(NewState,Queue0,Queue1),<br />
assert(f(NewState,Start))<br />
)),<br />
queue_startstates(RestAlphabet,Start,Queue1,Queue).<br />
198
Anhang C: Programmcode<br />
process_queue(Queue,_Alphabet) :-<br />
empty_queue(Queue),<br />
!.<br />
process_queue(Queue,Alphabet) :-<br />
dequeue(Queue,State,Queue1), % dequeue new state<br />
process_alphabet(Alphabet,State,Queue1,Queue2),<br />
process_queue(Queue2,Alphabet).<br />
/*********************************************************************************************************************************<br />
process_alphabet(Alphabet,State,Queue1,Queue) :-<br />
Process all alphabet symbols relative to the recently dequeued<br />
state State<br />
State = R; NewState = S<br />
*********************************************************************************************************************************/<br />
process_alphabet([],_State,Queue,Queue).<br />
process_alphabet([Sym|RestAlphabet],R,Queue1,Queue) :-<br />
transition(R,Sym,S),<br />
((S = fail) -> % only non-fail states are processed<br />
( Queue2 = Queue1 ) % do nothing<br />
;<br />
( enqueue(S,Queue1,Queue2), % enqueue state S<br />
f(R,State), % State = failure(R)<br />
non_failure_state(State,Sym,NonFailState),<br />
transition(NonFailState,Sym,State1),<br />
assert(f(S,State1)),<br />
output(State1,Wordlist),<br />
(Wordlist = [] -> % function undefined?<br />
true % yes -> do nothing<br />
;<br />
(output(S,OldWordlist),<br />
(OldWordlist = [] -> % function undefined?<br />
true % yes -> completely new entry<br />
;<br />
retract(o(S,_)) % no -> remove old one<br />
),<br />
union(OldWordlist,Wordlist,NewWordlist),<br />
assert(o(S,NewWordlist))<br />
)))),<br />
process_alphabet(RestAlphabet,R,Queue2,Queue).<br />
199
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
write_automation/0:<br />
extracts the information about transitions, failure and output of the<br />
database and writes it to three files<br />
*********************************************************************************************************************************/<br />
write_automation :-<br />
% create transitions file<br />
filename(morphsegfile,MorphSegFile),<br />
open(MorphSegFile,write,File),<br />
write(File,'% Morph segmentizer definition file.'),<br />
nl(File),<br />
write(File,'% This is a generated file.'),<br />
nl(File), nl(File),<br />
write_transition_func(File),<br />
% create failure function file<br />
write_failure_func(File),<br />
% create output function file<br />
write_output_func(File),<br />
close(File).<br />
write_transition_func(File) :-<br />
write(File,'% Transition function'),<br />
nl(File), nl(File),<br />
transition(State1,Char,State2),<br />
State2 \== fail,<br />
write_canonical(File,tr(State1,Char,State2)),<br />
write(File,.), nl(File),<br />
fail.<br />
write_transition_func(_File).<br />
write_failure_func(File) :-<br />
nl(File), nl(File),<br />
write(File,'% Failure function'),<br />
nl(File),<br />
f(State1,State2),<br />
write(File,f(State1,State2)), write(File,.), nl(File),<br />
fail.<br />
write_failure_func(_File).<br />
write_output_func(File) :-<br />
nl(File), nl(File),<br />
write(File,'% Output function'),<br />
nl(File),<br />
o(State,Wordlist),<br />
write(File,'o('),write(File,State),<br />
write(File,',['),<br />
write_quoted(Wordlist,File),<br />
write(File,']).'), nl(File),<br />
fail.<br />
write_output_func(_File).<br />
200
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
write_quoted(List:,Filename::<br />
Writes the terms in List into the File "Filename" such that all atoms are quoted<br />
*********************************************************************************************************************************/<br />
write_quoted([],_File) :-<br />
!.<br />
write_quoted([Word/Lemma],File) :-<br />
write(File,''''), write(File,Word), write(File,''''),<br />
write(File,/),<br />
write(File,''''), write(File,Lemma), write(File,''''),<br />
!.<br />
write_quoted([Word/Lemma|Rest],File) :-<br />
write(File,''''), write(File,Word), write(File,''''),<br />
write(File,/),<br />
write(File,''''), write(File,Lemma), write(File,''''),<br />
write(File,','),<br />
write_quoted(Rest,File).<br />
/*********************************************************************************************************************************<br />
add_to_automation(Word/Lemma):<br />
inserts Word into the trie-like transition graph<br />
*********************************************************************************************************************************/<br />
add_to_automation(Word/Lemma) :-<br />
name(Word,CharList), % convert word to character list<br />
char_atom_list(CharList,AtomCharList), % convert char list to atoms<br />
startstate(StartState),<br />
add_to_trie(AtomCharList,Word,Lemma,StartState).<br />
% insert Word into the trie<br />
add_to_trie([],Word,Lemma,State) :-<br />
add_output(State,Word,Lemma). % update output function<br />
add_to_trie([Char|Chars],Word,Lemma,State) :-<br />
newstate(State,Char,NewState,Result),<br />
add_to_trie(Chars,Word,Lemma,NewState).<br />
/*********************************************************************************************************************************<br />
newstate(State:,Char:,NewState:,Result:)<br />
constructs a new transition from State with Char if there isn't alreday one.<br />
*********************************************************************************************************************************/<br />
newstate(State,Char,NewState,old_transition) :-<br />
transition(State,Char,NewState), % there is already a transition<br />
NewState \== fail,<br />
!.<br />
newstate(State,Char,NewState,new_transition) :-<br />
transition(State,Char,fail), % no transition,<br />
gensym(s,NewState), % so construct a new state<br />
add_transition(State,Char,NewState). % and add a new transition<br />
201
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
non_failure_state(State,Letter,NonFailState)<br />
NonFailState = State if there is transition from State with Letter<br />
*********************************************************************************************************************************/<br />
non_failure_state(State,Letter,State) :-<br />
transition(State,Letter,NewState),<br />
NewState \== fail,<br />
!.<br />
non_failure_state(State0,Letter,State) :-<br />
transition(State0,Letter,fail), % no transition<br />
f(State0,State1), % failure function<br />
non_failure_state(State1,Letter,State).<br />
/*********************************************************************************************************************************<br />
transition(State1,Char,State2):<br />
State2 is the state which is reachable from State1 with Char.<br />
if there isn't a transition then State2 = fail<br />
*********************************************************************************************************************************/<br />
transition(State1,AlphabetSymbol,fail) :-<br />
\+ tr(State1,AlphabetSymbol,_),<br />
!.<br />
transition(State1,AlphabetSymbol,State2) :-<br />
tr(State1,AlphabetSymbol,State2).<br />
add_transition(State1,AlphabetSymbol,State2) :-<br />
assert(tr(State1,AlphabetSymbol,State2)).<br />
/*********************************************************************************************************************************<br />
add_output(State:,Word:,Lemma:):<br />
*********************************************************************************************************************************/<br />
add_output(State,Word,Lemma) :-<br />
(o(State,_) -> % is the output function for State already defined ?<br />
(retract(o(State,Entries)), % yes: add word to the value of the output function<br />
union([Word/Lemma],Entries,NewEntries),<br />
assert(o(State,NewEntries)))<br />
;<br />
assert(o(State,[Word/Lemma]))). % no: create a new entry for of the output function<br />
/*********************************************************************************************************************************<br />
output(State:,WordList:):<br />
Returns a list of morphs if the analysers output function is defined,<br />
otherwise the empty list.<br />
*********************************************************************************************************************************/<br />
output(State,Wordlist) :-<br />
(o(State,Wordlist) -> true ; Wordlist = []).<br />
/*********************************************************************************************************************************<br />
segmentizer_information(States:,Transitions:,Finalstates:):<br />
Determinines some information about the newly created NDA<br />
*********************************************************************************************************************************/<br />
segmentizer_information(States,Transitions,Finalstates) :-<br />
findall(*,tr(_,_,_),L1), length(L1,Transitions),<br />
findall(*,f(_,_),L2), length(L2,States0),<br />
States is States0 + 1, findall(*,o(_,_),L3), length(L3,Finalstates).<br />
202
C.2 Der Chart-Parser<br />
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
Datei: wordchart.pl<br />
Beschreibung: Inkrementeller Chartparser für ambige Segmentierungen<br />
Als Grundlage dient die Implementation von Dörre/Naumann/Langer<br />
Autor: Thomas Hanneforth<br />
*********************************************************************************************************************************/<br />
:- use_module(library(terms)). % for subsume_chk/2<br />
:- op(1150,xfx,--->). % Operator für lexikalische Einsetzung<br />
:- op(1150,xfx,==>).<br />
:- op(1160,xfx,conditions).<br />
:- op(1170,fx,rule).<br />
/*********************************************************************************************************************************<br />
edge(Start,End,LHS,ClosedRHS,OpenRHS,PartitionPositions,Conditions)<br />
*********************************************************************************************************************************/<br />
:- dynamic edge/7.<br />
/*********************************************************************************************************************************<br />
init_chart/0:<br />
prepares the chart<br />
*********************************************************************************************************************************/<br />
init_chart :-<br />
clear_chart,<br />
startcat(StartCat),<br />
expand(0,StartCat). % expand the start symbol<br />
clear_chart :-<br />
retractall(edge(_,_,_,_,_,_,_)).<br />
/*********************************************************************************************************************************<br />
shift(Seg:,Word:)<br />
Inserts Seg into the chart and generate all edges involving this segment<br />
Word is the word to be analyzed<br />
*********************************************************************************************************************************/<br />
shift(seg(Begin,LexEntry,End),Word) :-<br />
Begin0 is Begin - 1,<br />
% check whether is's necessary to insert "unknown" segments<br />
add_unknown_segments(Begin0,Word),<br />
% find a lexical insertion rule<br />
(LexEntry ---> Cat),<br />
closure(Begin0,End,Cat,[term(LexEntry)],[],[End],true),<br />
fail.<br />
shift(_Seg,_Word).<br />
203
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
complete_chart(Word:)<br />
Check whether is's necessary to insert "unknown" segments<br />
at the end of the chart<br />
*********************************************************************************************************************************/<br />
complete_chart(Word) :-<br />
atom_length(Word,WordLen),<br />
add_unknown_segments(WordLen,Word).<br />
/*********************************************************************************************************************************<br />
closure(Begin:,End:,Cat:,Closed:,<br />
Open:,Positions:,Conditions)<br />
Depending on the active/inactive status the edge is either expanded or<br />
used to complete other edges<br />
*********************************************************************************************************************************/<br />
closure(Begin,End,Cat,RHS,[],Positions,Conditions) :- % inactive edge<br />
store(edge(Begin,End,Cat,RHS,[],Positions,Conditions)),<br />
% try to complete active edges with the inactive one<br />
complete(Begin,End,Cat).<br />
closure(Begin,End,Cat,Closed,[Next|Rest],Positions,Conditions) :- % active edge<br />
store(edge(Begin,End,Cat,Closed,[Next|Rest],Positions,Conditions)),<br />
expand(End,Next).<br />
/*********************************************************************************************************************************<br />
complete(Begin:,End:,CompleteCat:)<br />
tries to extend active edges waiting for CompleteCat<br />
*********************************************************************************************************************************/<br />
complete(Begin,End,Cat) :-<br />
edge(Begin0,Begin,LHS,Closed0,[Cat|Open],Positions,Conditions),<br />
append(Closed0,[Cat],Closed), % move the dot to the right<br />
append(Positions,[End],NewPositions),<br />
closure(Begin0,End,LHS,Closed,Open,NewPositions,Conditions),<br />
fail.<br />
complete(_Begin,_End,_Cat).<br />
/*********************************************************************************************************************************<br />
expand(Position:,LHS:)<br />
asserts an active edge for every rule starting with LHS<br />
*********************************************************************************************************************************/<br />
expand(Position,LHS) :-<br />
% find a suitable phrase/word structure rule<br />
applicable_rule(LHS,RHS,Conditions),<br />
closure(Position,Position,LHS,[],RHS,[],Conditions),<br />
fail.<br />
expand(_Position,_LHS).<br />
/*********************************************************************************************************************************<br />
applicable_rule(LHS:,RHS:,Conditions:):<br />
Looks for a applicable rule<br />
*********************************************************************************************************************************/<br />
applicable_rule(LHS,RHS,Conditions) :-<br />
(rule (LHS ==> RHS) conditions Conditions).<br />
/*********************************************************************************************************************************<br />
store(Edge:)<br />
Version without subsumptions check<br />
store(edge(Begin,End,Cat,Closed,Open,Positions)) :-<br />
\+ edge(Begin,End,Cat,Closed,Open,Positions),<br />
assert(edge(Begin,End,Cat,Closed,Open,Positions)).<br />
*********************************************************************************************************************************/<br />
204
store(edge(Begin,End,Cat,Closed,Open,Positions,_)) :-<br />
edge(Begin,End,Cat0,Closed0,Open0,_,_),<br />
subsumes_chk(Cat0,Cat),<br />
subsumes_chk(Closed0,Closed),<br />
subsumes_chk(Open0,Open),<br />
!, fail.<br />
Anhang C: Programmcode<br />
% special case: completed edges => test for the conditions<br />
store(edge(Begin,End,Cat,Closed,[],Positions,Conditions)) :-<br />
call(Conditions),<br />
assert(edge(Begin,End,Cat,Closed,[],Positions,Conditions)).<br />
store(edge(Begin,End,Cat,Closed,Open,Positions,Conditions)) :-<br />
Open \== [],<br />
assert(edge(Begin,End,Cat,Closed,Open,Positions,Conditions)).<br />
/*********************************************************************************************************************************<br />
Structure generation<br />
*********************************************************************************************************************************/<br />
/*********************************************************************************************************************************<br />
generate_structure(Cat:,Wordlen:,<br />
Structures:,<br />
Collect all structures for the word<br />
*********************************************************************************************************************************/<br />
generate_structures(StartCat,Wordlen,Structures) :-<br />
findall( <strong>des</strong>c(FS,Structure),<br />
generate_structure(0,Wordlen,StartCat,Structure,FS),<br />
Structures).<br />
/*********************************************************************************************************************************<br />
generate_structure(From:,To:,Mother:,Structure:,<br />
FS:):<br />
Generate a single structure in the chosen representation format<br />
*********************************************************************************************************************************/<br />
% Case 1: Terminal symbols<br />
generate_structure(From,To,Mother,Structure,Mother) :-<br />
edge(From,To,Mother,[term(Word/_Lemma)],[],_Positions,_),<br />
make_lextree(Mother,Word,Structure).<br />
% Case 2: Terminal symbols of type unknown<br />
generate_structure(From,To,Mother,Structure,Mother) :-<br />
edge(From,To,Mother,[term(unknown(Unknown))],[],_Positions,_),<br />
name(Unknown,UnknownList),<br />
concat(["unknown(",UnknownList,")"],Charlist),<br />
name(UnknownNode,Charlist),<br />
make_lextree(Mother,UnknownNode,Structure).<br />
% Case 3: Nonterminal symbols<br />
generate_structure(From,To,Mother,Structure,Mother) :-<br />
edge(From,To,Mother,Closed,[],Positions,_),<br />
structure_of_subconstituents(Closed,From,Positions,StructuresList),<br />
make_pstree(Mother,StructuresList,Structure).<br />
structure_of_subconstituents([],_From,_Positions,[]).<br />
structure_of_subconstituents([Cat|RestCats],From,[Pos|RestPos],[Struct|Rest]) :-<br />
generate_structure(From,Pos,Cat,Struct,_),<br />
structure_of_subconstituents(RestCats,Pos,RestPos,Rest).<br />
/*********************************************************************************************************************************<br />
Different structure building primitives<br />
*********************************************************************************************************************************/<br />
205
*<br />
% draw notation<br />
make_lextree(Mother,Word,Structure) :-<br />
Structure =.. [Mother,Word].<br />
make_pstree(Mother,Daughters,Structure) :-<br />
Structure =.. [Mother|Daughters].<br />
*/<br />
% wishtree notation I<br />
%make_lextree(Mother,Word,Mother/[-Word]).<br />
%make_pstree(Mother,Daughters,Mother/Daughters).<br />
Anhang C: Programmcode<br />
% wishtree notation II<br />
make_lextree(Mother,Word,MotherCat/[-Word]) :-<br />
Mother =.. [MotherCat|_].<br />
make_pstree(Mother,Daughters,MotherCat/Daughters) :-<br />
Mother =.. [MotherCat|_].<br />
/*<br />
% linguistic structures notation<br />
make_lextree(Mother,Word,[Mother,[Word]]).<br />
make_pstree(Mother,Daughters,[Mother|Daughters]).<br />
*/<br />
206
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
Handling of lexical gaps<br />
*********************************************************************************************************************************/<br />
/*********************************************************************************************************************************<br />
add_unknown_segments(EndPos:,Word:)<br />
Determines segments of type unknown starting at positions before Endpos<br />
*********************************************************************************************************************************/<br />
add_unknown_segments(EndPos,Word) :-<br />
unknown_cat(UnknownCat),<br />
% find all end positions of edges which are less than<br />
% the start position of the current segment<br />
find_incomplete_edges(EndPos,UnknownCat,Poslist0),<br />
% determine the segments which are ignored<br />
ignore_list(Ignorelist),<br />
% check whether potential unknown-type segments contain lexical items<br />
check_candidates(Poslist0,EndPos,Ignorelist,Poslist1),<br />
% apply heuristics on the unknown-type segments<br />
apply_heuristics(Poslist1,EndPos,Word,Poslist),<br />
% finally add all segments which have passed all the tests<br />
insert_unknown_segments(Poslist,EndPos,UnknownCat,Word).<br />
/*********************************************************************************************************************************<br />
check_candidates(PoslistIn:,EndPos:,<br />
Ignorelist:,PoslistOut:)<br />
Check whether potential unknown-type segments contain lexical items<br />
*********************************************************************************************************************************/<br />
check_candidates([],_EndPos,_Ignorelist,[]).<br />
check_candidates([Startpos|Restpos1],EndPos,Ignorelist,Result) :-<br />
% test<br />
(lexical_segments_within(Startpos,EndPos,Ignorelist) -><br />
Result = Restpos2<br />
;<br />
Result = [Startpos|Restpos2]<br />
),<br />
check_candidates(Restpos1,EndPos,Ignorelist,Restpos2).<br />
lexical_segments_within(StartPos,EndPos,Ignorelist) :-<br />
findall(*,<br />
(edge(S,E,_,[term(W/L)],[],_,_),<br />
S >= StartPos, E =< EndPos,<br />
\+ member(W,Ignorelist)),<br />
L),<br />
\+ (L = []).<br />
/*********************************************************************************************************************************<br />
apply_heuristics(PoslistIn:,EndPos:,Word:,PoslistOut:):<br />
This predicate is the right place to impose further, heuristic restrictions<br />
on the unknown-type segments to be inserted.<br />
Currently it prevents the insertion of segments with one ore two characters.<br />
Additional heuristics:<br />
- Testing the phonetic wellformedness of the candidate segment (with a 2LMA)<br />
*********************************************************************************************************************************/<br />
%apply_heuristics(Poslist,_EndPos,Poslist).<br />
apply_heuristics([],_EndPos,_Word,[]).<br />
apply_heuristics([Startpos|Restpos1],EndPos,Word,Result) :-<br />
(heuristic_tests(Startpos,EndPos,Word) -><br />
Result = [Startpos|Restpos2]<br />
;<br />
Result = Restpos2 % ignore<br />
),<br />
apply_heuristics(Restpos1,EndPos,Word,Restpos2).<br />
207
Anhang C: Programmcode<br />
/*********************************************************************************************************************************<br />
heuristic_tests(Startpos,EndPos,Word):<br />
Currently it prevents the insertion of segments with one ore two characters<br />
and tests for the phonetic wellformedness of the candidate segment.<br />
*********************************************************************************************************************************/<br />
heuristic_tests(Startpos,EndPos,Word) :-<br />
length_test(Startpos,EndPos),<br />
phonetic_wellformedness(Startpos,EndPos,Word).<br />
length_test(Startpos,EndPos) :-<br />
% test whether the length of the candidate segment is greater than 2<br />
EndPos - Startpos > 3.<br />
phonetic_wellformedness(Startpos,EndPos,Word) :-<br />
Length is EndPos - Startpos,<br />
substring(Word,Unknown,Startpos,Length),<br />
% check candidate segment against the list of syllables<br />
syllable_check(Unknown).<br />
**********************************************************************************************************************************<br />
insert_unknown_segments(Positions:,End:,UnknownCat:,Word:)<br />
Inserts finally the unknown-type segments by doing a closure on each<br />
Positions is a list of start positions<br />
*********************************************************************************************************************************/<br />
insert_unknown_segments([],_EndPos,_UnknownCat,_Word).<br />
insert_unknown_segments([Begin|RestPos],EndPos,UnknownCat,Word) :-<br />
shift_unknown(Begin,EndPos,UnknownCat,Word),<br />
insert_unknown_segments(RestPos,EndPos,UnknownCat,Word).<br />
shift_unknown(Begin,EndPos,UnknownCat,Word) :-<br />
Length is EndPos - Begin,<br />
substring(Word,Unknown,Begin,Length),<br />
closure(Begin,EndPos,UnknownCat,[term(unknown(Unknown))],[],[EndPos],true).<br />
shift_unknown(_Begin,_EndPos,_UnknownCat,_Word).<br />
/*********************************************************************************************************************************<br />
find_incomplete_edges(Begin,UnknownCat,Edgelist)<br />
<br />
*********************************************************************************************************************************/<br />
find_incomplete_edges(Begin,Unknown_cat,Edgelist) :-<br />
findall( End,<br />
(edge(_,End,_,_,[Unknown_cat|_],_,_), End < Begin),<br />
Edgelist0),<br />
remove_duplicates(Edgelist0,Edgelist).<br />
208
Anhang C: Programmcode<br />
C.3 CUF-Programmtext <strong>der</strong> <strong>morphologischen</strong> Grammatik<br />
/***************************************************************************************************************<br />
Name: morph.cuf<br />
Author: Thomas Hanneforth<br />
Date: July 1998 - August 1999<br />
Description: CUF-Implementation of the morphological grammar<br />
To try the examples use "?- run(Number)" where<br />
Number is one of the arguments of testword at the<br />
end of this file<br />
****************************************************************************************************************/<br />
control_file(morph).<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Type hierarchy and feature introduction<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
/***************************************************************************************************************<br />
Morphologial hierarchy<br />
****************************************************************************************************************/<br />
morph_or_syn_object = morph_object | sign.<br />
morph_or_syn_object ::<br />
graph: list,<br />
syn: syn,<br />
sem: semantics,<br />
structure: list.<br />
sign = syntactic_atom | phrase.<br />
syntactic_atom ::<br />
constituents: dtr_t. % for debugging only<br />
morph_object = simple_or_complex_stem | linking_morph | pre_syntactic_atom | affix.<br />
morph_object ::<br />
morph: morph.<br />
pre_syntactic_atom :: dtrs: dtr_t. % for debugging only<br />
simple_or_complex_stem = simple_stem | complex_stem.<br />
complex_stem ::<br />
dtrs: dtr_t.<br />
affix = prefix | suffix.<br />
suffix = infl_affix | <strong>der</strong>ivative.<br />
simple_stem = unknown_stem.<br />
form_t = suffix ; prefix ; simple_stem.<br />
form_t ::<br />
form: string.<br />
209
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Syn: hierarchy<br />
****************************************************************************************************************/<br />
syn ::<br />
head: head,<br />
argstr: argstr.<br />
head = nominal | verbal | preposition.<br />
head ::<br />
cat: cat.<br />
preposition ::<br />
pform: afs_symbol,<br />
dp_case: case.<br />
nominal = noun | adjective | pronoun | determiner.<br />
nominal ::<br />
case: case,<br />
gen<strong>der</strong>: gen<strong>der</strong>.<br />
adjective ::<br />
degree: degree,<br />
decl: decl,<br />
pred: boolean.<br />
verbal = verb.<br />
verb = verb_infl_or_imp | verb_infinitive.<br />
verb_infl_or_imp = verb_infl | verb_imp.<br />
verb_infinitive = verb_part | verb_inf_base.<br />
verb_inf_base = verb_inf | verb_zuinf.<br />
verb_part = verb_partI | verb_partII.<br />
verb_infl_or_imp ::<br />
mood: mood.<br />
verb_infl ::<br />
tense: tense.<br />
num_t = verb_infl_or_imp ; nominal.<br />
num_t ::<br />
num: num.<br />
pers_t = verb_infl ; nominal.<br />
pers_t ::<br />
pers: pers.<br />
cat ; pers ; num ; tense ; mood ; gen<strong>der</strong> ; decl ; degree ; boolean ; t_decl_class < cfs.<br />
cat = n | v | a | p |adv | d | pn.<br />
%case = nom | gen | dat | acc. % see below<br />
pers = first | second | third.<br />
num = sg | pl.<br />
tense = pres | pret.<br />
mood = ind | subjI | subjII | imp.<br />
gen<strong>der</strong> = masc | fem | neut.<br />
decl = strong | weak | mixed.<br />
degree = pos | comp | sup.<br />
boolean = plus | minus.<br />
t_decl_class = dc_I | dc_II | dc_III | dc_IV | dc_V | dc_VI | dc_all_the_rest.<br />
210
% Case hierarchy after Heinz/Matiasek<br />
case < cfs.<br />
case = syntactic_case ; morphological_case.<br />
morphological_case = nom ; gen ; dat ; acc.<br />
syntactic_case = lex_case ; struc_case.<br />
lgen = gen & lex_case.<br />
ldat = dat & lex_case.<br />
lacc = acc & lex_case.<br />
snom = nom & struc_case.<br />
sgen = gen & struc_case.<br />
sacc = acc & struc_case.<br />
% MORPH morphological features<br />
morph ::<br />
mhead: mhead,<br />
mfeat: mfeat,<br />
msubcat: morph_subcat.<br />
% MHEAD contains morphological head features<br />
mhead = noun_mhead.<br />
mhead ::<br />
latinate: boolean,<br />
complex: boolean.<br />
noun_mhead ::<br />
decl_class: decl_class.<br />
Anhang C: Programmcode<br />
% MFEAT contains morphological nonhead features<br />
mfeat ::<br />
complete: boolean, % is the form inflectionally complete?<br />
umlaut: boolean, % the base vowel can be umlauted<br />
flex: boolean, % the form can be used for inflection<br />
<strong>der</strong>: boolean, % the form can be used for <strong>der</strong>ivation<br />
cmp: boolean, % the form can be used for composition<br />
conf: boolean, % the form can be used for confixation<br />
prefixable_with_ge: boolean, % for verbs: base verb has a prefix or particle<br />
suffixed: boolean, % the form un<strong>der</strong>went suffixation<br />
sep_verb: boolean, % for verbs: is it a particel verb?<br />
v_particle: afs_symbol. % for verbs: the particle<br />
decl_class ::<br />
decl_class_sg: t_decl_class, % noun inflection class singular<br />
decl_class_pl: t_decl_class. % noun inflection class plural<br />
% ARGSTR: syntactic subcategorisation<br />
argstr = verbal_argstr | nominal_argstr.<br />
argstr ::<br />
defargs: list, % of morph_or_syn_object<br />
adjuncts: list, % of morph_or_syn_object<br />
argstr_or<strong>der</strong>: list. % of morph_or_syn_object<br />
verbal_argstr ::<br />
subj: sign_elist,<br />
dir_obj: sign_elist,<br />
indir_obj: sign_elist,<br />
prep_obj: sign_elist,<br />
sent_compl: sign_elist.<br />
nominal_argstr = noun_argstr | adj_argstr.<br />
211
nominal_argstr ::<br />
relarg: sign_elist.<br />
adj_argstr ::<br />
intarg: sign_elist.<br />
sign_elist = sign | elist.<br />
morph_object_or_elist = morph_object | elist.<br />
morph_subcat = affix_subcat.<br />
affix_subcat ::<br />
needs: morph_object_or_elist.<br />
% tree structure<br />
dtr_t = unary_branching | binary_branching.<br />
unary_branching :: dtr: top.<br />
binary_branching :: ldtr: top, rdtr: top.<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Sem: hierarchy<br />
****************************************************************************************************************/<br />
semantics = verbal_semantics | nominal_semantics.<br />
semantics ::<br />
content: content.<br />
nominal_semantics ::<br />
refarg: simple_or_dotted_type.<br />
verbal_semantics ::<br />
extarg: simple_or_dotted_type.<br />
content < cfs.<br />
content = lexical_content | operator_content | no_content.<br />
lexical_content ::<br />
eventstr: eventstr.<br />
one_place_operator_struct < operator_content.<br />
operator_content ::<br />
operator: operator.<br />
one_place_operator_struct ::<br />
scope: content.<br />
two_place_operator_struct < one_place_operator_struct.<br />
two_place_operator_struct = causation_struct | conjunct_struct.<br />
causation_struct ::<br />
causer: simple_or_dotted_type.<br />
operator < cfs.<br />
operator = one_place_operator | two_place_operator.<br />
one_place_operator = op_modality | op_negation | op_abstraction | op_causation.<br />
op_modality = op_possibility | op_necessity.<br />
212
eventstr < cfs.<br />
eventstr = activity_eventstr ; state_eventstr.<br />
activity_eventstr ::<br />
event: activity.<br />
state_eventstr ::<br />
state: relation.<br />
transition_eventstr = activity_eventstr & state_eventstr.<br />
transition_eventstr = achievement | accomplishment.<br />
transition_eventstr ::<br />
eventrestr: eventrestr,<br />
eventhead: event_or_state.<br />
Anhang C: Programmcode<br />
%accomplishment = ingressive_accomplishment | egressive_accomplishment.<br />
event_or_state = event ; state.<br />
eventrestr < cfs.<br />
eventrestr = event_overlap | event_or<strong>der</strong>ed_overlap | event_sequence | event_inclusion.<br />
simple_or_dotted_type = simple_type | dotted_type.<br />
% Old version of groups<br />
%simple_type = non_group_type | group.<br />
%non_group_type = individual | uncountable.<br />
% New version uses un<strong>der</strong>specifiaction: groups are subtypes of individuals<br />
%simple_type = individual | uncountable.<br />
%simple_type ::<br />
% type: entity.<br />
%group < individual.<br />
%group ::<br />
% group_of: individual.<br />
% Yet another (final?) version of groups<br />
simple_type = countable | uncountable.<br />
simple_type ::<br />
type: entity.<br />
countable = individual | group.<br />
countable ::<br />
is_group: boolean. % this is a hack<br />
group ::<br />
group_of: countable.<br />
dotted_type ::<br />
types: list, % of semantics<br />
type_rel: list. % of relations<br />
thetarole < cfs.<br />
thetarole = agent | patient | theme | instrument | experiencer |<br />
goal | source | location | beneficiary | dont_know.<br />
213
agent = exhibiter | producer | worker | len<strong>der</strong>.<br />
theme = exhibited | produced | lended_thing.<br />
dont_know = substratum | organisation.<br />
relation_or_elist = relation | elist.<br />
relation ::<br />
relconst: top, % afs_symbol,<br />
relargs: list.<br />
accessible_relation ::<br />
accessible_args: list.<br />
role ::<br />
role: thetarole,<br />
sel_restr: simple_or_dotted_type.<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Conceptual hierarchy<br />
****************************************************************************************************************/<br />
entity < cfs.<br />
entity = physical_entity | abstract_entity.<br />
physical_entity = animate_ind | inanimate_ind.<br />
animate_ind = human | nonhuman.<br />
nonhuman = animal | plant.<br />
inanimate_ind = matter | physical_obj.<br />
matter = solid_state | liquid.<br />
solid_state = metal | stone | china | paper | glass.<br />
metal = steel | copper.<br />
liquid = water | oil.<br />
physical_obj = book | musical_instrument | tool | food | place.<br />
tool = knife | cup | blade.<br />
food = bread | cake.<br />
place = building | room | area.<br />
factory < building.<br />
abstract_entity = temporal | nontemporal.<br />
event < temporal.<br />
activity < event.<br />
nontemporal = abstract_obj | abstract_nonobj.<br />
abstract_obj = institution.<br />
abstract_nonobj = proposition | information | property | relation | collection.<br />
text < information.<br />
relation = state | accessible_relation.<br />
/***************************************************************************************************************<br />
Features of concepts<br />
****************************************************************************************************************/<br />
entity ::<br />
subconcepts: list. % of simple_type<br />
physical_entity ::<br />
physical_state: physical_state,<br />
consists_of: list, % of matter<br />
has_parts: list. % of simple_type<br />
temporal ::<br />
takes_place_at: simple_type.<br />
event ::<br />
event_type: afs_symbol,<br />
roles: list,<br />
accessible_roles: list.<br />
214
physical_state < cfs.<br />
physical_state = solid | fluid | gaseous.<br />
solid = hard | soft.<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Morphological grammar rules<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
/***************************************************************************************************************<br />
Rule I: morph insertion<br />
****************************************************************************************************************/<br />
cat(Cat, [Graph]) :=<br />
Cat &<br />
morph(Graph).<br />
% empty cat<br />
%cat(linking_morph & Cat, []) :=<br />
% Cat.<br />
/***************************************************************************************************************<br />
Rule VII: Morphology-syntax-interface<br />
syntactic_atom --> pre_syntactic_atom<br />
****************************************************************************************************************/<br />
cat(syntactic_atom & SA, L) :=<br />
SA &<br />
true(cat(pre_syntactic_atom, L) & PSA) &<br />
type_maximal(syn_head(PSA)) &<br />
syn_head_features([PSA]) &<br />
true(PSA & morph:mfeat:complete:plus) &<br />
argument_realisation(PSA) &<br />
graph: L &<br />
structure:[PSA]. % for tree construction<br />
/***************************************************************************************************************<br />
Rule V: Stem insertion<br />
pre_syntactic_atom --> simple_or_complex_stem<br />
****************************************************************************************************************/<br />
cat(pre_syntactic_atom & PSA, L) :=<br />
PSA &<br />
unified_head_features([Stem]) &<br />
true(cat(simple_or_complex_stem, L) & Stem) &<br />
argument_inheritance(Stem) &<br />
semantics(Stem) &<br />
dtrs:dtr:Stem & % for debugging only<br />
graph: L &<br />
structure:[Stem].<br />
/***************************************************************************************************************<br />
Rule VI: Inflection<br />
pre_syntactic_atom --> pre_syntactic_atom infl_affix<br />
****************************************************************************************************************/<br />
cat(pre_syntactic_atom & PSA, L) :=<br />
PSA &<br />
215
Anhang C: Programmcode<br />
split(L,L1,L2) &<br />
unified_head_features([PSA1, IA]) &<br />
true(cat(infl_affix, L2) & IA) &<br />
true(cat(pre_syntactic_atom, L1) & PSA1) &<br />
affix_or<strong>der</strong>_constraint(PSA1, IA) &<br />
argument_inheritance(PSA1) &<br />
infl_semantics(PSA1, IA) &<br />
dtrs:(ldtr:PSA1 & rdtr:IA) & % for debugging only<br />
graph: L &<br />
structure:[PSA1,IA].<br />
/***************************************************************************************************************<br />
Rule IIIa: Derivation/Suffixation with link morph<br />
complex_stem --> simple_or_complex_stem linking_morph suffix<br />
****************************************************************************************************************/<br />
cat(complex_stem & Stem, L) :=<br />
Stem &<br />
split3(L,L1,Link,L2) &<br />
true(cat(linking_morph, Link)) &<br />
unified_head_features([Suffix]) &<br />
morph_subcat_principle(Suffix, Stem1) &<br />
true(cat(<strong>der</strong>ivative, L2) & Suffix) &<br />
true(cat(simple_or_complex_stem, L1) & Stem1) &<br />
morph:mfeat:suffixed:plus &<br />
dtrs:(ldtr:Stem1 & rdtr:Suffix) & % for debugging only<br />
graph: L &<br />
structure:[Stem1,Suffix].<br />
/***************************************************************************************************************<br />
Rule IIIb: Derivation/Suffixation without link morph<br />
complex_stem --> simple_or_complex_stem suffix<br />
****************************************************************************************************************/<br />
cat(complex_stem & Stem, L) :=<br />
Stem &<br />
split(L,L1,L2) &<br />
unified_head_features([Suffix]) &<br />
morph_subcat_principle(Suffix, Stem1) &<br />
true(cat(<strong>der</strong>ivative, L2) & Suffix) &<br />
true(cat(simple_or_complex_stem, L1) & Stem1) &<br />
morph:mfeat:suffixed:plus &<br />
dtrs:(ldtr:Stem1 & rdtr:Suffix) & % for debugging only<br />
graph: L &<br />
structure:[Stem1,Suffix].<br />
/***************************************************************************************************************<br />
Rule II: Derivation/Prefixation<br />
complex_stem --> prefix simple_or_complex_stem<br />
****************************************************************************************************************/<br />
cat(complex_stem & Stem, L) :=<br />
Stem &<br />
split(L,L1,L2) &<br />
unified_head_features([Stem1]) &<br />
true(cat(prefix, L1) & Prefix) &<br />
morph_subcat_principle(Prefix, Stem1) &<br />
true(cat(simple_or_complex_stem, L2) & Stem1) &<br />
dtrs:(ldtr:Prefix & rdtr:Stem1) & % for debugging only<br />
graph: L &<br />
structure:[Prefix,Stem1].<br />
216
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Rule IVa: Composition with link morph<br />
complex_stem --> simple_or_complex_stem linking_morph simple_or_complex_stem<br />
****************************************************************************************************************/<br />
cat(complex_stem & Stem, L) :=<br />
Stem &<br />
split3(L,L1,Link,L2) &<br />
true(cat(linking_morph, Link)) &<br />
unified_head_features([Stem2]) &<br />
true(cat(simple_or_complex_stem, L2) & Stem2) &<br />
semantics_construction(Stem1,Stem2) &<br />
true(cat(simple_or_complex_stem, L1) & Stem1) &<br />
dtrs:(ldtr:Stem1 & rdtr:Stem2) & % for debugging only<br />
graph: L &<br />
structure:[Stem1,Stem2].<br />
/***************************************************************************************************************<br />
Rule IVb Composition without link morph<br />
complex_stem --> simple_or_complex_stem simple_or_complex_stem<br />
****************************************************************************************************************/<br />
cat(complex_stem & Stem, L) :=<br />
Stem &<br />
split(L,L1,L2) &<br />
unified_head_features([Stem2]) &<br />
true(cat(simple_or_complex_stem, L2) & Stem2) &<br />
semantics_construction(Stem1,Stem2) &<br />
true(cat(simple_or_complex_stem, L1) & Stem1) &<br />
dtrs:(ldtr:Stem1 & rdtr:Stem2) & % for debugging only<br />
graph: L &<br />
structure:[Stem1,Stem2].<br />
/***************************************************************************************************************<br />
Rule VIIIa: Participle conversion<br />
simple_or_complex_stem --> pre_syntactic_atom<br />
****************************************************************************************************************/<br />
cat(simple_or_complex_stem & Stem, L) :=<br />
Stem &<br />
verb_participle_to_adjective(VerbParticiple,Syn_Head_VerbPart) &<br />
true(cat(pre_syntactic_atom, L) & VerbParticiple) &<br />
% check whether the stem is a participle of the right type<br />
value_instantiated(Syn_Head_VerbPart, VerbParticiple) &<br />
dtrs:dtr:VerbParticiple & % for debugging only<br />
graph: L &<br />
structure:[VerbParticiple].<br />
/***************************************************************************************************************<br />
Rule VIIIb: Conversion<br />
simple_or_complex_stem --> simple_stem<br />
****************************************************************************************************************/<br />
cat(simple_or_complex_stem & Stem, L) :=<br />
Stem &<br />
stem_conversion(Stem1) &<br />
true(cat(simple_stem, L) & Stem1) &<br />
dtrs:dtr:Stem1 & % for debugging only<br />
graph: L &<br />
structure:[Stem1].<br />
217
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Some conversion rules<br />
****************************************************************************************************************/<br />
% past particple: verbs with a direct object<br />
verb_participle_to_adjective(syn:(head:(_Verb & verb & cat:v) &<br />
argstr:(dir_obj:sem:refarg:Ref & indir_obj:IO &<br />
defargs:Defargs)) &<br />
sem_content(Cont),<br />
syn:head:verb_partII) :=<br />
complex_stem &<br />
adj &<br />
argstr_refarg(Ref) &<br />
argstr_intarg(IO) &<br />
defargs(Defargs) &<br />
argstr_or<strong>der</strong>(append(delete_elist([IO]),Defargs)) &<br />
sem_content(Cont).<br />
% past particple: verbs with an unaccusative subject<br />
% missing<br />
% present particple of verbs<br />
verb_participle_to_adjective(syn:(head:(_Verb & verb & cat:v) &<br />
argstr:(subj:sem:refarg:Ref & dir_obj:DO &<br />
indir_obj:_IO & prep_obj:_PO & sent_compl:_SC &<br />
defargs:Defargs)) &<br />
sem_content(Cont),<br />
syn:head:verb_partI) :=<br />
complex_stem &<br />
adj &<br />
argstr_refarg(Ref) &<br />
argstr_intarg(DO) &<br />
defargs(Defargs) &<br />
argstr_or<strong>der</strong>([]) &<br />
sem_content(Cont).<br />
/***************************************************************************************************************<br />
Stem conversion<br />
****************************************************************************************************************/<br />
% causation: A -> V<br />
stem_conversion(syn:head:(adjective & cat:a) & sem_content(Cont) &<br />
argstr_refarg(Ref) ) :=<br />
verb(verb) &<br />
sem_content(two_place_operator_struct & operator:op_causation &<br />
causer:Causer & scope:Cont) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Causer & countable(animate_ind))) &<br />
argstr_dirobj(Arg2 & n(struc_case) & argstr_refarg(Ref)) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2]) &<br />
defargs([]).<br />
218
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Semantics construction<br />
All clauses of semantics_construction and their subpredicates must define:<br />
sem:refarg, sem:content, syn:argstr<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
/***************************************************************************************************************<br />
semantics_construction/3:<br />
Tries to find a semantic relation between the two stems. There are ?? cases:<br />
a) The first stem is an argument of the second<br />
b) There is a stereotypical relation projected by the second part of the<br />
compound between them<br />
c) There is a stereotypical relation projected by the first part of the<br />
compound between them<br />
d) There is a general conceptual relation between them<br />
e) There is a base relation between them<br />
****************************************************************************************************************/<br />
% case 1: Stem1 is a semantic argument which satisfies<br />
% the restrictionsof the semantic functor of Stem2<br />
semantics_construction(Stem1,Stem2) :=<br />
argument_saturation(Stem1,Stem2).<br />
semantics_construction(Stem1,Stem2) :=<br />
stereotypical_relation(Stem1,Stem2).<br />
semantics_construction(Stem1,Stem2) :=<br />
conceptual_relation(Stem1,Stem2).<br />
%semantics_construction(Stem1,Stem2) :=<br />
% theta_role_merge(Stem1,Stem2).<br />
/***************************************************************************************************************<br />
argument_saturation/2 tries to interpret the first component of a compound<br />
as an argument of the second.<br />
It is assumed that the first component isn't semantically specified for<br />
plural<br />
****************************************************************************************************************/<br />
% N-N-compound with a relational head, e.g. "Messerfan" or "Museumsfan"<br />
argument_saturation(syn:head:noun & sem:refarg:TypeOfArgument,<br />
syn:head:noun &<br />
syn:argstr:(noun_argstr & relarg:sem:refarg:TypeOfHead &<br />
defargs:Defargs) &<br />
argstr_refarg(Ref) &<br />
sem_content(Cont)) :=<br />
selectional_restrictions_fullfilled(TypeOfHead,TypeOfArgument) &<br />
argstr_refarg(Ref) &<br />
argstr_relarg([]) &<br />
defargs(Defargs) &<br />
argstr_or<strong>der</strong>([]) &<br />
sem_content(Cont).<br />
% N-N-compound with a deverbal head<br />
argument_saturation(syn:head:noun & sem:refarg:TypeOfArgument,<br />
syn:head:(verb & cat:v) &<br />
syn:argstr:(verbal_argstr & subj:Subj &<br />
dir_obj:sem:refarg:SelRestrOfHead &<br />
indir_obj:[] & prep_obj:[] & sent_compl:[] &<br />
defargs:_Defargs) &<br />
219
Anhang C: Programmcode<br />
sem_content(Cont)) :=<br />
selectional_restrictions_fullfilled(SelRestrOfHead,TypeOfArgument) &<br />
argstr_subj(Subj) &<br />
argstr_dirobj([]) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([]) &<br />
defargs([]) &<br />
sem_content(operator:op_possibility & scope:Cont).<br />
% V-N-compound: Second part fills a role in the event structure of the verb<br />
% e.g. "Hackmesser"<br />
argument_saturation(syn:head:verb & sem_content(Cont) &<br />
sem:content:eventstr:Eventstr,<br />
syn:head:noun &<br />
syn:argstr:(noun_argstr & relarg:[] & defargs:Defargs) &<br />
argstr_refarg(Ref)) :=<br />
true(a_role_in_eventstr(Eventstr) & Ref) &<br />
argstr_refarg(Ref) &<br />
argstr_relarg([]) &<br />
defargs(Defargs) &<br />
argstr_or<strong>der</strong>([]) &<br />
sem_content(operator:op_possibility & scope:Cont).<br />
/***************************************************************************************************************<br />
selectional_restrictions_fullfilled/2 tries to collapse argument type and<br />
relarg type. There are two cases:<br />
1) argument has a simple type<br />
a) of uncountable or individual<br />
b) of group<br />
2) argument has a dotted type<br />
****************************************************************************************************************/<br />
selectional_restrictions_fullfilled(Type, simple_type & Type) :=<br />
top.<br />
selectional_restrictions_fullfilled(Type, dotted_type & types:TypeList) :=<br />
member(Type,TypeList).<br />
/*<br />
% Old version: individual or group distinction is enforced, left un<strong>der</strong>specified<br />
% in the version above<br />
%selectional_restrictions_fullfilled(Type, individual & Type) :=<br />
% top.<br />
%selectional_restrictions_fullfilled(Type, uncountable & Type) :=<br />
% top.<br />
%selectional_restrictions_fullfilled(Type, group & type:T & group_of:type:T & Type) :=<br />
% top.<br />
*/<br />
/***************************************************************************************************************<br />
stereotypical_relation(SemanticArgument,SemanticHead):<br />
Tries to find a role in the telic relation of the second parameter whose<br />
selectional restrictions are compatible with the selectional restrictions of<br />
the referential argument of the first parameter.<br />
If a matching role was found it is removed from the accessible roles list<br />
****************************************************************************************************************/<br />
stereotypical_relation( syn:head:noun & sem:refarg:RefargOfArg,<br />
syn:head:noun & argstr_refarg(Ref) &<br />
220
Anhang C: Programmcode<br />
sem:content:(scope:eventstr:event:<br />
(event_type:EventType &<br />
accessible_roles:AccessRoles &<br />
roles:Roles) &<br />
operator:OP) &<br />
syn:argstr:ArgStr &<br />
sem_content(_Cont)) :=<br />
member(sel_restr:SelRestrOfRole, AccessRoles, RestRoles) &<br />
selectional_restrictions_fullfilled(SelRestrOfRole, RefargOfArg) &<br />
syn:argstr:ArgStr &<br />
argstr_refarg(Ref) &<br />
sem:content:(scope:eventstr:event:(<br />
event_type:EventType &<br />
roles:Roles &<br />
accessible_roles:RestRoles) &<br />
operator:OP).<br />
/***************************************************************************************************************<br />
conceptual_relation(SemanticHead,SemanticArgument):<br />
****************************************************************************************************************/<br />
conceptual_relation(syn:head:noun & sem:refarg:RefArgOfArg,<br />
syn:head:noun & sem:refarg:RefArgOfFunctor &<br />
syn:argstr:Argstr & sem_content(Cont)) :=<br />
argstr_refarg(type_relation(type_concept(RefArgOfArg),<br />
type_concept(RefArgOfFunctor))) &<br />
syn:argstr:Argstr &<br />
sem_content(Cont).<br />
/***************************************************************************************************************<br />
type_relation(RefArgOfArg,RefArgOfFunctor):<br />
tries to find a conceptual relationship between the two types and constructs<br />
the new referential argument of the head noun<br />
****************************************************************************************************************/<br />
type_relation(simple_type & ArgType, Simple_Type & type:subconcepts: ConceptList) :=<br />
member(ArgType, ConceptList) &<br />
Simple_Type.<br />
/***************************************************************************************************************<br />
theta_role_merge(SemanticHead,SemanticArgument):<br />
tries to unify the referential arguments of the two components. I´ve only<br />
implemented the A-N-case. I assume that adjectives never have a dotted type.<br />
****************************************************************************************************************/<br />
theta_role_merge(syn:head:adjective & argstr_refarg(RefargOfArg) &<br />
sem_content(_ContAdj),<br />
syn:head:noun & argstr_refarg(RefargOfHead) &<br />
syn:argstr:AS & sem_content(_ContNoun)) :=<br />
selectional_restrictions_fullfilled(RefargOfArg,RefargOfHead) &<br />
argstr_refarg(RefargOfHead) &<br />
syn:argstr:AS &<br />
sem_content(_Cont).<br />
221
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Lexicon<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
morph(string) -> top.<br />
index_table(morph/1).<br />
index_table(sem/1).<br />
index_table(sem/2).<br />
index_table(sem/3).<br />
index_table(sem/4).<br />
index_table(sem/5).<br />
/***************************************************************************************************************<br />
Noun stems<br />
****************************************************************************************************************/<br />
morph("bibliothek") :=<br />
form: "Bibliothek" &<br />
simple_stem &<br />
noun(fem) &<br />
decl_class(dc_III,dc_III) &<br />
no_arguments &<br />
sem("Bibliothek").<br />
morph("museum") :=<br />
form: "Museum" &<br />
simple_stem &<br />
noun(neut) &<br />
singular &<br />
decl_class(dc_I,top) &<br />
no_arguments &<br />
sem("Museum").<br />
morph("fabrik") :=<br />
form: "Fabrik" &<br />
simple_stem &<br />
noun(fem) &<br />
decl_class(dc_III,dc_III) &<br />
no_arguments &<br />
sem("Fabrik").<br />
morph("buch") :=<br />
form: "Buch" &<br />
simple_stem &<br />
noun(neut) &<br />
singular &<br />
decl_class(dc_I,dc_IV) &<br />
morph_feat(<strong>der</strong>:plus & cmp:plus & flex:plus) &<br />
no_arguments &<br />
sem("Buch").<br />
morph("buech") :=<br />
form: "Buch" &<br />
simple_stem &<br />
noun(neut) &<br />
plural &<br />
morph_feat(<strong>der</strong>:minus & cmp:plus & flex:plus) &<br />
decl_class(dc_I,dc_IV) &<br />
222
no_arguments &<br />
sem("Buch").<br />
morph("messer") :=<br />
form: "Messer" &<br />
simple_stem &<br />
noun(neut) &<br />
decl_class(dc_I,dc_II) &<br />
no_arguments &<br />
sem("Messer").<br />
Anhang C: Programmcode<br />
morph("sohn") :=<br />
form: "Sohn" &<br />
simple_stem &<br />
noun(masc) &<br />
singular &<br />
decl_class(dc_I,dc_I) &<br />
argstr_relarg(Arg & /* n(struc_case) & */<br />
argstr_refarg(OfWhom & individual(human)) ) &<br />
argstr_or<strong>der</strong>([Arg]) &<br />
defargs([]) &<br />
sem("Sohn", OfWhom).<br />
morph("soehn") :=<br />
form: "Söhn" &<br />
simple_stem &<br />
noun(masc) &<br />
plural &<br />
decl_class(dc_I,dc_I) &<br />
argstr_relarg(Arg & /* n(struc_case) & */<br />
argstr_refarg(OfWhom & individual(human)) ) &<br />
argstr_or<strong>der</strong>([Arg]) &<br />
defargs([]) &<br />
sem("Sohn", OfWhom).<br />
morph("fan") :=<br />
form: "Fan" &<br />
simple_stem &<br />
noun(masc) &<br />
decl_class(dc_I,dc_V) &<br />
argstr_relarg(Arg & argstr_refarg(OfWhat & simple_type(entity))) &<br />
argstr_or<strong>der</strong>([Arg]) &<br />
defargs([]) &<br />
sem("Fan", OfWhat).<br />
morph("stahl") :=<br />
form: "Stahl" &<br />
simple_stem &<br />
noun(masc) &<br />
decl_class(dc_I,dc_I) &<br />
no_arguments &<br />
sem("Stahl").<br />
morph("wasser") :=<br />
form: "Wasser" &<br />
simple_stem &<br />
noun(neut) &<br />
singular &<br />
decl_class(dc_I,dc_II) &<br />
223
no_arguments &<br />
sem("Wasser").<br />
morph("waesser") :=<br />
form: "Wasser" &<br />
simple_stem &<br />
noun(neut) &<br />
plural &<br />
decl_class(dc_I,dc_II) &<br />
no_arguments &<br />
sem("Wasser").<br />
morph("brot") :=<br />
form: "Brot" &<br />
simple_stem &<br />
noun(neut) &<br />
decl_class(dc_I,dc_I) &<br />
no_arguments &<br />
sem("Brot").<br />
morph("tasse") :=<br />
form: "Tasse" &<br />
simple_stem &<br />
noun(masc) &<br />
decl_class(dc_III,dc_III) &<br />
no_arguments &<br />
sem("Tasse").<br />
morph("horn") :=<br />
form: "Horn" &<br />
simple_stem &<br />
noun(neut) &<br />
decl_class(dc_I,dc_IV) &<br />
no_arguments &<br />
sem("Horn").<br />
morph("streik") :=<br />
form: "Streik" &<br />
simple_stem &<br />
noun(masc) &<br />
decl_class(dc_I,dc_V) &<br />
no_arguments &<br />
sem("Streik").<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Adjective stems<br />
****************************************************************************************************************/<br />
morph("frei") :=<br />
form: "frei" &<br />
simple_stem &<br />
adj &<br />
argstr_intarg([]) &<br />
argstr_or<strong>der</strong>([]) &<br />
defargs([]) &<br />
sem("frei").<br />
224
morph("schoen") :=<br />
form: "schön" &<br />
simple_stem &<br />
adj &<br />
argstr_intarg([]) &<br />
argstr_or<strong>der</strong>([]) &<br />
defargs([]) &<br />
sem("schoen").<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Verb stems<br />
****************************************************************************************************************/<br />
morph("rett") :=<br />
form: "rett" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(Th & countable(animate_ind))) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />
defargs([Arg3 & argstr_refarg(Inst & countable(tool))]) &<br />
sem("rett",Ag,Th,Inst).<br />
morph("renovier") :=<br />
form: "renovier" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:minus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(Th & countable(building))) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2]) &<br />
defargs([]) &<br />
sem("renovier",Ag,Th).<br />
morph("pruef") :=<br />
form: "prüf" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(Th & simple_type(entity))) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />
defargs([Arg3 & argstr_refarg(Inst & countable(tool))]) &<br />
sem("pruef",Ag,Th,Inst).<br />
225
Anhang C: Programmcode<br />
morph("verkauf") :=<br />
form: "verkauf" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(Th & simple_type(entity))) &<br />
argstr_indirobj(Arg3 & n(struc_case) &<br />
argstr_refarg(Goal & countable(human))) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg3,Arg2]) &<br />
defargs([]) &<br />
sem("verkauf",Ag,Th,Goal).<br />
morph("giess") :=<br />
form: "giess" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(countable(human))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(uncountable(liquid))) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj(Arg3 & p(acc,auf) &<br />
argstr_refarg(simple_type(physical_entity))) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />
defargs([]) &<br />
sem("giess").<br />
morph("staun") :=<br />
form: "staun" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj([]) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj(Arg2 & p(acc,'über') &<br />
argstr_refarg(Th & countable(physical_entity))) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2]) &<br />
defargs([]) &<br />
sem("staun",Ag,Th).<br />
morph("bau") :=<br />
form: "bau" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(animate_ind))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(Th & countable(building))) &<br />
argstr_indirobj([]) &<br />
226
Anhang C: Programmcode<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />
defargs([Arg3 & argstr_refarg(M & simple_type(solid_state))]) &<br />
sem("bau",Ag,Th,M).<br />
morph("bohr") :=<br />
form: "bohr" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(Th & countable(top))) & % $$ "hole"<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
defargs([Arg3 & argstr_refarg(Tool & countable(tool)),<br />
Arg4 & argstr_refarg(Loc & countable(physical_entity))]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg3,Arg2,Arg4]) &<br />
sem("bohr",Ag,Th,Tool,Loc).<br />
morph("arbeit") :=<br />
form: "arbeit" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj([]) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
defargs([]) &<br />
argstr_or<strong>der</strong>([Arg1]) &<br />
sem("arbeit",Ag).<br />
morph("hack") :=<br />
form: "hack" &<br />
simple_stem &<br />
verb(verb) &<br />
morph_feat(prefixable_with_ge:plus) &<br />
argstr_subj(Arg1 & n(struc_case) &<br />
argstr_refarg(Ag & countable(human))) &<br />
argstr_dirobj(Arg2 & n(struc_case) &<br />
argstr_refarg(Th & simple_type(physical_entity))) &<br />
argstr_indirobj([]) &<br />
argstr_prepobj([]) &<br />
argstr_sentcompl([]) &<br />
defargs([Arg3 & argstr_refarg(Inst & countable(tool))]) &<br />
argstr_or<strong>der</strong>([Arg1,Arg2,Arg3]) &<br />
sem("hack",Ag,Th,Inst).<br />
/***************************************************************************************************************<br />
Special entry for unknown_stems<br />
****************************************************************************************************************/<br />
morph("$unknown$") :=<br />
form: "unknown" &<br />
227
unknown_stem &<br />
syn:head:verb &<br />
sem:extarg:top &<br />
syn:argstr:defargs:[].<br />
morph("$unknown$") :=<br />
form: "unknown" &<br />
unknown_stem &<br />
syn:head:noun &<br />
sem:refarg:simple_type &<br />
syn:argstr:defargs:[].<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
Derivational affixes:<br />
Every affix must deliver the following<br />
syn:argstr, sem:refarg (if appropriate), sem:content<br />
****************************************************************************************************************/<br />
morph("bar") := % ok<br />
form: "bar" &<br />
suffix &<br />
adj &<br />
morph_subcat(syn:(head:(verb & cat:v) &<br />
argstr:(subj:sem:SubjSem & dir_obj:argstr_refarg(R) &<br />
indir_obj:[] & prep_obj:[] & sent_compl:[])) &<br />
sem_content(Cont)) &<br />
argstr_or<strong>der</strong>([DefArg]) &<br />
defargs([DefArg & (p(lacc,durch) ; p(ldat,von)) & sem:SubjSem]) &<br />
argstr_refarg(R) &<br />
argstr_intarg([]) &<br />
sem_content(operator:op_possibility & scope:Cont).<br />
morph("er") := % ok<br />
form: "er" &<br />
suffix &<br />
noun(masc) &<br />
decl_class(dc_I,dc_II) &<br />
morph_subcat(syn:(head:(verb & cat:v) &<br />
argstr:(subj:Subj & dir_obj:DO & indir_obj:[] & defargs:DefArgs)) &<br />
sem:Sem) &<br />
process_or_accomplishment_verb(sem:Sem) &<br />
agent_instrument(sem:Sem, Subj, DO, syn:argstr:defargs:DefArgs).<br />
morph("ung") := % ok<br />
form:"ung" &<br />
suffix &<br />
noun(fem) &<br />
decl_class(dc_III,dc_III) &<br />
morph_subcat(syn:(head:cat:v &<br />
argstr:(subj:S & dir_obj:DO & defargs:Defargs &<br />
indir_obj:[] & prep_obj:[] & sent_compl:[])) &<br />
sem_content(eventstr:(accomplishment & event:E1 & state:E2 &<br />
eventrestr:Restr))) &<br />
argstr_refarg(dotted_type([Activity & countable(E1), State & countable(E2)],<br />
[relation(Restr,[Activity,State])])) &<br />
(<br />
objectivus(S, DO, Defargs) ; subjectivus(S, DO, Defargs)<br />
) &<br />
sem:content:no_content.<br />
228
Anhang C: Programmcode<br />
% -ung for intransitive verbs with prepositional objects<br />
morph("ung") := % ok<br />
form:"ung" &<br />
suffix &<br />
noun(fem) &<br />
decl_class(dc_III,dc_III) &<br />
morph_subcat(syn:(head:cat:v &<br />
argstr:(subj:sem_content(SubjSem) & dir_obj:[] & indir_obj:[] &<br />
prep_obj:(PO & ~ elist) &<br />
sent_compl:[])) &<br />
sem_content(eventstr:(accomplishment & event:E1 & state:E2 &<br />
eventrestr:Restr) )) &<br />
argstr_or<strong>der</strong>([PO,DefArg]) &<br />
argstr_relarg(PO) &<br />
argstr_refarg(dotted_type([Activity & countable(E1), State & countable(E2)],<br />
[relation(Restr,[Activity,State])])) &<br />
defargs([DefArg & sem_content(SubjSem)]) &<br />
sem:content:no_content.<br />
morph("$") := % event nominalisation with empty affix<br />
form:"" &<br />
suffix &<br />
noun(masc) &<br />
decl_class(dc_I,dc_I) &<br />
morph_subcat(syn:(head:cat:v &<br />
argstr:(subj:sem:SubjSem & dir_obj:sem:DO_Sem &<br />
indir_obj:sem:IO_Sem &<br />
prep_obj:[] & sent_compl:[] & defargs:_Defargs)) &<br />
sem_content(eventstr:(accomplishment & event:E1 & state:E2 &<br />
eventrestr:Restr))) &<br />
argstr_refarg(dotted_type([Activity & countable(E1), State & countable(E2)],<br />
[relation(Restr,[Activity,State])])) &<br />
argstr_relarg(Rel & n(struc_case) & sem:DO_Sem) &<br />
defargs([Def1 & p(lacc,an) & sem:IO_Sem, Def2 & p(lacc,durch) & sem:SubjSem]) &<br />
argstr_or<strong>der</strong>([Rel,Def1,Def2]) &<br />
sem:content:no_content.<br />
morph("heit") :=<br />
morph("heit/keit").<br />
morph("keit") :=<br />
morph("heit/keit").<br />
morph("heit/keit") := % ok<br />
form: "heit/keit" &<br />
suffix &<br />
noun(fem) &<br />
decl_class(dc_III,dc_III) &<br />
morph_subcat(syn:head:cat:a & sem:refarg:R & sem_content(Cont)) &<br />
argstr_relarg(Arg & syn:top & sem:refarg:R) &<br />
argstr_or<strong>der</strong>([Arg]) &<br />
defargs([]) &<br />
argstr_refarg(countable(property)) &<br />
sem_content(operator:op_abstraction & scope:Cont).<br />
morph("ist") :=<br />
form: "ist" &<br />
suffix &<br />
noun(masc) &<br />
decl_class(top,top) &<br />
229
Anhang C: Programmcode<br />
morph_subcat(syn:head:noun & sem:refarg:_R & sem_content(Cont)) &<br />
argstr_relarg([]) &<br />
argstr_or<strong>der</strong>([]) &<br />
defargs([]) &<br />
argstr_refarg(countable(human)) &<br />
sem_content(Cont). %% $$ korrigieren<br />
morph("un") :=<br />
form: "un" &<br />
prefix &<br />
morph_subcat(syn:head:(adjective & cat:a) &<br />
syn:argstr:(intarg:Rel & defargs:Defargs) &<br />
sem:refarg:Ref &<br />
sem_content(Cont) &<br />
empty_morph_subcat) &<br />
argstr_refarg(Ref) &<br />
argstr_intarg(Rel) &<br />
argstr_or<strong>der</strong>(delete_elist([Rel])) &<br />
defargs(Defargs) &<br />
sem_content(operator:op_negation & scope:Cont).<br />
morph("un") :=<br />
form: "un" &<br />
prefix &<br />
morph_subcat(syn:head:(noun & cat:n) &<br />
syn:argstr:(relarg:Rel & defargs:Defargs) &<br />
sem:refarg:Ref &<br />
sem_content(Cont) &<br />
empty_morph_subcat) &<br />
argstr_refarg(Ref) &<br />
argstr_relarg(Rel) &<br />
argstr_or<strong>der</strong>(delete_elist([Rel])) &<br />
defargs(Defargs) &<br />
sem_content(operator:op_negation & scope:Cont).<br />
% be- for verbs with direct and prepositional object<br />
morph("be") :=<br />
form: "be" &<br />
prefix &<br />
morph_subcat(syn:(head:cat:v &<br />
argstr:(subj:(S & sem:refarg:SubjSem) & dir_obj:sem:DO_Sem &<br />
indir_obj:[] & prep_obj:sem:PO_Sem & sent_compl:[] &<br />
defargs:Defargs)) &<br />
sem_content(Cont)) &<br />
syn:argstr:(subj:S &<br />
dir_obj:(DO & n(struc_case) & sem:PO_Sem) &<br />
prep_obj:(PO & p(acc,mit) & sem:DO_Sem) &<br />
indir_obj:[] & sent_compl:[]) &<br />
argstr_or<strong>der</strong>([S,DO,PO]) &<br />
argstr_extarg(SubjSem) &<br />
defargs(Defargs) &<br />
sem_content(Cont).<br />
% be- for verbs with only a prepositional object<br />
morph("be") :=<br />
form: "be" &<br />
prefix &<br />
morph_subcat(syn:(head:cat:v &<br />
230
Anhang C: Programmcode<br />
argstr:(subj:(S & sem:refarg:SubjSem) & dir_obj:[] &<br />
indir_obj:[] & prep_obj:sem:PO_Sem &<br />
sent_compl:[] & defargs:Defargs)) &<br />
sem_content(Cont)) &<br />
syn:argstr:(subj:S &<br />
dir_obj:(DO & n(struc_case) & sem:PO_Sem) &<br />
prep_obj:[] & indir_obj:[] & sent_compl:[] & defargs:Defargs) &<br />
argstr_or<strong>der</strong>([S,DO]) &<br />
argstr_extarg(SubjSem) &<br />
sem_content(Cont).<br />
morph("ge") :=<br />
form: "ge" &<br />
prefix &<br />
morph_subcat(syn:(Syn & head:(verb & cat:v)) &<br />
morph:Morph &<br />
sem:Sem &<br />
morph_feat(prefixable_with_ge:plus)) &<br />
syn:(Syn & head:verb_partII) &<br />
morph:Morph &<br />
sem:Sem.<br />
/***************************************************************************************************************<br />
Inflectional suffixes (after Duden (1984))<br />
****************************************************************************************************************/<br />
% nouns, S1<br />
morph("$") :=<br />
form: "" &<br />
n_infl_affix & singular & case(nom;acc;dat) &<br />
decl_class(dc_I,top).<br />
morph("s") :=<br />
form: "s" &<br />
n_infl_affix & singular & case(gen) &<br />
decl_class(dc_I,top).<br />
% nouns, S2<br />
morph("$") :=<br />
form: "" &<br />
n_infl_affix & singular & case(nom) &<br />
decl_class(dc_II,dc_III).<br />
morph("en") :=<br />
form: "en" &<br />
n_infl_affix & singular & case(acc;dat;gen) &<br />
decl_class(dc_II,dc_III).<br />
% nouns, S3<br />
morph("$") :=<br />
form: "" &<br />
n_infl_affix & singular & case(nom;acc;dat;gen) &<br />
decl_class(dc_III,~dc_IV).<br />
% nouns, P1<br />
morph("e") :=<br />
form: "e" &<br />
n_infl_affix & plural & case(acc;nom;gen) &<br />
decl_class(~dc_II,dc_I).<br />
morph("en") :=<br />
231
form: "en" &<br />
n_infl_affix & plural & case(dat) &<br />
decl_class(~dc_II,dc_I).<br />
Anhang C: Programmcode<br />
% nouns, P2<br />
morph("$") :=<br />
form: "" &<br />
n_infl_affix & plural & case(acc;nom;gen) &<br />
decl_class(~dc_II,dc_II).<br />
morph("n") :=<br />
form: "n" &<br />
n_infl_affix & plural & case(dat) &<br />
decl_class(~dc_II,dc_II).<br />
% nouns, P3<br />
morph("en") :=<br />
form: "en" &<br />
n_infl_affix & plural & case(acc;nom;dat;gen) &<br />
decl_class(top,dc_III).<br />
morph("n") :=<br />
form: "n" &<br />
n_infl_affix & plural & case(acc;nom;dat;gen) &<br />
decl_class(top,dc_III).<br />
% nouns, P4<br />
morph("er") :=<br />
form: "er" &<br />
n_infl_affix & plural & case(acc;nom;gen) &<br />
decl_class(dc_I,dc_IV).<br />
morph("ern") :=<br />
form: "ern" &<br />
n_infl_affix & plural & case(dat) &<br />
decl_class(dc_I,dc_IV).<br />
% nouns, P5<br />
morph("s") :=<br />
form: "s" &<br />
n_infl_affix & plural & case(acc;nom;gen;dat) &<br />
decl_class(~dc_II,dc_V).<br />
% verb inflectional affixes<br />
morph("e") :=<br />
form: "e-1" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:((pers:first & num:sg & tense:pres & mood:ind ) ;<br />
(pers:(first;third) & num:sg & tense:pres & mood:subjI) ;<br />
(pers:(first;third) & num:sg & tense:pret)).<br />
morph("st") :=<br />
form: "st-1" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:second & num:sg & mood:(ind;subjII)).<br />
morph("est") :=<br />
form: "est-1" &<br />
232
Anhang C: Programmcode<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:second & num:sg & mood:(ind ; subjII)).<br />
morph("et") :=<br />
form: "et-1" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(tense:pres & mood:ind &<br />
((pers:second & num:pl) ; (pers:third & num:sg))).<br />
morph("t") :=<br />
form: "t-1" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(tense:pres & mood:ind &<br />
((pers:second & num:pl) ; (pers:third & num:sg))).<br />
morph("et") :=<br />
form: "et-2" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:second & num:pl & tense:pret).<br />
morph("est") :=<br />
form: "est-2" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:second & num:sg & tense:pres & mood:subjI).<br />
morph("et") :=<br />
form: "et-3" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:second & num:pl & tense:pres & mood:subjI).<br />
morph("$") :=<br />
form: "$-1" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:(first;third) & num:sg & tense:pret).<br />
morph("en") :=<br />
form: "en-1" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:(first;third) & num:pl).<br />
morph("n") :=<br />
form: "n-1" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(pers:(first;third) & num:pl).<br />
morph("$") :=<br />
form: "$-2" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(tense:pres & mood:(ind;subjI)).<br />
morph("et") :=<br />
form: "et-4" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(tense:pret & mood:(ind;subjII)).<br />
morph("t") :=<br />
form: "t-2" &<br />
v_infl_affix(verb_infl) &<br />
syn:head:(tense:pret & mood:(ind;subjII)).<br />
morph("en") :=<br />
233
form: "en-2" &<br />
v_infl_affix(verb_inf_base).<br />
morph("n") :=<br />
form: "n-2" &<br />
v_infl_affix(verb_inf_base).<br />
morph("end") :=<br />
form: "end-1" & v_infl_affix(verb_partI).<br />
morph("nd") :=<br />
form: "nd-1" & v_infl_affix(verb_partI).<br />
morph("et") :=<br />
form: "et-5" & v_infl_affix(verb_partII).<br />
morph("t") :=<br />
form: "t-3" & v_infl_affix(verb_partII).<br />
morph("$") :=<br />
form: "$-3" & v_infl_affix(verb_imp & num:sg).<br />
morph("e") :=<br />
form: "e-2" & v_infl_affix(verb_imp & num:sg).<br />
morph("et") :=<br />
form: "et-6" & v_infl_affix(verb_imp & num:pl).<br />
morph("t") :=<br />
form: "t-4" & v_infl_affix(verb_imp & num:pl).<br />
% Linking morphemes<br />
morph("$") :=<br />
linking_morph.<br />
morph("s") :=<br />
linking_morph.<br />
morph("er") :=<br />
linking_morph.<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Semantics<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
sem("Bibliothek") :=<br />
argstr_refarg(<br />
dotted_type([countable(institution) & Inst & no_subconcepts,<br />
countable(building) & Building & no_subconcepts,<br />
group_of(human) & Staff & no_subconcepts,<br />
group_of(book & Book) & Collection & no_subconcepts],<br />
[relation(substratum_for,<br />
[role(substratum,Building),<br />
role(top,Inst)]),<br />
relation(work_for,<br />
234
Anhang C: Programmcode<br />
[role(worker,Staff),<br />
role(organisation,Inst)]),<br />
relation(exhibits,<br />
[role(exhibiter,Inst),<br />
role(exhibited,Collection)])<br />
] )) &<br />
purpose_relation(<br />
lend,<br />
[role(len<strong>der</strong>,Staff),role(lended_thing,countable(Book))],<br />
[Book]).<br />
sem("Museum") :=<br />
argstr_refarg(<br />
dotted_type([countable(institution) & Inst & no_subconcepts,<br />
countable(building) & Building & no_subconcepts,<br />
group_of(human) & Staff & no_subconcepts,<br />
group_of(physical_entity & ExhibitedThing) & Collection &<br />
no_subconcepts<br />
],<br />
[relation(contains,[Building,Inst]),<br />
relation(work_for,[Staff,Inst]),<br />
relation(exhibits,[Inst,Collection]) ] )) &<br />
purpose_relation(<br />
exhibits,<br />
[role(exhibiter,Inst), role(exhibited,countable(ExhibitedThing))],<br />
[ExhibitedThing]).<br />
sem("Fabrik") :=<br />
argstr_refarg(<br />
dotted_type([countable(factory) & Building & no_subconcepts,<br />
group_of(human) & Staff & no_subconcepts],<br />
[relation(work_in,<br />
[Who & role(worker,Staff),role(location,Building)])])) &<br />
purpose_relation(<br />
produce,<br />
[Who, role(produced, simple_type(physical_entity) & Produced)],<br />
[Produced] ).<br />
sem("Buch") :=<br />
argstr_refarg(<br />
dotted_type([countable(book) & Book & no_subconcepts,<br />
uncountable(text) & Text & no_subconcepts],<br />
[relation(substratum_for, [Book,Text])] )) &<br />
purpose_relation(<br />
read,<br />
[role(agent,countable(human)), role(theme,Text)],<br />
[]).<br />
sem("Messer") :=<br />
argstr_refarg(countable(knife) & Tool) &<br />
purpose_relation(<br />
cut,<br />
[role(agent,countable(human)),<br />
role(patient,simple_type(physical_entity & physical_state:soft) & What),<br />
role(instrument,Tool)],<br />
[What] ).<br />
235
Anhang C: Programmcode<br />
sem("Sohn",OfWhom) :=<br />
argstr_refarg(countable(human) & Who & no_subconcepts) &<br />
state(relation(son_of,[Who,OfWhom])).<br />
sem("Fan",OfWhat) :=<br />
argstr_refarg(countable(human) & Who & no_subconcepts) &<br />
state(relation(fan_of,[Who,OfWhat])).<br />
sem("Stahl") :=<br />
argstr_refarg(uncountable(steel & physical_state:hard) & no_subconcepts) &<br />
sem:content:no_content.<br />
sem("Wasser") :=<br />
argstr_refarg(uncountable(water) & no_subconcepts) &<br />
sem:content:no_content.<br />
sem("Brot") :=<br />
argstr_refarg(<br />
dotted_type(<br />
[Ind & countable(bread) & no_subconcepts,<br />
Mass & uncountable(bread) & no_subconcepts],<br />
[relation(made_of,[Ind,Mass])])) &<br />
sem:content:no_content.<br />
sem("Tasse") :=<br />
argstr_refarg(countable(cup) & Cup & no_subconcepts) &<br />
purpose_relation(<br />
drink,<br />
[role(agent,countable(human)),<br />
role(theme,uncountable(liquid) & What),<br />
role(instrument,Cup)],<br />
[What] ).<br />
sem("Horn") :=<br />
argstr_refarg(countable(musical_instrument) & no_subconcepts) &<br />
sem:content:no_content.<br />
sem("Streik") :=<br />
argstr_refarg(countable(event) & no_subconcepts). % $$<br />
sem("frei") :=<br />
argstr_refarg(countable(animate_ind) & Who) &<br />
state(relation(free,[Who])).<br />
sem("schoen") :=<br />
argstr_refarg(countable(physical_entity) & Who) &<br />
state(relation(beautiful,[Who])).<br />
sem("rett",Ag,Th,Inst) :=<br />
transition_event(<br />
accomplishment,<br />
E1 & activity &<br />
236
Anhang C: Programmcode<br />
event(rescue,[role(agent,Ag), R & role(theme,Th), role(instrument,Inst)]),<br />
relation(rescued,[R]),<br />
event_sequence,<br />
E1).<br />
sem("bau",Ag,Th,Mat) :=<br />
transition_event(<br />
accomplishment,<br />
E1 & activity &<br />
event(build,[role(agent,Ag), role(top,Mat)]),<br />
relation(exists,[role(theme,Th)]),<br />
event_sequence,<br />
E1).<br />
sem("renovier",Ag,Th) :=<br />
transition_event(<br />
accomplishment,<br />
E1 & activity &<br />
event(renovate,[role(agent,Ag), Theme & role(theme,Th)]),<br />
relation(renovated,[Theme]),<br />
event_sequence,<br />
E1).<br />
sem("pruef",Ag,Th,Inst) :=<br />
transition_event(<br />
accomplishment,<br />
E1 & activity &<br />
event(check,[role(agent,Ag),<br />
R & role(theme,Th),<br />
role(instrument,Inst)]),<br />
relation(checked,[R]),<br />
event_sequence,<br />
E1).<br />
sem("verkauf",Ag,Th,Goal) :=<br />
transition_event(<br />
accomplishment,<br />
E1 & activity &<br />
event(sell,[role(agent,Ag),<br />
What & role(theme,Th),<br />
ToWhom & role(goal,Goal)]),<br />
relation(possesses,[ToWhom,What]),<br />
event_sequence,<br />
E1).<br />
sem("arbeit",Ag) :=<br />
process(work,[role(worker,Ag)]).<br />
sem("staun",Ag,Th) :=<br />
state(relation(to_be_astonished,[role(experiencer,Ag),role(theme,Th)]) ).<br />
sem("bohr",Ag,Th,Inst,Loc) :=<br />
transition_event(<br />
accomplishment,<br />
E1 & activity &<br />
event(drill,[role(agent,Ag),<br />
R & role(theme,Th),<br />
237
sem("giess") :=<br />
sem:semantics.<br />
Anhang C: Programmcode<br />
role(instrument,Inst)]),<br />
relation(exists,[R,Loc]),<br />
event_sequence,<br />
E1).<br />
sem("hack",Ag,Th,Inst) :=<br />
process(hack,[role(agent,Ag), role(theme,Th), role(instrument,Inst)]).<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Concepts<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
concept(entity) -> entity.<br />
concept(knife & Knife) :=<br />
Knife &<br />
physical_state: hard &<br />
consists_of: [Material & uncountable(metal)] &<br />
has_parts: [individual(blade)] &<br />
subconcepts: [Material].<br />
concept(temporal & Temporal) :=<br />
Temporal &<br />
type_of(Temporal) &<br />
takes_place_at: (Place & individual(place)) &<br />
subconcepts: [Place].<br />
concept(entity & Entity) :=<br />
Entity &<br />
subconcepts: [].<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Principles<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
/***************************************************************************************************************<br />
head-feature-inheritance<br />
****************************************************************************************************************/<br />
unified_head_features(HF) :=<br />
syn_head_features(HF) &<br />
morph_head_features(HF).<br />
syn_head_features([syn:head:H]) := syn:head:H.<br />
syn_head_features([syn:head:H, syn:head:H]) := syn:head:H.<br />
morph_head_features([morph:mhead:H]) := morph:mhead:H.<br />
morph_head_features([morph:mhead:H, morph:mhead:H]) := morph:mhead:H.<br />
238
* Commented out because of the danger of loops<br />
syn_head_features([]) := top.<br />
syn_head_features([syn:head:H|Rest]) :=<br />
syn:head:H & syn_head_features(Rest).<br />
Anhang C: Programmcode<br />
morph_head_features([]) := top.<br />
morph_head_features([morph:mhead:H|Rest]) :=<br />
morph:mhead:H & morph_head_features(Rest).<br />
*/<br />
/***************************************************************************************************************<br />
morph_subcat_principle(Affix,Stem):<br />
checks whether Stem is morphologically subcategorised by Affix and<br />
returns the semantics and argument structure of the affix<br />
****************************************************************************************************************/<br />
morph_subcat_principle( morph:msubcat:needs:Stem & syn:argstr:AffixSC & sem:Sem,<br />
Stem) :=<br />
syn:argstr:AffixSC &<br />
morph:msubcat:needs:[] &<br />
sem:Sem.<br />
/***************************************************************************************************************<br />
selector functions<br />
****************************************************************************************************************/<br />
syn_head(syn:head:Head) :=<br />
Head.<br />
roles_of_event(event:roles:Roles) :=<br />
Roles.<br />
semantics(sem:Sem) :=<br />
sem:Sem.<br />
infl_semantics(sem:Sem,_) :=<br />
sem:Sem.<br />
type_concept(simple_type & Simple_type & type:Type) :=<br />
Simple_type &<br />
type: concept(Type).<br />
type_concept(dotted_type & types:TypeList) :=<br />
member(Simple_type & type:Type, TypeList) &<br />
Simple_type & type: concept(Type).<br />
/***************************************************************************************************************<br />
****************************************************************************************************************/<br />
% for <strong>der</strong>ivation with -ung:<br />
subjectivus(sem:SubjSem, _DO, _Defargs) :=<br />
argstr_relarg(Rel & sem:SubjSem) &<br />
argstr_or<strong>der</strong>([Rel]) &<br />
defargs([]).<br />
% Realisation of default arguments sounds odd:<br />
% "die Überprüfung <strong>der</strong> Beamten mit dem Meßgerät ..."<br />
% with the intended reading "die Beamten prüfen ...<br />
239
Anhang C: Programmcode<br />
objectivus(sem:SubjSem, DO, Defargs) :=<br />
argstr_relarg(DO) &<br />
argstr_or<strong>der</strong>(append(delete_elist([DO]),[Subj])) &<br />
defargs(append(Defargs,[Subj & sem:SubjSem])).<br />
/***************************************************************************************************************<br />
agent_instrument: construct a dotted type for the agent/instrument alternation<br />
****************************************************************************************************************/<br />
agent_instrument(sem:content:eventstr:EventStr, _S, DO, _DefArgs) :=<br />
sem:refarg:types:[agent_thetarole(EventStr), instrument_thetarole(EventStr)] &<br />
sem_content(operator:op_possibility & scope:eventstr:EventStr) &<br />
argstr_relarg(DO) &<br />
argstr_or<strong>der</strong>(delete_elist([DO])) &<br />
defargs([]).<br />
% accomplishment verb with agent-role alone<br />
agent_instrument(sem:content:eventstr:EventStr, _S, DO, _DefArgs) :=<br />
no_instrument_thetarole(roles_of_event(EventStr)) &<br />
argstr_refarg(agent_thetarole(EventStr)) &<br />
sem_content(operator:op_possibility & scope:eventstr:EventStr) &<br />
argstr_relarg(DO) &<br />
argstr_or<strong>der</strong>(delete_elist([DO])) &<br />
defargs([]).<br />
% process verb<br />
agent_instrument(sem:content:eventstr:(activity_eventstr & ~accomplishment &<br />
~ achievement & EventStr),<br />
_S, DO, _DefArgs) :=<br />
argstr_refarg(agent_thetarole(EventStr)) &<br />
sem_content(operator:op_possibility & scope:eventstr:EventStr) &<br />
argstr_relarg(DO) &<br />
argstr_or<strong>der</strong>(delete_elist([DO])) &<br />
defargs([]).<br />
process_or_accomplishment_verb(sem_content(eventstr:(activity_eventstr & ~achievement))) :=<br />
top.<br />
%<br />
% agent_thetarole: check the event structure for the presence of an agent subject<br />
%<br />
%agent_thetarole(accomplishment & event:roles:Roles) :=<br />
% member(role:agent & sel_restr:Type, Roles) &<br />
% Type.<br />
agent_thetarole(activity_eventstr & event:roles:Roles) :=<br />
member(role:agent & sel_restr:Type, Roles) &<br />
Type.<br />
%<br />
% instrument_thetarole: check the event structure for the presence of an instrument<br />
%<br />
instrument_thetarole(activity_eventstr & event:roles:Roles) :=<br />
member(role:instrument & sel_restr:Type, Roles) &<br />
Type.<br />
experiencer_thetarole(achievement & event:roles:Roles) :=<br />
240
Anhang C: Programmcode<br />
member(role:experiencer & sel_restr:Type, Roles) &<br />
Type.<br />
no_instrument_thetarole([]) :=<br />
top.<br />
no_instrument_thetarole([role: ~instrument|RestRoles]) :=<br />
no_instrument_thetarole(RestRoles).<br />
% return non-deterministically a role of the given event structure<br />
a_role_in_eventstr(activity_eventstr & event:roles:Roles) :=<br />
member(sel_restr:Type, Roles) &<br />
Type.<br />
/***************************************************************************************************************<br />
affix_or<strong>der</strong>_constraint<br />
****************************************************************************************************************/<br />
affix_or<strong>der</strong>_constraint(top, top) :=<br />
top.<br />
affix_prece<strong>des</strong>_star(Head1,Head2) :=<br />
affix_prece<strong>des</strong>(Head1,Head2).<br />
affix_prece<strong>des</strong>_star(Head1,Head2) :=<br />
affix_prece<strong>des</strong>(Head1,Head) &<br />
affix_prece<strong>des</strong>(Head,Head2).<br />
% it's necessary to code this in Prolog<br />
affix_prece<strong>des</strong>(cat:cat, tense:tense) := top.<br />
affix_prece<strong>des</strong>(cat:cat, degree:degree) := top.<br />
affix_prece<strong>des</strong>(degree:degree, case:case) := top.<br />
affix_prece<strong>des</strong>(tense:tense, mood:mood) := top.<br />
affix_prece<strong>des</strong>(mood:mood, num:num) := top.<br />
affix_prece<strong>des</strong>(num:num, pers:pers) := top.<br />
affix_prece<strong>des</strong>(pers:pers, case:case) := top.<br />
/***************************************************************************************************************<br />
SYN:HEAD:-maximality: check whether the syn:head:-features - depending<br />
on the category - are complete<br />
****************************************************************************************************************/<br />
% nouns<br />
type_maximal(Head) :=<br />
value_instantiated(cat:n &<br />
num:(sg;pl) &<br />
case:(nom;acc;gen;dat) &<br />
gen<strong>der</strong>:(fem;masc;neut),<br />
Head).<br />
% inflected verbs<br />
type_maximal(Head) :=<br />
value_instantiated(cat:v &<br />
num:(sg;pl) &<br />
pers:(first;second;third) &<br />
tense:(pres;pret) &<br />
mood:(ind;imp;subjI;subjII),<br />
Head).<br />
% infinitive verbs<br />
type_maximal(Head) :=<br />
241
Anhang C: Programmcode<br />
value_instantiated(verb_inf_base & cat:v, Head).<br />
% verb particple<br />
type_maximal(Head) :=<br />
value_instantiated(verb_part & cat:v, Head).<br />
% verb imperative forms<br />
type_maximal(Head) :=<br />
value_instantiated(verb_imp & cat:v & num:(sg;pl), Head).<br />
% adjectives<br />
type_maximal(Head) :=<br />
value_instantiated(cat:a, Head).<br />
% last resort<br />
%type_maximal(top) := top.<br />
/***************************************************************************************************************<br />
Principles concerning argument structure<br />
****************************************************************************************************************/<br />
argument_inheritance(syn:argstr:Subcat) :=<br />
syn:argstr:Subcat.<br />
% argument realisation of infinitival verb forms (participles, infinitives ...)<br />
% => do nothing<br />
argument_realisation(PSA & argstr_extarg(Ext) & syn:head:verb_infinitive) :=<br />
argstr_extarg(Ext) &<br />
type_shift_args_to_phrase(PSA) &<br />
semantics(PSA).<br />
% argument realisation of inflected verbs<br />
% => type shift the external argument<br />
argument_realisation(PSA & argstr_extarg(Ext) & syn:head:(verb & num:Num)) :=<br />
argstr_extarg(type_shift(Num,Ext)) &<br />
type_shift_args_to_phrase(PSA) &<br />
semantics(PSA).<br />
% argument realisation of singular nouns with simple or dotted type<br />
% => type shift the referential argument<br />
argument_realisation(PSA & argstr_refarg(Ref & simple_or_dotted_type) &<br />
syn:head:(noun & cat:n & num:sg) &<br />
sem_content(Cont) ) :=<br />
argstr_refarg(type_shift(sg,Ref)) &<br />
type_shift_args_to_phrase(PSA) &<br />
sem_content(Cont).<br />
% argument realisation of singular adj with simple or dotted type<br />
% => type shift the referential argument<br />
argument_realisation(PSA & argstr_refarg(Ref & simple_or_dotted_type) &<br />
syn:head:(adjective & cat:a & num:sg) &<br />
sem_content(Cont) ) :=<br />
type_shift_args_to_phrase(PSA) &<br />
argstr_refarg(type_shift(sg,Ref)) &<br />
sem_content(Cont).<br />
242
Anhang C: Programmcode<br />
% argument realisation of plural nominals with simple type or dotted type<br />
% => type shift the referential argument<br />
argument_realisation(PSA & syn:head:(nominal & num:pl) &<br />
argstr_refarg(Ref) & sem_content(Cont) ) :=<br />
type_shift_args_to_phrase(PSA) &<br />
argstr_refarg(type_shift(pl,Ref)) &<br />
sem_content(Cont).<br />
/***************************************************************************************************************<br />
type_shift_args_to_phrase/1: shift the type of all arguments to phrase and<br />
realise their cases and categories<br />
****************************************************************************************************************/<br />
% nouns<br />
type_shift_args_to_phrase(syn:argstr:(AS & noun_argstr & relarg:Rel & defargs:DA)) :=<br />
syn:argstr:(AS &<br />
relarg:realize_relarg(Rel) &<br />
defargs:realize_default_arguments(DA)<br />
).<br />
% adjectives<br />
type_shift_args_to_phrase(syn:argstr:(AS & adj_argstr & intarg:Int & defargs:DA)) :=<br />
syn:argstr:(AS &<br />
intarg:realize_intarg(Int) &<br />
defargs:realize_default_arguments(DA)<br />
).<br />
% verbs<br />
type_shift_args_to_phrase(syn:argstr:(AS & verbal_argstr & subj:Subj & dir_obj:DO &<br />
indir_obj:IO & prep_obj:PO & sent_compl:SC &<br />
defargs:DefArgs )) :=<br />
syn:argstr:(<br />
AS &<br />
subj:realize_subject(Subj) &<br />
dir_obj:realize_direct_object(DO) &<br />
indir_obj:realize_indirect_object(IO) &<br />
prep_obj:realize_prep_object(PO) &<br />
sent_compl:realize_sent_compl(SC) &<br />
defargs:realize_default_arguments(DefArgs)<br />
).<br />
realize_relarg(Rel) := phrase & Rel & syn:head:(noun & cat: n & case:sgen).<br />
realize_relarg(Rel) := phrase & Rel & p(ldat,von).<br />
%realize_relarg(Rel) := phrase & Rel & p(lacc,durch).<br />
realize_relarg([]) := [].<br />
realize_intarg(Int) := phrase & Int.<br />
realize_intarg([]) := [].<br />
realize_subject(Subj & syn:head:(cat:n & case:struc_case)) :=<br />
phrase & Subj & syn:head:case:snom.<br />
realize_subject([]) := [].<br />
realize_direct_object(DirObj & syn:head:(cat:n & case:struc_case)) :=<br />
phrase & DirObj & syn:head:case:sacc.<br />
realize_direct_object([]) := [].<br />
realize_indirect_object(InDirObj) := phrase & InDirObj.<br />
realize_indirect_object([]) := [].<br />
243
ealize_prep_object(PO) := phrase & PO.<br />
realize_prep_object([]) := [].<br />
realize_sent_compl(SC) := phrase & SC.<br />
realize_sent_compl([]) := [].<br />
Anhang C: Programmcode<br />
% agentive default arg may be realised as a PP<br />
realize_default_arguments([]) := top.<br />
realize_default_arguments([phrase]) := top.<br />
realize_default_arguments([phrase,phrase]) := top.<br />
realize_default_arguments([phrase,phrase,phrase]) := top.<br />
%realize_default_arguments([]) :=<br />
% top.<br />
%realize_default_arguments([phrase|Rest]) :=<br />
% realize_default_arguments(Rest).<br />
/***************************************************************************************************************<br />
type_shift(Number,SimpleOrDottedType): shift a type to a group type.<br />
****************************************************************************************************************/<br />
type_shift(sg, Type & individual & is_group:minus) :=<br />
Type.<br />
type_shift(sg, Type & uncountable) :=<br />
Type.<br />
type_shift(sg, Type & group & is_group:plus) :=<br />
% value_instantiated(group_of:top, Type) &<br />
Type & group_of:individual.<br />
type_shift(sg, dotted_type & type_rel:TR & types:Types) :=<br />
dotted_type &<br />
type_rel:TR &<br />
types:type_shift_all_subtypes_sg(Types).<br />
% simple type, countable, plural<br />
type_shift(pl, Ind & is_group:minus & type:T) :=<br />
Ind &<br />
group_of:(individual & type:T).<br />
% simple type, group, plural<br />
type_shift(pl, Group & group & is_group:plus & type:T) :=<br />
Group &<br />
group_of:(type:T & group_of:(individual & type:T)).<br />
% dotted type, plural<br />
type_shift(pl, dotted_type & type_rel:TR & types:Types) :=<br />
dotted_type &<br />
type_rel:TR &<br />
types:type_shift_all_subtypes_pl(Types).<br />
type_shift_all_subtypes_sg([]) := [].<br />
type_shift_all_subtypes_sg([Type|Types]) :=<br />
[type_shift(sg,Type)|type_shift_all_subtypes_sg(Types)].<br />
244
Anhang C: Programmcode<br />
%type_shift_all_subtypes_sg([T]) := [simple_type & type_shift(sg,T)].<br />
%type_shift_all_subtypes_sg([T1,T2]) :=<br />
% [simple_type & type_shift(sg,T1),simple_type & type_shift(sg,T2)].<br />
%type_shift_all_subtypes_pl([T]) := [simple_type & type_shift(pl,T)].<br />
%type_shift_all_subtypes_pl([T1,T2]) :=<br />
% [simple_type & type_shift(pl,T1),simple_type & type_shift(pl,T2)].<br />
type_shift_all_subtypes_pl([]) := [].<br />
type_shift_all_subtypes_pl([Type|Types]) :=<br />
[type_shift(pl,Type)|type_shift_all_subtypes_pl(Types)].<br />
% ignore uncountable in plural<br />
type_shift_all_subtypes_pl([uncountable|Types]) :=<br />
type_shift_all_subtypes_pl(Types).<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Lexicon templates<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
noun(Gen<strong>der</strong>) := syn:head:(noun & cat:n & gen<strong>der</strong>:Gen<strong>der</strong>).<br />
verb(VForm) := syn:head:(verb & VForm & cat:v).<br />
adj := syn:head:(adjective & cat:a).<br />
n(Case) := syn:head:(noun & cat:n & case: Case).<br />
p(Case,PForm) := syn:head:(cat:p & pform: PForm & dp_case: Case).<br />
n_infl_affix := infl_affix & syn:head:cat:n.<br />
v_infl_affix(VType) := infl_affix & syn:head:(cat:v & VType).<br />
plural := syn:head:num:pl.<br />
singular := syn:head:num:sg.<br />
case(Case) := syn:head:case:Case.<br />
% Verb stems for irregular verbs<br />
verbstem(0) :=<br />
verb(top).<br />
verbstem(1) :=<br />
verb(top) ;<br />
verb(num:pl & tense:pres) ;<br />
verb(tense:pres & mood:subjI).<br />
verbstem(2) :=<br />
verb(pers:first & num:sg & tense:pres & mood:ind) &<br />
morph_feat(complete:minus).<br />
verbstem(3) :=<br />
verb(pers:(second;third) & num:sg & tense:pres & mood:ind) &<br />
morph_feat(complete:minus).<br />
verbstem(4) :=<br />
verb(tense:pret & mood:ind).<br />
verbstem(5) :=<br />
verb(tense:pret & mood:subjII).<br />
verbstem(6) :=<br />
verb(verb_partII).<br />
245
verbstem(7) :=<br />
verb(verb_imp & mood:imp).<br />
Anhang C: Programmcode<br />
decl_class(DC_sg,DC_pl) :=<br />
morph:mhead:decl_class:(decl_class_sg: DC_sg & decl_class_pl: DC_pl).<br />
morph_feat(Morph_feat) :=<br />
morph:mfeat:Morph_feat.<br />
prefixable_with_ge(Bool) :=<br />
morph:mfeat:prefixable_with_ge:Bool.<br />
morph_subcat(MorphObject) :=<br />
morph:msubcat:needs:MorphObject.<br />
simple_type(OfType) :=<br />
simple_type & type:OfType.<br />
individual(OfType) :=<br />
individual & type:OfType.<br />
countable(OfType) :=<br />
countable & type:OfType & is_group:minus.<br />
uncountable(OfType) :=<br />
uncountable & type:OfType.<br />
group_of(Type) :=<br />
group & type:Type & group_of:type:Type & is_group:plus.<br />
dotted_type(Types,Type_Relations) :=<br />
types: Types & type_rel: Type_Relations.<br />
transition_event(Type,E1,E2,EventRestr,EventHead) :=<br />
sem_content(eventstr:(Type & event:(activity & E1) & state:(state & E2) &<br />
eventrestr:EventRestr & eventhead:EventHead)).<br />
process(Type,Roles) :=<br />
sem_content(eventstr:event:(activity & event(Type,Roles))).<br />
state(Rel) :=<br />
sem_content(eventstr:state:(state & Rel)).<br />
relation(RelConst,RelArgs) :=<br />
relconst:RelConst & relargs:RelArgs.<br />
accessible_relation(RelConst,RelArgs,AccessibleArgs) :=<br />
relation(RelConst,RelArgs) &<br />
accessible_args:AccessibleArgs.<br />
purpose_relation(RelConst,RelArgs,_AccessibleArgs) :=<br />
sem:content:(operator:op_possibility &<br />
scope:(lexical_content &<br />
eventstr:event:event(RelConst,RelArgs)<br />
)<br />
).<br />
246
event(Type,Roles) :=<br />
event_type:Type &<br />
roles:Roles &<br />
accessible_roles: listcopy(Roles).<br />
Anhang C: Programmcode<br />
telic_roles(sem_content(operator:op_possibility &<br />
scope:(lexical_content &<br />
eventstr:event:roles:Roles ))) :=<br />
Roles.<br />
sem_content(Content) :=<br />
sem:content:Content.<br />
has_part(Part) :=<br />
relation(has_part,[Part]).<br />
consists_of(Material) :=<br />
relation(consists_of,[Material]).<br />
container_for(What) :=<br />
relation(container_for,[What]).<br />
no_subconcepts := type:subconcepts:[].<br />
unknown(_) := "$unknown$".<br />
/***************************************************************************************************************<br />
subcategorisation<br />
****************************************************************************************************************/<br />
argstr([Subj,DirObj,IndirObj,PrepObj,SentCompl]) :=<br />
argstr_subj(Subj) &<br />
argstr_dirobj(DirObj) &<br />
argstr_indirobj(IndirObj) &<br />
argstr_prepobj(PrepObj) &<br />
argstr_sentcompl(SentCompl).<br />
argstr_refarg(Type) := sem:refarg:Type.<br />
argstr_extarg(Type) := sem:extarg:Type.<br />
argstr_subj(Sign & sem:refarg:Sem) := syn:argstr:subj:Sign & sem:extarg:Sem.<br />
argstr_dirobj(Sign) := syn:argstr:dir_obj:Sign.<br />
argstr_indirobj(Sign) := syn:argstr:indir_obj:Sign.<br />
argstr_prepobj(Sign) := syn:argstr:prep_obj:Sign.<br />
argstr_sentcompl(Sign) := syn:argstr:sent_compl:Sign.<br />
argstr_relarg(Sign) := syn:argstr:(noun_argstr & relarg:Sign).<br />
argstr_intarg(Sign) := syn:argstr:(adj_argstr & intarg:Sign).<br />
argstr_or<strong>der</strong>(Or<strong>der</strong>List) := syn:argstr:argstr_or<strong>der</strong>:Or<strong>der</strong>List.<br />
defargs(Arglist) := syn:argstr:defargs:Arglist.<br />
adjuncts(Adjuncts) := syn:argstr:adjuncts:Adjuncts.<br />
247
Anhang C: Programmcode<br />
no_arguments := argstr_relarg([]) & argstr_or<strong>der</strong>([]) & defargs([]).<br />
empty_morph_subcat := morph:msubcat:needs:[].<br />
/***************************************************************************************************************<br />
Theta roles<br />
****************************************************************************************************************/<br />
role(Thetarole,RoleArg) :=<br />
role:Thetarole &<br />
sel_restr:RoleArg.<br />
agent(Type) := role(agent, Type).<br />
patient(Type) := role(patient, Type).<br />
instrument(Type) := role(instrument, Type).<br />
experiencer(Type) := role(experiencer, Type).<br />
goal(Type) := role(goal, Type).<br />
source(Type) := role(source, Type).<br />
theme(Type) := role(theme, Type).<br />
location(Type) := role(location, Type).<br />
beneficiary(Type) := role(beneficiary, Type).<br />
/***************************************************************************************************************<br />
****************************************************************************************************************<br />
Testing<br />
****************************************************************************************************************<br />
****************************************************************************************************************/<br />
% Note: due to the incomplete proof strategy of CUF the empty inflectional<br />
% categories are explicitly marked with "$"<br />
% main test predicate<br />
test(No) :=<br />
cat(syntactic_atom &<br />
syn:head:cat:cat &<br />
syn:argstr:argstr &<br />
sem:content:content,<br />
testword(No)).<br />
% inflection<br />
testword(1) := ["bibliothek","$"].<br />
testword(2) := ["bibliothek","en"].<br />
testword(3) := ["buch","$"].<br />
testword(4) := ["buech","er"].<br />
testword(5) := ["buech","ern"].<br />
testword(6) := ["rett","en"].<br />
testword(7) := ["giess","en"].<br />
testword(8) := ["staun","en"].<br />
testword(9) := ["rett","$","en"].<br />
testword(10) := ["rett","et","en"].<br />
testword(11) := ["rett","et","est"].<br />
testword(12) := ["messer","$"].<br />
testword(13) := ["sohn","$"].<br />
testword(14) := ["soehn","e"].<br />
testword(15) := ["messer","n"].<br />
testword(16) := ["fabrik","en"].<br />
testword(17) := ["arbeit","$","en"].<br />
testword(18) := ["renovier","t"].<br />
testword(19) := ["ge","renovier","t"]. % *<br />
testword(20) := ["ge","rett","et"].<br />
248
testword(21) := ["rett","end"].<br />
testword(22) := ["fan","$"].<br />
testword(23) := ["fan","s"].<br />
testword(24) := ["ge","pruef","t"].<br />
testword(25) := ["brot","$"].<br />
testword(26) := ["brot","e"].<br />
testword(27) := ["wasser","$"].<br />
testword(28) := ["fabrik","$"].<br />
testword(29) := ["museum","$"].<br />
testword(50) := ["frei"].<br />
testword(51) := ["schoen"].<br />
Anhang C: Programmcode<br />
% <strong>der</strong>ivation: suffixation<br />
testword(100) := ["rett","bar"].<br />
testword(101) := ["rett","ung","$"].<br />
testword(102) := ["rett","ung","en"].<br />
testword(103) := ["frei","ung","$"]. % * [-ung subkategorisiert Verben]<br />
testword(104) := ["giess","ung","$"]. % * [-ung subkategorisiert trans. Verben]<br />
testword(105) := [""].<br />
testword(106) := ["frei","heit","$"].<br />
testword(107) := ["arbeit","er","$"].<br />
testword(108) := ["bohr","er","$"].<br />
testword(109) := ["pruef","er","$"].<br />
testword(110) := ["rett","er","$"].<br />
testword(111) := ["pruef","ung","$"].<br />
testword(112) := ["rett","bar","keit","$"].<br />
testword(113) := ["fall","er","$"]. % * (Lexikoneintrag fehlt)<br />
testword(114) := ["be","staun","er","$"].<br />
testword(115) := ["renovier","er","$"].<br />
testword(116) := ["renovier","bar","keit","$"].<br />
testword(117) := ["fall","bar","keit","$"]. % *<br />
testword(118) := ["renovier","ung","$"].<br />
testword(119) := ["verkauf","$","$"].<br />
testword(120) := ["horn","ist","$"].<br />
% <strong>der</strong>ivation: prefixation<br />
testword(200) := ["un","frei"].<br />
testword(201) := ["be","giess","en"].<br />
testword(202) := ["be","staun","en"].<br />
% <strong>der</strong>ivation: suffixation + prefixation<br />
testword(300) := ["be","staun","bar","keit","$"].<br />
testword(301) := ["be","staun","bar"].<br />
testword(302) := ["un","rett","bar"].<br />
testword(303) := ["un","rett","bar","keit","$"].<br />
% conversion<br />
testword(400) := ["",""].<br />
testword(401) := ["schoen","en"].<br />
% composition: NN with relational head<br />
testword(500) := ["messer","fan","$"].<br />
testword(501) := ["messer","sohn","$"]. % * because of selectional restrictions of Sohn<br />
testword(550) := ["museum","s","fan","$"].<br />
testword(551) := ["buch","fan","$"].<br />
testword(552) := ["buech","er","fan","$"].<br />
249
% relational V<br />
testword(580) := ["hack","messer","$"].<br />
Anhang C: Programmcode<br />
% composition: NN with deverbal head<br />
testword(600) := ["buech","er","pruef", "er", "$"].<br />
testword(601) := ["buch","pruef", "er", "$"].<br />
testword(602) := ["messer","pruef", "er", "$"].<br />
testword(603) := ["buch","pruef", "ung","$"].<br />
testword(604) := ["bibliothek","s","renovier","ung","$"].<br />
testword(605) := ["fabrik","verkauf","$","$"]. % has also a conceptual reading<br />
testword(606) := ["museum","s","verkauf","$","$"].<br />
% composition: NN with stereotypical relation<br />
testword(700) := ["museum","s","buch","$"].<br />
testword(701) := ["buch","museum","$"].<br />
testword(702) := ["buech","er","museum","$"].<br />
testword(703) := ["buech","er","verkauf","$","$"].<br />
testword(704) := ["buech","er","fabrik","$"]. % ok<br />
testword(705) := ["messer","fabrik","$"]. % ok<br />
testword(706) := ["brot","fabrik","$"]. % ok<br />
testword(707) := ["brot","messer","$"]. % ok<br />
testword(708) := ["fabrik","streik","$"].<br />
testword(709) := ["wasser","tasse","$"].<br />
testword(710) := ["buch","verkauf","$","$"].<br />
% composition: NN with general relation<br />
testword(800) := ["stahl","messer","$"].<br />
testword(801) := [""].<br />
testword(802) := ["museums","s","bibliothek","$"].<br />
testword(803) := ["buech","er","bibliothek","$"]. % * aus semant. Gründen<br />
testword(804) := ["stahl","bohr","er","$"].<br />
% composition & <strong>der</strong>ivation<br />
testword(900) := ["buech","er","be","staun","er","$"].<br />
% base relation<br />
testword(950) := ["schoen","tasse","$"]. % this is an artificial example<br />
% words with unknown parts<br />
testword(1000) := [unknown("schumisier"),"bar"].<br />
testword(1001) := [unknown("umleit"),"ung","$"].<br />
testword(1002) := [unknown("haendl"),"er","$"].<br />
/*<br />
% composition: N-N<br />
testword(502) := ["museum","s","kosten","$"].<br />
testword(504) := ["museum","s","streik","$"].<br />
testword(505) := ["tasse","n","museum","$"].<br />
testword(507) := ["streik","museum","$"]. % *<br />
testword(514) := ["fabrik","buch","$"].<br />
% General relations<br />
test_word(300) := ['Tasse',n,'Tisch'].<br />
250
% Composition & Derivation<br />
test_word(600) := [rett,ung,s,'Kosten'].<br />
test_word(601) := ['Kosten',rechn,ung,en].<br />
test_word(603) := ['Tisch',rechn,er].<br />
*/<br />
Anhang C: Programmcode<br />
/***************************************************************************************************************<br />
**********************************************************************************<br />
Utils<br />
Note: all normally recursive predicates like append etc. are reduced to a finite<br />
set of special cases to prevent loops<br />
**********************************************************************************<br />
****************************************************************************************************************/<br />
foreign(value_instantiated(intern,intern) -> (-extern)).<br />
foreign(value_not_instantiated(intern,intern) -> (-extern)).<br />
foreign(is_of_type(intern,intern) -> (-extern)).<br />
foreign(is_of_type_group(intern) -> (-extern)).<br />
foreign(is_of_type_individual(intern) -> (-extern)).<br />
foreign(type_of(intern) -> (-extern)).<br />
true(top) := top.<br />
split([X1,X2], [X1], [X2]) := top.<br />
split([X1,X2,X3], [X1,X2], [X3]) := top.<br />
split([X1,X2,X3], [X1], [X2,X3]) := top.<br />
split([X1,X2,X3,X4], [X1,X2,X3], [X4]) := top.<br />
split([X1,X2,X3,X4], [X1,X2], [X3,X4]) := top.<br />
split([X1,X2,X3,X4], [X1], [X2,X3,X4]) := top.<br />
split([X1,X2,X3,X4,X5], [X1], [X2,X3,X4,X5]) := top.<br />
split([X1,X2,X3,X4,X5], [X1,X2], [X3,X4,X5]) := top.<br />
split([X1,X2,X3,X4,X5], [X1,X2,X3], [X4,X5]) := top.<br />
split([X1,X2,X3,X4,X5], [X1,X2,X3,X4], [X5]) := top.<br />
split([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4,X5], [X6]) := top.<br />
split([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4], [X5,X6]) := top.<br />
split([X1,X2,X3,X4,X5,X6], [X1,X2,X3], [X4,X5,X6]) := top.<br />
split([X1,X2,X3,X4,X5,X6], [X1,X2], [X3,X4,X5,X6]) := top.<br />
split([X1,X2,X3,X4,X5,X6], [X1], [X2,X3,X4,X5,X6]) := top.<br />
split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5,X6], [X7]) := top.<br />
split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5], [X6,X7]) := top.<br />
split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4], [X5,X6,X7]) := top.<br />
split([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3], [X4,X5,X6,X7]) := top.<br />
split([X1,X2,X3,X4,X5,X6,X7], [X1,X2], [X3,X4,X5,X6,X7]) := top.<br />
split([X1,X2,X3,X4,X5,X6,X7], [X1], [X2,X3,X4,X5,X6,X7]) := top.<br />
split3([X1,X2,X3], [X1], [X2], [X3]) := top.<br />
split3([X1,X2,X3,X4], [X1], [X2], [X3,X4]) := top.<br />
split3([X1,X2,X3,X4], [X1,X2], [X3], [X4]) := top.<br />
split3([X1,X2,X3,X4,X5], [X1], [X2], [X3,X4,X5]) := top.<br />
split3([X1,X2,X3,X4,X5], [X1,X2], [X3], [X4,X5]) := top.<br />
split3([X1,X2,X3,X4,X5], [X1,X2,X3], [X4], [X5]) := top.<br />
split3([X1,X2,X3,X4,X5,X6], [X1], [X2], [X3,X4,X5,X6]) := top.<br />
251
Anhang C: Programmcode<br />
split3([X1,X2,X3,X4,X5,X6], [X1,X2], [X3], [X4,X5,X6]) := top.<br />
split3([X1,X2,X3,X4,X5,X6], [X1,X2,X3], [X4], [X5,X6]) := top.<br />
split3([X1,X2,X3,X4,X5,X6], [X1,X2,X3,X4], [X5], [X6]) := top.<br />
split3([X1,X2,X3,X4,X5,X6,X7], [X1], [X2], [X3,X4,X5,X6,X7]) := top.<br />
split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2], [X3], [X4,X5,X6,X7]) := top.<br />
split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3], [X4], [X5,X6,X7]) := top.<br />
split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4], [X5], [X6,X7]) := top.<br />
split3([X1,X2,X3,X4,X5,X6,X7], [X1,X2,X3,X4,X5], [X6], [X7]) := top.<br />
testsplit(L) := split(L,L1,L2) & [L1,L2].<br />
testsplit3(L) := split3(L,L1,L2,L3) & [L1,L2,L3].<br />
%<br />
% delete_elist(List): delete all occurences of elist from List<br />
%<br />
delete_elist([]) := [].<br />
delete_elist([[]]) := [].<br />
delete_elist([A & ~elist]) := [A].<br />
%delete_elist([]) := [].<br />
%delete_elist([elist|T]) := delete_elist(T).<br />
%delete_elist([A & ~elist|T]) := [A|delete_elist(T)].<br />
append([],L) := L.<br />
append([X],L) := [X|L].<br />
append([X,Y],L) := [X,Y|L].<br />
append([X,Y,Z],L) := [X,Y,Z|L].<br />
member(X,[X]) := top.<br />
member(X,[_,X]) := top.<br />
member(X,[X,_]) := top.<br />
member(X,[X,_,_]) := top.<br />
member(X,[_,X,_]) := top.<br />
member(X,[_,_,X]) := top.<br />
member(X,[X,_,_,_]) := top.<br />
member(X,[_,X,_,_]) := top.<br />
member(X,[_,_,X,_]) := top.<br />
member(X,[_,_,_,X]) := top.<br />
% member-predicate that returns the list without the found element X<br />
member(X,[X],[]) := top.<br />
member(X,[A1,X],[A1]) := top.<br />
member(X,[X,A1],[A1]) := top.<br />
member(X,[X,A1,A2],[A1,A2]) := top.<br />
member(X,[A1,X,A2],[A1,A2]) := top.<br />
member(X,[A1,A2,X],[A1,A2]) := top.<br />
member(X,[X,A1,A2,A3],[A1,A2,A3]) := top.<br />
member(X,[A1,X,A2,A3],[A1,A2,A3]) := top.<br />
member(X,[A1,A2,X,A3],[A1,A2,A3]) := top.<br />
member(X,[A1,A2,A3,X],[A1,A2,A3]) := top.<br />
%append([],L) := L.<br />
%append([H|T],L) := [H|append(T,L)].<br />
%member(X,[X|_]) := top.<br />
%member(X,[_|R]) := member(X,R).<br />
% create a copy of the list<br />
listcopy([]) := [].<br />
listcopy([H|T]) := [H|listcopy(T)].<br />
252