Computerlinguistik I Vorlesung im WS 2004/05

julielab.de

Computerlinguistik I Vorlesung im WS 2004/05

Computerlinguistik I

Vorlesung im WS 2007/08

Prof. Dr. Udo Hahn

Lehrstuhl für Computerlinguistik

Institut für Germanistische Sprachwissenschaft

Friedrich-Schiller-Universität Jena


Morphologie

„A writer is someone who writes, and a

stinger is something that stings. But

fingers don‘t fing, grocers don‘t groce,

haberdashers don‘t haberdash,

hammers don‘t ham, and humdingers

don‘t humding.“

Richard Lederer, Crazy English

2


Morphologische Prozesse:

Flexion - Deflexion

• Kombination von Grundformen mit

Flexionsaffixen (Kasus, Numerus, Tempus

usw.)

– Deklination

• Land: Land, Landes, Lande, Länder, Ländern

– Konjugation

• landen: lande, landest, landet, landeten , gelandet

• primär syntaktische, nur minimale semantische

Information, kein Wortartwechsel

3


Morphologische Prozesse:

Derivation - Dederivation

• Kombination von Grundformen mit

Derivationsaffixen

• Land: landen, verlanden, anlanden,

• Land: Landung, Verlandung , Anlandung

• Land: ländlich, verländlichen, Verländlichung

• modifizierende semantische Information,

häufig mit Wortartwechsel verbunden

4


Morphologische Prozesse:

Komposition - Dekomposition

• Kombination von Grundformen mit

Grundformen (mittels Fugeninfixen)

• Land: Landnahme, Landflucht, Landgang

• Land: Heimatland, Ausland, Bauland

• Land: Landesrekord, Landesverrat, Landsmann

• Land: Inlandsflug, Landesratspräsidentengattin

• starke semantische Modifikation,

Wortartwechsel

kein

5


Lexikon und Morphologie

• Vollformenlexikon

– morphologische Analyse ist ein Such-prozess

im Lexikon. Alle Flexions-, Deri-vations- und

Kompositionsvarianten sind im Lexikon mit

allen grammatikalischen Informationen explizit

spezifiziert.

6


Fragment eines

Vollformenlexikons

• lande

– KAT: verb, NUM: sg, PERS: 1, TEMP: präs, ...

• Landes

– KAT: nom, NUM: sg, KASUS: gen, GENUS:

neut, ...

• ländlicher

– KAT: adj, KOMP: pos, NUM: sg, KASUS: nom,

GENUS: mask, ...

– KAT: adj, KOMP: komp, NUM: _, KASUS: _,

GENUS: _, ...

7


Lexikon und Morphologie

• Vollformenlexikon

– morphologische Analyse ist ein Such-prozess

im Lexikon. Alle Flexions-, Deri-vations- und

Kompositionsvarianten sind im Lexikon mit

allen grammatikalischen Informationen explizit

spezifiziert.

• hoher Speicheraufwand

• sehr hoher Erstellungs- (Vollständigkeit) und

Wartungsaufwand (Konsistenz)

• stets unvollständig: Komposita, Neologismen

8


Lexikon und Morphologie

• Grundformenlexikon

– morphologische Analyse ist ein Analyseprozess,

bei dem alle Flexions-, Derivations-

und Kompositionsvarianten regelgeleitet

auf kanonische Einträge im Lexikon

zurück geführt werden. Diverse

grammatikalische Informationen werden

berechnet (abhängig vom Typ der kanonischen

Einträge).

9


Fragment eines

Grundformenlexikons

• landen

– KAT: verb, NUM: {sg,pl}, PERS: {1,2,3}, TEMP:

{präs,prät,futur}, MOD: {ind,konj}...

• Land

– KAT: nom, NUM: {sg,pl}, KASUS:

{nom,gen,dat,akk}, GENUS: neut, ...

• ländlich

– KAT: adj, KOMP: {pos,komp,super}, NUM:

{sg,pl}, KASUS: {nom,gen,dat,akk}, GENUS:

{mask,fem,neut}, ...

10


Verwendung eines

Grundformenlexikons

• landenlande

– KAT: verb, NUM: sg, PERS: 1, TEMP:

präs, MOD: ind

• Land Landes

– KAT: nom, NUM: sg, KASUS: gen, GENUS:

neut

• ländlich ländlicher

– KAT: adj, KOMP: pos, NUM: sg, KASUS: nom,

GENUS: mask

– KAT: adj, KOMP: komp, NUM:_, KASUS:_,

GENUS:_

11


Lexikon und Morphologie

• Grundformenlexikon

– morphologische Analyse ist ein Analyseprozess,

bei dem alle Flexions-, Derivations-

und Kompositionsvarianten regelgeleitet

auf kanonische Einträge im Lexikon

zurück geführt werden. Diverse

grammatikalische Informationen werden

berechnet (abhängig vom Typ der kanonischen

Einträge).

• Spezifikation morphologischer Regeln

• Berechnungsaufwand für Analyse

12


Morphologische Analyse

• Lemmatisierung

– regelgeleitete Rückführung morphologischer

Varianten auf eine kanonische Grundform im Lexikon

(ohne Berücksichtigung grammatika-lischer

Informationen)

• Wort-Parsing

– regelgeleitete Rückführung morphologischer

Varianten auf eine kanonische Grundform im Lexikon

mit simultaner Berechnung grammatika-lischer

Informationen

13


Lemmatisierung vs. Wort-Parsing

Eingabe

Töchtern

Hauses

sagte

Spiegelungen

Lemma

Tochter

Haus

sagen

Spiegelung

leichter

verlängerte

leicht

verlängert

verlängern

14


Lemmatisierung vs. Wort-Parsing

Eingabe

Lemma

morphologische

Merkmale

Wort-Parse

Töchtern Tochter Tochter [+N, +FEM, +PL, +DAT]

Hauses Haus Haus [+N, +NEU, +SG, +GEN]

sagte sagen sagen [+V, +SG, {1P,3P}, +PAST]

Spiegelungen Spiegelung [Spiegel] N

[ung] ds

[+N, +FEM, +PL, {NOM,GEN,DAT,AKK}]

leichter leicht leicht [+Adj, +POS, +MAS, +SG, +NOM]

[+Adj, +KOM]

verlängerte verlängert [ver] dp

[[lang] Adj

[er] ds

] Adj

[t] ds

[+Part, {MAS,FEM,NEU}, +SG, +NOM]

[+Part, {FEM,NEU}, +SG, +AKK]

verlängern [ver] dp

[[lang] Adj

[er] ds

] Adj

[n] ds

[+V, +SG, {1P,3P}, +PAST]

15


Flexionsmorphologie deutscher

Substantive

• Ein flektiertes Substantiv besteht aus

einer kanonischen Grundform und einer

daran angehängten Endung.

• Grundformen mit gleichem Endungsverhalten

(Flexionsparadigma) bilden

eine Flexionsklasse.

• In einem flektierten Substantiv kann die

Grundform durch Umlautung (a↔ä,

o↔ö, u↔ü) verändert sein.

16


Morphologische Analyse

• Lexikon

– Liste von deutschen Substantiven (Nominativ-Singular)

mit Flexionsparadigmen und

Umlautungskodierung

• Lemmatisierungsalgorithmus zur

lexikongestützten Deflexion

17


Flexionsklassen Singular

FLS

1

2

3

4

5

6

7

8

Gen Dat Akk

- - -

-s - -

-es -[e] -

-ses -[se] -

-ens -en -

-en -en -en

-n -n -n

-n[s] -n -n

Beispiele

Frau, Mutter, Studentin, Hand, Kenntnis, Milch

Vater, Messer, Auto, Lappen, Faden, Mädchen, See

Mann, Tag, Wald, Brot, Haus, Sohn, Fluss, Floß

Bus

Herz

Bär, Mensch, Student

Riese, Gabe

Buchstabe

18


Flexionsklassen Plural

FLP

1

2

Nom Dat

- -n

-e -en

Beispiele

Vater, Mutter, Messer

Tag, Bach, Hand, Brot, Floß, Fluss

3

-er

-ern

Leib, Wald, Kind, Haus

4

-se

-sen

Bus, Kenntnis

5

6

7

- -

-s -s

-n -n

Lappen, Faden, Mädchen, Eltern

Uhu, Bar, Echo

Buchstabe, Riese, See, Gabe, Auge

8

-en

-en

Bär, Schmerz, Frau, Ohr, Herz, Student, Mensch

9

-nen -nen Studentin

19

Weitere Magazine dieses Users
Ähnliche Magazine