Beispiel Lesart

Hauptseminar: 

Einführung in die 

Korpuslinguistik 

Anke Lüdeling 

anke.luedeling@rz.hu-berlin.de 

Wintersemester 2002/2003 

Semantische Annotation 

• Lesarten annotieren (sense tagging) 

• ein bisschen was zu Lesarten und 

lexikalischer Semantik 

• Techniken der Lesartenannotation 

• Probleme 

• automatische Anaphernauflösung 

Lesartenannotation 

• jedes Token 

(manchmal auch: jedes Token, das zu 

einer offenen Wortklasse gehört / jedes 

Nomen / Nomen einer bestimmten Klasse 

etc.) 

wird mit einem Tag versehen, das seine 

Lesart (sense) in dem verwendeten 

Kontext angibt 

Lesartenannotation - Beispiel 

• "Bei uns kann jeder anfangen/BEGINNEN, ob 

ehemaliger Turniertänzer oder blutiger 

Anfänger", sagt Heinz Rieger. Wichtig sei allein 

die Freude an der 

Bewegung/KÖRPERL_AKTIVITÄT zur Musik. 

• Wer überhaupt außerhalb der Region kann mit 

dem Begriff Rhein-Neckar-Raum etwas 

anfangen/KENNEN, weiß ihn geographisch 

einzuordnen, hat eine Vorstellung, was hier an 

Unternehmen und Wirtschaftskraft sitzt? 

Lesartenannotation - Beispiel 

• Der Kämpfer um die reine Lehre Buddhas 

wurde mit seinen Anhängern mehrfach 

verfolgt, die Tempel der 

Bewegung/GEMEINSCHAFT angezündet 

(einige davon wurden später 

wiederaufgebaut) 

(Beispiele aus Mannheimer Morgen, COSMAS) 

Wozu Lesartenannotation? 

• lexikographische Zwecke 

• quantitative Studien zur Verteilung bestimmter 

Lesarten in bestimmten Textsorten 

• computerlinguistische Anwendungen 

• maschinelle Übersetzung 

• information retrieval 

• Frage-Antwort-Systeme 

• ...

Lesarten (senses) 

• ! hier nur ganz grober Überblick – 

Genaueres in den Seminaren von 

Prof. Lang und Prof. Krifka ! 

• Wieviele Lesarten hat ein Lemma? 

• (Wie hängen die Lesarten zusammen?) 

• Wie kann man die Lesarten (automatisch) 

unterscheiden? 

Lesarten 

• mehrere Wörter mit der gleichen 

Bedeutung 

• Synonymie 

Samstag, Sonnabend 

Substitutierbarkeit in einem Kontext/einer 

Menge von Kontexten 

abkratzen, sterben, heimgehen, ins Gras 

beissen, das zeitliche segnen, ... 

wahre Synonymie ist selten! 


• ein Wort in mehreren Bedeutungen 

• Homonymie (Bank) 

• Homographie (Tenor) 

• Homophonie (Lerche, Lärche) 

• Polysemie ... 


• Polysemie (verstehen, Fisch, blau) 

• systematische Polysemie 

• Fisch, Huhn, Schwein etc. 

– Tier und Lebensmittel 

• Oper, Theater, Schule etc. 

Gebäude und Institution und Gruppe von Menschen 

... (Bierwisch 1982) 

• Kontextabhängigkeit (teuer, klein, gut) 

• Vagheit 

Methoden zur Unterscheidung 

von Lesarten 

• Etymologie (?) 

• im Wörterbuch nachschauen (?) 

Beispiel: belegen, Kiefer 

• Schlüsselwörter im Kontext 

• syntaktisches Verhalten: 

Argumentstruktur, Modifikation, Definitheit, ... 

• Zeugma 

Dornröschen belegt ein Brötchen und einen 

Kurs in Korpuslinguistik 


• Übergang zu Kollokationen, Idiomen, ... 

fließend 

wie ‚groß‘ muss ein Bedeutungseintrag 

sein? 

 

 

Wortartenannotation 

• sense tagging, word sense disambiguation 

• setzt voraus, dass wir jedem Lemma eine 

bestimmte Menge an Lesarten zuordnen können 

(tun wir jetzt mal so, als sei das problemlos möglich) 

• zwei Möglichkeiten 

• Disambiguierung aufgrund von 

Selektionsrestriktionen 

• ‚robuste Disambiguierung‘ 

(maschinelle Lernverfahren) 

Wortartenannotation 

• man hat zwei Arten von Wissen zur 

Verfügung 

• linguistisches Wissen: 

morphologisches/morphosyntaktisches 

Wissen, Kontext 

• zusätzliches (extralinguistisches) Wissen: 

Wissen über Domäne, Textsorte etc. 

Beispiel: Kiefer 

• Lexikoneinträge 

• 

• 

‚vernetzte‘ Disambiguierung 

• Annahmen: 

• alle Wörter in einem Satz bis auf eins sind 

desambiguiert 

• man hat ein Lexikon mit sehr genauen 

Selektionsrestriktionen für selegierende 

Wörter 

• man hat eine zum Lexikon passende 

Taxonomie (oder anderes Kategoriensystem) 

für lexikalische Einträge 

‚vernetzte‘ Disambiguierung 

• die anderen Wörter helfen, die Lesart des 

letzten festzulegen 

• zusätzliche Lexikoneinträge für Verben 

• 

• 

• 

• ... 

• plus Taxonomie 

BAUM ISA PFLANZE ISA BELEBTES_OBJEKT 

... 

‚vernetzte‘ Desambiguierung 

• Thomas Zampach wurde am Kiefer 

operiert und Thorsten Kracht hatte einen 

Muskelfaserriss in der Wade 

• Kiefer lässt sich mit allen Werkzeugen 

leicht bearbeiten, sie lässt sich gut sägen, 

hobeln, fräsen und bohren, man kann sie 

messern, schälen und drechseln.

‚vernetzte‘ Desambiguierung 

robuste Disambiguierung 

• Problem: 

was ist mit weniger spezifischen Verben? 

mögen, kaufen, sehen, ... 

• Erstellung eines Lexikon und einer 

Konzepthierarchie (Taxonomie) aufwendig und 

schwierig – meist nur für eine Domäne/ein 

Szenario aufbereitet und schlecht übertragbar 

‣ WordNet/GermaNet 

• zugrundeliegende Idee: jede Lesart hat ein 

‚typisches‘ Verhalten (kommt in bestimmten 

morphosyntaktischen Formen vor, es gibt 

bestimmte andere Wörter im Kontext etc.) 

• solch ein ‚typisches‘ Verhalten kann durch eine 

Vektordarstellung approximiert werden 

• dann kann man jede Lesart an einem/einer 

Menge für sie ‚typischen‘ Vektor erkennen 


• man erzeugt für jedes zu taggende Wort 

einen Merkmalsvektor mit zB 

• Wortart 

• Lemma 

• Kontext (in einer festgelegten Größe), auch 

mit Wortart & Lemmainformation 

• (seltener) syntaktische Strukturbeschreibung 

(Teilparse) 


• wobei Kontext: 

collocation und co-occurrence 

• collocation: Information über Wörter, die an einer 

bestimmten Position relativ zum zu bestimmenden 

Wort stehen 

• syntagmatische Relationen: Wörter, die in einer 

bestimmten syntaktischen Relation zu dem zu 

bestimmenden Wort stehen 

• co-occurrence (bag of words): Wörter, die irgendwo 

innerhalb eines bestimmten Kontextfensters mit dem 

zu bestimmenden Wort vorkommen 

If one examines the words in a book, one at a time 

as through an opaque mask with a hole in it one 

word wide, then it is obviously impossible to 

determine, one at a time, the meaning of the 

words [...] But if one lengthens the slit in the 

opaque mask, until one can see not only the 

central word in question but also say N words on 

either side, then if N is large enough one can 

unambiguously decide the meaning of the central 

word. [...] The practical question is: „What 

minimum value of N will, at least in a tolerable 

fraction of cases, lead to the correct choice of 

meaning for the central word?“ 

Weaver (1949), zitiert nach Ide & Veronis (1998) 


• collocation: 

Verkauf/NN von/PREP nordischen/ADJA 

Hölzern/NN, speziell/ADV Fichte/NN, 

Kiefer/NN und/KONJ Lärche/NN 

Welche Information? 

• ‘Kiefer‘ folgt auf ‚Fichte ,‘ 

• ‚und Lärche‘ direkt nach ‚Kiefer‘ 

• Wortartreihenfolge

obuste Disambiguierung 


• kann in gewissen Grenzen einfache 

Strukturbeschreibungen ersetzen 

• typische Modifikationen 

• typische Verbargumente 

• findet ‚typische‘ morphologische Varianten 

• keep: 

mit Gerundium: he kept eating 

mit Adjektiv: he kept calm 

mit NP: he kept a record 

• Wörter, die inem bestimmten 

syntagmatischen Zusammenhang mit dem 

zu bestimmenden Wort stehen 

• Voraussetzung: geparstes Korpus 

(wenigstens Chunks) 


• co-occurrence 

Holz, Fichte, Lärche etc. kommen oft in 

der Nähe von Kiefer2 vor 

• hier werden Kontextfenster einer 

vorgegebenen Größe ausgewertet 

nordischen Hölzern , speziell 

Kiefer 

, Fichte und Lärche 


• Beispiel: Kontextwörter zu 

• Kiefer1: Zahnarzt, Operation, Gesicht, Körper 

• Kiefer2: Lärche, Fichte, Wald, wachsen, Holz, 

billig, IKEA 


• woher weiß man, welche Informationen in 

den Vektor aufgenommen werden sollen? 

• manuelle Angabe 





• Informationen aus Wörterbüchern


• Informationen aus Wörterbüchern/Thesauri 

• geht zurück auf Lesk (1986): Die Wörter, die in den 

Definitionen im Wörterbuch verwendet werden, 

werden auf die jeweiligen Kontexte abgebildet 

‣ man nimmt die Lesart, die die meisten 

Übereinstimmungen mit dem gegebenen Kontext hat 

‣ 50 – 70 % korrekt annotierte Lesarten 

‣ spätere Verfahren mit neuronalen Netzen auf OALD 

& CED erreichen über 90% korrekt annotierte 

Lesarten (Veronis & Ide 1990) 


• Problem: abhängig von der genauen 

Formulierung im verwendeten Wörterbuch 

• Wörterbücher sind oft inkonsistent 

• Wörterbücher enthalten keine/wenig 

Kontextinformation oder pragmatische 

Information 

• daher: 





• Informationen aus Wörterbüchern 

• statistische Lernverfahren auf einem 

Trainingskorpus (manuell annotiert) 


• auf einem (handannotierten) 

Trainingskorpus werden mit dem Zielwort 

vorkommende Wörter gezählt 

• Gewichtung (stop words?) 

robuste Disambiguierung: 

Vektordarstellung 


• Vektorrepräsentation morphosyntaktische 

Eigenschaften: 

, zB 0 für masc, 1 für fem, 0 

für sing, 1 für plural 

• Vektorrepräsentation Kontext: 

 

• dann für jeden Kontext Zuordnung zu einer 

Lesart 

z. B. - Kiefer2 

• wenn man die Vektoren hat, kann die Lesarten 

anhand ähnlicher Kontexte klassifizieren 

• woher kennt man die entsprechenden Kontexte? 

was heißt in diesem Zusammenhang ‚ähnlich‘? 

• das Ähnlichkeitsmaß ist mathematisch definiert 

• überwachtes Lernen: Kontexte werden aufgrund 

eines manuellen Trainingskorpus gelernt 

• unüberwachtes Lernen: Kontexte werden zu 

‚ähnlichen‘ Clustern zusammengefügt


• Schwierigkeiten 

• Bestimmung der Lesarten 

• Ermittlung der Merkmalsvektoren 

• ‚scaling up‘: Übertragung auf weitere 

Kontexte 

Entscheidungsbaumverfahren 

• manche Informationen sind aussagekräftiger als 

andere 

(wenn man das Genus von ‚Kiefer‘ eindeutig bestimmen kann, 

braucht man den Kontext nicht mehr) 

• daher kann man ein 

Entscheidungsbaumverfahren lernen: 

Entscheidungsbäume sind eine Folge von 

ja/nein Entscheidungen mit Konsequenzen 

(Genus eindeutig bestimmt? Wenn ja, dann Kiefer1 oder 

Kiefer2, sonst schau den Kontext an ...) 

Probleme 

• handannotiertes Korpus ist schwer zu 

bekommen/herzustellen 

• ‚sparse data problem‘: für einige Lesarten gibt 

es zu wenig Trainingsdaten 

(in einigen Texttypen/Genres kommen 

bestimmte Lesarten überhaupt nicht vor) 

• Qualität: bisher kommt man nicht an die 95%+ 

heran, die zB beim Wortartentagging erreicht 

werden 

Existierende Systeme und 

Evaluation 

• SEMCOR Corpus: 200 000 Wörter des 

Brown Corpus mit WordNet Lesarten, 

handgetaggt 

• SENSEVAL Corpus 

• diverse kleinere Korpora 


Evaluation 

• Evaluationskriterien 

• Menge der Lesarten (Differenzierung), Allgemeinheit, 

Übertragbarkeit auf andere Domänen 

• Was zählt als ‚korrekt‘? 

(bei hierarchischen Wörterbucheinträgen: nur 

unterste Ebene oder auch höhere Ebenen) 

• bei kombinierten Verfahren: wieviel muss manuell 

korrigiert werden? 

• bei rein automatischen Verfahren: Geschwindigkeit 

(bei bestimmten Aufgaben wie zB bei zeitgleicher 

maschineller Übersetzung wichtig) 


Evaluation 

• SENSEVAL-Konferenzen: ein bestimmer 

Text wird nach vorgegebenen Kriterien mit 

Lesarten annotiert – Vergleich zwischen 

verschiedenen Systemen – Diskussion 

über Schwierigkeiten und Verfahren – ca. 

2-jährig 

(nächste: Sommer 2003, 

http://www.senseval.org/)

Standards 

• Was ist der Standard? Was ist eigentlich 

ein korrekt mit Lesarten annotiertes 

Korpus? 

• Soll man eigentlich automatisch Lesarten 

zuweisen? Können Menschan das nicht 

viel besser? 

• dazu: 2 Experimente und ein Vorschlag 

von Jean Veronis (2001) 

Véronis Ziele 

• herausfinden, wie gut Menschen eigentlich 

Lesarten disambiguieren können 

• Konsequenzen für maschinelles 

Disambiguieren diskutieren 

• einen rein strukturellen Vorschlag zur 

Lesartendisambiguierung unterbreiten 

Experiment 1 

Experiment 1 

• Material: je 200 Adjektive, Nomen und Verben, die 

jeweils ca. 60 Mal im JOC Korpus (französisch) 

vorkommen: 

• für jedes dieser Wörter alle Vorkommen mit Kontext 

ausgedruckt 

• 6 TeilnehmerInnen (Studierende ohne lexikographische 

Ausbildung) 

• Frage: hat dieses Wort in den folgenden Kontexten 

mehrere Bedeutungen ? 

(eine Option: weiss nicht) 

• keine Zeitbeschränkung 

• nur ca. 4 % weiss-nicht-Antworten (dh, die 

Versuchspersonen fanden die Aufgabe nicht schwierig) 

• 73 % der Wörter werden als eindeutig angesehen 

• Polysemie unterscheidet sich deutlich je nach Wortart N 

> V > Adj 

(i. Ggs. zu Petit Larousse V > N > A) 

• volle Übereinstimmung nur bei 4,5 % der polysemen 

Wörter 

Experiment 2 

Experiment 2 

• Material: die 60 ‚polysemsten‘ (20 pro Wortart) 

der Wörter aus Experiment 1 mit allen ihren 

Belegen 

• Aufgabe: Lesartenzuweisung nach Petit 

Larousse für alle Belege 

• man konnte mehr als eine Lesart pro Kontext 

zuweisen 

• zusätzliche Lesart als ‚?‘, werden alle als eine gezählt 

• TeilnehmerInnen: 6 (andere) Studierende ohne 

lexikographische Ausbildung 

• Ergebnisse: 

• Polysemie nach Wortart: V > N > A 

vielleicht zurückzuführen auf Wörterbuch 

• ganz wenig Übereinstimmung zwischen den 

Annotatoren (zT schlechter als Zufall) 

(Hypothese, dass das auf zu feine 

Wortartunterscheidung im PL zurückzuführen ist, 

muss verworfen werden, Übereinstimmung schon auf 

der höchsten Ebene nicht gegeben)

Zusammenfassung Ergebnisse 

• Experiment 1: keine Übereinstimmung bei 

der Einschätzung, ob ein gegebenes Wort 

in einem gegebenen Kontext polysem ist 

oder nicht 

• Experiment 2: keine Übereinstimmung bei 

Lesartenzuweisung nach Wörterbuch 

(Veronis meint, das läge nicht an dem 

verwendeten Wörterbuch) 

Lösungsvorschlag 

• Unterscheidung nur noch nach 

syntaktischen/strukturellen Kriterien 

• unterschiedliche Argumentstruktur 

• unterschiedliche Modifikationsmöglichkeiten 

• Ersetzung durch Hyporonyme/Hyponyme 

• ... 

• Idee: menschliche und automatische 

Annotation möglich und vergleichbar 

Lösungsvorschlag 

• Problem: 

• Wörterbücher enthalten solche Kriterien nicht 

(systematisch) 

• Würde das nicht auch wieder eine Menge 

Handarbeit voraussetzen (zB Klassifikation 

von ‚passenden‘ Adjektiven etc.)? 

• Würde das nicht eine Theorie für zu 

unterscheidende Lesarten voraussetzen? 

Zusammenfassung sense tagging 

• wichtig für alle möglichen 

computerlinguistischen und linguistischen 

Anwendungen 

• problematisch 

• Festlegung der Lesarten 

• (automatische) Zuweisung der Lesarten 

• viel Handarbeit/Ressourcen erforderlich 

Zusammenfassung 

Korpusaufbereitung 

• kurze Wiederholung zur Kurzklausur 

nächste Woche: 

• Woher bekommen LinguistInnen ihre Daten? 

• Welche linguistischen Fragestellungen, 

können durch Korpusdaten bearbeitet 

werden? Welche nicht? 

• Wie wird ein Korpus aufgebaut? 

Zusammenfassung 

Korpusaufbereitung 

• Wie wird ein Korpus vorverarbeitet? Welche 

Probleme gibt es jeweils? Welche 

Entscheidungen müssen getroffen werden? 

• Tokenisierung 

• pos-Tagging 

• Lemmatisierung 

• syntaktische Strukturzuweisung/Baumbanken 

• Lesartentagging

Literatur 

• Ide, Nancy & Véronis, Jean (1998) Introduction to the 

Special Issue on Word Sense Dismabiguation: The State 

of the Art. In: Computational Linguistics 24(1), 1- 40 

• Jurafsky, Daniel & Martin, James H. (2000) Speech and 

Language Processing. An Introduction to Natural 

Language Processing, Computational Linguistics, and 

Speech Recognition. Prentice Hall, New Jersey 

• Véronis, Jean (2001) Sense tagging: does it make 

sense? Paper presented at Corpus Linguistics 2001, 

Lancaster. 

http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancastersense.pdf

Beispiel Lesart

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?