27.04.2014 Aufrufe

Beispiel Lesart

Beispiel Lesart

Beispiel Lesart

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Hauptseminar:<br />

Einführung in die<br />

Korpuslinguistik<br />

Anke Lüdeling<br />

anke.luedeling@rz.hu-berlin.de<br />

Wintersemester 2002/2003<br />

Semantische Annotation<br />

• <strong>Lesart</strong>en annotieren (sense tagging)<br />

• ein bisschen was zu <strong>Lesart</strong>en und<br />

lexikalischer Semantik<br />

• Techniken der <strong>Lesart</strong>enannotation<br />

• Probleme<br />

• automatische Anaphernauflösung<br />

<strong>Lesart</strong>enannotation<br />

• jedes Token<br />

(manchmal auch: jedes Token, das zu<br />

einer offenen Wortklasse gehört / jedes<br />

Nomen / Nomen einer bestimmten Klasse<br />

etc.)<br />

wird mit einem Tag versehen, das seine<br />

<strong>Lesart</strong> (sense) in dem verwendeten<br />

Kontext angibt<br />

<strong>Lesart</strong>enannotation - <strong>Beispiel</strong><br />

• "Bei uns kann jeder anfangen/BEGINNEN, ob<br />

ehemaliger Turniertänzer oder blutiger<br />

Anfänger", sagt Heinz Rieger. Wichtig sei allein<br />

die Freude an der<br />

Bewegung/KÖRPERL_AKTIVITÄT zur Musik.<br />

• Wer überhaupt außerhalb der Region kann mit<br />

dem Begriff Rhein-Neckar-Raum etwas<br />

anfangen/KENNEN, weiß ihn geographisch<br />

einzuordnen, hat eine Vorstellung, was hier an<br />

Unternehmen und Wirtschaftskraft sitzt?<br />

<strong>Lesart</strong>enannotation - <strong>Beispiel</strong><br />

• Der Kämpfer um die reine Lehre Buddhas<br />

wurde mit seinen Anhängern mehrfach<br />

verfolgt, die Tempel der<br />

Bewegung/GEMEINSCHAFT angezündet<br />

(einige davon wurden später<br />

wiederaufgebaut)<br />

(<strong>Beispiel</strong>e aus Mannheimer Morgen, COSMAS)<br />

Wozu <strong>Lesart</strong>enannotation?<br />

• lexikographische Zwecke<br />

• quantitative Studien zur Verteilung bestimmter<br />

<strong>Lesart</strong>en in bestimmten Textsorten<br />

• computerlinguistische Anwendungen<br />

• maschinelle Übersetzung<br />

• information retrieval<br />

• Frage-Antwort-Systeme<br />

• ...


<strong>Lesart</strong>en (senses)<br />

• ! hier nur ganz grober Überblick –<br />

Genaueres in den Seminaren von<br />

Prof. Lang und Prof. Krifka !<br />

• Wieviele <strong>Lesart</strong>en hat ein Lemma?<br />

• (Wie hängen die <strong>Lesart</strong>en zusammen?)<br />

• Wie kann man die <strong>Lesart</strong>en (automatisch)<br />

unterscheiden?<br />

<strong>Lesart</strong>en<br />

• mehrere Wörter mit der gleichen<br />

Bedeutung<br />

• Synonymie<br />

Samstag, Sonnabend<br />

Substitutierbarkeit in einem Kontext/einer<br />

Menge von Kontexten<br />

abkratzen, sterben, heimgehen, ins Gras<br />

beissen, das zeitliche segnen, ...<br />

wahre Synonymie ist selten!<br />

<strong>Lesart</strong>en<br />

• ein Wort in mehreren Bedeutungen<br />

• Homonymie (Bank)<br />

• Homographie (Tenor)<br />

• Homophonie (Lerche, Lärche)<br />

• Polysemie ...<br />

<strong>Lesart</strong>en<br />

• Polysemie (verstehen, Fisch, blau)<br />

• systematische Polysemie<br />

• Fisch, Huhn, Schwein etc.<br />

– Tier und Lebensmittel<br />

• Oper, Theater, Schule etc.<br />

Gebäude und Institution und Gruppe von Menschen<br />

... (Bierwisch 1982)<br />

• Kontextabhängigkeit (teuer, klein, gut)<br />

• Vagheit<br />

Methoden zur Unterscheidung<br />

von <strong>Lesart</strong>en<br />

• Etymologie (?)<br />

• im Wörterbuch nachschauen (?)<br />

<strong>Beispiel</strong>: belegen, Kiefer<br />

• Schlüsselwörter im Kontext<br />

• syntaktisches Verhalten:<br />

Argumentstruktur, Modifikation, Definitheit, ...<br />

• Zeugma<br />

Dornröschen belegt ein Brötchen und einen<br />

Kurs in Korpuslinguistik<br />

<strong>Lesart</strong>en<br />

• Übergang zu Kollokationen, Idiomen, ...<br />

fließend<br />

wie ‚groß‘ muss ein Bedeutungseintrag<br />

sein?<br />

<br />

<br />


Wortartenannotation<br />

• sense tagging, word sense disambiguation<br />

• setzt voraus, dass wir jedem Lemma eine<br />

bestimmte Menge an <strong>Lesart</strong>en zuordnen können<br />

(tun wir jetzt mal so, als sei das problemlos möglich)<br />

• zwei Möglichkeiten<br />

• Disambiguierung aufgrund von<br />

Selektionsrestriktionen<br />

• ‚robuste Disambiguierung‘<br />

(maschinelle Lernverfahren)<br />

Wortartenannotation<br />

• man hat zwei Arten von Wissen zur<br />

Verfügung<br />

• linguistisches Wissen:<br />

morphologisches/morphosyntaktisches<br />

Wissen, Kontext<br />

• zusätzliches (extralinguistisches) Wissen:<br />

Wissen über Domäne, Textsorte etc.<br />

<strong>Beispiel</strong>: Kiefer<br />

• Lexikoneinträge<br />

• <br />

• <br />

‚vernetzte‘ Disambiguierung<br />

• Annahmen:<br />

• alle Wörter in einem Satz bis auf eins sind<br />

desambiguiert<br />

• man hat ein Lexikon mit sehr genauen<br />

Selektionsrestriktionen für selegierende<br />

Wörter<br />

• man hat eine zum Lexikon passende<br />

Taxonomie (oder anderes Kategoriensystem)<br />

für lexikalische Einträge<br />

‚vernetzte‘ Disambiguierung<br />

• die anderen Wörter helfen, die <strong>Lesart</strong> des<br />

letzten festzulegen<br />

• zusätzliche Lexikoneinträge für Verben<br />

• <br />

• <br />

• <br />

• ...<br />

• plus Taxonomie<br />

BAUM ISA PFLANZE ISA BELEBTES_OBJEKT<br />

...<br />

‚vernetzte‘ Desambiguierung<br />

• Thomas Zampach wurde am Kiefer<br />

operiert und Thorsten Kracht hatte einen<br />

Muskelfaserriss in der Wade<br />

• Kiefer lässt sich mit allen Werkzeugen<br />

leicht bearbeiten, sie lässt sich gut sägen,<br />

hobeln, fräsen und bohren, man kann sie<br />

messern, schälen und drechseln.


‚vernetzte‘ Desambiguierung<br />

robuste Disambiguierung<br />

• Problem:<br />

was ist mit weniger spezifischen Verben?<br />

mögen, kaufen, sehen, ...<br />

• Erstellung eines Lexikon und einer<br />

Konzepthierarchie (Taxonomie) aufwendig und<br />

schwierig – meist nur für eine Domäne/ein<br />

Szenario aufbereitet und schlecht übertragbar<br />

‣ WordNet/GermaNet<br />

• zugrundeliegende Idee: jede <strong>Lesart</strong> hat ein<br />

‚typisches‘ Verhalten (kommt in bestimmten<br />

morphosyntaktischen Formen vor, es gibt<br />

bestimmte andere Wörter im Kontext etc.)<br />

• solch ein ‚typisches‘ Verhalten kann durch eine<br />

Vektordarstellung approximiert werden<br />

• dann kann man jede <strong>Lesart</strong> an einem/einer<br />

Menge für sie ‚typischen‘ Vektor erkennen<br />

robuste Disambiguierung<br />

• man erzeugt für jedes zu taggende Wort<br />

einen Merkmalsvektor mit zB<br />

• Wortart<br />

• Lemma<br />

• Kontext (in einer festgelegten Größe), auch<br />

mit Wortart & Lemmainformation<br />

• (seltener) syntaktische Strukturbeschreibung<br />

(Teilparse)<br />

robuste Disambiguierung<br />

• wobei Kontext:<br />

collocation und co-occurrence<br />

• collocation: Information über Wörter, die an einer<br />

bestimmten Position relativ zum zu bestimmenden<br />

Wort stehen<br />

• syntagmatische Relationen: Wörter, die in einer<br />

bestimmten syntaktischen Relation zu dem zu<br />

bestimmenden Wort stehen<br />

• co-occurrence (bag of words): Wörter, die irgendwo<br />

innerhalb eines bestimmten Kontextfensters mit dem<br />

zu bestimmenden Wort vorkommen<br />

If one examines the words in a book, one at a time<br />

as through an opaque mask with a hole in it one<br />

word wide, then it is obviously impossible to<br />

determine, one at a time, the meaning of the<br />

words [...] But if one lengthens the slit in the<br />

opaque mask, until one can see not only the<br />

central word in question but also say N words on<br />

either side, then if N is large enough one can<br />

unambiguously decide the meaning of the central<br />

word. [...] The practical question is: „What<br />

minimum value of N will, at least in a tolerable<br />

fraction of cases, lead to the correct choice of<br />

meaning for the central word?“<br />

Weaver (1949), zitiert nach Ide & Veronis (1998)<br />

robuste Disambiguierung<br />

• collocation:<br />

Verkauf/NN von/PREP nordischen/ADJA<br />

Hölzern/NN, speziell/ADV Fichte/NN,<br />

Kiefer/NN und/KONJ Lärche/NN<br />

Welche Information?<br />

• ‘Kiefer‘ folgt auf ‚Fichte ,‘<br />

• ‚und Lärche‘ direkt nach ‚Kiefer‘<br />

• Wortartreihenfolge


obuste Disambiguierung<br />

robuste Disambiguierung<br />

• kann in gewissen Grenzen einfache<br />

Strukturbeschreibungen ersetzen<br />

• typische Modifikationen<br />

• typische Verbargumente<br />

• findet ‚typische‘ morphologische Varianten<br />

• keep:<br />

mit Gerundium: he kept eating<br />

mit Adjektiv: he kept calm<br />

mit NP: he kept a record<br />

• Wörter, die inem bestimmten<br />

syntagmatischen Zusammenhang mit dem<br />

zu bestimmenden Wort stehen<br />

• Voraussetzung: geparstes Korpus<br />

(wenigstens Chunks)<br />

robuste Disambiguierung<br />

• co-occurrence<br />

Holz, Fichte, Lärche etc. kommen oft in<br />

der Nähe von Kiefer2 vor<br />

• hier werden Kontextfenster einer<br />

vorgegebenen Größe ausgewertet<br />

nordischen Hölzern , speziell<br />

Kiefer<br />

, Fichte und Lärche<br />

robuste Disambiguierung<br />

• <strong>Beispiel</strong>: Kontextwörter zu<br />

• Kiefer1: Zahnarzt, Operation, Gesicht, Körper<br />

• Kiefer2: Lärche, Fichte, Wald, wachsen, Holz,<br />

billig, IKEA<br />

robuste Disambiguierung<br />

• woher weiß man, welche Informationen in<br />

den Vektor aufgenommen werden sollen?<br />

• manuelle Angabe<br />

robuste Disambiguierung<br />

• woher weiß man, welche Informationen in<br />

den Vektor aufgenommen werden sollen?<br />

• manuelle Angabe<br />

• Informationen aus Wörterbüchern


obuste Disambiguierung<br />

• Informationen aus Wörterbüchern/Thesauri<br />

• geht zurück auf Lesk (1986): Die Wörter, die in den<br />

Definitionen im Wörterbuch verwendet werden,<br />

werden auf die jeweiligen Kontexte abgebildet<br />

‣ man nimmt die <strong>Lesart</strong>, die die meisten<br />

Übereinstimmungen mit dem gegebenen Kontext hat<br />

‣ 50 – 70 % korrekt annotierte <strong>Lesart</strong>en<br />

‣ spätere Verfahren mit neuronalen Netzen auf OALD<br />

& CED erreichen über 90% korrekt annotierte<br />

<strong>Lesart</strong>en (Veronis & Ide 1990)<br />

robuste Disambiguierung<br />

• Problem: abhängig von der genauen<br />

Formulierung im verwendeten Wörterbuch<br />

• Wörterbücher sind oft inkonsistent<br />

• Wörterbücher enthalten keine/wenig<br />

Kontextinformation oder pragmatische<br />

Information<br />

• daher:<br />

robuste Disambiguierung<br />

• woher weiß man, welche Informationen in<br />

den Vektor aufgenommen werden sollen?<br />

• manuelle Angabe<br />

• Informationen aus Wörterbüchern<br />

• statistische Lernverfahren auf einem<br />

Trainingskorpus (manuell annotiert)<br />

robuste Disambiguierung<br />

• auf einem (handannotierten)<br />

Trainingskorpus werden mit dem Zielwort<br />

vorkommende Wörter gezählt<br />

• Gewichtung (stop words?)<br />

robuste Disambiguierung:<br />

Vektordarstellung<br />

robuste Disambiguierung<br />

• Vektorrepräsentation morphosyntaktische<br />

Eigenschaften:<br />

, zB 0 für masc, 1 für fem, 0<br />

für sing, 1 für plural<br />

• Vektorrepräsentation Kontext:<br />

<br />

• dann für jeden Kontext Zuordnung zu einer<br />

<strong>Lesart</strong><br />

z. B. - Kiefer2<br />

• wenn man die Vektoren hat, kann die <strong>Lesart</strong>en<br />

anhand ähnlicher Kontexte klassifizieren<br />

• woher kennt man die entsprechenden Kontexte?<br />

was heißt in diesem Zusammenhang ‚ähnlich‘?<br />

• das Ähnlichkeitsmaß ist mathematisch definiert<br />

• überwachtes Lernen: Kontexte werden aufgrund<br />

eines manuellen Trainingskorpus gelernt<br />

• unüberwachtes Lernen: Kontexte werden zu<br />

‚ähnlichen‘ Clustern zusammengefügt


obuste Disambiguierung<br />

• Schwierigkeiten<br />

• Bestimmung der <strong>Lesart</strong>en<br />

• Ermittlung der Merkmalsvektoren<br />

• ‚scaling up‘: Übertragung auf weitere<br />

Kontexte<br />

Entscheidungsbaumverfahren<br />

• manche Informationen sind aussagekräftiger als<br />

andere<br />

(wenn man das Genus von ‚Kiefer‘ eindeutig bestimmen kann,<br />

braucht man den Kontext nicht mehr)<br />

• daher kann man ein<br />

Entscheidungsbaumverfahren lernen:<br />

Entscheidungsbäume sind eine Folge von<br />

ja/nein Entscheidungen mit Konsequenzen<br />

(Genus eindeutig bestimmt? Wenn ja, dann Kiefer1 oder<br />

Kiefer2, sonst schau den Kontext an ...)<br />

Probleme<br />

• handannotiertes Korpus ist schwer zu<br />

bekommen/herzustellen<br />

• ‚sparse data problem‘: für einige <strong>Lesart</strong>en gibt<br />

es zu wenig Trainingsdaten<br />

(in einigen Texttypen/Genres kommen<br />

bestimmte <strong>Lesart</strong>en überhaupt nicht vor)<br />

• Qualität: bisher kommt man nicht an die 95%+<br />

heran, die zB beim Wortartentagging erreicht<br />

werden<br />

Existierende Systeme und<br />

Evaluation<br />

• SEMCOR Corpus: 200 000 Wörter des<br />

Brown Corpus mit WordNet <strong>Lesart</strong>en,<br />

handgetaggt<br />

• SENSEVAL Corpus<br />

• diverse kleinere Korpora<br />

Existierende Systeme und<br />

Evaluation<br />

• Evaluationskriterien<br />

• Menge der <strong>Lesart</strong>en (Differenzierung), Allgemeinheit,<br />

Übertragbarkeit auf andere Domänen<br />

• Was zählt als ‚korrekt‘?<br />

(bei hierarchischen Wörterbucheinträgen: nur<br />

unterste Ebene oder auch höhere Ebenen)<br />

• bei kombinierten Verfahren: wieviel muss manuell<br />

korrigiert werden?<br />

• bei rein automatischen Verfahren: Geschwindigkeit<br />

(bei bestimmten Aufgaben wie zB bei zeitgleicher<br />

maschineller Übersetzung wichtig)<br />

Existierende Systeme und<br />

Evaluation<br />

• SENSEVAL-Konferenzen: ein bestimmer<br />

Text wird nach vorgegebenen Kriterien mit<br />

<strong>Lesart</strong>en annotiert – Vergleich zwischen<br />

verschiedenen Systemen – Diskussion<br />

über Schwierigkeiten und Verfahren – ca.<br />

2-jährig<br />

(nächste: Sommer 2003,<br />

http://www.senseval.org/)


Standards<br />

• Was ist der Standard? Was ist eigentlich<br />

ein korrekt mit <strong>Lesart</strong>en annotiertes<br />

Korpus?<br />

• Soll man eigentlich automatisch <strong>Lesart</strong>en<br />

zuweisen? Können Menschan das nicht<br />

viel besser?<br />

• dazu: 2 Experimente und ein Vorschlag<br />

von Jean Veronis (2001)<br />

Véronis Ziele<br />

• herausfinden, wie gut Menschen eigentlich<br />

<strong>Lesart</strong>en disambiguieren können<br />

• Konsequenzen für maschinelles<br />

Disambiguieren diskutieren<br />

• einen rein strukturellen Vorschlag zur<br />

<strong>Lesart</strong>endisambiguierung unterbreiten<br />

Experiment 1<br />

Experiment 1<br />

• Material: je 200 Adjektive, Nomen und Verben, die<br />

jeweils ca. 60 Mal im JOC Korpus (französisch)<br />

vorkommen:<br />

• für jedes dieser Wörter alle Vorkommen mit Kontext<br />

ausgedruckt<br />

• 6 TeilnehmerInnen (Studierende ohne lexikographische<br />

Ausbildung)<br />

• Frage: hat dieses Wort in den folgenden Kontexten<br />

mehrere Bedeutungen ?<br />

(eine Option: weiss nicht)<br />

• keine Zeitbeschränkung<br />

• nur ca. 4 % weiss-nicht-Antworten (dh, die<br />

Versuchspersonen fanden die Aufgabe nicht schwierig)<br />

• 73 % der Wörter werden als eindeutig angesehen<br />

• Polysemie unterscheidet sich deutlich je nach Wortart N<br />

> V > Adj<br />

(i. Ggs. zu Petit Larousse V > N > A)<br />

• volle Übereinstimmung nur bei 4,5 % der polysemen<br />

Wörter<br />

Experiment 2<br />

Experiment 2<br />

• Material: die 60 ‚polysemsten‘ (20 pro Wortart)<br />

der Wörter aus Experiment 1 mit allen ihren<br />

Belegen<br />

• Aufgabe: <strong>Lesart</strong>enzuweisung nach Petit<br />

Larousse für alle Belege<br />

• man konnte mehr als eine <strong>Lesart</strong> pro Kontext<br />

zuweisen<br />

• zusätzliche <strong>Lesart</strong> als ‚?‘, werden alle als eine gezählt<br />

• TeilnehmerInnen: 6 (andere) Studierende ohne<br />

lexikographische Ausbildung<br />

• Ergebnisse:<br />

• Polysemie nach Wortart: V > N > A<br />

vielleicht zurückzuführen auf Wörterbuch<br />

• ganz wenig Übereinstimmung zwischen den<br />

Annotatoren (zT schlechter als Zufall)<br />

(Hypothese, dass das auf zu feine<br />

Wortartunterscheidung im PL zurückzuführen ist,<br />

muss verworfen werden, Übereinstimmung schon auf<br />

der höchsten Ebene nicht gegeben)


Zusammenfassung Ergebnisse<br />

• Experiment 1: keine Übereinstimmung bei<br />

der Einschätzung, ob ein gegebenes Wort<br />

in einem gegebenen Kontext polysem ist<br />

oder nicht<br />

• Experiment 2: keine Übereinstimmung bei<br />

<strong>Lesart</strong>enzuweisung nach Wörterbuch<br />

(Veronis meint, das läge nicht an dem<br />

verwendeten Wörterbuch)<br />

Lösungsvorschlag<br />

• Unterscheidung nur noch nach<br />

syntaktischen/strukturellen Kriterien<br />

• unterschiedliche Argumentstruktur<br />

• unterschiedliche Modifikationsmöglichkeiten<br />

• Ersetzung durch Hyporonyme/Hyponyme<br />

• ...<br />

• Idee: menschliche und automatische<br />

Annotation möglich und vergleichbar<br />

Lösungsvorschlag<br />

• Problem:<br />

• Wörterbücher enthalten solche Kriterien nicht<br />

(systematisch)<br />

• Würde das nicht auch wieder eine Menge<br />

Handarbeit voraussetzen (zB Klassifikation<br />

von ‚passenden‘ Adjektiven etc.)?<br />

• Würde das nicht eine Theorie für zu<br />

unterscheidende <strong>Lesart</strong>en voraussetzen?<br />

Zusammenfassung sense tagging<br />

• wichtig für alle möglichen<br />

computerlinguistischen und linguistischen<br />

Anwendungen<br />

• problematisch<br />

• Festlegung der <strong>Lesart</strong>en<br />

• (automatische) Zuweisung der <strong>Lesart</strong>en<br />

• viel Handarbeit/Ressourcen erforderlich<br />

Zusammenfassung<br />

Korpusaufbereitung<br />

• kurze Wiederholung zur Kurzklausur<br />

nächste Woche:<br />

• Woher bekommen LinguistInnen ihre Daten?<br />

• Welche linguistischen Fragestellungen,<br />

können durch Korpusdaten bearbeitet<br />

werden? Welche nicht?<br />

• Wie wird ein Korpus aufgebaut?<br />

Zusammenfassung<br />

Korpusaufbereitung<br />

• Wie wird ein Korpus vorverarbeitet? Welche<br />

Probleme gibt es jeweils? Welche<br />

Entscheidungen müssen getroffen werden?<br />

• Tokenisierung<br />

• pos-Tagging<br />

• Lemmatisierung<br />

• syntaktische Strukturzuweisung/Baumbanken<br />

• <strong>Lesart</strong>entagging


Literatur<br />

• Ide, Nancy & Véronis, Jean (1998) Introduction to the<br />

Special Issue on Word Sense Dismabiguation: The State<br />

of the Art. In: Computational Linguistics 24(1), 1- 40<br />

• Jurafsky, Daniel & Martin, James H. (2000) Speech and<br />

Language Processing. An Introduction to Natural<br />

Language Processing, Computational Linguistics, and<br />

Speech Recognition. Prentice Hall, New Jersey<br />

• Véronis, Jean (2001) Sense tagging: does it make<br />

sense? Paper presented at Corpus Linguistics 2001,<br />

Lancaster.<br />

http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancastersense.pdf

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!