Diskurssegmentierung_final.pdf
Diskurssegmentierung_final.pdf
Diskurssegmentierung_final.pdf
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Diskurssegmentierung</strong><br />
Alina Tokarczyk<br />
Sascha Orf<br />
Ulf Schmidt
Übersicht<br />
� Definitionen<br />
� Motivation<br />
� Verfahren<br />
� Konklusion<br />
� Beispiel<br />
� Diskussion<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Definitionen<br />
� Diskurs<br />
� Form einer verständnisorientierten Kommunikation, in<br />
der mit Blick auf eine gemeinsame<br />
Entscheidungsfindung, Aussagen von Argumenten nach<br />
festgelegten Regeln auf ihre Gültigkeit hin untersucht<br />
werden.<br />
� Gesamtheit der über die verschiedensten Kanäle<br />
ausgearbeiteten und verbreiteten themenbezogenen<br />
Aussagen. Diese spiegeln Standpunkte bzw.<br />
Weltanschauungen wider und reproduzieren diese.<br />
� Man kann Diskurse analysieren und strukturiert<br />
betrachten.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Definitionen<br />
� Diskurssegment<br />
� ist ein Abschnitt des Diskurses, in dem zwischen<br />
den Sätzen eine kohärente Verbindung besteht.<br />
� <strong>Diskurssegmentierung</strong><br />
� Bildung thematischer Makrosegmente zur<br />
Identifizierung der Diskursstruktur<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Motivation<br />
� Ziel ist die Segmentierung von Text in<br />
zusammenhängende, sich nicht überlappende<br />
Diskurseinheiten<br />
� Diese sollen mit der tatsächlichen thematischen<br />
Struktur des Textes übereinstimmen<br />
� Die Erkennung der Struktur eines Dokumentes zu<br />
automatisieren ist von Nutzen bei Aufgaben wie<br />
Textzusammenfassung, Hypertext und Information<br />
Retrieval<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Verfahren<br />
� TextTiling<br />
� Pausen-Algorithmus<br />
� Cue Words-Algorithmus<br />
� NP-Algorithmus<br />
� EA-Algorithmus<br />
� Machine Learning Tools<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Verfahren zur Aufteilung von Texten in kohärente<br />
Einheiten, die sich über mehrere Absätze erstrecken<br />
können<br />
� Anordnung der entstandenen „Tiles“ (Abschnitte) soll<br />
dabei die inhaltliche Aufteilung des Textes wiedergeben<br />
� Als Beispiele werden Artikel aus wissenschaftlichen<br />
Magazinen verwendet<br />
(bestehen meist aus wenigen Hauptthemen und mehrer<br />
kürzerer Unterthemen)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Text wird in zusammenhängende „Tiles“ aufgeteilt, die<br />
nur inhaltliche Schwerpunkte widerspiegeln und nicht die<br />
Beziehungen zwischen den Themen<br />
� Ob der betreffende Text nun hierarchisch oder sequentiell<br />
geordnet wird, spielt keine Rolle<br />
� Dafür wird eine lexikalische Analyse basierend auf „tf.idf“<br />
verwendet um die Größe der Tiles zu bestimmen. (term<br />
frequency–inverse document frequency)<br />
� Zusätzlich werden Wortschatz-Informationen mit Hilfe<br />
eines statistischen Unterscheidungsalgorithmus<br />
verwendet<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Methode von Skorochod`ko (1972):<br />
� den Text in die einzelnen Sätze aufteilen und nach<br />
Wordüberlappungen suchen<br />
� der entstandene Graph gibt dann Aufschluss über den<br />
Grad der Zusammengehörigkeit untereinander<br />
� so kann die Struktur des Textes über die<br />
Verbindungsmuster der Worte definiert werden<br />
� diese nur auf lexikalische Analyse basierende<br />
Methode ist schnell berechenbar<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Methode von Skorochod`ko 1972:<br />
� 3 einfache Möglichkeiten um Kohärenz aufzuspüren: die<br />
Wiederholung von Wörtern<br />
� ebenso das Auftreten von Wörtern deren Bedeutung<br />
miteinander in Beziehung stehen (Vulkane -> Lava,<br />
Eruption)<br />
� das Auftreten mehrerer Themen gleichzeitig - d.h. es<br />
können verschiedene (miteinander verwandte)<br />
Diskussionen existieren, die Bezug aufeinander nehmen.<br />
Bsp.: Text über Vulkanismus behandelt auch das Thema<br />
Langzeitschäden…<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Der Algorithmus:<br />
� besteht aus 2 Schritten<br />
� 1. alle Paare von zusammenhängenden Textblöcken (mit<br />
durchschnittlich 3-5 Sätzen) werden verglichen und ein<br />
Ähnlichkeitswert zugewiesen<br />
� Im 2. Schritt werden die resultierenden Ähnlichkeitswerte<br />
auf Hoch- und Tiefpunkte untersucht<br />
� Hohe Werte bedeuten eine starke Kohäsion und niedrige<br />
eine schwache Zusammengehörigkeit (was auf eine<br />
inhaltliche Abgrenzung hinweißt)<br />
� Wobei das Ende einer Diskussion miteinander verwobener<br />
Themen und nicht eines individuellen Themas gemeint ist<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� ein veränderbarer Parameter bei der Analyse ist die Größe der<br />
Blöcke - dieser Wert, k, variiert von Text zu Text<br />
(meistens die durchschnittliche Absatzlänge in Sätzen)<br />
� die Ähnlichkeit wird mit tf.idf - die Häufigkeit eines Terms in<br />
einem Dokument geteilt durch die Häufigkeit in allen<br />
Dokumente – gemessen<br />
� Wörter die in einem individuellen Dokument sehr häufig<br />
vorkommen, in den restlichen aber eher selten, eignen sich gut<br />
zum Unterscheiden der Inhalte<br />
� so lassen sich globales und lokales Auftreten eines Terms<br />
bestimmen<br />
� lokal begrenzte Terme bekommen eine höhere Gewichtung als<br />
Terme die über alle Dokumente gleichmäßig verteilt auftreten<br />
(stellen keine guten Indikatoren dar)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� t - der Term in dem Dokument<br />
� b - der Block<br />
� w t,b - die tf.idf Gewichtung des Terms t im Block b<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Ähnlichkeitswert zwischen zwei Blöcken ist hoch -><br />
Blöcke weisen gemeinsame Terme auf und kommen<br />
im Rest des Dokumentes eher selten vor<br />
� Nächster Schritt: der Graph wird mittels<br />
Glättungsalgorithmen geglättet um zu starke<br />
Ausschläge auszugleichen<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Anzahl der Wortwiederholungen als Maß ist nicht genug<br />
-> Wörter mit ähnlicher Bedeutung gruppieren<br />
� Problem: Mehrdeutigkeit von Worten kann zu falschen<br />
Verbindungen führen<br />
� Letzter Schritt: „Statistical Lexical Disambiguation<br />
Algoritm“ von Yarowsky wird benutzt<br />
� mit Hilfe eines vorher definierten Wortschatzes wird, nach<br />
der Analyse des Kontexts des Wortes, die entsprechende<br />
Kategorie angeben<br />
� -> Ergebnisse wurden nur hervorgehoben aber nicht<br />
verschlechtert (Ergebnisse mit und ohne der Kategorie<br />
Information siehe Grafik)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
� Evaluation:<br />
� Algorithmus liegt oft um einen oder auch mal zwei Sätze<br />
daneben, aber im Allgemeinen richtig<br />
� Ein Grund: Leser durften die Grenzen in den Beispieltexten<br />
– gegen die die Ergebnisse des Algorithmus verglichen<br />
wurden – nur nach Absätzen ziehen (der Algorithmus aber<br />
nach jedem Satz)<br />
� In einigen wenigen Fällen lag der Algorithmus auch total<br />
daneben<br />
� Algorithmus eignet sich am besten für stark strukturierte<br />
Texte<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
TextTiling<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Die Studie von<br />
R.J. Passonneau, D.J. Litman<br />
zweiteilige Studie, in der die Diskurskorpora sowohl von<br />
Menschen (naive subjects), als auch von den<br />
<strong>Diskurssegmentierung</strong>salgorithmen in die Segmente<br />
aufgeteilt wurde.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Intentionsbasierte<br />
<strong>Diskurssegmentierung</strong> von Menschen<br />
� Segmentierung von 20 Diskursen (Transkriptionen von<br />
spontanen, gesprochenen Monologen) von Personen nach<br />
einem nichtlinguistischen Kriterium (Intention des Sprechers;<br />
„an informal notion of communicative intention“).<br />
� Einschränkungen:<br />
1. lineare (nicht hierarchische) Segmentierung gefordert<br />
2. prosodische Phrasen dürfen nicht getrennt werden (eine<br />
Grenze kann nur zwischen zwei prosodischen Phrasen gesetzt<br />
werden)<br />
� Ziel: Statistisch signifikante Ergebnisse aus den Antworten der<br />
Teilnehmer ermitteln.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Intentionsbasierte<br />
<strong>Diskurssegmentierung</strong> von Menschen -<br />
Ergebnisse<br />
� trotzt der Freiheit der Aufgabe (möglichst wenig<br />
Anleitungen gegeben), haben die „naiven Subjekte“<br />
denselben Diskurs ähnlich segmentiert (ähnliche<br />
Segmentgrenze oder Segmentrelationen dem Diskurs<br />
identifiziert), was bedeutet, dass die Ergebnisse nicht<br />
zufällig auftreten.<br />
� Übereinstimmungsmaß in Prozent: die<br />
durchschnittliche prozentuelle Übereinstimmung ist<br />
größer auf den Nicht-Grenzen (91%) und niedriger<br />
auf den Grenzen (73%)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Algorithmische Identifikation<br />
von Segmentgrenzen<br />
� Algorithmen, die die Diskurssegmentgrenze<br />
identifizieren, verwenden die linguistischen<br />
Informationen wie referentielle Nominalphrasen, cue<br />
words, Pausen.<br />
� Jeder Algorithmus benutzt nur eine linguistische<br />
Eigenschaft um zu sehen, ob auf diese Art und Weise ein<br />
Diskurs segmentiert werden kann<br />
� Jeder Algorithmus wurde so konzipiert, dass er den<br />
Segmentierungsprozess von Menschen nachbildet<br />
(Diskurskorpus wird in die zusammenhängenden<br />
Segmente zerlegt, und die Segmentgrenzen fallen<br />
zwischen den prosodischen Phrasen an).<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Algorithmische Identifikation von<br />
Segmentgrenzen<br />
� Input: Set von potentiellen Grenzstellen (die gemäß<br />
der linguistischen Eigenschaften kodiert werden)<br />
� Output: Die potentiellen Grenzstellen werden durch<br />
einen Algorithmus als Segment-Grenzen oder Nicht-<br />
Grenzen klassifiziert.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Pausen – Algorithmus<br />
� Algorithmus identifiziert die Grenzen im Diskurs mit Hilfe<br />
von Pausen - segmentinitialen Phrasen gehen den länger<br />
dauernden Pausen voraus. In der Transkription wurde<br />
die Länge der Pausen in Sekunden in den eckigen<br />
Klammern notiert.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Pausen – Algorithmus<br />
� Input: eine sequenzielle Liste mit prosodischen Phrasen,<br />
Pausen und ihre Dauer.<br />
� Output: Set von Grenzen (eine Grenze zwischen zwei<br />
Phrasen (Pn, Pn+1) wird durch eine Pause markiert)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Pausen – Algorithmus<br />
� Algorithmus:<br />
if pause = true<br />
then boundary<br />
else nonboundary<br />
� Eine Pause bekommt true-Wert übertragen (eine<br />
Segmentgrenze), wenn Pn+1 mit [X] (eine X Sekunden<br />
dauernde Pause) anfängt, ansonsten false (Nicht-<br />
Grenze).<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Evaluation<br />
� Um die Algorithmenleistungen zu bestimmen, wurden Information Retrieval-<br />
Metriken benutzt.<br />
Algorithm<br />
Boundary<br />
Nonboundary<br />
Boundary<br />
a<br />
c<br />
Subjects<br />
Nonboundary<br />
Recall = a/(a+c)<br />
Precision = a/(a+b)<br />
Fallout = b/(b+d)<br />
� Recall - Vollständigkeit eines Ergebnisses<br />
� Precision – Genauigkeit eines Ergebnisses<br />
� Idealfall: recall = 1, Precision = 1, Fallout = 0, Error = 0<br />
b<br />
d<br />
Error = (a+c)/(a+b+c+d)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Pausen – Algorithmus<br />
� Evaluation für Tj≥4<br />
PAUSE<br />
MENSCHEN<br />
Recall<br />
.92<br />
.74<br />
Precision<br />
.18<br />
.55<br />
Fallout<br />
� Recall ist größer als in der Segmentierung von Menschen;<br />
precision ist niedrig; fallout und error rate sind groß.<br />
.54<br />
.09<br />
Error<br />
.49<br />
.11<br />
Summierte<br />
Abweichung<br />
1.93<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt<br />
.91
Cue words (Hinweiswörter) –<br />
Algorithmus<br />
� Hinweiswörter (z.B. and, also, anyway, basically,<br />
because, but, <strong>final</strong>ly, first, like, meanwhile, no, now, oh,<br />
okay, only, or, see, so, then, well, where, etc.) werden<br />
benutzt, um explizit die Struktur eines Diskurses zu<br />
signalisieren<br />
� Das Wort an der ersten Stelle einer prosodischen Phrase<br />
wird mit der Liste aller Hinweiswörter abgeglichen, um<br />
zu bestimmen, ob dieses Wort ein Hinweiswort ist.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Cue words (Hinweiswörter) –<br />
Algorithmus<br />
� Input: eine sequenzielle Liste mit den prosodischen<br />
Phrasen (Textcorpus)<br />
� Output: Set von Grenzen B (ein Grenze wird als die<br />
geordnete Paare von zwei prosodischen Phrasen (Pn,<br />
Pn+1) markiert, wo an der ersten Stelle der Phrase<br />
Pn+1 das ein neues Segment eröffnende Hinweiswort<br />
vorkommt.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Cue words (Hinweiswörter) –<br />
Algorithmus<br />
� Algorithmus:<br />
if (cue1 = true)<br />
then boundary<br />
else nonboundary<br />
� Cue1 ist wahr (Grenze eines neuen Segments), wenn<br />
der erste lexikalische Item in Pn+1 (das erste Wort in<br />
einer Phrase) ein Hinweiswort ist; sonst Nicht-Grenze.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Cue words (Hinweiswörter) –<br />
Algorithmus<br />
� Evaluation für Tj ≥4<br />
PAUSE<br />
CUE<br />
MENSCHEN<br />
Recall<br />
.92<br />
.72<br />
.74<br />
Precision<br />
.18<br />
.15<br />
.55<br />
Fallout<br />
� recall ist fast wie bei der Menschen-Segmentierung;<br />
precision ist niedrig; fallout und error rate sind groß.<br />
.54<br />
.53<br />
.09<br />
Error<br />
.49<br />
.50<br />
.11<br />
Summierte<br />
Abweichung<br />
1.93<br />
2.16<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt<br />
.91
Referential Noun Phrases -<br />
Algorithmus<br />
� Input: eine Liste mit 4-Tupels , die alle<br />
referentiellen NP-s im Text beschreiben<br />
FICU – Diskursposition<br />
NP – surface form<br />
i – referential identity (Index der NP)<br />
I – set of inferential relations (eine Menge der inferentiellen<br />
Relationen)<br />
Beispiel: 25 16.1 You could hear the bicycle 12 ,<br />
16.2 wheels 13 going round.<br />
coding: <br />
� Output: ein Set von Grenzen B (eine Grenze wird als<br />
geordnete Paare prosodischer Phrasen dargestellt (FICU n ,<br />
FICU n+1 )<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Referential Noun Phrases –<br />
Algorithmus (FICU)<br />
� FICU – „Functionally Independent Clause Units“ -<br />
besteht aus einem Satzteil, der weder verb argument<br />
(Ergenzung, wie Subjekt, Objekt) noch restriktiver<br />
Relativsatz ist.<br />
� Wenn ein neues FICU (aktueller Satz) in der<br />
prosodischen Phrase P n+1 anfängt, wird die NP im<br />
aktuellen Satz mit der NP im vorhergehenden Satz<br />
verglichen.<br />
� Wenn eine NP im aktuellen FICUn auf ein Objekt<br />
innerhalb des aktuellen Segments referiert, ist das<br />
Segment noch nicht zu Ende.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Die Referenz:<br />
Referential Noun Phrases –<br />
Algorithmus (Referenz)<br />
(1) durch eine koreferentielle NP:<br />
+coref - wenn NPs im aktuellen Satz und NPs im<br />
vorhergehenden Satz koreferieren, sonst -coref<br />
(2) durch eine inferentielle Relation:<br />
+infer - wenn der Referent der NP im aktuellen Satz einem<br />
vorhergehenden Satz aufgrund eines vordefinierten Sets<br />
von Inferenz-Relationen folgern kann, sonst -infer<br />
(3) durch ein bestimmtes Pronomen:<br />
+gobal.pro – wenn der Referent eines Definitpronomens im<br />
aktuellen Satz in einer früheren Äußerung erwähnt wurde,<br />
jedoch nicht vor der letzten Grenze, sonst -global.pro<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Referential Noun Phrases -<br />
Algorithmus<br />
� Algorithmus:<br />
for (FICUi-1 to FICUi)<br />
if (coref = -coref and infer = -infer and global.pro = -global.pro)<br />
then boundary<br />
else nonboundary<br />
� NP-Grenze wird dort festgesetzt, wo man zu einer neuen<br />
Einheit (NP) referiert, die keiner vorher gewähnten<br />
Einheit folgern kann (keine Eigenschaft hat einen<br />
positiven Wert)<br />
� Wenn ein neues FICU in Pn+1 nicht eingeführt wird,<br />
haben die Werte für alle drei Eigenschaften keine<br />
Angaben (not applicable).<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Referential Noun Phrases -<br />
Algorithmus<br />
� Evaluation für Tj ≥ 4<br />
PAUSE<br />
CUE<br />
NP<br />
MENSCHEN<br />
Recall<br />
.92<br />
.72<br />
.50<br />
.74<br />
Precision<br />
.18<br />
.15<br />
.31<br />
.55<br />
Fallout<br />
.54<br />
.53<br />
.15<br />
.09<br />
Error<br />
.49<br />
.50<br />
.19<br />
.11<br />
� error rate und fallout sind kleiner als precission<br />
Summierte<br />
Abweichung<br />
1.93<br />
2.16<br />
1.53<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt<br />
.91
Ergebnisse:<br />
NP-Algorithmus arbeitet am besten im Vergleich mit<br />
anderen einfachen Algorithmen (Grund: er basiert<br />
auf drei Eigenschaften und die CUE- und PAUSE-<br />
Algorithmen nur auf einer)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Zusätzliche Algorithmen<br />
� Die vorgestellten Algorithmen kann man miteinander<br />
kombinieren, um ein Diskurs zu segmentieren (alle<br />
Algorithmen paarweise, sowie alle drei zusammen).<br />
� In diesen Fällen wurde die Präzision verbessert, aber das<br />
Recall dagegen nicht (wenn kein von den vorgestellten<br />
Algorithmen: NP, PAUSE und CUE eine Grenze finden<br />
kann, dann wird sie von einer Algorithmenkombination<br />
auch nicht gefunden).<br />
� Kombination PAUSE/NP hat die besten Ergebnisse<br />
erreicht.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
komplexere Algorithmen<br />
2 Methoden zur Entwicklung komplexerer<br />
Segmentierungsalgorithmen<br />
(komplex = keine simple Kombination von Ergebnissen<br />
unabhängiger Algorithmen):<br />
1. Fehleranalyse des am besten abschneidenden<br />
Algorithmus (NP)<br />
2. Machine Learning Tools zur automatischen<br />
Algorithmus-Konstruktion<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
Zwei IR-Fehler des NP-Algorithmus führen zu<br />
falscher Klassifizierung von „nonboundaries“. Diese Fehler hängen<br />
zusammen mit:<br />
� der Identifikation von FICUs<br />
� Inferentiellen Verbindungen<br />
-> Redefinition der Kodierungseigenschaften Sätze und NPs betreffend<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
1. NP-Algorithmus - Verbesserung<br />
FICU (Functionally Independent Clause Unit) - Redefinition<br />
Phrasen ohne relevante Information werden nicht mehr<br />
als FICU klassifiziert<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
Phrasen ohne relevante Information:<br />
Äußerungen, die die syntaktischen Eigenschaften eines Satzes<br />
haben, aber als Interjektionen (Ausruf/Zwischenruf) zu betrachten<br />
sind.<br />
Beispiele: „let's see“, „let me see“, „I don't know“,...<br />
=> Reduzierung der FICU – Anzahl bedeutet<br />
weniger potentielle Grenzen<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
2. NP-Algorithmus - Verbesserung<br />
„infer“-Redefinition<br />
� Berücksichtigung von Diskurs-Deixis<br />
-> Orte, an denen Referenten stehen können sind<br />
weniger eingeschränkt<br />
� Definition neuer Inferenz-Relationen<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
Alte infer-Definition:<br />
Relation zwischen dem Referenten einer Nominalphrase in einer<br />
Äußerung und dem Referenten einer Nominalphrase in einer<br />
vorangegangenen Äußerung<br />
Neue (gelockerte) infer Definition:<br />
Relation zwischen einem NP-Referenten und einem Referenten, der<br />
an jeder Stelle der vorangehenden Äußerung stehen kann<br />
=> Reduzierung der potentiellen Grenzen,weil<br />
keine Grenze zwischen Referenzen (Links)<br />
stehen darf<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
EA-Algorithmus:<br />
if(coref = -coref and infer = -infer and global.pro = -global.pro)<br />
then boundary<br />
else if(cue-prosody = complex)<br />
then boundary<br />
else nonboundary<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
cue-prosody: Kombination von prosodischen und cue-word<br />
Eigenschaften<br />
cue-prosody is complex if<br />
1. before = '+sentence.<strong>final</strong>.contour'<br />
2. pause = 'true'<br />
3. and either:<br />
(a) cue 1 = 'true', word 1 != 'and'<br />
(b) cue 1 = 'true', word1 = 'and', cue 2 = 'true', word2 != 'and'<br />
else cue-prosody has the same values as pause<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
Test Set Leistungsvergleich:<br />
Average Recall Precision Fallout Error Summed Deviation<br />
Boundary Threshold = 3<br />
NP .44 .29 .16 .21 1.64<br />
EA .50 .44 .11 .17 1.34<br />
Boundary Threshold = 4<br />
NP .56 .25 .16 .20 1.55<br />
EA .60 .37 .11 .15 1.30<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Error Analysis (EA)<br />
� EA ist eine sinnvolle Methode um herauszufinden, wie man<br />
die Daten am besten kodiert<br />
� Sie verbessert Eigenschaften und Algorithmen durch<br />
Analysen der Fehler in den Testdaten<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Machine Learning (ML)<br />
Eingesetze Sotware: ML-Programm “C4.5“<br />
� erzeugt Klassifikationsalgorhithmus<br />
� Repräsentation als Entscheidungsbaum<br />
� die Klasse einer potentiellen Grenze wird mit Hilfe ihrer<br />
Eigenschaftswerte vorrausberechnet<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Machine Learning (ML)<br />
Komplexer Decision Tree:<br />
Jede Ebene des Baums<br />
repräsentiert den Test für<br />
eine Eigenschaft, mit<br />
einem Ast für jedes mögliche<br />
Ergebnis, d.h. er führt<br />
entweder dazu, dass die<br />
Klasse (i.d.R. boundary /<br />
nonboundary) erzeugt wird<br />
oder zu einem weiteren Test.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Machine Learning (ML)<br />
� Jede potentielle Position für eine Grenze wurde klassifiziert<br />
und als Set linguistischer Eigenschaften repräsentiert<br />
� C4.5 Input:<br />
� Training Data<br />
� Spezifikation der Klassen (boundary, nonboundary)<br />
� Festes “Coding Features“ - Set<br />
� spezifiziert wurden (10 Erzählungen, 1004 Beispiele für<br />
potentielle Grenzpositionen)<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Machine Learning (ML)<br />
Leistungsvergleich (Mensch – EA – ML):<br />
Average Recall Precision Fallout Error Summed Deviation<br />
Boundary Threshold = 3<br />
Training Set .63 .72 .06 .12 .83 (Human)<br />
EA .50 .44 .11 .17 1.34<br />
ML .54 .76 .04 .11 .85<br />
Boundary Threshold = 4<br />
Training Set .74 .55 .09 .11 .91 (Human)<br />
EA .60 .37 .11 .15 1.30<br />
ML .47 .84 .01 .07 .77<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Machine Learning (ML)<br />
� Bei T=3 ist ist die Performanz von ML mit der der menschl.<br />
Bewerter vergleichbar<br />
� Bei T=4 ist ML besser, ebenfalls besser als EA!<br />
� Bei Testdaten (nicht Trainingsdaten!) sinkt die Performanz!<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Machine Learning (ML)<br />
� Machine Learning ist kostenintensiv<br />
� Automatisierte Erzeugung optimal arbeitender Algorithmen<br />
� Grundlage: gut kodierte Daten<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
EA und ML<br />
Belegte Hypothesen:<br />
� Die Methoden liefern auch außerhalb der Testdaten<br />
brauchbare Ergebnisse<br />
� Pear Segmentierung (Diskursfokus-Struktur) steigert die<br />
Leistung von Generierungsalgorithmen<br />
Es gibt weitere, verbesserte Versionen der Algorithmen<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Zusammenfassung<br />
� Einige handkodierte Funktionalitäten könnten<br />
automatisiert erstellt werden um weiteren Nutzen daraus<br />
zu ziehen<br />
� der gesprochene Korpus könnte durch Sprachgenerierung<br />
ersetzt werden<br />
� würde neue Fehlerquellen nach sich ziehen<br />
� die hier entwickelten Algorithmen können weiter benutzt<br />
werden<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Beispiel<br />
…<br />
okay.<br />
Meanwhile,<br />
there are three little boys,<br />
up on the road a little bit,<br />
and they see this little accident.<br />
And u-h they come over,<br />
and they help him,<br />
and you know,<br />
help him pick up the pears and everything.<br />
A-nd the one thing that struck me about the- three little boys that were there,<br />
is that one had ay uh I don't know what you call them,<br />
but it's a paddle,<br />
and a ball-,<br />
is attached to the paddle,<br />
and you know you bounce it?<br />
And that sound was really prominent.<br />
Well anyway,<br />
so- u-m tsk all the pears are picked up,<br />
and he's on his way again,<br />
…<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Beispiel (Menschen, Pause-Algorithmus)<br />
…<br />
21.2 okay.<br />
[ 6 SUBJECT] PAUSE<br />
22.1 [.5[.2]Meanwhile],<br />
22.2 there are three little boys,<br />
22.3 [.15] up on the road a little bit,<br />
PAUSE<br />
22.4 and they see this little accident.<br />
PAUSE<br />
23.1 [1.6[.55] And u-h] they come over,<br />
23.2 and they help him,<br />
PAUSE<br />
23.3 [.4 and [.2]] you know,<br />
[ 1 SUBJECT]<br />
23.4 help him pick up the pears and everything.<br />
[ 5 SUBJECTS] PAUSE<br />
24.1 [2.7[1.0] A-nd [1.15]] the one thing that struck me about the- [.3] three little boys that were there,<br />
[1 SUBJECT]<br />
24.2 is that one had ay uh [.4] I don't know what you call them,<br />
24.3 but it's a paddle,<br />
24.4 and a ball-,<br />
PAUSE<br />
24.5 [.2] is attached to the paddle,<br />
24.6 and you know you bounce it?<br />
[ 2 SUBJECTS]<br />
25.1 And that sound was really prominent.<br />
[4 SUBJECTS] PAUSE<br />
26.1 [4.55] Well anyway,<br />
[2 SUBJECTS] PAUSE<br />
26.2 [.45] so- u-m [.1] throat clearing [.45] tsk [1.15]] all the pears are picked up,<br />
26.3 and he's on his way again,<br />
…<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Beispiel (Cue words - Algorithmus)<br />
21.2 okay.<br />
[ 6 SUBJECTS] PAUSE CUE<br />
22.1 [.5[.2]Meanwhile],<br />
22.2 there are three little boys,<br />
22.3 [.15] up on the road a little bit,<br />
PAUSE CUE<br />
22.4 and they see this little accident.<br />
PAUSE CUE<br />
23.1 [1.6[.55] And u-h] they come over,<br />
CUE<br />
23.2 and they help him,<br />
PAUSE CUE<br />
23.3 [.4 and [.2]] you know,<br />
[ 1 SUBJECT]<br />
23.4 help him pick up the pears and everything.<br />
[ 5 SUBJECTS] PAUSE CUE<br />
24.1 [2.7[1.0] A-nd [1.15]] the one thing that struck me about the- [.3] three little boys that were there,<br />
[1 SUBJECT]<br />
24.2 is that one had ay uh [.4] I don't know what you call them,<br />
24.3 but it's a paddle,<br />
CUE<br />
24.4 and a ball-,<br />
PAUSE<br />
24.5 [.2] is attached to the paddle,<br />
CUE<br />
24.6 and you know you bounce it?<br />
[ 2 SUBJECTS] CUE<br />
25.1 And that sound was really prominent.<br />
[4 SUBJECTS] PAUSE CUE<br />
26.1 [4.55] Well anyway,<br />
[2 SUBJECTS] PAUSE<br />
26.2 [.45] so- u-m [.1] throat clearing [.45] tsk [1.15]] all the pears are picked up,<br />
CUE<br />
26.3 and he's on his way again,<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Beispiel (NP - Algorithmus)<br />
21.2 okay.<br />
[ 6 SUBJECTS] PAUSE CUE NP<br />
22.1 [.5[.2]Meanwhile],<br />
22.2 there are three little boys,<br />
22.3 [.15] up on the road a little bit,<br />
PAUSE CUE<br />
22.4 and they see this little accident.<br />
PAUSE CUE<br />
23.1 [1.6[.55] And u-h] they come over,<br />
CUE<br />
23.2 and they help him,<br />
PAUSE CUE<br />
23.3 [.4 and [.2]] you know,<br />
[ 1 SUBJECT]<br />
23.4 help him pick up the pears and everything.<br />
[ 5 SUBJECTS] PAUSE CUE NP<br />
24.1 [2.7[1.0] A-nd [1.15]] the one thing that struck me about the- [.3] three little boys that were there,<br />
[1 SUBJECT]<br />
24.2 is that one had ay uh [.4] I don't know what you call them,<br />
24.3 but it's a paddle,<br />
CUE<br />
24.4 and a ball-,<br />
PAUSE<br />
24.5 [.2] is attached to the paddle,<br />
CUE<br />
24.6 and you know you bounce it?<br />
[ 2 SUBJECTS] CUE<br />
25.1 And that sound was really prominent.<br />
[4 SUBJECTS] PAUSE CUE NP<br />
26.1 [4.55] Well anyway,<br />
[2 SUBJECTS] PAUSE<br />
26.2 [.45] so- u-m [.1] throat clearing [.45] tsk [1.15]] all the pears are picked up,<br />
CUE NP<br />
26.3 and he's on his way again,<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Literatur<br />
� Hearst, M. A. (1993). TextTiling: A quantitative approach to discourse<br />
segmentation. Technischer Report, Technical Report Sequoia 93/24,<br />
Computer Science Division.<br />
� Passonneau, R. und D. J. Litman (1993). Intention based segmentation.<br />
In Proceedings of the 31st Meeting of the Association of Computational<br />
Linguistics (ACL).<br />
� Webber, B. L. (1988). Discourse Deixis: Reference to Discourse<br />
Segments. In Meeting of the Association for Computational Linguistics,<br />
113–122.<br />
� Passonneau, R. und D. J. Litman (1997). Discourse Segmentation by<br />
Human and Automated Means. Computational Linguistics 23(1), 103–<br />
139.<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt
Fragen???<br />
<strong>Diskurssegmentierung</strong> - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt