Diskurssegmentierung_final.pdf

Diskurssegmentierung 

Alina Tokarczyk 

Sascha Orf 

Ulf Schmidt

Übersicht 

� Definitionen 

� Motivation 

� Verfahren 

� Konklusion 

� Beispiel 

� Diskussion 

Diskurssegmentierung - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt

Definitionen 

� Diskurs 

� Form einer verständnisorientierten Kommunikation, in 

der mit Blick auf eine gemeinsame 

Entscheidungsfindung, Aussagen von Argumenten nach 

festgelegten Regeln auf ihre Gültigkeit hin untersucht 

werden. 

� Gesamtheit der über die verschiedensten Kanäle 

ausgearbeiteten und verbreiteten themenbezogenen 

Aussagen. Diese spiegeln Standpunkte bzw. 

Weltanschauungen wider und reproduzieren diese. 

� Man kann Diskurse analysieren und strukturiert 

betrachten. 


Definitionen 

� Diskurssegment 

� ist ein Abschnitt des Diskurses, in dem zwischen 

den Sätzen eine kohärente Verbindung besteht. 

� Diskurssegmentierung 

� Bildung thematischer Makrosegmente zur 

Identifizierung der Diskursstruktur 


Motivation 

� Ziel ist die Segmentierung von Text in 

zusammenhängende, sich nicht überlappende 

Diskurseinheiten 

� Diese sollen mit der tatsächlichen thematischen 

Struktur des Textes übereinstimmen 

� Die Erkennung der Struktur eines Dokumentes zu 

automatisieren ist von Nutzen bei Aufgaben wie 

Textzusammenfassung, Hypertext und Information 

Retrieval 


Verfahren 

� TextTiling 

� Pausen-Algorithmus 

� Cue Words-Algorithmus 

� NP-Algorithmus 

� EA-Algorithmus 

� Machine Learning Tools 


TextTiling 

� Verfahren zur Aufteilung von Texten in kohärente 

Einheiten, die sich über mehrere Absätze erstrecken 

können 

� Anordnung der entstandenen „Tiles“ (Abschnitte) soll 

dabei die inhaltliche Aufteilung des Textes wiedergeben 

� Als Beispiele werden Artikel aus wissenschaftlichen 

Magazinen verwendet 

(bestehen meist aus wenigen Hauptthemen und mehrer 

kürzerer Unterthemen) 


TextTiling 

� Text wird in zusammenhängende „Tiles“ aufgeteilt, die 

nur inhaltliche Schwerpunkte widerspiegeln und nicht die 

Beziehungen zwischen den Themen 

� Ob der betreffende Text nun hierarchisch oder sequentiell 

geordnet wird, spielt keine Rolle 

� Dafür wird eine lexikalische Analyse basierend auf „tf.idf“ 

verwendet um die Größe der Tiles zu bestimmen. (term 

frequency–inverse document frequency) 

� Zusätzlich werden Wortschatz-Informationen mit Hilfe 

eines statistischen Unterscheidungsalgorithmus 

verwendet 


TextTiling 

� Methode von Skorochod`ko (1972): 

� den Text in die einzelnen Sätze aufteilen und nach 

Wordüberlappungen suchen 

� der entstandene Graph gibt dann Aufschluss über den 

Grad der Zusammengehörigkeit untereinander 

� so kann die Struktur des Textes über die 

Verbindungsmuster der Worte definiert werden 

� diese nur auf lexikalische Analyse basierende 

Methode ist schnell berechenbar 


TextTiling 

� Methode von Skorochod`ko 1972: 

� 3 einfache Möglichkeiten um Kohärenz aufzuspüren: die 

Wiederholung von Wörtern 

� ebenso das Auftreten von Wörtern deren Bedeutung 

miteinander in Beziehung stehen (Vulkane -> Lava, 

Eruption) 

� das Auftreten mehrerer Themen gleichzeitig - d.h. es 

können verschiedene (miteinander verwandte) 

Diskussionen existieren, die Bezug aufeinander nehmen. 

Bsp.: Text über Vulkanismus behandelt auch das Thema 

Langzeitschäden… 


TextTiling 

� Der Algorithmus: 

� besteht aus 2 Schritten 

� 1. alle Paare von zusammenhängenden Textblöcken (mit 

durchschnittlich 3-5 Sätzen) werden verglichen und ein 

Ähnlichkeitswert zugewiesen 

� Im 2. Schritt werden die resultierenden Ähnlichkeitswerte 

auf Hoch- und Tiefpunkte untersucht 

� Hohe Werte bedeuten eine starke Kohäsion und niedrige 

eine schwache Zusammengehörigkeit (was auf eine 

inhaltliche Abgrenzung hinweißt) 

� Wobei das Ende einer Diskussion miteinander verwobener 

Themen und nicht eines individuellen Themas gemeint ist 


TextTiling 


TextTiling 

� ein veränderbarer Parameter bei der Analyse ist die Größe der 

Blöcke - dieser Wert, k, variiert von Text zu Text 

(meistens die durchschnittliche Absatzlänge in Sätzen) 

� die Ähnlichkeit wird mit tf.idf - die Häufigkeit eines Terms in 

einem Dokument geteilt durch die Häufigkeit in allen 

Dokumente – gemessen 

� Wörter die in einem individuellen Dokument sehr häufig 

vorkommen, in den restlichen aber eher selten, eignen sich gut 

zum Unterscheiden der Inhalte 

� so lassen sich globales und lokales Auftreten eines Terms 

bestimmen 

� lokal begrenzte Terme bekommen eine höhere Gewichtung als 

Terme die über alle Dokumente gleichmäßig verteilt auftreten 

(stellen keine guten Indikatoren dar) 


TextTiling 

� t - der Term in dem Dokument 

� b - der Block 

� w t,b - die tf.idf Gewichtung des Terms t im Block b 


TextTiling 

� Ähnlichkeitswert zwischen zwei Blöcken ist hoch -> 

Blöcke weisen gemeinsame Terme auf und kommen 

im Rest des Dokumentes eher selten vor 

� Nächster Schritt: der Graph wird mittels 

Glättungsalgorithmen geglättet um zu starke 

Ausschläge auszugleichen 


TextTiling 


TextTiling 

� Anzahl der Wortwiederholungen als Maß ist nicht genug 

-> Wörter mit ähnlicher Bedeutung gruppieren 

� Problem: Mehrdeutigkeit von Worten kann zu falschen 

Verbindungen führen 

� Letzter Schritt: „Statistical Lexical Disambiguation 

Algoritm“ von Yarowsky wird benutzt 

� mit Hilfe eines vorher definierten Wortschatzes wird, nach 

der Analyse des Kontexts des Wortes, die entsprechende 

Kategorie angeben 

� -> Ergebnisse wurden nur hervorgehoben aber nicht 

verschlechtert (Ergebnisse mit und ohne der Kategorie 

Information siehe Grafik) 


TextTiling 


TextTiling 

� Evaluation: 

� Algorithmus liegt oft um einen oder auch mal zwei Sätze 

daneben, aber im Allgemeinen richtig 

� Ein Grund: Leser durften die Grenzen in den Beispieltexten 

– gegen die die Ergebnisse des Algorithmus verglichen 

wurden – nur nach Absätzen ziehen (der Algorithmus aber 

nach jedem Satz) 

� In einigen wenigen Fällen lag der Algorithmus auch total 

daneben 

� Algorithmus eignet sich am besten für stark strukturierte 

Texte 


TextTiling 


Die Studie von 

R.J. Passonneau, D.J. Litman 

zweiteilige Studie, in der die Diskurskorpora sowohl von 

Menschen (naive subjects), als auch von den 

Diskurssegmentierungsalgorithmen in die Segmente 

aufgeteilt wurde. 


Intentionsbasierte 

Diskurssegmentierung von Menschen 

� Segmentierung von 20 Diskursen (Transkriptionen von 

spontanen, gesprochenen Monologen) von Personen nach 

einem nichtlinguistischen Kriterium (Intention des Sprechers; 

„an informal notion of communicative intention“). 

� Einschränkungen: 

1. lineare (nicht hierarchische) Segmentierung gefordert 

2. prosodische Phrasen dürfen nicht getrennt werden (eine 

Grenze kann nur zwischen zwei prosodischen Phrasen gesetzt 

werden) 

� Ziel: Statistisch signifikante Ergebnisse aus den Antworten der 

Teilnehmer ermitteln. 


Intentionsbasierte 

Diskurssegmentierung von Menschen - 

Ergebnisse 

� trotzt der Freiheit der Aufgabe (möglichst wenig 

Anleitungen gegeben), haben die „naiven Subjekte“ 

denselben Diskurs ähnlich segmentiert (ähnliche 

Segmentgrenze oder Segmentrelationen dem Diskurs 

identifiziert), was bedeutet, dass die Ergebnisse nicht 

zufällig auftreten. 

� Übereinstimmungsmaß in Prozent: die 

durchschnittliche prozentuelle Übereinstimmung ist 

größer auf den Nicht-Grenzen (91%) und niedriger 

auf den Grenzen (73%) 


Algorithmische Identifikation 

von Segmentgrenzen 

� Algorithmen, die die Diskurssegmentgrenze 

identifizieren, verwenden die linguistischen 

Informationen wie referentielle Nominalphrasen, cue 

words, Pausen. 

� Jeder Algorithmus benutzt nur eine linguistische 

Eigenschaft um zu sehen, ob auf diese Art und Weise ein 

Diskurs segmentiert werden kann 

� Jeder Algorithmus wurde so konzipiert, dass er den 

Segmentierungsprozess von Menschen nachbildet 

(Diskurskorpus wird in die zusammenhängenden 

Segmente zerlegt, und die Segmentgrenzen fallen 

zwischen den prosodischen Phrasen an). 


Algorithmische Identifikation von 

Segmentgrenzen 

� Input: Set von potentiellen Grenzstellen (die gemäß 

der linguistischen Eigenschaften kodiert werden) 

� Output: Die potentiellen Grenzstellen werden durch 

einen Algorithmus als Segment-Grenzen oder Nicht- 

Grenzen klassifiziert. 


Pausen – Algorithmus 

� Algorithmus identifiziert die Grenzen im Diskurs mit Hilfe 

von Pausen - segmentinitialen Phrasen gehen den länger 

dauernden Pausen voraus. In der Transkription wurde 

die Länge der Pausen in Sekunden in den eckigen 

Klammern notiert. 



� Input: eine sequenzielle Liste mit prosodischen Phrasen, 

Pausen und ihre Dauer. 

� Output: Set von Grenzen (eine Grenze zwischen zwei 

Phrasen (Pn, Pn+1) wird durch eine Pause markiert) 



� Algorithmus: 

if pause = true 

then boundary 

else nonboundary 

� Eine Pause bekommt true-Wert übertragen (eine 

Segmentgrenze), wenn Pn+1 mit [X] (eine X Sekunden 

dauernde Pause) anfängt, ansonsten false (Nicht- 

Grenze). 


Evaluation 

� Um die Algorithmenleistungen zu bestimmen, wurden Information Retrieval- 

Metriken benutzt. 

Algorithm 

Boundary 

Nonboundary 

Boundary 

a 

c 

Subjects 

Nonboundary 

Recall = a/(a+c) 

Precision = a/(a+b) 

Fallout = b/(b+d) 

� Recall - Vollständigkeit eines Ergebnisses 

� Precision – Genauigkeit eines Ergebnisses 

� Idealfall: recall = 1, Precision = 1, Fallout = 0, Error = 0 

b 

d 

Error = (a+c)/(a+b+c+d) 



� Evaluation für Tj≥4 

PAUSE 

MENSCHEN 

Recall 

.92 

.74 

Precision 

.18 

.55 

Fallout 

� Recall ist größer als in der Segmentierung von Menschen; 

precision ist niedrig; fallout und error rate sind groß. 

.54 

.09 

Error 

.49 

.11 

Summierte 

Abweichung 

1.93 

Diskurssegmentierung - Seminar Diskursmodelle Alina Tokarczyk, Sascha Orf, Ulf Schmidt 

.91

Cue words (Hinweiswörter) – 

Algorithmus 

� Hinweiswörter (z.B. and, also, anyway, basically, 

because, but, finally, first, like, meanwhile, no, now, oh, 

okay, only, or, see, so, then, well, where, etc.) werden 

benutzt, um explizit die Struktur eines Diskurses zu 

signalisieren 

� Das Wort an der ersten Stelle einer prosodischen Phrase 

wird mit der Liste aller Hinweiswörter abgeglichen, um 

zu bestimmen, ob dieses Wort ein Hinweiswort ist. 



Algorithmus 

� Input: eine sequenzielle Liste mit den prosodischen 

Phrasen (Textcorpus) 

� Output: Set von Grenzen B (ein Grenze wird als die 

geordnete Paare von zwei prosodischen Phrasen (Pn, 

Pn+1) markiert, wo an der ersten Stelle der Phrase 

Pn+1 das ein neues Segment eröffnende Hinweiswort 

vorkommt. 



Algorithmus 


if (cue1 = true) 

then boundary 


� Cue1 ist wahr (Grenze eines neuen Segments), wenn 

der erste lexikalische Item in Pn+1 (das erste Wort in 

einer Phrase) ein Hinweiswort ist; sonst Nicht-Grenze. 



Algorithmus 

� Evaluation für Tj ≥4 

PAUSE 

CUE 

MENSCHEN 

Recall 

.92 

.72 

.74 

Precision 

.18 

.15 

.55 

Fallout 

� recall ist fast wie bei der Menschen-Segmentierung; 

precision ist niedrig; fallout und error rate sind groß. 

.54 

.53 

.09 

Error 

.49 

.50 

.11 

Summierte 

Abweichung 

1.93 

2.16 


.91

Referential Noun Phrases - 

Algorithmus 

� Input: eine Liste mit 4-Tupels , die alle 

referentiellen NP-s im Text beschreiben 

FICU – Diskursposition 

NP – surface form 

i – referential identity (Index der NP) 

I – set of inferential relations (eine Menge der inferentiellen 

Relationen) 

Beispiel: 25 16.1 You could hear the bicycle 12 , 

16.2 wheels 13 going round. 

coding: 

� Output: ein Set von Grenzen B (eine Grenze wird als 

geordnete Paare prosodischer Phrasen dargestellt (FICU n , 

FICU n+1 ) 


Referential Noun Phrases – 

Algorithmus (FICU) 

� FICU – „Functionally Independent Clause Units“ - 

besteht aus einem Satzteil, der weder verb argument 

(Ergenzung, wie Subjekt, Objekt) noch restriktiver 

Relativsatz ist. 

� Wenn ein neues FICU (aktueller Satz) in der 

prosodischen Phrase P n+1 anfängt, wird die NP im 

aktuellen Satz mit der NP im vorhergehenden Satz 

verglichen. 

� Wenn eine NP im aktuellen FICUn auf ein Objekt 

innerhalb des aktuellen Segments referiert, ist das 

Segment noch nicht zu Ende. 


Die Referenz: 

Referential Noun Phrases – 

Algorithmus (Referenz) 

(1) durch eine koreferentielle NP: 

+coref - wenn NPs im aktuellen Satz und NPs im 

vorhergehenden Satz koreferieren, sonst -coref 

(2) durch eine inferentielle Relation: 

+infer - wenn der Referent der NP im aktuellen Satz einem 

vorhergehenden Satz aufgrund eines vordefinierten Sets 

von Inferenz-Relationen folgern kann, sonst -infer 

(3) durch ein bestimmtes Pronomen: 

+gobal.pro – wenn der Referent eines Definitpronomens im 

aktuellen Satz in einer früheren Äußerung erwähnt wurde, 

jedoch nicht vor der letzten Grenze, sonst -global.pro 



Algorithmus 


for (FICUi-1 to FICUi) 

if (coref = -coref and infer = -infer and global.pro = -global.pro) 

then boundary 


� NP-Grenze wird dort festgesetzt, wo man zu einer neuen 

Einheit (NP) referiert, die keiner vorher gewähnten 

Einheit folgern kann (keine Eigenschaft hat einen 

positiven Wert) 

� Wenn ein neues FICU in Pn+1 nicht eingeführt wird, 

haben die Werte für alle drei Eigenschaften keine 

Angaben (not applicable). 



Algorithmus 

� Evaluation für Tj ≥ 4 

PAUSE 

CUE 

NP 

MENSCHEN 

Recall 

.92 

.72 

.50 

.74 

Precision 

.18 

.15 

.31 

.55 

Fallout 

.54 

.53 

.15 

.09 

Error 

.49 

.50 

.19 

.11 

� error rate und fallout sind kleiner als precission 

Summierte 

Abweichung 

1.93 

2.16 

1.53 


.91

Ergebnisse: 

NP-Algorithmus arbeitet am besten im Vergleich mit 

anderen einfachen Algorithmen (Grund: er basiert 

auf drei Eigenschaften und die CUE- und PAUSE- 

Algorithmen nur auf einer) 


Zusätzliche Algorithmen 

� Die vorgestellten Algorithmen kann man miteinander 

kombinieren, um ein Diskurs zu segmentieren (alle 

Algorithmen paarweise, sowie alle drei zusammen). 

� In diesen Fällen wurde die Präzision verbessert, aber das 

Recall dagegen nicht (wenn kein von den vorgestellten 

Algorithmen: NP, PAUSE und CUE eine Grenze finden 

kann, dann wird sie von einer Algorithmenkombination 

auch nicht gefunden). 

� Kombination PAUSE/NP hat die besten Ergebnisse 

erreicht. 


komplexere Algorithmen 

2 Methoden zur Entwicklung komplexerer 

Segmentierungsalgorithmen 

(komplex = keine simple Kombination von Ergebnissen 

unabhängiger Algorithmen): 

1. Fehleranalyse des am besten abschneidenden 

Algorithmus (NP) 

2. Machine Learning Tools zur automatischen 

Algorithmus-Konstruktion 


Error Analysis (EA) 

Zwei IR-Fehler des NP-Algorithmus führen zu 

falscher Klassifizierung von „nonboundaries“. Diese Fehler hängen 

zusammen mit: 

� der Identifikation von FICUs 

� Inferentiellen Verbindungen 

-> Redefinition der Kodierungseigenschaften Sätze und NPs betreffend 



1. NP-Algorithmus - Verbesserung 

FICU (Functionally Independent Clause Unit) - Redefinition 

Phrasen ohne relevante Information werden nicht mehr 

als FICU klassifiziert 



Phrasen ohne relevante Information: 

Äußerungen, die die syntaktischen Eigenschaften eines Satzes 

haben, aber als Interjektionen (Ausruf/Zwischenruf) zu betrachten 

sind. 

Beispiele: „let's see“, „let me see“, „I don't know“,... 

=> Reduzierung der FICU – Anzahl bedeutet 

weniger potentielle Grenzen 



2. NP-Algorithmus - Verbesserung 

„infer“-Redefinition 

� Berücksichtigung von Diskurs-Deixis 

-> Orte, an denen Referenten stehen können sind 

weniger eingeschränkt 

� Definition neuer Inferenz-Relationen 



Alte infer-Definition: 

Relation zwischen dem Referenten einer Nominalphrase in einer 

Äußerung und dem Referenten einer Nominalphrase in einer 

vorangegangenen Äußerung 

Neue (gelockerte) infer Definition: 

Relation zwischen einem NP-Referenten und einem Referenten, der 

an jeder Stelle der vorangehenden Äußerung stehen kann 

=> Reduzierung der potentiellen Grenzen,weil 

keine Grenze zwischen Referenzen (Links) 

stehen darf 



EA-Algorithmus: 

if(coref = -coref and infer = -infer and global.pro = -global.pro) 

then boundary 

else if(cue-prosody = complex) 

then boundary 




cue-prosody: Kombination von prosodischen und cue-word 

Eigenschaften 

cue-prosody is complex if 

1. before = '+sentence.final.contour' 

2. pause = 'true' 

3. and either: 

(a) cue 1 = 'true', word 1 != 'and' 

(b) cue 1 = 'true', word1 = 'and', cue 2 = 'true', word2 != 'and' 

else cue-prosody has the same values as pause 



Test Set Leistungsvergleich: 

Average Recall Precision Fallout Error Summed Deviation 

Boundary Threshold = 3 

NP .44 .29 .16 .21 1.64 

EA .50 .44 .11 .17 1.34 


NP .56 .25 .16 .20 1.55 

EA .60 .37 .11 .15 1.30 



� EA ist eine sinnvolle Methode um herauszufinden, wie man 

die Daten am besten kodiert 

� Sie verbessert Eigenschaften und Algorithmen durch 

Analysen der Fehler in den Testdaten 


Machine Learning (ML) 

Eingesetze Sotware: ML-Programm “C4.5“ 

� erzeugt Klassifikationsalgorhithmus 

� Repräsentation als Entscheidungsbaum 

� die Klasse einer potentiellen Grenze wird mit Hilfe ihrer 

Eigenschaftswerte vorrausberechnet 



Komplexer Decision Tree: 

Jede Ebene des Baums 

repräsentiert den Test für 

eine Eigenschaft, mit 

einem Ast für jedes mögliche 

Ergebnis, d.h. er führt 

entweder dazu, dass die 

Klasse (i.d.R. boundary / 

nonboundary) erzeugt wird 

oder zu einem weiteren Test. 



� Jede potentielle Position für eine Grenze wurde klassifiziert 

und als Set linguistischer Eigenschaften repräsentiert 

� C4.5 Input: 

� Training Data 

� Spezifikation der Klassen (boundary, nonboundary) 

� Festes “Coding Features“ - Set 

� spezifiziert wurden (10 Erzählungen, 1004 Beispiele für 

potentielle Grenzpositionen) 



Leistungsvergleich (Mensch – EA – ML): 

Average Recall Precision Fallout Error Summed Deviation 


Training Set .63 .72 .06 .12 .83 (Human) 

EA .50 .44 .11 .17 1.34 

ML .54 .76 .04 .11 .85 


Training Set .74 .55 .09 .11 .91 (Human) 

EA .60 .37 .11 .15 1.30 

ML .47 .84 .01 .07 .77 



� Bei T=3 ist ist die Performanz von ML mit der der menschl. 

Bewerter vergleichbar 

� Bei T=4 ist ML besser, ebenfalls besser als EA! 

� Bei Testdaten (nicht Trainingsdaten!) sinkt die Performanz! 



� Machine Learning ist kostenintensiv 

� Automatisierte Erzeugung optimal arbeitender Algorithmen 

� Grundlage: gut kodierte Daten 


EA und ML 

Belegte Hypothesen: 

� Die Methoden liefern auch außerhalb der Testdaten 

brauchbare Ergebnisse 

� Pear Segmentierung (Diskursfokus-Struktur) steigert die 

Leistung von Generierungsalgorithmen 

Es gibt weitere, verbesserte Versionen der Algorithmen 


Zusammenfassung 

� Einige handkodierte Funktionalitäten könnten 

automatisiert erstellt werden um weiteren Nutzen daraus 

zu ziehen 

� der gesprochene Korpus könnte durch Sprachgenerierung 

ersetzt werden 

� würde neue Fehlerquellen nach sich ziehen 

� die hier entwickelten Algorithmen können weiter benutzt 

werden 


Beispiel 

… 

okay. 

Meanwhile, 

there are three little boys, 

up on the road a little bit, 

and they see this little accident. 

And u-h they come over, 

and they help him, 

and you know, 

help him pick up the pears and everything. 

A-nd the one thing that struck me about the- three little boys that were there, 

is that one had ay uh I don't know what you call them, 

but it's a paddle, 

and a ball-, 

is attached to the paddle, 

and you know you bounce it? 

And that sound was really prominent. 

Well anyway, 

so- u-m tsk all the pears are picked up, 

and he's on his way again, 

… 


Beispiel (Menschen, Pause-Algorithmus) 

… 

21.2 okay. 

[ 6 SUBJECT] PAUSE 

22.1 [.5[.2]Meanwhile], 

22.2 there are three little boys, 

22.3 [.15] up on the road a little bit, 

PAUSE 

22.4 and they see this little accident. 

PAUSE 

23.1 [1.6[.55] And u-h] they come over, 

23.2 and they help him, 

PAUSE 

23.3 [.4 and [.2]] you know, 

[ 1 SUBJECT] 

23.4 help him pick up the pears and everything. 

[ 5 SUBJECTS] PAUSE 

24.1 [2.7[1.0] A-nd [1.15]] the one thing that struck me about the- [.3] three little boys that were there, 

[1 SUBJECT] 

24.2 is that one had ay uh [.4] I don't know what you call them, 

24.3 but it's a paddle, 

24.4 and a ball-, 

PAUSE 

24.5 [.2] is attached to the paddle, 

24.6 and you know you bounce it? 

[ 2 SUBJECTS] 

25.1 And that sound was really prominent. 

[4 SUBJECTS] PAUSE 

26.1 [4.55] Well anyway, 


26.2 [.45] so- u-m [.1] throat clearing [.45] tsk [1.15]] all the pears are picked up, 

26.3 and he's on his way again, 

… 


Beispiel (Cue words - Algorithmus) 

21.2 okay. 

[ 6 SUBJECTS] PAUSE CUE 

22.1 [.5[.2]Meanwhile], 



PAUSE CUE 


PAUSE CUE 


CUE 


PAUSE CUE 

23.3 [.4 and [.2]] you know, 

[ 1 SUBJECT] 


[ 5 SUBJECTS] PAUSE CUE 


[1 SUBJECT] 



CUE 


PAUSE 


CUE 


[ 2 SUBJECTS] CUE 


[4 SUBJECTS] PAUSE CUE 




CUE 



Beispiel (NP - Algorithmus) 

21.2 okay. 

[ 6 SUBJECTS] PAUSE CUE NP 

22.1 [.5[.2]Meanwhile], 



PAUSE CUE 


PAUSE CUE 


CUE 


PAUSE CUE 

23.3 [.4 and [.2]] you know, 

[ 1 SUBJECT] 


[ 5 SUBJECTS] PAUSE CUE NP 


[1 SUBJECT] 



CUE 


PAUSE 


CUE 


[ 2 SUBJECTS] CUE 


[4 SUBJECTS] PAUSE CUE NP 




CUE NP 



Literatur 

� Hearst, M. A. (1993). TextTiling: A quantitative approach to discourse 

segmentation. Technischer Report, Technical Report Sequoia 93/24, 

Computer Science Division. 

� Passonneau, R. und D. J. Litman (1993). Intention based segmentation. 

In Proceedings of the 31st Meeting of the Association of Computational 

Linguistics (ACL). 

� Webber, B. L. (1988). Discourse Deixis: Reference to Discourse 

Segments. In Meeting of the Association for Computational Linguistics, 

113–122. 

� Passonneau, R. und D. J. Litman (1997). Discourse Segmentation by 

Human and Automated Means. Computational Linguistics 23(1), 103– 

139. 


Fragen???

Diskurssegmentierung_final.pdf

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?