Slides - Universiteit Utrecht
Slides - Universiteit Utrecht
Slides - Universiteit Utrecht
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Complexiteit<br />
Anna Chernilovskaya<br />
<strong>Universiteit</strong> <strong>Utrecht</strong><br />
Inleiding Taalkunde<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 1 / 47
Vandaag: Complexiteit<br />
• Hoofdstuk 12, sectie 12.6: voorproefje op hoofdstuk 16<br />
• Hoofdstuk 14, sectie 14.10: complexiteit van parsing<br />
(achtergrondmateriaal, hier komen statistische termen in voor die<br />
we niet behandelen)<br />
• Hoofdstuk 16: complexiteit<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 2 / 47
Waarom bestuderen we complexiteit?<br />
• Omdat er verschillende soorten formele talen zijn<br />
• Om formele modellen te kunnen vergelijken<br />
• Om de complexiteit van de morfologie/syntaxis/. . . van een<br />
natuurlijke taal te bepalen<br />
• Om te kunnen bepalen welke formele modellen voor een deel van<br />
een natuurlijke taal te gebruiken<br />
• Waarom zijn sommige constructies in natuurlijke talen zo moeilijk<br />
te begrijpen?<br />
• Zijn alle natuurlijke talen “even complex”?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 3 / 47
Het college vandaag<br />
• Formele talen & de Chomsky-hierarchie<br />
• De generatieve kracht van talen<br />
• Modellen voor formele talen<br />
• Hoe herken je de generatieve kracht: het pumping-lemma<br />
• Welke generatieve kracht is nodig voor (de syntaxis van) natuurlijke<br />
talen<br />
• Complexiteit bij menselijke taalverwerking<br />
• Methode<br />
• Garden path-zinnen<br />
• Experimenten<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 4 / 47
Formele Talen (I)<br />
Een formele taal is een verzameling symbolenrijtjes, ofwel een<br />
verzameling strings<br />
• Een formele taal over alfabet {a, b, c}:<br />
{abc, aabbcc, aaabbbccc, . . .}<br />
• Alfabet {0, 1}: {01, 001, 0001, 00001, 000001, . . .}<br />
• Alfabet {a, b, c, . . . z}: {sofuto, kanazawa, riku, arigato, . . .}<br />
• Alfabet {Jan, Marie, haat, kust, . . .}:<br />
{Jan kust Marie, Marie kust Jan, Jan haat Marie, . . . }<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 5 / 47
Formele Talen (II)<br />
• Hoe definieer je een formele taal?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 6 / 47
Formele Talen (II)<br />
• Hoe definieer je een formele taal?<br />
• Met een grammatica die de verzameling strings in de taal genereert<br />
• Met een automaat die de verzameling strings in de taal herkent<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 6 / 47
Formele Talen (II)<br />
• Hoe definieer je een formele taal?<br />
• Met een grammatica die de verzameling strings in de taal genereert<br />
• Met een automaat die de verzameling strings in de taal herkent<br />
S → bA<br />
ab<br />
A → abA<br />
A → ɛ<br />
q 0<br />
b q 1<br />
b(ab) ∗<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 6 / 47
Formele Talen (III)<br />
Een vb. van Context-Free Grammar (CFG):<br />
S → NP VP<br />
S → Aux NP VP<br />
S → VP<br />
NP → Pronoun<br />
NP → Proper-Noun<br />
NP → Det Nominal<br />
Nominal → Noun<br />
Nominal → Nominal Noun<br />
Nominal → Nominal PP<br />
VP → Verb<br />
VP → Verb NP<br />
VP → Verb NP PP<br />
VP → Verb PP<br />
VP → VP PP<br />
PP → Preposition NP<br />
Det → that | this | a<br />
Noun → book | flight | meal | money<br />
Verb → book | include | prefer<br />
Pronoun → I | she | me<br />
Proper-Noun → Houston | TWA<br />
Aux → does<br />
Preposition → from | to | on | near | through<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 7 / 47
Vragen over formele talen<br />
• In welke interessante formele opzichten verschillen die talen?<br />
• Is er bv. een interessant verschil tussen de volgende 2 talen?<br />
• {b, bab, babab, bababab, . . .}<br />
• {ba, bbaa, bbbaaa, bbbbaaaa, . . .}<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 8 / 47
Vragen over formele talen<br />
• In welke interessante formele opzichten verschillen die talen?<br />
• Is er bv. een interessant verschil tussen de volgende 2 talen?<br />
• {b, bab, babab, bababab, . . .}<br />
• {ba, bbaa, bbbaaa, bbbbaaaa, . . .}<br />
• Antwoord: Ja!<br />
formele talen zijn in te delen in complexiteitsklassen<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 8 / 47
Vragen over formele talen<br />
• In welke interessante formele opzichten verschillen die talen?<br />
• Is er bv. een interessant verschil tussen de volgende 2 talen?<br />
• {b, bab, babab, bababab, . . .}<br />
• {ba, bbaa, bbbaaa, bbbbaaaa, . . .}<br />
• Antwoord: Ja!<br />
formele talen zijn in te delen in complexiteitsklassen<br />
• Wat is een relatie tussen FSA’s, context-vrije grammatica’s,<br />
fonologische herschrijfregels, etc.?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 8 / 47
De Chomsky-hiërarchie<br />
Recursief Opsombare Talen<br />
Context-gevoelige Talen<br />
Context-vrije Talen<br />
Reguliere Talen<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 9 / 47
Het idee achter de Chomsky-hierarchie<br />
• De Chomsky-hierarchie verdeelt formele talen in 4 klassen<br />
• Bij elke klasse hoort een klasse van grammatica’s en automaten<br />
• De klassen verschillen in kracht<br />
• Hoe krachtiger een grammatica/automaat, hoe meer (soorten)<br />
talen hij kan genereren/herkennen<br />
• (alle “zwakkere” talen zijn herkenbaar door “sterkere”<br />
grammatica’s/automaten)<br />
• bijv. een grammatica/automaat voor context-gevoelige talen kan<br />
ook alle context-vrije en reguliere talen genereren<br />
• Vermindering in kracht van talen komt door extra constraints op<br />
herschrijfregels<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 10 / 47
De Chomsky-hierarchie<br />
(sterk )<br />
Grammar Language Grammar Automaton<br />
Type 0 recursief opsombare<br />
α → β Turing machine<br />
talen (α ≠ ɛ), un-<br />
(recursively<br />
enumerable)<br />
restricted<br />
grammar<br />
Type 1 context-gevoelige αAβ → linear-bounded<br />
talen (context αγβ (γ ≠ ɛ) non-deterministic<br />
sensitive)<br />
Turing machine<br />
Type 2 context-vrije talen A → γ push-down automaat<br />
(context free)<br />
Type 3 reguliere talen A → u, eindige automaten<br />
(regular)<br />
A → uB<br />
(en reg-<br />
uliere expressies)<br />
(zwak )<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 11 / 47
Type 3<br />
Type 3 reguliere talen A → uB eindige automaten<br />
A → u (en reguliere expressies)<br />
• Reguliere talen: precies de klasse talen die herkend kan worden<br />
door eindige automaten (FSA)<br />
• Precies de klasse talen die je met reguliere expressies kan<br />
beschrijven<br />
• Precies de klasse talen die gegenereerd kan worden door<br />
reguliere grammatica’s<br />
• Regels van de vorm: A → uB en A → u (right-linear)<br />
Óf regels van de vorm: A → Bu en A → u (left-linear)<br />
• A, B ∈ V (niet-terminals), u ∈ Σ ∗ (een string)<br />
• (niet-terminale symbolen transformeren naar een string van terminale<br />
symbolen, eventueel gevolgd/voorafgegaan door een niet-terminaal<br />
symbool)<br />
• Dus niet: A → bAc, A → BC<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 12 / 47
Type 3: {b, bab, babab, bababab, . . .} (I)<br />
ab<br />
q 0<br />
b q 1<br />
b(ab) ∗<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47
Type 3: {b, bab, babab, bababab, . . .} (I)<br />
ab<br />
q 0<br />
b q 1<br />
b(ab) ∗<br />
• S→bA<br />
A→ ɛ<br />
A→aS<br />
Rechts-lineaire reguliere grammatica<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47
Type 3: {b, bab, babab, bababab, . . .} (I)<br />
ab<br />
q 0<br />
b q 1<br />
b(ab) ∗<br />
• S→bA<br />
A→ ɛ<br />
A→aS<br />
• S→Ab<br />
A→ ɛ<br />
A→Sa<br />
Rechts-lineaire reguliere grammatica<br />
Links-lineaire reguliere grammatica<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47
Type 3: {b, bab, babab, bababab, . . .} (I)<br />
ab<br />
q 0<br />
b q 1<br />
b(ab) ∗<br />
• S→bA<br />
A→ ɛ<br />
A→aS<br />
• S→Ab<br />
A→ ɛ<br />
A→Sa<br />
• S→ b<br />
S→ T<br />
T→ b A b<br />
A → a<br />
A → a S a<br />
Rechts-lineaire reguliere grammatica<br />
Links-lineaire reguliere grammatica<br />
Dit is geen reguliere grammatica<br />
maar wel een reguliere taal<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47
Type 3: {b, bab, babab, bababab, . . .} (I)<br />
ab<br />
q 0<br />
b q 1<br />
b(ab) ∗<br />
• S→bA<br />
A→ ɛ<br />
A→aS<br />
• S→Ab<br />
A→ ɛ<br />
A→Sa<br />
Rechts-lineaire reguliere grammatica<br />
Links-lineaire reguliere grammatica<br />
• S→ b<br />
S→ T<br />
T→ b A b<br />
A → a<br />
A → a S a<br />
Dit is geen reguliere grammatica<br />
maar wel een reguliere taal<br />
Gevolg: voor elke reguliere taal bestaat er een rechtslineaire<br />
grammatica die deze taal herkent.<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47
Type 3: {b, bab, babab, bababab, . . .} (II)<br />
ab<br />
Rechts-lineaire grammatica:<br />
S → bA<br />
q 0<br />
b q A → abA<br />
1<br />
A → ɛ<br />
• Voor elke FSA is er een rechts-lineaire grammatica<br />
• Voor elke rechts-lineaire grammatica is er een FSA<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 14 / 47
De Chomsky-hiërarchie<br />
Recursief Opsombare Talen<br />
Context-gevoelige Talen<br />
Context-vrije Talen<br />
Reguliere Talen<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 15 / 47
Type 2<br />
Type 2 context-vrije talen<br />
(context free)<br />
• Context-vrije talen<br />
A → γ<br />
push-down automaat<br />
• Precies de klasse talen die herkend kan worden met push-down<br />
automaten (zie volgende slide)<br />
• Precies de klasse talen die gegenereerd kan worden door<br />
context-vrije grammatica’s<br />
• Regels van de vorm: A→ γ<br />
• γ is een rijtje symbolen (terminals of non-terminals)<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 16 / 47
Type 2<br />
Type 2 context-vrije talen<br />
(context free)<br />
• Context-vrije talen<br />
A → γ<br />
push-down automaat<br />
• Precies de klasse talen die herkend kan worden met push-down<br />
automaten (zie volgende slide)<br />
• Precies de klasse talen die gegenereerd kan worden door<br />
context-vrije grammatica’s<br />
• Regels van de vorm: A→ γ<br />
• γ is een rijtje symbolen (terminals of non-terminals)<br />
• Voorbeeld van context-vrije grammatica:<br />
S→bSa<br />
S→ ɛ<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 16 / 47
Type 2<br />
Type 2 context-vrije talen<br />
(context free)<br />
• Context-vrije talen<br />
A → γ<br />
push-down automaat<br />
• Precies de klasse talen die herkend kan worden met push-down<br />
automaten (zie volgende slide)<br />
• Precies de klasse talen die gegenereerd kan worden door<br />
context-vrije grammatica’s<br />
• Regels van de vorm: A→ γ<br />
• γ is een rijtje symbolen (terminals of non-terminals)<br />
• Voorbeeld van context-vrije grammatica:<br />
S→bSa<br />
S→ ɛ<br />
• Bijbehorende taal: b n a n<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 16 / 47
Type 2 (II)<br />
Push-down automaat: een finite state automaat die van een stack<br />
gebruik maakt<br />
Taal: {0 n 1 n | n ≥ 0}<br />
PDA:<br />
0; Z /AZ<br />
0; A/AA<br />
p<br />
ɛ<br />
1; A/ɛ<br />
q<br />
ɛ; Z /Z<br />
r<br />
• PDA’s gebruiken een stack te bepalen welke transitie te maken<br />
• De inhoud van de stack kan veranderd worden in een transitie<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 17 / 47
Type 3 en 2<br />
• De Chomsky-hierarchie is een hierarchie<br />
• Context-vrije grammatica’s genereren ook reguliere talen!<br />
• Context-vrije grammatica’s hebben grotere generatieve kracht dan<br />
reguliere grammatica’s<br />
• Reguliere grammatica’s zijn tegelijkertijd context-vrij<br />
• Regulier: A → uB of A → u<br />
• Context-vrij: A → γ (γ is een rijtje symbolen)<br />
• b(ab) ∗ = {b, bab, babab, . . .} is zowel een reguliere als een<br />
context-vrije taal.<br />
• {b n a n | n ≥ 1} = {ba, bbaa, bbbaaa, . . .} is een context-vrije taal,<br />
maar geen reguliere taal.<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 18 / 47
Probeer het uit<br />
The context-free grammar tool:<br />
http://smlweb.cpsc.ucalgary.ca/<br />
S → NP VP<br />
S → Aux NP VP<br />
S → VP<br />
NP → Pronoun<br />
NP → Proper-Noun<br />
NP → Det Nominal<br />
Nominal → Noun<br />
Nominal → Nominal Noun<br />
Nominal → Nominal PP<br />
VP → Verb<br />
VP → Verb NP<br />
VP → Verb NP PP<br />
VP → Verb PP<br />
VP → VP PP<br />
PP → Preposition NP<br />
Det → that | this | a<br />
Noun → book | flight | meal | money<br />
Verb → book | include | prefer<br />
Pronoun → I | she | me<br />
Proper-Noun → Houston | TWA<br />
Aux → does<br />
Preposition → from | to | on | near | through<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 19 / 47
De Chomsky-hiërarchie<br />
Recursief Opsombare Talen<br />
Context-gevoelige Talen<br />
Context-vrije Talen<br />
Reguliere Talen<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 20 / 47
Type 1<br />
Type 1<br />
• Context-gevoelige talen<br />
αAβ → αγβ<br />
(γ ≠ ɛ)<br />
context-gevoelige<br />
talen (context sensitive)<br />
linear-bounded nondeterministic<br />
Turing<br />
machine<br />
• Precies de klasse talen die door een lineair gebonden automaat<br />
herkend kan worden (gaan we het niet over hebben)<br />
• Precies de klasse talen die door een context-gevoelige<br />
grammatica kan worden gegenereerd<br />
• Regels van de vorm:<br />
αAβ → αγβ<br />
(α, β, γ zijn hier willekeurige strings van terminale of niet-terminale<br />
symbolen; γ is niet ɛ)<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 21 / 47
Type 1<br />
Regel uit context-sensitive grammatica: αAβ → αγβ met γ ≠ ɛ<br />
1 S → aSBC<br />
2 S → aBC<br />
3 CB → HB<br />
4 HB → HC<br />
5 HC → BC<br />
6 aB → ab<br />
7 bB → bb<br />
8 bC → bc<br />
9 cC → cc<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 22 / 47
Type 1<br />
Regel uit context-sensitive grammatica: αAβ → αγβ met γ ≠ ɛ<br />
1 S → aSBC<br />
2 S → aBC<br />
3 CB → HB<br />
4 HB → HC<br />
5 HC → BC<br />
6 aB → ab<br />
7 bB → bb<br />
8 bC → bc<br />
9 cC → cc<br />
• Geeft: a n b n c n voor n ≥ 1<br />
• Deze taal kan niet context-vrij gegenereerd worden<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 22 / 47
De Chomsky-hiërarchie<br />
Recursief Opsombare Talen<br />
Context-gevoelige Talen<br />
Context-vrije Talen<br />
Reguliere Talen<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 23 / 47
Type 0<br />
Type 0<br />
recursief opsombare<br />
talen (recursively<br />
enumerable)<br />
α → β (α ≠ ɛ)<br />
Turing machine<br />
• Recursief opsombare talen<br />
• De klasse talen die door een Turing machine herkend kunnen<br />
worden<br />
• Turing machine:<br />
• De klasse talen die door een onbeperkte grammatica<br />
gegenereerd kunnen worden<br />
• Elke regel . . . → . . . is toegestaan<br />
zo lang de linker-kant niet gelijk is aan ɛ<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 24 / 47
Hoe herken je formele talen?<br />
• Hoe weet je welke soort regels te gebruiken voor een bepaalde<br />
taal (bijv. grammatica van Engels)?<br />
• Voor formele talen is er een manier om dat te bepalen<br />
Enkele typische patronen:<br />
• Reguliere talen kunnen locale afhankelijkheden aan<br />
{bab, babab, bababab, . . .}<br />
• Context-vrije talen kunnen geneste afhankelijkheden aan<br />
{lepel, parterretrap, bob, . . .}<br />
• Context-gevoelige talen kunnen gekruiste afhankelijkheden aan<br />
{abcabc, bcabca, cbacba, . . .}<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 25 / 47
Erkenning van reguliere talen<br />
• Te laten zien dat een taal regulier is: bouw een reguliere expressie<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 26 / 47
Erkenning van reguliere talen<br />
• Te laten zien dat een taal regulier is: bouw een reguliere expressie<br />
• Het pumping lemma gebruik je om aan te tonen dat een taal niet<br />
regulier is<br />
• Reguliere talen:<br />
• eindig geheugen (onafhankelijk van de string lengte) door<br />
vastliggend aantal states<br />
• strings met meer symbolen dan het aantal toestanden moeten dus<br />
gemaakt zijn mbv een loop<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 26 / 47
Erkenning van reguliere talen<br />
• Te laten zien dat een taal regulier is: bouw een reguliere expressie<br />
• Het pumping lemma gebruik je om aan te tonen dat een taal niet<br />
regulier is<br />
• Reguliere talen:<br />
• eindig geheugen (onafhankelijk van de string lengte) door<br />
vastliggend aantal states<br />
• strings met meer symbolen dan het aantal toestanden moeten dus<br />
gemaakt zijn mbv een loop<br />
• Het pumping-lemma:<br />
Laat L een reguliere taal zijn.<br />
Dan bestaan er strings x, y, z met y niet-leeg zodat<br />
xy n z ∈ L voor n ≥ 0<br />
• Toepassing: als je voor een expressie in taal L geen x, y, z kunt<br />
vinden waarvoor y gepumpt kan worden, dan is L geen reguliere<br />
taal<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 26 / 47
Toepassing van het pumping lemma<br />
Laat L een reguliere taal zijn.<br />
Dan bestaan er strings x, y, z met y niet-leeg zodat xy n z ∈ L<br />
voor n ≥ 0<br />
Is a n b n regulier?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 27 / 47
Toepassing van het pumping lemma<br />
Laat L een reguliere taal zijn.<br />
Dan bestaan er strings x, y, z met y niet-leeg zodat xy n z ∈ L<br />
voor n ≥ 0<br />
Is a n b n regulier?<br />
Mogelijkheden voor toepassing v/h lemma<br />
• y bestaat alleen uit a’s: dan bestaat x uit a’s en z bestaat uit alle<br />
b’s: y kan niet gepompt worden<br />
• y bestaat alleen uit b’s: dan bestaat x uit alle a’s en z uit de rest<br />
van de b’s: y kan niet gepompt worden<br />
• y bestaat uit a’s en b’s: dan bestaat x uit a’s en z uit b’s: xy n z zal<br />
nu b’s in zich hebben die voor a’s staan<br />
=> Gevolg: deze taal is niet regulier<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 27 / 47
Toepassing van het pumping lemma<br />
Laat L een reguliere taal zijn.<br />
Dan bestaan er strings x, y, z met y niet-leeg zodat xy n z ∈ L<br />
voor n ≥ 0<br />
Is a n b n regulier?<br />
Mogelijkheden voor toepassing v/h lemma<br />
• y bestaat alleen uit a’s: dan bestaat x uit a’s en z bestaat uit alle<br />
b’s: y kan niet gepompt worden<br />
• y bestaat alleen uit b’s: dan bestaat x uit alle a’s en z uit de rest<br />
van de b’s: y kan niet gepompt worden<br />
• y bestaat uit a’s en b’s: dan bestaat x uit a’s en z uit b’s: xy n z zal<br />
nu b’s in zich hebben die voor a’s staan<br />
=> Gevolg: deze taal is niet regulier<br />
• Let op! Als we een string y kunnen pompen, betekent dat nog<br />
niet dat de taal regulier is (vb.: {a k b m a n | k = 0 of m = n})<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 27 / 47
De Chomsky-Hierarchie en Natuurlijke Taal<br />
• Met welke soorten formele talen corresponderen aspecten van<br />
natuurlijke taal?<br />
• Welke grammatica’s hebben we nodig voor natuurlijke taal?<br />
• Met andere woorden: wat is krachtig genoeg, maar niet te<br />
krachtig?<br />
• Niet te krachtig:<br />
• Krachtige mechanismen zijn computationeel lastiger<br />
• Krachtige mechanismen leren ons niets over de limieten van<br />
cognitieve modules<br />
• We gaan nu onderzoeken wat voor talen we nodig hebben om<br />
natuurlijke taal te modelleren...<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 28 / 47
Fonologie<br />
• Generatieve fonologie gebruikte context-gevoelige regels<br />
• Fonologische regel voor flapping: /t/ → [dx]/ ´V V<br />
• Computationele fonologie erkent dat context-gevoelige<br />
grammatica’s te krachtig zijn<br />
• Fonologische (en ook morfologische) processen kunnen met een<br />
reguliere taal gemodelleerd worden<br />
• Zijn misschien alle talige fenomenen modeleerbaar met eindige<br />
automaten?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 29 / 47
Center-embedding<br />
The man likes Mary.<br />
The man the boy saw likes Mary.<br />
The man the boy the dog bit saw likes Mary.<br />
The man the boy the dog the cat chased bit saw likes Mary.<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 30 / 47
Center-embedding<br />
The man likes Mary.<br />
The man the boy saw likes Mary.<br />
The man the boy the dog bit saw likes Mary.<br />
The man the boy the dog the cat chased bit saw likes Mary.<br />
• Hoe meer center-embedding, hoe moeilijker te begrijpen<br />
• Toch bestaan er goeie voorbeelden van herhaalde<br />
center-embedding<br />
The pictures that the photographer who I met at the party took<br />
turned out very well.<br />
• Idee: herhaalde center-embedding is grammaticaal, maar moeilijk<br />
te begrijpen door limieten aan ons korte-termijn-geheugen<br />
• Gevolg: Engels (competence) is niet regulier (zie volgende slide)<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 30 / 47
Center-embedding / pumping lemma<br />
The man the boy the dog bit saw likes Mary.<br />
NP NP NP V V VP<br />
• Center-embedding-zinnen:<br />
• Een n aantal NPs<br />
• gevolgd door een n − 1 aantal Vs<br />
• gevolgd door een VP<br />
• Ofwel: a n b n−1 c<br />
=> niet regulier<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 31 / 47
Dus natuurlijke taal is context-vrij?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 32 / 47
Dus natuurlijke taal is context-vrij?<br />
• Engelse syntaxis is niet regulier<br />
• Is een context-vrije grammatica genoeg?<br />
• Schwyzerdütsch (Zwitserland/Italië)<br />
• (1) mer d’chind em Hans es huus haend wele laa hälfe<br />
we de-kinderen de Hans het huis hebben willen laten helpen<br />
aastriiche<br />
schilderen<br />
• [de kinderen].ACC [Hans].DAT [es huus].ACC haen wele [laa] ACC<br />
[hälfe] DAT [aastriiche] ACC<br />
• X (NP-dat) m (NP-acc) n (V dat ) m (Vacc) n Y<br />
• Deze kruisende afhankelijkheden zijn typisch voor<br />
context-gevoelige talen:<br />
voorbeeld: a n b m c n d m is context-gevoelig en niet<br />
context-vrij<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 32 / 47
Meer kruisende afhankelijkheden<br />
dat Jan Marie het kind zag helpen leren zwemmen<br />
omdat ik Jan Piet de nijlpaarden zag helpen voeren<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 33 / 47
Mildly context sensitive languages<br />
• kunnen kruisende afhankelijkheden behandelen<br />
• hebben polynomische parsing<br />
• Minimalist grammars<br />
• Combinatorial categorial grammars<br />
• Tree-adjoining grammars<br />
• elementair unit te herschrijven is een boom<br />
• twee soorten bomen: initial tree voor simpele structuren, auxiliary<br />
tree voor recursie<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 34 / 47
Conclusie<br />
• Er zijn aanwijzigingen dat natuurlijke talen niet regulier zijn<br />
• Er zijn aanwijzigingen dat talen als het Nederlands en het<br />
Schwyzerdütsch niet context-vrij zijn<br />
• Kanttekeningen:<br />
• Zinnen die op een context-vrije grammatica duiden zijn moeilijk te<br />
begrijpen (center-embedding)<br />
• Kruisende afhankelijkheden komen zelden voor in talen<br />
• Al deze overwegingen beperken zich tot syntaxis<br />
• De aanname is dat center-embedding en kruisende<br />
afhankelijkheden oneindig diep toepasbaar zijn<br />
• Het is dus interessant om wat beter te kijken wat nu het verwerken<br />
van bepaalde zinnen moeilijk maakt<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 35 / 47
Complexiteit bij menselijke taalverwerking<br />
• Niet alle grammaticale zinnen zijn even gemakkelijk te verwerken<br />
(processing)<br />
Lees bijvoorbeeld de volgende zin:<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 36 / 47
The horse raced past the barn fell
Ik heb de stoel aangeboden op het internet onlangs gekocht.
Complexiteit bij menselijke taalverwerking<br />
• Niet alle grammaticale zinnen zijn even gemakkelijk te verwerken<br />
(processing)<br />
The horse raced past the barn fell<br />
• Hoe meet je eigenlijk of mensen moeite met een zin hebben?<br />
• Waardoor ontstaan processing-problemen?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 38 / 47
Gardenpath-zinnen<br />
• “To lead someone up/down the gardenpath” ∼ iemand op een<br />
dwaalspoor brengen<br />
• Beroemdste voorbeeld:<br />
The horse raced past the barn fell<br />
• Probleem: je begint met de zin te verwerken voordat we de hele<br />
zin gehoord hebben<br />
• . . . maar je neemt het verkeerde pad<br />
• Je neemt aan dat the horse het onderwerp is en raced het<br />
werkwoord.<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 39 / 47
The horse raced past the barn fell<br />
NP<br />
Det<br />
the<br />
N<br />
horse<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47
The horse raced past the barn fell<br />
S<br />
NP<br />
VP<br />
Det<br />
the<br />
N<br />
horse<br />
V<br />
raced<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47
The horse raced past the barn fell<br />
S<br />
NP<br />
VP<br />
Det<br />
the<br />
N<br />
horse<br />
V<br />
raced<br />
P<br />
PP<br />
NP<br />
past<br />
Det<br />
the<br />
N<br />
barn<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47
The horse raced past the barn fell<br />
S<br />
+ V<br />
NP<br />
VP<br />
fell<br />
Det<br />
the<br />
N<br />
horse<br />
V<br />
raced<br />
P<br />
PP<br />
NP<br />
past<br />
Det<br />
the<br />
N<br />
barn<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47
NP<br />
Det<br />
the<br />
N<br />
horse<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 41 / 47
NP<br />
NP<br />
S<br />
Det<br />
N<br />
VP<br />
the<br />
horse<br />
V<br />
PP<br />
raced<br />
P<br />
NP<br />
past<br />
Det<br />
the<br />
N<br />
barn<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 41 / 47
S<br />
NP<br />
VP<br />
Det<br />
NP<br />
N<br />
S<br />
VP<br />
V<br />
fell<br />
the<br />
horse<br />
V<br />
PP<br />
raced<br />
P<br />
NP<br />
past<br />
Det<br />
the<br />
N<br />
barn<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 41 / 47
Meer gardenpaths<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 42 / 47
Meer gardenpaths<br />
1 While Mary dressed the baby spat up on the bed.<br />
2 I convinced her children are noisy.<br />
3 The old man the boat.<br />
4 Fat people eat accumulates.<br />
5 The man who whistles tunes pianos.<br />
6 While John hunted the deer ran into the woods.<br />
7 The detective charged the criminal was guilty.<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 42 / 47
Meer gardenpaths<br />
1 While Mary dressed the baby spat up on the bed.<br />
2 I convinced her children are noisy.<br />
3 The old man the boat.<br />
4 Fat people eat accumulates.<br />
5 The man who whistles tunes pianos.<br />
6 While John hunted the deer ran into the woods.<br />
7 The detective charged the criminal was guilty.<br />
• Garden paths-zinnen zijn niet altijd moeilijk<br />
• Ze zijn moeilijk omdat we een andere parse verwachtten<br />
• Echter: je verwachtingen zijn contekst-afhankelijk<br />
• Bias: intransitive, transitive, intransitively biased, transitively<br />
biased werkwoord.<br />
The detective agreed/guessed/charged the criminal was guilty.<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 42 / 47
Meet-methodes<br />
• Lees-snelheid / Reactie-snelheid<br />
• Eye-tracking<br />
• ERP (Event related brain potential) – de gemeten response in<br />
termen van brein-activiteit op een bepaalde stimulus<br />
• bijvoorbeeld, N100: een piek van negatief voltage 100ms na de<br />
stimulus<br />
• N400: typisch geassocieerd met semantisch onverwachte stimulus<br />
• P600: typisch geassocieerd met syntactisch onverwachte stimulus<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 43 / 47
Een experiment<br />
Trueswell et al. 1999:<br />
Put the frog on the napkin into the box<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 44 / 47
Een experiment<br />
Trueswell et al. 1999:<br />
Put the frog on the napkin into the box<br />
• Gaat het om [de kikker op het servet]?<br />
• Of gaat het erom de kikker op het servet te zetten?<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 44 / 47
Put the frog on the napkin into the box<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 45 / 47
Put the frog on the napkin into the box<br />
• Volwassenen gebruiken de context: B => D<br />
• Kinderen rond de 5 jaar:<br />
• B => D (39%)<br />
• A => C (19%)<br />
• A => C en dan van C => D (15%)<br />
• A => C en B=>D (15%)<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 46 / 47
Samenvattend: complexiteit<br />
• Soorten formele talen, soorten grammatica’s, soorten formele<br />
modellen<br />
• De Chomsky-hierarchie<br />
• Natuurlijke taal lijkt context-vrij, misschien zelfs context-gevoelig<br />
• Taalverwerking door mensen: garden paths<br />
Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 47 / 47