26.12.2013 Views

Slides - Universiteit Utrecht

Slides - Universiteit Utrecht

Slides - Universiteit Utrecht

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Complexiteit<br />

Anna Chernilovskaya<br />

<strong>Universiteit</strong> <strong>Utrecht</strong><br />

Inleiding Taalkunde<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 1 / 47


Vandaag: Complexiteit<br />

• Hoofdstuk 12, sectie 12.6: voorproefje op hoofdstuk 16<br />

• Hoofdstuk 14, sectie 14.10: complexiteit van parsing<br />

(achtergrondmateriaal, hier komen statistische termen in voor die<br />

we niet behandelen)<br />

• Hoofdstuk 16: complexiteit<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 2 / 47


Waarom bestuderen we complexiteit?<br />

• Omdat er verschillende soorten formele talen zijn<br />

• Om formele modellen te kunnen vergelijken<br />

• Om de complexiteit van de morfologie/syntaxis/. . . van een<br />

natuurlijke taal te bepalen<br />

• Om te kunnen bepalen welke formele modellen voor een deel van<br />

een natuurlijke taal te gebruiken<br />

• Waarom zijn sommige constructies in natuurlijke talen zo moeilijk<br />

te begrijpen?<br />

• Zijn alle natuurlijke talen “even complex”?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 3 / 47


Het college vandaag<br />

• Formele talen & de Chomsky-hierarchie<br />

• De generatieve kracht van talen<br />

• Modellen voor formele talen<br />

• Hoe herken je de generatieve kracht: het pumping-lemma<br />

• Welke generatieve kracht is nodig voor (de syntaxis van) natuurlijke<br />

talen<br />

• Complexiteit bij menselijke taalverwerking<br />

• Methode<br />

• Garden path-zinnen<br />

• Experimenten<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 4 / 47


Formele Talen (I)<br />

Een formele taal is een verzameling symbolenrijtjes, ofwel een<br />

verzameling strings<br />

• Een formele taal over alfabet {a, b, c}:<br />

{abc, aabbcc, aaabbbccc, . . .}<br />

• Alfabet {0, 1}: {01, 001, 0001, 00001, 000001, . . .}<br />

• Alfabet {a, b, c, . . . z}: {sofuto, kanazawa, riku, arigato, . . .}<br />

• Alfabet {Jan, Marie, haat, kust, . . .}:<br />

{Jan kust Marie, Marie kust Jan, Jan haat Marie, . . . }<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 5 / 47


Formele Talen (II)<br />

• Hoe definieer je een formele taal?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 6 / 47


Formele Talen (II)<br />

• Hoe definieer je een formele taal?<br />

• Met een grammatica die de verzameling strings in de taal genereert<br />

• Met een automaat die de verzameling strings in de taal herkent<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 6 / 47


Formele Talen (II)<br />

• Hoe definieer je een formele taal?<br />

• Met een grammatica die de verzameling strings in de taal genereert<br />

• Met een automaat die de verzameling strings in de taal herkent<br />

S → bA<br />

ab<br />

A → abA<br />

A → ɛ<br />

q 0<br />

b q 1<br />

b(ab) ∗<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 6 / 47


Formele Talen (III)<br />

Een vb. van Context-Free Grammar (CFG):<br />

S → NP VP<br />

S → Aux NP VP<br />

S → VP<br />

NP → Pronoun<br />

NP → Proper-Noun<br />

NP → Det Nominal<br />

Nominal → Noun<br />

Nominal → Nominal Noun<br />

Nominal → Nominal PP<br />

VP → Verb<br />

VP → Verb NP<br />

VP → Verb NP PP<br />

VP → Verb PP<br />

VP → VP PP<br />

PP → Preposition NP<br />

Det → that | this | a<br />

Noun → book | flight | meal | money<br />

Verb → book | include | prefer<br />

Pronoun → I | she | me<br />

Proper-Noun → Houston | TWA<br />

Aux → does<br />

Preposition → from | to | on | near | through<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 7 / 47


Vragen over formele talen<br />

• In welke interessante formele opzichten verschillen die talen?<br />

• Is er bv. een interessant verschil tussen de volgende 2 talen?<br />

• {b, bab, babab, bababab, . . .}<br />

• {ba, bbaa, bbbaaa, bbbbaaaa, . . .}<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 8 / 47


Vragen over formele talen<br />

• In welke interessante formele opzichten verschillen die talen?<br />

• Is er bv. een interessant verschil tussen de volgende 2 talen?<br />

• {b, bab, babab, bababab, . . .}<br />

• {ba, bbaa, bbbaaa, bbbbaaaa, . . .}<br />

• Antwoord: Ja!<br />

formele talen zijn in te delen in complexiteitsklassen<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 8 / 47


Vragen over formele talen<br />

• In welke interessante formele opzichten verschillen die talen?<br />

• Is er bv. een interessant verschil tussen de volgende 2 talen?<br />

• {b, bab, babab, bababab, . . .}<br />

• {ba, bbaa, bbbaaa, bbbbaaaa, . . .}<br />

• Antwoord: Ja!<br />

formele talen zijn in te delen in complexiteitsklassen<br />

• Wat is een relatie tussen FSA’s, context-vrije grammatica’s,<br />

fonologische herschrijfregels, etc.?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 8 / 47


De Chomsky-hiërarchie<br />

Recursief Opsombare Talen<br />

Context-gevoelige Talen<br />

Context-vrije Talen<br />

Reguliere Talen<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 9 / 47


Het idee achter de Chomsky-hierarchie<br />

• De Chomsky-hierarchie verdeelt formele talen in 4 klassen<br />

• Bij elke klasse hoort een klasse van grammatica’s en automaten<br />

• De klassen verschillen in kracht<br />

• Hoe krachtiger een grammatica/automaat, hoe meer (soorten)<br />

talen hij kan genereren/herkennen<br />

• (alle “zwakkere” talen zijn herkenbaar door “sterkere”<br />

grammatica’s/automaten)<br />

• bijv. een grammatica/automaat voor context-gevoelige talen kan<br />

ook alle context-vrije en reguliere talen genereren<br />

• Vermindering in kracht van talen komt door extra constraints op<br />

herschrijfregels<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 10 / 47


De Chomsky-hierarchie<br />

(sterk )<br />

Grammar Language Grammar Automaton<br />

Type 0 recursief opsombare<br />

α → β Turing machine<br />

talen (α ≠ ɛ), un-<br />

(recursively<br />

enumerable)<br />

restricted<br />

grammar<br />

Type 1 context-gevoelige αAβ → linear-bounded<br />

talen (context αγβ (γ ≠ ɛ) non-deterministic<br />

sensitive)<br />

Turing machine<br />

Type 2 context-vrije talen A → γ push-down automaat<br />

(context free)<br />

Type 3 reguliere talen A → u, eindige automaten<br />

(regular)<br />

A → uB<br />

(en reg-<br />

uliere expressies)<br />

(zwak )<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 11 / 47


Type 3<br />

Type 3 reguliere talen A → uB eindige automaten<br />

A → u (en reguliere expressies)<br />

• Reguliere talen: precies de klasse talen die herkend kan worden<br />

door eindige automaten (FSA)<br />

• Precies de klasse talen die je met reguliere expressies kan<br />

beschrijven<br />

• Precies de klasse talen die gegenereerd kan worden door<br />

reguliere grammatica’s<br />

• Regels van de vorm: A → uB en A → u (right-linear)<br />

Óf regels van de vorm: A → Bu en A → u (left-linear)<br />

• A, B ∈ V (niet-terminals), u ∈ Σ ∗ (een string)<br />

• (niet-terminale symbolen transformeren naar een string van terminale<br />

symbolen, eventueel gevolgd/voorafgegaan door een niet-terminaal<br />

symbool)<br />

• Dus niet: A → bAc, A → BC<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 12 / 47


Type 3: {b, bab, babab, bababab, . . .} (I)<br />

ab<br />

q 0<br />

b q 1<br />

b(ab) ∗<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47


Type 3: {b, bab, babab, bababab, . . .} (I)<br />

ab<br />

q 0<br />

b q 1<br />

b(ab) ∗<br />

• S→bA<br />

A→ ɛ<br />

A→aS<br />

Rechts-lineaire reguliere grammatica<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47


Type 3: {b, bab, babab, bababab, . . .} (I)<br />

ab<br />

q 0<br />

b q 1<br />

b(ab) ∗<br />

• S→bA<br />

A→ ɛ<br />

A→aS<br />

• S→Ab<br />

A→ ɛ<br />

A→Sa<br />

Rechts-lineaire reguliere grammatica<br />

Links-lineaire reguliere grammatica<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47


Type 3: {b, bab, babab, bababab, . . .} (I)<br />

ab<br />

q 0<br />

b q 1<br />

b(ab) ∗<br />

• S→bA<br />

A→ ɛ<br />

A→aS<br />

• S→Ab<br />

A→ ɛ<br />

A→Sa<br />

• S→ b<br />

S→ T<br />

T→ b A b<br />

A → a<br />

A → a S a<br />

Rechts-lineaire reguliere grammatica<br />

Links-lineaire reguliere grammatica<br />

Dit is geen reguliere grammatica<br />

maar wel een reguliere taal<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47


Type 3: {b, bab, babab, bababab, . . .} (I)<br />

ab<br />

q 0<br />

b q 1<br />

b(ab) ∗<br />

• S→bA<br />

A→ ɛ<br />

A→aS<br />

• S→Ab<br />

A→ ɛ<br />

A→Sa<br />

Rechts-lineaire reguliere grammatica<br />

Links-lineaire reguliere grammatica<br />

• S→ b<br />

S→ T<br />

T→ b A b<br />

A → a<br />

A → a S a<br />

Dit is geen reguliere grammatica<br />

maar wel een reguliere taal<br />

Gevolg: voor elke reguliere taal bestaat er een rechtslineaire<br />

grammatica die deze taal herkent.<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 13 / 47


Type 3: {b, bab, babab, bababab, . . .} (II)<br />

ab<br />

Rechts-lineaire grammatica:<br />

S → bA<br />

q 0<br />

b q A → abA<br />

1<br />

A → ɛ<br />

• Voor elke FSA is er een rechts-lineaire grammatica<br />

• Voor elke rechts-lineaire grammatica is er een FSA<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 14 / 47


De Chomsky-hiërarchie<br />

Recursief Opsombare Talen<br />

Context-gevoelige Talen<br />

Context-vrije Talen<br />

Reguliere Talen<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 15 / 47


Type 2<br />

Type 2 context-vrije talen<br />

(context free)<br />

• Context-vrije talen<br />

A → γ<br />

push-down automaat<br />

• Precies de klasse talen die herkend kan worden met push-down<br />

automaten (zie volgende slide)<br />

• Precies de klasse talen die gegenereerd kan worden door<br />

context-vrije grammatica’s<br />

• Regels van de vorm: A→ γ<br />

• γ is een rijtje symbolen (terminals of non-terminals)<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 16 / 47


Type 2<br />

Type 2 context-vrije talen<br />

(context free)<br />

• Context-vrije talen<br />

A → γ<br />

push-down automaat<br />

• Precies de klasse talen die herkend kan worden met push-down<br />

automaten (zie volgende slide)<br />

• Precies de klasse talen die gegenereerd kan worden door<br />

context-vrije grammatica’s<br />

• Regels van de vorm: A→ γ<br />

• γ is een rijtje symbolen (terminals of non-terminals)<br />

• Voorbeeld van context-vrije grammatica:<br />

S→bSa<br />

S→ ɛ<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 16 / 47


Type 2<br />

Type 2 context-vrije talen<br />

(context free)<br />

• Context-vrije talen<br />

A → γ<br />

push-down automaat<br />

• Precies de klasse talen die herkend kan worden met push-down<br />

automaten (zie volgende slide)<br />

• Precies de klasse talen die gegenereerd kan worden door<br />

context-vrije grammatica’s<br />

• Regels van de vorm: A→ γ<br />

• γ is een rijtje symbolen (terminals of non-terminals)<br />

• Voorbeeld van context-vrije grammatica:<br />

S→bSa<br />

S→ ɛ<br />

• Bijbehorende taal: b n a n<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 16 / 47


Type 2 (II)<br />

Push-down automaat: een finite state automaat die van een stack<br />

gebruik maakt<br />

Taal: {0 n 1 n | n ≥ 0}<br />

PDA:<br />

0; Z /AZ<br />

0; A/AA<br />

p<br />

ɛ<br />

1; A/ɛ<br />

q<br />

ɛ; Z /Z<br />

r<br />

• PDA’s gebruiken een stack te bepalen welke transitie te maken<br />

• De inhoud van de stack kan veranderd worden in een transitie<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 17 / 47


Type 3 en 2<br />

• De Chomsky-hierarchie is een hierarchie<br />

• Context-vrije grammatica’s genereren ook reguliere talen!<br />

• Context-vrije grammatica’s hebben grotere generatieve kracht dan<br />

reguliere grammatica’s<br />

• Reguliere grammatica’s zijn tegelijkertijd context-vrij<br />

• Regulier: A → uB of A → u<br />

• Context-vrij: A → γ (γ is een rijtje symbolen)<br />

• b(ab) ∗ = {b, bab, babab, . . .} is zowel een reguliere als een<br />

context-vrije taal.<br />

• {b n a n | n ≥ 1} = {ba, bbaa, bbbaaa, . . .} is een context-vrije taal,<br />

maar geen reguliere taal.<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 18 / 47


Probeer het uit<br />

The context-free grammar tool:<br />

http://smlweb.cpsc.ucalgary.ca/<br />

S → NP VP<br />

S → Aux NP VP<br />

S → VP<br />

NP → Pronoun<br />

NP → Proper-Noun<br />

NP → Det Nominal<br />

Nominal → Noun<br />

Nominal → Nominal Noun<br />

Nominal → Nominal PP<br />

VP → Verb<br />

VP → Verb NP<br />

VP → Verb NP PP<br />

VP → Verb PP<br />

VP → VP PP<br />

PP → Preposition NP<br />

Det → that | this | a<br />

Noun → book | flight | meal | money<br />

Verb → book | include | prefer<br />

Pronoun → I | she | me<br />

Proper-Noun → Houston | TWA<br />

Aux → does<br />

Preposition → from | to | on | near | through<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 19 / 47


De Chomsky-hiërarchie<br />

Recursief Opsombare Talen<br />

Context-gevoelige Talen<br />

Context-vrije Talen<br />

Reguliere Talen<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 20 / 47


Type 1<br />

Type 1<br />

• Context-gevoelige talen<br />

αAβ → αγβ<br />

(γ ≠ ɛ)<br />

context-gevoelige<br />

talen (context sensitive)<br />

linear-bounded nondeterministic<br />

Turing<br />

machine<br />

• Precies de klasse talen die door een lineair gebonden automaat<br />

herkend kan worden (gaan we het niet over hebben)<br />

• Precies de klasse talen die door een context-gevoelige<br />

grammatica kan worden gegenereerd<br />

• Regels van de vorm:<br />

αAβ → αγβ<br />

(α, β, γ zijn hier willekeurige strings van terminale of niet-terminale<br />

symbolen; γ is niet ɛ)<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 21 / 47


Type 1<br />

Regel uit context-sensitive grammatica: αAβ → αγβ met γ ≠ ɛ<br />

1 S → aSBC<br />

2 S → aBC<br />

3 CB → HB<br />

4 HB → HC<br />

5 HC → BC<br />

6 aB → ab<br />

7 bB → bb<br />

8 bC → bc<br />

9 cC → cc<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 22 / 47


Type 1<br />

Regel uit context-sensitive grammatica: αAβ → αγβ met γ ≠ ɛ<br />

1 S → aSBC<br />

2 S → aBC<br />

3 CB → HB<br />

4 HB → HC<br />

5 HC → BC<br />

6 aB → ab<br />

7 bB → bb<br />

8 bC → bc<br />

9 cC → cc<br />

• Geeft: a n b n c n voor n ≥ 1<br />

• Deze taal kan niet context-vrij gegenereerd worden<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 22 / 47


De Chomsky-hiërarchie<br />

Recursief Opsombare Talen<br />

Context-gevoelige Talen<br />

Context-vrije Talen<br />

Reguliere Talen<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 23 / 47


Type 0<br />

Type 0<br />

recursief opsombare<br />

talen (recursively<br />

enumerable)<br />

α → β (α ≠ ɛ)<br />

Turing machine<br />

• Recursief opsombare talen<br />

• De klasse talen die door een Turing machine herkend kunnen<br />

worden<br />

• Turing machine:<br />

• De klasse talen die door een onbeperkte grammatica<br />

gegenereerd kunnen worden<br />

• Elke regel . . . → . . . is toegestaan<br />

zo lang de linker-kant niet gelijk is aan ɛ<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 24 / 47


Hoe herken je formele talen?<br />

• Hoe weet je welke soort regels te gebruiken voor een bepaalde<br />

taal (bijv. grammatica van Engels)?<br />

• Voor formele talen is er een manier om dat te bepalen<br />

Enkele typische patronen:<br />

• Reguliere talen kunnen locale afhankelijkheden aan<br />

{bab, babab, bababab, . . .}<br />

• Context-vrije talen kunnen geneste afhankelijkheden aan<br />

{lepel, parterretrap, bob, . . .}<br />

• Context-gevoelige talen kunnen gekruiste afhankelijkheden aan<br />

{abcabc, bcabca, cbacba, . . .}<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 25 / 47


Erkenning van reguliere talen<br />

• Te laten zien dat een taal regulier is: bouw een reguliere expressie<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 26 / 47


Erkenning van reguliere talen<br />

• Te laten zien dat een taal regulier is: bouw een reguliere expressie<br />

• Het pumping lemma gebruik je om aan te tonen dat een taal niet<br />

regulier is<br />

• Reguliere talen:<br />

• eindig geheugen (onafhankelijk van de string lengte) door<br />

vastliggend aantal states<br />

• strings met meer symbolen dan het aantal toestanden moeten dus<br />

gemaakt zijn mbv een loop<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 26 / 47


Erkenning van reguliere talen<br />

• Te laten zien dat een taal regulier is: bouw een reguliere expressie<br />

• Het pumping lemma gebruik je om aan te tonen dat een taal niet<br />

regulier is<br />

• Reguliere talen:<br />

• eindig geheugen (onafhankelijk van de string lengte) door<br />

vastliggend aantal states<br />

• strings met meer symbolen dan het aantal toestanden moeten dus<br />

gemaakt zijn mbv een loop<br />

• Het pumping-lemma:<br />

Laat L een reguliere taal zijn.<br />

Dan bestaan er strings x, y, z met y niet-leeg zodat<br />

xy n z ∈ L voor n ≥ 0<br />

• Toepassing: als je voor een expressie in taal L geen x, y, z kunt<br />

vinden waarvoor y gepumpt kan worden, dan is L geen reguliere<br />

taal<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 26 / 47


Toepassing van het pumping lemma<br />

Laat L een reguliere taal zijn.<br />

Dan bestaan er strings x, y, z met y niet-leeg zodat xy n z ∈ L<br />

voor n ≥ 0<br />

Is a n b n regulier?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 27 / 47


Toepassing van het pumping lemma<br />

Laat L een reguliere taal zijn.<br />

Dan bestaan er strings x, y, z met y niet-leeg zodat xy n z ∈ L<br />

voor n ≥ 0<br />

Is a n b n regulier?<br />

Mogelijkheden voor toepassing v/h lemma<br />

• y bestaat alleen uit a’s: dan bestaat x uit a’s en z bestaat uit alle<br />

b’s: y kan niet gepompt worden<br />

• y bestaat alleen uit b’s: dan bestaat x uit alle a’s en z uit de rest<br />

van de b’s: y kan niet gepompt worden<br />

• y bestaat uit a’s en b’s: dan bestaat x uit a’s en z uit b’s: xy n z zal<br />

nu b’s in zich hebben die voor a’s staan<br />

=> Gevolg: deze taal is niet regulier<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 27 / 47


Toepassing van het pumping lemma<br />

Laat L een reguliere taal zijn.<br />

Dan bestaan er strings x, y, z met y niet-leeg zodat xy n z ∈ L<br />

voor n ≥ 0<br />

Is a n b n regulier?<br />

Mogelijkheden voor toepassing v/h lemma<br />

• y bestaat alleen uit a’s: dan bestaat x uit a’s en z bestaat uit alle<br />

b’s: y kan niet gepompt worden<br />

• y bestaat alleen uit b’s: dan bestaat x uit alle a’s en z uit de rest<br />

van de b’s: y kan niet gepompt worden<br />

• y bestaat uit a’s en b’s: dan bestaat x uit a’s en z uit b’s: xy n z zal<br />

nu b’s in zich hebben die voor a’s staan<br />

=> Gevolg: deze taal is niet regulier<br />

• Let op! Als we een string y kunnen pompen, betekent dat nog<br />

niet dat de taal regulier is (vb.: {a k b m a n | k = 0 of m = n})<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 27 / 47


De Chomsky-Hierarchie en Natuurlijke Taal<br />

• Met welke soorten formele talen corresponderen aspecten van<br />

natuurlijke taal?<br />

• Welke grammatica’s hebben we nodig voor natuurlijke taal?<br />

• Met andere woorden: wat is krachtig genoeg, maar niet te<br />

krachtig?<br />

• Niet te krachtig:<br />

• Krachtige mechanismen zijn computationeel lastiger<br />

• Krachtige mechanismen leren ons niets over de limieten van<br />

cognitieve modules<br />

• We gaan nu onderzoeken wat voor talen we nodig hebben om<br />

natuurlijke taal te modelleren...<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 28 / 47


Fonologie<br />

• Generatieve fonologie gebruikte context-gevoelige regels<br />

• Fonologische regel voor flapping: /t/ → [dx]/ ´V V<br />

• Computationele fonologie erkent dat context-gevoelige<br />

grammatica’s te krachtig zijn<br />

• Fonologische (en ook morfologische) processen kunnen met een<br />

reguliere taal gemodelleerd worden<br />

• Zijn misschien alle talige fenomenen modeleerbaar met eindige<br />

automaten?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 29 / 47


Center-embedding<br />

The man likes Mary.<br />

The man the boy saw likes Mary.<br />

The man the boy the dog bit saw likes Mary.<br />

The man the boy the dog the cat chased bit saw likes Mary.<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 30 / 47


Center-embedding<br />

The man likes Mary.<br />

The man the boy saw likes Mary.<br />

The man the boy the dog bit saw likes Mary.<br />

The man the boy the dog the cat chased bit saw likes Mary.<br />

• Hoe meer center-embedding, hoe moeilijker te begrijpen<br />

• Toch bestaan er goeie voorbeelden van herhaalde<br />

center-embedding<br />

The pictures that the photographer who I met at the party took<br />

turned out very well.<br />

• Idee: herhaalde center-embedding is grammaticaal, maar moeilijk<br />

te begrijpen door limieten aan ons korte-termijn-geheugen<br />

• Gevolg: Engels (competence) is niet regulier (zie volgende slide)<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 30 / 47


Center-embedding / pumping lemma<br />

The man the boy the dog bit saw likes Mary.<br />

NP NP NP V V VP<br />

• Center-embedding-zinnen:<br />

• Een n aantal NPs<br />

• gevolgd door een n − 1 aantal Vs<br />

• gevolgd door een VP<br />

• Ofwel: a n b n−1 c<br />

=> niet regulier<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 31 / 47


Dus natuurlijke taal is context-vrij?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 32 / 47


Dus natuurlijke taal is context-vrij?<br />

• Engelse syntaxis is niet regulier<br />

• Is een context-vrije grammatica genoeg?<br />

• Schwyzerdütsch (Zwitserland/Italië)<br />

• (1) mer d’chind em Hans es huus haend wele laa hälfe<br />

we de-kinderen de Hans het huis hebben willen laten helpen<br />

aastriiche<br />

schilderen<br />

• [de kinderen].ACC [Hans].DAT [es huus].ACC haen wele [laa] ACC<br />

[hälfe] DAT [aastriiche] ACC<br />

• X (NP-dat) m (NP-acc) n (V dat ) m (Vacc) n Y<br />

• Deze kruisende afhankelijkheden zijn typisch voor<br />

context-gevoelige talen:<br />

voorbeeld: a n b m c n d m is context-gevoelig en niet<br />

context-vrij<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 32 / 47


Meer kruisende afhankelijkheden<br />

dat Jan Marie het kind zag helpen leren zwemmen<br />

omdat ik Jan Piet de nijlpaarden zag helpen voeren<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 33 / 47


Mildly context sensitive languages<br />

• kunnen kruisende afhankelijkheden behandelen<br />

• hebben polynomische parsing<br />

• Minimalist grammars<br />

• Combinatorial categorial grammars<br />

• Tree-adjoining grammars<br />

• elementair unit te herschrijven is een boom<br />

• twee soorten bomen: initial tree voor simpele structuren, auxiliary<br />

tree voor recursie<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 34 / 47


Conclusie<br />

• Er zijn aanwijzigingen dat natuurlijke talen niet regulier zijn<br />

• Er zijn aanwijzigingen dat talen als het Nederlands en het<br />

Schwyzerdütsch niet context-vrij zijn<br />

• Kanttekeningen:<br />

• Zinnen die op een context-vrije grammatica duiden zijn moeilijk te<br />

begrijpen (center-embedding)<br />

• Kruisende afhankelijkheden komen zelden voor in talen<br />

• Al deze overwegingen beperken zich tot syntaxis<br />

• De aanname is dat center-embedding en kruisende<br />

afhankelijkheden oneindig diep toepasbaar zijn<br />

• Het is dus interessant om wat beter te kijken wat nu het verwerken<br />

van bepaalde zinnen moeilijk maakt<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 35 / 47


Complexiteit bij menselijke taalverwerking<br />

• Niet alle grammaticale zinnen zijn even gemakkelijk te verwerken<br />

(processing)<br />

Lees bijvoorbeeld de volgende zin:<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 36 / 47


The horse raced past the barn fell


Ik heb de stoel aangeboden op het internet onlangs gekocht.


Complexiteit bij menselijke taalverwerking<br />

• Niet alle grammaticale zinnen zijn even gemakkelijk te verwerken<br />

(processing)<br />

The horse raced past the barn fell<br />

• Hoe meet je eigenlijk of mensen moeite met een zin hebben?<br />

• Waardoor ontstaan processing-problemen?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 38 / 47


Gardenpath-zinnen<br />

• “To lead someone up/down the gardenpath” ∼ iemand op een<br />

dwaalspoor brengen<br />

• Beroemdste voorbeeld:<br />

The horse raced past the barn fell<br />

• Probleem: je begint met de zin te verwerken voordat we de hele<br />

zin gehoord hebben<br />

• . . . maar je neemt het verkeerde pad<br />

• Je neemt aan dat the horse het onderwerp is en raced het<br />

werkwoord.<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 39 / 47


The horse raced past the barn fell<br />

NP<br />

Det<br />

the<br />

N<br />

horse<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47


The horse raced past the barn fell<br />

S<br />

NP<br />

VP<br />

Det<br />

the<br />

N<br />

horse<br />

V<br />

raced<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47


The horse raced past the barn fell<br />

S<br />

NP<br />

VP<br />

Det<br />

the<br />

N<br />

horse<br />

V<br />

raced<br />

P<br />

PP<br />

NP<br />

past<br />

Det<br />

the<br />

N<br />

barn<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47


The horse raced past the barn fell<br />

S<br />

+ V<br />

NP<br />

VP<br />

fell<br />

Det<br />

the<br />

N<br />

horse<br />

V<br />

raced<br />

P<br />

PP<br />

NP<br />

past<br />

Det<br />

the<br />

N<br />

barn<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 40 / 47


NP<br />

Det<br />

the<br />

N<br />

horse<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 41 / 47


NP<br />

NP<br />

S<br />

Det<br />

N<br />

VP<br />

the<br />

horse<br />

V<br />

PP<br />

raced<br />

P<br />

NP<br />

past<br />

Det<br />

the<br />

N<br />

barn<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 41 / 47


S<br />

NP<br />

VP<br />

Det<br />

NP<br />

N<br />

S<br />

VP<br />

V<br />

fell<br />

the<br />

horse<br />

V<br />

PP<br />

raced<br />

P<br />

NP<br />

past<br />

Det<br />

the<br />

N<br />

barn<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 41 / 47


Meer gardenpaths<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 42 / 47


Meer gardenpaths<br />

1 While Mary dressed the baby spat up on the bed.<br />

2 I convinced her children are noisy.<br />

3 The old man the boat.<br />

4 Fat people eat accumulates.<br />

5 The man who whistles tunes pianos.<br />

6 While John hunted the deer ran into the woods.<br />

7 The detective charged the criminal was guilty.<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 42 / 47


Meer gardenpaths<br />

1 While Mary dressed the baby spat up on the bed.<br />

2 I convinced her children are noisy.<br />

3 The old man the boat.<br />

4 Fat people eat accumulates.<br />

5 The man who whistles tunes pianos.<br />

6 While John hunted the deer ran into the woods.<br />

7 The detective charged the criminal was guilty.<br />

• Garden paths-zinnen zijn niet altijd moeilijk<br />

• Ze zijn moeilijk omdat we een andere parse verwachtten<br />

• Echter: je verwachtingen zijn contekst-afhankelijk<br />

• Bias: intransitive, transitive, intransitively biased, transitively<br />

biased werkwoord.<br />

The detective agreed/guessed/charged the criminal was guilty.<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 42 / 47


Meet-methodes<br />

• Lees-snelheid / Reactie-snelheid<br />

• Eye-tracking<br />

• ERP (Event related brain potential) – de gemeten response in<br />

termen van brein-activiteit op een bepaalde stimulus<br />

• bijvoorbeeld, N100: een piek van negatief voltage 100ms na de<br />

stimulus<br />

• N400: typisch geassocieerd met semantisch onverwachte stimulus<br />

• P600: typisch geassocieerd met syntactisch onverwachte stimulus<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 43 / 47


Een experiment<br />

Trueswell et al. 1999:<br />

Put the frog on the napkin into the box<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 44 / 47


Een experiment<br />

Trueswell et al. 1999:<br />

Put the frog on the napkin into the box<br />

• Gaat het om [de kikker op het servet]?<br />

• Of gaat het erom de kikker op het servet te zetten?<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 44 / 47


Put the frog on the napkin into the box<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 45 / 47


Put the frog on the napkin into the box<br />

• Volwassenen gebruiken de context: B => D<br />

• Kinderen rond de 5 jaar:<br />

• B => D (39%)<br />

• A => C (19%)<br />

• A => C en dan van C => D (15%)<br />

• A => C en B=>D (15%)<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 46 / 47


Samenvattend: complexiteit<br />

• Soorten formele talen, soorten grammatica’s, soorten formele<br />

modellen<br />

• De Chomsky-hierarchie<br />

• Natuurlijke taal lijkt context-vrij, misschien zelfs context-gevoelig<br />

• Taalverwerking door mensen: garden paths<br />

Anna Chernilovskaya (<strong>Universiteit</strong> <strong>Utrecht</strong>) Complexiteit Inleiding Taalkunde 47 / 47

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!