3 Stemmebaseret interaktion - The Game Design Chronologist ...

Recommendations

Info

semantisk og pragmatisk information stadig kan udledes på samme måde. Jeg vil nu gennemgå det morfologiske lag, som denne gang er mere kompliceret. Signalet opdeles som sidst i frames, men nu er det ikke featurevektorer der udledes, men derimod test patterns som afmåles. Denne afmåling foregår ved at der søges efter perioder uden stilhed, og disse perioder benævnes så test patterns - der reelt er de ord eller morfemer der tales ind i mikrofonen. Teknikken kaldes også speech-period detection [Furui, 2001, s248]. En test pattern udsættes for samme behandling som en featurevektor, nemlig en LPC-analyse, eller i stedet en diskret fourier transformering (DFT) der har samme formål (altså at abstrahere de generelle træk over hele perioden), men kan være betydeligt mindre beregningskrævende, hvis det er en algoritme af typen fast fourier transform (FFT). Disse test patterns sendes i næste skridt videre til pattern comparison-modulet, der sammenligner dem med foruddefinerede test patterns og giver et statistisk output, som beskriver hvilke ord de ligner mest. Teknikken der almindeligvis anvendes til at sammenligne med kaldes dynamic time-warping. Dens formål er at kompensere for variationer i hastigheden et ord udtales i, ved at strække det til den samme længde som den foruddefinerede test pattern der sammenlignes med har [Rabiner & Juang, 1993, s51], og samtidig gøre dette sådan at de forskellige udsving i lyden matches overfor hinanden. Til sidst vælges blot den test pattern med størst sandsynlighed, hvorefter et ord er genkendt og kan sendes til syntaktisk analyse. Alt dette kan gøres uden et stort behov for regnekraft, og det er derfor den arkitektur jeg har valgt at bygge talegenkendelsen i mit spil op omkring. Der er naturligvis også ulemper ved denne arkitektur. I forhold til tidligere nævnte klassificering, så er det en talegenkender der er talerafhængig, har et lavt ordforråd og som ikke genkender lange sætninger (medmindre de kan dannes af ordforrådet). Det betyder konkret, at genkenderen skal trænes af alle som anvender den, og at de skal træne alle de ord som den skal kunne genkende (derfor er et begrænset ordforråd at foretrække). Ved træning af genkenderen er det heller ikke optimalt blot at indtale det ønskede ord en enkelt gang, da et gennemsnit af flere indtalinger vil give den en større succesrate. Der er altså nogle markante svagheder, men en genkender som denne kan opnå en fejlprocent der ikke ligger langt fra en moderne talegenkender - hvis førnævnte forhold tages i betragtning. Efter denne introduktion til talegenkendelse og arkitekturen bag, vil jeg fortsætte med de relaterede emne talesyntese. 3.2 Talesyntese Hvor målet med talegenkendelse er at opfange og fortolke lingvistiske strukturer, så er målet med talesyntese at generere en lingvistisk struktur komplet med pragmatisk og semantisk mening, syntaktisk korrekthed og velvalgte foner. Det er igen ikke nogen let opgave, men dog en opgave der i dag løses ganske flot af flere talesyntesesystemer. En ny illustration er ikke nødvendig, da Figur 5 fra sidste afsnit stort set blot kan vendes på hovedet. 30
En talesynteseproces starter med, at computeren udleder mening af situationen, for derefter at konstruere et logisk udtryk der kan repræsentere denne mening. F.eks. win(I). Denne omdannes så til en sætning - her ”I win”. Fra dette punkt påbegyndes en proces der kaldes text-to-speech [Jurafsky & Martin, 2000, s92], hvor målet er at omdanne en tekststreng til en akustisk lydbølge. Der er overordnet set fire måder dette kan gøres på. • Den første er at optage en begrænset mængde hele ord og sætninger, for at kunne afspille kombinationer af disse, hvad der giver den højeste naturlighed i lyden, men det at skulle optage alle ord på forhånd er ofte en klar ulempe. Både fordi det stiller store krav til lagringsplads, men også fordi det tager lang tid at implementere hvis ordforrådet skal være stort. Til gengæld er det beregningsmæssigt simpelt [Furui, 2001, s217], i det der ikke kræves andet end afspilning af ordene (evt. kan der foretages en behandling af ordene afhængigt at hvor i en sætning de placeres). Denne metode anvendes eksempelvis i alle nye fodboldspil, hvor en kommentator kommenterer kampen. Jurafsky & Martin beskriver slet ikke denne mulighed, og den er da også meget simpel, men den er bestemt velegnet til mange formål. • En anden mulighed er at analysere en mængde af optagne ord, og opsplitte disse i mindre bidder. Disse bidder kan derefter benævnes fonologisk, og flere ord kan så dannes ved at kombinere fonemer til morfemer. Dette kan forbedres gennem anvendelsen af statiske metoder som HMM, i sprog som dansk og engelsk hvor der ikke er en tydelig sammenhæng mellem måden et ord staves på, og måden det udtales (og dermed beskrives fonologisk). Dette er da ikke største problem ved denne metode. Problemet er i stedet at fonemer ikke indeholder tilstrækkeligt med information om hvordan en lyd skal udtales, fordi de blot er abstrakte beskrivelser af en lyd. Derfor kommer talen med denne metode ikke til at lyde helt naturlig, men til gengæld er den simplere at implementere end den næste metode [Furui, 2001, s221]. • I forhold til førnævnte medtages nu fonetisk information, hvad der gør processen langt mere kompliceret og beregningskrævende fordi der kræves et stort kendskab til hvordan ord almindeligvis udtales, hvad der også gør at processen kræver meget lagringsplads. Her lagres også såkaldte triphones og diphones der er kombinationer af foner, hvormed overgangene mellem dem kan virke mere naturlig [Furui, 2001, s221]. • Til sidst er der såkaldt formant synthesis som er den form for syntese der blev anvendt i Magnavox’ Odyssey 2 spillemaskine fra 1978 (og tidligere udenfor spilindustrien). Teknikken foreskriver ren syntetisk fremstilling af tale, ved at beskrive foner som frekvenser. Det giver ikke et naturligt resultat, men det er dog alligevel forståeligt, hvad der i nogle situationer også kan være det vigtigste ved talesyntese. 31
Page 3 and 4: Titel: Kontekstsensitiv talegenkend
Page 5 and 6: Læsevejledning Projektrapporten er
Page 7: 8.2 LUDIC ENGINEERING..............
Page 10 and 11: Stemmebaseret interaktion er dog bl
Page 12 and 13: 1 Problemstilling Med semestrets og
Page 15 and 16: Del II TEORI Facts are meaningless.
Page 17 and 18: 2.1 Seks perspektiver Det sprog vi
Page 19 and 20: udskille fra støj, mens kraftigere
Page 21 and 22: forståelse af ordet flodhest; det
Page 23 and 24: undgå tvetydighed, og meningen med
Page 25 and 26: naturligvis åbenlys, da det fra al
Page 27 and 28: 3.1 Talegenkendelse Talegenkendelse
Page 29: kraftfuld maskine, mens HMM og Vite
Page 33 and 34: command and control, hvor der det o
Page 35 and 36: 4 Computerspil Sprog og en digitali
Page 37 and 38: tegnet. Hvis spilleren eksempelvis
Page 39 and 40: Vi er symbolbeherskende væsner, og
Page 41 and 42: interaktionen mellem spillerne og s
Page 43 and 44: Det er også interessant at se, hvo
Page 45 and 46: • Interessante handlinger, at enh
Page 47: I kapitel 4 introducerede jeg en r
Page 50 and 51: 6 Systemudvikling Systemudvikling e
Page 52 and 53: 52 • Fra OOA&D tager jeg den obje
Page 54 and 55: 7 Udvikling af computerspil Udvikli
Page 56 and 57: Selvom de økonomiske ressourcer ho
Page 58 and 59: 58 stemmegenkendelse være en del a
Page 60 and 61: 8 Innovation Som beskrevet i teorie
Page 62 and 63: Også andre folk har anvendt techno
Page 64 and 65: 9 Metodisk delkonklusion Uden at br
Page 66 and 67: 9.1 Fravalgte metoder og ulemper ve
Page 68 and 69: 10 Filosofi Som beskrevet i forrige
Page 70 and 71: at hun slet ikke gider tænde spill
Page 72 and 73: forskellige missioner, så har Digi
Page 74 and 75: 74 hvervet, skal han desuden oplær
Page 76 and 77: 76 7. Forsvar af tempelskat eller l
Page 78 and 79: 78 For at lette implementeringen ha
Page 80 and 81:
synes dog ikke det er så interessa
Page 82 and 83:
Spillet er på alle måder multimod
Page 84 and 85:
Ergonomisk besværlig brug af maski
Page 86 and 87:
ATTACK udelukkes og kigger Sensei i
Page 88 and 89:
88 forestille at tænke over situat
Page 90 and 91:
frem for eksempelvis symboler er, a
Page 92 and 93:
dialogen mellem spiller og spil, sa
Page 94 and 95:
forvirrede. Behovet for forhandling
Page 96 and 97:
objekter af RigidBody-klassen, der
Page 98 and 99:
14 Prototyper Udviklingen af spille
Page 100 and 101:
14.2 Nummer 2 Meget tid gik i perio
Page 102 and 103:
og laves til (simple) feature-vekto
Page 104 and 105:
104
Page 106 and 107:
106 en begrebsmæssig ramme om en a
Page 108 and 109:
15 Perspektiverende diskussion Med
Page 110 and 111:
16 Litteraturliste Posterne i litte
Page 112 and 113:
Rouse, 2005 Game Design: Theory and
Page 114 and 115:
Merriam-Webster, Creativity http://
Page 116 and 117:
17 Softwareliste Posterne i littera
Page 118:
18 Bilag A - International Phonetic
show all

3 Stemmebaseret interaktion - The Game Design Chronologist ...

Create successful ePaper yourself

Delete template?

Save as template?