3 Stemmebaseret interaktion - The Game Design Chronologist ...
3 Stemmebaseret interaktion - The Game Design Chronologist ...
3 Stemmebaseret interaktion - The Game Design Chronologist ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
og laves til (simple) feature-vektorer, der kunne samles til speech-patterns som blev<br />
sammenlignet med hinanden. Succesraten var dog alt for lav til, at systemet kunne have<br />
en praktisk anvendelse, hvorfor jeg i stedet fokuserede på finpudsning af de semantiske<br />
og pragmatiske lag i genkendelsen. Ved at antage at et opfanget ord kan være en hvilken<br />
som helst talekommando, og derefter udelukkende basere genkendelsen på konteksten i<br />
spillet, kunne en semantisk mening, i form af et logisk udtryk eller et funktionskald,<br />
tildeles alle spillerens talte input. Da spillet samtidig er opbygget sådan, at der ikke kan<br />
opstå pragmatisk tvetydighed, er behovet for at de lavere lag i genkenderen fungerer ikke<br />
så stort. I prototypen blev den pragmatiske genkendelse af talekommandoerne NINJA og<br />
MOUNT implementeret, sådan at det er muligt at gå omkring i landskabet og hverve<br />
ninjaelever, for derefter at bede dem bestige en panda.<br />
I mit tidlige design havde jeg forventet at de laveste lag i talegenkendelsen ville have<br />
større betydning, men den egentlige implementering og efterfølgende ludic engineering /<br />
leg med spillet viste, at det semantiske og det pragmatiske lag var klart vigtigst. Faktisk<br />
er jeg nu af den opfattelse, at det i spillet vil være nok med et delvist fungerende<br />
morfologisk lag, som kan opfange unikke ord men ikke genkende dem, er det eneste<br />
nødvendige supplement til den semantiske og pragmatiske genkendelse. Dette er delvist<br />
implementeret (og har været det siden papegøje funktionen i prototype 1), så egentlig vil<br />
jeg mene, at talegenkenderen er tæt på at indeholde al den funktionalitet, der er<br />
nødvendig for genkendelse i den begrænsede kontekst som mit spil udgør. Det vil jeg<br />
selv betegne som en stor bedrift - at jeg har implementeret en funktionsdygtig<br />
talegenkender helt fra bunden. Det er i høj grad technology inspiration og en opfyldelse<br />
af indie-princippet om at udnytte de tekniske svagheder til egen fordel.<br />
<strong>Design</strong>et af de pragmatiske målinger var<br />
forholdsvist hurtigt klaret, idet de blot<br />
udnytter objekternes eksisterende attributter<br />
for syn og hørelse, samt fysikvektorerne der<br />
indeholder informationer om blandt andet<br />
retning og hastighed. Med dem udregnes<br />
hvornår Sensei kan se en ninjaelev, hvor<br />
meget Sensei larmer og om en ninjaelev kan<br />
høre Sensei, og det er disse informationer der<br />
udgør de indtil videre implementerede<br />
pragmatiske målinger. Den semantiske logik<br />
er nogle funktionskald der returnerer<br />
sandhedsværdier baseret på de pragmatiske<br />
målinger, og som på den måde kan afgøre hvilket funktionskald der skal afvikles.<br />
Synliggørelsen af genkendelse af NINJA blev den førnævnte lysende ring omkring den<br />
valgte elev, og da jeg samtidig udførte den omtalte analyse af dialogen gennem Winograd<br />
& Flores’ conversation for action-model, fik jeg også synliggjort, hvordan en selektion<br />
kun holder fem sekunder.<br />
Det andet arbejde som blev udført i forbindelse med denne prototype var den grafiske<br />
udarbejdelse af en panda (se Figur 21), og den tilfældige placering af træer. Sidstnævnte<br />
102<br />
Figur 21: Prototype 3, ninjaelev med<br />
selektion og en omvandrende panda