3 Stemmebaseret interaktion - The Game Design Chronologist ...
3 Stemmebaseret interaktion - The Game Design Chronologist ...
3 Stemmebaseret interaktion - The Game Design Chronologist ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
En talesynteseproces starter med, at computeren udleder mening af situationen, for<br />
derefter at konstruere et logisk udtryk der kan repræsentere denne mening. F.eks. win(I).<br />
Denne omdannes så til en sætning - her ”I win”. Fra dette punkt påbegyndes en proces<br />
der kaldes text-to-speech [Jurafsky & Martin, 2000, s92], hvor målet er at omdanne en<br />
tekststreng til en akustisk lydbølge. Der er overordnet set fire måder dette kan gøres på.<br />
• Den første er at optage en begrænset mængde hele ord og sætninger, for<br />
at kunne afspille kombinationer af disse, hvad der giver den højeste<br />
naturlighed i lyden, men det at skulle optage alle ord på forhånd er ofte<br />
en klar ulempe. Både fordi det stiller store krav til lagringsplads, men<br />
også fordi det tager lang tid at implementere hvis ordforrådet skal være<br />
stort. Til gengæld er det beregningsmæssigt simpelt [Furui, 2001, s217],<br />
i det der ikke kræves andet end afspilning af ordene (evt. kan der<br />
foretages en behandling af ordene afhængigt at hvor i en sætning de<br />
placeres). Denne metode anvendes eksempelvis i alle nye fodboldspil,<br />
hvor en kommentator kommenterer kampen. Jurafsky & Martin<br />
beskriver slet ikke denne mulighed, og den er da også meget simpel,<br />
men den er bestemt velegnet til mange formål.<br />
• En anden mulighed er at analysere en mængde af optagne ord, og<br />
opsplitte disse i mindre bidder. Disse bidder kan derefter benævnes<br />
fonologisk, og flere ord kan så dannes ved at kombinere fonemer til<br />
morfemer. Dette kan forbedres gennem anvendelsen af statiske metoder<br />
som HMM, i sprog som dansk og engelsk hvor der ikke er en tydelig<br />
sammenhæng mellem måden et ord staves på, og måden det udtales (og<br />
dermed beskrives fonologisk). Dette er da ikke største problem ved<br />
denne metode. Problemet er i stedet at fonemer ikke indeholder<br />
tilstrækkeligt med information om hvordan en lyd skal udtales, fordi de<br />
blot er abstrakte beskrivelser af en lyd. Derfor kommer talen med denne<br />
metode ikke til at lyde helt naturlig, men til gengæld er den simplere at<br />
implementere end den næste metode [Furui, 2001, s221].<br />
• I forhold til førnævnte medtages nu fonetisk information, hvad der gør<br />
processen langt mere kompliceret og beregningskrævende fordi der<br />
kræves et stort kendskab til hvordan ord almindeligvis udtales, hvad der<br />
også gør at processen kræver meget lagringsplads. Her lagres også<br />
såkaldte triphones og diphones der er kombinationer af foner, hvormed<br />
overgangene mellem dem kan virke mere naturlig [Furui, 2001, s221].<br />
• Til sidst er der såkaldt formant synthesis som er den form for syntese der<br />
blev anvendt i Magnavox’ Odyssey 2 spillemaskine fra 1978 (og tidligere<br />
udenfor spilindustrien). Teknikken foreskriver ren syntetisk fremstilling<br />
af tale, ved at beskrive foner som frekvenser. Det giver ikke et naturligt<br />
resultat, men det er dog alligevel forståeligt, hvad der i nogle situationer<br />
også kan være det vigtigste ved talesyntese.<br />
31