17.07.2013 Views

3 Stemmebaseret interaktion - The Game Design Chronologist ...

3 Stemmebaseret interaktion - The Game Design Chronologist ...

3 Stemmebaseret interaktion - The Game Design Chronologist ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

En talesynteseproces starter med, at computeren udleder mening af situationen, for<br />

derefter at konstruere et logisk udtryk der kan repræsentere denne mening. F.eks. win(I).<br />

Denne omdannes så til en sætning - her ”I win”. Fra dette punkt påbegyndes en proces<br />

der kaldes text-to-speech [Jurafsky & Martin, 2000, s92], hvor målet er at omdanne en<br />

tekststreng til en akustisk lydbølge. Der er overordnet set fire måder dette kan gøres på.<br />

• Den første er at optage en begrænset mængde hele ord og sætninger, for<br />

at kunne afspille kombinationer af disse, hvad der giver den højeste<br />

naturlighed i lyden, men det at skulle optage alle ord på forhånd er ofte<br />

en klar ulempe. Både fordi det stiller store krav til lagringsplads, men<br />

også fordi det tager lang tid at implementere hvis ordforrådet skal være<br />

stort. Til gengæld er det beregningsmæssigt simpelt [Furui, 2001, s217],<br />

i det der ikke kræves andet end afspilning af ordene (evt. kan der<br />

foretages en behandling af ordene afhængigt at hvor i en sætning de<br />

placeres). Denne metode anvendes eksempelvis i alle nye fodboldspil,<br />

hvor en kommentator kommenterer kampen. Jurafsky & Martin<br />

beskriver slet ikke denne mulighed, og den er da også meget simpel,<br />

men den er bestemt velegnet til mange formål.<br />

• En anden mulighed er at analysere en mængde af optagne ord, og<br />

opsplitte disse i mindre bidder. Disse bidder kan derefter benævnes<br />

fonologisk, og flere ord kan så dannes ved at kombinere fonemer til<br />

morfemer. Dette kan forbedres gennem anvendelsen af statiske metoder<br />

som HMM, i sprog som dansk og engelsk hvor der ikke er en tydelig<br />

sammenhæng mellem måden et ord staves på, og måden det udtales (og<br />

dermed beskrives fonologisk). Dette er da ikke største problem ved<br />

denne metode. Problemet er i stedet at fonemer ikke indeholder<br />

tilstrækkeligt med information om hvordan en lyd skal udtales, fordi de<br />

blot er abstrakte beskrivelser af en lyd. Derfor kommer talen med denne<br />

metode ikke til at lyde helt naturlig, men til gengæld er den simplere at<br />

implementere end den næste metode [Furui, 2001, s221].<br />

• I forhold til førnævnte medtages nu fonetisk information, hvad der gør<br />

processen langt mere kompliceret og beregningskrævende fordi der<br />

kræves et stort kendskab til hvordan ord almindeligvis udtales, hvad der<br />

også gør at processen kræver meget lagringsplads. Her lagres også<br />

såkaldte triphones og diphones der er kombinationer af foner, hvormed<br />

overgangene mellem dem kan virke mere naturlig [Furui, 2001, s221].<br />

• Til sidst er der såkaldt formant synthesis som er den form for syntese der<br />

blev anvendt i Magnavox’ Odyssey 2 spillemaskine fra 1978 (og tidligere<br />

udenfor spilindustrien). Teknikken foreskriver ren syntetisk fremstilling<br />

af tale, ved at beskrive foner som frekvenser. Det giver ikke et naturligt<br />

resultat, men det er dog alligevel forståeligt, hvad der i nogle situationer<br />

også kan være det vigtigste ved talesyntese.<br />

31

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!