Taleteknologi - Institutt for elektronikk og telekommunikasjon - NTNU

Taleteknologi 

Torbjørn Svendsen 

Institutt for elektronikk og telekommunikasjon 

NTNU 

Taleteknologi - introduksjon Professor Torbjørn Svendsen, NTNU 1



“Speech is not just the future of Windows, but the future of 

computing itself” 

William H. Gates III 

“Computers are starting to do what most two-year-olds can do: 

identify spoken words and answer back” 

IEEE Spectrum, Jan. 1997 

Hyde’s lov: 

”The accuracy of speech recognizers is 98%” 

S.R. Hyde, Joint Speech Research Unit, 1969 

Korrolar: 

”Because speech recognizers have an accuracy of 98%, tests must be 

arranged to prove it” 


Hvorfor tale? 

• Enkelt 

– naturlig kommunikasjonsform 

– krever ingen særskilte forkunnskaper eller ferdigheter 

• Frigjørende 

– hender og øyne fri til andre oppgaver → kan unngå tastatur og 

skjerm 

– hjelp for funksjonshemmede 

• Tilgjengelighet av informasjon 

– hvor som helst, når som helst, hvem som helst 

– For eksempel: Enkelt grensesnitt basert på tale og telefon 

• Tale- og språkteknologi på norsk må ha en norsk basis 

– språkkunnskap og teknologikunnskap 


Taleteknologi - flerfaglig 

Elektro- 

nikk 

Signal- 

behandling 

Lingvistikk 

Statistikk 


Fonetikk 

Psykologi 

Språkdata 

Informatikk 


Talekoding 

Kompresjon/ 

dekompresjon 


Talekoding 

• Kompresjon for å spare båndbredde eller lagerplass 

– Telefoni 

• GSM, satellitt 

• Internett 

• Bildetelefon, MPEG 

– Digital kringkasting 

– Talepost 

– Kombinasjon med eller supplement til talesyntese 

• Manipulering av talesignaler 

• Digital signalbehandling + kunnskap om taleproduksjon og 

talepersepsjon 


Talegjenkjenning 

Send epost 

til Petter 



• Tale-til-tekst 

• Internasjonal status: God 

ytelse under kontrollerte 

forhold 

• Problemer: 

– Støy (bakgrunn, linje) 

– talervariasjon 

– uttalevariasjon 

– variasjon i uttrykksmåte 

• Behov for robust 

talegjenkjenning 

Tale 

Egenskapsuttrekking 

Mønstergjenkjenning 

Statistisk 

grammatikk 

Tekst 

Akustiske 

modeller 

Uttaleleksikon 

Grammatikk 



• Kompleksitet (og ytelse) avhenger av 

– Talemodus 

• Isolerte ytringer - kontinuerlig tale 

– Talermodus 

• Talertrent - taleruavhengig - taleradaptivt 

– Ordforråd 

– Naturlighet 

• Lest tale / diktering 

• Spontan, naturlig tale 

– Støyforhold 


Talegjenkjenning - ytelse 

Oppgave Ordforråd Modus Ordnøyaktighet 

Oppgave Ordforråd Perpl Ordnøyaktighet 

Tall (0-9) 10 SI ~100% Sammenhengende 

tall 

10 10 ~99% 

Stemme-oppringing 37 SD 100% Sjøforsvar 

ressurshåndtering 

991

Stemmegjenkjenning 

Jeg er 

Torbjørn 

Det er feil! 

Du er ikke 

Torbjørn. 


Stemmegjenkjenning 

• Talerverifikasjon 

– Verifisering av påstått identitet 

– Adgangskontroll (fysisk eller logisk) 

– Feiltyper: Feil taler akseptert/Sann taler avvist 

– Typisk ytelse: ca. 1-2 % feilrate 

• Taleridentifikasjon 

– Bestemmelse av en talers identitet 

– Ofte kriminaltekniske anvendelser 

– Generelt ~uendelig sett av mulige talere → vanskelig å 

estimere feilrate 

– Hvis endelig antall mulige talere, pålitelig (jfr. talerverifikasjon) 

• Baseres ofte på samme teknologi som talegjenkjenning 


Talesyntese 

Du har fått 

epost fra 

Petter 


Talesyntese 

• Konvertering fra tekst til tale: 

– ”Frasekonkatenering” - 

skjøting av setningsdeler 

• Begrenset 

meldingsrepertoar 

• Tungvint å gjøre endringer 

– Tekst-til-tale syntese (TTS) 

• All tekst kan leses opp 

• Begrensning på språk 

Tekst 

Tekst til 

lydskrift 

Intonasjon 

TTS 

Uttaleordliste 

og -regler 

Modeller 

og regler 

• Behov for forbedret 

talekvalitet 

– Prosodimodellering 

– Lydgenerering 

Lydgenerering 

Tale 

Lyddata 


Eksempel - norsk talesyntese 

Norsk: 

”De enkleste og mest etablerte former for 

taleteknologiske anvendelser er i sin 

helhet basert på generelle prinsipper for 

digital signalbehandling. Dette vil si at 

tale, i form av analoge lydsignaler, kodes 

digitalt, for dermed å kunne lagres i 

datamaskiner og ved behov 

reproduseres som analoge signaler 

gjennom dekoding. Det er dette som 

skjer ved vanlig telefoni (etter 

digitaliseringen av telenettet) og 

naturligvis ved GSM mobiltelefoni, som i 

utgangspunktet er et heldigitalt system.” 

Engelsk (på norsk): 

“The simplest and most established 

applications of speech technology are 

completely based on general 

principles of digital signal processing. 

This means that speech, represented 

by analog signals, are digitally 

encoded for computer storage, and 

can be reproduced on demand as 

analog signals through decoding. This 

is what happens in ordinary telephony 

(since the telecommuncations 

networks became digital) and of 

course in GSM mobile telephony, 

which from the origin was a completely 

digital system.” 


Dialogsystem 

Hvor skal du 

reise fra? 

Når går neste 

buss til sentrum? 


Grammatisk og 

semantisk 

analyse 

Dialoghåndtering 

Data 

Talesyntese 

Dialogsystem 


Dialoganalyse 

• 400 opptak av dialog menneske-menneske 

– deprimerende lytting…….. 

• 150 WoZ-dialoger over teleforn 

– mer optimistisk … 

• ~ 30 k tekstbaserte forespørsler 

– gjorde oss oppmerksom på betydningen av semantikk 


TABOR-dialog (forenklet) 

Eksempel 1 

Eksempel 2 

Nei 

Info 

Start 

Velkommen 

Vet…? 

Ja 

Fra 

hvor ? 

Til 

hvor ? 

Bussinfo 

Tidsinfo 

Avgang el. 

ankomst? 

Dag ? 

Ja 

Tidsinfo 

? 

Ja 

Ja 

Nei 

Gjenta? 

Nei 

Annen 

avgang ? 

Nei 

Annen 

buss ? 

Nei 

Stopp 

Ja 


Et nettverk for tidsangivelse 


Start 


”Korrekt” tidsangivelse 


”Vanlig” tidsangivelse 


Tekniske spesifikasjoner 

• Linux basert PC-plattform 

• TABULIB: C/C++ programvarebasis (Telenor FoU) 

• TABUSS/BUSTUC: Prolog basert NLP-del 

• Dialoghåndtering i Perl 

• Frasekonkatenering 

• 6 forskjellige talegjenkjennere 

– valg av gjenkjenner avhengig av hvor i dialogen man befinner 

seg 


Noen utfordinger 

• Varierende måte å uttale tall og tidspunkt 

• Folk benytter synonymer for navn på holdeplasser 

• Folk vet ikke navnene på holdeplassene 

• Systemet bryter sammen i kraftig bakgrunnsstøy 

• For dårlig ytelse for barnestemmer 

• Klar degradasjon i nøyaktighet for mobiltelefon 

• Degradasjon i nøyaktighet for høyttalende telefoner 

• Rigid dialog 

– neste generasjon er mer fleksibel 


Omgivelseskontroll 

• Styring av omgivelsene ved bruk av talte kommandoer 

• Hovedkostnaden ligger i automatisering og elektrisk/ 

maskinelt utstyr 

• Nøyaktighet og brukervennlighet i talegjenkjenneren er 

vesentlig 

– enkeltstående kommandoord eller 

– setningskommandoer 

– valg av vokabular er viktig 

• forbedrer ytelsen til talegjenkjenneren 

• unngå utilsiktet aktivisering av omgivelseskontrollen 

– bruk tale der tale er best, bruk andre metoder der de er best! 


Diktering 

• Erstatning for tastaturbruk - hjelp for synshemmede, 

bevegelseshemmede, personer med lese- og skrivevansker 

• Korrespondanse og annen tekstgenerering 

• Dagens systemer gir noenlunde akseptabel ytelse for de 

fleste brukere 

• Foreløpig ingen dikteringssystemer for norsk tale 

• Krever normalisert uttale - ikke dialekt 

• Mange (tillatte) alternative skrivemåter og bøyningsformer 

skaper spesielle problemer for norsk 

• Egennavn (person-, steds-, firma-navn osv.) 


Eksempel - svensk diktering 


Lesemaskiner 

• Talesyntese (tekst-til-tale) 

• Lesehjelp til 

– elektroniske dokumenter 

– epost 

– nettsider (inklusive nyheter og andre informasjonstjenester) 

– tekst på papir (ved hjelp av optisk leser/scanner og optisk 

karaktergjenkjenning) 


Taleprotese 

• Talesyntese for personer med tapt/nedsatt taleevne 

• Vanlig tastatur eller symboltastatur 

• Forståelighet og naturlighet viktig 

• Personlig tilpasning av syntetisk stemme 

– stemmen en viktig del av personlig identitet 

– relativt enkelt med ”gammeldags” syntese, men dårlig kvalitet 

– hittil et omfattende arbeid med moderne metoder som gir høy 

kvalitet 

– forenklinger/forbedringer forventes 


Døvetelefon 

• Talegjenkjenning for oversettelse fra tale til tekst 

• Gjenkjent tale vises på monitor/display 

• Tekst til tale ved hjelp av talesyntese 

Talegjenkjenner 

Bla bla 

bla bla 

Talesyntese 


Synface 

• Hjelp for hørselshemmede 

• Gir mulighet for munnavlesning som hjelp ved telefonbruk 


”Teleface” 


Skrivestøtte 

• Hjelp til ortografi og formulering, spesielt rettet mot personer 

med lese- og skrivevansker 

• Enkelt system: 

– Gi brukeren valg (meny) mellom sannsynlige ordalternativer 

når feilstavede ord detekteres 

– Inkluderer ordforklaring, ordklasse 

– eks: ”jærne” - alternativer hjerne, gjerne, jernet 

• Mer avansert system: 

– Automatisk tekstanalyse detekterer skrivefeil 

– Analysen reduserer antall valgmuligheter 

– Valgmulighetene kan leses opp med syntetisk tale (evt. hele 

setningen), eller listes opp i en meny 


Nasjonal FoU-kompetanse 

• Telenor R&I: 

– ca. 4 forskere 

– Talesyntese, talegjenkjenning, dialog 

– kompetanse på talekoding 

• SINTEF IKT 

– 2 forskere med doktorgrad 

– FoU innen 

• Talegjenkjenning, dialogsystemer 

• NTNU 

– 6 professorer/1.amanuenser, 3 forskere/postdocs, 8-10 

dr.gradsstipendiater aktive innen taleteknologi 

– etablert flerfaglig samarbeid 

• signalbehandling, akustikk, elektronikk, lingvistikk, fonetikk, NLP 

– talegjenkjenning, talesyntese, dialog, stemmegjenkjenning, 

(talekoding) 


Norsk tale- og språkteknologi 

• Språkteknologien får økende betydning i IKT-samfunnet 

• Språket viktig kulturbærer, og viktig for identitet og 

tilhørighet 

• Behov for produkter og kunnskap for norsk språk 

• Stadig mer avanserte systemer krever både 

språkkompetanse og teknologisk kompetanse 

– behov for mer kompetanse - økt utdanning på hovedfags- og 

doktorgradsnivå 

– mange uløste problemer, behov for mer kunnskap - forskning 


Norsk tale- og språkteknologi 

• Språkteknologien er avhengig av språkdata 

– f.eks. dikteringssystemer: 

• relevante taledata (lest/diktert tale, mange talere) - 300-1000 timer 

• relevante tekstdata (> 200 millioner ord) 

• uttaleleksikon (~100.000 grunnord) 

• bokmål/nynorsk? 

– telefonbasert dialogsystem (talegjenkjenner): 

• telefontale, utrente brukere, støy 

• tekst og uttaleleksikon som over 

• Lite marked, store datamengder (og kostnader) 

• Norsk språkbank 


Hvor god er teknologien i dag? 

• Taleteknologien har fortsatt betydelig forbedringspotensial 

– Gjelder spesielt talegjenkjenning 

• Likevel - tilstrekkelig god ytelse til at det er mulig å lage 

mange gode hjelpemidler - hvis man tar hensyn til at 

teknologien ikke er perfekt i designet 

• Tale kan være svaret på mange problemer, men langt fra 

alle. Alternativer er bl.a.: 

– sporing av øyefokus 

– enkle knappeløsninger 


Hva med norsk? 

• Foreløpig lite av norske produkter basert på taleteknologi 

• Hovedproblem: Mangel på språkdata 

– Data fra NSTs konkursbo kjøpt våren 2007 

– Akustiske data (>1000 timer) 

– Tekstdata (~700 MOrd) 

• Max Manus har dikteringssystemer for sykehusdomenet (Philips) 

• Nuance har gjenkjennere for telefonanvendelser 

• Telenor utvikler tjenester med taleteknologi 

• Kommersiell norsk talesyntese fra Nuance (NST) og Acapela 

(Sverige) 

• Flere (enkle) talebaserte tjenester tilgjengelig (systemintegrasjon) 

• Behov for langt mer 


Forskningsprosjekter ved 

NTNU 

• BRAGE - Brukergrensesnitt med naturlig tale 

• VOCALS - Voice Centric User Interfaces for Location Based 

Services 

• FONEMA - Metodeutvikling for naturtro norsk talesyntese 

• SVOG - Storvokabular gjenkjenner for norsk 

• SIRKUS - Spoken Information Retrieval by Knowledge Utilization 

in Statistical Speech Processing 

• RUNDKAST - En transkribert database av kringkastede 

nyhetssendinger for språkteknologiske anvendelser 

• Digitale utfordringer - deltakelse og funksjonshemming i 

informasjonssamfunnet 

• SMUDI - Stemmestyring for multimodal dialog 

• S2S - Sound to sense (Marie Curie nettverk)

Taleteknologi - Institutt for elektronikk og telekommunikasjon - NTNU

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?