Talesynteser på dansk
Talesynteser på dansk
Talesynteser på dansk
Transform your PDFs into Flipbooks and boost your revenue!
Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.
Sprogteknologi<br />
Kirsten Marie Hansen,<br />
konsulent,<br />
Inger Kirk Jordansen,<br />
konsulent<br />
HMI<br />
FOTO: TRINE BJERRE MIKKELSEN<br />
10<br />
<strong>Talesynteser</strong> <strong>på</strong> <strong>dansk</strong><br />
– og lidt om digitaliseret tale<br />
Talesyntese har været kendt og anvendt i Danmark<br />
inden for handicapområdet i adskillige år.<br />
Denne artikel giver et overblik over området, og<br />
over hvad der er sket, siden den første <strong>dansk</strong>e<br />
talesyntese fik lyd.<br />
Historik<br />
De første <strong>dansk</strong>e talesynteser, der blev benyttet var Apollo<br />
og Juno fra Dolphin System og senere kom Infovox 500,<br />
som kunne tilbyde en noget bedre talekvalitet. Det var<br />
udelukkende blinde, der benyttede talesyntese, da de formåede<br />
at lære at forstå de meget robot-agtige stemmer.<br />
Trods en løbende forbedring af talekvaliteten i Infovox<br />
op gennem 90-erne virkede den stadig ikke tilfredsstillende<br />
udtalekvalitet hindrende for, at talesyntese blev udnyttet<br />
i det omfang og til de forskellige handicapgrupper,<br />
hvor det ville være relevant, og som man så i fx USA. En<br />
anden væsentlig hindring for udbredelsen af talesyntese<br />
var prisen, som var for høj til at sikre en bred anvendelse.<br />
Heidi er ordblind. Hun var en af de første, der fik bevilget ITudstyr<br />
efter SPS-reglerne. I sit studie bruger hun en bærbar<br />
computer med bl.a. prædiktionsprogrammer og et<br />
oplæsningsprogram med talesyntese, elektroniske ordbøger,<br />
en mini-disc med tilhørende mikrofon og en skanner med<br />
tilhørende tekstgenkendelsesprogram. Desuden bruger hun<br />
lydbånd, hvor nogle af de bøger, hun skal bruge i undervisningen,<br />
er indtalt.<br />
Begge forhold var medvirkende til, at Forskningsministeriet<br />
i 1998, som led i handlingsplanen Frihed til at vælge fra<br />
1996 afholdt en projektkonkurrence om udvikling af en ny<br />
og forbedret talesyntese til det <strong>dansk</strong>e marked. Konkurrencen<br />
blev vundet af et konsortium bestående af Tele<br />
Danmark A/S, Center for Personkommunikation ved Aalborg<br />
Universitet, Institut for Almen og Anvendt Sprogvidenskab<br />
ved Københavns Universitet og Tawido Aps, Aalborg.<br />
Udviklingsprojektet resulterede i sommeren 2001 i talesyntesen<br />
DanTTS, som er mest kendt under navnet Carsten,<br />
og som i dag ejes og videreudvikles af Speech-Ware<br />
A/S. Carsten har siden fået en søster Benedicte, således at<br />
DanTTS både fås med en mande- og en kvindestemme.<br />
I februar 2000 blev Infovox 330 med stemmen Poul frigivet<br />
<strong>på</strong> det <strong>dansk</strong>e marked. Denne talesyntese, som byggede<br />
<strong>på</strong> et anderledes synteseprincip end tidligere, havde<br />
en væsentlig bedre udtale end de tidligere InfoVox-synteser<br />
. Infovox, som tidligere var ejet af Telia, er i dag overtaget<br />
af BaBel Infovox AB i Sverige.<br />
I efteråret 2001 kom der endnu en <strong>dansk</strong> talesyntese <strong>på</strong><br />
markedet. Talesyntesen blev udviklet i et samarbejde mellem<br />
Lernout & Hauspie i Belgien og Nordisk Språkteknologi<br />
AS i Norge. Talesyntesen fik betegnelsen L&H RealSpeak<br />
og blev i første omgang lanceret som en selvstændig applikation<br />
under navnet ReadIT med stemmen Nanna. Rettighederne<br />
til talesyntesen blev senere købt af Scansoft,<br />
og i dag sælges produktet derfra under navnet Scansoft<br />
RealSpeak.<br />
Den efterhånden udmærkede talekvalitet i de nye <strong>dansk</strong>e<br />
talesynteser har medført, at nye handicapgrupper i stigende<br />
omfang er begyndt at anvende talesyntese som kompenserende<br />
hjælpemiddel eller som støtteværktøj i undervisningen.<br />
Danske talesynteser<br />
I det følgende ses en oversigt over de talesynteser, som i<br />
dag forhandles <strong>på</strong> det <strong>dansk</strong>e marked. Der henvises til forhandlerne<br />
for oplysning om priser. De ældre talesynteser<br />
har enten ingen nye brugere eller er udgået af markedet.<br />
Det drejer sig om talesynteserne Apollo og Juno, Infovox<br />
500, Infovox 700 og Infovox 220. Disse er efterhånden erstattet<br />
af nyere softwarebaserede konkatenative talesynteser,<br />
der bygger <strong>på</strong> difon-princippet og har en mere naturlig<br />
udtale.<br />
HIT1 2003
Infovox 210: Softwarebaseret talesyntese til Macintosh.<br />
Benyttes med programmer, der er forberedt til at bruge<br />
talen. Infovox 310 er afløseren til denne talesyntese.<br />
Giver mulighed for flere sprog.<br />
Infovox 230: Softwarebaseret talesyntese til Windows 95<br />
og nyere versioner. Kan også benyttes med Windows<br />
3.1. Giver forskellige muligheder for at indstille stemmen.<br />
Talen bygger <strong>på</strong> formant-princippet. Leveres med<br />
både <strong>dansk</strong> og engelsk tale. Benyttes af mennesker med<br />
synshandicap, læse- skrivehandicap og enkelte med tale-kommunikationshandicap.<br />
Giver mulighed for flere<br />
sprog.<br />
Infovox 310: Softwarebaseret talesyntese til Macintosh.<br />
Talen bygger <strong>på</strong> difon-princippet. Benyttes med programmer,<br />
der er forberedt til at bruge talen.<br />
Giver mulighed for flere sprog.<br />
Infovox 330: Softwarebaseret talesyntese til alle Windows<br />
95/98 og nyere versioner.<br />
Talen bygger <strong>på</strong> difon-princippet. Fås <strong>på</strong> <strong>dansk</strong> med<br />
forskellige muligheder for at indstille stemmen. Fås også<br />
indbygget i applikationer som totalløsninger med bl.a.<br />
mandestemmen Poul. Benyttes af mennesker med synshandicap,<br />
læse-skrivehandicap og i stigende omfang<br />
også af mennesker med tale- og kommunikationshandicap.<br />
Har Microsoft SAPI 4 grænseflade. Giver mulighed<br />
for flere sprog.<br />
DanTTS 2.1 : Softwarebaseret talesyntese til Windows<br />
98 og nyere versioner. Talen bygger <strong>på</strong> difon-princippet.<br />
Fås <strong>på</strong> <strong>dansk</strong> som mandestemme, kaldet Carsten og<br />
kvindestemme, kaldet Benedicte. Giver også flere muligheder<br />
for at indstille stemmen. Benyttes af mennesker<br />
med synshandicap, læse-skrivehandicap og i stigende<br />
omfang også af mennesker med tale- og kommunikationshandicap<br />
og andre. Har Microsoft SAPI 4 grænseflade.<br />
Giver ikke mulighed for flere sprog.<br />
Scansoft RealSpeak: Softwarebaseret talesyntese til<br />
Windows 98 og nyere versioner. Talen bygger <strong>på</strong> difonprincippet.<br />
Fås <strong>på</strong> <strong>dansk</strong> som kvindestemme kaldet<br />
Nanna. Giver også flere muligheder for at indstille stemmen.<br />
Benyttes af mennesker med læse-skrivehandicap<br />
og i stigende omfang også af mennesker med tale- og<br />
kommunikationshandicap og andre funktionsnedsættelser.<br />
Giver mulighed for flere sprog. Real Speak Nanna<br />
har indtil nu kun været tilgængelig i en udgave, der ikke<br />
er SAPI kompatibel. Men en sådan er nu <strong>på</strong> markedet i<br />
Danmark. Man har altså både en løsning, der skal implementeres<br />
specielt, og som ikke kan benyttes sammen<br />
med andre SAPI produkter, og én der kan.<br />
Digitaliseret tale <strong>på</strong> <strong>dansk</strong><br />
I nogle situationer er det af stor betydning, at udtalekvaliteten<br />
af de enkelte ord er lige så god som den menneskelige<br />
stemme. Ingen af de <strong>dansk</strong>e talesynteser er dog endnu<br />
i stand til at leve op til dette krav, så i disse tilfælde må<br />
man i stedet vælge at benytte digitaliseret tale. Digitaliseret<br />
tale er indtalt tale, som gemmes i en database. Mikro-<br />
Værkstedet i Odense har gennem flere år forhandlet en cd<br />
med digitaliseret tale. CD-ORD, som produktet hedder, er<br />
gennem årene blevet udbygget og findes i dag i to forskellige<br />
versioner:<br />
CD-ORD 3.5: Består af en grundstamme <strong>på</strong> ca. 70.000<br />
indlæste <strong>dansk</strong>e ord. Programmet kan ud over oplæsning<br />
af disse ord selv lave sammensatte ord og bøjninger.<br />
På den måde bliver det samlede ordforråd <strong>på</strong> mere<br />
end 300.000 ord. Man kan endvidere tilføje/indtale egne<br />
ord til CD-ORDs database. CD-ORD 3.5 er SAPI kompatibel.<br />
Kan anvendes <strong>på</strong> pc som selvstændigt oplæsningsværktøj<br />
og i programmer, der er forberedt til SAPI.<br />
Giver ikke mulighed for flere sprog.<br />
CD-ORD Nanna: I CD-ORD Nanna indgår de ca. 70.000<br />
indlæste <strong>dansk</strong>e ord fra CD-ORD 3.5 (stemmen Per),<br />
samt den <strong>dansk</strong>e syntetiske tale Real Speak - Nanna.<br />
Man kan vælge om teksten udelukkende skal læses op<br />
med den syntetiske tale eller med den digitale stemme<br />
eller begge. CD-ORD Nanna er ikke SAPI kompatibel.<br />
Kan anvendes <strong>på</strong> pc som selvstændigt oplæsningsværktøj<br />
og i programmer, der er særlig forberedt til det – er<br />
programmeret op imod CD-ORD Nanna. Giver ikke mulighed<br />
for flere sprog. En SAPI-udgave af CD-ORD Nanna<br />
er under udvikling og vil være i handlen i august 2003.<br />
Denne version vil altså kunne benyttes i alle SAPI forberedte<br />
produkter.<br />
FOTO: OLE MIK<br />
Jack er født med cerebral parese. Det betyder, at han har<br />
store motoriske problemer. Han kommunikerer bl.a. ved<br />
hjælp af en lille maskine med syntetisk tale, der udtaler det,<br />
som skrives <strong>på</strong> tastaturet. Maskinen er handy og let at tage<br />
med. I Jacks tilfælde er den monteret <strong>på</strong> kørestolen, så den<br />
altid er tilgængelig. Den er derfor brugbar i flere dagligdags<br />
situationer. Specielt er den velegnet, når ordvalget skal være<br />
meget præcist, eller Jack taler med en person, der ikke<br />
kender hans andre kommunikationsmåder.<br />
Sprogteknologi<br />
HIT1 2003 11
Sprogteknologi<br />
12<br />
FOTO: KLAUS LASVILL-MORTENSEN<br />
Når talesynteserne skal bruges til pc<br />
SAPI talesynteserne til Windows, InfoVox 330 og DanTTS er<br />
synteser, som har en indbygget Microsoft SAPI grænseflade.<br />
Det betyder, at man i princippet kan anvende dem<br />
som et selvstændigt oplæsningsværktøj, dog med meget<br />
begrænsede funktioner. Man kan åbne syntesens „program“<br />
og få læst tekst op <strong>på</strong> computeren ved at benytte<br />
markér tekst og få læst op via klippebordet. Har man købt<br />
talesyntesen som selvstændig software, vil man altid kunne<br />
benytte denne funktion.<br />
Det forholder sig anderledes med den udgave af talesyntesen<br />
Real Speak fra ScanSoft, som ikke er SAPI kompatibel.<br />
Derfor har man også i forbindelse med udviklingen<br />
af talesyntesen, udviklet applikationen (oplæsningsværktøjet)<br />
Read IT, der i princippet svarer til de grænseflader,<br />
som SAPI talesynteserne InfoVox og DanTTS indeholder.<br />
Programmer forberedt til talesyntese (åbne systemer)<br />
Oftest har man brug for programmer, der anvender talesyntese<br />
– det vil sige programmer, der er forberedt til at<br />
bruge talesyntese. For talesyntesen i sig selv udgør blot<br />
„stemmen“ i tilknytning til et computerprogram (en applikation).<br />
De programmer, der er forberedt til at kunne<br />
hente tale, indeholder forskellige oplæsningsfaciliteter, der<br />
kan bruges sammen med talen.<br />
Hvis både talen og programmet er SAPI-kompatibelt (SA-<br />
PI-forberedt), kan man bruge den samme talesyntese i flere<br />
forskellige programmer, og man kan frit vælge, hvilken<br />
Bo har svære læse-skrivevanskeligheder, men<br />
ikke særlige problemer med forståelsen af en<br />
tekst. På et AMU-kursus om mobile kraner får<br />
han forskelligt udstyr som kompenserer for læsevanskelighederne<br />
og udstyr som støtter notattagning.<br />
Det drejer sig om en bærbar pc,<br />
skanner og tekst-genkendelsesprogram, et<br />
oplæsningsværktøj med syntetisk tale, minidisk<br />
som hjælp til notattagning, skannerpen til<br />
oplæsning og indskanning af enkeltord og et<br />
prædiktionsprogram til at kompensere for<br />
staveproblemer i forbindelse med skriftlige<br />
opgaver.<br />
Per har siden fødslen været svagsynet. Alt skal<br />
derfor enten tæt <strong>på</strong> eller være meget stort og<br />
rigt <strong>på</strong> kontraster. Bogstaver og tal skal være<br />
næsten 2 centimeter høje, før han kan læse<br />
dem. Han bruger et CCTV til at læse med.<br />
Hertil er tilknyttet en slags kikkert, der kan<br />
overføre tekst <strong>på</strong> tavlen til CCTV-et. På Pers<br />
computer er endvidere installeret et forstørrelsesprogram,<br />
hvor alle ikoner, værktøjslinier og<br />
dokumenter kan forstørres, så Per kan se dem.<br />
Forstørrelsesprogrammet har desuden oplæsningsfunktioner<br />
med syntetisk tale.<br />
SAPI-talesyntese man vil benytte. Man kan for den sags<br />
skyld også installere flere talesynteser <strong>på</strong> computeren og<br />
vælge imellem dem fra det enkelte program eller benytte<br />
forskellige taler i forskellige programmer. Og man kan<br />
uden videre supplere med andre sprog, hvis disse findes<br />
til talesyntesen.<br />
Men både programmerne og talesyntesen skal altså være<br />
SAPI kompatible, og man skal købe talesyntesen som<br />
en „løs“ talesyntese – en SAPI talesyntese, der installeres<br />
<strong>på</strong> computeren.<br />
Totalløsninger (lukkede systemer)<br />
I nogle tilfælde laves der også særlige totalløsninger. Det<br />
vil sige, at man knytter en talesyntese specielt sammen<br />
med et program. Talen vil så være en integreret del af<br />
dette program. Her vil man ikke kunne bruge talesyntesen<br />
i andre programmer – heller ikke selvom de er forberedt<br />
til SAPI standarden, for der er i princippet ikke længere tale<br />
om SAPI. Man vil dog som regel kunne benytte de begrænsede<br />
funktioner til oplæsning via klippebordet i andre<br />
programmer.<br />
Det er også her de ikke SAPI kompatible udgaver af Real<br />
Speaks Nanna og CD-ORD Nanna placerer sig. Da de ikke<br />
er SAPI kompatible, skal de implementeres direkte i det<br />
givne program. Har man derfor ét program med Nanna,<br />
kan man ikke uden videre benytte talesyntesen i andre<br />
programmer. I nogle tilfælde vil man dog kunne benytte<br />
oplæsning via klippebordet.<br />
HIT1 2003<br />
FOTO: KLAUS LASVILL-MORTENSEN
Hvis man har flere programmer, der skal arbejde sammen,<br />
og som skal benytte talen, skal man altså sikre sig, at talen<br />
kan benyttes i begge programmer. Eller man skal benytte<br />
sig af flere talesynteser samtidig.<br />
Åbne eller lukkede systemer?<br />
Fordelen ved at benytte de „løse“ SAPI talesynteser er, at<br />
man har friheden til at anvende talen i flere programmer<br />
eller benytte forskellige talesynteser. Man kan løbende<br />
supplere med flere sprog og med programmer, der bruger<br />
talen. Dette kan være vigtige argumenter, hvor der fx<br />
er flere brugere af en computer.<br />
Man skal med disse åbne muligheder sikre sig, at der i<br />
forhold til det aktuelle behov, bliver sammensat en hensigtsmæssig<br />
helhedsløsning.<br />
Lukkede totalløsninger kan dog i nogle tilfælde være<br />
den bedste løsning, da de kan være enklere i brug. Der<br />
kan også være tale om noget billigere løsninger.<br />
Hvis man fra start ved, hvilke programmer og hvilket<br />
udstyr, der er relevante for brugeren, kan man sikre en<br />
god helhedsløsning. Man skal dog være klar over, at man<br />
kan risikere at skulle ud at investere i endnu et program,<br />
hvortil man også skal købe talen.<br />
Det skal også nævnes, at der findes mange programmer,<br />
hvortil man med fordel kan anvende tale, men som<br />
ikke har indbyggede funktioner til at benytte talen i sig<br />
selv. I mange tilfælde kan man kombinere disse programmer<br />
med fx oplæsningsværktøjer, der bruger tale.<br />
Forhandlere<br />
DAN TTS. Dansk Carsten og Benedicte<br />
Speech-Ware, www.speech-ware.dk<br />
Forhandles bl.a. af: Speech-Ware, ScanDis, Instrulog<br />
InfoVox. Dansk og andre sprog<br />
Babel Technologies, www.babeltech.com/tproducts.htm<br />
Forhandles bl.a. af: Instrulog, ScanDis<br />
Real Speak. Dansk Nanna og andre sprog.<br />
Scan Soft, www.scansoft.dk<br />
Forhandles bl.a. af: Miko Værkstedet, ProSoft, ScanDis<br />
Key Speak SAPI Voice. Dansk Nanna og andre sprog. SAPI<br />
udgave af Real Speak. Portset, www.portset.co.uk<br />
Forhandles bl.a. af: Instrulog<br />
CD-ORD 3. Dansk digitaliseret tale: Per, CD-ORD Nanna, SAPI<br />
og ikke SAPI-udgave, <strong>dansk</strong> digitaliseret tale: Per og syntetisk<br />
tale: Nanna, Mikro Værkstedet, www.mikrov.dk<br />
Forhandles bl.a. af: Mikro Værkstedet<br />
Sprogteknologi<br />
HIT1 2003 13