13.05.2013 Views

Tecnologia Texto > Fala - Universidade do Porto

Tecnologia Texto > Fala - Universidade do Porto

Tecnologia Texto > Fala - Universidade do Porto

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Sistemas de Conversão <strong>Texto</strong>-<strong>Fala</strong>:<br />

esta<strong>do</strong> da arte, aplicações,<br />

arquitectura e desafios<br />

Daniela Braga e Miguel Sales Dias<br />

i-dbraga@microsoft.com, midias@microsoft.com<br />

Escola de Verão, Faculdade de Letras da <strong>Universidade</strong> <strong>do</strong> <strong>Porto</strong><br />

2 de Julho de 2009


Sumário<br />

• Parte I – Parte teórica<br />

– Processamento da <strong>Fala</strong> – o que é?<br />

– Aplicações <strong>do</strong> processamento da fala<br />

– Sistemas de síntese de fala – um pouco de história<br />

– Esta<strong>do</strong> da arte actual <strong>do</strong>s sistemas de síntese de fala<br />

– Alguns key-players importantes<br />

– Arquitectura de um sistema de síntese de fala<br />

– Principais desafios na construção <strong>do</strong> sistema: selecção da voz,<br />

controlo de qualidade, desenvolvimento e implementação de<br />

regras linguísticas, teste <strong>do</strong> sistema<br />

– Meto<strong>do</strong>logias e processos de teste<br />

– Principais desafios e problemas actuais<br />

• Parte II – Parte prática<br />

2


Processamento da <strong>Fala</strong>:<br />

o que é?<br />

<strong>Texto</strong><br />

Processamento da <strong>Fala</strong><br />

Síntese da <strong>Fala</strong> Reconhecimento de Voz<br />

<strong>Texto</strong>


Processamento da <strong>Fala</strong>: uma<br />

área interdisciplinar<br />

Matemática<br />

Terapia<br />

da <strong>Fala</strong><br />

Linguística<br />

Ciências<br />

da <strong>Fala</strong><br />

Medicina<br />

Informática<br />

Engenharia<br />

4


Sistemas de síntese e<br />

reconhecimento de voz: aplicações<br />

ORIENTAÇÃO E NAVEGAÇÃO<br />

• Sistemas de voz aplica<strong>do</strong>s a navegação por GPS<br />

instala<strong>do</strong> em viaturas, para que as orientações<br />

visuais sejam acompanhadas por informações<br />

auditivas.<br />

• Vantagens: maior segurança na navegação em<br />

automóvel.<br />

ENSINO<br />

• e-learning com interfaces de voz; tele-escola<br />

complementada com sistemas visuais em que uma<br />

face é animada em sincronismo com a voz ,<br />

permitin<strong>do</strong> escolher a voz e a face <strong>do</strong> ora<strong>do</strong>r; ensino<br />

de línguas estrangeiras.<br />

• Vantagens: ensino mais agradável, mais eficaz;<br />

aumento da motivação; possibilidade de repetição.


Sistemas de síntese e<br />

reconhecimento de voz: aplicações<br />

SISTEMAS DE COMANDO E CONSULTA<br />

• Controlo de sistemas por voz, aplica<strong>do</strong>s por exemplo a casas inteligentes<br />

(<strong>do</strong>mótica), cadeiras de rodas que obedecem a coman<strong>do</strong>s como<br />

recuar/avançar, anterior/seguinte, etc. por voz.<br />

• Vantagens: comodidade, rapidez na execução de tarefas.


Sistemas de síntese e<br />

reconhecimento de voz: aplicações<br />

TELECOMUNICAÇÕES<br />

• Sistemas de execução da chamada por indicação <strong>do</strong> nome ou <strong>do</strong> número<br />

<strong>do</strong> destinatário*; leitura de SMS por voz (útil a cegos) com a possibilidade<br />

de utilizar a voz <strong>do</strong> remetente; reconhecimento da voz**.<br />

• Vantagens: *rapidez nos coman<strong>do</strong>s e na comunicação; **redução da<br />

informação a transmitir libertan<strong>do</strong> largura de banda.<br />

Vodafone Say Net


Sistemas de síntese e<br />

reconhecimento de voz: aplicações<br />

QUIOSQUES DIGITAIS E MULTIMÉDIA<br />

• e-commerce com diversas aplicações: venda de<br />

bilhetes para espectáculos, viagens, alimentos,<br />

livros;<br />

• quiosques digitais com informações turísticas ou de<br />

localização, listas telefónicas, etc.<br />

• e-banking<br />

• e-books<br />

• leitura de páginas web<br />

• leitura de e-mail<br />

• E-cards<br />

• Vantagens: facilitar o acesso à informação a<br />

pessoas com necessidade especiais (invisuais ou<br />

pessoas com deficiências de visão); agilizar a<br />

consulta de produtos e de informações.


Projectos termina<strong>do</strong>s no<br />

MLDC: Exchange 14<br />

• http://blogs.msdn.com/tagarela/archive/2007/02/28/bemvin<strong>do</strong>s.aspx


Exchange 14<br />

• Microsoft: TTS em 26 línguas<br />

Herena<br />

Helle<br />

Heloísa<br />

Hélia<br />

10


SR no Win<strong>do</strong>ws 7<br />

• Reconhecimento de Voz: Coman<strong>do</strong> e Controlo e Dita<strong>do</strong><br />

11


Projectos termina<strong>do</strong>s no<br />

MLDC<br />

• Voice command:<br />

http://soapbox.msn.com/video.aspx?vi<br />

d=945afe25-90de-4b7d-ac07-<br />

116e286a3c06&wa=wsignin1.0<br />

• Media Center controlled by speech:<br />

http://soapbox.msn.com/video.aspx?vid=945afe25-90de-4b7d-ac07-<br />

116e286a3c06&wa=wsignin1.0


Cronologia<br />

• Até ao final <strong>do</strong>s anos 80 - técnicas de primeira geração<br />

– síntese por formantes<br />

– síntese articulatória<br />

• Desde finais <strong>do</strong>s anos 90 - técnicas de segunda geração<br />

– síntese por concatenação<br />

– Síntese por HMMs<br />

13


Técnicas de primeira geração<br />

• 1.VODER, by Homer Dudley, 1939 (synthesizing speech by electrical<br />

means)<br />

• 2.Pattern playback by F. Cooper (1951)<br />

• 3.Pat (Parametric artificial talker), by Walter Lawrence (1953)<br />

• 4.OVE I (Orator Verbis Electris) formant synthesizer, by Gunnar Fant (1953)<br />

• 5.Pat formant synthesizer (1962) by Walter Lawrence<br />

• 6.OVE II by Gunnar Fant (1962)<br />

• 7.Comparison between synthesized and natural voices, by Jonh Holmes<br />

(1961, 1973)<br />

• 8.Voice morphing D. Klatt (1987)<br />

• 9.DAVO (Dynamic Analog of the VOcal tract) articulatory syntheziser, by<br />

George Rosen (1958)<br />

• 10.Linear Prediction Analysis and Re-synthesis, by Texas Instruments<br />

(1980)<br />

• 11.first full TTS: Umeda et al (1968)<br />

• 12.MIT MITalk (Allen, Hunnicut, Klatt), 1979<br />

14


TTS modernos de segunda geração<br />

• Commercial TTS (normally concatenative):<br />

– Loquen<strong>do</strong><br />

http://www.loquen<strong>do</strong>.com/en/index.htm<br />

– Nuance (formerly Scansoft)<br />

http://www.nuance.com/realspeak/languages/<br />

– IBM<br />

http://www.research.ibm.com/tts/<br />

– Acapela<br />

http://www.elan.fr/<br />

– AT&T Labs<br />

http://www.research.att.com/viewProject.cfm?prjID=315<br />

– Cepstral<br />

http://www.cepstral.com/<br />

15


Alguns key-players importantes<br />

• Na Europa:<br />

– Institute of Phonetic Sciences, University of Amsterdam,<br />

Holanda, onde o Praat foi desenvolvi<strong>do</strong>;<br />

– KTH – The Royal Institute of Technology, Suécia, activo na área<br />

da Fonologia, onde Gunnar Fant, um <strong>do</strong>s nomes históricos da<br />

Síntese da <strong>Fala</strong> e da Fonologia, é Professor Emérito; activo<br />

ainda na área da Síntese Multi-modal;<br />

– Department of Phonetics and Linguistics, University Colledge of<br />

Lon<strong>do</strong>n, Reino Uni<strong>do</strong>, autores <strong>do</strong> SFS;<br />

– Laboratoire de Parole et Langage, Université de Provence,<br />

laboratório activo na área da Prosódia, dirigi<strong>do</strong> por Daniel Hirts,<br />

autor <strong>do</strong> INTSINT;<br />

– University of Edimburgh, Reino Uni<strong>do</strong>, onde Alan Black e Paul<br />

Taylor desenvolveram o Festival;<br />

16


Alguns key-players importantes<br />

• Nos Esta<strong>do</strong>s Uni<strong>do</strong>s da América:<br />

– Language Technologies Institute, Conergie Mellon University,<br />

onde se desenvolve o projecto Festvox, responsável por<br />

iniciativas de avaliação de sistemas de síntese da fala, os<br />

Blizzard Challenges, entre outras;<br />

– University of Colora<strong>do</strong>, at Boulder (Daniel Jurafsky é um <strong>do</strong>s<br />

grandes nomes)<br />

– MIT - Massachusetts Institute of Technology, Esta<strong>do</strong>s Uni<strong>do</strong>s,<br />

onde se desenvolveu o DAVO, um <strong>do</strong>s primeiros sintetiza<strong>do</strong>res<br />

articulatórios (1958) e o MITTalk, em 1979, um <strong>do</strong>s primeiros<br />

sintetiza<strong>do</strong>res basea<strong>do</strong>s em dicionários (Allen et al., 1987) e o<br />

Klattalk, em 1983;<br />

17


Alguns key-players importantes<br />

• Na Ásia:<br />

– Nagoya Institute of Technology, onde Keiichi Tokuda e o seu<br />

grupo desenvolveram o HTS, considera<strong>do</strong> o novo paradigma<br />

nas técnicas de síntese;<br />

– ATR – Advanced Telecommunications Research Institute<br />

International, Japão, um <strong>do</strong>s maiores centros de<br />

desenvolvimento estatais <strong>do</strong> Japão;<br />

– Microsoft Research Asia – Speech Technology Group, em<br />

Pequim, China, onde tecnologias de ponta estão a ser<br />

desenvolvidas.<br />

18


Arquitectura geral <strong>do</strong>s<br />

sistemas de síntese de fala<br />

<strong>Texto</strong><br />

Dependente<br />

da língua<br />

Análise<br />

<strong>do</strong> texto<br />

Separa<strong>do</strong>r de<br />

frases<br />

1<br />

2<br />

3<br />

Separa<strong>do</strong>r de<br />

palavras<br />

Normaliza<strong>do</strong>r de<br />

texto<br />

• Analisa<strong>do</strong>r morfossintáctico<br />

• Desambigua<strong>do</strong>r de homógrafos<br />

• Leitor de estrangeirismos<br />

• Conversor grafema-fone<br />

• Marca<strong>do</strong>r de tonicidade<br />

• Divisor silábico<br />

Análise<br />

fonética<br />

Geração<br />

prosódica<br />

Base<br />

de<br />

da<strong>do</strong>s<br />

de voz<br />

Motor de<br />

síntese<br />

Geração de entoação,<br />

durações,intensidade<br />

Determinação <strong>do</strong><br />

foco<br />

Geração de emoções<br />

Front-end Back-end<br />

Voz sintética<br />

Agnóstico da<br />

19<br />

língua


Esta<strong>do</strong> da arte<br />

• 3 abordagens principais para o front-end<br />

– Baseada em regras: mais robustos, requerem menos memória,<br />

requerem conhecimento linguístico muito especializa<strong>do</strong><br />

– Baseada em modelos estatísticos: podem ser muito robustos,<br />

requerem muita memória, quan<strong>do</strong> falham pode ser desastroso<br />

– Modelos híbri<strong>do</strong>s: preferíveis<br />

• 2 paradigmas actuais para o back-end:<br />

– Síntese por HTS<br />

– Síntese por Selecção de Unidades<br />

• Futuro:<br />

– Melhoramentos <strong>do</strong> HTS<br />

– RUS – técnica que combina síntese por concatenação e HMMs<br />

20


Arquitectura TTS no MLDC<br />

Polyphony<br />

resolution<br />

Text Analysis<br />

Prosody<br />

modelling<br />

TTS runtime<br />

engine<br />

TN rules<br />

LTS rules<br />

TESTS<br />

Voice<br />

Font<br />

Lexicon<br />

Raw text<br />

corpus<br />

Script<br />

Generation<br />

Voice talent<br />

selection Recording<br />

Acoustic<br />

models<br />

Wave process<br />

Alignment<br />

Font compiling<br />

Phoneme<br />

table<br />

Data Studio (Script & recording review, prosody<br />

annotation)<br />

21


Principais desafios na<br />

construção de um TTS<br />

• Selecção <strong>do</strong> locutor<br />

• Controlo de qualidade da gravação e das waves<br />

• Parte linguística <strong>do</strong> front-end:<br />

– Obtenção de recursos linguísticos (clean text)<br />

– Normalização de texto<br />

– Desambiguação de homógrafos<br />

– Expansão <strong>do</strong> léxico<br />

22


Selecção <strong>do</strong> locutor<br />

• Sabemos que grande parte <strong>do</strong> sucesso de um TTS está<br />

dependente da escolha <strong>do</strong> locutor<br />

• Problemas:<br />

– Que requisitos deve ter um locutor?<br />

– Que parâmetros devemos avaliar?<br />

– Esses requisitos estão relaciona<strong>do</strong>s com a tecnologia? Estão<br />

dependentes <strong>do</strong> cenário de aplicação?<br />

23


Parte linguística: Normalização de<br />

texto<br />

Basea<strong>do</strong><br />

em<br />

dicionário<br />

Basea<strong>do</strong><br />

em regras<br />

Conversor de<br />

símbolos e<br />

caracteres<br />

especiais<br />

Leitor de<br />

siglas e<br />

acrónimos<br />

Expansor de<br />

abreviaturas<br />

Conversor de<br />

numerais<br />

(cardinais,<br />

ordinais,<br />

datas,<br />

tempo,etc.)<br />

Basea<strong>do</strong> em<br />

dicionário<br />

Basea<strong>do</strong><br />

em regras<br />

24


Parte linguística: Desambiguação<br />

de homógrafos<br />

<strong>Texto</strong><br />

Analisa<strong>do</strong>r<br />

morfossintáctico<br />

Biblioteca de<br />

classes fechadas<br />

Biblioteca de<br />

morfemas<br />

Biblioteca de<br />

lemas<br />

Biblioteca de<br />

verbos irregulares<br />

Biblioteca de exp.<br />

impessoais<br />

Homograph type<br />

identification<br />

Identifica<strong>do</strong>r <strong>do</strong> tipo<br />

de homógrafo<br />

≠ classe<br />

gramatical<br />

Tipos 1-16<br />

= classe<br />

gramatical<br />

Tipos 17-24<br />

Biblioteca de<br />

homógrafos<br />

Biblioteca de<br />

combinatórias<br />

lexicais restritas<br />

Biblioteca de<br />

wordnets<br />

Análise morfossintáctica Análise semântica


Tipo<br />

Parte linguística:Desambiguação<br />

de homógrafos<br />

Alternância vocálica e<br />

classe gramatical<br />

diferente<br />

1 [e] nome / [E] verbo<br />

2 [o] nome / [O] verbo<br />

Homógrafo<br />

aceno, acerto, apelo, aperto, apreço,<br />

arrepelo, começo, concerto, conserto,<br />

desemprego, desespero, emprego, enre<strong>do</strong>,<br />

erro, esmero, espeto, flagelo, gelo, governo,<br />

interesse, interesses, modelo, pego, peso,<br />

pena, penas rego, remo, selo, testo, zelo<br />

abono, aborto, acor<strong>do</strong>, a<strong>do</strong>rno, aforro,<br />

almoço, arrojo, arroto, choco, choro, conforto,<br />

consolo, contorno, controlo, coro, desgosto,<br />

despojo, destroço, encosto, en<strong>do</strong>sso, esforço,<br />

estorvo, folgo, gosto, jogo, logro, namoro,<br />

olho, piloto, reforço, ro<strong>do</strong>, rogo, rolo, sopro,<br />

suborno, sufoco, toco, tol<strong>do</strong>, topo, torno,<br />

troco, troço<br />

3<br />

4<br />

[o] nome/ [O] verbo<br />

[e] verbo / [E] nome<br />

rola, rolha, soma<br />

colher, meta<br />

5<br />

[e] contractção/ [E]<br />

verbo<br />

desses, deste, destes<br />

6 [o] verbo/ [O] adv fora<br />

7 [e] Adj., nome/ [E] verbo seco, seca, secas<br />

8 [o] Adj., nome/ [O] verbo boto<br />

9 [e] Dem. / [E] Adj., nome este<br />

10<br />

[e] verbo / [E] Adj.,<br />

nome<br />

leste<br />

11 [o] Prep./ [O] verbo sobre<br />

12 [@] verbo/ [E] nome pegada<br />

13 [o] Adj./ [O] nome rota, rotas, tola, tolas<br />

14<br />

[o] nome/ [O] nome/ [O]<br />

verbo<br />

corte, cortes, forma, formas, molho, soco<br />

15<br />

[e] Prep./ [e] nome/<br />

[E]verbo<br />

cerca<br />

16<br />

[e] nome/ [E] verbo/<br />

nome[E]<br />

pega, pegas<br />

Tipo<br />

Alternância vocálica e<br />

mesma classe gramatical<br />

Homógrafo<br />

17 [e] nome / [E] nome besta, bestas<br />

18 [e] nome / [E] nome sede, sedes<br />

19 [e] nome / [E] nome me<strong>do</strong>, me<strong>do</strong>s<br />

20 [e] nome / [E] nome, verbo termos<br />

21 [o] nome/ [O] nome cor<br />

22 [o] nome/ [O] nome lobo, lobos<br />

23 [o] nome/ [O] nome bola, bolas<br />

24 [@] verbo/ [E] verbo pregar<br />

26


Expansão <strong>do</strong> léxico: Divisor<br />

silábico<br />

Input:<br />

palavra<br />

ortográfica<br />

Definição de<br />

vogal, glide,<br />

consoante,<br />

etc.<br />

Definição de<br />

casos e<br />

operações<br />

Busca das<br />

vogais de<br />

cada palavra<br />

e análise da<br />

sua<br />

vizinhança<br />

Regras de<br />

divisão<br />

silábica<br />

Output:<br />

palavra<br />

ortográfica<br />

dividida em<br />

sílabas<br />

27


Expansão <strong>do</strong> léxico: marca<strong>do</strong>r<br />

de sílaba tónica<br />

28


Descrição <strong>do</strong>s tipos de testes<br />

• Módulos de Front-end: sentence separator, word<br />

breaker, text normalization, pronunciation (homograph<br />

ambiguity resolution, LTS conversion);<br />

• Funcionalidade <strong>do</strong> back-end: testes de compliance,<br />

performance e BVT (Build Verification Tests);<br />

• Teste da qualidade da voz sintética: testes de<br />

compreensão e MOS (Mean Opinion Score) tests.<br />

• Testes de usabilidade<br />

29


Hot topics (principais desafios<br />

e problemas actuais)<br />

• Melhoramentos no HTS: menos ruí<strong>do</strong> metálico,menos nº<br />

de waves para o treino<br />

• Boa utilização <strong>do</strong>s parâmetros prosódicos no treino <strong>do</strong><br />

back-end<br />

• Síntese expressiva e de emoções<br />

• Síntese multi-língua<br />

• Síntese multi-modal ou síntese audio-visual<br />

• Voice transformation, conversion<br />

• Front-end<br />

• Avaliação – the Blizzard Challenges<br />

• Novas APPs<br />

30


www.microsoft.com/portugal/mldc<br />

Daniela Braga<br />

Program Manager Lead<br />

i-dbraga@microsoft.com

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!