Tecnologia Texto > Fala - Universidade do Porto
Tecnologia Texto > Fala - Universidade do Porto
Tecnologia Texto > Fala - Universidade do Porto
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Sistemas de Conversão <strong>Texto</strong>-<strong>Fala</strong>:<br />
esta<strong>do</strong> da arte, aplicações,<br />
arquitectura e desafios<br />
Daniela Braga e Miguel Sales Dias<br />
i-dbraga@microsoft.com, midias@microsoft.com<br />
Escola de Verão, Faculdade de Letras da <strong>Universidade</strong> <strong>do</strong> <strong>Porto</strong><br />
2 de Julho de 2009
Sumário<br />
• Parte I – Parte teórica<br />
– Processamento da <strong>Fala</strong> – o que é?<br />
– Aplicações <strong>do</strong> processamento da fala<br />
– Sistemas de síntese de fala – um pouco de história<br />
– Esta<strong>do</strong> da arte actual <strong>do</strong>s sistemas de síntese de fala<br />
– Alguns key-players importantes<br />
– Arquitectura de um sistema de síntese de fala<br />
– Principais desafios na construção <strong>do</strong> sistema: selecção da voz,<br />
controlo de qualidade, desenvolvimento e implementação de<br />
regras linguísticas, teste <strong>do</strong> sistema<br />
– Meto<strong>do</strong>logias e processos de teste<br />
– Principais desafios e problemas actuais<br />
• Parte II – Parte prática<br />
2
Processamento da <strong>Fala</strong>:<br />
o que é?<br />
<strong>Texto</strong><br />
Processamento da <strong>Fala</strong><br />
Síntese da <strong>Fala</strong> Reconhecimento de Voz<br />
<strong>Texto</strong>
Processamento da <strong>Fala</strong>: uma<br />
área interdisciplinar<br />
Matemática<br />
Terapia<br />
da <strong>Fala</strong><br />
Linguística<br />
Ciências<br />
da <strong>Fala</strong><br />
Medicina<br />
Informática<br />
Engenharia<br />
4
Sistemas de síntese e<br />
reconhecimento de voz: aplicações<br />
ORIENTAÇÃO E NAVEGAÇÃO<br />
• Sistemas de voz aplica<strong>do</strong>s a navegação por GPS<br />
instala<strong>do</strong> em viaturas, para que as orientações<br />
visuais sejam acompanhadas por informações<br />
auditivas.<br />
• Vantagens: maior segurança na navegação em<br />
automóvel.<br />
ENSINO<br />
• e-learning com interfaces de voz; tele-escola<br />
complementada com sistemas visuais em que uma<br />
face é animada em sincronismo com a voz ,<br />
permitin<strong>do</strong> escolher a voz e a face <strong>do</strong> ora<strong>do</strong>r; ensino<br />
de línguas estrangeiras.<br />
• Vantagens: ensino mais agradável, mais eficaz;<br />
aumento da motivação; possibilidade de repetição.
Sistemas de síntese e<br />
reconhecimento de voz: aplicações<br />
SISTEMAS DE COMANDO E CONSULTA<br />
• Controlo de sistemas por voz, aplica<strong>do</strong>s por exemplo a casas inteligentes<br />
(<strong>do</strong>mótica), cadeiras de rodas que obedecem a coman<strong>do</strong>s como<br />
recuar/avançar, anterior/seguinte, etc. por voz.<br />
• Vantagens: comodidade, rapidez na execução de tarefas.
Sistemas de síntese e<br />
reconhecimento de voz: aplicações<br />
TELECOMUNICAÇÕES<br />
• Sistemas de execução da chamada por indicação <strong>do</strong> nome ou <strong>do</strong> número<br />
<strong>do</strong> destinatário*; leitura de SMS por voz (útil a cegos) com a possibilidade<br />
de utilizar a voz <strong>do</strong> remetente; reconhecimento da voz**.<br />
• Vantagens: *rapidez nos coman<strong>do</strong>s e na comunicação; **redução da<br />
informação a transmitir libertan<strong>do</strong> largura de banda.<br />
Vodafone Say Net
Sistemas de síntese e<br />
reconhecimento de voz: aplicações<br />
QUIOSQUES DIGITAIS E MULTIMÉDIA<br />
• e-commerce com diversas aplicações: venda de<br />
bilhetes para espectáculos, viagens, alimentos,<br />
livros;<br />
• quiosques digitais com informações turísticas ou de<br />
localização, listas telefónicas, etc.<br />
• e-banking<br />
• e-books<br />
• leitura de páginas web<br />
• leitura de e-mail<br />
• E-cards<br />
• Vantagens: facilitar o acesso à informação a<br />
pessoas com necessidade especiais (invisuais ou<br />
pessoas com deficiências de visão); agilizar a<br />
consulta de produtos e de informações.
Projectos termina<strong>do</strong>s no<br />
MLDC: Exchange 14<br />
• http://blogs.msdn.com/tagarela/archive/2007/02/28/bemvin<strong>do</strong>s.aspx
Exchange 14<br />
• Microsoft: TTS em 26 línguas<br />
Herena<br />
Helle<br />
Heloísa<br />
Hélia<br />
10
SR no Win<strong>do</strong>ws 7<br />
• Reconhecimento de Voz: Coman<strong>do</strong> e Controlo e Dita<strong>do</strong><br />
11
Projectos termina<strong>do</strong>s no<br />
MLDC<br />
• Voice command:<br />
http://soapbox.msn.com/video.aspx?vi<br />
d=945afe25-90de-4b7d-ac07-<br />
116e286a3c06&wa=wsignin1.0<br />
• Media Center controlled by speech:<br />
http://soapbox.msn.com/video.aspx?vid=945afe25-90de-4b7d-ac07-<br />
116e286a3c06&wa=wsignin1.0
Cronologia<br />
• Até ao final <strong>do</strong>s anos 80 - técnicas de primeira geração<br />
– síntese por formantes<br />
– síntese articulatória<br />
• Desde finais <strong>do</strong>s anos 90 - técnicas de segunda geração<br />
– síntese por concatenação<br />
– Síntese por HMMs<br />
13
Técnicas de primeira geração<br />
• 1.VODER, by Homer Dudley, 1939 (synthesizing speech by electrical<br />
means)<br />
• 2.Pattern playback by F. Cooper (1951)<br />
• 3.Pat (Parametric artificial talker), by Walter Lawrence (1953)<br />
• 4.OVE I (Orator Verbis Electris) formant synthesizer, by Gunnar Fant (1953)<br />
• 5.Pat formant synthesizer (1962) by Walter Lawrence<br />
• 6.OVE II by Gunnar Fant (1962)<br />
• 7.Comparison between synthesized and natural voices, by Jonh Holmes<br />
(1961, 1973)<br />
• 8.Voice morphing D. Klatt (1987)<br />
• 9.DAVO (Dynamic Analog of the VOcal tract) articulatory syntheziser, by<br />
George Rosen (1958)<br />
• 10.Linear Prediction Analysis and Re-synthesis, by Texas Instruments<br />
(1980)<br />
• 11.first full TTS: Umeda et al (1968)<br />
• 12.MIT MITalk (Allen, Hunnicut, Klatt), 1979<br />
14
TTS modernos de segunda geração<br />
• Commercial TTS (normally concatenative):<br />
– Loquen<strong>do</strong><br />
http://www.loquen<strong>do</strong>.com/en/index.htm<br />
– Nuance (formerly Scansoft)<br />
http://www.nuance.com/realspeak/languages/<br />
– IBM<br />
http://www.research.ibm.com/tts/<br />
– Acapela<br />
http://www.elan.fr/<br />
– AT&T Labs<br />
http://www.research.att.com/viewProject.cfm?prjID=315<br />
– Cepstral<br />
http://www.cepstral.com/<br />
15
Alguns key-players importantes<br />
• Na Europa:<br />
– Institute of Phonetic Sciences, University of Amsterdam,<br />
Holanda, onde o Praat foi desenvolvi<strong>do</strong>;<br />
– KTH – The Royal Institute of Technology, Suécia, activo na área<br />
da Fonologia, onde Gunnar Fant, um <strong>do</strong>s nomes históricos da<br />
Síntese da <strong>Fala</strong> e da Fonologia, é Professor Emérito; activo<br />
ainda na área da Síntese Multi-modal;<br />
– Department of Phonetics and Linguistics, University Colledge of<br />
Lon<strong>do</strong>n, Reino Uni<strong>do</strong>, autores <strong>do</strong> SFS;<br />
– Laboratoire de Parole et Langage, Université de Provence,<br />
laboratório activo na área da Prosódia, dirigi<strong>do</strong> por Daniel Hirts,<br />
autor <strong>do</strong> INTSINT;<br />
– University of Edimburgh, Reino Uni<strong>do</strong>, onde Alan Black e Paul<br />
Taylor desenvolveram o Festival;<br />
16
Alguns key-players importantes<br />
• Nos Esta<strong>do</strong>s Uni<strong>do</strong>s da América:<br />
– Language Technologies Institute, Conergie Mellon University,<br />
onde se desenvolve o projecto Festvox, responsável por<br />
iniciativas de avaliação de sistemas de síntese da fala, os<br />
Blizzard Challenges, entre outras;<br />
– University of Colora<strong>do</strong>, at Boulder (Daniel Jurafsky é um <strong>do</strong>s<br />
grandes nomes)<br />
– MIT - Massachusetts Institute of Technology, Esta<strong>do</strong>s Uni<strong>do</strong>s,<br />
onde se desenvolveu o DAVO, um <strong>do</strong>s primeiros sintetiza<strong>do</strong>res<br />
articulatórios (1958) e o MITTalk, em 1979, um <strong>do</strong>s primeiros<br />
sintetiza<strong>do</strong>res basea<strong>do</strong>s em dicionários (Allen et al., 1987) e o<br />
Klattalk, em 1983;<br />
17
Alguns key-players importantes<br />
• Na Ásia:<br />
– Nagoya Institute of Technology, onde Keiichi Tokuda e o seu<br />
grupo desenvolveram o HTS, considera<strong>do</strong> o novo paradigma<br />
nas técnicas de síntese;<br />
– ATR – Advanced Telecommunications Research Institute<br />
International, Japão, um <strong>do</strong>s maiores centros de<br />
desenvolvimento estatais <strong>do</strong> Japão;<br />
– Microsoft Research Asia – Speech Technology Group, em<br />
Pequim, China, onde tecnologias de ponta estão a ser<br />
desenvolvidas.<br />
18
Arquitectura geral <strong>do</strong>s<br />
sistemas de síntese de fala<br />
<strong>Texto</strong><br />
Dependente<br />
da língua<br />
Análise<br />
<strong>do</strong> texto<br />
Separa<strong>do</strong>r de<br />
frases<br />
1<br />
2<br />
3<br />
Separa<strong>do</strong>r de<br />
palavras<br />
Normaliza<strong>do</strong>r de<br />
texto<br />
• Analisa<strong>do</strong>r morfossintáctico<br />
• Desambigua<strong>do</strong>r de homógrafos<br />
• Leitor de estrangeirismos<br />
• Conversor grafema-fone<br />
• Marca<strong>do</strong>r de tonicidade<br />
• Divisor silábico<br />
Análise<br />
fonética<br />
Geração<br />
prosódica<br />
Base<br />
de<br />
da<strong>do</strong>s<br />
de voz<br />
Motor de<br />
síntese<br />
Geração de entoação,<br />
durações,intensidade<br />
Determinação <strong>do</strong><br />
foco<br />
Geração de emoções<br />
Front-end Back-end<br />
Voz sintética<br />
Agnóstico da<br />
19<br />
língua
Esta<strong>do</strong> da arte<br />
• 3 abordagens principais para o front-end<br />
– Baseada em regras: mais robustos, requerem menos memória,<br />
requerem conhecimento linguístico muito especializa<strong>do</strong><br />
– Baseada em modelos estatísticos: podem ser muito robustos,<br />
requerem muita memória, quan<strong>do</strong> falham pode ser desastroso<br />
– Modelos híbri<strong>do</strong>s: preferíveis<br />
• 2 paradigmas actuais para o back-end:<br />
– Síntese por HTS<br />
– Síntese por Selecção de Unidades<br />
• Futuro:<br />
– Melhoramentos <strong>do</strong> HTS<br />
– RUS – técnica que combina síntese por concatenação e HMMs<br />
20
Arquitectura TTS no MLDC<br />
Polyphony<br />
resolution<br />
Text Analysis<br />
Prosody<br />
modelling<br />
TTS runtime<br />
engine<br />
TN rules<br />
LTS rules<br />
TESTS<br />
Voice<br />
Font<br />
Lexicon<br />
Raw text<br />
corpus<br />
Script<br />
Generation<br />
Voice talent<br />
selection Recording<br />
Acoustic<br />
models<br />
Wave process<br />
Alignment<br />
Font compiling<br />
Phoneme<br />
table<br />
Data Studio (Script & recording review, prosody<br />
annotation)<br />
21
Principais desafios na<br />
construção de um TTS<br />
• Selecção <strong>do</strong> locutor<br />
• Controlo de qualidade da gravação e das waves<br />
• Parte linguística <strong>do</strong> front-end:<br />
– Obtenção de recursos linguísticos (clean text)<br />
– Normalização de texto<br />
– Desambiguação de homógrafos<br />
– Expansão <strong>do</strong> léxico<br />
22
Selecção <strong>do</strong> locutor<br />
• Sabemos que grande parte <strong>do</strong> sucesso de um TTS está<br />
dependente da escolha <strong>do</strong> locutor<br />
• Problemas:<br />
– Que requisitos deve ter um locutor?<br />
– Que parâmetros devemos avaliar?<br />
– Esses requisitos estão relaciona<strong>do</strong>s com a tecnologia? Estão<br />
dependentes <strong>do</strong> cenário de aplicação?<br />
23
Parte linguística: Normalização de<br />
texto<br />
Basea<strong>do</strong><br />
em<br />
dicionário<br />
Basea<strong>do</strong><br />
em regras<br />
Conversor de<br />
símbolos e<br />
caracteres<br />
especiais<br />
Leitor de<br />
siglas e<br />
acrónimos<br />
Expansor de<br />
abreviaturas<br />
Conversor de<br />
numerais<br />
(cardinais,<br />
ordinais,<br />
datas,<br />
tempo,etc.)<br />
Basea<strong>do</strong> em<br />
dicionário<br />
Basea<strong>do</strong><br />
em regras<br />
24
Parte linguística: Desambiguação<br />
de homógrafos<br />
<strong>Texto</strong><br />
Analisa<strong>do</strong>r<br />
morfossintáctico<br />
Biblioteca de<br />
classes fechadas<br />
Biblioteca de<br />
morfemas<br />
Biblioteca de<br />
lemas<br />
Biblioteca de<br />
verbos irregulares<br />
Biblioteca de exp.<br />
impessoais<br />
Homograph type<br />
identification<br />
Identifica<strong>do</strong>r <strong>do</strong> tipo<br />
de homógrafo<br />
≠ classe<br />
gramatical<br />
Tipos 1-16<br />
= classe<br />
gramatical<br />
Tipos 17-24<br />
Biblioteca de<br />
homógrafos<br />
Biblioteca de<br />
combinatórias<br />
lexicais restritas<br />
Biblioteca de<br />
wordnets<br />
Análise morfossintáctica Análise semântica
Tipo<br />
Parte linguística:Desambiguação<br />
de homógrafos<br />
Alternância vocálica e<br />
classe gramatical<br />
diferente<br />
1 [e] nome / [E] verbo<br />
2 [o] nome / [O] verbo<br />
Homógrafo<br />
aceno, acerto, apelo, aperto, apreço,<br />
arrepelo, começo, concerto, conserto,<br />
desemprego, desespero, emprego, enre<strong>do</strong>,<br />
erro, esmero, espeto, flagelo, gelo, governo,<br />
interesse, interesses, modelo, pego, peso,<br />
pena, penas rego, remo, selo, testo, zelo<br />
abono, aborto, acor<strong>do</strong>, a<strong>do</strong>rno, aforro,<br />
almoço, arrojo, arroto, choco, choro, conforto,<br />
consolo, contorno, controlo, coro, desgosto,<br />
despojo, destroço, encosto, en<strong>do</strong>sso, esforço,<br />
estorvo, folgo, gosto, jogo, logro, namoro,<br />
olho, piloto, reforço, ro<strong>do</strong>, rogo, rolo, sopro,<br />
suborno, sufoco, toco, tol<strong>do</strong>, topo, torno,<br />
troco, troço<br />
3<br />
4<br />
[o] nome/ [O] verbo<br />
[e] verbo / [E] nome<br />
rola, rolha, soma<br />
colher, meta<br />
5<br />
[e] contractção/ [E]<br />
verbo<br />
desses, deste, destes<br />
6 [o] verbo/ [O] adv fora<br />
7 [e] Adj., nome/ [E] verbo seco, seca, secas<br />
8 [o] Adj., nome/ [O] verbo boto<br />
9 [e] Dem. / [E] Adj., nome este<br />
10<br />
[e] verbo / [E] Adj.,<br />
nome<br />
leste<br />
11 [o] Prep./ [O] verbo sobre<br />
12 [@] verbo/ [E] nome pegada<br />
13 [o] Adj./ [O] nome rota, rotas, tola, tolas<br />
14<br />
[o] nome/ [O] nome/ [O]<br />
verbo<br />
corte, cortes, forma, formas, molho, soco<br />
15<br />
[e] Prep./ [e] nome/<br />
[E]verbo<br />
cerca<br />
16<br />
[e] nome/ [E] verbo/<br />
nome[E]<br />
pega, pegas<br />
Tipo<br />
Alternância vocálica e<br />
mesma classe gramatical<br />
Homógrafo<br />
17 [e] nome / [E] nome besta, bestas<br />
18 [e] nome / [E] nome sede, sedes<br />
19 [e] nome / [E] nome me<strong>do</strong>, me<strong>do</strong>s<br />
20 [e] nome / [E] nome, verbo termos<br />
21 [o] nome/ [O] nome cor<br />
22 [o] nome/ [O] nome lobo, lobos<br />
23 [o] nome/ [O] nome bola, bolas<br />
24 [@] verbo/ [E] verbo pregar<br />
26
Expansão <strong>do</strong> léxico: Divisor<br />
silábico<br />
Input:<br />
palavra<br />
ortográfica<br />
Definição de<br />
vogal, glide,<br />
consoante,<br />
etc.<br />
Definição de<br />
casos e<br />
operações<br />
Busca das<br />
vogais de<br />
cada palavra<br />
e análise da<br />
sua<br />
vizinhança<br />
Regras de<br />
divisão<br />
silábica<br />
Output:<br />
palavra<br />
ortográfica<br />
dividida em<br />
sílabas<br />
27
Expansão <strong>do</strong> léxico: marca<strong>do</strong>r<br />
de sílaba tónica<br />
28
Descrição <strong>do</strong>s tipos de testes<br />
• Módulos de Front-end: sentence separator, word<br />
breaker, text normalization, pronunciation (homograph<br />
ambiguity resolution, LTS conversion);<br />
• Funcionalidade <strong>do</strong> back-end: testes de compliance,<br />
performance e BVT (Build Verification Tests);<br />
• Teste da qualidade da voz sintética: testes de<br />
compreensão e MOS (Mean Opinion Score) tests.<br />
• Testes de usabilidade<br />
29
Hot topics (principais desafios<br />
e problemas actuais)<br />
• Melhoramentos no HTS: menos ruí<strong>do</strong> metálico,menos nº<br />
de waves para o treino<br />
• Boa utilização <strong>do</strong>s parâmetros prosódicos no treino <strong>do</strong><br />
back-end<br />
• Síntese expressiva e de emoções<br />
• Síntese multi-língua<br />
• Síntese multi-modal ou síntese audio-visual<br />
• Voice transformation, conversion<br />
• Front-end<br />
• Avaliação – the Blizzard Challenges<br />
• Novas APPs<br />
30
www.microsoft.com/portugal/mldc<br />
Daniela Braga<br />
Program Manager Lead<br />
i-dbraga@microsoft.com