Tecnologia Texto > Fala - Universidade do Porto

Sistemas de Conversão Texto-Fala: 

estado da arte, aplicações, 

arquitectura e desafios 

Daniela Braga e Miguel Sales Dias 

i-dbraga@microsoft.com, midias@microsoft.com 

Escola de Verão, Faculdade de Letras da Universidade do Porto 

2 de Julho de 2009

Sumário 

• Parte I – Parte teórica 

– Processamento da Fala – o que é? 

– Aplicações do processamento da fala 

– Sistemas de síntese de fala – um pouco de história 

– Estado da arte actual dos sistemas de síntese de fala 

– Alguns key-players importantes 

– Arquitectura de um sistema de síntese de fala 

– Principais desafios na construção do sistema: selecção da voz, 

controlo de qualidade, desenvolvimento e implementação de 

regras linguísticas, teste do sistema 

– Metodologias e processos de teste 

– Principais desafios e problemas actuais 

• Parte II – Parte prática 

2

Processamento da Fala: 

o que é? 

Texto 

Processamento da Fala 

Síntese da Fala Reconhecimento de Voz 

Texto

Processamento da Fala: uma 

área interdisciplinar 

Matemática 

Terapia 

da Fala 

Linguística 

Ciências 

da Fala 

Medicina 

Informática 

Engenharia 

4

Sistemas de síntese e 

reconhecimento de voz: aplicações 

ORIENTAÇÃO E NAVEGAÇÃO 

• Sistemas de voz aplicados a navegação por GPS 

instalado em viaturas, para que as orientações 

visuais sejam acompanhadas por informações 

auditivas. 

• Vantagens: maior segurança na navegação em 

automóvel. 

ENSINO 

• e-learning com interfaces de voz; tele-escola 

complementada com sistemas visuais em que uma 

face é animada em sincronismo com a voz , 

permitindo escolher a voz e a face do orador; ensino 

de línguas estrangeiras. 

• Vantagens: ensino mais agradável, mais eficaz; 

aumento da motivação; possibilidade de repetição.



SISTEMAS DE COMANDO E CONSULTA 

• Controlo de sistemas por voz, aplicados por exemplo a casas inteligentes 

(domótica), cadeiras de rodas que obedecem a comandos como 

recuar/avançar, anterior/seguinte, etc. por voz. 

• Vantagens: comodidade, rapidez na execução de tarefas.



TELECOMUNICAÇÕES 

• Sistemas de execução da chamada por indicação do nome ou do número 

do destinatário*; leitura de SMS por voz (útil a cegos) com a possibilidade 

de utilizar a voz do remetente; reconhecimento da voz**. 

• Vantagens: *rapidez nos comandos e na comunicação; **redução da 

informação a transmitir libertando largura de banda. 

Vodafone Say Net



QUIOSQUES DIGITAIS E MULTIMÉDIA 

• e-commerce com diversas aplicações: venda de 

bilhetes para espectáculos, viagens, alimentos, 

livros; 

• quiosques digitais com informações turísticas ou de 

localização, listas telefónicas, etc. 

• e-banking 

• e-books 

• leitura de páginas web 

• leitura de e-mail 

• E-cards 

• Vantagens: facilitar o acesso à informação a 

pessoas com necessidade especiais (invisuais ou 

pessoas com deficiências de visão); agilizar a 

consulta de produtos e de informações.

Projectos terminados no 

MLDC: Exchange 14 

• http://blogs.msdn.com/tagarela/archive/2007/02/28/bemvindos.aspx

Exchange 14 

• Microsoft: TTS em 26 línguas 

Herena 

Helle 

Heloísa 

Hélia 

10

SR no Windows 7 

• Reconhecimento de Voz: Comando e Controlo e Ditado 

11

Projectos terminados no 

MLDC 

• Voice command: 

http://soapbox.msn.com/video.aspx?vi 

d=945afe25-90de-4b7d-ac07- 

116e286a3c06&wa=wsignin1.0 

• Media Center controlled by speech: 

http://soapbox.msn.com/video.aspx?vid=945afe25-90de-4b7d-ac07- 

116e286a3c06&wa=wsignin1.0

Cronologia 

• Até ao final dos anos 80 - técnicas de primeira geração 

– síntese por formantes 

– síntese articulatória 

• Desde finais dos anos 90 - técnicas de segunda geração 

– síntese por concatenação 

– Síntese por HMMs 

13

Técnicas de primeira geração 

• 1.VODER, by Homer Dudley, 1939 (synthesizing speech by electrical 

means) 

• 2.Pattern playback by F. Cooper (1951) 

• 3.Pat (Parametric artificial talker), by Walter Lawrence (1953) 

• 4.OVE I (Orator Verbis Electris) formant synthesizer, by Gunnar Fant (1953) 

• 5.Pat formant synthesizer (1962) by Walter Lawrence 

• 6.OVE II by Gunnar Fant (1962) 

• 7.Comparison between synthesized and natural voices, by Jonh Holmes 

(1961, 1973) 

• 8.Voice morphing D. Klatt (1987) 

• 9.DAVO (Dynamic Analog of the VOcal tract) articulatory syntheziser, by 

George Rosen (1958) 

• 10.Linear Prediction Analysis and Re-synthesis, by Texas Instruments 

(1980) 

• 11.first full TTS: Umeda et al (1968) 

• 12.MIT MITalk (Allen, Hunnicut, Klatt), 1979 

14

TTS modernos de segunda geração 

• Commercial TTS (normally concatenative): 

– Loquendo 

http://www.loquendo.com/en/index.htm 

– Nuance (formerly Scansoft) 

http://www.nuance.com/realspeak/languages/ 

– IBM 

http://www.research.ibm.com/tts/ 

– Acapela 

http://www.elan.fr/ 

– AT&T Labs 

http://www.research.att.com/viewProject.cfm?prjID=315 

– Cepstral 

http://www.cepstral.com/ 

15

Alguns key-players importantes 

• Na Europa: 

– Institute of Phonetic Sciences, University of Amsterdam, 

Holanda, onde o Praat foi desenvolvido; 

– KTH – The Royal Institute of Technology, Suécia, activo na área 

da Fonologia, onde Gunnar Fant, um dos nomes históricos da 

Síntese da Fala e da Fonologia, é Professor Emérito; activo 

ainda na área da Síntese Multi-modal; 

– Department of Phonetics and Linguistics, University Colledge of 

London, Reino Unido, autores do SFS; 

– Laboratoire de Parole et Langage, Université de Provence, 

laboratório activo na área da Prosódia, dirigido por Daniel Hirts, 

autor do INTSINT; 

– University of Edimburgh, Reino Unido, onde Alan Black e Paul 

Taylor desenvolveram o Festival; 

16


• Nos Estados Unidos da América: 

– Language Technologies Institute, Conergie Mellon University, 

onde se desenvolve o projecto Festvox, responsável por 

iniciativas de avaliação de sistemas de síntese da fala, os 

Blizzard Challenges, entre outras; 

– University of Colorado, at Boulder (Daniel Jurafsky é um dos 

grandes nomes) 

– MIT - Massachusetts Institute of Technology, Estados Unidos, 

onde se desenvolveu o DAVO, um dos primeiros sintetizadores 

articulatórios (1958) e o MITTalk, em 1979, um dos primeiros 

sintetizadores baseados em dicionários (Allen et al., 1987) e o 

Klattalk, em 1983; 

17


• Na Ásia: 

– Nagoya Institute of Technology, onde Keiichi Tokuda e o seu 

grupo desenvolveram o HTS, considerado o novo paradigma 

nas técnicas de síntese; 

– ATR – Advanced Telecommunications Research Institute 

International, Japão, um dos maiores centros de 

desenvolvimento estatais do Japão; 

– Microsoft Research Asia – Speech Technology Group, em 

Pequim, China, onde tecnologias de ponta estão a ser 

desenvolvidas. 

18

Arquitectura geral dos 

sistemas de síntese de fala 


Dependente 

da língua 

Análise 

do texto 

Separador de 

frases 

1 

2 

3 

Separador de 

palavras 

Normalizador de 

texto 

• Analisador morfossintáctico 

• Desambiguador de homógrafos 

• Leitor de estrangeirismos 

• Conversor grafema-fone 

• Marcador de tonicidade 

• Divisor silábico 

Análise 

fonética 

Geração 

prosódica 

Base 

de 

dados 

de voz 

Motor de 

síntese 

Geração de entoação, 

durações,intensidade 

Determinação do 

foco 

Geração de emoções 

Front-end Back-end 

Voz sintética 

Agnóstico da 

19 

língua

Estado da arte 

• 3 abordagens principais para o front-end 

– Baseada em regras: mais robustos, requerem menos memória, 

requerem conhecimento linguístico muito especializado 

– Baseada em modelos estatísticos: podem ser muito robustos, 

requerem muita memória, quando falham pode ser desastroso 

– Modelos híbridos: preferíveis 

• 2 paradigmas actuais para o back-end: 

– Síntese por HTS 

– Síntese por Selecção de Unidades 

• Futuro: 

– Melhoramentos do HTS 

– RUS – técnica que combina síntese por concatenação e HMMs 

20

Arquitectura TTS no MLDC 

Polyphony 

resolution 

Text Analysis 

Prosody 

modelling 

TTS runtime 

engine 

TN rules 

LTS rules 

TESTS 

Voice 

Font 

Lexicon 

Raw text 

corpus 

Script 

Generation 

Voice talent 

selection Recording 

Acoustic 

models 

Wave process 

Alignment 

Font compiling 

Phoneme 

table 

Data Studio (Script & recording review, prosody 

annotation) 

21

Principais desafios na 

construção de um TTS 

• Selecção do locutor 

• Controlo de qualidade da gravação e das waves 

• Parte linguística do front-end: 

– Obtenção de recursos linguísticos (clean text) 

– Normalização de texto 

– Desambiguação de homógrafos 

– Expansão do léxico 

22

Selecção do locutor 

• Sabemos que grande parte do sucesso de um TTS está 

dependente da escolha do locutor 

• Problemas: 

– Que requisitos deve ter um locutor? 

– Que parâmetros devemos avaliar? 

– Esses requisitos estão relacionados com a tecnologia? Estão 

dependentes do cenário de aplicação? 

23

Parte linguística: Normalização de 

texto 

Baseado 

em 

dicionário 


em regras 

Conversor de 

símbolos e 

caracteres 

especiais 

Leitor de 

siglas e 

acrónimos 

Expansor de 

abreviaturas 

Conversor de 

numerais 

(cardinais, 

ordinais, 

datas, 

tempo,etc.) 

Baseado em 

dicionário 


em regras 

24

Parte linguística: Desambiguação 

de homógrafos 


Analisador 

morfossintáctico 

Biblioteca de 

classes fechadas 

Biblioteca de 

morfemas 

Biblioteca de 

lemas 

Biblioteca de 

verbos irregulares 

Biblioteca de exp. 

impessoais 

Homograph type 

identification 

Identificador do tipo 

de homógrafo 

≠ classe 

gramatical 

Tipos 1-16 

= classe 

gramatical 

Tipos 17-24 

Biblioteca de 

homógrafos 

Biblioteca de 

combinatórias 

lexicais restritas 

Biblioteca de 

wordnets 

Análise morfossintáctica Análise semântica

Tipo 

Parte linguística:Desambiguação 

de homógrafos 

Alternância vocálica e 

classe gramatical 

diferente 

1 [e] nome / [E] verbo 

2 [o] nome / [O] verbo 

Homógrafo 

aceno, acerto, apelo, aperto, apreço, 

arrepelo, começo, concerto, conserto, 

desemprego, desespero, emprego, enredo, 

erro, esmero, espeto, flagelo, gelo, governo, 

interesse, interesses, modelo, pego, peso, 

pena, penas rego, remo, selo, testo, zelo 

abono, aborto, acordo, adorno, aforro, 

almoço, arrojo, arroto, choco, choro, conforto, 

consolo, contorno, controlo, coro, desgosto, 

despojo, destroço, encosto, endosso, esforço, 

estorvo, folgo, gosto, jogo, logro, namoro, 

olho, piloto, reforço, rodo, rogo, rolo, sopro, 

suborno, sufoco, toco, toldo, topo, torno, 

troco, troço 

3 

4 

[o] nome/ [O] verbo 

[e] verbo / [E] nome 

rola, rolha, soma 

colher, meta 

5 

[e] contractção/ [E] 

verbo 

desses, deste, destes 

6 [o] verbo/ [O] adv fora 

7 [e] Adj., nome/ [E] verbo seco, seca, secas 

8 [o] Adj., nome/ [O] verbo boto 

9 [e] Dem. / [E] Adj., nome este 

10 

[e] verbo / [E] Adj., 

nome 

leste 

11 [o] Prep./ [O] verbo sobre 

12 [@] verbo/ [E] nome pegada 

13 [o] Adj./ [O] nome rota, rotas, tola, tolas 

14 

[o] nome/ [O] nome/ [O] 

verbo 

corte, cortes, forma, formas, molho, soco 

15 

[e] Prep./ [e] nome/ 

[E]verbo 

cerca 

16 

[e] nome/ [E] verbo/ 

nome[E] 

pega, pegas 

Tipo 

Alternância vocálica e 

mesma classe gramatical 

Homógrafo 

17 [e] nome / [E] nome besta, bestas 

18 [e] nome / [E] nome sede, sedes 

19 [e] nome / [E] nome medo, medos 

20 [e] nome / [E] nome, verbo termos 

21 [o] nome/ [O] nome cor 

22 [o] nome/ [O] nome lobo, lobos 

23 [o] nome/ [O] nome bola, bolas 

24 [@] verbo/ [E] verbo pregar 

26

Expansão do léxico: Divisor 

silábico 

Input: 

palavra 

ortográfica 

Definição de 

vogal, glide, 

consoante, 

etc. 

Definição de 

casos e 

operações 

Busca das 

vogais de 

cada palavra 

e análise da 

sua 

vizinhança 

Regras de 

divisão 

silábica 

Output: 

palavra 

ortográfica 

dividida em 

sílabas 

27

Expansão do léxico: marcador 

de sílaba tónica 

28

Descrição dos tipos de testes 

• Módulos de Front-end: sentence separator, word 

breaker, text normalization, pronunciation (homograph 

ambiguity resolution, LTS conversion); 

• Funcionalidade do back-end: testes de compliance, 

performance e BVT (Build Verification Tests); 

• Teste da qualidade da voz sintética: testes de 

compreensão e MOS (Mean Opinion Score) tests. 

• Testes de usabilidade 

29

Hot topics (principais desafios 

e problemas actuais) 

• Melhoramentos no HTS: menos ruído metálico,menos nº 

de waves para o treino 

• Boa utilização dos parâmetros prosódicos no treino do 

back-end 

• Síntese expressiva e de emoções 

• Síntese multi-língua 

• Síntese multi-modal ou síntese audio-visual 

• Voice transformation, conversion 

• Front-end 

• Avaliação – the Blizzard Challenges 

• Novas APPs 

30

www.microsoft.com/portugal/mldc 

Daniela Braga 

Program Manager Lead 

i-dbraga@microsoft.com

Tecnologia Texto > Fala - Universidade do Porto

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?