Inteligência Artificial - Departamento de Informática

Inteligência Artificial 

SPEECH 

Departamento de Informática 

João Casteleiro Nº14017 

Rui Raimundo Nº14447 

Sérgio Dias Nº13868

SPEECH 

Sumário 

‣ Introdução 

‣ Cronologia 

‣ Conceitos 

‣ Funcionamento do processador de voz 

‣ Aplicações 

‣ Restrições 

‣ Considerações finais

SPEECH 

Introdução 

‣ O processamento de voz como área da inteligência artificial 

surgiu no final da década de 1950, onde instituições de 

pesquisa estudavam meios de fazer com que a voz fosse 

processada pelo computador, tendo um acentuado 

desenvolvimento nos últimos anos. 

‣ Compreender a fala transcrita envolve uma inteligência que a 

máquina não possui. 

‣ O forte desenvolvimento nesta área fez com que a tecnologia 

de voz pudesse trazer benefícios reais a uma vasta área 

cientifica.

SPEECH 

Cronologia 

‣ 1779 – C.G. Kratzenstein 

Primeira máquina de sintetizar a fala 

‣ 1791 – W. R. von Kempelen 

Máquina de fala continua 

‣ 1835 – Wheatstone 

Demonstra máquina de von Kempelen (Fig.1) 

‣ 1939 – Homer Dudley 

Primeiro sintetizador de fala eléctrico 

Vocoders

SPEECH 

Cronologia

SPEECH 

Cronologia 

‣ 1964 – IBM apresenta sintetizador para fala de dígitos 

‣ 1978 – Texas Instruments lança chip para síntese de voz 

‣ 1993 – IBM lança primeiro software comercial para reconhecimento 

de voz 

‣ 1993 – Apple apresenta rotinas para Mac para reconhecimento e 

síntese de voz 

‣ 1994 – Dragon Systems apresenta o Dragon Dictate para ditados

SPEECH 

Cronologia 

‣ 1996 – IBM apresenta o MedSpeak/Radiology, primeiro produto para 

reconhecimento da fala em tempo real 

‣ 1996 – OS/2 Warp sistema que embute comandos de voz 

‣ 1997 – Dragon Systems disponibiliza reconhecimento de fala 

contínua em inglês 

‣ 1997 – IBM lança ViaVoice 

‣ 1998 – IBM lança ViaVoice em português

SPEECH 

Cronologia 

‣ 1998 – MicroPower lança DeltaTalk, , sintetizador de voz em 

português 

‣ 1999 – Philips lança FreeSpeech 2000, com reconhecimento de 

português 

‣ 1999 – Lotus e Corel acrescentam recursos de voz aos seus pacotes 

de aplicativos 

‣ 2000 – L & H lança o Dragon NaturallySpeaking 5.0 

‣ 2001 – Microsoft apresenta recursos de voz (para ditados e voz) 

para Office XP

SPEECH 

Conceitos 

‣ A expressão “reconhecimento de voz” têm uma utilização com 

diversos sentidos, que na verdade referem-se a tecnologias distintas. 

‣ O processamento de voz pode ser aplicado: 

Comandos por voz (reconhecimento de palavras) 

Fala natural 

Síntese de voz 

Autenticação de voz 

‣ O reconhecimento de palavras processa um pequeno trecho de fala 

digitalizada, para identificar que tipo de acção o sistema deve tomar. 

Ex: Central telefónica com atendimento automatizado.

SPEECH 

Conceitos 

‣ O reconhecimento de fala natural (ou fala continua) envolve uma ou 

mais frases, isto é, várias palavras que tenham um sentido 

semântico, em que a fala reconhecida é convertida em texto. 

 

Ex: Ditado de documentos. 

‣ A síntese da voz é o processo contrário ao do reconhecimento da 

fala. O sintetizador recebe um texto em forma digital e transforma-o 

em ondas sonoras, ou em outras palavras fazendo uma leitura em 

voz alta. 

 

Ex: Acesso a informação a utilizadores com deficiência visual.

SPEECH 

Conceitos 

‣ A autenticação baseia-se no facto da voz ser uma característica 

identificadora da pessoa. 

Ex: Acesso a determinadas funcionalidades, num telemóvel por exemplo.

SPEECH 

Funcionamento do 

Processador de Voz 

‣ O computador não fala a nossa linguagem. 

‣ Quando o utilizador fala, um microfone converte a voz em um sinal 

analógico e envia-o para a entrada da placa de som do PC, na qual 

um conversor analógico-digital, cria um fluxo de dados digitais, que 

é interpretado pelo software existente. 

‣ Todos os programas utilizam dois componentes primários: 

Modelo acústico 

Modelo linguístico

SPEECH 


‣ O modelo acústico analisa os sons da voz do utilizador. 

O processo de conversão de voz segundo o modelo acústico: 

‣ remove ruídos e informações desnecessárias 

‣ Reduz os dados para um dado espectro de frequência, por 

meio de cálculos matemáticos 

‣ Análise e conversão para representações digitais dos 

fonemas da língua

SPEECH 


Por exemplo: 

Ao pronunciar uma frase do género: 

“o homem foi para casa de táxi” 

O programa irá identificar aproximadamente os seguintes fonemas: 

ô-ó-m-ê-m-f-ô-i-p-a-r-a-c-a-z-a-d-ê-t-a-c-s-i

SPEECH 

Modelo linguístico 

‣ O modelo linguístico analisa o conteúdo da fala e compara as 

combinações de fonemas com as palavras contidas no dicionário do 

programa. 

‣ Sistema programado para reconhecimento de comandos, é mais 

simples do que se for para reconhecimento de linguagem natural.

SPEECH 



‣ A análise dos sons não é suficiente para identificar correctamente um 

termo, pois existem muitas palavras com pronúncia semelhante. 

Ex: a palavra mal e mau (palavras homófonas). 

‣ Para contornar este problema os programadores utilizam trigramas, 

para efectuar a análise do contexto onde a palavra é utilizada. 

‣ Assim sendo o dicionário deve : 

registar classes gramaticais de cada vocábulo 

Conter um modelo gramatical com as construções possíveis e a 

probabilidade de ocorrência de cada tipo de construção.

SPEECH 



‣ O programa deve processar os fonemas para identificar 

correctamente o agrupamento de palavras. 

‣ Por exemplo: 

Ao ouvir a palavra comunicação, o programa terá de decidir se ouviu 

“comunica acção” ou um único termo. 

‣ O modelo gramatical vai indicar qual é a construção mais plausível.

SPEECH 



‣ Na síntese de voz, as dificuldades técnicas são outras. Com a ajuda 

de um dicionário interno, o programa converte cada palavra em 

fonemas e descobre qual é a duração e a tonalidade de cada um. 

‣ Uma palavra homógrafa e não homófona tem pronúncias distintas. 

‣ Por exemplo: 

‣ Ao dizer “eu olho” ou “o olho” estamos a utilizar a mesma palavra mas 

de significados distintos sendo uma um verbo e outra um substantivo. 

‣ É nestas circunstanciais que entra o modelo gramatical, que 

permitirá ao sintetizador ter condições de emitir a pronúncia 

adequada ao verificar a construção sintáctica da frase.

SPEECH 

Modelo de geração de 

entoação 

‣ Para que a fala pareça natural também é necessário impor um ritmo 

na leitura de cada frase, respeitar a pontuação e dar uma entoação 

correcta. 

‣ Para além dos modelos acústico e linguístico, o sistema de síntese de 

voz necessita de um modelo de geração de entoação. 

‣ O modelo de geração de entoação continua a ser o maior desafio 

para o desenvolvimento da tecnologia de síntese de voz. 

‣ Este sistema pode ser algorítmico ou baseado em modelos.

SPEECH 

Modelo de geração de 

entoação 

‣ O sistema algorítmico tende a ser incompleto, pois as variações e 

excepções são predominantes sobre as regras. 

‣ O sistema baseado em modelos é construído sobre várias amostras 

de pessoas lendo todo o tipo de texto, amostras estas que dão 

origem a um modelo matemático, que é seguido pelo sintetizador. 

‣ A reprodução final da fala resulta da concatenação de vários 

fonemas.

SPEECH 

TTS e ASR 

‣ Numa plataforma de atendimento automatizada são utilizados 3 

algoritmos: 

ASR (Automatic Speech Recognition) – trata-se do reconhecimento da 

fala, considerado o coração da solução. 

Autenticação de voz – possibilita a identificação do utilizador sem a 

introdução de senhas. 

TTS (text-to-speech) – algoritmo que permite a “verbalização” de 

informações escritas. Isso viabiliza, por exemplo, ouvir um e-mail por 

meio de telefone.

SPEECH 

Aplicações 

‣ Exemplos de sistemas recentes: 

Tecnologia permite acesso à Internet por telefone 

 

Uma empresa inglesa especializada em tecnologias de reconhecimento de 

voz, desenvolveu um programa que permite aos consumidores aceder a 

informações do seu site através de telefone. 

Reconhecimento de voz em centros de atendimento telefónico 

 

Este tipo de sistema baseia-se no reconhecimento de voz contínuo. Este 

tipo de sistema é utilizado nas centrais automáticas de atendimento ao 

cliente. O utilizador conversa com o sistema em vez de usar o teclado do 

telefone. 

Telemóveis que ouvem e transmitem dados 

 

Em certos equipamentos, é já possível o utilizador dar uma ordem ao 

telemóvel e este executa essa ordem sem que o utilizador tenha de ir ao 

menu de tarefa e executar a tarefa.

SPEECH 

Aplicações 

Carros com reconhecimento de voz 

Desde alguns anos que se estão a desenvolver sistemas que vão 

permitir aos condutores dar ordens ao computador de bordo e este 

executar as essas ordens. 

Sistema de diálogo Berti 

Este sistema que foi desenvolvido pela Sympalog Voice Solutions 

para a liga Alemã de Futebol, vai permitir que os adeptos de futebol 

possam utilizar o telefone para saber as novidades das partidas de 

futebol na Alemanha e na Europa. O serviço disponibiliza um diálogo 

entre o utilizador e as gravações com as informações dos jogos. 

Selector de carácter 

A universidade do Sarre desenvolveu um produto que pode auxiliar a 

melhorar o atendimento em “call centers”. Este software analisa a 

voz dos clientes e o meio envolvente através do telefone ajudando a 

determinar o perfil do cliente, por forma a fornecer um melhor 

atendimento.

SPEECH 

Aplicações 

Sistema Forikulo 

 

Trata-se de um sistema inovador criado na Universidade Técnica de 

Kaiserslautern que consiste num sistema interactivo de rádio na 

Alemanha, que permite que seja o próprio ouvinte a escolher a 

programação das músicas em qualquer instante. 

Robô da Samsung 

 

Este robô é capaz de efectuar o reconhecimento da sua própria voz 

e rosto, atender a comandos de voz aleatórios e a sintetização de 

voz. Ele possui 2 tecnologias de reconhecimento de voz. Uma é 

independente em relação à pessoa que fala, enquanto a outra é 

dependente, sendo utilizada para reconhecimento dos comandos do 

proprietário do robô.

SPEECH 

Aplicações 

‣ Dragon Systems, Lernout & Hauspie, IBM e Philips são as maiores 

empresas que actuam neste mercado. 

‣ Lernout & Hauspie dedicou-se fortemente ao seu tradutor Power 

Translator, disponibilizando entre as opções de dicionário o 

português. 

‣ O Philips FreeSpeech, em português não é comercializado 

isoladamente para o utilizador final, somente para parceiros que 

tencionem integrar a aplicação em outros aplicativos. 

‣ O IBM ViaVoice, em português pode ser adquirido em duas versões, 

Standard e Pro ambas para plataforma Windows.

SPEECH 

Aplicações 

‣ A tecnologia ViaVoice para além de reconhecer ditados e comandos 

de voz faz a conversão de texto em fala. 

‣ Home Page Reader, da IBM que faz a leitura de páginas Web, 

funcionando em nove idiomas de entre os quais se encontra o 

português. 

‣ O sistema Telephony, da IBM é acoplado a centrais telefónicas, para 

atendimento automatizado, estando previstas as situações vulgares 

enfrentadas por uma telefonista.

SPEECH 

Restrições 

‣ Para síntese de voz em português, as soluções disponíveis 

apresentam qualidade equivalente, isto é, todas emitem resultados 

inteligíveis, porém não muito agradáveis para os ouvidos. 

‣ Programas ainda pecam pela sua monotonia. 

‣ Programas com falta de expressividade. 

‣ Incapacidade de imprimir entoação. 

‣ Incapacidade da detecção e leitura de palavras em outra língua. 

‣ Ex: “franchising” é lida com a pronúncia da nossa língua.

SPEECH 

Restrições 

‣ Para reconhecimento da fala contínua, os sistemas podem ser 

treinados para compreenderem a maneira de falar de cada utilizador. 

Com uma sessão inicial em que o utilizador lê alguns parágrafos 

predeterminados, o programa cria um dicionário auxiliar com base 

na voz e padrões da fala. 

‣ Para comandos de voz, o sistema pode ou não solicitar um treino 

individual, sendo sempre a capacidade de reconhecimento alta, uma 

vez que o vocabulário para comandos é restrito à quantidade de 

funções previstas pelo programa. 

‣ Limitações ao nível do processamento de voz impostas pelos 

transístores.

SPEECH 

Restrições 

‣ Os processadores quânticos serão o futuro da computação. 

‣ O brutal poder de processamento que pode ser atingido pelos 

processadores quânticos tem seria a solução oportuna à 

complexidade exigida pelos sistemas de processamento de voz. 

‣ Um computador quântico poderia controlar em tempo real centenas 

de programas baseados em processamento de voz.

SPEECH 

Considerações finais 

‣ O sonho de comandar um computador através de voz hoje torna-se 

possível. 

‣ A tecnologia necessária é muito exigente mas o futuro caminha 

muito rapidamente para colmatar estas carências. 

‣ A grande área de aplicação desta tecnologia justifica o alto 

investimento. 

‣ Este tipo de tecnologia tem um alvo fundamental, acessibilidade.

SPEECH 

Considerações finais 

‣ Controle de um “ambiente” somente com a voz, abre novas 

fronteiras a indivíduos com deficiências físicas/mentais. 

‣ O resultados obtidos ainda não são os ideais. 

‣ Com o desenvolvimento de processadores mais velozes, melhores 

soluções serão obtidas, tornando popular e trivial os sistemas 

baseados em processamento de voz .

SPEECH 

FIM 

Questões, dúvidas…

Inteligência Artificial - Departamento de Informática

Create successful ePaper yourself

Delete template?

Save as template?