Inteligência Artificial - Departamento de Informática
Inteligência Artificial - Departamento de Informática
Inteligência Artificial - Departamento de Informática
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Inteligência</strong> <strong>Artificial</strong><br />
SPEECH<br />
<strong>Departamento</strong> <strong>de</strong> <strong>Informática</strong><br />
João Casteleiro Nº14017<br />
Rui Raimundo Nº14447<br />
Sérgio Dias Nº13868
SPEECH<br />
Sumário<br />
‣ Introdução<br />
‣ Cronologia<br />
‣ Conceitos<br />
‣ Funcionamento do processador <strong>de</strong> voz<br />
‣ Aplicações<br />
‣ Restrições<br />
‣ Consi<strong>de</strong>rações finais
SPEECH<br />
Introdução<br />
‣ O processamento <strong>de</strong> voz como área da inteligência artificial<br />
surgiu no final da década <strong>de</strong> 1950, on<strong>de</strong> instituições <strong>de</strong><br />
pesquisa estudavam meios <strong>de</strong> fazer com que a voz fosse<br />
processada pelo computador, tendo um acentuado<br />
<strong>de</strong>senvolvimento nos últimos anos.<br />
‣ Compreen<strong>de</strong>r a fala transcrita envolve uma inteligência que a<br />
máquina não possui.<br />
‣ O forte <strong>de</strong>senvolvimento nesta área fez com que a tecnologia<br />
<strong>de</strong> voz pu<strong>de</strong>sse trazer benefícios reais a uma vasta área<br />
cientifica.
SPEECH<br />
Cronologia<br />
‣ 1779 – C.G. Kratzenstein<br />
Primeira máquina <strong>de</strong> sintetizar a fala<br />
‣ 1791 – W. R. von Kempelen<br />
Máquina <strong>de</strong> fala continua<br />
‣ 1835 – Wheatstone<br />
Demonstra máquina <strong>de</strong> von Kempelen (Fig.1)<br />
‣ 1939 – Homer Dudley<br />
Primeiro sintetizador <strong>de</strong> fala eléctrico<br />
Voco<strong>de</strong>rs
SPEECH<br />
Cronologia
SPEECH<br />
Cronologia<br />
‣ 1964 – IBM apresenta sintetizador para fala <strong>de</strong> dígitos<br />
‣ 1978 – Texas Instruments lança chip para síntese <strong>de</strong> voz<br />
‣ 1993 – IBM lança primeiro software comercial para reconhecimento<br />
<strong>de</strong> voz<br />
‣ 1993 – Apple apresenta rotinas para Mac para reconhecimento e<br />
síntese <strong>de</strong> voz<br />
‣ 1994 – Dragon Systems apresenta o Dragon Dictate para ditados
SPEECH<br />
Cronologia<br />
‣ 1996 – IBM apresenta o MedSpeak/Radiology, primeiro produto para<br />
reconhecimento da fala em tempo real<br />
‣ 1996 – OS/2 Warp sistema que embute comandos <strong>de</strong> voz<br />
‣ 1997 – Dragon Systems disponibiliza reconhecimento <strong>de</strong> fala<br />
contínua em inglês<br />
‣ 1997 – IBM lança ViaVoice<br />
‣ 1998 – IBM lança ViaVoice em português
SPEECH<br />
Cronologia<br />
‣ 1998 – MicroPower lança DeltaTalk, , sintetizador <strong>de</strong> voz em<br />
português<br />
‣ 1999 – Philips lança FreeSpeech 2000, com reconhecimento <strong>de</strong><br />
português<br />
‣ 1999 – Lotus e Corel acrescentam recursos <strong>de</strong> voz aos seus pacotes<br />
<strong>de</strong> aplicativos<br />
‣ 2000 – L & H lança o Dragon NaturallySpeaking 5.0<br />
‣ 2001 – Microsoft apresenta recursos <strong>de</strong> voz (para ditados e voz)<br />
para Office XP
SPEECH<br />
Conceitos<br />
‣ A expressão “reconhecimento <strong>de</strong> voz” têm uma utilização com<br />
diversos sentidos, que na verda<strong>de</strong> referem-se a tecnologias distintas.<br />
‣ O processamento <strong>de</strong> voz po<strong>de</strong> ser aplicado:<br />
Comandos por voz (reconhecimento <strong>de</strong> palavras)<br />
Fala natural<br />
Síntese <strong>de</strong> voz<br />
Autenticação <strong>de</strong> voz<br />
‣ O reconhecimento <strong>de</strong> palavras processa um pequeno trecho <strong>de</strong> fala<br />
digitalizada, para i<strong>de</strong>ntificar que tipo <strong>de</strong> acção o sistema <strong>de</strong>ve tomar.<br />
Ex: Central telefónica com atendimento automatizado.
SPEECH<br />
Conceitos<br />
‣ O reconhecimento <strong>de</strong> fala natural (ou fala continua) envolve uma ou<br />
mais frases, isto é, várias palavras que tenham um sentido<br />
semântico, em que a fala reconhecida é convertida em texto.<br />
<br />
Ex: Ditado <strong>de</strong> documentos.<br />
‣ A síntese da voz é o processo contrário ao do reconhecimento da<br />
fala. O sintetizador recebe um texto em forma digital e transforma-o<br />
em ondas sonoras, ou em outras palavras fazendo uma leitura em<br />
voz alta.<br />
<br />
Ex: Acesso a informação a utilizadores com <strong>de</strong>ficiência visual.
SPEECH<br />
Conceitos<br />
‣ A autenticação baseia-se no facto da voz ser uma característica<br />
i<strong>de</strong>ntificadora da pessoa.<br />
Ex: Acesso a <strong>de</strong>terminadas funcionalida<strong>de</strong>s, num telemóvel por exemplo.
SPEECH<br />
Funcionamento do<br />
Processador <strong>de</strong> Voz<br />
‣ O computador não fala a nossa linguagem.<br />
‣ Quando o utilizador fala, um microfone converte a voz em um sinal<br />
analógico e envia-o para a entrada da placa <strong>de</strong> som do PC, na qual<br />
um conversor analógico-digital, cria um fluxo <strong>de</strong> dados digitais, que<br />
é interpretado pelo software existente.<br />
‣ Todos os programas utilizam dois componentes primários:<br />
Mo<strong>de</strong>lo acústico<br />
Mo<strong>de</strong>lo linguístico
SPEECH<br />
Mo<strong>de</strong>lo acústico<br />
‣ O mo<strong>de</strong>lo acústico analisa os sons da voz do utilizador.<br />
O processo <strong>de</strong> conversão <strong>de</strong> voz segundo o mo<strong>de</strong>lo acústico:<br />
‣ remove ruídos e informações <strong>de</strong>snecessárias<br />
‣ Reduz os dados para um dado espectro <strong>de</strong> frequência, por<br />
meio <strong>de</strong> cálculos matemáticos<br />
‣ Análise e conversão para representações digitais dos<br />
fonemas da língua
SPEECH<br />
Mo<strong>de</strong>lo acústico<br />
Por exemplo:<br />
Ao pronunciar uma frase do género:<br />
“o homem foi para casa <strong>de</strong> táxi”<br />
O programa irá i<strong>de</strong>ntificar aproximadamente os seguintes fonemas:<br />
ô-ó-m-ê-m-f-ô-i-p-a-r-a-c-a-z-a-d-ê-t-a-c-s-i
SPEECH<br />
Mo<strong>de</strong>lo linguístico<br />
‣ O mo<strong>de</strong>lo linguístico analisa o conteúdo da fala e compara as<br />
combinações <strong>de</strong> fonemas com as palavras contidas no dicionário do<br />
programa.<br />
‣ Sistema programado para reconhecimento <strong>de</strong> comandos, é mais<br />
simples do que se for para reconhecimento <strong>de</strong> linguagem natural.
SPEECH<br />
Funcionamento do<br />
Processador <strong>de</strong> Voz<br />
‣ A análise dos sons não é suficiente para i<strong>de</strong>ntificar correctamente um<br />
termo, pois existem muitas palavras com pronúncia semelhante.<br />
Ex: a palavra mal e mau (palavras homófonas).<br />
‣ Para contornar este problema os programadores utilizam trigramas,<br />
para efectuar a análise do contexto on<strong>de</strong> a palavra é utilizada.<br />
‣ Assim sendo o dicionário <strong>de</strong>ve :<br />
registar classes gramaticais <strong>de</strong> cada vocábulo<br />
Conter um mo<strong>de</strong>lo gramatical com as construções possíveis e a<br />
probabilida<strong>de</strong> <strong>de</strong> ocorrência <strong>de</strong> cada tipo <strong>de</strong> construção.
SPEECH<br />
Funcionamento do<br />
Processador <strong>de</strong> Voz<br />
‣ O programa <strong>de</strong>ve processar os fonemas para i<strong>de</strong>ntificar<br />
correctamente o agrupamento <strong>de</strong> palavras.<br />
‣ Por exemplo:<br />
Ao ouvir a palavra comunicação, o programa terá <strong>de</strong> <strong>de</strong>cidir se ouviu<br />
“comunica acção” ou um único termo.<br />
‣ O mo<strong>de</strong>lo gramatical vai indicar qual é a construção mais plausível.
SPEECH<br />
Funcionamento do<br />
Processador <strong>de</strong> Voz<br />
‣ Na síntese <strong>de</strong> voz, as dificulda<strong>de</strong>s técnicas são outras. Com a ajuda<br />
<strong>de</strong> um dicionário interno, o programa converte cada palavra em<br />
fonemas e <strong>de</strong>scobre qual é a duração e a tonalida<strong>de</strong> <strong>de</strong> cada um.<br />
‣ Uma palavra homógrafa e não homófona tem pronúncias distintas.<br />
‣ Por exemplo:<br />
‣ Ao dizer “eu olho” ou “o olho” estamos a utilizar a mesma palavra mas<br />
<strong>de</strong> significados distintos sendo uma um verbo e outra um substantivo.<br />
‣ É nestas circunstanciais que entra o mo<strong>de</strong>lo gramatical, que<br />
permitirá ao sintetizador ter condições <strong>de</strong> emitir a pronúncia<br />
a<strong>de</strong>quada ao verificar a construção sintáctica da frase.
SPEECH<br />
Mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong><br />
entoação<br />
‣ Para que a fala pareça natural também é necessário impor um ritmo<br />
na leitura <strong>de</strong> cada frase, respeitar a pontuação e dar uma entoação<br />
correcta.<br />
‣ Para além dos mo<strong>de</strong>los acústico e linguístico, o sistema <strong>de</strong> síntese <strong>de</strong><br />
voz necessita <strong>de</strong> um mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong> entoação.<br />
‣ O mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong> entoação continua a ser o maior <strong>de</strong>safio<br />
para o <strong>de</strong>senvolvimento da tecnologia <strong>de</strong> síntese <strong>de</strong> voz.<br />
‣ Este sistema po<strong>de</strong> ser algorítmico ou baseado em mo<strong>de</strong>los.
SPEECH<br />
Mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong><br />
entoação<br />
‣ O sistema algorítmico ten<strong>de</strong> a ser incompleto, pois as variações e<br />
excepções são predominantes sobre as regras.<br />
‣ O sistema baseado em mo<strong>de</strong>los é construído sobre várias amostras<br />
<strong>de</strong> pessoas lendo todo o tipo <strong>de</strong> texto, amostras estas que dão<br />
origem a um mo<strong>de</strong>lo matemático, que é seguido pelo sintetizador.<br />
‣ A reprodução final da fala resulta da concatenação <strong>de</strong> vários<br />
fonemas.
SPEECH<br />
TTS e ASR<br />
‣ Numa plataforma <strong>de</strong> atendimento automatizada são utilizados 3<br />
algoritmos:<br />
ASR (Automatic Speech Recognition) – trata-se do reconhecimento da<br />
fala, consi<strong>de</strong>rado o coração da solução.<br />
Autenticação <strong>de</strong> voz – possibilita a i<strong>de</strong>ntificação do utilizador sem a<br />
introdução <strong>de</strong> senhas.<br />
TTS (text-to-speech) – algoritmo que permite a “verbalização” <strong>de</strong><br />
informações escritas. Isso viabiliza, por exemplo, ouvir um e-mail por<br />
meio <strong>de</strong> telefone.
SPEECH<br />
Aplicações<br />
‣ Exemplos <strong>de</strong> sistemas recentes:<br />
Tecnologia permite acesso à Internet por telefone<br />
<br />
Uma empresa inglesa especializada em tecnologias <strong>de</strong> reconhecimento <strong>de</strong><br />
voz, <strong>de</strong>senvolveu um programa que permite aos consumidores ace<strong>de</strong>r a<br />
informações do seu site através <strong>de</strong> telefone.<br />
Reconhecimento <strong>de</strong> voz em centros <strong>de</strong> atendimento telefónico<br />
<br />
Este tipo <strong>de</strong> sistema baseia-se no reconhecimento <strong>de</strong> voz contínuo. Este<br />
tipo <strong>de</strong> sistema é utilizado nas centrais automáticas <strong>de</strong> atendimento ao<br />
cliente. O utilizador conversa com o sistema em vez <strong>de</strong> usar o teclado do<br />
telefone.<br />
Telemóveis que ouvem e transmitem dados<br />
<br />
Em certos equipamentos, é já possível o utilizador dar uma or<strong>de</strong>m ao<br />
telemóvel e este executa essa or<strong>de</strong>m sem que o utilizador tenha <strong>de</strong> ir ao<br />
menu <strong>de</strong> tarefa e executar a tarefa.
SPEECH<br />
Aplicações<br />
Carros com reconhecimento <strong>de</strong> voz<br />
Des<strong>de</strong> alguns anos que se estão a <strong>de</strong>senvolver sistemas que vão<br />
permitir aos condutores dar or<strong>de</strong>ns ao computador <strong>de</strong> bordo e este<br />
executar as essas or<strong>de</strong>ns.<br />
Sistema <strong>de</strong> diálogo Berti<br />
Este sistema que foi <strong>de</strong>senvolvido pela Sympalog Voice Solutions<br />
para a liga Alemã <strong>de</strong> Futebol, vai permitir que os a<strong>de</strong>ptos <strong>de</strong> futebol<br />
possam utilizar o telefone para saber as novida<strong>de</strong>s das partidas <strong>de</strong><br />
futebol na Alemanha e na Europa. O serviço disponibiliza um diálogo<br />
entre o utilizador e as gravações com as informações dos jogos.<br />
Selector <strong>de</strong> carácter<br />
A universida<strong>de</strong> do Sarre <strong>de</strong>senvolveu um produto que po<strong>de</strong> auxiliar a<br />
melhorar o atendimento em “call centers”. Este software analisa a<br />
voz dos clientes e o meio envolvente através do telefone ajudando a<br />
<strong>de</strong>terminar o perfil do cliente, por forma a fornecer um melhor<br />
atendimento.
SPEECH<br />
Aplicações<br />
Sistema Forikulo<br />
<br />
Trata-se <strong>de</strong> um sistema inovador criado na Universida<strong>de</strong> Técnica <strong>de</strong><br />
Kaiserslautern que consiste num sistema interactivo <strong>de</strong> rádio na<br />
Alemanha, que permite que seja o próprio ouvinte a escolher a<br />
programação das músicas em qualquer instante.<br />
Robô da Samsung<br />
<br />
Este robô é capaz <strong>de</strong> efectuar o reconhecimento da sua própria voz<br />
e rosto, aten<strong>de</strong>r a comandos <strong>de</strong> voz aleatórios e a sintetização <strong>de</strong><br />
voz. Ele possui 2 tecnologias <strong>de</strong> reconhecimento <strong>de</strong> voz. Uma é<br />
in<strong>de</strong>pen<strong>de</strong>nte em relação à pessoa que fala, enquanto a outra é<br />
<strong>de</strong>pen<strong>de</strong>nte, sendo utilizada para reconhecimento dos comandos do<br />
proprietário do robô.
SPEECH<br />
Aplicações<br />
‣ Dragon Systems, Lernout & Hauspie, IBM e Philips são as maiores<br />
empresas que actuam neste mercado.<br />
‣ Lernout & Hauspie <strong>de</strong>dicou-se fortemente ao seu tradutor Power<br />
Translator, disponibilizando entre as opções <strong>de</strong> dicionário o<br />
português.<br />
‣ O Philips FreeSpeech, em português não é comercializado<br />
isoladamente para o utilizador final, somente para parceiros que<br />
tencionem integrar a aplicação em outros aplicativos.<br />
‣ O IBM ViaVoice, em português po<strong>de</strong> ser adquirido em duas versões,<br />
Standard e Pro ambas para plataforma Windows.
SPEECH<br />
Aplicações<br />
‣ A tecnologia ViaVoice para além <strong>de</strong> reconhecer ditados e comandos<br />
<strong>de</strong> voz faz a conversão <strong>de</strong> texto em fala.<br />
‣ Home Page Rea<strong>de</strong>r, da IBM que faz a leitura <strong>de</strong> páginas Web,<br />
funcionando em nove idiomas <strong>de</strong> entre os quais se encontra o<br />
português.<br />
‣ O sistema Telephony, da IBM é acoplado a centrais telefónicas, para<br />
atendimento automatizado, estando previstas as situações vulgares<br />
enfrentadas por uma telefonista.
SPEECH<br />
Restrições<br />
‣ Para síntese <strong>de</strong> voz em português, as soluções disponíveis<br />
apresentam qualida<strong>de</strong> equivalente, isto é, todas emitem resultados<br />
inteligíveis, porém não muito agradáveis para os ouvidos.<br />
‣ Programas ainda pecam pela sua monotonia.<br />
‣ Programas com falta <strong>de</strong> expressivida<strong>de</strong>.<br />
‣ Incapacida<strong>de</strong> <strong>de</strong> imprimir entoação.<br />
‣ Incapacida<strong>de</strong> da <strong>de</strong>tecção e leitura <strong>de</strong> palavras em outra língua.<br />
‣ Ex: “franchising” é lida com a pronúncia da nossa língua.
SPEECH<br />
Restrições<br />
‣ Para reconhecimento da fala contínua, os sistemas po<strong>de</strong>m ser<br />
treinados para compreen<strong>de</strong>rem a maneira <strong>de</strong> falar <strong>de</strong> cada utilizador.<br />
Com uma sessão inicial em que o utilizador lê alguns parágrafos<br />
pre<strong>de</strong>terminados, o programa cria um dicionário auxiliar com base<br />
na voz e padrões da fala.<br />
‣ Para comandos <strong>de</strong> voz, o sistema po<strong>de</strong> ou não solicitar um treino<br />
individual, sendo sempre a capacida<strong>de</strong> <strong>de</strong> reconhecimento alta, uma<br />
vez que o vocabulário para comandos é restrito à quantida<strong>de</strong> <strong>de</strong><br />
funções previstas pelo programa.<br />
‣ Limitações ao nível do processamento <strong>de</strong> voz impostas pelos<br />
transístores.
SPEECH<br />
Restrições<br />
‣ Os processadores quânticos serão o futuro da computação.<br />
‣ O brutal po<strong>de</strong>r <strong>de</strong> processamento que po<strong>de</strong> ser atingido pelos<br />
processadores quânticos tem seria a solução oportuna à<br />
complexida<strong>de</strong> exigida pelos sistemas <strong>de</strong> processamento <strong>de</strong> voz.<br />
‣ Um computador quântico po<strong>de</strong>ria controlar em tempo real centenas<br />
<strong>de</strong> programas baseados em processamento <strong>de</strong> voz.
SPEECH<br />
Consi<strong>de</strong>rações finais<br />
‣ O sonho <strong>de</strong> comandar um computador através <strong>de</strong> voz hoje torna-se<br />
possível.<br />
‣ A tecnologia necessária é muito exigente mas o futuro caminha<br />
muito rapidamente para colmatar estas carências.<br />
‣ A gran<strong>de</strong> área <strong>de</strong> aplicação <strong>de</strong>sta tecnologia justifica o alto<br />
investimento.<br />
‣ Este tipo <strong>de</strong> tecnologia tem um alvo fundamental, acessibilida<strong>de</strong>.
SPEECH<br />
Consi<strong>de</strong>rações finais<br />
‣ Controle <strong>de</strong> um “ambiente” somente com a voz, abre novas<br />
fronteiras a indivíduos com <strong>de</strong>ficiências físicas/mentais.<br />
‣ O resultados obtidos ainda não são os i<strong>de</strong>ais.<br />
‣ Com o <strong>de</strong>senvolvimento <strong>de</strong> processadores mais velozes, melhores<br />
soluções serão obtidas, tornando popular e trivial os sistemas<br />
baseados em processamento <strong>de</strong> voz .
SPEECH<br />
FIM<br />
Questões, dúvidas…