08.11.2014 Views

Inteligência Artificial - Departamento de Informática

Inteligência Artificial - Departamento de Informática

Inteligência Artificial - Departamento de Informática

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Inteligência</strong> <strong>Artificial</strong><br />

SPEECH<br />

<strong>Departamento</strong> <strong>de</strong> <strong>Informática</strong><br />

João Casteleiro Nº14017<br />

Rui Raimundo Nº14447<br />

Sérgio Dias Nº13868


SPEECH<br />

Sumário<br />

‣ Introdução<br />

‣ Cronologia<br />

‣ Conceitos<br />

‣ Funcionamento do processador <strong>de</strong> voz<br />

‣ Aplicações<br />

‣ Restrições<br />

‣ Consi<strong>de</strong>rações finais


SPEECH<br />

Introdução<br />

‣ O processamento <strong>de</strong> voz como área da inteligência artificial<br />

surgiu no final da década <strong>de</strong> 1950, on<strong>de</strong> instituições <strong>de</strong><br />

pesquisa estudavam meios <strong>de</strong> fazer com que a voz fosse<br />

processada pelo computador, tendo um acentuado<br />

<strong>de</strong>senvolvimento nos últimos anos.<br />

‣ Compreen<strong>de</strong>r a fala transcrita envolve uma inteligência que a<br />

máquina não possui.<br />

‣ O forte <strong>de</strong>senvolvimento nesta área fez com que a tecnologia<br />

<strong>de</strong> voz pu<strong>de</strong>sse trazer benefícios reais a uma vasta área<br />

cientifica.


SPEECH<br />

Cronologia<br />

‣ 1779 – C.G. Kratzenstein<br />

Primeira máquina <strong>de</strong> sintetizar a fala<br />

‣ 1791 – W. R. von Kempelen<br />

Máquina <strong>de</strong> fala continua<br />

‣ 1835 – Wheatstone<br />

Demonstra máquina <strong>de</strong> von Kempelen (Fig.1)<br />

‣ 1939 – Homer Dudley<br />

Primeiro sintetizador <strong>de</strong> fala eléctrico<br />

Voco<strong>de</strong>rs


SPEECH<br />

Cronologia


SPEECH<br />

Cronologia<br />

‣ 1964 – IBM apresenta sintetizador para fala <strong>de</strong> dígitos<br />

‣ 1978 – Texas Instruments lança chip para síntese <strong>de</strong> voz<br />

‣ 1993 – IBM lança primeiro software comercial para reconhecimento<br />

<strong>de</strong> voz<br />

‣ 1993 – Apple apresenta rotinas para Mac para reconhecimento e<br />

síntese <strong>de</strong> voz<br />

‣ 1994 – Dragon Systems apresenta o Dragon Dictate para ditados


SPEECH<br />

Cronologia<br />

‣ 1996 – IBM apresenta o MedSpeak/Radiology, primeiro produto para<br />

reconhecimento da fala em tempo real<br />

‣ 1996 – OS/2 Warp sistema que embute comandos <strong>de</strong> voz<br />

‣ 1997 – Dragon Systems disponibiliza reconhecimento <strong>de</strong> fala<br />

contínua em inglês<br />

‣ 1997 – IBM lança ViaVoice<br />

‣ 1998 – IBM lança ViaVoice em português


SPEECH<br />

Cronologia<br />

‣ 1998 – MicroPower lança DeltaTalk, , sintetizador <strong>de</strong> voz em<br />

português<br />

‣ 1999 – Philips lança FreeSpeech 2000, com reconhecimento <strong>de</strong><br />

português<br />

‣ 1999 – Lotus e Corel acrescentam recursos <strong>de</strong> voz aos seus pacotes<br />

<strong>de</strong> aplicativos<br />

‣ 2000 – L & H lança o Dragon NaturallySpeaking 5.0<br />

‣ 2001 – Microsoft apresenta recursos <strong>de</strong> voz (para ditados e voz)<br />

para Office XP


SPEECH<br />

Conceitos<br />

‣ A expressão “reconhecimento <strong>de</strong> voz” têm uma utilização com<br />

diversos sentidos, que na verda<strong>de</strong> referem-se a tecnologias distintas.<br />

‣ O processamento <strong>de</strong> voz po<strong>de</strong> ser aplicado:<br />

Comandos por voz (reconhecimento <strong>de</strong> palavras)<br />

Fala natural<br />

Síntese <strong>de</strong> voz<br />

Autenticação <strong>de</strong> voz<br />

‣ O reconhecimento <strong>de</strong> palavras processa um pequeno trecho <strong>de</strong> fala<br />

digitalizada, para i<strong>de</strong>ntificar que tipo <strong>de</strong> acção o sistema <strong>de</strong>ve tomar.<br />

Ex: Central telefónica com atendimento automatizado.


SPEECH<br />

Conceitos<br />

‣ O reconhecimento <strong>de</strong> fala natural (ou fala continua) envolve uma ou<br />

mais frases, isto é, várias palavras que tenham um sentido<br />

semântico, em que a fala reconhecida é convertida em texto.<br />

<br />

Ex: Ditado <strong>de</strong> documentos.<br />

‣ A síntese da voz é o processo contrário ao do reconhecimento da<br />

fala. O sintetizador recebe um texto em forma digital e transforma-o<br />

em ondas sonoras, ou em outras palavras fazendo uma leitura em<br />

voz alta.<br />

<br />

Ex: Acesso a informação a utilizadores com <strong>de</strong>ficiência visual.


SPEECH<br />

Conceitos<br />

‣ A autenticação baseia-se no facto da voz ser uma característica<br />

i<strong>de</strong>ntificadora da pessoa.<br />

Ex: Acesso a <strong>de</strong>terminadas funcionalida<strong>de</strong>s, num telemóvel por exemplo.


SPEECH<br />

Funcionamento do<br />

Processador <strong>de</strong> Voz<br />

‣ O computador não fala a nossa linguagem.<br />

‣ Quando o utilizador fala, um microfone converte a voz em um sinal<br />

analógico e envia-o para a entrada da placa <strong>de</strong> som do PC, na qual<br />

um conversor analógico-digital, cria um fluxo <strong>de</strong> dados digitais, que<br />

é interpretado pelo software existente.<br />

‣ Todos os programas utilizam dois componentes primários:<br />

Mo<strong>de</strong>lo acústico<br />

Mo<strong>de</strong>lo linguístico


SPEECH<br />

Mo<strong>de</strong>lo acústico<br />

‣ O mo<strong>de</strong>lo acústico analisa os sons da voz do utilizador.<br />

O processo <strong>de</strong> conversão <strong>de</strong> voz segundo o mo<strong>de</strong>lo acústico:<br />

‣ remove ruídos e informações <strong>de</strong>snecessárias<br />

‣ Reduz os dados para um dado espectro <strong>de</strong> frequência, por<br />

meio <strong>de</strong> cálculos matemáticos<br />

‣ Análise e conversão para representações digitais dos<br />

fonemas da língua


SPEECH<br />

Mo<strong>de</strong>lo acústico<br />

Por exemplo:<br />

Ao pronunciar uma frase do género:<br />

“o homem foi para casa <strong>de</strong> táxi”<br />

O programa irá i<strong>de</strong>ntificar aproximadamente os seguintes fonemas:<br />

ô-ó-m-ê-m-f-ô-i-p-a-r-a-c-a-z-a-d-ê-t-a-c-s-i


SPEECH<br />

Mo<strong>de</strong>lo linguístico<br />

‣ O mo<strong>de</strong>lo linguístico analisa o conteúdo da fala e compara as<br />

combinações <strong>de</strong> fonemas com as palavras contidas no dicionário do<br />

programa.<br />

‣ Sistema programado para reconhecimento <strong>de</strong> comandos, é mais<br />

simples do que se for para reconhecimento <strong>de</strong> linguagem natural.


SPEECH<br />

Funcionamento do<br />

Processador <strong>de</strong> Voz<br />

‣ A análise dos sons não é suficiente para i<strong>de</strong>ntificar correctamente um<br />

termo, pois existem muitas palavras com pronúncia semelhante.<br />

Ex: a palavra mal e mau (palavras homófonas).<br />

‣ Para contornar este problema os programadores utilizam trigramas,<br />

para efectuar a análise do contexto on<strong>de</strong> a palavra é utilizada.<br />

‣ Assim sendo o dicionário <strong>de</strong>ve :<br />

registar classes gramaticais <strong>de</strong> cada vocábulo<br />

Conter um mo<strong>de</strong>lo gramatical com as construções possíveis e a<br />

probabilida<strong>de</strong> <strong>de</strong> ocorrência <strong>de</strong> cada tipo <strong>de</strong> construção.


SPEECH<br />

Funcionamento do<br />

Processador <strong>de</strong> Voz<br />

‣ O programa <strong>de</strong>ve processar os fonemas para i<strong>de</strong>ntificar<br />

correctamente o agrupamento <strong>de</strong> palavras.<br />

‣ Por exemplo:<br />

Ao ouvir a palavra comunicação, o programa terá <strong>de</strong> <strong>de</strong>cidir se ouviu<br />

“comunica acção” ou um único termo.<br />

‣ O mo<strong>de</strong>lo gramatical vai indicar qual é a construção mais plausível.


SPEECH<br />

Funcionamento do<br />

Processador <strong>de</strong> Voz<br />

‣ Na síntese <strong>de</strong> voz, as dificulda<strong>de</strong>s técnicas são outras. Com a ajuda<br />

<strong>de</strong> um dicionário interno, o programa converte cada palavra em<br />

fonemas e <strong>de</strong>scobre qual é a duração e a tonalida<strong>de</strong> <strong>de</strong> cada um.<br />

‣ Uma palavra homógrafa e não homófona tem pronúncias distintas.<br />

‣ Por exemplo:<br />

‣ Ao dizer “eu olho” ou “o olho” estamos a utilizar a mesma palavra mas<br />

<strong>de</strong> significados distintos sendo uma um verbo e outra um substantivo.<br />

‣ É nestas circunstanciais que entra o mo<strong>de</strong>lo gramatical, que<br />

permitirá ao sintetizador ter condições <strong>de</strong> emitir a pronúncia<br />

a<strong>de</strong>quada ao verificar a construção sintáctica da frase.


SPEECH<br />

Mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong><br />

entoação<br />

‣ Para que a fala pareça natural também é necessário impor um ritmo<br />

na leitura <strong>de</strong> cada frase, respeitar a pontuação e dar uma entoação<br />

correcta.<br />

‣ Para além dos mo<strong>de</strong>los acústico e linguístico, o sistema <strong>de</strong> síntese <strong>de</strong><br />

voz necessita <strong>de</strong> um mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong> entoação.<br />

‣ O mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong> entoação continua a ser o maior <strong>de</strong>safio<br />

para o <strong>de</strong>senvolvimento da tecnologia <strong>de</strong> síntese <strong>de</strong> voz.<br />

‣ Este sistema po<strong>de</strong> ser algorítmico ou baseado em mo<strong>de</strong>los.


SPEECH<br />

Mo<strong>de</strong>lo <strong>de</strong> geração <strong>de</strong><br />

entoação<br />

‣ O sistema algorítmico ten<strong>de</strong> a ser incompleto, pois as variações e<br />

excepções são predominantes sobre as regras.<br />

‣ O sistema baseado em mo<strong>de</strong>los é construído sobre várias amostras<br />

<strong>de</strong> pessoas lendo todo o tipo <strong>de</strong> texto, amostras estas que dão<br />

origem a um mo<strong>de</strong>lo matemático, que é seguido pelo sintetizador.<br />

‣ A reprodução final da fala resulta da concatenação <strong>de</strong> vários<br />

fonemas.


SPEECH<br />

TTS e ASR<br />

‣ Numa plataforma <strong>de</strong> atendimento automatizada são utilizados 3<br />

algoritmos:<br />

ASR (Automatic Speech Recognition) – trata-se do reconhecimento da<br />

fala, consi<strong>de</strong>rado o coração da solução.<br />

Autenticação <strong>de</strong> voz – possibilita a i<strong>de</strong>ntificação do utilizador sem a<br />

introdução <strong>de</strong> senhas.<br />

TTS (text-to-speech) – algoritmo que permite a “verbalização” <strong>de</strong><br />

informações escritas. Isso viabiliza, por exemplo, ouvir um e-mail por<br />

meio <strong>de</strong> telefone.


SPEECH<br />

Aplicações<br />

‣ Exemplos <strong>de</strong> sistemas recentes:<br />

Tecnologia permite acesso à Internet por telefone<br />

<br />

Uma empresa inglesa especializada em tecnologias <strong>de</strong> reconhecimento <strong>de</strong><br />

voz, <strong>de</strong>senvolveu um programa que permite aos consumidores ace<strong>de</strong>r a<br />

informações do seu site através <strong>de</strong> telefone.<br />

Reconhecimento <strong>de</strong> voz em centros <strong>de</strong> atendimento telefónico<br />

<br />

Este tipo <strong>de</strong> sistema baseia-se no reconhecimento <strong>de</strong> voz contínuo. Este<br />

tipo <strong>de</strong> sistema é utilizado nas centrais automáticas <strong>de</strong> atendimento ao<br />

cliente. O utilizador conversa com o sistema em vez <strong>de</strong> usar o teclado do<br />

telefone.<br />

Telemóveis que ouvem e transmitem dados<br />

<br />

Em certos equipamentos, é já possível o utilizador dar uma or<strong>de</strong>m ao<br />

telemóvel e este executa essa or<strong>de</strong>m sem que o utilizador tenha <strong>de</strong> ir ao<br />

menu <strong>de</strong> tarefa e executar a tarefa.


SPEECH<br />

Aplicações<br />

Carros com reconhecimento <strong>de</strong> voz<br />

Des<strong>de</strong> alguns anos que se estão a <strong>de</strong>senvolver sistemas que vão<br />

permitir aos condutores dar or<strong>de</strong>ns ao computador <strong>de</strong> bordo e este<br />

executar as essas or<strong>de</strong>ns.<br />

Sistema <strong>de</strong> diálogo Berti<br />

Este sistema que foi <strong>de</strong>senvolvido pela Sympalog Voice Solutions<br />

para a liga Alemã <strong>de</strong> Futebol, vai permitir que os a<strong>de</strong>ptos <strong>de</strong> futebol<br />

possam utilizar o telefone para saber as novida<strong>de</strong>s das partidas <strong>de</strong><br />

futebol na Alemanha e na Europa. O serviço disponibiliza um diálogo<br />

entre o utilizador e as gravações com as informações dos jogos.<br />

Selector <strong>de</strong> carácter<br />

A universida<strong>de</strong> do Sarre <strong>de</strong>senvolveu um produto que po<strong>de</strong> auxiliar a<br />

melhorar o atendimento em “call centers”. Este software analisa a<br />

voz dos clientes e o meio envolvente através do telefone ajudando a<br />

<strong>de</strong>terminar o perfil do cliente, por forma a fornecer um melhor<br />

atendimento.


SPEECH<br />

Aplicações<br />

Sistema Forikulo<br />

<br />

Trata-se <strong>de</strong> um sistema inovador criado na Universida<strong>de</strong> Técnica <strong>de</strong><br />

Kaiserslautern que consiste num sistema interactivo <strong>de</strong> rádio na<br />

Alemanha, que permite que seja o próprio ouvinte a escolher a<br />

programação das músicas em qualquer instante.<br />

Robô da Samsung<br />

<br />

Este robô é capaz <strong>de</strong> efectuar o reconhecimento da sua própria voz<br />

e rosto, aten<strong>de</strong>r a comandos <strong>de</strong> voz aleatórios e a sintetização <strong>de</strong><br />

voz. Ele possui 2 tecnologias <strong>de</strong> reconhecimento <strong>de</strong> voz. Uma é<br />

in<strong>de</strong>pen<strong>de</strong>nte em relação à pessoa que fala, enquanto a outra é<br />

<strong>de</strong>pen<strong>de</strong>nte, sendo utilizada para reconhecimento dos comandos do<br />

proprietário do robô.


SPEECH<br />

Aplicações<br />

‣ Dragon Systems, Lernout & Hauspie, IBM e Philips são as maiores<br />

empresas que actuam neste mercado.<br />

‣ Lernout & Hauspie <strong>de</strong>dicou-se fortemente ao seu tradutor Power<br />

Translator, disponibilizando entre as opções <strong>de</strong> dicionário o<br />

português.<br />

‣ O Philips FreeSpeech, em português não é comercializado<br />

isoladamente para o utilizador final, somente para parceiros que<br />

tencionem integrar a aplicação em outros aplicativos.<br />

‣ O IBM ViaVoice, em português po<strong>de</strong> ser adquirido em duas versões,<br />

Standard e Pro ambas para plataforma Windows.


SPEECH<br />

Aplicações<br />

‣ A tecnologia ViaVoice para além <strong>de</strong> reconhecer ditados e comandos<br />

<strong>de</strong> voz faz a conversão <strong>de</strong> texto em fala.<br />

‣ Home Page Rea<strong>de</strong>r, da IBM que faz a leitura <strong>de</strong> páginas Web,<br />

funcionando em nove idiomas <strong>de</strong> entre os quais se encontra o<br />

português.<br />

‣ O sistema Telephony, da IBM é acoplado a centrais telefónicas, para<br />

atendimento automatizado, estando previstas as situações vulgares<br />

enfrentadas por uma telefonista.


SPEECH<br />

Restrições<br />

‣ Para síntese <strong>de</strong> voz em português, as soluções disponíveis<br />

apresentam qualida<strong>de</strong> equivalente, isto é, todas emitem resultados<br />

inteligíveis, porém não muito agradáveis para os ouvidos.<br />

‣ Programas ainda pecam pela sua monotonia.<br />

‣ Programas com falta <strong>de</strong> expressivida<strong>de</strong>.<br />

‣ Incapacida<strong>de</strong> <strong>de</strong> imprimir entoação.<br />

‣ Incapacida<strong>de</strong> da <strong>de</strong>tecção e leitura <strong>de</strong> palavras em outra língua.<br />

‣ Ex: “franchising” é lida com a pronúncia da nossa língua.


SPEECH<br />

Restrições<br />

‣ Para reconhecimento da fala contínua, os sistemas po<strong>de</strong>m ser<br />

treinados para compreen<strong>de</strong>rem a maneira <strong>de</strong> falar <strong>de</strong> cada utilizador.<br />

Com uma sessão inicial em que o utilizador lê alguns parágrafos<br />

pre<strong>de</strong>terminados, o programa cria um dicionário auxiliar com base<br />

na voz e padrões da fala.<br />

‣ Para comandos <strong>de</strong> voz, o sistema po<strong>de</strong> ou não solicitar um treino<br />

individual, sendo sempre a capacida<strong>de</strong> <strong>de</strong> reconhecimento alta, uma<br />

vez que o vocabulário para comandos é restrito à quantida<strong>de</strong> <strong>de</strong><br />

funções previstas pelo programa.<br />

‣ Limitações ao nível do processamento <strong>de</strong> voz impostas pelos<br />

transístores.


SPEECH<br />

Restrições<br />

‣ Os processadores quânticos serão o futuro da computação.<br />

‣ O brutal po<strong>de</strong>r <strong>de</strong> processamento que po<strong>de</strong> ser atingido pelos<br />

processadores quânticos tem seria a solução oportuna à<br />

complexida<strong>de</strong> exigida pelos sistemas <strong>de</strong> processamento <strong>de</strong> voz.<br />

‣ Um computador quântico po<strong>de</strong>ria controlar em tempo real centenas<br />

<strong>de</strong> programas baseados em processamento <strong>de</strong> voz.


SPEECH<br />

Consi<strong>de</strong>rações finais<br />

‣ O sonho <strong>de</strong> comandar um computador através <strong>de</strong> voz hoje torna-se<br />

possível.<br />

‣ A tecnologia necessária é muito exigente mas o futuro caminha<br />

muito rapidamente para colmatar estas carências.<br />

‣ A gran<strong>de</strong> área <strong>de</strong> aplicação <strong>de</strong>sta tecnologia justifica o alto<br />

investimento.<br />

‣ Este tipo <strong>de</strong> tecnologia tem um alvo fundamental, acessibilida<strong>de</strong>.


SPEECH<br />

Consi<strong>de</strong>rações finais<br />

‣ Controle <strong>de</strong> um “ambiente” somente com a voz, abre novas<br />

fronteiras a indivíduos com <strong>de</strong>ficiências físicas/mentais.<br />

‣ O resultados obtidos ainda não são os i<strong>de</strong>ais.<br />

‣ Com o <strong>de</strong>senvolvimento <strong>de</strong> processadores mais velozes, melhores<br />

soluções serão obtidas, tornando popular e trivial os sistemas<br />

baseados em processamento <strong>de</strong> voz .


SPEECH<br />

FIM<br />

Questões, dúvidas…

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!