12.07.2015 Views

III WVC 2007 - Iris.sel.eesc.sc.usp.br - USP

III WVC 2007 - Iris.sel.eesc.sc.usp.br - USP

III WVC 2007 - Iris.sel.eesc.sc.usp.br - USP

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>WVC</strong>'<strong>2007</strong> - <strong>III</strong> Workshop de Visão Computacional, 22 a 24 de Outu<strong>br</strong>o de <strong>2007</strong>, São José do Rio Preto, SP.mais provável, sendo esta a seqüência de letras equivalenteao sinal. Geralmente, esta incógnita é resolvida por meiodo algoritmo de Viterbi, que também utiliza a técnica deprogramação dinâmica.Figura 1. Exemplo de HMM.três incógnitas e suas soluções serão <strong>br</strong>evemente di<strong>sc</strong>utidas.Para maiores detalhes, consulte [16].2.1.1. Avaliação da observação O primeiro problema serefere à de<strong>sc</strong>oberta da probabilidade de uma determinadaseqüência de observações O ter sido gerada por um específicomodelo λ. Este tipo de situação pode ser muitofreqüente nas aplicações de HMM. Como exemplo, no reconhecimentode voz, ao se produzir um fonema qualquer, estaentrada pode ser classificada como pertencente ao modeloque indicar a maior probabilidade (P [O|λ]); outro exemploseria no reconhecimento de comportamento de animaisem seqüências de imagens, em que o modelo que apresentara maior probabilidade indica a reação do animal peranteuma situação ou um conjunto de estímulos.A maneira mais “simples” de calcular a probabilidadede determinada seqüência de observação ter sido gerada porum modelo é através da verificação de todas as seqüênciasde estados de tamanho T (número total de observações)possíveis, e, posteriormente, calcular suas probabilidades.No entanto, este cálculo pode ser computacionalmente impraticáveldevido à quantidade de operações matemáticasnecessárias. A fim de minimizar o número de operações,podem ser utilizados dois métodos, chamados forward ebackward [16]. Ambos utilizam estratégia de programaçãodinâmica para minimizar o custo computacional do cálculo.Contudo, vale lem<strong>br</strong>ar que os procedimentos forward ebackward são independentes e apenas um deles é necessáriopara encontrar a probabilidade desejada.2.1.2. Melhor seqüência de estados da observação Asegunda incógnita se refere à bu<strong>sc</strong>a da melhor seqüênciade estados percorrida pelo modelo para uma determinadaseqüência de observações. Ou seja, a seqüência de estadosque produz a maior probabilidade final para uma determinadaseqüência de observações dentre todas as seqüênciasde estados possíveis no modelo. Um exemplo de situaçãoem que esta incógnita ocorre é na transformação de falaem texto, em que os sinais acústicos são as observaçõesdo sistema e as letras são os estados do modelo. Assim,dado um sinal acústico, procura-se a seqüência de estados2.1.3. Treinamento do modelo A terceira incógnita éa realização do ajuste dos parâmetros (A, B, π) do modeloa partir de uma ou mais seqüências de observações.A seqüência O utilizada para este ajuste é chamadade seqüência de treinamento, pois é utilizada para treinaro HMM. Não existe uma maneira conhecida de realizareste ajuste para resolver analiticamente o modelo que maximizea probabilidade da(s) seqüência(s) de observações,porém, é possível e<strong>sc</strong>olher o modelo que sua probabilidadeseja localmente maximizada usando um procedimentoiterativo.A existência de um processo que ajusta iterativamentee automaticamente os parâmetros do modelo combase nas seqüências de observações é a principal forçados HMMs [6]. Este processo é executado pelo algoritmoBaum-Welch [16], que se trata de uma especializaçãodo algoritmo EM - Expectation-Maximization [2, 15] aplicadaaos HMMs. Um exemplo de aplicação desta incógnitaocorre nos treinamentos dos sistemas que utilizam HMMsno processo de classificação, em que, dadas as amostrasdas classes que se deseja reconhecer, o algoritmo ajustaos modelos, a fim de se otimizar o reconhecimento de outrasseqüências de observações similares.3. DesenvolvimentoCom auxílio do dicionário trilíngüe [17, 18], foram <strong>sel</strong>ecionadosalguns gestos que são utilizados na formação dassentençasdaLíngua Brasileira de Sinais, LIBRAS, e construídoum banco de amostras (vídeos) de gestos [3]. Paracada gesto foi desenvolvido um respectivo modelo de Markovoculto.Para a construção desses modelos foram e<strong>sc</strong>olhidas asposturas mais marcantes dos gestos, sendo que cada umadestas posturas se relaciona diretamente a um estado do modelo.Uma postura é uma configuração estática, sem movimento,enquanto o gesto é dinâmico, ou seja, possui movimento.Por exemplo, a foto de uma mão e a filmagem deuma cabeça se deslocando da esquerda para a direita sãoexemplos de postura e gesto, respectivamente.Primeiramente, foram definidas as características que,juntas, auxiliam a di<strong>sc</strong>riminar as posturas e, conseqüentemente,os gestos executados pelos sinalizadores. As característicasforam e<strong>sc</strong>olhidas com base nas de<strong>sc</strong>rições epadronizações contidas em [17, 18] e na análise dos gestose<strong>sc</strong>olhidos, observando quais combinações di<strong>sc</strong>riminavamvisualmente as posturas e os gestos <strong>sel</strong>ecionados demaneira única e, posteriormente, foram associadas as pos-292

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!