12.07.2015 Views

III WVC 2007 - Iris.sel.eesc.sc.usp.br - USP

III WVC 2007 - Iris.sel.eesc.sc.usp.br - USP

III WVC 2007 - Iris.sel.eesc.sc.usp.br - USP

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>WVC</strong>'<strong>2007</strong> - <strong>III</strong> Workshop de Visão Computacional, 22 a 24 de Outu<strong>br</strong>o de <strong>2007</strong>, São José do Rio Preto, SP.que possibilita a execução do método reestimador em váriasseqüências de observação em cada iteração, considerandotodas as observações antes de maximizar as probabilidadesdos modelos.Como as probabilidades são muito pequenas devido aonúmero de símbolos, algumas não seriam suportadas emvariáveis comuns da linguagem de programação e<strong>sc</strong>olhida,por isso, foi implementada uma estrutura especial, que apresentasuporte ao armazenamento de números dessa natureza.Os códigos implementados para realização de todas asetapas do sistema reconhecedor são abertos e foram desenvolvidosna linguagem Java, utilizando bibliotecas deprocessamento de imagens (ImageJ) e mineração de dados(Weka) e estão em processo de incorporação na plataformaSIGUS para utilização em outras aplicações.4. Experimentos e ResultadosPara a realização das análises e experimentos no sistema,foi criado um banco de imagens referentes aos gestos <strong>sel</strong>ecionados[3]. A captura das imagens que compõem estebanco foi realizada em um ambiente com fundo estático euniforme, ou seja, não existiam objetos atrás do sinalizadoreoúnicoobjeto com movimento era ele próprio. Paraisto, foi utilizada uma câmera digital 7 para obtenção dasseqüências de imagens, sendo que esta se manteve fixadaem frente ao sinalizador e imóvel durante as gravações.A coleta foi organizada em ciclos para evitar que o sinalizadorexecutasse o mesmo gesto mais de uma vez, como intuito de aumentar a naturalidade na execução dos gestos,explorando variações possíveis. Foram capturadas imagensde 3 colaboradores para os experimentos, em que cadaum executou sete ciclos de 47 gestos. Com isso, o bancode imagens dedicado à experimentação possuia 21 amostraspara cada gesto, totalizando 987 arquivos de vídeo, emque não foi utilizado recurso algum de apoio para o rastreamentodas mãos e da face, como luvas de dados ou câmerasde infra-vermelho.Para realização dos experimentos, foram divididas asamostras em duas classes, treinamento e teste, e os experimentosem 2 grupos, sendo que as amostras de treinamentosão as mesmas utilizadas para obtenção dos modelosiniciais. Dentro de cada classe são realizados dois experimentos:com HMMs constituídos das probabilidadesalcançadas por fórmula fechada utilizando os dados obtidosdurante a análise visual e com HMMs submetidos aoprocesso de reestimação, utilizando as mesmas amostras detreinamento.A primeira classe experimenta a classificação das amostrasde treinamento, que são as mesmas utilizadas para a7 Câmera digital, marca Sony, modelo DSC-F828.obtenção dos modelos iniciais e a segunda as amostras restantes.A base de treinamento possui um conjunto total de987 amostras de gestos, sendo que 564 dessas amostras sãodestinadas ao treinamento (e testes) e as restantes apenaspara testes. Em ambas as abordagens, com modelos iniciaise reestimados, o sistema obteve taxa de acerto de 99.11% noprimeiro grupo e de 80.1% nas amostras de teste, que são asamostras que não foram utilizadas para obtenção dos modelosiniciais.5. Considerações FinaisNeste trabalho investiu-se na utilização de uma técnicabastante utilizada no reconhecimento de fala e muito bemconceituada, porém, aplicada ao reconhecimento de gestos:os modelos de Markov ocultos (HMM). O domíniodeste sistema reconhecedor é um conjunto de 47 gestos, extraídosdo dicionário Trilingüe da Língua Brasileira de Sinais[17, 18]. Estes gestos foram analisados e capturadosatravés de câmeras digitais e armazenados em um banco deimagens. Foram analisadas as variáveis visuais que melhorcaracterizavam os gestos, ou seja, um conjunto de atributosque, em conjunto, de<strong>sc</strong>revem cada gesto de maneira distinta.De fato, estas características não de<strong>sc</strong>revem especificamenteo gesto, mas sim, cada postura do gesto.Os resultados obtidos foram satisfatórios, no entanto, podemser analisadas alternativas que possam maximizar ospercentuais de acerto. Como exemplo, a análise detalhadada invariância na taxa de acerto antes e após a reestimaçãodos modelos talvez possa auxiliar na de<strong>sc</strong>oberta de característicasrelevantes ao processo de classificação.Uma das melhorias que poderia ser adicionada ao trabalho,seria a incorporação de experimentos em imagens capturadasem tempo real, pois os experimentos realizados nosistema se limitaram ao domínio de imagens armazenadasem di<strong>sc</strong>o. Além disso, outra abordagem que enriqueceria oprojeto, seriam experimentos com colabores que não estãopresentes na parcela de treinamento, para constatar se o sistemasuporta independência de usuários.Outra abordagem interessante seria uma análise comparativaentre o desempenho de classificação do sistema aplicandoesta mesma metodologia para a construção dos modelosem relação a modelos gerados aleatoriamente e reestimadosatravés do algoritmo Baum-Welch. Essa análise demonstrariaa relevância da identificação das seqüências deestados nas amostras, como foi realizado neste trabalho durantea análise visual.6. AgradecimentosEste trabalho recebeu apoio financeiro da UniversidadeCatólica Dom Bo<strong>sc</strong>o, UCDB, da Agência Financiadora de294

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!