13.11.2013 Views

Avances en la Ciencia de la Computación - sitio del laboratorio ...

Avances en la Ciencia de la Computación - sitio del laboratorio ...

Avances en la Ciencia de la Computación - sitio del laboratorio ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Estudio sobre el uso <strong>de</strong> gestos <strong>en</strong> una interfaz<br />

multimodal hombre-máquina simu<strong>la</strong>da<br />

Luis Vil<strong>la</strong>señor Pineda & C<strong>la</strong>udia Vázquez Valerdi<br />

Laboratorio <strong>de</strong> Tecnologías <strong>de</strong>l L<strong>en</strong>guaje<br />

Instituto Nacional <strong>de</strong> Astrofísica, Óptica y Electrónica<br />

Sta. María Tonantzint<strong>la</strong>, Pueb<strong>la</strong>, México<br />

vil<strong>la</strong>s<strong>en</strong>@inaoep.mx<br />

Resum<strong>en</strong>. La nueva g<strong>en</strong>eración <strong>de</strong> interfaces hombre-máquina son <strong>la</strong>s l<strong>la</strong>madas<br />

interfaces multimodales. En el<strong>la</strong>s <strong>la</strong> comunicación con el sistema automático se<br />

realiza gracias a más <strong>de</strong> un modo <strong>de</strong> <strong>en</strong>trada, principalm<strong>en</strong>te <strong>la</strong> voz y el gesto.<br />

El pres<strong>en</strong>te trabajo pres<strong>en</strong>ta un estudio empírico sobre el tipo <strong>de</strong> expresiones<br />

verbales que son acompañadas con indicaciones gestuales <strong>en</strong> una interfaz<br />

multimodal simu<strong>la</strong>da. Este estudio <strong>de</strong>scribe y propone una c<strong>la</strong>sificación <strong>de</strong>l tipo<br />

<strong>de</strong> expresiones que los usuarios acompañaron <strong>de</strong> un gesto.<br />

1 Introducción<br />

Entre los proyectos realizados <strong>en</strong> el Laboratorio <strong>de</strong> Tecnologías <strong>de</strong>l L<strong>en</strong>guaje <strong>de</strong>l<br />

INAOE se estudian los medios para ext<strong>en</strong><strong>de</strong>r <strong>la</strong> expresividad <strong>en</strong> <strong>la</strong> comunicación<br />

hombre-máquina al incluir varios modos <strong>de</strong> <strong>en</strong>trada. Lo que se busca es permitir una<br />

comunicación oral apoyada por otros modos <strong>de</strong> <strong>en</strong>trada como el ratón o el tec<strong>la</strong>do.<br />

Con este propósito se estudiaron vi<strong>de</strong>o-grabaciones <strong>de</strong> sesiones <strong>de</strong> trabajo <strong>en</strong>tre<br />

dos personas. El corpus utilizado <strong>en</strong> este estudio es el corpus DIME [Vil<strong>la</strong>señor et al.<br />

01]. Este corpus multimodal provee información empírica sobre el uso y <strong>la</strong><br />

interre<strong>la</strong>ción <strong>en</strong> los intercambios conversacionales, a<strong>de</strong>más <strong>de</strong> brindar elem<strong>en</strong>tos para<br />

el estudio <strong>de</strong>l l<strong>en</strong>guaje hab<strong>la</strong>do, incluy<strong>en</strong>do f<strong>en</strong>óm<strong>en</strong>os comunes como <strong>la</strong> anáfora, <strong>la</strong><br />

elipsis, <strong>la</strong>s expresiones <strong>de</strong>ícticas, etc. La recolección <strong>de</strong>l corpus se realizó mediante el<br />

esc<strong>en</strong>ario <strong>de</strong>l Mago <strong>de</strong> Oz [Dahlbäck et al. 93]. Este esc<strong>en</strong>ario consiste <strong>de</strong> una<br />

persona (el mago) que toma el papel <strong>de</strong>l sistema computacional y <strong>de</strong> una persona (el<br />

sujeto) a <strong>la</strong> cual se le solicita <strong>la</strong> resolución <strong>de</strong> una tarea con ayuda <strong>de</strong>l mago. La<br />

interacción se lleva a cabo a través <strong>de</strong> un sistema <strong>de</strong> audio y computadoras que<br />

permit<strong>en</strong> observar <strong>la</strong> tarea realizada por el otro sin contacto visual <strong>en</strong>tre ellos. La<br />

gráfica 1 muestra <strong>la</strong> p<strong>la</strong>taforma usada para <strong>la</strong> adquisición <strong>de</strong>l corpus DIME. El corpus<br />

consiste <strong>de</strong> 31 grabaciones con una duración total <strong>de</strong> 7 horas 10 minutos (<strong>en</strong> promedio<br />

14 minutos por grabación).<br />

Los datos aportados por este corpus nos han permitido analizar difer<strong>en</strong>tes f<strong>en</strong>óm<strong>en</strong>os<br />

<strong>en</strong> este tipo <strong>de</strong> interacción [Taylor et al 89]. En particu<strong>la</strong>r este estudio se <strong>en</strong>foca al<br />

l<strong>en</strong>guaje no verbal, el cual funcionó para regu<strong>la</strong>r, interpretar y retroalim<strong>en</strong>tar el<br />

proceso <strong>de</strong> comunicación. Por ejemplo <strong>en</strong>:

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!