18.05.2013 Views

Detección automática de humor en textos cortos en español

Detección automática de humor en textos cortos en español

Detección automática de humor en textos cortos en español

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.2 Requerimi<strong>en</strong>tos previos<br />

Metodología para la formación <strong>de</strong> los rasgos<br />

36<br />

Antes <strong>de</strong> po<strong>de</strong>r hacer la <strong>de</strong>tección <strong>de</strong>l <strong>humor</strong> es necesario contar con dos<br />

diccionarios <strong>de</strong> términos, uno con palabras utilizadas <strong>en</strong> el l<strong>en</strong>guaje <strong>de</strong>l albur (véase<br />

Anexo 4), colectados <strong>de</strong>l libro “Antología <strong>de</strong>l Albur” [8]; y otro con palabras <strong>de</strong><br />

cont<strong>en</strong>ido sexual y otras palabras comunes <strong>en</strong> los chistes (véase Anexo 3),<br />

colectados <strong>de</strong> diversos sitios <strong>de</strong> internet [25][26]. Esto con la finalidad <strong>de</strong> que sean<br />

utilizados como soporte para <strong>de</strong>tectar esas palabras <strong>en</strong> los <strong>textos</strong>. Para nuestro<br />

trabajo, se cu<strong>en</strong>ta con un diccionario <strong>de</strong> términos <strong>de</strong> albur con 203 elem<strong>en</strong>tos y un<br />

diccionario <strong>de</strong> palabras <strong>de</strong> cont<strong>en</strong>ido sexual y otras palabras comunes <strong>en</strong> los<br />

chistes <strong>de</strong> 93 elem<strong>en</strong>tos.<br />

Es necesario también contar con al m<strong>en</strong>os dos archivos <strong>de</strong> texto para el análisis <strong>de</strong><br />

su cont<strong>en</strong>ido, asegurándose <strong>de</strong> que uno <strong>de</strong> ellos estará compuesto, al m<strong>en</strong>os <strong>en</strong> su<br />

mayoría, por <strong>textos</strong> <strong>humor</strong>ísticos; esto para garantizar el mejor <strong>de</strong>sempeño <strong>de</strong>l<br />

<strong>de</strong>tector automático <strong>de</strong> <strong>humor</strong>. Para nuestro trabajo, se cu<strong>en</strong>ta con un corpus <strong>de</strong><br />

<strong>textos</strong> <strong>humor</strong>ísticos <strong>de</strong> 3,676 elem<strong>en</strong>tos y un corpus <strong>de</strong> <strong>textos</strong> no <strong>humor</strong>ísticos<br />

(dichos) <strong>de</strong> 10,000 elem<strong>en</strong>tos.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!