13.11.2013 Views

construcción automática de diccionarios semánticos usando la ...

construcción automática de diccionarios semánticos usando la ...

construcción automática de diccionarios semánticos usando la ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

• Los signos <strong>de</strong> puntuación al final <strong>de</strong> una pa<strong>la</strong>bra se <strong>de</strong>ben eliminar, por<br />

ejemplo: cuando en el texto se encuentre “procesador,” solo tomará en<br />

cuenta “procesador”.<br />

• No se toman en cuenta <strong>la</strong>s letras en mayúscu<strong>la</strong>s, es <strong>de</strong>cir, todo el texto será<br />

cambiado a minúscu<strong>la</strong>s. Por ejemplo: “Procesador” será transformado en<br />

“procesador”.<br />

• Se eliminan <strong>la</strong>s pa<strong>la</strong>bras que no aportan información para un dominio, tales<br />

como artículos, preposiciones, etc.<br />

• Se hace el conteo <strong>de</strong> frecuencias en base a <strong>la</strong>s pa<strong>la</strong>bras con el mismo lema<br />

(lematización) <strong>de</strong> modo que pa<strong>la</strong>bras como trabaja, trabajar, trabajamos,<br />

suman a <strong>la</strong> frecuencia <strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra trabajar.<br />

Al finalizar esta fase tenemos una tab<strong>la</strong> conteniendo, para cada pa<strong>la</strong>bra lematizada,<br />

su frecuencia por documento (Term Frecuency).<br />

Pa<strong>la</strong>bra Documento Frecuencia<br />

software 14 3<br />

software 16 3<br />

software 20 12<br />

software 21 6<br />

software 24 7<br />

software 25 1<br />

software 28 2<br />

software 30 3<br />

software 31 1<br />

software 33 1<br />

software 35 1<br />

software 38 1<br />

software 39 2<br />

40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!