13.07.2015 Views

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

fontes (tamanho e negrito). A identificação dos termos é possível por meio das tags HTMLbody, title, description, bold e font.Para cada um dos itens observados foram estabelecidos pesos, sendo 1 (um), 2 (dois) e 2,5(dois e meio) para cada aparição do termo no corpo da página, no título e na descrição dapágina respectivamente, e 1,25 (um e vinte e cinco centésimos) para aparições com tamanhode fonte maior em relação ao corpo da página ou negrito. O critério para a escolha dos pesosestá relacionado à importância dos itens analisados na descrição do conteúdo da página.Normalmente palavras constantes no título, na descrição e em destaque no corpo da página,expressam de forma mais precisa o seu conteúdo.Antes do cálculo de relevância do termo, aplicamos a técnica de stopwords e removemospalavras com pouca informação semântica, dentre elas preposições, pronomes e conjunções.Desenvolvemos um algoritmo para auxiliar no cálculo de um fator R para cada termoresultante na lista de termos. Com base nos pesos descritos anteriormente chegamos àexpressão:R = NAT + 2ATT + 2,5ATD + 1,25ATF onde:NAT = número de aparições do termo no corpo das páginas.ATT = número de aparições do termo na tag title das páginas.ATD = número de aparições do termo na tag description das páginas.ATF = número de aparições do termo com destaque na página, caracterizados porfontes destacadas em negrito e com fontes maiores que o restante dodocumento.Após calcular o fator R para cada termo, encontramos o valor médio de R e selecionamos aspalavras com valores de R superiores à média. Na etapa seguinte, desconsideramos palavrascuja semântica não estava relacionada a um “contexto geográfico”, tais como arquivo,página, sistema e programa, entre outras. As palavras resultantes em português foramtraduzidas para o inglês e vice-versa visando ampliar o repositório sem prejuízo à suafinalidade. A Tabela 3-1 apresenta as palavras geo-interessantes resultantes.67

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!