28.11.2014 Visualizações

Uso de Seleção de Características da Wikipédia na Classificação ...

Uso de Seleção de Características da Wikipédia na Classificação ...

Uso de Seleção de Características da Wikipédia na Classificação ...

SHOW MORE
SHOW LESS
  • Nenhuma tag encontrada…

Transforme seus PDFs em revista digital e aumente sua receita!

Otimize suas revistas digitais para SEO, use backlinks fortes e conteúdo multimídia para aumentar sua visibilidade e receita.

Universi<strong>da</strong><strong>de</strong> Fe<strong>de</strong>ral <strong>de</strong> GoiásInstituto <strong>de</strong> InformáticaLeonel Diógenes Carvalhaes Alvarenga<strong>Uso</strong> <strong>de</strong> <strong>Seleção</strong> <strong>de</strong> <strong>Características</strong><strong>da</strong> <strong>Wikipédia</strong> <strong>na</strong> <strong>Classificação</strong>Automática <strong>de</strong> TextosGoiânia2012


Leonel Diógenes Carvalhaes Alvarenga<strong>Uso</strong> <strong>de</strong> <strong>Seleção</strong> <strong>de</strong> <strong>Características</strong><strong>da</strong> <strong>Wikipédia</strong> <strong>na</strong> <strong>Classificação</strong>Automática <strong>de</strong> TextosDissertação apresenta<strong>da</strong> ao Programa <strong>de</strong> Pós–Graduação do Instituto <strong>de</strong> Informática <strong>da</strong> Universi<strong>da</strong><strong>de</strong>Fe<strong>de</strong>ral <strong>de</strong> Goiás, como requisito parcial para obtençãodo título <strong>de</strong> Mestre em Computação.Área <strong>de</strong> concentração: Recuperação <strong>de</strong> Informação.Orientador: Prof. Dr. Thierson Couto RosaGoiânia2012


Todos os direitos reservados. É proibi<strong>da</strong> a reprodução total ou parcial dotrabalho sem autorização <strong>da</strong> universi<strong>da</strong><strong>de</strong>, do autor e do orientador(a).Leonel Diógenes Carvalhaes AlvarengaGraduou-se em Ciência <strong>da</strong> Computação <strong>na</strong> Universi<strong>da</strong><strong>de</strong> <strong>de</strong> Rio Ver<strong>de</strong>(FESURV). Atua como Professor no campus Rio Ver<strong>de</strong> do InstitutoFe<strong>de</strong>ral <strong>de</strong> Educação, Ciência e Tecnologia Goiano.


Dedico este trabalho aos meus Pais Walter Alvarenga dos Santos e LúciaCarvalhaes Alvarenga que sempre me incentivaram <strong>na</strong> conquista <strong>de</strong> meus i<strong>de</strong>ais,sempre pautados pelo trabalho e pela ética. Dedico também à minha esposa LídiaNunes <strong>de</strong> Ávila Carvalhaes, que sempre está ao meu lado, tanto nos momentosalegres quanto <strong>na</strong>s horas difíceis.


Agra<strong>de</strong>cimentosPrimeiramente agra<strong>de</strong>ço a Deus por sempre me <strong>da</strong>r forças para seguirperseverante e vencendo os obstáculos com <strong>de</strong>termi<strong>na</strong>ção.Agra<strong>de</strong>ço a minha esposa Lídia Nunes <strong>de</strong> Ávila Carvalhaes por sempre memotivar e compreen<strong>de</strong>r os momentos <strong>de</strong> ausência.Agra<strong>de</strong>ço a todos os colegas do mestrado que me auxiliaram, direta ouindiretamente.Agra<strong>de</strong>ço ao meu Orientador, professor Dr. Thierson Couto Rosa pelamotivação e pela <strong>de</strong>dicação a este trabalho estando sempre pronto a me auxiliarem to<strong>da</strong>s as situações.Agra<strong>de</strong>ço à Fun<strong>da</strong>ção <strong>de</strong> Amparo à Pesquisa do Estado <strong>de</strong> Goiás (FAPEG)<strong>da</strong> qual obtive apoio <strong>na</strong> forma <strong>de</strong> bolsa <strong>de</strong> formação, sem a qual seria muitodifícil custear os gastos com o <strong>de</strong>slocamento <strong>de</strong> Rio Ver<strong>de</strong> à Goiânia, alimentação ehospe<strong>da</strong>gem durante o <strong>de</strong>correr do Mestrado.Agra<strong>de</strong>ço ao Instituto Fe<strong>de</strong>ral Goiano por sempre me apoiar e incentivar <strong>na</strong>busca <strong>de</strong> qualificação.Fi<strong>na</strong>lmente, agra<strong>de</strong>ço a minha família e amigos pelo auxílio nessa jor<strong>na</strong><strong>da</strong>.


“A ciência que não se transforma em conhecimento apoiador do<strong>de</strong>senvolvimento <strong>da</strong> socie<strong>da</strong><strong>de</strong> é como uma lâmpan<strong>da</strong> acesa em umagaveta fecha<strong>da</strong>.”Leonel Diógenes Carvalhaes Alvarenga,Em reflexão sobre o papel dos trabalhos científicos.


ResumoAlvarenga, Leonel Diógenes Carvalhaes. <strong>Uso</strong> <strong>de</strong> <strong>Seleção</strong> <strong>de</strong> <strong>Características</strong><strong>da</strong> <strong>Wikipédia</strong> <strong>na</strong> <strong>Classificação</strong> Automática <strong>de</strong> Textos. Goiânia,2012. 114p. Dissertação <strong>de</strong> Mestrado. Instituto <strong>de</strong> Informática, Universi<strong>da</strong><strong>de</strong>Fe<strong>de</strong>ral <strong>de</strong> Goiás.Os métodos tradicio<strong>na</strong>is <strong>de</strong> classificação <strong>de</strong> textos normalmente representam documentosape<strong>na</strong>s como um conjunto <strong>de</strong> palavras, também conhecido como BOW (doinglês, Bag of Words). Vários estudos têm mostrado bons resultados ao utilizar-se <strong>de</strong>tesauros e enciclopédias como fontes exter<strong>na</strong>s <strong>de</strong> informações, objetivando expandira representação BOW a partir <strong>da</strong> i<strong>de</strong>ntificação <strong>de</strong> relacio<strong>na</strong>mentos <strong>de</strong> sinonímia ehiponímia entre os termos presentes em uma coleção <strong>de</strong> documentos. To<strong>da</strong>via, o processo<strong>de</strong> expansão po<strong>de</strong> introduzir termos que conduzam a uma classificação errôneado documento. No presente trabalho, propõe-se a aplicação <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> avaliação<strong>de</strong> termos para a seleção <strong>de</strong> características extraí<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>, com o objetivo<strong>de</strong> melhorar a eficácia <strong>de</strong> sua utilização durante o processo <strong>de</strong> expansão <strong>de</strong> documentos.O estudo também propõe uma medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características <strong>de</strong>nomi<strong>na</strong><strong>da</strong>Fator <strong>de</strong> Tendência a uma Categoria (FT1C), <strong>de</strong> modo que os experimentos realizados<strong>de</strong>monstraram que esta medi<strong>da</strong> apresenta <strong>de</strong>sempenho competitivo com asmedi<strong>da</strong>s Information Gain, Gain Ratio e Chi-squared, neste processo, apresentandoos melhores ganhos <strong>de</strong> microF 1 e macroF 1 , <strong>na</strong> maioria dos experimentos realizados.O uso integral <strong>da</strong>s características selecio<strong>na</strong><strong>da</strong>s neste processo, <strong>de</strong>monstrou auxiliar aclassificação <strong>de</strong> forma mais estável, ao passo que apresentou menor <strong>de</strong>sempenho aose restringir sua inserção somente aos documentos <strong>da</strong>s classes em que estas característicassão bem pontua<strong>da</strong>s pelas medi<strong>da</strong>s <strong>de</strong> seleção. Ao ser aplica<strong>da</strong> <strong>na</strong>s coleçõesReuters-21578, Ohsumed first-20000 e 20Newsgroups, a abor<strong>da</strong>gem com seleção <strong>de</strong>características permitiu a redução <strong>da</strong> inserção <strong>de</strong> ruídos inerentes do processo <strong>de</strong>expansão e potencializou o uso <strong>de</strong> hipônimos, assim como <strong>de</strong>monstrou que as relações<strong>de</strong> sinonímia <strong>da</strong> <strong>Wikipédia</strong> também po<strong>de</strong>m ser utiliza<strong>da</strong>s <strong>na</strong> expansão <strong>de</strong>documentos, elevando a eficácia <strong>da</strong> classificação automática <strong>de</strong> textos.Palavras–chaveRecuperação <strong>de</strong> informação, classificação <strong>de</strong> textos, seleção <strong>de</strong> características,expansão <strong>de</strong> documentos, aprendizado <strong>de</strong> máqui<strong>na</strong>.


AbstractAlvarenga, Leonel Diógenes Carvalhaes. Selection of Wikipedia featuresfor automatic text classification. Goiânia, 2012. 114p. MSc. Dissertation.Instituto <strong>de</strong> Informática, Universi<strong>da</strong><strong>de</strong> Fe<strong>de</strong>ral <strong>de</strong> Goiás.The traditio<strong>na</strong>l methods of text classification typically represent documents only as aset of words, also known as ”Bag of Words”(BOW). Several studies have shown goodresults on making use of thesauri and encyclopedias as exter<strong>na</strong>l information sources,aiming to expand the BOW representation by the i<strong>de</strong>ntification of synonymy andhyponymy relationships between present terms in a document collection. However,the expansion process may introduce terms that lead to an erroneous classification. Inthis paper, we propose the use of feature selection measures in or<strong>de</strong>r to select featuresextracted from Wikipedia in or<strong>de</strong>r to improve the effectiveness of the expansionprocess. The study also proposes a feature selection measure called Ten<strong>de</strong>ncy Factorto One Category (TF1C), so that the experiments showed that this measure provesto be competitive with the other measures Information Gain, Gain Ratio and Chisquared,in the process, <strong>de</strong>livering the best gains in microF 1 and macroF 1 , in mostexperiments. The full use of features selected in this process showed to be more stablein assisting the classification, while it showed lower performance on restricting itsinsertion only to documents of the classes in which these features are well punctuatedby the selection measures. When applied in the Reuters-21578, Ohsumed first -20000 and 20Newsgroups collections, our approach to feature selection allowed thereduction of noise insertion inherent in the expansion process, and improved theresults of use hyponyms, and <strong>de</strong>monstrated that the synonym relationship fromWikipedia can also be used in the document expansion, increasing the effectivenessof the automatic text classification.KeywordsInformation retrieval, text classification, feature selection, document expansion,machine learning.


SumárioLista <strong>de</strong> Figuras 10Lista <strong>de</strong> Tabelas 121 Introdução 141.1 Contextualização 141.2 Representação <strong>de</strong> Documentos 171.3 Problemas <strong>de</strong> Pesquisa e Objetivos 181.4 Principais contribuições do Trabalho 211.5 Organização do Trabalho 222 Revisão Bibliográfica 232.1 O Mo<strong>de</strong>lo Espaço Vetorial 232.1.1 Representação <strong>de</strong> características <strong>de</strong> documentos 242.1.2 Termos não discrimi<strong>na</strong>tivos 252.1.3 Expansão <strong>de</strong> características <strong>de</strong> documentos 262.1.4 Medi<strong>da</strong>s <strong>de</strong> importância dos termos 262.1.5 Medi<strong>da</strong>s <strong>de</strong> similari<strong>da</strong><strong>de</strong> entre documentos 292.1.6 Métodos <strong>de</strong> <strong>Seleção</strong> <strong>de</strong> <strong>Características</strong> 29Information Gain 30Gain Ratio 31Chi-Squared( X 2 ) 312.2 O Mo<strong>de</strong>lo Baseado em Grafos 322.3 Enciclopédia <strong>Wikipédia</strong> 332.4 <strong>Classificação</strong> <strong>de</strong> Documentos 362.4.1 <strong>Classificação</strong> Automática <strong>de</strong> Documentos utilizando Aprendizado <strong>de</strong> Máqui<strong>na</strong>s 362.4.2 <strong>Classificação</strong> Uni-classe e Multi-Classe 382.4.3 Algoritmo <strong>de</strong> <strong>Classificação</strong> SVM 392.4.4 Avaliação <strong>de</strong> <strong>Classificação</strong> 43Medi<strong>da</strong>s <strong>de</strong> Precisão e Cobertura 44Métrica-F 44Método <strong>de</strong> Vali<strong>da</strong>ção Cruza<strong>da</strong> 462.5 Trabalhos Relacio<strong>na</strong>dos 473 <strong>Uso</strong> <strong>da</strong> <strong>Wikipédia</strong> para Expansão <strong>de</strong> <strong>Características</strong> 513.1 Extração <strong>de</strong> termos-chaves <strong>da</strong> <strong>Wikipédia</strong> 513.1.1 Pré-processamento <strong>da</strong> <strong>Wikipédia</strong> 523.1.2 Grupos <strong>de</strong> conceitos sinônimos <strong>da</strong> <strong>Wikipédia</strong> 533.1.3 I<strong>de</strong>ntificação dos w-conceitos em textos <strong>da</strong> coleção a ser classifica<strong>da</strong> 54


3.2 Filtragem <strong>de</strong> w-conceitos não discrimi<strong>na</strong>tivos 563.2.1 Fator <strong>de</strong> Tendência a uma categoria - FT1C 573.3 Enriquecimento <strong>da</strong> coleção a partir <strong>de</strong> w-conceitos eleitos 593.4 Utilização <strong>da</strong>s Categorias <strong>da</strong> <strong>Wikipédia</strong> no Enriquecimento <strong>de</strong> documentos 604 Resultados Experimentais 624.1 <strong>Características</strong> Experimentais <strong>da</strong> <strong>Wikipédia</strong> 624.2 Coleções Utiliza<strong>da</strong>s <strong>na</strong> Vali<strong>da</strong>ção <strong>da</strong> Abor<strong>da</strong>gem 634.3 Ambiente experimental <strong>de</strong> classificação com SVM 674.4 Metodologia Experimental 674.5 Análise dos resultados 734.5.1 Expansão com w-conceitos 76Comparativo entre CRC e SRC 76Comparativo entre medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características 794.5.2 Expansão com categorias diretas 85Comparativo entre CRC e SRC 85Comparativo entre medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características 874.5.3 Expansão com w-conceitos + categorias diretas 94Comparativo entre CRC e SRC 94Comparativo entre medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características 954.5.4 Análise geral dos resultados 1025 Conclusão 105Referências Bibliográficas 108


Lista <strong>de</strong> Figuras2.1 Ligações entre documentos utilizando links 332.2 Criação <strong>de</strong> free links utilizando Wikitext. 342.3 Criação <strong>de</strong> textos âncoras utilizando free links. 342.4 Links <strong>de</strong> redirecio<strong>na</strong>mento <strong>de</strong> pági<strong>na</strong>s <strong>na</strong> <strong>Wikipédia</strong>. 352.5 Documentos <strong>de</strong> duas classes representados em um espaço euclidianodividido pelo hiperplano <strong>de</strong> <strong>de</strong>cisão com margem máxima. 402.6 Distância entre os dois hiperplanos margi<strong>na</strong>is <strong>de</strong> classe. 422.7 Representação gráfica <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> precisão e cobertura. 443.1 Mo<strong>de</strong>lo tradicio<strong>na</strong>l <strong>de</strong> classificação <strong>de</strong> textos baseado em aprendizado <strong>de</strong>máqui<strong>na</strong>. 523.2 Mo<strong>de</strong>lo <strong>de</strong> abor<strong>da</strong>gem proposto para a classificação <strong>de</strong> textos baseadoem aprendizado <strong>de</strong> máqui<strong>na</strong>. 533.3 Processo <strong>de</strong> enriquecimento dos documentos do conjunto <strong>de</strong> teste. 604.1 Distribuição dos documentos no conjunto <strong>de</strong> treino <strong>da</strong> coleção Reuters-21578 após o pré-processamento. 654.2 Distribuição dos documentos no conjunto <strong>de</strong> treino <strong>da</strong> coleção Ohsume<strong>da</strong>pós o pré-processamento. 664.3 Distribuição dos documentos <strong>da</strong> coleção 20Newsgroups após o préprocessamento.664.4 Resultados <strong>de</strong> microF 1 para coleção Reuters com w-conceitos e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 774.5 Resultados <strong>de</strong> macroF 1 para coleção Reuters com w-conceitos e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 784.6 Resultados <strong>de</strong> microF 1 para coleção Ohsumed com w-conceitos e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 794.7 Resultados <strong>de</strong> macroF 1 para coleção Ohsumed com w-conceitos e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 804.8 Resultados <strong>de</strong> microF 1 para coleção 20NG com w-conceitos e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 814.9 Resultados <strong>de</strong> macroF 1 para coleção 20NG com w-conceitos e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 824.10 Resultados <strong>de</strong> microF 1 para coleção Reuters com categorias e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 864.11 Resultados <strong>de</strong> macroF 1 para a coleção Reuters com categorias e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 87


4.12 Resultados <strong>de</strong> microF 1 para coleção Ohsumed com categorias e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 884.13 Resultados <strong>de</strong> macroF 1 para coleção Ohsumed com categorias e medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 894.14 Resultados <strong>de</strong> microF 1 para coleção 20NG com categorias e medi<strong>da</strong>s <strong>de</strong>seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 904.15 Resultados <strong>de</strong> macroF 1 para coleção 20NG com categorias e medi<strong>da</strong>s <strong>de</strong>seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 914.16 Resultados <strong>de</strong> microF 1 para coleção Reuters com w-conceitos e categoriasutilizando medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio,Info-Gain e Chi-Squared. 954.17 Resultados <strong>de</strong> macroF 1 para coleção Reuters com w-conceitos e categoriasutilizando medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio,Info-Gain e Chi-Squared. 964.18 Resultados <strong>de</strong> microF 1 para coleção 20NG com w-conceitos e categoriasutilizando medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 974.19 Resultados <strong>de</strong> macroF 1 para coleção 20NG com w-conceitos e categoriasutilizando medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared. 984.20 Resultados <strong>de</strong> macroF 1 para coleção Ohsumed com w-conceitos e categoriasutilizando 4 medi<strong>da</strong>s <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características. 994.21 Resultados <strong>de</strong> microF 1 para coleção Ohsumed com w-conceitos e categoriasutilizando 4 medi<strong>da</strong>s <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características. 100


Lista <strong>de</strong> Tabelas2.1 Tabela <strong>de</strong> Contingência para a classificação dos documentos <strong>de</strong> teste paraa classe c i . 433.1 Exemplo <strong>de</strong> divisão do texto em trechos. 553.2 Relação entre wiki-sinônimos e w-conceitos extraídos dos trechos <strong>da</strong>Tabela 3.1. 564.1 Tabela <strong>de</strong>mostrativa relacio<strong>na</strong>ndo porcentagem <strong>de</strong> uso <strong>de</strong> características<strong>de</strong> expansão e sua respectiva quanti<strong>da</strong><strong>de</strong> absoluta k para a coleçãoReuters-21578. 704.2 Tabela <strong>de</strong>mostrativa relacio<strong>na</strong>ndo porcentagem <strong>de</strong> uso <strong>de</strong> características<strong>de</strong> expansão e sua respectiva quanti<strong>da</strong><strong>de</strong> absoluta k para a coleçãoOhsumed. 714.3 Tabela <strong>de</strong>mostrativa relacio<strong>na</strong>ndo porcentagem <strong>de</strong> uso <strong>de</strong> características<strong>de</strong> expansão e sua respectiva quanti<strong>da</strong><strong>de</strong> absoluta k para a coleção 20NG. 724.4 Relação <strong>de</strong> abor<strong>da</strong>gens investigas nos experimentos realizados 754.5 Resultados máximos e mínimos <strong>de</strong> microF 1 para Reuters expandi<strong>da</strong> comw-conceitos e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>s coma utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 814.6 Resultados máximos e mínimos <strong>de</strong> macroF 1 para Reuters expandi<strong>da</strong> comw-conceitos e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>s coma utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 834.7 Resultados máximos e mínimos <strong>de</strong> microF 1 para Ohsumed expandi<strong>da</strong>com w-conceitos e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 834.8 Resultados máximos e mínimos <strong>de</strong> macroF 1 para Ohsumed expandi<strong>da</strong>com w-conceitos e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 844.9 Resultados máximos e mínimos <strong>de</strong> microF 1 para 20Newsgroups expandi<strong>da</strong>com w-conceitos e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 844.10 Resultados máximos e mínimos <strong>de</strong> macroF 1 para 20Newsgroups expandi<strong>da</strong>com w-conceitos e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 854.11 Resultados máximos e mínimos <strong>de</strong> microF 1 para Reuters expandi<strong>da</strong> comcategorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>s coma utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 89


4.12 Resultados máximos e mínimos <strong>de</strong> macroF 1 para Reuters expandi<strong>da</strong> comcategorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>s coma utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 904.13 Resultados máximos e mínimos <strong>de</strong> microF 1 para Ohsumed expandi<strong>da</strong>com categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 924.14 Resultados máximos e mínimos <strong>de</strong> macroF 1 para Ohsumed expandi<strong>da</strong>com categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 924.15 Resultados máximos e mínimos <strong>de</strong> microF 1 para 20Newsgroups expandi<strong>da</strong>com categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 934.16 Resultados máximos e mínimos <strong>de</strong> macroF 1 para 20Newsgroups expandi<strong>da</strong>com categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 934.17 Resultados máximos e mínimos <strong>de</strong> microF 1 para Reuters expandi<strong>da</strong> comw-conceitos + categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 964.18 Resultados máximos e mínimos <strong>de</strong> macroF 1 para Reuters expandi<strong>da</strong> comw-conceitos + categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 974.19 Resultados máximos e mínimos <strong>de</strong> macroF 1 para Ohsumed expandi<strong>da</strong>com w-conceitos + categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 994.20 Resultados máximos e mínimos <strong>de</strong> microF 1 para Ohsumed expandi<strong>da</strong>com w-conceitos + categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 1014.21 Resultados máximos e mínimos <strong>de</strong> microF 1 para 20Newsgroups expandi<strong>da</strong>com w-conceitos + categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> featureselection confronta<strong>da</strong>s com a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 1014.22 Resultados máximos e mínimos <strong>de</strong> macroF 1 para 20Newsgroups expandi<strong>da</strong>com w-conceitos + categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> featureselection confronta<strong>da</strong>s com a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos. 1014.23 Comparativo entre os melhores <strong>de</strong>sempenhos <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong>características para to<strong>da</strong>s as abor<strong>da</strong>gens. 103


IntroduçãoCAPÍTULO 11.1 ContextualizaçãoDes<strong>de</strong> o surgimento <strong>da</strong>s civilizações a organização <strong>da</strong> informação textual temsido uma preocupação dos seres humanos [3]. Com o passar do tempo a quanti<strong>da</strong><strong>de</strong><strong>de</strong> documentos textuais aumentou <strong>de</strong> forma consi<strong>de</strong>rável. A ativi<strong>da</strong><strong>de</strong> <strong>de</strong> organizardocumentos textuais em categorias ou classes é usualmente <strong>de</strong>nomi<strong>na</strong><strong>da</strong> classificação<strong>de</strong> textos ou ain<strong>da</strong>, categorização <strong>de</strong> textos.Até antes do surgimento dos computadores digitais a classificação <strong>de</strong> textosera uma tarefa essencialmente huma<strong>na</strong>. Um exemplo <strong>de</strong>sta ativi<strong>da</strong><strong>de</strong> está <strong>na</strong>classificação <strong>de</strong> livros em uma biblioteca. Os bibliotecários geralmente utilizam umaclassificação hierárquica, em que livros <strong>de</strong> uma mesma área do conhecimento humanosão colocados em um mesmo conjunto <strong>de</strong> estantes. Nas estantes, os livros sãoagrupados por subáreas e <strong>de</strong>ntro <strong>de</strong> uma subárea, os livros são geralmente agrupadospor or<strong>de</strong>m alfabética por nome <strong>de</strong> autor.Com o surgimento do computador digital, vários documentos foram digitalizadose outros criados diretamente em formato digital. De acordo com [52], ain<strong>da</strong> <strong>na</strong>déca<strong>da</strong> <strong>de</strong> 60 surgiram os primeiros esforços no sentido <strong>de</strong> automatizar a classificação<strong>de</strong> documentos digitais.Entretanto, até a déca<strong>da</strong> <strong>de</strong> 80 vigorava uma técnica semiautomática quese baseava em engenharia do conhecimento para classificação <strong>de</strong> documentos. Estatécnica consiste em <strong>de</strong>finir manualmente um conjunto <strong>de</strong> regras que codificam oconhecimento <strong>de</strong> um especialista sobre como classificar documentos em um conjunto<strong>de</strong> classes. As regras tinham a seguinte forma:se (fórmula FND ) então classesA fórmula FND (fórma normal disjuntiva) é um conjunto <strong>de</strong> operaçõesconjuntivas <strong>de</strong> cláusulas disjuntivas e serve para combi<strong>na</strong>r características <strong>de</strong> umdocumentos que são úteis para <strong>de</strong>termi<strong>na</strong>r se este documento pertence à classeindica<strong>da</strong> após o termo “ então” <strong>na</strong> regra. Esta abor<strong>da</strong>gem é semiautomática, porque


1.1 Contextualização 15uma vez que o conjunto <strong>de</strong> regras tenha sido gerado manualmente, ele po<strong>de</strong> sercodificado como um programa <strong>de</strong> computador, utilizando-se uma linguagem <strong>de</strong>programação. Este programa recebe como entra<strong>da</strong> documentos e aplica regras quepossuam as características presentes em um documento <strong>de</strong> entra<strong>da</strong> e utiliza asmesmas para <strong>de</strong>cidir a qual classe o documento pertence. Uma possibili<strong>da</strong><strong>de</strong> é utilizara classe que aparece <strong>na</strong> maioria <strong>da</strong>s regras aplicáveis ao documento.A abor<strong>da</strong>gem semiautomática <strong>de</strong> classificação <strong>de</strong> documentos tem umagran<strong>de</strong> limitação em relação à aquisição <strong>de</strong> conhecimento para a construção do classificador.Esta limitação está principalmente <strong>na</strong> necessi<strong>da</strong><strong>de</strong> <strong>de</strong> haver dois especialistashumanos necessários no processo: um especialista em classificar documentos no conjunto<strong>de</strong> classes pré-<strong>de</strong>finido e um engenheiro do conhecimento, capaz <strong>de</strong> codificar emuma linguagem <strong>de</strong> programação o conhecimento do especialista representado comoum conjunto <strong>de</strong> regras <strong>na</strong> forma FND. Claramente, esta abor<strong>da</strong>gem não é flexível,pois se houver alterações <strong>na</strong>s classes ou se surgir um novo conjunto <strong>de</strong> classes, osdois profissio<strong>na</strong>is <strong>de</strong>vem ser chamados para que outro programa classificador sejagerado.No início <strong>da</strong> déca<strong>da</strong> <strong>de</strong> 90 uma abor<strong>da</strong>gem completamente automática começoua ser utiliza<strong>da</strong> para classificar documentos, pelo menos, em nível <strong>de</strong> pesquisa acadêmica.A classificação automática <strong>de</strong> texto (CAT) utiliza técnicas <strong>de</strong> aprendizagempor máqui<strong>na</strong> ( do inglês, machine learning) para gerar um classificador automático.A aprendizagem por máqui<strong>na</strong> dispensa o especialista e o engenheiro <strong>de</strong> conhecimento<strong>na</strong> geração do classificador, mas requer um conjunto <strong>de</strong> documentos classificados manualmente,<strong>de</strong>nomi<strong>na</strong>do conjunto <strong>de</strong> treino. Técnicas que geralmente se baseiam emestatísticas e probabili<strong>da</strong><strong>de</strong>s são utiliza<strong>da</strong>s para gerar automaticamente um classificadorque é capaz <strong>de</strong> relacio<strong>na</strong>r um conjunto <strong>de</strong> características presentes nos váriosdocumentos do conjunto <strong>de</strong> treino com as classes <strong>de</strong>sses documentos.As técnicas <strong>de</strong> CAT por si mesmas <strong>de</strong>spertavam o interesse <strong>de</strong> pesquisadores,que tinham objetivo <strong>de</strong> <strong>de</strong>senvolver heurísticas mais eficazes para a CAT. Contudo,ain<strong>da</strong> <strong>na</strong> déca<strong>da</strong> <strong>de</strong> 90 um evento impulsionou ain<strong>da</strong> mais o interesse em pesquisasem CAT. Este evento correspon<strong>de</strong> ao surgimento <strong>da</strong> World Wi<strong>de</strong> Web (Web). AWeb não somente correspon<strong>de</strong> a uma gigantesca e dinâmica coleção não classifica<strong>da</strong><strong>de</strong> textos (hipertextos) e <strong>de</strong> objetos <strong>de</strong> outras mídias, como também influenciou osurgimento <strong>de</strong> aplicações e problemas que por si mesmos requerem o uso <strong>da</strong> CAT.Mais recentemente, a ampliação <strong>da</strong>s possibili<strong>da</strong><strong>de</strong>s <strong>de</strong> comunicação via Web(por meio <strong>de</strong> sítios <strong>de</strong> re<strong>de</strong>s sociais como Facebook, tweeter, etc) e a popularização docorreio eletrônico aumentaram ain<strong>da</strong> mais o número <strong>de</strong> aplicações <strong>de</strong> CAT <strong>na</strong> Web.Entre estas aplicações po<strong>de</strong>-se citar: filtragem <strong>de</strong> mensagens spam [51, 71], <strong>de</strong>tecção<strong>de</strong> conteúdo impróprio para menores <strong>de</strong> i<strong>da</strong><strong>de</strong> [8, 13, 21], classificação automática <strong>de</strong>


1.1 Contextualização 16documentos em bibliotecas digitais [1, 11] e aprendizagem automática <strong>de</strong> or<strong>de</strong><strong>na</strong>ção<strong>de</strong> documentos em máqui<strong>na</strong>s <strong>de</strong> busca [34].De acordo com Sebastiani [52], dois aspectos são observados, visando a avaliaro <strong>de</strong>sempenho <strong>de</strong> métodos <strong>de</strong> CAT : a eficácia e a eficiência <strong>da</strong> classificaçãoautomática. A eficácia correspon<strong>de</strong> à habili<strong>da</strong><strong>de</strong> <strong>de</strong> um classificador automático <strong>de</strong>cidircorretamente a classe <strong>de</strong> <strong>de</strong>termi<strong>na</strong>do documento. A eficiência, por sua vez,correspon<strong>de</strong> ao tempo gasto <strong>na</strong> classificação automática e po<strong>de</strong> ser avalia<strong>da</strong> <strong>de</strong> doismodos distintos. Um <strong>de</strong>les correspon<strong>de</strong> ao tempo gasto pelo método <strong>de</strong> aprendizagempara gerar um classificador com base <strong>na</strong>s características dos documentos <strong>de</strong>treino (eficiência do trei<strong>na</strong>mento). O outro modo correspon<strong>de</strong> ao tempo gasto peloclassificador gerado para <strong>de</strong>termi<strong>na</strong>r a classe <strong>de</strong> um documento não pertencente aoconjunto <strong>de</strong> treino (eficiência do classificador).Para se avaliar os aspectos <strong>de</strong> eficiência e eficácia, é necessário que setenha um conjunto <strong>de</strong> documentos não pertencentes ao conjunto <strong>de</strong> treino. Esseconjunto é <strong>de</strong>nomi<strong>na</strong>do conjunto <strong>de</strong> teste. A classe dos documentos do conjunto <strong>de</strong>teste é conheci<strong>da</strong> pela pessoa que avalia a classificação, mas não po<strong>de</strong> ser utiliza<strong>da</strong>como entra<strong>da</strong> ao processo <strong>de</strong> aprendizagem por máqui<strong>na</strong> que gera do classificadore também não po<strong>de</strong> ser utiliza<strong>da</strong> como informação <strong>de</strong> entra<strong>da</strong> ao classificador, parase garantir uma avaliação correta <strong>da</strong> classificaçãoQuanto às técnicas <strong>de</strong> aprendizado por máqui<strong>na</strong> para geração <strong>de</strong> classificadores,um vasto número <strong>de</strong> algoritmos tem sido propostos ao longo <strong>da</strong>s duas últimasdéca<strong>da</strong>s. Dentre eles po<strong>de</strong>-se citar o <strong>na</strong>ive bayes [36], k-vizinhos mais próximos (doinglês k-nearest neighbor) [60], máqui<strong>na</strong>s <strong>de</strong> vetor <strong>de</strong> suporte (do inglês support vectormachines) [25], algoritmo <strong>de</strong> aceleração (do inglês, boosting) [48] e algoritmos <strong>de</strong>aprendizado <strong>de</strong> regras (do inglês rule learning algorithms) [55].No entanto, apesar <strong>de</strong> todos os esforços no aperfeiçoamento <strong>de</strong> algoritmospara que estes consigam gerar classificadores eficazes, observa-se que a eficácia dosclassificadores também é fortemente <strong>de</strong>pen<strong>de</strong>nte <strong>da</strong> forma como os documentos sãorepresentados [54] [58] [19], ou seja, <strong>da</strong> quali<strong>da</strong><strong>de</strong> dos componentes textuais utilizadoscomo informações no processo <strong>de</strong> treino para a classificação. Estes elementossão <strong>de</strong>nomi<strong>na</strong>dos características dos documentos. As características mais comuns<strong>da</strong> CAT são os termos dos documentos. Dessa forma, quanto mais se utilizacaracterísticas relevantes para classificação <strong>na</strong> representação do documento, maioresserão as chances <strong>de</strong> se ter um aumento <strong>na</strong> eficácia do método.


1.2 Representação <strong>de</strong> Documentos 171.2 Representação <strong>de</strong> DocumentosOs métodos tradicio<strong>na</strong>is <strong>de</strong> CAT normalmente são baseados <strong>na</strong> representação<strong>de</strong> documentos utilizando a abor<strong>da</strong>gem <strong>de</strong> conjunto <strong>de</strong> palavras (BOW, do inglêsBag of Words) [22] [35] <strong>de</strong> forma que a classificação é basea<strong>da</strong> <strong>na</strong> presença ou <strong>na</strong>ausência <strong>de</strong> termos-chave <strong>na</strong> matriz documento-termos que representa ca<strong>da</strong> documento,como exposto por Sebastiani [52]. O motivo disso é a simplici<strong>da</strong><strong>de</strong>, eficiênciae relativa eficácia do paradigma BOW.No entanto, no método BOW, importantes relações semânticas entre os termoschave são <strong>de</strong>scarta<strong>da</strong>s [22]. Outro aspecto refere-se ao fato <strong>de</strong> que ao se visualizarum documento representado pelo método <strong>de</strong>scrito, a or<strong>de</strong>m exata dos termos é ignora<strong>da</strong>[18]. Como resultado do que foi exposto, se dois documentos utilizam diferentesconjuntos <strong>de</strong> palavras chave para <strong>de</strong>screver sobre um mesmo tópico os dois po<strong>de</strong>mser classificados como sendo <strong>de</strong> categorias diferentes, entretanto as palavras chaveutiliza<strong>da</strong>s por ambos são provavelmente sinônimas ou semanticamente associa<strong>da</strong>s <strong>de</strong>alguma outra forma [23]. Consequentemente, tais observações impulsio<strong>na</strong>ram as pesquisasem CAT <strong>de</strong> modo a buscar melhores representações para documentos <strong>de</strong> textoque conseguissem captar tais relacio<strong>na</strong>mentos e que contribuíssem com a eficácia doprocesso <strong>de</strong> classificação.Entre representações alter<strong>na</strong>tivas po<strong>de</strong>mos citar aquelas que utilizam característicasdo próprio texto, distintas dos termos, por exemplo: coocorrência sequencial<strong>de</strong> n termos (n-gramas) e coocorrências não sequenciais <strong>de</strong> n termos (conjuntos<strong>de</strong> termos – termsets) . Outros trabalhos têm explorado recursos externosao texto. Como exemplo, po<strong>de</strong>-se citar o crescente interesse em técnicas que trabalhamcom a geração <strong>de</strong> características (FG, do inglês Feature Generation ou FeatureConstruction) também conheci<strong>da</strong> por expansão <strong>de</strong> documentos (do inglês DocumentExpansion) ou enriquecimento <strong>de</strong> documentos (do inglês Document Enrichment),por meio do qual adicio<strong>na</strong>-se novos termos aos documentos, melhorando a representaçãoBOW através <strong>da</strong> inserção <strong>de</strong> características mais informativas <strong>na</strong> matrizdocumento-termos <strong>de</strong>ste [18].Diversos métodos que utilizam FG têm conseguido bons resultados em CATpor meio <strong>da</strong> extração <strong>de</strong> relações semânticas <strong>de</strong> sinonímia, polissemia, hiponímia 1 erelações associativas entre conceitos, presentes em Enciclopédias, Tesauros 2 , Pági<strong>na</strong>sWeb, <strong>de</strong>ntre outros [18, 19, 22, 63, 64].1 Relação semântica em que uma palavra está num plano hierárquico inferior a outra, umavez que a outra correspon<strong>de</strong> a uma categoria ou espécie que a inclui ao nível do significado. Ex:sardinha, salmão, carapau são hiponímias <strong>de</strong> peixe.2 Dicionário que registra uma lista <strong>de</strong> palavras que são associa<strong>da</strong>s semanticamente a outras,apresentando geralmente sinônimos e, algumas vezes, antônimos.


1.3 Problemas <strong>de</strong> Pesquisa e Objetivos 181.3 Problemas <strong>de</strong> Pesquisa e ObjetivosA <strong>Wikipédia</strong> é uma enciclopédia em formato digital composta por conceitose que faz uso extensivo <strong>de</strong> meta<strong>da</strong>dos para representar relacio<strong>na</strong>mentos entre taisconceitos. Como exemplos <strong>de</strong> meta<strong>da</strong>dos <strong>da</strong> <strong>Wikipédia</strong> po<strong>de</strong>-se citar: ligações <strong>de</strong>redirecio<strong>na</strong>mento (ou sinonímia) entre conceitos, ligações <strong>de</strong> categoria entre conceitos(hiponímia). Em trabalhos recentes, o uso <strong>de</strong> meta<strong>da</strong>dos <strong>da</strong> <strong>Wikipédia</strong> como fonteadicio<strong>na</strong>l <strong>de</strong> características, tem gerado uma melhor quali<strong>da</strong><strong>de</strong> <strong>na</strong> representaçãoBOW <strong>de</strong> documentos <strong>de</strong> coleções, conseguindo-se melhorar tarefas <strong>de</strong> agrupamento(do inglês, clustering) e <strong>de</strong> classificação <strong>de</strong> documentos [7, 50, 67].Entretanto, [64] reporta que a expansão <strong>de</strong> documentos utilizando relações<strong>de</strong> sinonímia <strong>de</strong> conceitos <strong>da</strong> <strong>Wikipédia</strong> gera gran<strong>de</strong> quanti<strong>da</strong><strong>de</strong> <strong>de</strong> ruídos 3 , oque <strong>de</strong>gra<strong>da</strong> a quali<strong>da</strong><strong>de</strong> <strong>da</strong> classificação quando compara<strong>da</strong> com a não expansão<strong>de</strong> características. Por outro lado, o uso <strong>de</strong> relações <strong>de</strong> hiponímia provin<strong>da</strong>s <strong>da</strong>scategorias dos conceitos <strong>da</strong> <strong>Wikipédia</strong> tem se mostrado útil para a CAT [19, 33,40, 62] , inclusive <strong>na</strong> expansão <strong>da</strong> representação <strong>de</strong> documentos [64]. Nos dois casosapresentados os autores não utilizam nenhum método <strong>de</strong> seleção <strong>de</strong> característica(do inglês, feature selection), a fim <strong>de</strong> selecio<strong>na</strong>r somente sinônimos e categorias quesejam mais relevantes ao processo <strong>de</strong> classificação automática <strong>de</strong> textos.O objetivo geral <strong>de</strong>sse trabalho é o <strong>de</strong> melhorar o processo <strong>de</strong> utilização<strong>de</strong> sinônimos e categorias extraídos <strong>da</strong> <strong>Wikipédia</strong> para o uso <strong>na</strong> expansão <strong>de</strong>características <strong>de</strong> documentos a serem classificados pelo processo <strong>de</strong> CAT. Com ointuito <strong>de</strong> alcançar o objetivo exposto, abor<strong>da</strong>mos 3 problemas <strong>de</strong> pesquisa, <strong>de</strong>scritosa seguir.Problema <strong>de</strong> Pesquisa 1 A aplicação <strong>de</strong> um método <strong>de</strong> seleção <strong>de</strong> característicasconsegue melhorar a eficácia <strong>da</strong> utilização <strong>da</strong>s relações <strong>de</strong> sinonímia e <strong>de</strong> categoriasprovin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> durante o processo <strong>de</strong> expansão <strong>de</strong> documentos, reduzindo ainserção <strong>de</strong> ruídos e potencializando a adição <strong>de</strong> características boas discrimi<strong>na</strong>doras<strong>de</strong> classes?Em relação à questão acima, as hipóteses são que a utilização <strong>de</strong> métodos<strong>de</strong> seleção <strong>da</strong>s características po<strong>de</strong> reduzir a inserção <strong>de</strong> ruídos provenientes doprocesso <strong>de</strong> expansão <strong>de</strong> documentos com características provin<strong>da</strong>s <strong>de</strong> conceitossinônimos extraídos <strong>da</strong> <strong>Wikipédia</strong>, tor<strong>na</strong>ndo-os úteis ao processo <strong>de</strong> classificaçãotextual. Também acredita-se que a seleção <strong>de</strong> características consiga melhoraros resultados obtidos com a expansão <strong>de</strong> documentos por categorias diretas dos3 Neste contexto, os ruídos são características que atrapalham a classificação correta <strong>de</strong> umdocumento.


1.3 Problemas <strong>de</strong> Pesquisa e Objetivos 19conceitos provindos <strong>da</strong> mesma enciclopédia. Para confirmar ou refutar as hipóteses,foi <strong>de</strong>finido o seguinte objetivo <strong>de</strong>corrente do Problema <strong>de</strong> Pesquisa 1:• Melhorar a eficácia <strong>da</strong> CAT utilizando expansão <strong>de</strong> documentos em conjuntocom medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características, visando a enriquecer a representaçãoBOW <strong>de</strong> documentos por meio dos conceitos sinônimos e <strong>da</strong>s categorias dosconceitos sinônimos, ambos provenientes <strong>da</strong> <strong>Wikipédia</strong>.O objetivo <strong>de</strong>corrente do Problema <strong>de</strong> Pesquisa 1 possui os seguintesobjetivos específicos:• Avaliar a eficácia <strong>da</strong> utilização <strong>de</strong> seleção <strong>de</strong> características durante a expansão<strong>de</strong> documentos utilizando ape<strong>na</strong>s conceitos sinônimos <strong>da</strong> <strong>Wikipédia</strong> e quecoocorrem nos documentos a serem classificados.• Avaliar a eficácia <strong>da</strong> utilização <strong>de</strong> seleção <strong>de</strong> características durante a expansão<strong>de</strong> documentos utilizando ape<strong>na</strong>s categorias dos conceitos sinônimos <strong>da</strong><strong>Wikipédia</strong> e que coocorrem nos documentos a serem classificados.• Avaliar a eficácia <strong>da</strong> utilização <strong>de</strong> seleção <strong>de</strong> características durante a expansão<strong>de</strong> documentos utilizando conceitos sinônimos juntamente com as categoriasdos conceitos sinônimos <strong>da</strong> <strong>Wikipédia</strong> e que coocorrem nos documentos a seremclassificados.Problema <strong>de</strong> Pesquisa 2 A utilização <strong>de</strong> uma medi<strong>da</strong> <strong>de</strong> avaliação <strong>de</strong> termos quepontue positivamente a abundância <strong>de</strong> uma característica <strong>na</strong> classe a qual pertenceo documento <strong>de</strong> treino a ser expandido e utilize como pe<strong>na</strong>lização a abundânciarelativa <strong>de</strong>sta mesma característica <strong>na</strong>s outras classes <strong>da</strong> coleção, po<strong>de</strong> se mostrarcomo opção competitiva <strong>na</strong> seleção <strong>de</strong> características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> <strong>na</strong>forma <strong>de</strong> conceitos sinônimos e categorias?Neste trabalho é proposta uma medi<strong>da</strong> <strong>de</strong> avaliação <strong>de</strong> termos para seleção<strong>de</strong> características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> <strong>de</strong>nomi<strong>na</strong><strong>da</strong> Fator <strong>de</strong> Tendência a umaCategoria (FT1C). Por meio <strong>de</strong>sta medi<strong>da</strong>, quanto maior for a abundância <strong>de</strong> umacaracterística t i em uma categoria c j pertencente ao conjunto <strong>de</strong> categorias C, emenor o valor <strong>da</strong> abundância <strong>de</strong> t i <strong>na</strong>s <strong>de</strong>mais categorias <strong>de</strong> C, maior será o fatorFT1C <strong>de</strong> t i em c j . Por outro lado, quanto menor a abundância <strong>de</strong> t i em c j , e quantomaior a abundância <strong>de</strong> t i <strong>na</strong>s <strong>de</strong>mais categorias <strong>de</strong> C, menor será o fator <strong>de</strong> tendênciaa uma classe FT1C <strong>de</strong> t i em c j . A medi<strong>da</strong> FT1C será vista com <strong>de</strong>talhes <strong>na</strong> Seção3.2Em relação à questão apresenta<strong>da</strong> pelo Problema <strong>de</strong> Pesquisa 2, a hipóteseé que a utilização <strong>da</strong> medi<strong>da</strong> <strong>de</strong> avaliação FT1C possibilite avaliar bem as característicasboas discrimi<strong>na</strong>doras <strong>de</strong> classes, assim como imprimir um menor valor para


1.3 Problemas <strong>de</strong> Pesquisa e Objetivos 20características pouco relevantes para o processo <strong>de</strong> classificação e gerando boa estabili<strong>da</strong><strong>de</strong>ao processo <strong>de</strong> enriquecimento com características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>.Espera-se que o método se a<strong>da</strong>pte bem às gran<strong>de</strong>s variações <strong>na</strong> distribuição <strong>de</strong> documentospelas diversas classes <strong>da</strong> coleção. Para confirmar ou refutar a hipótese foi<strong>de</strong>finido o seguinte objetivo <strong>de</strong>corrente do Problema <strong>de</strong> Pesquisa 2:• Comparar a eficácia <strong>da</strong> medi<strong>da</strong> <strong>de</strong> avaliação <strong>de</strong> termos FT1C durante oprocesso <strong>de</strong> seleção <strong>de</strong> características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>, confrontando-acom outras já consoli<strong>da</strong><strong>da</strong>s <strong>na</strong> literatura.O objetivo <strong>de</strong>corrente do Problema <strong>de</strong> Pesquisa 2 possui os seguintesobjetivos específicos:• Avaliar os melhores ganhos obtidos por meio <strong>da</strong> expansão <strong>de</strong> documentos comcaracterísticas provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> as quais foram selecio<strong>na</strong><strong>da</strong>s por meio<strong>da</strong> medi<strong>da</strong> FT1C, comparando-a com os ganhos obtidos com a utilização <strong>da</strong>smedi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características Information Gain, Gain Ration e Chisquared.• Comparar a estabili<strong>da</strong><strong>de</strong> <strong>da</strong> medi<strong>da</strong> <strong>de</strong> seleção FT1C, com as medi<strong>da</strong>s InformationGain, Gain Ration e Chi-squared, quando utiliza<strong>da</strong>s no processo <strong>de</strong>seleção <strong>de</strong> características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>.Além <strong>de</strong> a<strong>na</strong>lisar a aplicação <strong>de</strong> métodos <strong>de</strong> seleção <strong>de</strong> característicascomo exposto pelo Problema <strong>de</strong> Pesquisa 1, e comparar a medi<strong>da</strong> proposta paraavaliação <strong>de</strong> característica com outras medi<strong>da</strong>s já consagra<strong>da</strong>s <strong>na</strong> literatura comoexpla<strong>na</strong>do pelo Problema <strong>de</strong> Pesquisa 2, avalia-se também o método <strong>de</strong> utilização<strong>da</strong>s características eleitas pelo processo <strong>de</strong> seleção <strong>de</strong> características.Ao aplicar um método <strong>de</strong> seleção <strong>de</strong> característica, po<strong>de</strong>-se utilizar umafiltragem adicio<strong>na</strong>l, para a qual uma característica só será utiliza<strong>da</strong> <strong>na</strong> expansão<strong>de</strong> um documento d k se tal característica obtiver um valor mínimo <strong>na</strong> medi<strong>da</strong> <strong>de</strong>seleção <strong>de</strong> característica para classe c j e d k esteja entre o conjunto <strong>de</strong> documentospertencentes a c j , como em [14]. O presente trabalho utiliza a referi<strong>da</strong> abor<strong>da</strong>gem<strong>de</strong> restrição <strong>de</strong> classe (CRC) e levanta o Problema <strong>de</strong> Pesquisa 3:Problema <strong>de</strong> Pesquisa 3 A utilização <strong>de</strong> um método o qual permita a expansão<strong>de</strong> documentos somente com características bem avalia<strong>da</strong>s <strong>na</strong> classe do documento <strong>de</strong>treino a ser expandido, po<strong>de</strong>ria aumentar a eficácia <strong>da</strong> classificação <strong>de</strong> documentosenriquecidos com características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>?Com relação a questão acima, a hipótese é que assim como no trabalho<strong>de</strong> [14], a restrição apresenta<strong>da</strong> pelo Problema <strong>de</strong> Pesquisa 3 consiga melhorar


1.4 Principais contribuições do Trabalho 21a quali<strong>da</strong><strong>de</strong> <strong>da</strong>s características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> e utiliza<strong>da</strong>s <strong>na</strong> expansão<strong>de</strong> documentos. Com o uso <strong>de</strong>sta restrição (CRC), espera-se que característicasprovin<strong>da</strong>s <strong>da</strong> referi<strong>da</strong> enciclopédia e que são boas discrimi<strong>na</strong>doras <strong>de</strong> uma classec k não sejam utiliza<strong>da</strong>s para enriquecer um documento pertencente a uma classe c j ,melhorando a eficácia <strong>da</strong> CAT. Com o intuito <strong>de</strong> confirmar ou refutar a supracita<strong>da</strong>hipótese, foi <strong>de</strong>finido o seguinte objetivo <strong>de</strong>corrente do Problema <strong>de</strong> Pesquisa 3:• Avaliar o <strong>de</strong>sempenho <strong>da</strong> utilização <strong>da</strong> metodologia <strong>de</strong> expansão com restrição<strong>de</strong> classe CRC após a aplicação <strong>de</strong> um método <strong>de</strong> seleção <strong>de</strong> características,confrontando seus resultados com os obtidos sem o uso <strong>de</strong>sta restrição <strong>de</strong> classe,referencia<strong>da</strong> como abor<strong>da</strong>gem SRC.Especificamente, objetiva-se avaliar a eficácia <strong>da</strong> CAT ao se utilizar asmedi<strong>da</strong>s <strong>de</strong> avaliação <strong>de</strong> termos FT1C, Information Gain, Gain Ratio, Chi-squared,em conjunto com as metodologias CRC e SRC, po<strong>de</strong>ndo <strong>de</strong> forma empírica constataro <strong>de</strong>sempenho <strong>de</strong> ca<strong>da</strong> abor<strong>da</strong>gem nos diversos ambientes experimentais.Com o intuito <strong>de</strong> avaliar a quali<strong>da</strong><strong>de</strong> <strong>da</strong>s abor<strong>da</strong>gens propostas, o algoritmo<strong>de</strong> classificação SVM (do inglês, Support Vector Machine) [61] foi aplicado <strong>na</strong>scoleções Reuters, Ohsumed e 20Newsgroups. Dessa forma, foram coletados osresultados antes e após a geração <strong>de</strong> características nestas coleções <strong>de</strong> <strong>da</strong>dos.Escolheu-se o SVM por ser um <strong>da</strong>s técnicas <strong>de</strong> aprendizado <strong>de</strong> máqui<strong>na</strong> que geraclassificadores mais eficazes para CAT [16, 26, 64, 14].1.4 Principais contribuições do TrabalhoO presente trabalho tem as seguintes contribuições para a CAT:• Comprovação <strong>da</strong> eficácia <strong>da</strong> utilização <strong>de</strong> métodos <strong>de</strong> seleção <strong>de</strong> característicaspara melhorar a eficácia do uso <strong>da</strong>s relações <strong>de</strong> sinonímia e <strong>de</strong> categoriasprovin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> durante o processo <strong>de</strong> expansão <strong>de</strong> documentos paramelhoria <strong>da</strong> CAT.• Demonstração experimental <strong>de</strong> que os conceitos sinônimos extraídos <strong>da</strong> <strong>Wikipédia</strong>são <strong>de</strong> gran<strong>de</strong> importância para a melhoria <strong>da</strong> CAT, <strong>de</strong>s<strong>de</strong> que sejaaplicado um método que selecione as características mais significativas, contrariandoa afirmativa <strong>de</strong> [64] sobre a má quali<strong>da</strong><strong>de</strong> <strong>de</strong>stes elementos paramelhorar o processo <strong>de</strong> classificação automática <strong>de</strong> documentos.• Demonstração experimental <strong>de</strong> que o uso <strong>da</strong>s categorias extraí<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>geram melhor eficácia à CAT quando aplicado um método que selecione ascaracterísticas mais significativas.


1.5 Organização do Trabalho 22• Proposição e análise <strong>de</strong> uma medi<strong>da</strong> <strong>de</strong> avaliação <strong>de</strong> características <strong>de</strong>nomi<strong>na</strong><strong>da</strong>FT1C para a seleção <strong>de</strong> características <strong>da</strong> <strong>Wikipédia</strong>. A FT1C se posicionoucomo opção competitiva para o processo <strong>de</strong> seleção <strong>de</strong> características provin<strong>da</strong>s<strong>da</strong> <strong>Wikipédia</strong> particularmente quando compara<strong>da</strong> com às medi<strong>da</strong>s InformationGain, Gain Ratio, e Chi-squared. Comprovou-se experimentalmente a melhorestabili<strong>da</strong><strong>de</strong> <strong>da</strong> medi<strong>da</strong> <strong>de</strong> avaliação <strong>de</strong> características FT1C frente às <strong>de</strong>maismedi<strong>da</strong>s avalia<strong>da</strong>s, quando aplica<strong>da</strong> às versões uni-rótulo <strong>da</strong>s coleções Reuters-21578, Ohsumed first-20000 e 20Newsgroups - All 20000 documents.• Realização <strong>de</strong> um estudo comparativo e conclusivo sobre a eficácia e estabili<strong>da</strong><strong>de</strong><strong>da</strong> expansão <strong>de</strong> documentos utilizando a abor<strong>da</strong>gem sem restrição <strong>de</strong>classe (SRC), quando comparado à abor<strong>da</strong>gem com restrição <strong>de</strong> classe (CRC).A utilização <strong>de</strong> nossas abor<strong>da</strong>gens, proporcionou bons resultados <strong>na</strong> melhoria<strong>da</strong> CAT, principalmente <strong>na</strong> coleção Ohsumed first-20000, para a qual obteve-seum ganho <strong>de</strong> 7, 67% <strong>na</strong> medi<strong>da</strong> microF 1 e 15, 08% <strong>na</strong> medi<strong>da</strong> macroF 1 . Dadoque esta coleção é reconheci<strong>da</strong> por sua dificul<strong>da</strong><strong>de</strong> <strong>de</strong> classificação, tais ganhosse mostram ain<strong>da</strong> mais significativos. Todos os experimentos foram realizadossobre o classificador SVM, o qual <strong>na</strong> maioria dos casos eleva a linha-baseutiliza<strong>da</strong>, provin<strong>da</strong> <strong>da</strong> representação BOW. Dessa forma, mesmo os menoresganhos obtidos po<strong>de</strong>m ser consi<strong>de</strong>rados como importantes.1.5 Organização do TrabalhoO Capítulo 2 apresenta uma revisão bibliográfica dos conceitos e técnicasdiversas utilizados no <strong>de</strong>correr <strong>de</strong>ste trabalho, assim como são apresentados ostrabalhos que possuem correlação direta com o tema abor<strong>da</strong>do. No Capítulo 3são apresentados a abor<strong>da</strong>gem proposta pelo corrente trabalho para a extração<strong>de</strong> características <strong>da</strong> enciclopédia <strong>Wikipédia</strong> e seu uso <strong>na</strong> CAT. É apresenta<strong>da</strong>ain<strong>da</strong> a medi<strong>da</strong> proposta para seleção <strong>de</strong> características (FT1C), e a metodologia<strong>de</strong> expansão <strong>de</strong> características sem restrição <strong>de</strong> classe (SRC) e com restrição<strong>de</strong> classe (CRC). A<strong>de</strong>mais, também são discutidos alguns <strong>de</strong>talhes pertinentes àimplementação <strong>de</strong>ssas abor<strong>da</strong>gens. O Capítulo 4 apresenta os resultados alcançadoscom a utilização <strong>da</strong> medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica FT1C, confrontando seusresultados com outras três medi<strong>da</strong>s consoli<strong>da</strong><strong>da</strong>s <strong>na</strong> literatura. Também comparaseeficácia <strong>da</strong>s metodologias <strong>de</strong> expansão <strong>de</strong> características CRC e SRC ao seremaplica<strong>da</strong>s após a etapa <strong>de</strong> seleção <strong>de</strong> características. Por fim, o Capítulo 5 apresentaas conclusões acerca dos resultados obtidos com o trabalho, assim como propõepossíveis trabalhos futuros.


Revisão BibliográficaCAPÍTULO 2Este capítulo abor<strong>da</strong> conceitos e técnicas diversas utilizados no <strong>de</strong>correr<strong>de</strong>ste trabalho. A Seção 2.1 apresenta o mo<strong>de</strong>lo VSM do inglês, Vector Space Mo<strong>de</strong>lpara a representação textual. Na Seção 2.2 são introduzidos os conceitos referentesao mo<strong>de</strong>lo baseado em grafos para representação <strong>de</strong> documentos. A Seção 2.3apresenta as principais características <strong>da</strong> Enciclopédia <strong>Wikipédia</strong>, incluindo <strong>de</strong>talhes<strong>da</strong> linguagem <strong>de</strong> marcação Wiki Markup que forem pertinentes ao presente trabalho.A Seção 2.4 apresenta as teorias relacio<strong>na</strong><strong>da</strong>s à área <strong>de</strong> classificação automática <strong>de</strong>documentos utilizando aprendizado <strong>de</strong> máqui<strong>na</strong>s, classificação uni-classe e multiclasse,apresenta a teoria introdutória sobre o algoritmo <strong>de</strong> classificação SVM, além<strong>de</strong> introduzir os conceitos relacio<strong>na</strong>dos aos métodos <strong>de</strong> avaliação no que tangeà classificação <strong>de</strong> documentos. Por fim, <strong>na</strong> Seção 2.5 são discutidos os trabalhosrelacio<strong>na</strong>dos ao tema proposto pelo presente estudo.2.1 O Mo<strong>de</strong>lo Espaço VetorialDurante o processo <strong>de</strong> classificação textual, o primeiro e vital passo é arepresentação textual a qual converte o conteúdo <strong>de</strong> um documento <strong>de</strong> texto em umformato compacto <strong>de</strong> modo que o mesmo possa ser i<strong>de</strong>ntificado e classificado por umcomputador ou classificador. Neste contexto, o Mo<strong>de</strong>lo Espaço Vetorial (VSM, doinglês Vector Space Mo<strong>de</strong>l) consiste em um mo<strong>de</strong>lo algébrico para a representação<strong>de</strong> textos, por meio do qual documentos e consultas são representados como vetorescompostos por termos [28] [47] [58]. Este tipo <strong>de</strong> representação é largamenteutilizado em Recuperação <strong>de</strong> Informação, tanto em tarefas <strong>de</strong> recuperação textual eor<strong>de</strong><strong>na</strong>ção <strong>de</strong> documentos por relevância (do inglês, ranking), quanto em tarefas<strong>de</strong> classificação <strong>de</strong> documentos. A utilização <strong>da</strong> representação por vetor tor<strong>na</strong>possível o uso <strong>de</strong> qualquer operação algébrica aplicável a este tipo <strong>de</strong> estrutura,possibilitando comparar consultas com documentos, ou comparar a semelhança entredois documentos, como exposto por Salton [46] [35], razões pelas quais neste trabalhooptou-se por utilizar este tipo <strong>de</strong> representação.


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 242.1.1 Representação <strong>de</strong> características <strong>de</strong> documentosTermos, também chamados <strong>de</strong> características (do inglês features) [52], sãouni<strong>da</strong><strong>de</strong>s in<strong>de</strong>xáveis usa<strong>da</strong>s para i<strong>de</strong>ntificar o conteúdo do documento <strong>de</strong> texto,po<strong>de</strong>ndo ser <strong>de</strong>scritos em vários níveis <strong>de</strong> granulari<strong>da</strong><strong>de</strong>, como sílabas, uma palavra(uni-gramas), várias palavras (bigramas, trigramas ou n-gramas, <strong>de</strong> forma maisgeral), frases, ou qualquer outra uni<strong>da</strong><strong>de</strong> semântica e/ou sintática mais elabora<strong>da</strong>[28].A representação <strong>de</strong> características mais utiliza<strong>da</strong> <strong>na</strong> CAT, também conheci<strong>da</strong>como representação do conjunto <strong>de</strong> termos, ou também como BOW (do inglês,bag of words), consi<strong>de</strong>ra ape<strong>na</strong>s palavras como termos. No entanto, esta abor<strong>da</strong>gem<strong>de</strong>sconsi<strong>de</strong>ra importantes relações semânticas entre os termos [22] [64]. De fato,elementos como “Casa Branca” ou “Bill Gates” são representa<strong>da</strong>s no BOW como palavras<strong>de</strong>sassocia<strong>da</strong>s. Ao se a<strong>na</strong>lisar a representação BOW <strong>de</strong> um <strong>da</strong>do documentono qual ocorrem as palavras Bill e Gates, po<strong>de</strong>ria-se sugerir que tal documento trata<strong>de</strong> assuntos como contabili<strong>da</strong><strong>de</strong> <strong>de</strong>vido à palavra Bill (que significa conta, em inglês)ou sobre construções <strong>de</strong>vido à palavra Gates (que significa portões, em inglês), <strong>de</strong>forma que seria muito difícil associá-lo a programas <strong>de</strong> computadores. Entretanto,se a representação do mesmo documento contiver o conjunto <strong>de</strong> palavras “Bill Gates“como sendo um termo, dificilmente o leitor confundiria o tema tratado pelodocumento [4].Com a intenção <strong>de</strong> encontrar uma representação que conseguisse expressar<strong>de</strong> forma mais correta os conceitos tratados em um texto, Lewis [29], utilizou umparser para criar frases sintáticas como termos in<strong>de</strong>xáveis. Tais frases correspon<strong>de</strong>ma pares <strong>de</strong> palavras que mantêm algum dos muitos específicos relacio<strong>na</strong>mentos sintáticosno documento origi<strong>na</strong>l. Como exemplo po<strong>de</strong>-se citar o verbo e o substantivochave <strong>de</strong> algum assunto, substantivo e adjetivo, etc. De maneira intuitiva, a utilização<strong>de</strong> frases contribui para a redução <strong>de</strong> incertezas no significado <strong>de</strong> palavras. Comoexemplo po<strong>de</strong>-se perceber que em “java Script” o significado <strong>da</strong> palavra java só po<strong>de</strong>ser “um tipo <strong>de</strong> linguagem <strong>de</strong> programação” evitando que a palavra seja confundi<strong>da</strong>com a ilha <strong>da</strong> Indonésia também <strong>de</strong> nome java. Entretanto, existe um número muitogran<strong>de</strong> <strong>de</strong> frases distintas <strong>na</strong>s coleções, porém a frequência <strong>de</strong> ca<strong>da</strong> frase é peque<strong>na</strong>,limitando a contribuição <strong>de</strong>ste tipo <strong>de</strong> representação. Outro ponto relevante é o fato<strong>de</strong> que a representação por frases sintáticas é altamente redun<strong>da</strong>nte, ou seja, há umgran<strong>de</strong> número <strong>de</strong> frases que possuem essencialmente o mesmo significado. Alémdisso, esse tipo <strong>de</strong> representação tem se mostrado muito ruidosa.Vários trabalhos <strong>de</strong>mostraram que o uso <strong>de</strong> frases como características possuieficácia inferior quando se comparado à representação BOW ape<strong>na</strong>s com termos[2] [30] [31]. As razões dos resultados ruins para esta abor<strong>da</strong>gem foram apresenta<strong>da</strong>s


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 25por [31] o qual constatou que a peque<strong>na</strong> ocorrência <strong>de</strong> frases semanticamente distintasalia<strong>da</strong> à alta dimensio<strong>na</strong>li<strong>da</strong><strong>de</strong> do espaço e <strong>da</strong> alta taxa <strong>de</strong> sinônimos superaramas vantagens que elas ten<strong>de</strong>riam a introduzir para representar textos.Muitos esforços têm sido realizados visando a contor<strong>na</strong>r os possíveis problemasapresentados no uso <strong>de</strong> frases e alguns trabalhos têm gerado resultados quemostram que a adição <strong>de</strong> n-gramas (sequência <strong>de</strong> n palavras) tem melhorado o processo<strong>de</strong> CAT, quando comparado com a representação BOW, conforme exposto porTan [59].A representação BOW po<strong>de</strong> ser enriqueci<strong>da</strong> criando novos termos formadospor n-gramas cujas palavras formadoras já ocorrem <strong>na</strong> representação <strong>de</strong> conjunto <strong>de</strong>termos, como exposto por Mla<strong>de</strong>nic [41] e Tan [59]. Neste método, adicio<strong>na</strong>m-se àrepresentação BOW já existente, tanto os n-gramas como as palavras que os formam,<strong>de</strong> modo a enriquecer a representação BOW. Outra forma <strong>de</strong> utilização dos n-gramasé a sua adição à representação BOW, porém as palavras que aju<strong>da</strong>m a compor osn-gramas não são incluí<strong>da</strong>s. Tan [59] a<strong>na</strong>lisou ambas as abor<strong>da</strong>gens <strong>de</strong>monstrandoque a não utilização dos termos formadores dos n-gramas, <strong>na</strong> maioria dos casos<strong>de</strong>gra<strong>da</strong> o <strong>de</strong>sempenho <strong>da</strong> BOW, enquanto que a utilização <strong>de</strong>stes elementos po<strong>de</strong>,potencialmente, melhorar os resultados <strong>da</strong> CAT.Neste trabalho, utiliza-se a representação BOW enriqueci<strong>da</strong> com unigramas,bigramas e trigramas oriundos <strong>da</strong> <strong>Wikipédia</strong>. Dessa forma, tanto os n-gramas quantoas palavras que formam os mesmos, estão presentes <strong>na</strong> representação BOW. Mais<strong>de</strong>talhes sobre o modo como os n-gramas são i<strong>de</strong>ntificados, serão mostrados <strong>na</strong>sseções seguintes.In<strong>de</strong>pen<strong>de</strong>nte <strong>da</strong> granulari<strong>da</strong><strong>de</strong> utiliza<strong>da</strong> <strong>na</strong> representação <strong>da</strong>s características,ou seja, tanto no uso <strong>de</strong> uma palavra ou n-gramas, ca<strong>da</strong> termo distinto seposicio<strong>na</strong> como um item do conjunto <strong>de</strong> termos T (também <strong>de</strong>nomi<strong>na</strong>do vocabulário)<strong>da</strong> coleção <strong>de</strong> documentos. Nesse sentido, o conjunto <strong>de</strong> documentos D <strong>de</strong> umacoleção são representados no VSM como pontos em um espaço euclidiano multidimensio<strong>na</strong>l,no qual ca<strong>da</strong> dimensão correspon<strong>de</strong> a um termo distinto <strong>de</strong>ssa coleção.Por este motivo diz-se que o vocabulário <strong>de</strong>fine um espaço vetorial |T |-dimensio<strong>na</strong>le ca<strong>da</strong> documento é representado com um vetor neste espaço.[52]. Na Seção 2.1.4será mostrado como quantificar a importância <strong>de</strong> ca<strong>da</strong> termo para ca<strong>da</strong> documento.2.1.2 Termos não discrimi<strong>na</strong>tivosDurante o processo <strong>de</strong> representação <strong>de</strong> documentos, um dos procedimentosque visam a melhoria do conjunto <strong>de</strong> características utiliza<strong>da</strong>s é a remoção <strong>de</strong> termosque não colaboram com o processo <strong>de</strong> classificação. Palavras que são extremamentecomuns não trazem nenhuma melhoria para a CAT [35]. Como exemplo po<strong>de</strong>-se citar


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 26artigos, advérbios, conjunções e qualquer outro elemento os quais não caracterizamnenhum tópico específico, pois seu uso é ape<strong>na</strong>s funcio<strong>na</strong>l para a a<strong>de</strong>quação às regrassintáticas <strong>da</strong> língua.O conjunto <strong>de</strong> palavras que possuem estas características é <strong>de</strong>nomi<strong>na</strong>do <strong>de</strong>lista <strong>de</strong> exclusão (do inglês, stop list), assim como as palavras que fazem parte <strong>de</strong>steconjunto são <strong>de</strong>nomi<strong>na</strong><strong>da</strong>s <strong>de</strong> palavras <strong>de</strong> exclusão (do inglês, stop words). Taiselementos po<strong>de</strong>m ser removidos do vocabulário <strong>da</strong> coleção sem que haja prejuízopara a CAT. Ca<strong>da</strong> idioma possui sua própria stop list, ca<strong>da</strong> qual po<strong>de</strong>ndo conteradjetivos, pronomes, advérbios, verbos comuns, substantivos comuns, etc. Palavrasque apresentam uma gran<strong>de</strong> incidência em uma <strong>de</strong>termi<strong>na</strong><strong>da</strong> coleção também po<strong>de</strong>mser incluí<strong>da</strong>s <strong>na</strong> stop list utiliza<strong>da</strong> durante a classificação <strong>da</strong> mesma. Entretanto, aexclusão <strong>de</strong> stop words nem sempre é utiliza<strong>da</strong>. Há casos em que utiliza-se a pesquisapor frases, em que todos os termos <strong>de</strong>vem ser in<strong>de</strong>xados <strong>de</strong> forma que se saibainclusive a posição em que os mesmos ocorrem [35].2.1.3 Expansão <strong>de</strong> características <strong>de</strong> documentosOs métodos que adicio<strong>na</strong>m novas características com o objetivo <strong>de</strong> melhorara representação BOW <strong>de</strong> documentos têm mostrado gran<strong>de</strong> potencial <strong>na</strong> melhoria<strong>da</strong> classificação automática <strong>de</strong> textos. Tais métodos se apoiam <strong>na</strong> geração <strong>de</strong>características (FG, do inglês Feature Generation ou Feature Construction) por meiodo qual é possível a expansão <strong>de</strong> documentos (do inglês Document Expansion) ouenriquecimento <strong>de</strong> documentos (do inglês Document Enrichment), adicio<strong>na</strong>ndo-senovos termos aos documentos, <strong>de</strong> forma a melhorar a representação BOW através<strong>da</strong> inserção <strong>de</strong> características mais informativas <strong>na</strong> matriz documento-termos [18].A Expansão <strong>de</strong> características <strong>de</strong> documentos po<strong>de</strong> ser realiza<strong>da</strong> <strong>de</strong> diversasformas, utilizando tanto elementos disponíveis <strong>de</strong>ntro do próprio documento ecoleção, como abor<strong>da</strong>do por [14] [17] [41] ou por meio <strong>da</strong> utilização <strong>de</strong> fontes exter<strong>na</strong>s<strong>de</strong> informações (do inglês, exter<strong>na</strong>l corpus) como realizado por [18] [23] [33] [64].2.1.4 Medi<strong>da</strong>s <strong>de</strong> importância dos termosNo mo<strong>de</strong>lo espaço vetorial, uma coleção D <strong>de</strong> documentos é <strong>da</strong><strong>da</strong> porD = {d 1 , d 2 , ..., d |D| } on<strong>de</strong> |D| representa o total <strong>de</strong> documentos distintos em to<strong>da</strong> acoleção. Por sua vez, o vocabulário T <strong>de</strong> todos os termos distintos que aparecem nosdocumentos <strong>de</strong> D é o conjunto <strong>da</strong>do por T = {t 1 , t 2 , ...t |T | } on<strong>de</strong> |T | é a quanti<strong>da</strong><strong>de</strong>total <strong>de</strong> termos distintos que ocorrem no vocabulário <strong>da</strong> coleção. Diferentes termospossuem diferentes graus <strong>de</strong> importância para o texto do documento, <strong>de</strong> modo que,para todo par (t i , d j ), em que t i ∈ T e d j ∈ D, associa-se um peso w ij . O Peso


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 27w ij visa a expressar o quanto o termo t i contribui com o significado semântico dodocumento d j . Dessa forma, um documento d j é representado como um vetor <strong>de</strong>pesos <strong>de</strong> termos, sendo d j = ( w 1j , w 2j , ...w |T |j)[28] [35] [45] [46] [47].Na abor<strong>da</strong>gem VSM, uma coleção <strong>de</strong> documentos (também chama<strong>da</strong> <strong>de</strong>corpus) é mapea<strong>da</strong> como uma matriz documento-termo M, <strong>na</strong> qual ca<strong>da</strong> linharepresenta um documento d j do conjunto <strong>de</strong> documentos D e ca<strong>da</strong> colu<strong>na</strong> representaum termo t i do conjunto <strong>de</strong> todos os termos distintos T presentes <strong>na</strong> coleção. Ca<strong>da</strong>posição (j, i) representa<strong>da</strong> nesta matriz equivale ao peso para ca<strong>da</strong> termo em ca<strong>da</strong>documento [57], conforme ilustrado <strong>na</strong> equação 2-1:M(D, T ) =⎛⎜⎝w(t 1 , d 1 ) . . . w(t |T | , d 1 ).. .. .w(t 1 , d |D| ) . . . w(t |T | , d |D| )⎞⎟⎠ (2-1)A partir <strong>da</strong> Matriz documento-termo M, é possível construir a matriz termodocumentoM ′ a qual mapeia, para ca<strong>da</strong> termo, qual o peso <strong>da</strong>do a este em ca<strong>da</strong>documento. A matriz termo-documento é particularmente útil <strong>na</strong> criação <strong>de</strong> umíndice <strong>de</strong> consultas por termos, o qual também é conhecido como índice invertido.O método <strong>de</strong> atribuição <strong>de</strong> pesos a termos é um procedimento <strong>de</strong> extremaimportância no intuito <strong>de</strong> melhorar a eficácia <strong>da</strong> CAT. Para tanto, é necessário queseja atribuído a ca<strong>da</strong> termo um peso que <strong>de</strong> fato correspon<strong>da</strong> à sua importância noprocesso <strong>de</strong> classificação.A métrica binária é a maneira mais simples <strong>de</strong> se atribuir peso a um termot i que ocorre no documento d j . Como exposto por [35], nesta metodologia utilizaseos valores 1 e 0 como possíveis pesos, <strong>de</strong> modo que se um termo t i aparece nodocumento d j , terá peso 1 ou, se não aparece no mesmo, terá peso 0, como visto <strong>na</strong>equação 2-2.⎧⎨1, se o termo t i aparece no documento d jw bin (t i , d j ) =⎩0, caso contrário(2-2)Como po<strong>de</strong> ser percebido, todos os termos presentes no vocabulário T e queaparecem no documento d j , possuem o mesmo peso e portanto o mesmo grau <strong>de</strong>importância, mesmo que isto não represente a reali<strong>da</strong><strong>de</strong> semântica dos termos. Aabor<strong>da</strong>gem binária também ignora o número <strong>de</strong> ocorrências dos termos presentes nodocumento, como exposto por Lan et al. [28].Com o propósito <strong>de</strong> estabelecer uma relação mais realista a cerca <strong>da</strong> importância<strong>de</strong> um termo <strong>de</strong>ntro do documento no qual o mesmo ocorre, e consequente-


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 28mente, em busca <strong>de</strong> obter uma melhor eficácia no processo <strong>de</strong> CAT, foram propostasvárias abor<strong>da</strong>gens <strong>na</strong> <strong>de</strong>termi<strong>na</strong>ção dos pesos w ij dos termos, <strong>de</strong>ntre as quais estáa frequência do termo (TF do inglês, Term Frequency) <strong>da</strong>do por tf(t i , d j ) o qualrepresenta o número <strong>de</strong> vezes que o termo t i ocorre no documento d j . A partir <strong>de</strong>stamedi<strong>da</strong>, quanto maior a quanti<strong>da</strong><strong>de</strong> <strong>de</strong> ocorrências do termo t i no documento d j ,maior a importância <strong>de</strong> t i termo neste documento.Outra importante métrica é o cálculo <strong>da</strong> frequência inversa em documentos(IDF, do inglês Inverse Document Frequency), o qual é <strong>da</strong>do pela equação 2-3:( ) |D|idf(t i ) = logdf(t i )(2-3)on<strong>de</strong> |D| é o total <strong>de</strong> elementos distintos <strong>de</strong> uma coleção e df(t i ) é a quanti<strong>da</strong><strong>de</strong> <strong>de</strong>documentos <strong>da</strong> coleção D on<strong>de</strong> o termo t i ocorre. A métrica IDF, parte do princípio<strong>de</strong> que se um termo ocorre em um número muito gran<strong>de</strong> <strong>de</strong> documentos <strong>de</strong> umacoleção, este termo ten<strong>de</strong> a não ser um bom discrimi<strong>na</strong>dor dos documentos nosquais o mesmo ocorre. Por outro lado, se um termo ocorre em poucos documentos,o mesmo ten<strong>de</strong> a ser um bom discrimi<strong>na</strong>dor do temas sobre o qual tais documentostratam.A utilização em conjunto <strong>da</strong>s métricas TF e IDF tem sido um dos métodosmais utilizados <strong>na</strong> <strong>de</strong>termi<strong>na</strong>ção <strong>da</strong> importância <strong>de</strong> termos no processo <strong>de</strong>classificação [47] [52].O cálculo do TF-IDF é representado pela equação 2-4:tfidf(t i , d j ) = tf(t i , d j ).idf(t i ) (2-4)Em muitos trabalhos, observa-se o uso do TF-IDF sobre o qual é aplica<strong>da</strong>a normalização por cosseno, o que visa a manter a atribuição <strong>de</strong> pesos <strong>de</strong>ntro <strong>da</strong>faixa entre 0 e 1. Este procedimento tem por objetivo minimizar o efeito causadopelo tamanho dos documentos, visto que documentos maiores ten<strong>de</strong>m a possuir umnúmero maior <strong>de</strong> repetição, o que <strong>na</strong>turalmente aumentaria <strong>de</strong> forma exagera<strong>da</strong> ospesos dos termos presentes no mesmo, conforme exposto por [52] [47]. No presentetrabalho utiliza-se o TF-IDF normalizado por cosseno para o <strong>de</strong>vido cálculo do pesow.O cálculo do TF-IDF normalizado por cosseno, po<strong>de</strong> ser visto <strong>na</strong> equação2-5:tfidf normalizado w(t i , d j ) =tfidf(t i , d j )√(2-5)∑|T |(tfidf(t s , d j )) 2s=1


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 29on<strong>de</strong> o <strong>de</strong>nomi<strong>na</strong>dor <strong>da</strong> equação representa a distância euclidia<strong>na</strong> aplica<strong>da</strong> a todosos termos do conjunto <strong>de</strong> termos T com seus respectivos valores <strong>de</strong> TF-IDF.2.1.5 Medi<strong>da</strong>s <strong>de</strong> similari<strong>da</strong><strong>de</strong> entre documentosO mo<strong>de</strong>lo VSM possibilita a verificação <strong>da</strong> similari<strong>da</strong><strong>de</strong> entre dois documentos,a qual po<strong>de</strong> ser consegui<strong>da</strong> por meio do cálculo <strong>da</strong> distância Euclidia<strong>na</strong>, ou docosseno, <strong>de</strong>ntre outros.O cálculo <strong>da</strong> distância Euclidia<strong>na</strong> é mostrado <strong>na</strong> equação 2-6:∑euc(d j , d k ) =√ |T |(w ij − w ik )) 2 (2-6)on<strong>de</strong> w representa o peso <strong>de</strong> um termo em um <strong>da</strong>do documento, como visto <strong>na</strong> Seção2.1.4.i=1Uma medi<strong>da</strong> muito utiliza<strong>da</strong> para calcular a similari<strong>da</strong><strong>de</strong> entre dois documentosé o cálculo do cosseno do ângulo θ formado pelos vetores correspon<strong>de</strong>ntes aesses documento no espaço |T |-dimensio<strong>na</strong>l. A medi<strong>da</strong> dos cossenos é expressa pelaEquação 2-7:cos(d j , d k ) =∑|T |i=1√|T |∑i=1(w ij × w ik )√|T |wij 2 × ∑wik2i=1(2-7)que consegue extrair a similari<strong>da</strong><strong>de</strong> entre dois vetores por meio do cálculo do cossenodo ângulo existente entre eles. O ângulo 0 (zero) entre dois vetores que representamdocumentos, informa que ambos possuem uma representação VSM igual. Para oângulo 0, o cálculo do cosseno terá o valor 1.Diante do exposto, quanto mais similares são <strong>de</strong>termi<strong>na</strong>dos dois documentos,mais próximo <strong>de</strong> 1 será o valor do cosseno. Por outro lado, um resultado <strong>de</strong>cosseno igual a 0 indica que os vetores correspon<strong>de</strong>ntes são ortogo<strong>na</strong>is entre si e queos documentos não possuem termos em comum [53].2.1.6 Métodos <strong>de</strong> <strong>Seleção</strong> <strong>de</strong> <strong>Características</strong>Conforme já visto <strong>na</strong> Seção 2.1.4, no Mo<strong>de</strong>lo Espaço Vetorial a dimensio<strong>na</strong>li<strong>da</strong><strong>de</strong>do espaço <strong>de</strong> representação <strong>da</strong>s características possui o tamanho do vocabulário<strong>da</strong> coleção, po<strong>de</strong>ndo chegar a <strong>de</strong>ze<strong>na</strong>s <strong>de</strong> milhares <strong>de</strong> termos. De acordo com Yang[69], a alta dimensio<strong>na</strong>li<strong>da</strong><strong>de</strong> po<strong>de</strong> se tor<strong>na</strong>r proibitivamente alta para muitos algoritmos<strong>de</strong> aprendizado durante o processo <strong>de</strong> classificação <strong>de</strong> documentos. Portanto,


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 30é altamente <strong>de</strong>sejável reduzir o número <strong>de</strong> termos sem que este procedimento resulteem diminuição <strong>da</strong> eficácia do processo <strong>de</strong> classificação. Neste contexto, os métodosutilizados para a redução do vocabulário visam a manter termos bons discrimi<strong>na</strong>dores<strong>de</strong> classes presentes nos documentos, ao passo que termos pouco discrimi<strong>na</strong>tivossão removidos. Este processo é conhecido como seleção <strong>de</strong> características (do inglês,feature selection) ou seleção <strong>de</strong> termos (do inglês, term selection).Uma seleção <strong>de</strong> características eficaz <strong>de</strong>ve ser capaz <strong>de</strong> <strong>de</strong>finir valores <strong>de</strong>importância dos termos no processo <strong>de</strong> classificação. Dessa forma, a partir <strong>de</strong> umconjunto <strong>de</strong> termos T são mantidos ape<strong>na</strong>s os k termos que possuem maior po<strong>de</strong>rdiscrimi<strong>na</strong>tivo <strong>de</strong> categoria. Tais elementos formam o subconjunto T ′ . Neste processosão <strong>de</strong>scartados os termos que não contribuem com a classificação ou até impactamnegativamente no processo <strong>de</strong> CAT [69] [15].De acordo com Debole e Sebastiani [12], o fator <strong>de</strong> redução do conjunto <strong>de</strong>termos T é <strong>da</strong>do pela equação 2-8:ξ = |T | − |T ′ ||T |(2-8)Ain<strong>da</strong> segundo [12], usualmente as técnicas <strong>de</strong> seleção <strong>de</strong> termos consistemem atribuir uma nota a um termo t <strong>de</strong> forma a valorar o po<strong>de</strong>r discrimi<strong>na</strong>tivo domesmo <strong>na</strong> coleção. Para esta tarefa utiliza-se uma função <strong>de</strong> avaliação <strong>de</strong> termosf. O próximo passo é a escolha dos k termos mais bem avaliados pela função f, osquais serão formadores do conjunto T ′ .As subseções seguintes apresentam três funções <strong>de</strong> avaliação <strong>de</strong> termosbastante utiliza<strong>da</strong>s <strong>na</strong> literatura, as quais são utiliza<strong>da</strong>s no presente trabalho.Information GainInformation Gain(IG) me<strong>de</strong> o ganho <strong>de</strong> informação trazido pela presençaou ausência <strong>de</strong> um <strong>da</strong>do termo t i ∈ T e uma classe c j ∈ C, conforme equação 2-9:IG(t i , c j ) =∑∑c∈{c j ,c j } t∈{t i ,t i }P (t, c) log 2P (t, c)P (t)P (c)(2-9)on<strong>de</strong> c j representa alguma classe diferente <strong>de</strong> c j e t i representa um termo distinto<strong>de</strong> t i . O valor P (t, c) correspon<strong>de</strong> à probabili<strong>da</strong><strong>de</strong> conjunta do termos t e <strong>da</strong> classec. Se o valor <strong>de</strong> IG <strong>de</strong> um termo para um termo t i para uma classe c j for alto,tal termo é consi<strong>de</strong>rado importante e informativo para a classe c j . Por outro lado,se o valor obtido for baixo, este termo não traz informações a respeito do tópicorelacio<strong>na</strong>do à classe c j e consequentemente po<strong>de</strong> ser removido. Utilizando a medi<strong>da</strong>information gain po<strong>de</strong>-se elimi<strong>na</strong>r um gran<strong>de</strong> número <strong>de</strong> termos reduzindo |T | a um


2.1 O Mo<strong>de</strong>lo Espaço Vetorial 31número <strong>de</strong> 100 a 300 termos, ao mesmo tempo que consegue-se melhorar o processo<strong>de</strong> classificação.Gain RatioGain Ratio (GR) é uma variante normaliza<strong>da</strong> do Information Gain. O GainRatio tenta resolver uma <strong>de</strong>ficiência apresenta<strong>da</strong> pelo Information Gain, o qualapresenta valores elevados não somente com a elevação <strong>da</strong> <strong>de</strong>pendência entre t e c,mas também com o aumento <strong>da</strong> entropia <strong>de</strong> c. Esta <strong>de</strong>ficiência <strong>de</strong>ixa <strong>de</strong> existir vistoque GR normaliza o IG com o valor <strong>da</strong> entropia <strong>da</strong> classe, como po<strong>de</strong> ser visto <strong>na</strong>equação 2-10:GR(t i , c j ) =IG(t i , c j )− ∑ c∈{c j ,c j } P (c) log 2 P (c)(2-10)Chi-Squared( X 2 )A medi<strong>da</strong> Chi-squared caracteriza-se por ser um teste estatístico que me<strong>de</strong> adivergência existente entre uma distribuição espera<strong>da</strong> ao assumir-se que a ocorrência<strong>de</strong> um termo t i é in<strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> <strong>de</strong>termi<strong>na</strong><strong>da</strong> classe c j . Quanto maior o valor <strong>de</strong>Chi-squared(X 2 ), maior é a <strong>de</strong>pendência entre termo e classe. Um valor igual a 0indica in<strong>de</strong>pendência entre tais elementos [15]. Por ser este um teste estatístico,po<strong>de</strong>m ocorrer comportamentos errôneos quando esta medi<strong>da</strong> é aplica<strong>da</strong> a termosraros <strong>na</strong> coleção, ou quando o número <strong>de</strong> exemplos positivos no treino é muito escassopara um <strong>de</strong>termi<strong>na</strong>do conceito. A medi<strong>da</strong> Chi-squared é representa<strong>da</strong> pela equação2-11:X 2 (t i , c j ) = [P (t i, c j )P (t i , c j ) − P (t i , c j )P (t i , c j )] 2P (t i )P (t i )P (c j )P (c j )(2-11)To<strong>da</strong>s as funções acima tentam capturar a intuição <strong>de</strong> que os termos maisvaliosos para a caracterização <strong>de</strong> uma categoria c j são aqueles que estão distribuídoso mais diferentemente possível entre os exemplos negativos e positivos <strong>de</strong> documentos<strong>de</strong> c jÉ importante salientar que as métricas acima relacio<strong>na</strong><strong>da</strong>s indicam a importância<strong>de</strong> um termo t i para uma classe c j . Dessa forma, um mesmo termo po<strong>de</strong>possuir |C| valores diferentes <strong>de</strong> Information Gain, Gain Ratio ou Chi-squared. Nestecontexto, <strong>de</strong> acordo com Sebastiani [52] é necessário a aplicação <strong>de</strong> um método queobjetiva extrair um valor global f global (t i ) a partir dos valores obtidos localmentepara ca<strong>da</strong> classe por meio <strong>da</strong> função local <strong>de</strong> avaliação f(t i , c j ). As técnicas <strong>de</strong> globalizaçãomais comuns são as seguintes:


2.2 O Mo<strong>de</strong>lo Baseado em Grafos 32|C|∑f sum (t i ) = f(t i , c j ) (2-12)j=1|C|∑f wsum (t i ) = P (c j )f(t i , c j ) (2-13)j=1f max (t i ) = |C|maxj=1 f(t i, c j ) (2-14)as quais representam, respectivamente, a soma dos valores obtidos pelasfunções locais (2-12); a soma pon<strong>de</strong>ra<strong>da</strong> pela probabili<strong>da</strong><strong>de</strong> <strong>de</strong> ocorrência <strong>da</strong> classeespecífica (2-13); e por fim o valor <strong>de</strong> importância global que é <strong>da</strong>do pelo maior valor<strong>de</strong> função local encontrado para um <strong>de</strong>termi<strong>na</strong>do termo t i ao se comparar os valoresobtidos para to<strong>da</strong>s as categorias do conjunto C (2-14). No presente trabalho utilizasea medi<strong>da</strong> <strong>de</strong> valoração global para importância do termo, <strong>de</strong> modo que para estatarefa optou-se pelo método <strong>de</strong> valor máximo local como exposto <strong>na</strong> equação 2-14.2.2 O Mo<strong>de</strong>lo Baseado em GrafosColeções <strong>de</strong> documentos que possuem elementos que interconectam documentospo<strong>de</strong>m ser mo<strong>de</strong>la<strong>da</strong>s como um grafo direcio<strong>na</strong>do G = (D, E), on<strong>de</strong> o conjunto<strong>de</strong> vértices D representa o conjunto <strong>de</strong> documentos e o conjunto <strong>de</strong> arestasdirecio<strong>na</strong><strong>da</strong>s E representa o conjunto <strong>de</strong> ligações (do inglês, links) entre os documentos.O uso <strong>de</strong> links como <strong>de</strong>scrito acima po<strong>de</strong> ser encontrado em várias coleçõescomo: pági<strong>na</strong>s Web, bibliotecas digitais, enciclopédias, etc.Por se tratar <strong>de</strong> um grafo direcio<strong>na</strong>do, para ca<strong>da</strong> documento d po<strong>de</strong>m existirarestas <strong>de</strong> entra<strong>da</strong>, representa<strong>da</strong>s pelos links com origem em outros documentos eque apontam para d (do inglês, in-links), e po<strong>de</strong>m existir arestas <strong>de</strong> saí<strong>da</strong>, as quaistêm origem em d e apontam para outros documentos o (do inglês, out-links) [24]. Aestrutura <strong>de</strong>scrita é ilustra<strong>da</strong> por meio <strong>da</strong> Figura 2.1.Como exposto por [10, 44, 56], ca<strong>da</strong> out-link presente no documento <strong>de</strong>notauma citação que tal documento faz a um outro documento para o qual o out-linkaponta. Da mesma forma, um in-link direcio<strong>na</strong>do a um documento, <strong>de</strong>nota que omesmo foi citado por outro documento. Neste contexto, os textos âncoras (do inglês,anchor texts) também presentes <strong>na</strong> Figura 2.1, funcio<strong>na</strong>m como apelidos utilizadospelo documento que realizou a citação. Com isso, é possível nomear o documentocitado, <strong>de</strong> forma arbitrária. Os links <strong>de</strong>notam uma relação semântica <strong>de</strong> afini<strong>da</strong><strong>de</strong>entre o conteúdo do documento que realiza a citação e do documento citado. Os


2.3 Enciclopédia <strong>Wikipédia</strong> 33Figura 2.1: Ligações entre documentos utilizando linkstextos âncoras por sua vez representam uma relação semântica <strong>de</strong> sinonímia entrea expressão formadora do texto âncora e o tema do documento para o qual o linkaponta [11, 37].2.3 Enciclopédia <strong>Wikipédia</strong>A <strong>Wikipédia</strong> 1 é uma Enciclopédia Web colaborativa voluntária, que utilizao formato Wiki, disponível mundialmente com versões em várias línguas, chegandoa um total <strong>de</strong> 280 idiomas [65]. Lança<strong>da</strong> em 15 <strong>de</strong> Janeiro <strong>de</strong> 2001 por JimmyWales e Larry Sanger, sua facili<strong>da</strong><strong>de</strong> <strong>de</strong> acesso via Internet e a liber<strong>da</strong><strong>de</strong> para ediçãodo conteúdo possibilitam que seus artigos sejam atualizados constantemente sendoque novos artigos são adicio<strong>na</strong>dos diariamente, alcançando um total <strong>de</strong> 20 milhões<strong>de</strong> artigos, espalhados pelas diversas versões <strong>da</strong> enciclopédia, que correspon<strong>de</strong>m aidiomas distintos. A maior versão é a inglesa, a qual, em novembro <strong>de</strong> 2011, possuíamais <strong>de</strong> 3,7 milhões <strong>de</strong> artigos diferentes.O conteúdo <strong>da</strong> <strong>Wikipédia</strong> é criado a partir <strong>de</strong> uma linguagem <strong>de</strong> marcaçãoprópria para conteúdo colaborativo do tipo Wiki chama<strong>da</strong> <strong>de</strong> linguagem Wikitext,também conheci<strong>da</strong> como Wiki Markup. A partir do código feito nesta linguagemum sistema o converte em uma representação HTML para a <strong>de</strong>vi<strong>da</strong> interpretaçãoem <strong>na</strong>vegadores Web. Por meio <strong>de</strong>sta linguagem é possível a criação <strong>de</strong> linksinternos entre os artigos <strong>da</strong> <strong>Wikipédia</strong>. Para tanto esta enciclopédia utiliza o que é<strong>de</strong>nomi<strong>na</strong>do links livres (do inglês, free links). Na linguagem Wiki Markup cria-seum free link utilizando-se colchetes duplos [[...]], sendo que o conteúdo <strong>de</strong>ntro doscolchetes é efetivamente o nome oficial <strong>de</strong> outro artigo que também está presente <strong>na</strong>1 http://www.wikipedia.org


2.3 Enciclopédia <strong>Wikipédia</strong> 34<strong>Wikipédia</strong> para o qual se <strong>de</strong>seja criar um link. Na Figura 2.2 é possível visualizarum exemplo <strong>de</strong>ste tipo <strong>de</strong> estrutura.Figura 2.2: Criação <strong>de</strong> free links utilizando Wikitext.Como visto <strong>na</strong> Figura 2.2, o texto“public transport”atua como um hyperlinkpara o artigo <strong>de</strong> mesmo nome.Sabendo que ca<strong>da</strong> artigo <strong>da</strong> <strong>Wikipédia</strong> correspon<strong>de</strong> a um conceito bem<strong>de</strong>finido, a possibili<strong>da</strong><strong>de</strong> <strong>de</strong> interconectar os artigos por meio <strong>de</strong> hyperlinks representaa possibili<strong>da</strong><strong>de</strong> <strong>de</strong> estabelecer relacio<strong>na</strong>mentos entre conceitos [43], assim comoexposto <strong>na</strong> Seção 2.2, também possuindo in-links e out-links. De acordo com Milne[39], os hyperlinks entre os artigos <strong>da</strong> <strong>Wikipédia</strong> conseguem capturar gran<strong>de</strong> parte<strong>da</strong>s relações semânticas <strong>de</strong>fini<strong>da</strong>s pela ISO 2788 que tratam <strong>de</strong> padrões inter<strong>na</strong>cio<strong>na</strong>ispara Tesauros 2 .Os textos âncoras presentes em pági<strong>na</strong>s HTML também possuem seucorrespon<strong>de</strong>nte <strong>na</strong> linguagem Wikitext. Este elemento é criado a partir do usodo símbolo pipe ( | ) <strong>de</strong>ntro dos colchetes duplos que compõe um free link. Onome correto do artigo referenciado pelo free link aparece à esquer<strong>da</strong> do pipe eà direita encontra-se o texto âncora que será utilizado como apelido para o free linkver<strong>da</strong><strong>de</strong>iro, como mostrado <strong>na</strong> Figura 2.3.Figura 2.3: Criação <strong>de</strong> textos âncoras utilizando free links.A nomeação arbitrária gera<strong>da</strong> pelos textos âncoras possibilita a utilização<strong>de</strong> palavras ou expressões totalmente diferentes dos nomes reais dos artigos, comono caso expressado pela Figura 2.3, tor<strong>na</strong>ndo possível o estabelecimento <strong>de</strong> relações<strong>de</strong> sinonímia entre o texto âncora e o título do artigo.Ca<strong>da</strong> conceito <strong>da</strong> <strong>Wikipédia</strong> <strong>de</strong>ve ser representado por um único artigo,<strong>de</strong> modo que artigos que representam o mesmo conceito ape<strong>na</strong>s redirecio<strong>na</strong>m oleitor para o artigo principal. Estes tipos <strong>de</strong> artigos são criados a partir dos links<strong>de</strong> redirecio<strong>na</strong>mento, que são inseridos nos artigos dos quais se <strong>de</strong>seja redirecio<strong>na</strong>r.Esta situação é ilustra<strong>da</strong> pela Figura 2.4:2 Um tesauro consiste em um tipo <strong>de</strong> dicionário que <strong>de</strong>fine um conjunto <strong>de</strong> conceitos além <strong>de</strong>especificar as relações entre tais conceitos.


2.3 Enciclopédia <strong>Wikipédia</strong> 35Figura 2.4: Links <strong>de</strong> redirecio<strong>na</strong>mento <strong>de</strong> pági<strong>na</strong>s <strong>na</strong> <strong>Wikipédia</strong>.<strong>na</strong> qual po<strong>de</strong> ser observado que a presença <strong>da</strong> palavra-chave #redirecttor<strong>na</strong> o hyperlink como do tipo <strong>de</strong> redirecio<strong>na</strong>mento. Neste exemplo, portanto, oartigo “USA” serve ape<strong>na</strong>s para levar o leitor para o artigo “United States”.Vários trabalhos <strong>de</strong>stacam a relação <strong>de</strong> sinonímia existente entre o textodo título do artigo <strong>de</strong> um <strong>de</strong>termi<strong>na</strong>do conceito <strong>da</strong> <strong>Wikipédia</strong> e os textos do títulodos seus artigos <strong>de</strong> redirecio<strong>na</strong>mento [22, 64, 67]. Como exemplo <strong>da</strong> importância dosredirecio<strong>na</strong>mentos, pose-se <strong>de</strong>stacar o caso do artigo “United States”, para o qualforam observados 78 artigos <strong>de</strong> redirecio<strong>na</strong>mento.Ca<strong>da</strong> artigo <strong>da</strong> <strong>Wikipédia</strong> pertence a uma ou mais categorias, e esta relaçãoé expressa por meio dos links <strong>de</strong> categorias. Tais links são escritos em Wikitexttambém utilizando o formato free links, porém com a adição <strong>da</strong> palavra chaveCategory: antece<strong>de</strong>ndo o nome <strong>da</strong> categoria a qual o artigo foi associado. (Ex.:[[Category:Cities]]). As próprias categorias po<strong>de</strong>m pertencer a outras categorias [65].Esta estrutura gera uma relação <strong>de</strong> afiliação entre um conceito (representado peloartigo) e uma categoria, o que permite <strong>de</strong>rivar relações <strong>de</strong> hiponímia entre ambos.A partir <strong>de</strong>sta mesma relação entre as categorias, é possível extrair uma estruturahierárquica entre estes elementos [39].Devido às várias características mostra<strong>da</strong>s acima, como relações associativasentre links, possibili<strong>da</strong><strong>de</strong> <strong>de</strong> se <strong>de</strong>rivar relações <strong>de</strong> sinonímia entre conceitos, além<strong>da</strong> estrutura hierárquica estabeleci<strong>da</strong> pelas categorias, a <strong>Wikipédia</strong> tem se tor<strong>na</strong>doobjeto <strong>de</strong> inúmeras pesquisas acerca do uso <strong>de</strong>stas e <strong>de</strong> outras informações paraa construção <strong>de</strong> tesauros [24, 39, 42, 43]. Neste contexto, esta enciclopédia tem semostrado como um excelente repositório <strong>de</strong> informações relevantes para a melhoriado processo <strong>de</strong> CAT [33], <strong>de</strong> forma que palavras-chave associa<strong>da</strong>s <strong>de</strong> alguma formapo<strong>de</strong>m ser consi<strong>de</strong>ra<strong>da</strong>s durante este processo, fazendo com que documentos quecompartilhem tais palavras ten<strong>da</strong>m a ser classificados em uma mesma classe.


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 362.4 <strong>Classificação</strong> <strong>de</strong> DocumentosA tarefa <strong>de</strong> classificação se faz necessária em uma ampla gama <strong>de</strong> ativi<strong>da</strong><strong>de</strong>shuma<strong>na</strong>s, e em seu sentido mais geral, o termo po<strong>de</strong>ria cobrir qualquer contextoem que alguma <strong>de</strong>cisão ou previsão é feita com base em informações atualmentedisponíveis. Dessa maneira, um procedimento <strong>de</strong> classificação é, portanto, algummétodo formal para repeti<strong>da</strong>mente fazer julgamentos sempre que novas situaçõessão apresenta<strong>da</strong>s [38].A classificação <strong>de</strong> documentos tem como objetivo categorizar documentos <strong>de</strong>acordo com um conjunto <strong>de</strong> categorias pre<strong>de</strong>fini<strong>da</strong>s, a partir <strong>da</strong> análise do conteúdo<strong>de</strong> tais documentos. Categorias também são referencia<strong>da</strong>s como classes ou rótulos[31, 35]. Dessa forma, <strong>da</strong><strong>da</strong> uma coleção <strong>de</strong> documentos D = {d 1 , d 2 , . . . d |D| } e umconjunto fixo <strong>de</strong> categorias C = {c 1 , c 2 , . . . c |C| }, a classificação <strong>de</strong> textos é a tarefa<strong>de</strong> atribuir um valor booleano (1 ou 0) para ca<strong>da</strong> par (d j , c i ) ∈ D × C. Quando(d j , c i ) = 1 (ou T , do inglês True ) o documento d j está rotulado como pertencenteà categoria c i e quando (d j , c i ) = 0 (ou F , do inglês False ) o documento d j nãoestá rotulado como pertencente à categoria c i . Este processo correspon<strong>de</strong> à função<strong>de</strong> classificação Φ : D × C → {T, F }.2.4.1 <strong>Classificação</strong> Automática <strong>de</strong> Documentos utilizandoAprendizado <strong>de</strong> Máqui<strong>na</strong>sA partir dos anos 90 a abor<strong>da</strong>gem basea<strong>da</strong> em engenharia do conhecimentopara a classificação <strong>de</strong> documentos, começou a per<strong>de</strong>r espaço para outro paradigma, oaprendizado <strong>de</strong> máqui<strong>na</strong>s (do inglês, Machine Learning). O aprendizado <strong>de</strong> máqui<strong>na</strong>s(AM) utiliza-se <strong>de</strong> um processo indutivo geral para construir automaticamente umclassificador para uma categoria c i ∈ C. Este processo é realizado por meio <strong>da</strong> análise<strong>da</strong>s características <strong>de</strong> um conjunto <strong>de</strong> documentos já classificados manualmentepor um especialista <strong>de</strong> domínio (conjunto <strong>de</strong> treino) como sendo pertencentes àc i ou não pertencentes ( c i ). Após o processo <strong>de</strong> aprendizagem <strong>da</strong>s característicasproporcio<strong>na</strong>do pela indução, um novo documento cuja categoria não se sabe, po<strong>de</strong> serautomaticamente classificado como pertencente ou não à c i . Por ser supervisio<strong>na</strong>dopelo conhecimento prévio <strong>da</strong>s categorias dos documentos do conjunto <strong>de</strong> treino,esse processo <strong>de</strong> construção do classificador é <strong>de</strong>nomi<strong>na</strong>do supervisio<strong>na</strong>do por váriosautores [2, 52, 68].A abor<strong>da</strong>gem <strong>de</strong> aprendizado <strong>de</strong> máqui<strong>na</strong>s para a classificação <strong>de</strong> documentostem se tor<strong>na</strong>do atrativa, principalmente <strong>de</strong>vido ao vasto número <strong>de</strong> aplicações<strong>na</strong> Web que <strong>de</strong>man<strong>da</strong>m a classificação textual [52, 35, 38]. Dentre elas po<strong>de</strong>-se citar:


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 37• Os catálogos <strong>de</strong> recursos Web;• A <strong>de</strong>tecção <strong>de</strong> spans (mensagens in<strong>de</strong>seja<strong>da</strong>s e por diversas vezes mal intencio<strong>na</strong><strong>da</strong>s)em e-mails;• A organização temática <strong>de</strong> ca<strong>na</strong>is <strong>de</strong> notícias com o intuito <strong>de</strong> satisfazer aspreferências dos usuários;• A perso<strong>na</strong>lização <strong>de</strong> publici<strong>da</strong><strong>de</strong>s por áreas <strong>de</strong> interesse, além do auxílio nodiagnóstico <strong>de</strong> doenças <strong>de</strong> acordo com <strong>de</strong>termi<strong>na</strong>dos quadros clínicos;• A in<strong>de</strong>xação <strong>de</strong> documentos com base em um vocabulário controlado;• A filtragem <strong>de</strong> documentos;• A geração automática <strong>de</strong> meta<strong>da</strong>dos;• A <strong>de</strong>sambiguação <strong>de</strong> sentidos <strong>de</strong> palavras.A classificação automática <strong>de</strong> documentos por meio <strong>da</strong> abor<strong>da</strong>gem <strong>de</strong>aprendizado <strong>de</strong> máqui<strong>na</strong>s requer, inicialmente, a disponibili<strong>da</strong><strong>de</strong> <strong>de</strong> um corpus inicialΩ = {d 1 , d 2 , ..., d |Ω| } ⊂ D <strong>de</strong> documentos pré-classificados manualmente por umespecialista, em um conjunto <strong>de</strong> categorias C = {c 1 , c 2 , . . . c |C| }. Dessa forma, oresultado <strong>da</strong> função <strong>de</strong> classificação objetivo Ψ : D × C → {T, F } tem seus valoresconhecidos para todo par (d j , c i ) ∈ Ω × C.A partir do processo <strong>de</strong> aprendizagem, <strong>de</strong>riva-se então função <strong>de</strong> classificaçãoΦ : D × C → {T, F } que mapeia documentos em classes, também conhecido comoclassificador. Portanto, formalmente, a tarefa <strong>de</strong> classificação busca aproximar omáximo possível a função <strong>de</strong> classificação Φ com o valor <strong>de</strong>sconhecido <strong>da</strong> funçãoobjetivo Ψ : D×C → {T, F } <strong>de</strong> forma que o resultado <strong>de</strong> Φ e Ψ coinci<strong>da</strong>m o máximopossível. Dessa forma, após a obtenção do classificador Φ por meio do processo <strong>de</strong>aprendizagem, é necessário avaliar a eficácia comparando os resultados obtidos comos resultados esperados <strong>da</strong> função Ψ [52].Para se realizar o treino e avaliação do classificador são necessários doissubconjuntos distintos <strong>de</strong> Ω, T r e T e , tais que T r ∩ T e = ∅):• Conjunto <strong>de</strong> Treino T r - utilizado para se obter o classificador Φ. Oclassificador é trei<strong>na</strong>do apren<strong>de</strong>ndo as características dos documentos doconjunto <strong>de</strong> treino o qual já foi classificado manualmente.• Conjunto <strong>de</strong> Teste T e - utilizado para avaliar a eficácia do classificadorobtido Φ. Para ca<strong>da</strong> documento d j pertencente ao conjunto <strong>de</strong> teste é conheci<strong>da</strong>a classe (ou classes) a que pertence, porém esta informação não é repassa<strong>da</strong> aoclassificador Φ criado <strong>na</strong> etapa <strong>de</strong> treino. Ca<strong>da</strong> documento d j <strong>de</strong> T e é submetidoao classificador Φ que atribui uma ou mais classes <strong>de</strong> C a d j , comparando ascaracterísticas presentes em d j com as características aprendi<strong>da</strong>s durante aetapa <strong>de</strong> treino.


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 38A próxima etapa é a avaliação <strong>de</strong> ca<strong>da</strong> <strong>de</strong>cisão realiza<strong>da</strong> pelo classificadorΦ para ca<strong>da</strong> par (d j , c i ), a qual é compara<strong>da</strong> com a <strong>de</strong>cisão espera<strong>da</strong> Ψ(d j , c i ), <strong>de</strong>forma que quanto maior o número <strong>de</strong> <strong>de</strong>cisões <strong>de</strong> Φ que forem iguais às <strong>de</strong>cisões <strong>de</strong>Ψ, mais eficaz é o classificador criado.Um classificador Φ <strong>de</strong>ve possuir uma boa capaci<strong>da</strong><strong>de</strong> <strong>de</strong> generalização, <strong>de</strong>forma a elimi<strong>na</strong>r erros causados por sobre-ajuste (do inglês, overfitting). Este tipo<strong>de</strong> problema ocorre quando um classificador se a<strong>da</strong>pta à características pontuais dosdocumentos <strong>de</strong> treino, o que po<strong>de</strong> diminuir a taxa <strong>de</strong> acerto <strong>na</strong> classificação <strong>de</strong> novosdocumentos.O processo <strong>de</strong> avaliação <strong>da</strong> classificação será abor<strong>da</strong>do com maiores <strong>de</strong>talhes<strong>na</strong> Seção 2.4.4.2.4.2 <strong>Classificação</strong> Uni-classe e Multi-ClasseA classificação <strong>de</strong> textos po<strong>de</strong> estar sujeita a diferentes restrições, <strong>de</strong>pen<strong>de</strong>ndo<strong>de</strong> sua aplicação. Dentre tais restrições está a limitação do número <strong>de</strong> classespertencentes ao conjunto <strong>de</strong> categorias C as quais um documento po<strong>de</strong> ser associadopelo classificador. Para o caso em que somente uma categoria <strong>de</strong>ve ser associa<strong>da</strong> aca<strong>da</strong> d j ∈ Ω, dá-se o nome <strong>de</strong> classificação uni-classe. Um caso especial <strong>de</strong> classificaçãouni-classe é a classificação binária, por meio <strong>da</strong> qual ca<strong>da</strong> documento d j ∈ Ω<strong>de</strong>ve ser classificado como pertencente à categoria c i ou ao seu complemento c i .Como exemplo <strong>da</strong> classificação binária, po<strong>de</strong>-se citar filtros <strong>de</strong> spams, por meio doqual mensagens recebi<strong>da</strong>s <strong>de</strong>vem ser classifica<strong>da</strong>s como sendo do tipo spam ou nãospam.Para o caso em que qualquer número <strong>de</strong> categorias, <strong>de</strong> 0 a |C|, po<strong>de</strong>m seratribuí<strong>da</strong>s a um documento d j ∈ Ω dá-se o nome <strong>de</strong> classificação multi-classe.Teoricamente, a abor<strong>da</strong>gem binária é dita como sendo uma abor<strong>da</strong>gemmais geral que a abor<strong>da</strong>gem multi-classe, visto que a classificação binária po<strong>de</strong> seremprega<strong>da</strong> em problemas <strong>de</strong> classificação multi-classe. Para tanto, basta transformarum problema <strong>de</strong> classificação multi-classe, com documentos po<strong>de</strong>ndo pertencer à(c 1 , . . . , c |C| ), em |C| problemas in<strong>de</strong>pen<strong>de</strong>ntes <strong>de</strong> classificação binária sobre c i ouc i , com i = 1, . . . , |C|. Neste caso, c i é formado pelos documentos que pertencema to<strong>da</strong>s as outras categorias e é chamado como metodologia um contra todos osoutros (do inglês, one against others). Esta interpretação só é possível quando ascategorias envolvi<strong>da</strong>s são estocasticamente in<strong>de</strong>pen<strong>de</strong>ntes, ou seja, a classificação <strong>de</strong>um documento em uma categoria não exige que este mesmo documento também sejacategorizado em outra.De acordo com exposto por Shen [54], sendo a CAT um tipo específico<strong>de</strong> problema <strong>de</strong> classificação <strong>de</strong> padrões, o algoritmo <strong>de</strong> classificação, juntamente


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 39com a metodologia <strong>de</strong> representação dos documentos, são aspectos essenciais quecontribuem com a eficácia <strong>de</strong>ste processo.Ao longo <strong>de</strong> algumas déca<strong>da</strong>s um vasto número <strong>de</strong> algoritmos tem sidoproposto para CAT utilizando aprendizado <strong>de</strong> máqui<strong>na</strong>s. Dentre eles po<strong>de</strong>-se citaro <strong>na</strong>ive bayes [36], k-vizinho mais próximo (do inglês k-nearest neighbor - KNN )[60], máqui<strong>na</strong>s <strong>de</strong> vetor <strong>de</strong> suporte ( do inglês support vector machines - SVM )[25], boosting [48] e algoritmos <strong>de</strong> aprendizado <strong>de</strong> regras (do inglês, rule learningalgorithms) [55], os quais têm sido amplamente utilizados.Vários trabalhos que abor<strong>da</strong>m a classificação <strong>de</strong> documentos reportaramcomparações <strong>de</strong> <strong>de</strong>sempenho entre os diversos algoritmos disponíveis. Figueiredo [14]utilizou em seu trabalho os algoritmos KNN, Naive Bayes e SVM, sendo que o últimoapresentou melhor <strong>de</strong>sempenho <strong>na</strong> maioria dos casos a<strong>na</strong>lisados <strong>de</strong> classificação <strong>de</strong>textos, até mesmo ao se comparar a linha base <strong>de</strong>ste com os melhores resultados dosoutros algoritmos após a aplicação do método proposto.Nos resultados apresentados por Zaiane [70] e Lewis [32] também é possívelobservar um melhor <strong>de</strong>sempenho geral do algoritmo SVM.Em seus trabalhos, Wang [63, 64], Gantner e Schmidt-Thieme [20], Gabrilovich[18, 19] e Bekkerman [5] optaram por utilizar ape<strong>na</strong>s o classificador SVM, porser mostrar um algoritmo do estado <strong>da</strong> arte em classificação <strong>de</strong> documentos. [63, 68].No presente trabalho, também optou-se por utilizar ape<strong>na</strong>s o classificadorSVM, haja vista seu alto <strong>de</strong>sempenho em classificação textual, como exposto nosparágrafos anteriores. O algoritmo já possui uma linha base alta, sendo o mesmoexcelente para <strong>de</strong>monstrar a vali<strong>da</strong><strong>de</strong> do método proposto.2.4.3 Algoritmo <strong>de</strong> <strong>Classificação</strong> SVMO algoritmo <strong>de</strong> classificação Support Vector Machines (SVM) é um métodorelativamente recente, introduzido por Vapnik [61] e utilizado <strong>na</strong> classificação <strong>de</strong>documentos primeiramente por Joachims [25], <strong>de</strong> modo que sua utilização emclassificação <strong>de</strong> documentos apoia-se em características aponta<strong>da</strong>s por [6, 35], como:• Boa capaci<strong>da</strong><strong>de</strong> <strong>de</strong> generalização;• Robustez em situações <strong>de</strong> alta dimensio<strong>na</strong>li<strong>da</strong><strong>de</strong>;• Capaci<strong>da</strong><strong>de</strong> <strong>de</strong> li<strong>da</strong>r bem com <strong>da</strong>dos ruidosos;• Uma base matemática soli<strong>da</strong>mente fun<strong>da</strong>menta<strong>da</strong>.Dado o conjunto <strong>de</strong> treino T r = {d j , c i } |Tr|j=1 ⊂ D, e o conjunto <strong>de</strong> testeT e = {d j , c i } |Te|j=1 ⊂ D, tal que d j ∈ R |T | , on<strong>de</strong> D é uma coleção <strong>de</strong> documentos, Té o conjunto <strong>de</strong> termos distintos <strong>da</strong> coleção D e c i ∈ {1, −1} sendo que o rótulo


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 401 indica um exemplo positivo e −1 indica um exemplo negativo. Ca<strong>da</strong> documento<strong>da</strong> coleção D é representado por um ponto d j no espaço euclidiano R |T | e gerado<strong>de</strong> forma in<strong>de</strong>pen<strong>de</strong>nte e i<strong>de</strong>nticamente distribuí<strong>da</strong> em relação a uma probabili<strong>da</strong><strong>de</strong><strong>de</strong>sconheci<strong>da</strong> P r (d j , c i ) [49][27]. Todos os documentos são mapeados neste espaçoeuclidiano |T |-dimensio<strong>na</strong>l <strong>de</strong> acordo com sua representação no mo<strong>de</strong>lo espaçovetorial <strong>de</strong> forma que, a etapa <strong>de</strong> aprendizado do algoritmo busca encontrar umhiperplano que separe as duas classes, o qual possua a maior margem possível [35].Novos documentos são mapeados neste mesmo espaço euclidiano <strong>de</strong> forma que sãoclassificados em uma <strong>da</strong>s categorias, baseando-se em qual dos lados do hiperplano(também conhecido como hiperplano <strong>de</strong> <strong>de</strong>cisão) o novo documento foi mapeado,como po<strong>de</strong> ser visualizado <strong>na</strong> Figura 2.5, a qual ilustra a separação linear entre asclasses.Intuitivamente, a maximização <strong>da</strong> margem intencio<strong>na</strong> minimizar erros <strong>de</strong>classificação, visto que quanto mais próximo do hiperplano maior o grau <strong>de</strong> incertezaem relação à qual classe o documento pertence. Dessa forma, o classificador possuiuma margem <strong>de</strong> segurança a qual garante que pequenos erros <strong>na</strong> classificação oupeque<strong>na</strong>s variações em características <strong>de</strong> documentos não irão causar classificaçõeserrôneas [35].Figura 2.5: Documentos <strong>de</strong> duas classes representados emum espaço euclidiano dividido pelo hiperplano <strong>de</strong><strong>de</strong>cisão com margem máxima.O hiperplano que separa as duas classes é <strong>de</strong>scrito por:( −→ w · −→ x ) + b = 0, (2-15)


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 41para a qual −→ w · −→ x é o produto escalar entre −→ w e −→ x , sendo que −→ x é umponto arbitrário <strong>na</strong> Figura 2.5 o qual representa um documento a ser classificado, eo vetor −→ w <strong>de</strong>nomi<strong>na</strong>do vetor <strong>de</strong> peso (do inglês, weight vector) representa o vetornormal perpendicular ao hiperplano <strong>de</strong> <strong>de</strong>cisão e ao ponto −→ x e o termo b possibilita<strong>de</strong>slocar o hiperplano paralelamente a este ponto.Como mostrado <strong>na</strong> Figura 2.6, o parâmetrob‖ −→ w ‖<strong>de</strong>termi<strong>na</strong> o <strong>de</strong>slocamento(do inglês, offset) do hiperplano <strong>da</strong> origem ao longo do vetor normal −→ w . Deseja-seescolher −→ w e b <strong>de</strong> modo a maximizar a margem o quanto for possível mantendo aseparação <strong>da</strong>s classes.Objetivando <strong>de</strong>termi<strong>na</strong>r a qual categoria c i ∈ {+1, −1} pertence um<strong>de</strong>termi<strong>na</strong>do documento representado pelo vetor −→ x , é necessário verificar a suaposição relativa ao hiperplano através <strong>da</strong>s restrições abaixo:+ 1, se ( −→ w · −→ x ) + b ≥ 0 (2-16)−1, se ( −→ w · −→ x ) + b < 0 (2-17)<strong>de</strong>sta forma, a classificação <strong>de</strong> um vetor é alcança<strong>da</strong> aplicando-se a função<strong>de</strong> <strong>de</strong>cisão expressa em 2-18:f( −→ x ) = sign(( −→ w · −→ x ) + b) (2-18)O conjunto <strong>de</strong> documentos <strong>de</strong> treino que inci<strong>de</strong>m nos hiperplanos margi<strong>na</strong>is<strong>da</strong>s classes são <strong>de</strong>nomi<strong>na</strong>dos como vetores <strong>de</strong> suporte (do inglês, support vectors). Ohiperplano margi<strong>na</strong>l −→ w · −→ x + b = 1 é incindido pelos vetores <strong>de</strong> suporte pertencentesà classe especifica<strong>da</strong> pela equação 2-16, sendo que a distância entre estes vetores <strong>de</strong>suporte até a origem do hiperplano <strong>de</strong> <strong>de</strong>cisão é <strong>da</strong><strong>da</strong> por |1−b|‖ −→ w ‖ .De forma similar, o hiperplano margi<strong>na</strong>l −→ w · −→ x + b = −1 é incindido pelosvetores <strong>de</strong> suporte pertencentes à classe especifica<strong>da</strong> pela equação 2-17, on<strong>de</strong> adistância entre estes vetores <strong>de</strong> suporte até a origem do hiperplano <strong>de</strong> <strong>de</strong>cisão é<strong>da</strong><strong>da</strong> por |−1−b|‖ −→ . como mostrado <strong>na</strong> Figura 2.6.w ‖Dessa forma, a distância entre os vetores <strong>de</strong> suporte e a origem do hiperplano1<strong>de</strong> <strong>de</strong>cisão é estabeleci<strong>da</strong> por‖ −→ , e portanto a distância entre os vetores <strong>de</strong> suportew ‖2<strong>da</strong>s duas classes é <strong>da</strong>do por‖ −→ w ‖A maximização <strong>da</strong> margem é alcança<strong>da</strong> resolvendo-se um problema <strong>de</strong>otimização quadrática, em termos dos vetores <strong>de</strong> suporte <strong>na</strong> forma <strong>de</strong>:∑−→ w = v−→ixi (2-19)i


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 42Figura 2.6: Distância entre os dois hiperplanos margi<strong>na</strong>is <strong>de</strong>classe.<strong>na</strong> qual ca<strong>da</strong> v i representa um parâmetro aprendido e ca<strong>da</strong> x i é um vetor<strong>de</strong> suporte. A função <strong>de</strong> <strong>de</strong>cisão po<strong>de</strong>, então, ser escrita como:f( −→ x ) = sign( ∑ iv i ( −→ x i · −→ x ) + b) (2-20)No espaço <strong>de</strong> <strong>da</strong>dos origi<strong>na</strong>l, também conhecido como espaço <strong>de</strong> entra<strong>da</strong>,po<strong>de</strong> ocorrer <strong>de</strong> as classes não serem separáveis por meio <strong>de</strong> um hiperplano. Entretanto,os vetores <strong>de</strong> <strong>da</strong>dos origi<strong>na</strong>is (os quais representam os documentos no mo<strong>de</strong>loespaço vetorial) po<strong>de</strong>m ser mapeados em um espaço <strong>de</strong> alta dimensio<strong>na</strong>li<strong>da</strong><strong>de</strong>, chamado<strong>de</strong> espaço <strong>de</strong> características, ao invés do espaço <strong>de</strong> entra<strong>da</strong>. A função <strong>de</strong> <strong>de</strong>cisãofi<strong>na</strong>l é <strong>da</strong><strong>da</strong> por:f( −→ x ) = sign( ∑ iv i k( −→ x i · −→ x ) + b) (2-21)on<strong>de</strong> k é a função núcleo.O método SVM somente realiza classificação binária. Assim, para a classificaçãomulti-classe é necessário utilizar a metodologia 1 Contra Todos [61], <strong>de</strong>scrita<strong>na</strong> Seção 2.4.2. Neste trabalho, utilizamos o classificador SVM disponibilizado pelopacote SV M perf <strong>de</strong>scrito por Joachims em [26] por meio <strong>da</strong> metodologia supracita<strong>da</strong>.


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 432.4.4 Avaliação <strong>de</strong> <strong>Classificação</strong>De acordo com Sebastiani [52], visando a avaliar o <strong>de</strong>sempenho <strong>de</strong> métodos<strong>de</strong> CAT, são observados dois aspectos, sendo estes a eficácia e a eficiência doclassificador automático. A eficácia é uma medi<strong>da</strong> que avalia a habili<strong>da</strong><strong>de</strong> <strong>de</strong> umclassificador automático <strong>de</strong>cidir corretamente a categoria (ou classe) <strong>de</strong> <strong>de</strong>termi<strong>na</strong>dodocumento. A eficiência, por sua vez, geralmente é uma medi<strong>da</strong> que avalia o tempogasto por um classificador automático para <strong>de</strong>cidir a categoria <strong>de</strong> <strong>de</strong>termi<strong>na</strong>dodocumento.Com a intenção <strong>de</strong> verificar a eficácia <strong>de</strong> um classificador, normalmentesão utiliza<strong>da</strong>s medi<strong>da</strong>s que po<strong>de</strong>m ser compreendi<strong>da</strong>s por meio <strong>de</strong> uma tabela <strong>de</strong>contingência. Através <strong>da</strong> Tabela <strong>de</strong> contingência 2.1 a<strong>da</strong>pta<strong>da</strong> <strong>de</strong> [52], <strong>da</strong><strong>da</strong> umacategoria c i qualquer, é possível visualizar as possibili<strong>da</strong><strong>de</strong>s <strong>de</strong> resposta <strong>de</strong> umclassificador (Φ) ao <strong>de</strong>cidir sobre os documentos <strong>da</strong> coleção <strong>de</strong> teste, comparando tais<strong>de</strong>cisões com o que seria esperado como resposta correta <strong>de</strong> acordo com o julgamento(Ψ) previamente atribuído por especialistas do domínio <strong>da</strong> classe c i .CategoriaJulgamentos Corretosc i +1 −1Julgamentos do +1 T P i F P iClassificador −1 F N i T N iTabela 2.1: Tabela <strong>de</strong> Contingência para a classificação dosdocumentos <strong>de</strong> teste para a classe c i .Nesta abor<strong>da</strong>gem:• T P i dito como Ver<strong>da</strong><strong>de</strong>iros Positivos (do inglês, True Positives) <strong>da</strong> classe c i ,representa o número <strong>de</strong> documentos corretamente classificados <strong>na</strong> categoriac i ;• T N i dito como Ver<strong>da</strong><strong>de</strong>iros Negativos (do inglês, True Negatives) <strong>da</strong> classec i , representa o número <strong>de</strong> documentos corretamente não classificados <strong>na</strong>categoria c i ;• F P i dito como Falsos Positivos <strong>da</strong> classe c i , representa o número <strong>de</strong> documentosincorretamente classificados <strong>na</strong> categoria c i ;• F N i dito como Falsos Negativos <strong>da</strong> classe c i , representa o número <strong>de</strong> documentosincorretamente não classificados <strong>na</strong> categoria c i ;Utilizam-se os <strong>da</strong>dos <strong>da</strong> Tabela 2.1 para calcular a eficácia do classificadorutilizando as métricas <strong>de</strong> precisão p (do inglês, precision) e cobertura ou revocaçãor (do inglês, recall).


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 44Medi<strong>da</strong>s <strong>de</strong> Precisão e CoberturaA partir <strong>da</strong> medi<strong>da</strong> <strong>de</strong> precisão é possível estabelecer a proporção entre osdocumentos que foram classificados corretamente como sendo <strong>da</strong> classe c i (T P i ) comrelação a todos os documentos classificados como sendo <strong>da</strong> classe c i (T P i + F P i ),como mostrado <strong>na</strong> equação 2-22:p i =T P iT P i + F P i(2-22)A medi<strong>da</strong> <strong>de</strong> cobertura ou revocação, por sua vez, estabelece a proporçãoentre os documentos que foram classificados corretamente como sendo <strong>da</strong> classe c i(T P i ) com relação a todos os documentos que <strong>de</strong>veriam ter sido classificados comosendo <strong>da</strong> classe c i (T P i + F N i ), como mostrado <strong>na</strong> equação 2-23:r i =T P iT P i + F N i(2-23)A Figura 2.7 mostra a representação gráfica <strong>de</strong>stas duas medi<strong>da</strong>s.Cobertura (Recall): total <strong>de</strong> documentos classificados corretamente<strong>na</strong> classe sobre o número total <strong>de</strong> pertencentes à classeColeção <strong>de</strong> testePertencentes à classeClassificados <strong>na</strong> classeClassificados corretamente<strong>na</strong> classePrecisão: total <strong>de</strong> documentos classificados corretamente <strong>na</strong>classe sobre o número total <strong>de</strong> classificados <strong>na</strong> classeFigura 2.7: Representação gráfica <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> precisão ecobertura.Métrica-FA métrica-F (do inglês, F-measure), <strong>de</strong> acordo com Yang e Liu[68], combi<strong>na</strong>os valores <strong>de</strong> precisão e cobertura criando uma medi<strong>da</strong> única, como <strong>de</strong>finido <strong>na</strong>


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 45Equação 2-24:F α (c) = (α2 + 1)prα 2 p + r(2-24)<strong>na</strong> qual α <strong>de</strong>fine a importância relativa <strong>da</strong> precisão p e cobertura r. Quandoα = 0, somente a precisão é consi<strong>de</strong>ra<strong>da</strong>. Quando α = ∞, somente a coberturaé consi<strong>de</strong>ra<strong>da</strong>. Quando α = 0.5 a cobertura possui a meta<strong>de</strong> <strong>da</strong> importância <strong>da</strong>precisão, e assim por diante.A métrica-F utiliza<strong>da</strong> no presente trabalho é a métrica-F 1 a qual é obti<strong>da</strong>atribuindo pesos iguais para precisão e cobertura. Para isso, α é <strong>de</strong>finido com valor1. A equação 2-25 mostra o cálculo <strong>da</strong> métrica-F 1F 1 (c) = 2prp + r(2-25)A F 1 consi<strong>de</strong>ra o <strong>de</strong>sempenho <strong>de</strong> um classificador em relação a ape<strong>na</strong>s umacategoria. Para consi<strong>de</strong>rar to<strong>da</strong>s as categorias, um único valor para F 1 po<strong>de</strong> ser<strong>de</strong>rivado. Também é comum <strong>de</strong>rivar a métrica F 1 <strong>de</strong> modo a avaliar o <strong>de</strong>sempenhogeral do classificador por meio do cálculo <strong>da</strong> média <strong>da</strong>s F 1 calcula<strong>da</strong>s para ca<strong>da</strong>classe. Duas médias são normalmente utiliza<strong>da</strong>s com esse propósito: média microF 1e média macroF 1 [68].O cálculo <strong>da</strong> média microF 1 é realizado levando em conta o valor global <strong>de</strong>precisão e cobertura, por meio do somatório <strong>da</strong>s variáveis T P, T N, F P, F N <strong>de</strong> to<strong>da</strong>sas classes. Dessa forma, é possível obter o valor global <strong>de</strong> precisão e cobertura. Aprecisão global p g é calcula<strong>da</strong> por meio <strong>da</strong> equação 2-26:p g =∑ |C|i=1 T P i∑ |C|i=1 (T P i + F P i )(2-26)Por sua vez a cobertura global r g é calcula como:r g =∑ |C|i=1 T P i∑ |C|i=1 (T P i + F N i )(2-27)Nesse sentido, o cálculo <strong>de</strong> microF 1 é <strong>da</strong>do por:microF 1 = 2p gr gp g + r g(2-28)


2.4 <strong>Classificação</strong> <strong>de</strong> Documentos 46Dessa forma, a média microF 1 pon<strong>de</strong>ra as medi<strong>da</strong>s F 1 <strong>de</strong> ca<strong>da</strong> classecom base <strong>na</strong> representativi<strong>da</strong><strong>de</strong> <strong>da</strong> classe <strong>na</strong> coleção <strong>de</strong> acordo com o número <strong>de</strong>documentos em ca<strong>da</strong> classe.O cálculo <strong>da</strong> média macroF 1 é realizado a partir dos resultados <strong>de</strong> F 1i , oqual representa o valor <strong>de</strong> F 1 para ca<strong>da</strong> categoria c i <strong>da</strong> coleção. O cálculo <strong>de</strong>stamétrica é <strong>da</strong>do por:macroF 1 =∑ |C|i=1 F 1i|C|(2-29)É importante notar que a média macroF 1 parte do princípio <strong>de</strong> que ca<strong>da</strong>classe possui importância igual <strong>na</strong> coleção. Por este motivo, atribui-lhes pesos iguais,in<strong>de</strong>pen<strong>de</strong>nte <strong>da</strong> quanti<strong>da</strong><strong>de</strong> <strong>de</strong> documentos contidos em ca<strong>da</strong> uma. Já a médiamicroF 1 estabelece que ca<strong>da</strong> documento é igualmente importante, porém em coleçõeson<strong>de</strong> se observa uma distribuição <strong>de</strong> documentos em classes <strong>de</strong> forma muito irregular,observa-se que a métrica privilegia classes maiores.A partir <strong>da</strong>s diferentes abor<strong>da</strong>gens estabeleci<strong>da</strong>s pelas duas métricas, po<strong>de</strong>seperceber que se a maioria <strong>da</strong>s classes em uma coleção contiver proporcio<strong>na</strong>lmentepoucos documentos em relação ao todo, então a média macroF 1 possui uma maiorrelevância, pois são raros os casos em que é a<strong>de</strong>quado subestimar a importância <strong>de</strong>uma vasta <strong>de</strong>nsi<strong>da</strong><strong>de</strong> <strong>de</strong> classes. Caso contrário, a média microF 1 é uma métricatipicamente mais significativa.Método <strong>de</strong> Vali<strong>da</strong>ção Cruza<strong>da</strong>A obtenção <strong>de</strong> bons classificadores <strong>de</strong>pen<strong>de</strong> em gran<strong>de</strong> parte <strong>da</strong> escolhado conjunto <strong>de</strong> treino e teste a ser utiliza<strong>da</strong>. Para tanto, algumas coleções <strong>de</strong><strong>da</strong>dos utiliza<strong>da</strong>s para se avaliar classificadores textuais apresentam divisões padrãoentre treino e teste visando a tor<strong>na</strong>r comparáreis os experimentos realizados nestascoleções. Entretanto, para coleções que não possuem uma divisão padrão e até mesmopara as que a possuem, po<strong>de</strong>-se utilizar o método <strong>de</strong> vali<strong>da</strong>ção cruza<strong>da</strong> para avaliaro <strong>de</strong>sempenho <strong>de</strong> um classificador ao ser aplicado a uma coleção <strong>de</strong> <strong>da</strong>dos.A vali<strong>da</strong>ção cruza<strong>da</strong> tem se tor<strong>na</strong>do um método padrão para a avaliação <strong>de</strong>classificação <strong>de</strong> documentos [52] [38].• Vali<strong>da</strong>ção cruza<strong>da</strong> com k partições (do inglês, k-fold cross vali<strong>da</strong>tion):Este método consiste em construir k diferentes classificadores: Φ 1 , Φ 2 , . . . , Φ ka partir <strong>da</strong> divisão do corpus inicial Ω apresentado <strong>na</strong> Seção 2.4.1, em kconjuntos disjuntos: T e 1 , T e 2 , . . . , T e k com aproxima<strong>da</strong>mente |Ω| documentoskem ca<strong>da</strong> conjunto. Ca<strong>da</strong> classificador Φ i é trei<strong>na</strong>do usando Ω − T e i e avaliadoutilizando o conjunto <strong>de</strong> teste T e i . Ca<strong>da</strong> classificador é avaliado usualmente


2.5 Trabalhos Relacio<strong>na</strong>dos 47utilizando as medi<strong>da</strong>s <strong>de</strong> precisão, cobertura e F 1 , e fi<strong>na</strong>lmente a avaliaçãogeral é <strong>da</strong><strong>da</strong> pela média <strong>da</strong>s k avaliações realiza<strong>da</strong>s. O valor mais utilizado <strong>de</strong>k tem sido 10, o qual é <strong>de</strong>nomi<strong>na</strong>do como vali<strong>da</strong>ção cruza<strong>da</strong> com 10 partições10-fold cross vali<strong>da</strong>tion.• Vali<strong>da</strong>ção cruza<strong>da</strong> estratifica<strong>da</strong> com k partições (do inglês, Stratified k-Fold Cross Vali<strong>da</strong>tion): Este método é similar ao anterior, sendo que ao dividira coleção <strong>de</strong> documentos Ω em k conjuntos, a proporção <strong>de</strong> documentos emca<strong>da</strong> uma <strong>da</strong>s categorias é consi<strong>de</strong>ra<strong>da</strong> <strong>na</strong> constituição dos conjuntos. Nestecontexto, verifica-se o número <strong>de</strong> documentos <strong>de</strong> ca<strong>da</strong> categoria com relação aototal <strong>de</strong> documentos <strong>da</strong> coleção. Ca<strong>da</strong> partição k <strong>de</strong>ve ser composta respeitandoesta mesma proporção <strong>de</strong> distribuição <strong>de</strong> categorias entre os documentos quecompõem a partição.A partir dos métodos <strong>de</strong> vali<strong>da</strong>ção cruza<strong>da</strong> é possível verificar o comportamentodo classificador para ca<strong>da</strong> partição utiliza<strong>da</strong>. O presente trabalho utilizapartições fixas para as coleções Reuters e Ohsumed, e utiliza a vali<strong>da</strong>ção cruza<strong>da</strong>para a coleção 20Newsgroups, como será abor<strong>da</strong>do <strong>na</strong> Seção 4.2.2.5 Trabalhos Relacio<strong>na</strong>dosNesta seção serão apresentados alguns trabalhos relacio<strong>na</strong>dos ao enriquecimento<strong>da</strong> representação <strong>de</strong> documentos buscando aumentar o <strong>de</strong>sempenho do processo<strong>de</strong> classificação automática <strong>de</strong> documentos.Vários trabalhos <strong>na</strong> área <strong>de</strong> classificação <strong>de</strong> documentos propuseram melhoriasfrente ao mo<strong>de</strong>lo <strong>de</strong> conjunto <strong>de</strong> palavras (BOW) tradicio<strong>na</strong>l, com a fi<strong>na</strong>li<strong>da</strong><strong>de</strong><strong>de</strong> obter maior eficácia <strong>na</strong> construção <strong>de</strong> classificadores. Com este intuito, a expansão<strong>de</strong> características se mostrou, em diversos trabalhos, muito propensa a aju<strong>da</strong>rneste processo. Nas próximas linhas serão apresentados os trabalhos que enriquecema representação BOW, seja com informações extraí<strong>da</strong>s <strong>de</strong> <strong>de</strong>ntro <strong>da</strong> própria coleçãoou provin<strong>da</strong>s <strong>de</strong> fontes exter<strong>na</strong>s.Mla<strong>de</strong>nic e Grobelnik [41], utilizaram o aprendizado <strong>de</strong> máqui<strong>na</strong>s no processo<strong>de</strong> enriquecimento do BOW com n-gramas <strong>de</strong> comprimento até 3 (tambémchamados <strong>de</strong> 3-gramas ou trigramas) i<strong>de</strong>ntificados <strong>de</strong>ntro do próprio documento. Osautores constataram que o uso <strong>de</strong> n-gramas po<strong>de</strong> melhorar a eficácia <strong>da</strong> classificaçãoautomática <strong>de</strong> documentos. Ganhos mais acentuados provindos do uso <strong>de</strong>steselementos foram obtidos a partir <strong>de</strong> 2-gramas (também chamados <strong>de</strong> bigramas). Noreferido trabalho, os autores reportam que n-gramas maiores que 3 não se mostraramúteis <strong>na</strong> melhoria <strong>da</strong> classificação, <strong>de</strong>vido principalmente à quanti<strong>da</strong><strong>de</strong> <strong>de</strong> n-gramaspouco relevantes ao processo <strong>de</strong> classificação.


2.5 Trabalhos Relacio<strong>na</strong>dos 48Em seu trabalho, Fürnkranz e Grobelnik[17] utilizaram o enriquecimentodo BOW adicio<strong>na</strong>ndo n-gramas a esta representação a partir <strong>da</strong> análise <strong>de</strong> palavrasconsecutivas que compõem a matriz documento-termo dos documentos, conseguindomelhores resultados quando comparado aos obtidos por meio <strong>da</strong> representação<strong>de</strong> conjunto <strong>de</strong> palavras. Entretanto, sequências <strong>de</strong> comprimento maior que 3(trigramas) não possibilitaram melhorias nos resultados, <strong>de</strong> modo que em algunscasos esta metodologia gerou inclusive a <strong>de</strong>gra<strong>da</strong>ção do processo <strong>de</strong> classificação.Naquele trabalho, a frequência <strong>da</strong> ocorrência dos n-gramas <strong>de</strong>ntro dos documentostambém foi consi<strong>de</strong>ra<strong>da</strong>, sob a argumentação <strong>de</strong> que essa informação ten<strong>de</strong>ria amelhorar os resultados.Apesar dos bons resultados reportados pelos dois trabalhos acima relacio<strong>na</strong>dos,os autores não utilizam nenhum tipo <strong>de</strong> medi<strong>da</strong> <strong>de</strong> i<strong>de</strong>ntificação <strong>de</strong> n-gramasmais discrimi<strong>na</strong>tivos, bem como nenhuma técnica <strong>de</strong> seleção <strong>de</strong> característica oufiltragem <strong>de</strong> n-gramas ruidosos ou pouco discrimi<strong>na</strong>tivos.Gabrilovich et al. [19] propuseram um método <strong>de</strong> utilização <strong>de</strong> informaçõesprovin<strong>da</strong>s <strong>de</strong> enciclopédias <strong>na</strong> melhoria dos sistemas <strong>de</strong> classificação <strong>de</strong> textos. Nestetrabalho os autores utilizaram especificamente a enciclopédia <strong>Wikipédia</strong> e o ODP(do inglês, Open Directory Project), um serviço <strong>de</strong> diretório aberto <strong>de</strong> categorização<strong>de</strong> conteúdo Web. Primeiramente, construiu-se um classificador <strong>de</strong> texto <strong>de</strong> cunhoauxiliar por meio do qual relacio<strong>na</strong>m-se os documentos a serem classificados com oconjunto <strong>de</strong> artigos mais relevantes <strong>da</strong> <strong>Wikipédia</strong> a fim <strong>de</strong> encontrar similari<strong>da</strong><strong>de</strong>textual entre os dois elementos. Após isto, enriqueceu-se a representação convencio<strong>na</strong>lBOW com novas características, as quais correspon<strong>de</strong>m a conceitos, em suamaioria títulos dos artigos. Os resultados empíricos mostraram que esta abor<strong>da</strong>gemconseguiu melhorar a eficácia do processo <strong>de</strong> classificação <strong>de</strong> documentos em diversascoleções <strong>de</strong> <strong>da</strong>dos como Reuters-21578, RVC1, 20NG e Movie Reviews. Entretanto osautores não fizeram uso <strong>de</strong> todos os ricos relacio<strong>na</strong>mentos existentes <strong>na</strong> <strong>Wikipédia</strong>,tais como as relações <strong>de</strong> hiponímia e sinonímia.Wang et al.[63] construíram um tesauro informativo com <strong>da</strong>dos extraídos<strong>da</strong> <strong>Wikipédia</strong>, por meio do qual explicitamente <strong>de</strong>rivaram relações <strong>de</strong> sinonímia,polissemia, hiponímia e relações associativas entre conceitos <strong>de</strong>sta enciclopédia.Este tesauro foi utilizado para introduzir informações semânticas nos documentos,mostrando-se com um po<strong>de</strong>r <strong>de</strong> cobertura muito mais amplo do que qualquer tesauroconstruído manualmente, como no caso do WordNet 3 . As relações <strong>de</strong> sinonímia,polissemia e hiponímia foram extraí<strong>da</strong>s <strong>da</strong> forma mostra<strong>da</strong> <strong>na</strong> Seção 2.3, a partir <strong>de</strong>3 WordNet correspon<strong>de</strong> a um gran<strong>de</strong> banco <strong>de</strong> <strong>da</strong>dos léxico para a língua inglesa. Substantivos,verbos, adjetivos e advérbios são agrupados em conjuntos <strong>de</strong> sinônimos cognitivos <strong>de</strong>nomi<strong>na</strong>dossynsets, ca<strong>da</strong> um expressando um conceito distinto, fazendo o papel <strong>de</strong> dicionário e tesauro.


2.5 Trabalhos Relacio<strong>na</strong>dos 49uma varredura nos documentos <strong>da</strong> coleção a ser classifica<strong>da</strong> <strong>de</strong> modo a encontrarconceitos <strong>da</strong> <strong>Wikipédia</strong> presentes nestes. Entretanto, no referido trabalho não seconseguiu utilizar <strong>de</strong> forma satisfatória o enriquecimento <strong>de</strong> documentos por meio <strong>de</strong>sinônimos <strong>de</strong>rivados <strong>da</strong> <strong>Wikipédia</strong>. Por outro lado o enriquecimento <strong>de</strong> documentoscom relações <strong>de</strong> hiponímia gerou bons resultados. Como justificativa para o baixo<strong>de</strong>sempenho <strong>da</strong> utilização dos sinônimos, os autores reportam o excesso <strong>de</strong> ruídosprovindos <strong>de</strong>ste tipo <strong>de</strong> característica assim como a impossibili<strong>da</strong><strong>de</strong> <strong>de</strong> filtrar osconceitos sinônimos <strong>de</strong> baixa quali<strong>da</strong><strong>de</strong>. Os autores não reportam a utilização<strong>de</strong> nenhuma medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características a qual po<strong>de</strong>ria selecio<strong>na</strong>r umconjunto <strong>de</strong> sinônimos mais discrimi<strong>na</strong>tivos e menos ruidosos para o processo <strong>de</strong>classificação <strong>de</strong> documentos. A<strong>de</strong>mais, Wang et al. [63] ape<strong>na</strong>s relatam a necessi<strong>da</strong><strong>de</strong><strong>de</strong> melhoria no método <strong>de</strong> adição <strong>de</strong> sinônimos à representação BOW <strong>de</strong> modo queseja minimiza<strong>da</strong> a inserção <strong>de</strong> ruídos.Em seu trabalho, Figueiredo et al.[14] utilizam o critério <strong>de</strong> Predominânciacomo medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características visando a estimar a pertinência <strong>de</strong> umdocumento ser expandido por um novo termo. A partir <strong>de</strong>sta medi<strong>da</strong>, os autoresquantificam a probabili<strong>da</strong><strong>de</strong> global <strong>de</strong> um termo candi<strong>da</strong>to estar exclusivamenteassociado a uma classe. Visando a garantir um bom po<strong>de</strong>r <strong>de</strong> generalização dométodo, o referido trabalho utiliza ain<strong>da</strong> um valor fixo mínimo <strong>de</strong> ocorrência <strong>de</strong>termos em documentos do conjunto <strong>de</strong> treino <strong>da</strong> coleção, referenciado por [9] comosuporte mínimo. Entretanto, o suporte mínimo utilizado não garante um número<strong>de</strong> ocorrências mínimas em documentos <strong>de</strong>ntro <strong>de</strong> uma classe. Da mesma forma, osuporte mínimo não consi<strong>de</strong>ra a quanti<strong>da</strong><strong>de</strong> <strong>de</strong> documentos <strong>de</strong> treino <strong>na</strong> classe,utilizando o mesmo valor para classes muito peque<strong>na</strong>s, com 4 documentos, porexemplo, e classes muito gran<strong>de</strong>s com mais 2000 documentos, por exemplo. Pormeio <strong>da</strong> medi<strong>da</strong> <strong>de</strong> Predominância, Figueiredo et al.[14] selecio<strong>na</strong>m duplas <strong>de</strong> termosnão necessariamente adjacentes (referenciado por eles como c-termos), que possuemvalor acima <strong>de</strong> um limiar mínimo nesta medi<strong>da</strong>. A<strong>de</strong>mais, o referido trabalho tambémimpõe a seguinte restrição adicio<strong>na</strong>l para utilização dos c-termos: Um <strong>de</strong>termi<strong>na</strong>do c-termo só será utilizado <strong>na</strong> expansão <strong>de</strong> um documento d k se tal c-termo obtiver valor<strong>de</strong> Predominância mínima para classe c j e d k esteja entre o conjunto <strong>de</strong> documentospertencentes a c j . A partir <strong>da</strong> restrição <strong>de</strong> classe imposta por [14], e dos bonsresultados apresentados pelos referidos autores, o presente trabalho utiliza a referi<strong>da</strong>abor<strong>da</strong>gem <strong>de</strong> restrição <strong>de</strong> classe (CRC), comparando os resultados obtidos sem autilização <strong>de</strong>sta restrição(SRC).O Capítulo 3 apresenta a metodologia proposta pelo presente trabalho paraa expansão <strong>de</strong> características por meio <strong>da</strong> utilização <strong>da</strong> coocorrência <strong>de</strong> n-gramasnos documentos a serem classificados e <strong>na</strong> <strong>Wikipédia</strong> <strong>na</strong> forma <strong>de</strong> sinônimos e/ou


2.5 Trabalhos Relacio<strong>na</strong>dos 50categorias, propondo também uma medi<strong>da</strong> <strong>de</strong> importância para estes <strong>de</strong> modo aminimizar a inserção <strong>de</strong> ruídos durante o processo <strong>de</strong> expansão.


<strong>Uso</strong> <strong>da</strong> <strong>Wikipédia</strong> para Expansão <strong>de</strong><strong>Características</strong>CAPÍTULO 3Neste capítulo apresentam-se as abor<strong>da</strong>gens propostas pelo corrente trabalhopara a extração <strong>de</strong> características <strong>da</strong> enciclopédia <strong>Wikipédia</strong> e seu uso <strong>na</strong> CAT.A<strong>de</strong>mais, também são discutidos alguns <strong>de</strong>talhes pertinentes à implementação <strong>de</strong>ssasabor<strong>da</strong>gens. A Seção 3.1 apresenta a abor<strong>da</strong>gem proposta para extração <strong>de</strong> características<strong>da</strong> <strong>Wikipédia</strong> que também ocorrem nos documentos a serem classificados.São explicitados os pré-processamentos necessários, a in<strong>de</strong>xação <strong>da</strong> enciclopédia eos algoritmos <strong>de</strong> i<strong>de</strong>ntificação <strong>de</strong> conceitos presentes em documentos. A Seção 3.2apresenta a medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica FT1C, proposta por esta pesquisa.A Seção 3.3 apresenta a metodologia <strong>de</strong> utilização <strong>da</strong> medi<strong>da</strong> FT1C, assim comoexpla<strong>na</strong> sobre as metodologias <strong>de</strong> expansão <strong>de</strong> característica SRC e CRC. A Seção3.4 apresenta a metodologia <strong>de</strong> utilização <strong>da</strong>s categorias <strong>da</strong> <strong>Wikipédia</strong> em CAT.3.1 Extração <strong>de</strong> termos-chaves <strong>da</strong> <strong>Wikipédia</strong>Nesta seção é <strong>de</strong>scrita a abor<strong>da</strong>gem utiliza<strong>da</strong> neste trabalho para a extração<strong>de</strong> características <strong>da</strong> <strong>Wikipédia</strong> visando a melhorar o enriquecimento <strong>de</strong> coleçõesUni-rótulo 1 (do inglês, uni-label). As características extraí<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> sãoutiliza<strong>da</strong>s para expandir a representação BOW <strong>de</strong> documentos <strong>da</strong>s coleções a seremclassifica<strong>da</strong>s, com o objetivo <strong>de</strong> se obter uma melhoria <strong>na</strong> eficácia <strong>da</strong> classificação<strong>de</strong> documentos <strong>de</strong>ssas coleções.Para o entendimento do método proposto é interessante estabelecer umacomparação com a abor<strong>da</strong>gem comumente adota<strong>da</strong> para classificação <strong>de</strong> textos,utilizando aprendizado <strong>de</strong> máqui<strong>na</strong>, como po<strong>de</strong> ser visto <strong>na</strong> Figura 3.1.No mo<strong>de</strong>lo ilustrado <strong>na</strong> Figura 3.1, os documentos <strong>de</strong> treino e <strong>de</strong> teste sãorepresentados através do mo<strong>de</strong>lo VSM, como <strong>de</strong>scrito <strong>na</strong> Seção 2.1. Neste mo<strong>de</strong>lo,1 Coleções em que ca<strong>da</strong> documento pertence a somente uma única categoria.


3.1 Extração <strong>de</strong> termos-chaves <strong>da</strong> <strong>Wikipédia</strong> 52Documentos<strong>de</strong> treinoDocumentos<strong>de</strong> testeAlgoritmo <strong>de</strong>AprendizagemMo<strong>de</strong>lo <strong>de</strong><strong>Classificação</strong> /Classificador<strong>Classificação</strong>Predições <strong>de</strong> classep/ os documentos<strong>de</strong> testeFigura 3.1: Mo<strong>de</strong>lo tradicio<strong>na</strong>l <strong>de</strong> classificação <strong>de</strong> textos baseadoem aprendizado <strong>de</strong> máqui<strong>na</strong>.os termos são representados ape<strong>na</strong>s por meio do conjunto <strong>de</strong> palavras que ocorremdiretamente nos documentos, conhecido como BOW. Como visto <strong>na</strong> Subseção 2.1.1,a representação BOW não consegue estabelecer relações semânticas entre termos, oque limita o <strong>de</strong>sempenho dos classificadores.Em nosso trabalho, como ilustrado pela Figura 3.2, ampliamos a matrizBOW, que no método tradicio<strong>na</strong>l contém ape<strong>na</strong>s palavras <strong>da</strong> própria coleção a serclassifica<strong>da</strong>, adicio<strong>na</strong>ndo conceitos e/ou categorias extraí<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>, tantonos documentos <strong>de</strong> treino quanto nos documentos <strong>de</strong> teste. Os documentos sãoexpandidos com as características <strong>da</strong> <strong>Wikipédia</strong> relacio<strong>na</strong><strong>da</strong>s a conceitos <strong>de</strong>staenciclopédia que ocorrem nesses documentos. Como po<strong>de</strong> ser visualizado <strong>na</strong> Figura3.2, várias tarefas <strong>de</strong>vem ser realiza<strong>da</strong>s durante a metodologia proposta, as quaisserão abor<strong>da</strong><strong>da</strong>s adiante.3.1.1 Pré-processamento <strong>da</strong> <strong>Wikipédia</strong>O primeiro passo <strong>da</strong> metodologia é o pré-processando dos <strong>da</strong>dos <strong>da</strong> <strong>Wikipédia</strong>visando à extração <strong>de</strong> características úteis ao processo <strong>de</strong> classificação. A partir<strong>da</strong> versão em XML <strong>da</strong> <strong>Wikipédia</strong> são extraídos todos os títulos dos conceitos (artigos)que compõem esta enciclopédia. Dentre estes nem todos realmente representamconceitos que po<strong>de</strong>m ser úteis <strong>na</strong> CAT, e por esses motivos títulos <strong>de</strong> artigos queapresentam alguns padrões são <strong>de</strong>scartados, tais como “list of”, “th century”, “(<strong>de</strong>ca<strong>de</strong>)”,nomes <strong>de</strong> meses do ano, <strong>da</strong>tas, anos, títulos compostos ape<strong>na</strong>s por stop words,sobre letras do alfabeto, somente números, <strong>de</strong>ntre outros. No restante do texto, ostítulos que foram mantidos após a filtragem são <strong>de</strong>nomi<strong>na</strong>dos como w-conceitos. Sãoextraídos também os títulos dos conceitos <strong>de</strong> redirecio<strong>na</strong>mento, os quais <strong>de</strong>notamsinonímia para com os w-conceitos, como informado <strong>na</strong> Seção 2.3. Os títulos <strong>de</strong> redirecio<strong>na</strong>mentoque apontam para conceitos <strong>de</strong>scartados no procedimento <strong>de</strong> filtragemtambém são <strong>de</strong>scartados.


3.1 Extração <strong>de</strong> termos-chaves <strong>da</strong> <strong>Wikipédia</strong> 53XML dump<strong>Wikipédia</strong>ExtraçãoTítulos dos ConceitosTítulos <strong>de</strong> Redirecio<strong>na</strong>mentoCategorias dos ConceitosTítulos - CategoriasIn<strong>de</strong>xação dos Títulos <strong>de</strong>Conceitos e <strong>de</strong>Redirecio<strong>na</strong>mento(wiki-sinônimos) e categoriasAplicação <strong>de</strong> algoritmos <strong>de</strong> seleção<strong>de</strong> características e expansão <strong>de</strong> termosI<strong>de</strong>ntificação <strong>de</strong> Sinônimoswiki presentes nos docs.(w-conceitos) e categoriasDocumentos<strong>de</strong> treinoDocumentos<strong>de</strong> testeDocumentos<strong>de</strong> treinoenriquecidosDocumentos<strong>de</strong> testeenriquecidosAlgoritmo <strong>de</strong>AprendizagemMo<strong>de</strong>lo <strong>de</strong><strong>Classificação</strong> /Classificador<strong>Classificação</strong>Predições <strong>de</strong> classep/ os documentos<strong>de</strong> testeFigura 3.2: Mo<strong>de</strong>lo <strong>de</strong> abor<strong>da</strong>gem proposto para a classificação<strong>de</strong> textos baseado em aprendizado <strong>de</strong> máqui<strong>na</strong>.Por meio <strong>de</strong>ste processo também são extraídos todos os títulos <strong>da</strong>s categoriaspresentes nos conceitos <strong>da</strong> <strong>Wikipédia</strong>. Este procedimento é realizado fazendo-seuso dos links <strong>de</strong> categorias presentes nos artigos relacio<strong>na</strong>dos a estes w-conceitos.Neste trabalho, utilizou-se somente as categorias <strong>de</strong> nível mais baixo <strong>na</strong> hierarquia<strong>de</strong> categorias, isto é, utilizou-se somente as categorias que aparecem explicitamenteliga<strong>da</strong>s a um documento pela tag Category: que aparece em ca<strong>da</strong> documento. Comoca<strong>da</strong> categoria também é um conceito <strong>da</strong> <strong>Wikipédia</strong>, uma categoria po<strong>de</strong> pertencera outra categoria, formando níveis hierárquicos <strong>de</strong> categorias. A investigação <strong>de</strong> expansãocom características com outros níveis mais altos <strong>na</strong> hierarquia é estabeleci<strong>da</strong>como trabalho futuro.3.1.2 Grupos <strong>de</strong> conceitos sinônimos <strong>da</strong> <strong>Wikipédia</strong>Após o pré-processamento é feito um agrupamento por sinonímia <strong>de</strong> todosos w-conceitos e dos títulos <strong>de</strong> documentos <strong>de</strong> redirecio<strong>na</strong>mento que foram extraídos<strong>da</strong> <strong>Wikipédia</strong>. Ca<strong>da</strong> grupo é formado por um w-conceito e por todos os conceitos<strong>de</strong> redirecio<strong>na</strong>mento que possuem ligação para o mesmo por meio <strong>de</strong> um link <strong>de</strong>redirecio<strong>na</strong>mento. Um i<strong>de</strong>ntificador único w j é associado ao w-conceito representante<strong>de</strong> ca<strong>da</strong> grupo g j . Esta metodologia possibilita captar a noção <strong>de</strong> sinonímiaemprega<strong>da</strong> pelos redirecio<strong>na</strong>mentos. Ca<strong>da</strong> componente <strong>de</strong> um grupo é <strong>de</strong>nomi<strong>na</strong>dowiki-sinônimo, inclusive o w-conceito que representa o grupo.


3.1 Extração <strong>de</strong> termos-chaves <strong>da</strong> <strong>Wikipédia</strong> 54Um índice posicio<strong>na</strong>l ϕ é criado para permitir consultas por frase noagrupamento. O índice permite verificar se uma <strong>da</strong><strong>da</strong> frase correspon<strong>de</strong> a um wikisinônimoe, em caso afirmativo, retor<strong>na</strong> o i<strong>de</strong>ntificador w j correspon<strong>de</strong>nte ao grupo<strong>de</strong> sinônimos ao qual a frase pertence. Para tanto, uma função f <strong>de</strong> consulta ao índiceé utiliza<strong>da</strong>, a qual recebe como parâmetros o índice ϕ e a frase q a ser consulta<strong>da</strong>.Frases forma<strong>da</strong>s ape<strong>na</strong>s por stop-words são <strong>de</strong>sconsi<strong>de</strong>ra<strong>da</strong>s. A função f é <strong>de</strong>fini<strong>da</strong>como:⎧⎨w j , se q i correspon<strong>de</strong> a um wiki-sinônimo em ϕf(ϕ, q i ) =⎩0, caso contrário(3-1)A função f e o índice posicio<strong>na</strong>l ϕ são utilizados para verificar se um wikisinônimoocorre em um documento <strong>de</strong> uma coleção <strong>de</strong> textos a ser classifica<strong>da</strong>,conforme explica a Seção 3.1.3.3.1.3 I<strong>de</strong>ntificação dos w-conceitos em textos <strong>da</strong> coleção aser classifica<strong>da</strong>A i<strong>de</strong>ntificação <strong>da</strong> presença <strong>de</strong> w-conceitos é realiza<strong>da</strong> tanto nos documentos<strong>de</strong> treino quanto nos documentos <strong>de</strong> teste <strong>da</strong> coleção a ser classifica<strong>da</strong>. Para realizareste processo, utiliza-se uma a<strong>da</strong>ptação do método utilizado por [64], por meio <strong>de</strong>um algoritmo <strong>de</strong> janelas <strong>de</strong> termos que é aplicado aos textos dos documentos <strong>da</strong>coleção. Os w-conceitos i<strong>de</strong>ntificados neste processo são chamados <strong>de</strong> w-conceitoscandi<strong>da</strong>tos.O primeiro passo <strong>da</strong> i<strong>de</strong>ntificação <strong>de</strong> w-conceitos é a divisão <strong>de</strong> um documentoem vários trechos. Ca<strong>da</strong> trecho S é composto por um conjunto <strong>de</strong> palavrasque serão objeto <strong>de</strong> constituição <strong>de</strong> n-gramas visando a encontrar wiki-sinônimos.Estes trechos são <strong>de</strong>limitados por meio <strong>da</strong>s ocorrências <strong>de</strong> caracteres <strong>de</strong> pontuações esímbolos, com exceção <strong>de</strong> apóstrofos, palavras com hífen, e abreviações que utilizamponto, como U.S., por exemplo. Este aspecto visa a impossibilitar a formação <strong>de</strong>n-gramas a partir <strong>de</strong> palavras pertencentes a trechos semânticos diferentes, aumentandoa eficácia e a performance <strong>na</strong> busca por wiki-sinônimos. Os trechos <strong>de</strong>rivados<strong>de</strong>ste processo e que são compostos somente por números são <strong>de</strong>scartados.A Tabela 3.1 mostra um exemplo em que parte do documento 0003908 <strong>da</strong>Coleção Ohsumed é dividido em trechos, conforme a explicação acima.Uma vez obtidos os trechos, o algoritmo <strong>de</strong> janelas <strong>de</strong> termos, <strong>de</strong>scrito aseguir, é aplicado a ca<strong>da</strong> trecho, o qual é representado como um vetor <strong>de</strong> termos.O algoritmo <strong>de</strong> janelas funcio<strong>na</strong> do seguinte modo: seja t um <strong>da</strong>do trecho <strong>de</strong> um


3.1 Extração <strong>de</strong> termos-chaves <strong>da</strong> <strong>Wikipédia</strong> 55The presence of chlamydial <strong>de</strong>oxyribonucleic acid (d<strong>na</strong>) wasevaluated by d<strong>na</strong> hybridization in endocervical cells of infertileand normal fertile women. chlamydial d<strong>na</strong> was <strong>de</strong>tectedin 49 of 186 (26.3%) infertile patients, which is significantlymore common than in fertile control individuals(12.5%, or 8 of 64 individuals).trecho-1 The presence of chlamydial <strong>de</strong>oxyribonucleicacidtrecho-2 d<strong>na</strong>trecho-3 was evaluated by d<strong>na</strong> hybridization in endocervicalcells of infertile and normal fertilewomentrecho-4 Chlamydial d<strong>na</strong> was <strong>de</strong>tected in 49 of 186trecho-5 infertile patientstrecho-6 which is significantly more common than infertile control individualstrecho-7 or 8 of 64 individualsTabela 3.1: Exemplo <strong>de</strong> divisão do texto em trechos.documento d, uma janela <strong>de</strong> tamanho n = N max é posicio<strong>na</strong><strong>da</strong> mais à esquer<strong>da</strong>sobre o trecho t, se t tiver tamanho igual ou superior a n. Caso o tamanho <strong>de</strong> t sejamenor do que n, o algoritmo utiliza um tamanho <strong>de</strong> janela n igual ao tamanho <strong>de</strong> t.A sequência q <strong>de</strong> n termos que aparece <strong>na</strong> janela é consulta<strong>da</strong> no índice posicio<strong>na</strong>l ϕ,utilizando-se a função f(ϕ, q) <strong>de</strong>fini<strong>da</strong> <strong>na</strong> Seção 3.1.2. Se f(ϕ, q) = w j , para algumw j ≠ 0, o valor <strong>de</strong> w j é inserido no conjunto <strong>de</strong> w-conceitos candi<strong>da</strong>tos à expansão<strong>de</strong> d. Neste caso, a janela é <strong>de</strong>sloca<strong>da</strong> à direita n posições em t, e o algoritmobusca a próxima janela com tamanho n = N max , com o objetivo <strong>de</strong> procurar umnovo w-conceito. Se f(ϕ, q) = 0 e n > N min , então nesse caso, um w-conceito nãofoi encontrado e o tamanho <strong>da</strong> janela é diminuído <strong>de</strong> um, excluindo-se <strong>da</strong> mesmao termo mais a sua direita. Se, entretanto, f(ϕ, q) = 0 e n = N min , a janela é<strong>de</strong>sloca<strong>da</strong> à direita n posições e o tamanho n e o algoritmo busca a próxima janelacom tamanho n = N max . Esse processo continua até que não seja mais possível<strong>de</strong>slocar a janela à direita em t.O algoritmo é aplicado a todos os trechos <strong>de</strong> um documento d, gerandoum conjunto <strong>de</strong> w-conceitos candi<strong>da</strong>tos a expandir d. Neste trabalho, utilizou-seN min = 1 e N max = 4, conseguindo cobrir 87, 8% dos wiki-sinônimos <strong>da</strong> <strong>Wikipédia</strong>in<strong>de</strong>xados neste trabalho. Wiki-sinônimos maiores que 4 são muito raros, po<strong>de</strong>ndogerar <strong>de</strong>gra<strong>da</strong>ção dos resultados [41].A Tabela 3.2 mostra o resultado <strong>da</strong> aplicação do algoritmo <strong>de</strong> janelasaos trechos obtidos <strong>na</strong> Tabela 3.1. Por uma questão <strong>de</strong> melhor visualização, sãomostrados os títulos dos w-conceitos encontrados e não os i<strong>de</strong>ntificadores dos


3.2 Filtragem <strong>de</strong> w-conceitos não discrimi<strong>na</strong>tivos 56mesmos, retor<strong>na</strong>dos pelo algoritmo <strong>de</strong> janelas.Trechos wiki-sinônimos w-conceitostrecho-1 <strong>de</strong>oxyribonucleic acid d<strong>na</strong>trecho-2 d<strong>na</strong> d<strong>na</strong>d<strong>na</strong> hybridization nucleic acid thermody<strong>na</strong>micsendocervicalca<strong>na</strong>l of the cervixtrecho-3cellscellinfertileinfertilityfertilefertilitywomenwomantrecho-4chlamydialchlamydiad<strong>na</strong>d<strong>na</strong>trecho-5infertileinfertilitypatientspatienttrecho-6fertilefertilityindividualsindividualtrecho-7 individuals individualTabela 3.2: Relação entre wiki-sinônimos e w-conceitos extraídosdos trechos <strong>da</strong> Tabela 3.1.Por meio <strong>da</strong> Tabela 3.2, é possível visualizar algumas características importantes<strong>na</strong> busca <strong>de</strong> wiki-sinônimos em documentos. Ambas as expressões <strong>de</strong>oxyribonucleicacid no trecho-1 e d<strong>na</strong> no trecho-2 são wiki-sinônimos pertencentes aomesmo grupo do w-conceito d<strong>na</strong>. Dessa forma, mesmo que a primeira expressãoocorra em um documento e a segun<strong>da</strong> ocorra em outro, ambas serão trata<strong>da</strong>s comosendo o w-conceito d<strong>na</strong>, associando tais documentos. Também po<strong>de</strong> ser visualizadonos <strong>de</strong>mais trechos que o método auxilia <strong>na</strong> associação entre termos que estão noplural com seus equivalentes no singular, assim como variações léxicas como no caso<strong>de</strong> fertile e fertility.O método <strong>de</strong> uso <strong>de</strong> w-conceitos possui gran<strong>de</strong> possibili<strong>da</strong><strong>de</strong> <strong>de</strong> auxiliar aCAT, porém, ain<strong>da</strong> é necessário uma filtragem <strong>de</strong> w-conceitos candi<strong>da</strong>tos que nãosão bons discrimi<strong>na</strong>dores <strong>da</strong>s classes <strong>na</strong> coleção a ser expandi<strong>da</strong>. Na Seção 3.2, serávisto a <strong>de</strong>scrição <strong>de</strong>sta etapa do processo.3.2 Filtragem <strong>de</strong> w-conceitos não discrimi<strong>na</strong>tivosApós a i<strong>de</strong>ntificação dos w-conceitos candi<strong>da</strong>tos, uma parcela <strong>de</strong>stes nãoapresenta-se como bons discrimi<strong>na</strong>dores dos documentos nos quais aparecem. Autilização <strong>de</strong>stes w-conceitos em adição com a representação BOW do documento,po<strong>de</strong> gerar classificadores com baixa eficácia. Dessa forma, faz-se necessário ummétodo que impeça a inserção <strong>de</strong>stes w-conceitos no documento que será expandido.


3.2 Filtragem <strong>de</strong> w-conceitos não discrimi<strong>na</strong>tivos 57Em seu trabalho, Wang et. al.[64] também utiliza w-conceitos (referenciadoape<strong>na</strong>s como sinônimos). No entanto, tais elementos não contribuíram com oprocesso <strong>de</strong> classificação ao serem utilizados <strong>na</strong> expansão <strong>de</strong> documentos. O referidoautor reporta em seus resultados que a utilização <strong>de</strong> w-conceitos prejudica aclassificação <strong>de</strong> documentos <strong>de</strong>vido à inserção <strong>de</strong> termos ruidosos durante esteprocesso. To<strong>da</strong>via, o autor não executa nenhum tipo <strong>de</strong> seleção <strong>de</strong> característica(do inglês, feature selection) a fim <strong>de</strong> inserir ape<strong>na</strong>s termos com bom potencial paraserem discrimi<strong>na</strong>dores <strong>de</strong> categorias.Neste contexto, o presente trabalho busca utilizar um método <strong>de</strong> featureselection utilizando uma função <strong>de</strong> avaliação <strong>de</strong> termos (como <strong>de</strong>scrito <strong>na</strong> secção2.1.6 do Capítulo 2) capaz <strong>de</strong> selecio<strong>na</strong>r ape<strong>na</strong>s w-conceitos bons discrimi<strong>na</strong>dores <strong>de</strong>classes ao mesmo tempo que <strong>de</strong>scarta w-conceitos que não são bons discrimi<strong>na</strong>dores.Tal método é aplicado ape<strong>na</strong>s aos documentos <strong>de</strong> treino <strong>da</strong> coleção <strong>de</strong> forma que osw-conceitos aprovados nesta fase são <strong>de</strong>finidos como w-conceitos eleitos.Como exposto <strong>na</strong> Seção 2.1.6, as medi<strong>da</strong>s <strong>de</strong> avaliação <strong>de</strong> termos sãofun<strong>da</strong>mentais no processo <strong>de</strong> filtragem <strong>de</strong> características, visto que representamcritérios a serem seguidos durante o processo <strong>de</strong> seleção <strong>de</strong> termos.3.2.1 Fator <strong>de</strong> Tendência a uma categoria - FT1CO presente trabalho propõe uma função <strong>de</strong> avaliação <strong>de</strong> termos para o problema<strong>de</strong> seleção <strong>de</strong> w-conceitos candi<strong>da</strong>tos, a qual se a<strong>de</strong>que bem às variaçõesquantitativas <strong>da</strong>s classes, gerando maior capaci<strong>da</strong><strong>de</strong> <strong>de</strong> a<strong>da</strong>ptação às diversas coleções.Por meio <strong>de</strong>sta função <strong>de</strong> avaliação, tenta-se garantir que os documentos sejamenriquecidos com w-conceitos que, além <strong>de</strong> ten<strong>de</strong>rem a ape<strong>na</strong>s uma classe, possuamtambém uma abundância relativa suficiente <strong>de</strong>ntro <strong>da</strong> mesma classe.Seja D uma coleção <strong>de</strong> documentos particio<strong>na</strong><strong>da</strong> em dois conjuntos: D tro conjunto <strong>de</strong> trei<strong>na</strong>mento, para o qual se conhece a classe <strong>de</strong> ca<strong>da</strong> documentod ∈ D tr , e D te , o conjunto <strong>de</strong> documentos <strong>de</strong> teste, em que seus documentos não sãoclassificados. Preten<strong>de</strong>-se estabelecer uma medi<strong>da</strong> que represente a predominância<strong>de</strong> um w-conceito <strong>de</strong>ntro <strong>da</strong> categoria do documento no qual ocorre. Esta medi<strong>da</strong> éprovi<strong>da</strong> pelo conceito <strong>de</strong> Predominância-Local, por meio do qual w-conceitos muitoraros <strong>de</strong>ntro <strong>da</strong> classe po<strong>de</strong>m ser filtrados. Seja T = {t 1 , t 2 , . . . , t M } o conjunto<strong>de</strong> tamanho M formado por w-conceitos candi<strong>da</strong>tos a enriquecer os documentos<strong>da</strong> coleção D. O conjunto T é obtido pelo processo <strong>de</strong> extração <strong>de</strong> características<strong>de</strong>scrito <strong>na</strong> Seção 3.1.3. Seja C = {c 1 , c 2 , . . . , c K } o conjunto <strong>de</strong> K classes <strong>da</strong> coleçãoD. Ca<strong>da</strong> documento d <strong>de</strong> D tr pertence a uma única classe c i ∈ C. A Predominância-


3.2 Filtragem <strong>de</strong> w-conceitos não discrimi<strong>na</strong>tivos 58Local é formaliza<strong>da</strong> <strong>na</strong> Equação 3-2:P local (t i , c j ) = df(t i, c j )td(c j )(3-2)sendo df(t i , c j ) o número <strong>de</strong> documentos que o w-conceito t i é candi<strong>da</strong>to a enriquecer<strong>de</strong>ntro <strong>da</strong> classe c j , e td(c j ) o total <strong>de</strong> documentos contidos <strong>na</strong> classe c j . Porconseguinte, <strong>da</strong>do um w-conceito t i e uma categoria c j , a Predominância Local me<strong>de</strong>qual a probabili<strong>da</strong><strong>de</strong> <strong>de</strong> um documento x <strong>de</strong> c j conter t i . O método se a<strong>da</strong>pta bemtanto em classes peque<strong>na</strong>s quanto em gran<strong>de</strong>s classes, visto que para um mesmovalor <strong>de</strong> Predominância-Local, uma classe composta por uma maior quanti<strong>da</strong><strong>de</strong> <strong>de</strong>elementos <strong>de</strong>ve possuir mais documentos contendo o w-conceito t i do que uma classemenor.Entretanto, somente o valor <strong>da</strong> Predominância-Local não é capaz <strong>de</strong> <strong>de</strong>termi<strong>na</strong>rse um w-conceito é realmente bom discrimi<strong>na</strong>dor <strong>de</strong> uma classe, ape<strong>na</strong>s queo mesmo é abun<strong>da</strong>nte <strong>na</strong> referi<strong>da</strong> classe. Como visto <strong>na</strong> Seção 2.1.4, um <strong>de</strong>termi<strong>na</strong>dow-conceito que é abun<strong>da</strong>nte em várias categorias, e portanto ocorre em váriosdocumentos, tem seu po<strong>de</strong>r <strong>de</strong> discrimi<strong>na</strong>ção diminuído, o que <strong>de</strong> fato a medi<strong>da</strong> <strong>de</strong>Predominância-Local não consegue representar.Diante <strong>de</strong>ste contexto, propõe-se nesta seção reduzir o valor <strong>da</strong>Predominância-Local P local (t i , c j ) <strong>de</strong> um w-conceito t i em uma classe c j , ao se<strong>de</strong>duzir <strong>de</strong>ste valor a soma dos valores <strong>de</strong> Predominância-Local alcançados port i <strong>na</strong>s classes restantes <strong>da</strong> coleção D. Esta abor<strong>da</strong>gem é <strong>de</strong>fini<strong>da</strong> como Fator <strong>de</strong>tendência a uma categoria (F T 1C) a qual é <strong>da</strong><strong>da</strong> pela equação 3-3:F T 1C(t i , c j ) = df(t i, c j )td(c j )−|C|∑m=1df(t i , c m )td(c m )∀ c m ∈ C e c m ≠ c j (3-3)Por meio <strong>de</strong>sta equação, é possível perceber que ca<strong>da</strong> valor <strong>de</strong> PredominânciaLocal obtido <strong>da</strong> ocorrência do termo t i em categorias diferentes <strong>de</strong> c j é utilizadocomo um peso <strong>de</strong> <strong>de</strong>preciação <strong>de</strong> F T 1C(t i , c j ). Quanto mais categorias diferentest i ocorrer e quanto maiores os valores <strong>de</strong> Predominância-Local que t i obtiver <strong>na</strong>s<strong>de</strong>mais categorias <strong>de</strong> C, menor será o Fator <strong>de</strong> tendência a uma classe - F T 1C <strong>de</strong>t i em c j . Por outro lado, quanto maior for a Predominância Local em c j e menoscategorias diferentes <strong>de</strong> c j que t i ocorre e quanto menor o valor <strong>da</strong> PredominânciaLocal <strong>de</strong> t i nestas ocorrências, maior será o fator F T 1C <strong>na</strong> categoria c j .


3.3 Enriquecimento <strong>da</strong> coleção a partir <strong>de</strong> w-conceitos eleitos 593.3 Enriquecimento <strong>da</strong> coleção a partir <strong>de</strong> w-conceitos eleitosAs medi<strong>da</strong>s Information Gain, Gain Ratio, Chi-squared e F T 1C são utiliza<strong>da</strong>salter<strong>na</strong><strong>da</strong>mente como função f <strong>de</strong> avaliação no processo <strong>de</strong> seleção <strong>de</strong> características(w-conceitos e/ou categorias). O próximo passo é a escolha <strong>da</strong>s k característicasmais bem avalia<strong>da</strong>s pela função f as quais serão formadoras do conjunto T ′ <strong>de</strong> w-conceitos eleitos. To<strong>da</strong>s as medi<strong>da</strong>s po<strong>de</strong>m gerar até |C| valores diferentes para ca<strong>da</strong>w-conceito t i , visto que to<strong>da</strong>s as medi<strong>da</strong>s relacio<strong>na</strong><strong>da</strong>s acima indicam a importância<strong>de</strong> um termo t i para uma classe c j . Diante do exposto, utiliza-se a equação 2-14 paraextrair o valor global f global (t i ) a partir do maior valor obtido pela função local <strong>de</strong>avaliação f(t i , c j ). Os k w-conceitos que possuem o maior valor f global (t i ), integramo conjunto T ′ <strong>de</strong> w-conceitos eleitos, in<strong>de</strong>pen<strong>de</strong>ntemente <strong>da</strong> categoria por meio <strong>da</strong>qual o valor máximo foi obtido.Um w-conceito t n eleito para compor T ′ , mesmo sendo muito importantepara caracterizar uma classe c j po<strong>de</strong> ocorrer também em uma classe c m para a qualo valor <strong>de</strong> f(t n , c m ) seja menor que o valor <strong>de</strong> qualquer um dos k elementos <strong>de</strong>T ′ . A partir do exposto, seja D m o conjunto <strong>de</strong> documentos <strong>de</strong> treino associados àcategoria c m , se um w-conceito eleito t n ocorre em um documento <strong>de</strong> treino d ∈ D m ,criam-se duas abor<strong>da</strong>gens <strong>de</strong> inserção <strong>de</strong> w-conceitos eleitos no conjunto <strong>de</strong> treino:• SRC - Sem Restrição <strong>de</strong> Classe: O w-conceito eleito t n ∈ T ′ será utilizadono enriquecimento <strong>de</strong> qualquer documento em que o mesmo ocorra, inclusivenos documentos <strong>da</strong>s classes para as quais f(t n , c m ) é menor que o valor <strong>de</strong>f global (t n ).• CRC - Com Restrição <strong>de</strong> Classe: O w-conceito eleito t n ∈ T ′ só seráutilizado no enriquecimento <strong>de</strong> um documento d em c m se f(t n , c m ) obtivervalor maior ou igual ao menor valor f global <strong>de</strong>ntre os elementos <strong>de</strong> T ′ .Neste estudo foram comparados os <strong>de</strong>sempenhos <strong>da</strong>s medi<strong>da</strong>s FT1C, InformationGain, Gain Ratio e Chi-squared, sendo que para ca<strong>da</strong> uma <strong>de</strong>stas, comparouseo <strong>de</strong>sempenho <strong>da</strong>s duas abor<strong>da</strong>gens SRC e CRC <strong>de</strong> inserção <strong>de</strong> w-conceitos eleitosno conjunto <strong>de</strong> treino.No conjunto <strong>de</strong> teste, como não se sabe a qual categoria um documentopertence, um <strong>da</strong>do w-conceito candi<strong>da</strong>to é eleito para enriquecer um documento<strong>de</strong>ste conjunto se este w-conceito tiver enriquecido algum documento <strong>na</strong> etapa <strong>de</strong>treino, como po<strong>de</strong> ser visto <strong>na</strong> Figura 3.3.


3.4 Utilização <strong>da</strong>s Categorias <strong>da</strong> <strong>Wikipédia</strong> no Enriquecimento <strong>de</strong> documentos 60Conjunto <strong>de</strong>TesteCanditatos <strong>de</strong> d teEleitos <strong>na</strong>etapa <strong>de</strong> treinowcwc 1wc 24wc wc 7wc 36wc 5d tew-conceitos eleitos <strong>de</strong> d teFigura 3.3: Processo <strong>de</strong> enriquecimento dos documentos doconjunto <strong>de</strong> teste.3.4 Utilização <strong>da</strong>s Categorias <strong>da</strong> <strong>Wikipédia</strong> noEnriquecimento <strong>de</strong> documentosComo visto <strong>na</strong> Seção 2.3, ca<strong>da</strong> conceito <strong>da</strong> <strong>Wikipédia</strong> está relacio<strong>na</strong>do auma ou várias categorias, gerando uma relação <strong>de</strong> hiponímia entre tais elementos.Nesse sentido, conceitos que compartilham uma mesma categoria ten<strong>de</strong>m a estarsemanticamente relacio<strong>na</strong>dos.No presente trabalho, compara-se a eficácia <strong>da</strong> utilização <strong>de</strong> w-conceitoscom o uso <strong>da</strong>s categorias diretas <strong>de</strong>stes w-conceitos no processo <strong>de</strong> enriquecimento<strong>de</strong> documentos. Para tanto, duas abor<strong>da</strong>gens são a<strong>na</strong>lisa<strong>da</strong>s:Primeiramente, para ca<strong>da</strong> w-conceito candi<strong>da</strong>to a enriquecer um documento<strong>de</strong> <strong>de</strong>termi<strong>na</strong><strong>da</strong> categoria, extrai-se <strong>da</strong> <strong>Wikipédia</strong> o conjunto <strong>de</strong> categorias as quaistal w-conceito candi<strong>da</strong>to está diretamente ligado. Dessa maneira, ca<strong>da</strong> w-conceitocandi<strong>da</strong>to é substituído pelas categorias <strong>da</strong> <strong>Wikipédia</strong> às quais o mesmo estádiretamente relacio<strong>na</strong>do. A partir <strong>de</strong>ste processo, gera-se um conjunto <strong>de</strong> categoriascandi<strong>da</strong>tas a enriquecer os documentos <strong>da</strong>s coleções.A partir <strong>de</strong>sta etapa, aplica-se uma <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> avaliação <strong>de</strong> termoscomo <strong>de</strong>scrito <strong>na</strong> Seção 3.2.1 <strong>de</strong> modo que utiliza-se ape<strong>na</strong>s as categorias que foramaprova<strong>da</strong>s nesta etapa. As categorias eleitas são, então, utiliza<strong>da</strong>s no enriquecimentodos conjuntos <strong>de</strong> treino e teste conforme exposto <strong>na</strong> Seção 3.3 a<strong>na</strong>logamente aoprocedimento utilizado para os w-conceitos.A segun<strong>da</strong> forma <strong>de</strong> abor<strong>da</strong>gem <strong>de</strong> utilização <strong>da</strong>s categorias realiza a uniãoentre o conjunto <strong>de</strong> w-conceitos candi<strong>da</strong>tos com suas respectivas categorias. A partir<strong>de</strong>ste ponto to<strong>da</strong>s as etapas já <strong>de</strong>scritas para os w-conceitos são realiza<strong>da</strong>s para estenovo conjunto <strong>de</strong> características candi<strong>da</strong>tas.


3.4 Utilização <strong>da</strong>s Categorias <strong>da</strong> <strong>Wikipédia</strong> no Enriquecimento <strong>de</strong> documentos 61Ao realizar as duas formas <strong>de</strong> abor<strong>da</strong>gens, objetiva-se comparar o <strong>de</strong>sempenho<strong>da</strong>s funções <strong>de</strong> avaliação <strong>de</strong> termos FT1C, Information Gain, Gain Ratio eChi-Squared em diferentes coleções textuais para o processo <strong>de</strong> expansão <strong>de</strong> documentos.O Capítulo 4 trata do ambiente experimental utilizado, bem como dosresultados obtidos com a utilização <strong>da</strong>s abor<strong>da</strong>gens propostas.


Resultados ExperimentaisCAPÍTULO 4Neste Capítulo apresentam-se os resultados <strong>de</strong> experimentos com classificação<strong>de</strong> textos expandidos com características oriun<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>. Na Seção 4.1são apresenta<strong>da</strong>s as informações acerca <strong>da</strong> versão <strong>da</strong> <strong>Wikipédia</strong> utiliza<strong>da</strong> no presentetrabalho. Na Seção 4.2 são apresenta<strong>da</strong>s as coleções <strong>de</strong> <strong>da</strong>dos Reuters, Ohsumed e20Newsgroups, utiliza<strong>da</strong>s nos experimentos. Na Seção 4.3 apresenta-se a implementaçãoutiliza<strong>da</strong> do SVM, <strong>de</strong>nomi<strong>na</strong><strong>da</strong> SV M perf . A Seção 4.4 abor<strong>da</strong> a metodologiautiliza<strong>da</strong> nos experimentos <strong>de</strong> vali<strong>da</strong>ção do método proposto. Fi<strong>na</strong>lmente, a Seção 4.5apresenta os resultados alcançados pelos experimentos realizados, discutindo sobreseus ganhos e relacio<strong>na</strong>ndo-as aos problemas <strong>de</strong> pesquisa abor<strong>da</strong>dos pelo presentetrabalho.4.1 <strong>Características</strong> Experimentais <strong>da</strong> <strong>Wikipédia</strong>A versão utiliza<strong>da</strong> <strong>na</strong> pesquisa é a <strong>de</strong> língua inglesa, por ser a <strong>de</strong> maiorvolume <strong>de</strong> conceitos e porque os textos <strong>da</strong>s coleções utiliza<strong>da</strong>s nos experimentos sãoescritos em inglês. A <strong>da</strong>ta <strong>da</strong> criação <strong>de</strong>sta versão é <strong>de</strong> 17 <strong>de</strong> agosto <strong>de</strong> 2010, a qualpossui um volume <strong>de</strong> 26.7GB <strong>de</strong> <strong>da</strong>dos 1 .Foram in<strong>de</strong>xados 6.540.651 wiki-sinônimos diferentes, sejam estes conceitosprincipais ou <strong>de</strong> redirecio<strong>na</strong>mento, distribuídos <strong>de</strong>ntre os vários grupos, juntamentecom os w-conceitos representantes <strong>de</strong> ca<strong>da</strong> grupo, conforme <strong>de</strong>finição <strong>na</strong> Seção 3.1.2do Capítulo 3. Quanto ao comprimento dos wiki-sinônimos presentes <strong>na</strong> versão <strong>da</strong><strong>Wikipédia</strong> in<strong>de</strong>xa<strong>da</strong>, os mesmos são distribuídos <strong>da</strong> seguinte forma:• Quanti<strong>da</strong><strong>de</strong> <strong>de</strong> wiki-sinônimos <strong>de</strong> tamanho um (unigramas): 925.808.• Quanti<strong>da</strong><strong>de</strong> <strong>de</strong> wiki-sinônimos <strong>de</strong> tamanho dois (bigramas): 2.548.162.• Quanti<strong>da</strong><strong>de</strong> <strong>de</strong> wiki-sinônimos <strong>de</strong> tamanho três (trigramas): 1.524.605.• Quanti<strong>da</strong><strong>de</strong> <strong>de</strong> wiki-sinônimos <strong>de</strong> tamanho quatro (4-gramas): 749.392.1 Disponível em http://dumps.wikimedia.org/enwiki/20100817/.


4.2 Coleções Utiliza<strong>da</strong>s <strong>na</strong> Vali<strong>da</strong>ção <strong>da</strong> Abor<strong>da</strong>gem 63O restante dos wiki-sinônimos são distribuídos em n-gramas <strong>de</strong> tamanhosuperior a quatro. Desta forma, n-gramas com os comprimentos <strong>de</strong> um a quatrocompõe 87.8% dos wiki-sinônimos in<strong>de</strong>xados.Como visto no Capítulo 2, n-gramas <strong>de</strong> comprimentos maiores não trazemganhos concretos ao processo <strong>de</strong> CAT, <strong>de</strong> modo que em alguns casos foram observa<strong>da</strong>s<strong>de</strong>preciações nos resultados. Dessa forma, a presente pesquisa se concentrounesta faixa <strong>de</strong> comprimento <strong>de</strong> conceitos. Após a filtragem <strong>de</strong>scrita <strong>na</strong> Seção 3.1.1restaram ain<strong>da</strong> 3.418.739 wiki-sinônimos. Os que foram elimi<strong>na</strong>dos representam conceitosruidosos, <strong>de</strong> uso interno pela <strong>Wikipédia</strong>, ou com funções <strong>de</strong> aju<strong>da</strong> ao usuário<strong>de</strong>sta Enciclopédia.4.2 Coleções Utiliza<strong>da</strong>s <strong>na</strong> Vali<strong>da</strong>ção <strong>da</strong> Abor<strong>da</strong>gemPara experimentalmente avaliar nossa estratégia, empregamos três coleções<strong>de</strong> texto <strong>de</strong> referência comumente discuti<strong>da</strong>s <strong>na</strong> literatura:• Reuters-21578 2 com divisão Aptè <strong>de</strong> 90 categorias;• Ohsumed first-20000 3 ;• 20Newsgroups - All 20000 documents 4 ;Em to<strong>da</strong>s as coleções, as stop-words só foram removi<strong>da</strong>s após o processo <strong>de</strong>busca por wiki-sinônimos <strong>de</strong>ntro dos documentos, visto que tais termos participam<strong>da</strong> composição <strong>de</strong> n-gramas que formam um conceito <strong>da</strong> <strong>Wikipédia</strong>. A<strong>de</strong>mais, comopré-processamento, documentos pertencentes à múltiplas categorias também foramremovidos. Assim, to<strong>da</strong>s as coleções resultantes são forma<strong>da</strong>s ape<strong>na</strong>s por documentosuni-rotulados. Foram removi<strong>da</strong>s to<strong>da</strong>s as categorias que não possuem pelo menos umdocumento no conjunto <strong>de</strong> treino e um no conjunto <strong>de</strong> teste.A coleção Reuters utiliza<strong>da</strong> possui origi<strong>na</strong>lmente 12,902 documentos distribuídosem 90 classes utilizando a divisão ModApte [2]. Ao se aplicar as restrições <strong>de</strong>pré-processamento, esta coleção passou a possuir 9.129 documentos sendo 6.559 noconjunto <strong>de</strong> treino e 2.570 no conjunto <strong>de</strong> teste, distribuídos em 52 categorias. Osdocumentos <strong>de</strong>sta coleção representam notícias apresentando título, corpo do texto,localização geográfica, e <strong>da</strong>ta <strong>de</strong> publicação, <strong>de</strong>ntre outros atributos. A distribuição<strong>de</strong> documentos pelas categorias po<strong>de</strong> ser a<strong>na</strong>lisa<strong>da</strong> <strong>na</strong> Figura 4.1, por meio <strong>da</strong> qual2 Disponível em: http://disi.unitn.it/moschitti/corpora/Reuters21578-Apte-90Cat.tar.gz3 Disponível em: http://disi.unitn.it/moschitti/corpora/ohsumed-first-20000-docs.tar.gz4 Disponível em: http://disi.unitn.it/moschitti/corpora/20 newsgroups.tar.gz


4.2 Coleções Utiliza<strong>da</strong>s <strong>na</strong> Vali<strong>da</strong>ção <strong>da</strong> Abor<strong>da</strong>gem 64é possível verificar o alto grau <strong>de</strong> <strong>de</strong>sbalanceamento <strong>de</strong>sta coleção. O número <strong>de</strong>documentos <strong>de</strong>ntro <strong>de</strong> uma categoria varia <strong>de</strong> 1 para a classe platinum até 2.840para a classe earn. É possível verificar também que as classes earn e acq concentram67.63% <strong>de</strong> todo o conjunto <strong>de</strong> treino.A coleção Ohsumed contém documentos médicos coletados em 1991 relativosa 23 classes. A versão utiliza<strong>da</strong> contém os primeiros 20.000 documentos divididos em10.000 documentos para o conjunto <strong>de</strong> treino e 10.000 para o conjunto <strong>de</strong> teste. Apósa etapa <strong>de</strong> pré-processamento, removemos os documentos multi-classes, <strong>de</strong> forma queo número total <strong>de</strong> documentos resultante foi <strong>de</strong> 7.400 documentos, sendo 3.357 noconjunto <strong>de</strong> treino e 4.043 no conjunto <strong>de</strong> teste, distribuídos <strong>de</strong> forma irregular entreas 23 categorias. A distribuição <strong>de</strong> documentos no conjunto treino po<strong>de</strong> ser vista <strong>na</strong>Figura 4.2.A coleção 20Newsgroups possui 19.997 artigos contidos em 20 categorias. Oconteúdo dos documentos <strong>de</strong>sta coleção é constituído <strong>de</strong> um conjunto <strong>de</strong> textos<strong>de</strong> grupos <strong>de</strong> discussão provindos <strong>da</strong> re<strong>de</strong> Usenet. Esta coleção apresenta umagama <strong>de</strong> temas bem diversificados, incluindo categorias pouco relacio<strong>na</strong><strong>da</strong>s, assimcomo categorias fortemente relacio<strong>na</strong><strong>da</strong>s entre si, como o caso <strong>de</strong> Sistemas <strong>de</strong>Hardware <strong>de</strong> computadores PC (comp.sys.ibm.pc) e Sistemas <strong>de</strong> Hardware <strong>de</strong>computadores Macintosh (comp.sys.mac.hardware). A 20Newsgroups apresenta umgran<strong>de</strong> vocabulário e palavras que possuem mais <strong>de</strong> um significado. Ao mesmotempo, o estilo <strong>de</strong> escrita <strong>de</strong> seus documentos correspon<strong>de</strong> a diálogos por e-mail,o que a coloca bem distante <strong>de</strong> outras coleções <strong>de</strong> textos mais técnicos. Apóso pré-processamento <strong>de</strong>sta coleção o número total <strong>de</strong> documentos passou a ser<strong>de</strong> 19.582. Nesta coleção não há uma divisão <strong>de</strong> treino e teste padroniza<strong>da</strong>, <strong>de</strong>forma que nesta coleção utiliza-se o método <strong>de</strong> vali<strong>da</strong>ção cruza<strong>da</strong>, exposta <strong>na</strong> Seção2.4.4. Por conseguinte, várias divisões são realiza<strong>da</strong>s para ca<strong>da</strong> uma <strong>da</strong>s k-partições.Neste estudo utiliza-se a vali<strong>da</strong>ção cruza<strong>da</strong> <strong>de</strong> 5-partições, comumente utiliza<strong>da</strong> <strong>na</strong>literatura. A distribuição geral dos documentos nesta coleção po<strong>de</strong> ser observa<strong>da</strong> <strong>na</strong>Figura 4.3.Após o enriquecimento <strong>da</strong>s coleções, e estas haverem passado pelo processo<strong>de</strong> elimi<strong>na</strong>ção <strong>de</strong> stop-words, é cria<strong>da</strong> a matriz documento-termos conforme exemplificadopela equação 2-1. Nesta abor<strong>da</strong>gem, se um w-conceito ou categoria aparecemais <strong>de</strong> uma vez no documento, o mesmo será introduzido neste, tantas quantoforem as ocorrências <strong>de</strong>ste no referido documento.


4.2 Coleções Utiliza<strong>da</strong>s <strong>na</strong> Vali<strong>da</strong>ção <strong>da</strong> Abor<strong>da</strong>gem 65Categoriasear<strong>na</strong>cqcru<strong>de</strong>tra<strong>de</strong>money-fxinterestmoney-supplyshipsugarcoffeegoldgnpcpicocoagrainreservesjobsipirubbercopperalumiron-steel<strong>na</strong>t-gasbopveg-oilretailtinlivestockhousingcottonwpipet-chemorangeleimeal-feedlumbergasstrategic-metalzincincomeheatcarcassinstal-<strong>de</strong>btleadfuelnickeldlrcputeapotatojetplatinum25325122219112110897907059544641373734313131262422191917161515141313111010109876654433322210 500 1000 1500 2000 2500 300015962840Quanti<strong>da</strong><strong>de</strong> <strong>de</strong> documentosFigura 4.1: Distribuição dos documentos no conjunto <strong>de</strong>treino <strong>da</strong> coleção Reuters-21578 após o préprocessamento.


4.2 Coleções Utiliza<strong>da</strong>s <strong>na</strong> Vali<strong>da</strong>ção <strong>da</strong> Abor<strong>da</strong>gem 66700600585500Quanti<strong>da</strong><strong>de</strong> <strong>de</strong> documentos400300200430377240215179 176 168 155121 114 101 928310059 54 49040 35 29 25 219C14C04C23C21C10C20C06C18C12C08C01C17C13C05C16C15C11C19C09C07C02C03C22CategoriasFigura 4.2: Distribuição dos documentos no conjunto <strong>de</strong>treino <strong>da</strong> coleção Ohsumed após o préprocessamento.105010001000 1000 999 998 997 997 996 996 996 995 995 994 993 991 989 983964950934Quanti<strong>da</strong><strong>de</strong> <strong>de</strong> documentos900850800rec.sport.baseballrec.sport.hockeyrec.motorcyclessci.medcomp.sys.mac.hardwaresoc.religion.christiancomp.sys.ibm.pc.hardwaresci.cryptsci.electronicscomp.windows.xrec.autossci.spacecomp.graphicsmisc.forsalecomp.os.ms-windows.misctalk.politics.misctalk.politics.gunstalk.politics.mi<strong>de</strong>ast887 878alt.atheismtalk.religion.miscCategoriasFigura 4.3: Distribuição dos documentos <strong>da</strong> coleção 20Newsgroupsapós o pré-processamento.


4.3 Ambiente experimental <strong>de</strong> classificação com SVM 674.3 Ambiente experimental <strong>de</strong> classificação comSVMComo expla<strong>na</strong>do <strong>na</strong> Seção 2.4.3, utilizamos o algoritmo <strong>de</strong> classificaçãoSVM. Para tanto, fizemos uso do pacote (SV M P erf ) 5 disponibilizado por Joachims[27]. Este pacote implementa uma versão eficiente do classificador Support VectorMachine (SVM), o qual po<strong>de</strong> ser trei<strong>na</strong>do em um tempo que aumenta linearmentecom o tamanho do conjunto <strong>de</strong> treino. O SV M P erf é disponibilizado gratuitamentepara uso científico.Após o enriquecimento dos documentos <strong>de</strong> treino e teste <strong>de</strong> ca<strong>da</strong> uma <strong>da</strong>scoleções utiliza<strong>da</strong>s <strong>na</strong> vali<strong>da</strong>ção do método, a matriz documento-termo <strong>de</strong> ca<strong>da</strong> um<strong>de</strong>les é converti<strong>da</strong> no formato <strong>de</strong> entra<strong>da</strong> do SV M perf , tanto para a etapa <strong>de</strong> treinoquanto <strong>na</strong> classificação.Como trabalhamos com várias classes em uma mesma coleção, o método, <strong>de</strong>fato, <strong>de</strong>ve escolher <strong>de</strong>ntre to<strong>da</strong>s as classes <strong>de</strong>sta coleção, ape<strong>na</strong>s uma à qual um <strong>da</strong>dodocumento será relacio<strong>na</strong>do. Como o classificador SVM trabalha com classificaçãobinária, utilizamos a abor<strong>da</strong>gem um contra todos, vista <strong>na</strong> Seção 2.4.2.Como o presente trabalho não objetiva a extrema otimização <strong>da</strong> classificaçãoe sim verificar a melhoria do processo classificatório por meio do método proposto,utilizamos a configuração padrão do SV M perf para to<strong>da</strong>s as coleções utiliza<strong>da</strong>s.4.4 Metodologia ExperimentalNesta seção, são apresenta<strong>da</strong>s as metodologias utiliza<strong>da</strong>s nos experimentos,objetivando aplicar a abor<strong>da</strong>gem proposta <strong>de</strong> seleção <strong>de</strong> características (FT1C) como intuito <strong>de</strong> compará-la com outras medi<strong>da</strong>s comumente utiliza<strong>da</strong>s <strong>na</strong> literatura,assim como avaliar as duas formas <strong>de</strong> expansão <strong>de</strong> características investiga<strong>da</strong>s: semaplicação <strong>de</strong> restrição <strong>de</strong> classe para as características eleitas (SRC) e com a aplicação<strong>de</strong> restrição <strong>de</strong> classe às características eleitas (CRC).Especificamente, foram realizados experimentos aplicando a abor<strong>da</strong>gemproposta com o enriquecimento somente por w-conceitos, somente por categoriasdos w-conceitos e a combi<strong>na</strong>ção <strong>de</strong> ambos, <strong>na</strong>s coleções Reuters, 20Newsgroups eOhsumed.Em ca<strong>da</strong> uma <strong>da</strong>s coleções utiliza<strong>da</strong>s foram feitos experimentos <strong>de</strong> expansão<strong>de</strong> características <strong>de</strong> documentos com w-conceitos, categorias, e a combi<strong>na</strong>ção <strong>de</strong>ambos, utilizando as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características Information Gain, Gain5 Disponível em: http://svmlight.joachims.org/svm perf.html


4.4 Metodologia Experimental 68Ratio e Chi-squared, apresenta<strong>da</strong>s <strong>na</strong> Seção 2.1.6 do Capítulo 2, além <strong>da</strong> medi<strong>da</strong><strong>de</strong> seleção <strong>de</strong> característica proposta <strong>de</strong>nomi<strong>na</strong><strong>da</strong> F T 1C <strong>de</strong>scrita <strong>na</strong> Seção 3.2.1 doCapítulo 3.Para ca<strong>da</strong> medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica utiliza<strong>da</strong> nos experimentos,comparou-se os dois métodos <strong>de</strong> expansão <strong>da</strong>s características eleitas <strong>de</strong>nomi<strong>na</strong>dosSRC e CRC <strong>de</strong>scritos <strong>na</strong> Seção 3.3 do Capítulo 3.Após <strong>de</strong>termi<strong>na</strong>r o tipo <strong>de</strong> característica provin<strong>da</strong> <strong>da</strong> <strong>Wikipédia</strong> a serutiliza<strong>da</strong>, a coleção a ser enriqueci<strong>da</strong>, o tipo <strong>de</strong> medi<strong>da</strong> <strong>de</strong> importância <strong>de</strong> termos a serutiliza<strong>da</strong>, e a abor<strong>da</strong>gem <strong>de</strong> expansão <strong>da</strong>s características selecio<strong>na</strong><strong>da</strong>s, é necessárioain<strong>da</strong> <strong>de</strong>finir a quanti<strong>da</strong><strong>de</strong> k <strong>de</strong> características que <strong>de</strong>vem ser utiliza<strong>da</strong>s <strong>na</strong> etapa <strong>de</strong>seleção <strong>de</strong> características como <strong>de</strong>scrito <strong>na</strong> Seção 2.1.6. No presente trabalho, como intuito <strong>de</strong> facilitar a comparação entre características, o valor <strong>de</strong> k é <strong>de</strong>finido pormeio <strong>da</strong> limitação <strong>da</strong> porcentagem total <strong>da</strong>s características <strong>de</strong> expansão eleitas.Apesar <strong>de</strong> terem sido feitos experimentos com a utilização <strong>de</strong> porcentagens<strong>de</strong> utilização <strong>de</strong> 0,5% à 100% <strong>de</strong> características <strong>de</strong> expansão eleitas, os resultados <strong>de</strong>microF 1 e macroF 1 se <strong>de</strong>terioram rapi<strong>da</strong>mente acima <strong>de</strong> 19,5% <strong>na</strong> maioria dos casos.Diante <strong>de</strong>ste quadro e buscando uma melhor visualização <strong>da</strong> faixa <strong>de</strong> porcentagensem que os resultados se mostraram melhores, optou-se por reportar ape<strong>na</strong>s osresultados observados <strong>na</strong> faixa <strong>de</strong> porcentagens entre 0,5% até 19,5%.As Tabelas 4.1, 4.2 e 4.3 mostram a quanti<strong>da</strong><strong>de</strong> <strong>de</strong> características correspon<strong>de</strong>ntesa ca<strong>da</strong> valor <strong>de</strong> percentagem utiliza<strong>da</strong> respectivamente para as coleçõesReuters-21578, Ohsumed e 20newsgroups.Ao a<strong>na</strong>lisarmos o conteúdo <strong>de</strong>stas tabelas é possível perceber <strong>na</strong> linha<strong>de</strong> porcentagem 100% a quanti<strong>da</strong><strong>de</strong> <strong>de</strong> w-conceitos, categorias e união <strong>de</strong> ambos,candi<strong>da</strong>tos a enriquecer as coleções <strong>de</strong> <strong>da</strong>dos. Por exemplo, observe a Tabela 4.1 aqual apresenta 18.654 candi<strong>da</strong>tos w-conceitos, 26.404 candi<strong>da</strong>tos categorias e 45.058candi<strong>da</strong>tos provenientes <strong>da</strong> união <strong>de</strong> w-conceitos e categoria. Como os candi<strong>da</strong>tos dotipo categorias são <strong>de</strong>rivados a partir dos candi<strong>da</strong>tos do tipo w-conceitos, é possívelconstatar que o crescimento do número <strong>de</strong> conceitos <strong>de</strong> categorias <strong>de</strong>pen<strong>de</strong> <strong>de</strong> comoos w-conceitos geradores se relacio<strong>na</strong>m <strong>na</strong> <strong>Wikipédia</strong>. Dessa forma, se dois ou maisw-conceitos estão ligados à mesma categoria <strong>da</strong> <strong>Wikipédia</strong>, ape<strong>na</strong>s um candi<strong>da</strong>to <strong>de</strong>categoria será criado para substituir os dois w-conceitos utilizados. É notório que seesta situação ten<strong>de</strong> a se repetir com muita frequência, o número <strong>de</strong> candi<strong>da</strong>tos dotipo categorias ten<strong>de</strong>rá a ser menor que o número <strong>de</strong> candi<strong>da</strong>tos do tipo w-conceitos,entretanto, haverá mais documentos compartilhando as mesmas características <strong>de</strong>expansão, <strong>de</strong> forma que tais documentos estarão relacio<strong>na</strong>dos entre si.Se por outro lado um único w-conceito pertencer a mais <strong>de</strong> uma categoria,este w-conceito será substituído por to<strong>da</strong>s as categorias às quais o mesmo pertence.


4.4 Metodologia Experimental 69Por meio do mesmo raciocínio aplicado ao caso anterior, se situações com esta serepetirem <strong>de</strong>masia<strong>da</strong>mente, a quanti<strong>da</strong><strong>de</strong> <strong>de</strong> candi<strong>da</strong>tos do tipo categorias ten<strong>de</strong>ráa ser maior que os candi<strong>da</strong>tos do tipo w-conceitos.Ao se observar novamente a linha <strong>de</strong> 100% <strong>da</strong> Tabela 4.1 po<strong>de</strong>-se perceberque para os w-conceitos que coocorrem <strong>na</strong> coleção Reuters-21578 e <strong>na</strong> <strong>Wikipédia</strong>,muitos <strong>de</strong>les estão ligados a mais <strong>de</strong> uma categoria <strong>da</strong> <strong>Wikipédia</strong>, o que faz com queo número <strong>de</strong> candi<strong>da</strong>tos do tipo categorias seja maior que o <strong>de</strong> w-conceitos. Estamesma situação ocorre para a coleção 20newsgroups, como po<strong>de</strong> ser visto <strong>na</strong> Tabela4.3.Para a coleção Ohsumed (Tabela 4.2), a relação entre w-conceitos e categoriasse mostrou diferente. O número <strong>de</strong> categorias candi<strong>da</strong>tas nesta coleção é menorque o número <strong>de</strong> w-conceitos candi<strong>da</strong>tos, o que leva a concluir que vários w-conceitoscompartilham a mesma categoria nesta coleção.Nas linhas seguintes <strong>da</strong>s Tabelas 4.1, 4.2 e 4.3, são mostra<strong>da</strong>s as variações<strong>de</strong> porcentagens <strong>de</strong> características e sua respectiva quanti<strong>da</strong><strong>de</strong> absoluta, variando<strong>de</strong> 0,5% a 19,5%.


4.4 Metodologia Experimental 70Coleção Reuters-21578Proporção <strong>de</strong> utilização<strong>de</strong> <strong>Características</strong> Candi<strong>da</strong>tasTipos <strong>de</strong> características <strong>de</strong> expansãow-conceitos categorias w-conceitos + categorias100,0% 18654 26404 450580,5% 93 132 2251,0% 187 264 4511,5% 280 396 6762,0% 373 528 9012,5% 466 660 11263,0% 560 792 13523,5% 653 924 15774,0% 746 1056 18024,5% 839 1188 20285,0% 933 1320 22535,5% 1026 1452 24786,0% 1119 1584 27036,5% 1213 1716 29297,0% 1306 1848 31547,5% 1399 1980 33798,0% 1492 2112 36058,5% 1586 2244 38309,0% 1679 2376 40559,5% 1772 2508 428110,0% 1865 2640 450610,5% 1959 2772 473111,0% 2052 2904 495611,5% 2145 3036 518212,0% 2238 3168 540712,5% 2332 3301 563213,0% 2425 3433 585813,5% 2518 3565 608314,0% 2612 3697 630814,5% 2705 3829 653315,0% 2798 3961 675915,5% 2891 4093 698416,0% 2985 4225 720916,5% 3078 4357 743517,0% 3171 4489 766017,5% 3264 4621 788518,0% 3358 4753 811018,5% 3451 4885 833619,0% 3544 5017 856119,5% 3638 5149 8786Tabela 4.1: Tabela <strong>de</strong>mostrativa relacio<strong>na</strong>ndo porcentagem<strong>de</strong> uso <strong>de</strong> características <strong>de</strong> expansão e sua respectivaquanti<strong>da</strong><strong>de</strong> absoluta k para a coleçãoReuters-21578.


4.4 Metodologia Experimental 71Coleção OhsumedProporção <strong>de</strong> utilização<strong>de</strong> <strong>Características</strong> Candi<strong>da</strong>tasTipos <strong>de</strong> características <strong>de</strong> expansãow-conceitos categorias w-conceitos + categorias100,0% 16074 14929 310030,5% 80 75 1551,0% 161 149 3101,5% 241 224 4652,0% 321 299 6202,5% 402 373 7753,0% 482 448 9303,5% 563 523 10854,0% 643 597 12404,5% 723 672 13955,0% 804 746 15505,5% 884 821 17056,0% 964 896 18606,5% 1045 970 20157,0% 1125 1045 21707,5% 1206 1120 23258,0% 1286 1194 24808,5% 1366 1269 26359,0% 1447 1344 27909,5% 1527 1418 294510,0% 1607 1493 310010,5% 1688 1568 325511,0% 1768 1642 341011,5% 1849 1717 356512,0% 1929 1791 372012,5% 2009 1866 387513,0% 2090 1941 403013,5% 2170 2015 418514,0% 2250 2090 434014,5% 2331 2165 449515,0% 2411 2239 465015,5% 2491 2314 480516,0% 2572 2389 496016,5% 2652 2463 511517,0% 2733 2538 527117,5% 2813 2613 542618,0% 2893 2687 558118,5% 2974 2762 573619,0% 3054 2837 589119,5% 3134 2911 6046Tabela 4.2: Tabela <strong>de</strong>mostrativa relacio<strong>na</strong>ndo porcentagem<strong>de</strong> uso <strong>de</strong> características <strong>de</strong> expansão e sua respectivaquanti<strong>da</strong><strong>de</strong> absoluta k para a coleção Ohsumed.


4.4 Metodologia Experimental 72Coleção 20NGProporção <strong>de</strong> utilização<strong>de</strong> <strong>Características</strong> Candi<strong>da</strong>tasTipos <strong>de</strong> características <strong>de</strong> expansãow-conceitos categorias w-conceitos + categorias100,0% 55554 61391 1169450,5% 278 307 5851,0% 556 614 11691,5% 833 921 17542,0% 1111 1228 23392,5% 1389 1535 29243,0% 1667 1842 35083,5% 1944 2149 40934,0% 2222 2456 46784,5% 2500 2763 52635,0% 2778 3070 58475,5% 3055 3377 64326,0% 3333 3683 70176,5% 3611 3990 76017,0% 3889 4297 81867,5% 4167 4604 87718,0% 4444 4911 93568,5% 4722 5218 99409,0% 5000 5525 105259,5% 5278 5832 1111010,0% 5555 6139 1169510,5% 5833 6446 1227911,0% 6111 6753 1286411,5% 6389 7060 1344912,0% 6666 7367 1403312,5% 6944 7674 1461813,0% 7222 7981 1520313,5% 7500 8288 1578814,0% 7778 8595 1637214,5% 8055 8902 1695715,0% 8333 9209 1754215,5% 8611 9516 1812616,0% 8889 9823 1871116,5% 9166 10130 1929617,0% 9444 10436 1988117,5% 9722 10743 2046518,0% 10000 11050 2105018,5% 10277 11357 2163519,0% 10555 11664 2222019,5% 10833 11971 22804Tabela 4.3: Tabela <strong>de</strong>mostrativa relacio<strong>na</strong>ndo porcentagem<strong>de</strong> uso <strong>de</strong> características <strong>de</strong> expansão e sua respectivaquanti<strong>da</strong><strong>de</strong> absoluta k para a coleção20NG.


4.5 Análise dos resultados 734.5 Análise dos resultadosNesta seção, são a<strong>na</strong>lisados os resultados dos experimentos realizados como objetivo <strong>de</strong> respon<strong>de</strong>r aos problemas <strong>de</strong> pesquisa apresentados no Capítulo 1, osquais são transcritos abaixo com o objetivo <strong>de</strong> facilitar a leitura:Problema <strong>de</strong> pesquisa 1: A aplicação <strong>de</strong> um método <strong>de</strong> seleção <strong>de</strong> característicasconsegue melhorar a eficácia <strong>da</strong> utilização <strong>da</strong>s relações <strong>de</strong> sinonímia e <strong>de</strong> categoriasprovin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> durante o processo <strong>de</strong> expansão <strong>de</strong> documentos, reduzindo ainserção <strong>de</strong> ruídos e potencializando a adição <strong>de</strong> características boas discrimi<strong>na</strong>doras<strong>de</strong> classes?Problema <strong>de</strong> pesquisa 2: A utilização <strong>de</strong> uma medi<strong>da</strong> <strong>de</strong> avaliação <strong>de</strong> termos quepontue positivamente a abundância <strong>de</strong> uma característica <strong>na</strong> classe a qual pertenceo documento <strong>de</strong> treino a ser expandido e utilize como pe<strong>na</strong>lização a abundânciarelativa <strong>de</strong>sta mesma característica <strong>na</strong>s outras classes <strong>da</strong> coleção, po<strong>de</strong> se mostrarcomo opção competitiva <strong>na</strong> seleção <strong>de</strong> características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> <strong>na</strong>forma <strong>de</strong> conceitos sinônimos e categorias?Problema <strong>de</strong> pesquisa 3: A utilização <strong>de</strong> um método o qual permita a expansão <strong>de</strong>documentos somente com características bem avalia<strong>da</strong>s <strong>na</strong> classe do documento <strong>de</strong>treino a ser expandido, po<strong>de</strong>ria aumentar a eficácia <strong>da</strong> classificação <strong>de</strong> documentosenriquecidos com características provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>?Para que seja possível respon<strong>de</strong>r ao Problema <strong>de</strong> Pesquisa 1, <strong>de</strong>ve-secomparar os resultados em termos <strong>de</strong> microF 1 e macroF 1 obtidos ao se enriqueceruma coleção com w-conceitos e/ou categorias sem a utilização <strong>de</strong> nenhuma medi<strong>da</strong> <strong>de</strong>seleção <strong>de</strong> características, confrontando-os com os resultados obtidos com a utilização<strong>da</strong>s medi<strong>da</strong>s Information Gain, Gain Ratio, Chi-squared, além <strong>da</strong> medi<strong>da</strong> FT1Cproposta neste trabalho. Desta forma, po<strong>de</strong>-se confirmar ou refutar a hipótese <strong>de</strong>melhoria <strong>na</strong> expansão <strong>de</strong> documentos, apresenta<strong>da</strong> para este problema <strong>na</strong> Seção 1.Com o objetivo <strong>de</strong> respon<strong>de</strong>r ao Problema <strong>de</strong> Pesquisa 2, os experimentoscom as diversas medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características são utilizados para avaliar o<strong>de</strong>sempenho <strong>da</strong> medi<strong>da</strong> FT1C comparando seus resultados em termos <strong>de</strong> microF 1e macroF 1 obtidos ao se enriquecer uma coleção com w-conceitos e/ou categorias,com relação às <strong>de</strong>mais medi<strong>da</strong>s avalia<strong>da</strong>s, confirmando-se ou refutando-se a hipótese<strong>de</strong> competitivi<strong>da</strong><strong>de</strong> <strong>da</strong> medi<strong>da</strong> FT1C, apresenta<strong>da</strong> para este problema <strong>na</strong> Seção 2.Para que se possa respon<strong>de</strong>r ao Problema <strong>de</strong> Pesquisa 3, <strong>de</strong>ve-se aplicar arestrição <strong>de</strong> classe apresenta<strong>da</strong> pelo problema, <strong>de</strong>nomi<strong>na</strong><strong>da</strong> CRC, em conjunto comto<strong>da</strong>s as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características abor<strong>da</strong><strong>da</strong>s. Os resultados obtidos emtermos <strong>de</strong> microF 1 e macroF 1 com a aplicação <strong>de</strong>sta restrição são então confrontadoscom os resultados obtidos com as mesmas medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características


4.5 Análise dos resultados 74sem a aplicação <strong>da</strong> restrição <strong>de</strong> classe, SRC. A partir <strong>de</strong>stes experimentos épossível confirmar ou refutar a hipótese apresenta<strong>da</strong> para este problema <strong>na</strong> Seção 3,esperando-se que a restrição CRC po<strong>de</strong>ria melhorar os resultados <strong>da</strong> CAT, quandocomparado com as abor<strong>da</strong>gens sem o uso <strong>da</strong> restrição.Foram <strong>de</strong>fini<strong>da</strong>s várias abor<strong>da</strong>gens experimentais com o intuito <strong>de</strong> conduziros experimentos <strong>de</strong> modo a possibilitar as análises do problemas. Para ca<strong>da</strong> uma <strong>da</strong>scoleções Reuters, 20Newsgroup (20NG) e Ohsumed, foram coletados os resultadospara as seguintes abor<strong>da</strong>gens:1. <strong>Classificação</strong> <strong>de</strong> ca<strong>da</strong> coleção sem o uso <strong>de</strong> expansão <strong>de</strong> documentos, utilizadocomo linha base;2. <strong>Classificação</strong> com a expansão <strong>de</strong> ca<strong>da</strong> coleção com características <strong>da</strong> <strong>Wikipédia</strong>sem o uso <strong>de</strong> nenhuma medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características, ou seja, 100% <strong>da</strong>scaracterísticas extraí<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> são utiliza<strong>da</strong>s.3. <strong>Classificação</strong> com a expansão <strong>de</strong> ca<strong>da</strong> coleção com características <strong>da</strong> <strong>Wikipédia</strong>,utilizando ca<strong>da</strong> uma <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características InformationGain, Gain Ratio e Chi-squared, sem a aplicação <strong>da</strong> restrição CRC <strong>na</strong> expansãodos documentos.4. <strong>Classificação</strong> com a expansão <strong>de</strong> ca<strong>da</strong> coleção com características <strong>da</strong> <strong>Wikipédia</strong>,utilizando a medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características FT1C, proposta nestetrabalho, sem a aplicação <strong>da</strong> restrição CRC <strong>na</strong> expansão dos documentos.5. <strong>Classificação</strong> com a expansão <strong>de</strong> ca<strong>da</strong> coleção com características <strong>da</strong> <strong>Wikipédia</strong>,utilizando ca<strong>da</strong> uma <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características InformationGain, Gain Ratio e Chi-squared, com a aplicação <strong>da</strong> restrição CRC <strong>na</strong> expansãodos documentos.6. <strong>Classificação</strong> com a expansão <strong>de</strong> ca<strong>da</strong> coleção com características <strong>da</strong> <strong>Wikipédia</strong>,utilizando a medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características FT1C, proposta nestetrabalho, sem a aplicação <strong>da</strong> restrição CRC <strong>na</strong> expansão dos documentos.Foram realizados experimentos aplicando as abor<strong>da</strong>gens propostas utilizandocaracterísticas <strong>da</strong> <strong>Wikipédia</strong> <strong>na</strong> forma <strong>de</strong> w-conceitos, <strong>de</strong> categorias dos w-conceitos e <strong>da</strong> combi<strong>na</strong>ção <strong>de</strong> ambos. Com isso, pô<strong>de</strong>-se a<strong>na</strong>lisar o <strong>de</strong>sempenho <strong>da</strong>sabor<strong>da</strong>gens <strong>de</strong> expansão tanto em diferentes tipos <strong>de</strong> coleções textuais como tambémutilizando características <strong>da</strong> <strong>Wikipédia</strong> <strong>de</strong> <strong>na</strong>turezas diferentes.A Seção 4.5.1 apresenta a utilização <strong>de</strong> w-conceitos como características <strong>da</strong><strong>Wikipédia</strong>, a<strong>na</strong>lisando os resultados <strong>da</strong>s abor<strong>da</strong>gens experimentais com o intuito <strong>de</strong>relacio<strong>na</strong>r tais resultados com os Problemas <strong>de</strong> Pesquisa 1, 2 e 3. O mesmo é realizadopara as Seções 4.5.2 e 4.5.3 <strong>na</strong>s quais utilizam-se as categorias dos w-conceitos e acombi<strong>na</strong>ção <strong>de</strong> ambos, respectivamente.


4.5 Análise dos resultados 75A Tabela 4.4 apresenta a relação <strong>de</strong> todos os tipos <strong>de</strong> abor<strong>da</strong>gens utiliza<strong>da</strong>sneste trabalho. Para ca<strong>da</strong> uma <strong>da</strong>s abor<strong>da</strong>gens relacio<strong>na</strong><strong>da</strong>s nesta tabelaexperimentou-se variar o número k <strong>de</strong> características eleitas <strong>de</strong> acordo com a porcentagensdo total <strong>de</strong> candi<strong>da</strong>tas, conforme apresentado <strong>na</strong>s Tabelas 4.1, 4.2 e 4.3,variando <strong>de</strong> 0, 5% a 19, 5%.W-conceitosCategoriasAbor<strong>da</strong>gens investiga<strong>da</strong>sW-conceitos + CategoriasFT1CGAIN RATIOINFOGAINCHI-SQUAREDFT1CGAIN RATIOINFOGAINCHI-SQUAREDFT1CGAIN RATIOINFOGAINCHI-SQUAREDSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCSRCCRCTabela 4.4: Relação <strong>de</strong> abor<strong>da</strong>gens investigas nos experimentosrealizadosOs experimentos foram conduzidos com o intuito <strong>de</strong> calcular o valor <strong>da</strong>média microF 1 e macroF 1 para ca<strong>da</strong> uma <strong>da</strong>s porcentagens <strong>de</strong> característicaseleitas em ca<strong>da</strong> uma <strong>da</strong>s abor<strong>da</strong>gens investiga<strong>da</strong>s. Desta forma, foram realizados39 experimentos para ca<strong>da</strong> uma <strong>da</strong>s abor<strong>da</strong>gens <strong>da</strong> Tabela 4.4, além do resultadoobtido com a expansão sem a seleção <strong>de</strong> características, ou seja, utilizando 100% <strong>da</strong>scaracterísticas candi<strong>da</strong>tas.A significância estatística dos resultados <strong>de</strong> microF 1 e macroF 1 foi obti<strong>da</strong>por meio do teste estatístico Wilcoxon [66] bicau<strong>da</strong>l tendo como amostras parea<strong>da</strong>stodos os 39 diferentes valores <strong>de</strong> microF 1 , e posteriormente <strong>de</strong> macroF 1 , com relaçãoà linha base, obtidos para ca<strong>da</strong> k <strong>de</strong> uma mesma abor<strong>da</strong>gem.


4.5 Análise dos resultados 76As tabelas comparativas apresenta<strong>da</strong>s <strong>na</strong>s seções seguintes contém a colu<strong>na</strong>s.e. a qual informa a significância estatística dos resultados apresentados, expressospelas Figuras e , as quais significam, respectivamente, que o ganho ou per<strong>da</strong>apresentado foi fortemente significativo (≥ 98%), significativo (90% ≤ x < 98%) ounão significativo (< 90%).Os resultados apresentados para as coleções Reuters-21578 e Ohsumedforam obtidos a partir <strong>da</strong> divisão fixa <strong>de</strong> conjunto <strong>de</strong> treino e teste. Entretanto,para a coleção 20Newsgroups utilizou-se 5 particio<strong>na</strong>mentos diferentes, <strong>de</strong> modo osresultados apresentados são calculados a partir <strong>da</strong> média obti<strong>da</strong> entre as partições,conforme expla<strong>na</strong>do <strong>na</strong> Seção 4.2.A estabili<strong>da</strong><strong>de</strong> <strong>de</strong> ca<strong>da</strong> abor<strong>da</strong>gem é calcula<strong>da</strong> pelo <strong>de</strong>svio padrão dos valores<strong>de</strong> microF 1 e macroF 1 , e é expresso <strong>na</strong>s tabelas comparativas apresenta<strong>da</strong>s <strong>na</strong>sseções seguintes (colu<strong>na</strong> d.p.).4.5.1 Expansão com w-conceitosPrimeiramente, as abor<strong>da</strong>gens propostas foram aplica<strong>da</strong>s utilizando w-conceitos como características <strong>de</strong> expansão <strong>de</strong> documentos. A Figura 4.4 mostraos resultados em termos <strong>de</strong> microF 1 para a coleção Reuters. Ca<strong>da</strong> quadrante <strong>da</strong>Figura correspon<strong>de</strong> a uma medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica utiliza<strong>da</strong> <strong>de</strong> formacomparativa com as <strong>de</strong>mais. O gráfico <strong>de</strong> ca<strong>da</strong> quadrante contém duas curvas, ca<strong>da</strong>uma correspon<strong>de</strong>ndo a um dos métodos <strong>de</strong> expansão <strong>de</strong> termos investigados: SRC eCRC.Comparativo entre CRC e SRCA primeira comparação que po<strong>de</strong> ser realiza<strong>da</strong> é quanto ao <strong>de</strong>sempenho <strong>da</strong>smetodologias <strong>de</strong> expansão <strong>de</strong> termos sem a utilização <strong>de</strong> restrição <strong>de</strong> classe (SRC) ecom a aplicação <strong>de</strong> restrição <strong>de</strong> classe (CRC).A metodologia SRC se mostrou superior à metodologia CRC para to<strong>da</strong>s asmedi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características aplica<strong>da</strong>s à w-conceitos <strong>da</strong> coleção Reuters,como po<strong>de</strong> ser visto <strong>na</strong> Figura 4.4 para microF 1 e <strong>na</strong> Figura 4.5 para macroF 1 .O método <strong>de</strong> expansão CRC apresentou um comportamento estável somentequando utilizado com a medi<strong>da</strong> <strong>de</strong> FT1C <strong>de</strong> seleção <strong>de</strong> características, sendo que paraas <strong>de</strong>mais medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características o método prejudica sensivelmente aCAT quando comparado com a classificação sem expansão tanto em microF 1 quantoem macroF 1 .Apesar <strong>de</strong> nenhum método <strong>de</strong> expansão <strong>de</strong> características ter alcançadoganhos consi<strong>de</strong>ráveis em termos <strong>de</strong> microF 1 <strong>na</strong> coleção Reuters, o método <strong>de</strong>


4.5 Análise dos resultados 77Comparativo <strong>de</strong> Micro-F1/Reuters utilizando w-conceitos com FT1C.9595Comparativo <strong>de</strong> Micro-F1/Reuters utilizando w-conceitos com Gain-Ratio.94949393Micro - F19291CRCSRCLINHA-BASE.Micro - F19291CRCSRCLINHA-BASE.9090898988880,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,0050,0150,0250,0350,0450,0550,0650,0750,0850,0950,1050,1150,1250,1350,1450,1550,1650,1750,1850,195Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s95Comparativo <strong>de</strong> Micro-F1/Reuters utilizando w-conceitos com Info-Gain.Comparativo <strong>de</strong> Micro-F1/Reuters utilizando w-conceitos com Chi-squared95949493939292Micro - F191CRCSRCLINHA-BASE.Micro - F191CRCSRCLINHA-BASE.9090898988880,0050,0150,0250,0350,0450,0550,0650,0750,0850,0950,1050,1150,1250,1350,1450,1550,1650,1750,1850,1950,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.4: Resultados <strong>de</strong> microF 1 para coleção Reuters comw-conceitos e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.expansão <strong>de</strong> características SRC <strong>de</strong>monstrou ser o mais estável tanto em relação àvariação <strong>de</strong> percentagem <strong>de</strong> inclusão <strong>de</strong> w-conceitos, quanto à variação <strong>da</strong>s medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características.É importante ressaltar que apesar <strong>da</strong> contribuição do método <strong>de</strong> expansãoSRC ser peque<strong>na</strong> em termos <strong>de</strong> microF 1 , este resultado é importante, haja vistaque o valor <strong>da</strong> linha-base <strong>de</strong> microF 1 para a Reuters já se encontra em um patamarelevado (93, 69%).Nas Figuras 4.6 e 4.7, po<strong>de</strong>-se verificar que a metodologia com restrição<strong>de</strong> classe CRC melhora os resultados <strong>de</strong> classificação <strong>da</strong> coleção Ohsumed, emcomparação com a linha base, tanto em microF 1 quanto em macroF 1 somentequando utiliza<strong>da</strong> em conjunto com FT1C, sendo que para macroF 1 (Figura 4.7)


4.5 Análise dos resultados 7868676665Comparativo <strong>de</strong> Macro-F1/Reuters utilizando w-conceitos com FT1C.Comparativo <strong>de</strong> Macro-F1/Reuters utilizando w-conceitos com Gain-Ratio.68676665Macro Average Precision - F16463626160595857CRCSRCLINHA-BASE.Macro Average Precision - F16463626160595857CRCSRCLINHA-BASE.565655555454535352520,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Macro-F1/Reuters utilizando w-conceitos com Info-Gain.68Comparativo <strong>de</strong> Macro-F1/Reuters utilizando w-conceitos com Chi-squared686767666665656463CRCSRCLINHA-BASE.6463CRCSRCLINHA-BASE.Macro Average Precision - F1626160595857Macro Average Precision - F1626160595857565655555454535352520,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.5: Resultados <strong>de</strong> macroF 1 para coleção Reuterscom w-conceitos e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.esta metodologia consegue uma peque<strong>na</strong> superação em relação à abor<strong>da</strong>gem semrestrição <strong>de</strong> classe SRC, apresentando o maior valor <strong>de</strong> macroF 1 <strong>de</strong>ntre to<strong>da</strong>s asabor<strong>da</strong>gens, alcançando 52, 16% nesta média, o que representa 8, 16% <strong>de</strong> ganhose comparado à linha base, um pouco superior à metodologia SRC a qual atinge51, 80%, o que representa 7, 41% <strong>de</strong> ganho. Com as <strong>de</strong>mais medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong>característica, o método SRC visivelmente se mostra superior ao método CRC.Os resultados mostrados <strong>na</strong>s Figuras 4.8 e 4.9, para a coleção 20Newsgroups,<strong>de</strong>mostram que também para esta coleção o método CRC apresenta ganhos somentequando utilizado com a medi<strong>da</strong> FT1C, <strong>na</strong> expansão com w-conceitos.Apesar dos bons resultados apresentados pela expansão <strong>de</strong> documentos utilizandoCRC em conjunto com a medi<strong>da</strong> FT1C <strong>na</strong>s coleções Ohsumed e 20News-


4.5 Análise dos resultados 79Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos com FT1C.6363Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos com Gain-Ratio.626261616059CRCSRCLINHA-BASE.6059CRCSRCLINHA-BASE.5858Micro - F1575655Micro - F15756545553545253515250510,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s500,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos com Info-Gain6363Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos com X2.626261616059CRCSRCLINHA-BASE.6059CRCSRCLINHA-BASE.5858Micro - F15756Micro - F157565555545453535252515150500,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.6: Resultados <strong>de</strong> microF 1 para coleção Ohsumedcom w-conceitos e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.Groups, o baixo <strong>de</strong>sempenho <strong>de</strong>sta restrição ao ser utiliza<strong>da</strong> com outras medi<strong>da</strong>s <strong>de</strong>seleção <strong>de</strong> características, além <strong>da</strong> <strong>de</strong>gra<strong>da</strong>ção <strong>da</strong> classificação <strong>da</strong> coleção Reuters,mesmo em conjunto com a medi<strong>da</strong> FT1C, nos leva a concluir que o método CRCé instável, variando muito o resultado <strong>da</strong> classificação e que portanto não é recomen<strong>da</strong>docomo um método geral <strong>de</strong> expansão <strong>de</strong> características. O método SRC,por sua vez é o que apresentou resultados mais estáveis em to<strong>da</strong>s as coleções, eprincipalmente, quando utilizado com a medi<strong>da</strong> FT1C .Comparativo entre medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasConforme explicitado <strong>na</strong> subseção anterior, o método CRC aplicado a w-conceitos somente apresentou resultados satisfatórios quando utilizado em conjunto


4.5 Análise dos resultados 80Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos com FT1C.5554535255545352Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos com Gain-Ratio.Macro Average Precision - F151504948474645444342CRCSRCLINHA-BASE.Macro Average Precision - F151504948474645444342CRCSRCLINHA-BASE.414140403939383837370,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos com Info-Gain55Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos com Chi-squared.55545453535252Macro Average Precision - F151504948474645444342CRCSRCLINHA-BASE.Macro Average Precision - F151504948474645444342CRCSRCLINHA-BASE.414140403939383837370,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.7: Resultados <strong>de</strong> macroF 1 para coleção Ohsumedcom w-conceitos e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.com a medi<strong>da</strong> FT1C. Diante do exposto, utilizamos ape<strong>na</strong>s o método sem restrição<strong>de</strong> classe SRC nos experimentos <strong>de</strong> comparação entre as 4 medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong>características utiliza<strong>da</strong>s.Apesar do método <strong>de</strong> seleção <strong>de</strong> características Information Gain terapresentado o pico mais alto <strong>de</strong> microF 1 para a expansão <strong>de</strong> w-conceitos <strong>na</strong> coleçãoReuters com SRC, a medi<strong>da</strong> FT1C se mostrou competitiva com as medi<strong>da</strong>s jáconsagra<strong>da</strong>s <strong>na</strong> literatura Information Gain, Gain Ratio e Chi-squared, visto queapresentou a menor que<strong>da</strong>, estando sempre acima <strong>da</strong> linha base, conforme po<strong>de</strong> servisualizado <strong>na</strong> Tabela 4.5.A Figura 4.5 mostra os resultados em termos <strong>de</strong> macroF 1 para a coleçãoReuters. A medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características FT1C apresentou o maior ganho


4.5 Análise dos resultados 8180Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos com FT1C.80Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos com Gain-Ratio7979787877777676Micro - F17574CRCSRCLINHA-BASE.Micro - F17574CRCSRCLINHA-BASE.73737272717170700,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s80Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos com Info-Gain80Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos com X2.7979787877777676Micro - F17574CRCSRCLINHA-BASE.Micro - F17574CRCSRCLINHA-BASE.73737272717170700,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.8: Resultados <strong>de</strong> microF 1 para coleção 20NG comw-conceitos e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.Resultados <strong>de</strong> microF 1 para Reuters expandi<strong>da</strong> com w-conceitos/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C94,05 0,38% 93,72 0,03% 0,092Gain Ratio 94,16 0,50% 93,58 -0,12% 0,13093,69Info Gain 94,42 0,77% 93,71 0,02% 0,160Chi-Squared 94,14 0,47% 93,63 -0,06% 0,124100% dos Candi<strong>da</strong>tos 93,77 0,09% 93,77 0,09%Tabela 4.5: Resultados máximos e mínimos <strong>de</strong> microF 1 paraReuters expandi<strong>da</strong> com w-conceitos e SRC, com4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>s coma utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.


4.5 Análise dos resultados 8280Comparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos com FT1C.80Comparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos com Gain-Ratio.79797878Macro Average Precision - F17776757473CRCSRCLINHA-BASE.Macro Average Precision - F17776757473CRCSRCLINHA-BASE.7272717170700,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s80Comparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos com Info-Gain80Comparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos com Chi-squared7979787877CRCSRC77CRCSRCMacro Average Precision - F176757473LINHA-BASE.Macro Average Precision - F176757473LINHA-BASE.7272717170700,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.9: Resultados <strong>de</strong> macroF 1 para coleção 20NG comw-conceitos e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.<strong>de</strong> macroF 1 , utilizando o método <strong>de</strong> expansão SRC, como po<strong>de</strong> se observado <strong>na</strong>Tabela 4.6, com valor máximo <strong>de</strong> 67, 48%, mostrando maior estabili<strong>da</strong><strong>de</strong> durante asvariações <strong>de</strong> porcentagens <strong>de</strong> características, sendo a única a se manter acima <strong>da</strong>linha base em to<strong>da</strong> a faixa <strong>de</strong> valores a<strong>na</strong>lisa<strong>da</strong>.Nesse sentido, apesar <strong>de</strong> apresentar um ganho máximo <strong>de</strong> macroF 1 <strong>de</strong> ape<strong>na</strong>s1, 86%, a medi<strong>da</strong> FT1C com método SRC não gera <strong>de</strong>gra<strong>da</strong>ção <strong>da</strong> classificação<strong>da</strong> coleção Reuters em nenhuma porcentagem <strong>de</strong> característica.As Figuras 4.6 e 4.7 apresentam os resultados <strong>de</strong> microF 1 e macroF 1 ,respectivamente, para a coleção Ohsumed ao ser expandi<strong>da</strong> com w-conceitos. Ao sea<strong>na</strong>lisar os gráficos <strong>da</strong>s Figuras po<strong>de</strong>-se constatar uma maior estabili<strong>da</strong><strong>de</strong> do métodoFT1C se comparado às <strong>de</strong>mais medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características, também para


4.5 Análise dos resultados 83Resultados <strong>de</strong> macroF 1 para Reuters expandi<strong>da</strong> com w-conceitos/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C67,48 1,86% 66,33 0,13% 0,283Gain Ratio 67,18 1,42% 65,30 -1,42% 0,485Info Gain 66,24 67,37 1,69% 65,04 -1,81% 0,404Chi-Squared 66,94 1,05% 64,72 -2,29% 0,447100% dos Candi<strong>da</strong>tos 65,68 -0,85% 65,68 -0,85%Tabela 4.6: Resultados máximos e mínimos <strong>de</strong> macroF 1para Reuters expandi<strong>da</strong> com w-conceitos e SRC,com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.esta coleção. Os valores máximos e mínimos <strong>de</strong> to<strong>da</strong>s as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong>características para a coleção Ohsumed são apresentados <strong>na</strong>s Tabelas 4.7 e 4.8. PorResultados <strong>de</strong> microF 1 para Ohsumed expandi<strong>da</strong> com w-conceitos/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C62,67 3,58% 60,91 0,67% 0,364Gain Ratio 62,17 2,74% 61,14 1,06% 0,21260,50Info Gain 61,93 2,35% 60,95 0,73% 0,254Chi-Squared 61,44 1,54% 60,83 0,54% 0,133100% dos Candi<strong>da</strong>tos 61,14 1,06% 61,14 1,06%Tabela 4.7: Resultados máximos e mínimos <strong>de</strong> microF 1 paraOhsumed expandi<strong>da</strong> com w-conceitos e SRC,com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.meio <strong>de</strong>stas tabelas é possível verificar que a medi<strong>da</strong> FT1C apresentou os melhoresresultados tanto em microF 1 para o qual obteve 3, 58% <strong>de</strong> ganho em relação à linhabase, quanto <strong>de</strong> macroF 1 para a qual o ganho foi <strong>de</strong> 7, 41%.A coleção 20Newsgroups tem seus resultados <strong>de</strong> microF 1 e macroF 1 apresentadosnos gráficos <strong>da</strong>s Figuras 4.8 e 4.9. A partir <strong>de</strong>stes gráficos é possível constatara superiori<strong>da</strong><strong>de</strong> <strong>da</strong> medi<strong>da</strong> <strong>de</strong> seleção FT1C <strong>na</strong> expansão por w-conceitos, aqual apresentou maior estabili<strong>da</strong><strong>de</strong> que as <strong>de</strong>mais, mostrando um bom suporte àsalterações <strong>na</strong> porcentagem w-conceitos utilizados.As <strong>de</strong>mais medi<strong>da</strong>s Gain Ratio, Information Gain e Chi-squared apresentaramque<strong>da</strong>s acentua<strong>da</strong>s <strong>de</strong> <strong>de</strong>sempenho com o aumento <strong>da</strong> porcentagem <strong>de</strong> característicasutiliza<strong>da</strong>s <strong>na</strong> expansão por w-conceitos.Por meio <strong>da</strong>s Tabelas 4.9, 4.10 po<strong>de</strong>-se verificar que os maiores valores <strong>de</strong>microF 1 e macroF 1 também foram alcançados pela medi<strong>da</strong> FT1C com ganhos <strong>de</strong>


4.5 Análise dos resultados 84Resultados <strong>de</strong> macroF 1 para Ohsumed expandi<strong>da</strong> com w-conceitos/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C51,80 7,41% 49,36 2,34% 0,464Gain Ratio 50,48 4,67% 49,24 2,11% 0,25248,22Info Gain 49,57 2,78% 48,45 0,47% 0,281Chi-Squared 48,75 1,08% 47,57 -1,36% 0,331100% dos Candi<strong>da</strong>tos 48,15 -0,15% 48,15 -0,15%Tabela 4.8: Resultados máximos e mínimos <strong>de</strong> macroF 1para Ohsumed expandi<strong>da</strong> com w-conceitos eSRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.1, 61% e 1, 74% respectivamente. Esta medi<strong>da</strong> também foi a única que não trouxeResultados <strong>de</strong> microF 1 para 20Newsgroups expandi<strong>da</strong> com w-conceitos/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C78,12 1,61% 77,37 0,63% 0,125Gain Ratio 77,53 0,85% 76,49 -0,49% 0,26376,88Info Gain 77,51 0,82% 76,49 -0,50% 0,273Chi-Squared 77,66 1,01% 76,55 -0,42% 0,335100% dos Candi<strong>da</strong>tos 76,67 -0,27% 76,67 -0,27%Tabela 4.9: Resultados máximos e mínimos <strong>de</strong> microF 1para 20Newsgroups expandi<strong>da</strong> com w-conceitose SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.<strong>de</strong>gra<strong>da</strong>ção para a CAT <strong>de</strong>ntro <strong>da</strong> faixa <strong>de</strong> porcentagens a<strong>na</strong>lisa<strong>da</strong>, mesmo no piorcaso <strong>de</strong> microF 1 e macroF 1 .Além <strong>da</strong>s 4 medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características, também testou-se o<strong>de</strong>sempenho <strong>da</strong> CAT ao se expandir as coleções Reuters, Ohsumed, e 20Newsgroupsutilizando 100% <strong>da</strong>s características candi<strong>da</strong>tas, ou seja, sem realizar qualquer seleção<strong>de</strong> características ou restrição <strong>de</strong> expansão. A inserção <strong>de</strong> 100% dos w-conceitosé utiliza<strong>da</strong> por Wang et al. [64], cujas conclusões <strong>de</strong>fen<strong>de</strong>m que a utilização <strong>de</strong>w-conceitos (relações <strong>de</strong> sinonímia) no processo <strong>de</strong> expansão <strong>de</strong> documentos nãoconsegue trazer melhorias à CAT. A análise <strong>da</strong>s Tabelas 4.5, 4.6, 4.7, 4.8, 4.9 e4.10, especificamente as linhas referencia<strong>da</strong>s como “100% <strong>de</strong> candi<strong>da</strong>tos” confirmama baixa quali<strong>da</strong><strong>de</strong> dos resultados <strong>de</strong> microF 1 e macroF 1 para esta abor<strong>da</strong>gem.Entretanto, ao se a<strong>na</strong>lisar as mesmas Tabelas, foi possível verificar que a aplicação<strong>de</strong> seleção <strong>de</strong> características (do inglês, feature selection), conseguiu selecio<strong>na</strong>r w-


4.5 Análise dos resultados 85Resultados <strong>de</strong> macroF 1 para 20Newsgroups expandi<strong>da</strong> com w-conceitos/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C77,35 1,74% 76,51 0,65% 0,139Gain Ratio 76,68 0,86% 75,66 -0,47% 0,26376,02Info Gain 76,69 0,88% 75,64 -0,49% 0,276Chi-Squared 76,82 1,05% 75,73 -0,37% 0,319100% dos Candi<strong>da</strong>tos 75,86 -0,21% 75,86 -0,21%Tabela 4.10: Resultados máximos e mínimos <strong>de</strong> macroF 1para 20Newsgroups expandi<strong>da</strong> com w-conceitose SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100% doscandi<strong>da</strong>tos.conceitos que potencializam o processo <strong>de</strong> CAT <strong>da</strong>s coleções testa<strong>da</strong>s, alcançandoexcelentes resultados, em especial para a coleção Ohsumed, a qual é reconheci<strong>da</strong>por sua dificul<strong>da</strong><strong>de</strong> em obter bons resultados <strong>de</strong> classificação. Diante do que foiexposto, é possível respon<strong>de</strong>r positivamente ao Problema <strong>de</strong> Pesquisa 1, confirmandoa hipótese relacio<strong>na</strong><strong>da</strong> ao mesmo, quando utiliza-se w-conceitos como características<strong>de</strong> expansão.O <strong>de</strong>sempenho superior <strong>da</strong> medi<strong>da</strong> FT1C em to<strong>da</strong>s as coleções, quandoenriqueci<strong>da</strong>s com w-conceitos, respon<strong>de</strong> positivamente ao Problema <strong>de</strong> Pesquisa 2,auxiliando <strong>na</strong> confirmação <strong>da</strong> hipótese relacio<strong>na</strong><strong>da</strong> a este problema.4.5.2 Expansão com categorias diretasAssim como realizado para a Seção 4.5.1, avalia-se os resultados <strong>de</strong> microF 1e macroF 1 ao se enriquecer uma coleção com categorias diretas dos w-conceitos sem autilização <strong>de</strong> nenhuma medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica ou método <strong>de</strong> expansão.Tais resultados <strong>de</strong>vem ser confrontados com a utilização <strong>da</strong>s diversas abor<strong>da</strong>genspropostas, <strong>de</strong> forma a auxiliar <strong>na</strong> confirmação ou não <strong>da</strong>s hipóteses relacio<strong>na</strong><strong>da</strong>s aosProblemas <strong>de</strong> Pesquisa 1, 2 e 3.Comparativo entre CRC e SRCA metodologia SRC também se mostrou mais estável que a metodologiaCRC para to<strong>da</strong>s as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características aplica<strong>da</strong>s às categoriasem to<strong>da</strong>s as coleções testa<strong>da</strong>s, se a<strong>da</strong>ptando bem às diversas medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong>características. A metodologia CRC, ao proibir o enriquecimento dos documentos<strong>de</strong> uma classe com características <strong>da</strong> <strong>Wikipédia</strong> que obtém valor global <strong>na</strong>s medi<strong>da</strong>s<strong>de</strong> avaliação menor que qualquer uma <strong>da</strong>s k características selecio<strong>na</strong><strong>da</strong>s, leva o


4.5 Análise dos resultados 86classificador a apren<strong>de</strong>r tal comportamento, o qual não se repete ao se enriquecer oconjunto <strong>de</strong> teste, <strong>de</strong> modo que tal fato gera erros <strong>de</strong> classificação ao se utilizar ométodo CRC.Nos experimentos com expansão por categorias, o método CRC conseguiusobrepor os ganhos do método SRC somente para a média macroF 1 <strong>da</strong> coleçãoOhsumed, utilizando a medi<strong>da</strong> FT1C, como po<strong>de</strong> ser visto <strong>na</strong>s Figuras 4.10 a 4.15.95Comparativo <strong>de</strong> Micro-F1/REUTERS utilizando categorias com FT1C.95Comparativo <strong>de</strong> Micro-F1/REUTERS utilizando categorias com Gain-Ratio.94949392CRCSRCLINHA-BASE.9392CRCSRCLINHA-BASE.9191Micro - F19089Micro - F1908988888787868685850,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s95Comparativo <strong>de</strong> Micro-F1/REUTERS utilizando categorias com Info-Gain.95Comparativo <strong>de</strong> Micro-F1/REUTERS utilizando categorias com Chi-squared94949392CRCSRCLINHA-BASE.9392CRCSRCLINHA-BASE.9191Micro - F19089Micro - F1908988888787868685850,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.10: Resultados <strong>de</strong> microF 1 para coleção Reuterscom categorias e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.A <strong>de</strong>gra<strong>da</strong>ção dos resultados <strong>de</strong> microF 1 e macroF 1 ao se utilizar o método<strong>de</strong> restrição CRC com as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características Information Gain,Gain Ratio e Chi-squared, juntamente com o baixo <strong>de</strong>sempenho <strong>de</strong>sta metodologia<strong>de</strong> restrição <strong>na</strong> média microF 1 com a medi<strong>da</strong> FT1C, contribuem para se refutar a


4.5 Análise dos resultados 8770Comparativo <strong>de</strong> Macro-F1/REUTERS utilizando categorias com FT1C.Comparativo <strong>de</strong> Macro-F1/REUTERS utilizando categorias com Gain-Ratio.7069696868676766666565646362CRCSRCLINHA-BASE.646362CRCSRCLINHA-BASE.Macro Average Precision - F161605958575655545352Macro Average Precision - F16160595857565554535251515050494948484747464645450,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Macro-F1/REUTERS utilizando categorias com Info-Gain.70Comparativo <strong>de</strong> Macro-F1/REUTERS utilizando categorias com Chi-squared.706969686867676666656564CRC64CRC6362SRCLINHA-BASE.6362SRCLINHA-BASE.Macro Average Precision - F161605958575655545352Macro Average Precision - F16160595857565554535251515050494948484747464645450,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.11: Resultados <strong>de</strong> macroF 1 para a coleção Reuterscom categorias e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.hipótese <strong>de</strong> que esta restrição traria melhoria à CAT quando comparado com a nãoutilização <strong>de</strong>sta restrição, como levantado pelo Problema <strong>de</strong> Pesquisa 3.Comparativo entre medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasConforme explicitado <strong>na</strong> subseção anterior, o método CRC aplicado àscategorias somente apresentou resultados satisfatórios quando utilizado em conjuntocom a medi<strong>da</strong> FT1C. Diante do exposto, utilizamos ape<strong>na</strong>s o método sem restrição<strong>de</strong> classe, SRC, nos experimentos <strong>de</strong> comparação entre as 4 medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong>características utiliza<strong>da</strong>s.Para a coleção Reuters, a metodologia FT1C <strong>de</strong>monstrou maior estabili<strong>da</strong><strong>de</strong>,apresentando menor <strong>de</strong>preciação dos resultados ao se aumentar a porcentagem


4.5 Análise dos resultados 8866Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando categorias com FT1C.66Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando categorias com Gain-Ratio.6565646463636261CRCSRCLINHA-BASE.6261CRCSRCLINHA-BASE.60605959Micro - F15857Micro - F1585756565555545453535252515150500,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s66Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando categorias com Info-Gain.66Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando categorias com X2.656564646363CRC6261CRCSRCLINHA-BASE.6261SRCLINHA-BASE.60605959Micro - F15857Micro - F1585756565555545453535252515150500,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.12: Resultados <strong>de</strong> microF 1 para coleção Ohsumedcom categorias e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.<strong>de</strong> categorias utiliza<strong>da</strong>s, como po<strong>de</strong> ser constatado nos gráficos <strong>da</strong>s Figuras 4.10 e4.11.As Tabelas 4.11 e 4.12 apresentam os melhores e piores resultados <strong>de</strong>macroF 1 e microF 1 , respectivamente, para as diversas medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong>características.A partir <strong>de</strong>stas Tabelas é possível visualizar que nenhuma medi<strong>da</strong> conseguiuganhos expressivos em microF 1 . Ao se a<strong>na</strong>lisar os ganhos <strong>de</strong> macroF 1 , por meio <strong>da</strong>Tabela 4.12, po<strong>de</strong>-se perceber que o maior ganho foi atingido pela medi<strong>da</strong> <strong>de</strong> seleção<strong>de</strong> característica Gain Ration, com 3, 75%. Entretanto, nesta mesma Tabela po<strong>de</strong>-seperceber que esta medi<strong>da</strong> não <strong>de</strong>mostrou estabili<strong>da</strong><strong>de</strong> com o aumento <strong>da</strong> quanti<strong>da</strong><strong>de</strong><strong>de</strong> características utiliza<strong>da</strong>s, ao passo que a medi<strong>da</strong> FT1C obteve ganhos menores,


4.5 Análise dos resultados 8957565554Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando categorias com FT1C.Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando categorias com Gain-Ratio.57565554Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.444443434242414140400,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s57565554Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando categorias com Info-Gain.Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando categorias com Chi-squared.57565554Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.444443434242414140400,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.13: Resultados <strong>de</strong> macroF 1 para coleção Ohsumedcom categorias e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.Resultados <strong>de</strong> microF 1 para Reuters expandi<strong>da</strong> com categorias/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C94,12 0,46% 93,49 -0,21% 0,144Gain Ratio 94,06 0,39% 93,12 -0,61% 0,32793,69Info Gain 94,08 0,41% 93,17 -0,55% 0,227Chi-Squared 93,89 0,21% 93,27 -0,45% 0,139100% dos Candi<strong>da</strong>tos 92,86 -0,89% 92,86 -0,89%Tabela 4.11: Resultados máximos e mínimos <strong>de</strong> microF 1para Reuters expandi<strong>da</strong> com categorias e SRC,com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.


4.5 Análise dos resultados 9079Comparativo <strong>de</strong> Micro-F1/20NG utilizando categorias com FT1C.Comparativo <strong>de</strong> Micro-F1/20NG utilizando categorias com Gain-Ratio.797878777776767574CRCSRCLINHA-BASE.7574CRCSRCLINHA-BASE.7373Micro - F1727170Micro - F17271706969686867676666656564640,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s79Comparativo <strong>de</strong> Micro-F1/20NG utilizando categorias com Info-Gain.79Comparativo <strong>de</strong> Micro-F1/20NG utilizando categorias com X2.78787777767574CRCSRCLINHA-BASE.767574CRCSRCLINHA-BASE.7373Micro - F1727170Micro - F172717069696868676766666565640,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5640,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.14: Resultados <strong>de</strong> microF 1 para coleção 20NG comcategorias e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.Resultados <strong>de</strong> macroF 1 para Reuters expandi<strong>da</strong> com categorias/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C67,66 2,14% 65,15 -1,65% 0,492Gain Ratio 68,73 3,75% 64,86 -2,08% 1,17066,24Info Gain 67,57 2,00% 65,03 -1,82% 0,648Chi-Squared 68,06 2,74% 64,16 -3,13% 0,946100% dos Candi<strong>da</strong>tos 65,24 -1,51% 65,24 -1,51%Tabela 4.12: Resultados máximos e mínimos <strong>de</strong> macroF 1para Reuters expandi<strong>da</strong> com categorias e SRC,com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.


4.5 Análise dos resultados 9180Comparativo <strong>de</strong> Macro-F1/20NG utilizando categorias com FT1C.80Comparativo <strong>de</strong> Macro-F1/20NG utilizando categorias com Gain-Ratio.79797878777776767575Macro Average Precision - F174737271706968CRCSRCLINHA-BASE.Macro Average Precision - F174737271706968CRCSRCLINHA-BASE.676766666565646463630,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s80Comparativo <strong>de</strong> Macro-F1/20NG utilizando categorias com Info-Gain.80Comparativo <strong>de</strong> Macro-F1/20NG utilizando categorias com Chi-squared.79797878777776767575Macro Average Precision - F174737271706968CRCSRCLINHA-BASE.Macro Average Precision - F174737271706968CRCSRCLINHA-BASE.676766666565646463630,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.15: Resultados <strong>de</strong> macroF 1 para coleção 20NG comcategorias e medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasFT1C, Gain-Ratio, Info-Gain e Chi-Squared.porém menos susceptíveis à <strong>de</strong>gra<strong>da</strong>ção a medi<strong>da</strong> que se aumenta a porcentagem <strong>de</strong>características utiliza<strong>da</strong>s.A expansão <strong>da</strong> coleção Ohsumed, utilizando categorias, apresentou ganhosconsi<strong>de</strong>ráveis utilizando a metodologia SRC, como po<strong>de</strong> ser visto nos gráficos <strong>da</strong>sFiguras 4.12 e 4.13, as quais apresentam os resultados <strong>de</strong> microF 1 e macroF 1respectivamente.A medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica Gain Ratio apresentou boa estabili<strong>da</strong><strong>de</strong>e ótimos ganhos, tanto em microF 1 quanto macroF 1 . A medi<strong>da</strong> Gain Ratioalcançou ganho <strong>de</strong> 7, 87% em microF 1 , explicitado <strong>na</strong> Tabela 4.13, e 14, 97% emmacroF 1 , visualizado <strong>na</strong> Tabela 4.14, ao passo que a medi<strong>da</strong> FT1C conseguiu ape<strong>na</strong>s4, 73% e 12, 23% respectivamente.


4.5 Análise dos resultados 92Resultados <strong>de</strong> microF 1 para Ohsumed expandi<strong>da</strong> com categorias/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C63,37 4,73% 61,46 1,58% 0,420Gain Ratio 65,27 7,87% 62,46 3,23% 0,47060,50Info Gain 65,13 7,65% 61,98 2,43% 0,815Chi-Squared 64,40 6,43% 61,69 1,96% 0,315100% dos Candi<strong>da</strong>tos 63,13 4,35% 63,13 4,35%Tabela 4.13: Resultados máximos e mínimos <strong>de</strong> microF 1para Ohsumed expandi<strong>da</strong> com categorias eSRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.Resultados <strong>de</strong> macroF 1 para Ohsumed expandi<strong>da</strong> com categorias/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C54,12 12,23% 51,81 7,44% 0,505Gain Ratio 55,44 14,97% 51,93 7,68% 0,57248,22Info Gain 54,57 13,15% 49,19 1,99% 1,459Chi-Squared 52,02 7,87% 49,12 1,85% 0,654100% dos Candi<strong>da</strong>tos 51,77 7,36% 51,77 7,36%Tabela 4.14: Resultados máximos e mínimos <strong>de</strong> macroF 1para Ohsumed expandi<strong>da</strong> com categorias eSRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selection confronta<strong>da</strong>scom a utilização <strong>de</strong> 100% dos candi<strong>da</strong>tos.Os experimentos com categorias no enriquecimento <strong>da</strong> Ohsumed tor<strong>na</strong>mexplícita a excelente capaci<strong>da</strong><strong>de</strong> <strong>da</strong> <strong>Wikipédia</strong> em fornecer bons candi<strong>da</strong>tos paraesta coleção. Mesmo sem a utilização <strong>de</strong> seleção <strong>de</strong> características, ou seja 100% <strong>da</strong>scategorias candi<strong>da</strong>tas, tais elementos proporcio<strong>na</strong>ram ganhos <strong>de</strong> 4, 35% <strong>de</strong> microF 1e 7, 36% <strong>de</strong> macroF 1 , o que não ocorre para as outras coleções ao se utilizar o mesmotipo <strong>de</strong> características (categorias).Para o enriquecimento por categorias, a coleção 20Newsgroups tem seusresultados <strong>de</strong> microF 1 e macroF 1 apresentados nos gráficos <strong>da</strong>s Figuras 4.14 e4.15. A partir <strong>de</strong>stes gráficos é possível constatar a boa estabili<strong>da</strong><strong>de</strong> do métodoFT1C para esta coleção. As Tabelas 4.15 e 4.16expõem os valores mínimos emáximos <strong>de</strong> microF 1 e macroF 1 para esta coleção. Apesar <strong>de</strong> não apresentar osmelhores valores <strong>de</strong> microF 1 e macroF 1 , a medi<strong>da</strong> FT1C não apresenta <strong>de</strong>gra<strong>da</strong>ção<strong>na</strong> classificação para a faixa <strong>de</strong> porcentagens a<strong>na</strong>lisa<strong>da</strong>s. Por outro lado, as medi<strong>da</strong>sInformation Gain, Gain Ratio e Chi-squared apresentam valores mínimos abaixo <strong>da</strong>


4.5 Análise dos resultados 93Resultados <strong>de</strong> microF 1 para 20Newsgroups expandi<strong>da</strong> com categorias/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C78,17 1,68% 77,62 0,96% 0,125Gain Ratio 78,00 1,45% 76,36 -0,67% 0,50776,88Info Gain 78,25 1,79% 76,43 -0,57% 0,519Chi-Squared 78,27 1,81% 76,46 -0,54% 0,519100% dos Candi<strong>da</strong>tos 75,93 -1,24% 75,93 -1,24%Tabela 4.15: Resultados máximos e mínimos <strong>de</strong> microF 1para 20Newsgroups expandi<strong>da</strong> com categoriase SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100% doscandi<strong>da</strong>tos.Resultados <strong>de</strong> macroF 1 para 20Newsgroups expandi<strong>da</strong> com categorias/SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C77,41 1,82% 76,73 0,93% 0,168Gain Ratio 77,15 1,48% 75,57 -0,58% 0,49076,02Info Gain 77,39 1,79% 75,64 -0,50% 0,500Chi-Squared 77,43 1,85% 75,62 -0,52% 0,509100% dos Candi<strong>da</strong>tos 75,15 -1,14% 75,15 -1,14%Tabela 4.16: Resultados máximos e mínimos <strong>de</strong> macroF 1para 20Newsgroups expandi<strong>da</strong> com categoriase SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100% doscandi<strong>da</strong>tos.linha base. É importante salientar que to<strong>da</strong>s as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicaspossuem <strong>de</strong>sempenhos melhores que os obtidos com a expansão utilizando 100% <strong>da</strong>scaracterísticas candi<strong>da</strong>tas.Além <strong>da</strong>s 4 medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características, também testou-se o<strong>de</strong>sempenho <strong>da</strong> CAT ao se expandir as coleções Reuters, Ohsumed, e 20Newsgroupsutilizando 100% <strong>da</strong>s categorias candi<strong>da</strong>tas, ou seja, sem realizar qualquer seleção <strong>de</strong>características ou restrição <strong>de</strong> expansão. A inserção <strong>de</strong> 100% <strong>da</strong>s características dotipo categoria também foi utiliza<strong>da</strong> por Wang et al. [64], on<strong>de</strong> os autores reportamos bons resultados encontrados.Neste contexto, o presente trabalho <strong>de</strong>monstra que a utilização <strong>de</strong> métodos<strong>de</strong> seleção <strong>de</strong> características para as categorias, juntamente com a expansão semrestrição <strong>de</strong> classe (SRC), potencializam a eficácia <strong>da</strong> CAT quando compara<strong>da</strong> aométodo <strong>de</strong> expansão com 100% dos candi<strong>da</strong>tos. Como po<strong>de</strong> ser visto, a coleçãoOhsumed alcançou ganhos expressivos <strong>de</strong> microF 1 , que saltaram <strong>de</strong> 4, 35% para


4.5 Análise dos resultados 947, 87%, e <strong>de</strong> macroF 1 que passaram <strong>de</strong> 7, 36% para 14, 97%, após a utilização <strong>de</strong>seleção <strong>de</strong> característica Gain Ratio (Tabelas 4.13 e 4.14).Diante do que foi exposto, novamente é possível respon<strong>de</strong>r positivamenteao Problema <strong>de</strong> Pesquisa 1, também no uso <strong>de</strong> categorias, contribuindo para aconfirmação <strong>da</strong> hipótese relacio<strong>na</strong><strong>da</strong> a este problema quanto à melhoria do uso <strong>de</strong>categorias provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> <strong>na</strong> expansão <strong>de</strong> documentos.Apesar <strong>da</strong> medi<strong>da</strong> FT1C não obter os resultados mais altos <strong>na</strong> coleção Ohsume<strong>da</strong>o se utilizar categorias <strong>na</strong> expansão <strong>de</strong> documentos, esta medi<strong>da</strong> <strong>de</strong>mostrouresultados competitivos com as <strong>de</strong>mais medi<strong>da</strong>s, além <strong>de</strong> uma maior estabili<strong>da</strong><strong>de</strong> aose aumentar a porcentagem <strong>de</strong> características utiliza<strong>da</strong>s no processo <strong>de</strong> expansão.Desse modo, os resultados com categorias também contribuem para a confirmação<strong>da</strong> hipótese relacio<strong>na</strong><strong>da</strong> ao Problema <strong>de</strong> Pesquisa 2.4.5.3 Expansão com w-conceitos + categorias diretasAssim como foi realizado <strong>na</strong>s Subseções 4.5.1 e 4.5.2 para as abor<strong>da</strong>genscom w-conceitos e com categorias, esta subseção a<strong>na</strong>lisa o efeito <strong>de</strong>rivado <strong>da</strong>união dos conjuntos <strong>de</strong> w-conceitos candi<strong>da</strong>tos juntamente com o conjunto <strong>de</strong>categorias candi<strong>da</strong>tas. As próximas linhas discutem os resultados obtidos paraesta metodologia. Nesta abor<strong>da</strong>gem, um conjunto <strong>de</strong> características eleitas contémsomente os w-conceitos e/ou categorias mais bem valora<strong>da</strong>s pelas medi<strong>da</strong>s <strong>de</strong> seleção<strong>de</strong> características FT1C, Information Gain, Gain Ratio ou Chi-squared.Comparativo entre CRC e SRCAssim como <strong>na</strong>s outras abor<strong>da</strong>gens, a metodologia SRC se mostrou superiorà metodologia CRC para to<strong>da</strong>s as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características aplica<strong>da</strong>sà união <strong>de</strong> w-conceitos com categorias diretas, provindos <strong>da</strong> coleção Reuters, comopo<strong>de</strong> ser visto <strong>na</strong> Figura 4.16 para microF 1 e <strong>na</strong> Figura 4.17 para macroF 1 . O mesmoocorreu também para a coleção 20Newsgroups, como po<strong>de</strong> ser visto <strong>na</strong>s Figuras 4.18para microF 1 e 4.19 para macroF 1 .A metodologia <strong>de</strong> expansão CRC obteve ganhos estáveis ape<strong>na</strong>s para ametodologia FT1C, com <strong>de</strong>staque para a macroF 1 <strong>da</strong> coleção Ohsumed, comopo<strong>de</strong> ser visto <strong>na</strong> Figura 4.20. Entretanto, a medi<strong>da</strong> CRC não se mostrou portávelpara outras metodologias <strong>de</strong> seleção <strong>de</strong> características, além <strong>de</strong> baixos ganhos emmicroF 1 , como visto <strong>na</strong> Figura 4.12. Dessa forma, assim como <strong>na</strong>s abor<strong>da</strong>gens comw-conceitos e com categorias, a hipótese do Problema <strong>de</strong> Pesquisa 3 não pô<strong>de</strong> serconfirma<strong>da</strong> também para utilização <strong>de</strong> w-conceitos e categorias.


4.5 Análise dos resultados 95Comparativo <strong>de</strong> Micro-F1/REUTERS utilizando w-conceitos e categorias com FT1C.95Comparativo <strong>de</strong> Micro-F1/REUTERS utilizando w-conceitos e categorias com Gain-Ratio95949493939292Micro - F191CRCSRCLINHA-BASE.Micro - F191CRCSRCLINHA-BASE.90908989888887870,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Micro-F1/REUTERS utilizando w-conceitos e categorias com Info-Gain.95Comparativo <strong>de</strong> Micro-F1/REUTERS utilizando w-conceitos e categorias com Chi-squared.95949493939292Micro - F191CRCSRCLINHA-BASE.Micro - F191CRCSRCLINHA-BASE.90908989888887870,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.16: Resultados <strong>de</strong> microF 1 para coleção Reuterscom w-conceitos e categorias utilizando medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared.Comparativo entre medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicasSeguindo a mesma abor<strong>da</strong>gem <strong>da</strong>s Subseções 4.5.1 e 4.5.2 o método CRCaplicado a w-conceitos unidos com categorias, somente apresentou resultados satisfatóriosquando utilizado em conjunto com a medi<strong>da</strong> FT1C. Diante do exposto,utilizamos ape<strong>na</strong>s o método sem restrição <strong>de</strong> classe SRC nos experimentos <strong>de</strong> comparaçãoentre as 4 medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características utiliza<strong>da</strong>s.Para a coleção Reuters não houve melhorias significativas em termos <strong>de</strong>microF 1 . Entretanto, é possível notar uma melhora nos valores <strong>de</strong> macroF 1 , comopo<strong>de</strong> ser visto nos gráficos <strong>da</strong>s Figuras 4.17 e 4.16 e <strong>na</strong>s Tabelas 4.17 e 4.18.Como exemplo, po<strong>de</strong>-se comparar o ganho obtido ao se aplicar a medi<strong>da</strong>Gain Ratio utilizando ape<strong>na</strong>s categorias, sendo que nesta configuração o ganho foi


4.5 Análise dos resultados 96Comparativo <strong>de</strong> Macro-F1/REUTERS utilizando w-conceitos e categorias com FT1C.71706968Comparativo <strong>de</strong> Macro-F1/REUTERS utilizando w-conceitos e categorias com Gain-Ratio.71706968Macro Average Precision - F16766656463626160CRCSRCLINHA-BASE.Macro Average Precision - F16766656463626160CRCSRCLINHA-BASE.595958585757565655550,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Macro-F1/REUTERS utilizando w-conceitos e categorias com Info-Gain.71706968Comparativo <strong>de</strong> Macro-F1/REUTERS utilizando w-conceitos e categorias com Chi-squared.717069686766CRCSRCLINHA-BASE.6766CRCSRCLINHA-BASE.Macro Average Precision - F1656463626160Macro Average Precision - F1656463626160595958585757565655550,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.17: Resultados <strong>de</strong> macroF 1 para coleção Reuterscom w-conceitos e categorias utilizando medi<strong>da</strong>s<strong>de</strong> seleção <strong>de</strong> características FT1C, Gain-Ratio, Info-Gain e Chi-Squared.Resultados <strong>de</strong> microF 1 para Reuters expandi<strong>da</strong> com w-conc. e cat. /SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C94,10 0,43% 93,56 -0,13% 0,129Gain Ratio 94,12 0,45% 93,11 -0,62% 0,29793,69Info Gain 94,10 0,43% 93,36 -0,35% 0,197Chi-Squared 93,86 0,18% 93,19 -0,53% 0,150100% dos Candi<strong>da</strong>tos 93,01 -0,73% 93,01 -0,73%Tabela 4.17: Resultados máximos e mínimos <strong>de</strong> microF 1para Reuters expandi<strong>da</strong> com w-conceitos + categoriase SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100%dos candi<strong>da</strong>tos.


4.5 Análise dos resultados 97Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos e categorias com FT1C.80Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos e categorias com Gain-Ratio.80797978787776CRCSRCLINHA-BASE.7776CRCSRCLINHA-BASE.757574747373Micro - F17271Micro - F1727170706969686867676666656564640,51,52,53,54,55,56,57,58,59,510,511,512,513,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s14,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s14,515,516,517,518,519,5Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos e categorias com Info-Gain.80Comparativo <strong>de</strong> Micro-F1/20NG utilizando w-conceitos e categorias com Chi-squared.8079797878777675CRCSRCLINHA-BASE.777675CRCSRCLINHA-BASE.74747373Micro - F17271Micro - F1727170706969686867676666656564640,51,52,53,54,55,56,57,58,59,510,511,512,513,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s14,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>s14,515,516,517,518,519,5Figura 4.18: Resultados <strong>de</strong> microF 1 para coleção 20NG comw-conceitos e categorias utilizando medi<strong>da</strong>s <strong>de</strong>seleção <strong>de</strong> características FT1C, Gain-Ratio,Info-Gain e Chi-Squared.Resultados <strong>de</strong> macroF 1 para Reuters expandi<strong>da</strong> com w-conc. e cat./SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C68,09 2,79% 65,75 -0,73% 0,459Gain Ratio 69,85 5,45% 65,68 -0,84% 0,96666,24Info Gain 68,14 2,87% 65,49 -1,13% 0,485Chi-Squared 66,76 0,77% 64,64 -2,42% 0,611100% dos Candi<strong>da</strong>tos 64,28 -2,96% 64,28 -2,96%Tabela 4.18: Resultados máximos e mínimos <strong>de</strong> macroF 1para Reuters expandi<strong>da</strong> com w-conceitos + categoriase SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100%dos candi<strong>da</strong>tos.


4.5 Análise dos resultados 98Comparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos e categorias com FT1C.807978Comparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos e categorias com Gain-Ratio.8079787777CRC7675CRCSRC7675SRCLINHA-BASE.74LINHA-BASE.74Macro Average Precision - F173727170696867Macro Average Precision - F173727170696867666665656464636362620,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos e categorias com Info-Gain.807978Comparativo <strong>de</strong> Macro-F1/20NG utilizando w-conceitos e categorias com Chi-squared8079787776CRCSRCLINHA-BASE.7776CRCSRCLINHA-BASE.75757474Macro Average Precision - F173727170696867Macro Average Precision - F173727170696867666665656464636362620,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.19: Resultados <strong>de</strong> macroF 1 para coleção 20NG comw-conceitos e categorias utilizando medi<strong>da</strong>s <strong>de</strong>seleção <strong>de</strong> características FT1C, Gain-Ratio,Info-Gain e Chi-Squared.<strong>de</strong> 3, 75%, ao passo que a mesma medi<strong>da</strong> com a utilização <strong>da</strong> união <strong>de</strong> w-conceitose categorias, obteve ganho <strong>de</strong> 5, 45%.Os gráficos <strong>da</strong>s Figuras 4.20 e 4.21 apresentam os resultados <strong>da</strong> expansão<strong>da</strong> coleção Ohsumed a partir <strong>de</strong> w-conceitos e categorias. Por meio <strong>de</strong>stes gráficosé possível observar que, com a união <strong>de</strong>stes dois tipos <strong>de</strong> características, obtevesea melhoria <strong>da</strong> métrica microF 1 ape<strong>na</strong>s para a medi<strong>da</strong> FT1C, e em macroF 1obtiveram-se melhorias para as medi<strong>da</strong>s FT1C e Gain Ratio. O melhor resultado<strong>de</strong> macroF 1 obtido para esta coleção foi <strong>de</strong> 15, 08% pela medi<strong>da</strong> Gain Ratio, comopo<strong>de</strong> ser visto <strong>na</strong> Tabela 4.19. A mesma medi<strong>da</strong> também obteve o melhor resultadoem microF 1 <strong>na</strong> coleção Ohsumed, com um valor <strong>de</strong> 7, 67%, como po<strong>de</strong> ser visto <strong>na</strong>Tabela 4.20 . Além disso, a medi<strong>da</strong> FT1C também se mostrou estável às variações


4.5 Análise dos resultados 99Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos e categorias com FT1C.57565554Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos e categorias com Gain-Ratio.57565554Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.444443434242414140400,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos e categorias com Info-Gain.57565554Comparativo <strong>de</strong> Macro-F1/OHSUMED utilizando w-conceitos e categorias com Chi-squared.57565554Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.Macro Average Precision - F1535251504948474645CRCSRCLINHA-BASE.444443434242414140400,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.20: Resultados <strong>de</strong> macroF 1 para coleção Ohsumedcom w-conceitos e categorias utilizando 4 medi<strong>da</strong>s<strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características.Resultados <strong>de</strong> macroF 1 para Ohsumed expandi<strong>da</strong> com w-conc. e cat./SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C54,85 13,74% 51,91 7,65% 0,574Gain Ratio 55,50 15,08% 53,59 11,13% 0,51748,22Info Gain 53,74 11,44% 49,09 1,78% 1,030Chi-Squared 50,97 5,70% 49,28 2,18% 0,354100% dos Candi<strong>da</strong>tos 50,64 5,02% 50,64 5,02%Tabela 4.19: Resultados máximos e mínimos <strong>de</strong> macroF 1para Ohsumed expandi<strong>da</strong> com w-conceitos +categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100%dos candi<strong>da</strong>tos.


4.5 Análise dos resultados 100Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos e categorias com FT1C.666564Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos e categorias com Gain-Ratio.666564636261CRCSRCLINHA-BASE.636261CRCSRCLINHA-BASE.6060595958585757Micro - F1565554Micro - F15655545353525251515050494948484747464645450,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sComparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos e categorias com Info-Gain.666564Comparativo <strong>de</strong> Micro-F1/OHSUMED utilizando w-conceitos e categorias com Chi-squared.66656463626362CRCSRC6160CRCSRCLINHA-BASE.6160LINHA-BASE.595958585757Micro - F1565554Micro - F15655545353525251515050494948484747464645450,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,50,51,52,53,54,55,56,57,58,59,510,511,512,513,514,515,516,517,518,519,5Porcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sPorcentagem <strong>de</strong> Features Utiliza<strong>da</strong>sFigura 4.21: Resultados <strong>de</strong> microF 1 para coleção Ohsumedcom w-conceitos e categorias utilizando 4 medi<strong>da</strong>s<strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características.<strong>de</strong> porcentagens <strong>de</strong> características utiliza<strong>da</strong>s no enriquecimento <strong>de</strong>sta coleção.Para a coleção 20Newsgroups, a medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica maisestável foi a FT1C, sendo que as <strong>de</strong>mais medi<strong>da</strong>s apresentaram maior que<strong>da</strong> <strong>de</strong><strong>de</strong>sempenho com o aumento do número <strong>de</strong> características utiliza<strong>da</strong>s, como po<strong>de</strong> servisto nos gráficos <strong>da</strong>s Figuras 4.18 e 4.19. O melhor valor <strong>de</strong> microF 1 para estacoleção foi <strong>de</strong> 2, 59%, obtido por meio <strong>da</strong> medi<strong>da</strong> FT1C, como exposto <strong>na</strong> Tabela4.21.A medi<strong>da</strong> FT1C também obteve o maior valor <strong>de</strong> macroF 1 para esta coleção,2, 80%.(Tabela 4.22).Neste contexto, o presente trabalho <strong>de</strong>monstra que a utilização <strong>de</strong> métodos<strong>de</strong> seleção <strong>de</strong> características aplica<strong>da</strong>s à w-conceitos em união com categorias,juntamente com a expansão sem restrição <strong>de</strong> classe (SRC), potencializam a eficácia


4.5 Análise dos resultados 101Resultados <strong>de</strong> microF 1 para Ohsumed expandi<strong>da</strong> com w-conc. e cat./SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C63,96 5,71% 61,78 2,10% 0,480Gain Ratio 65,15 7,67% 63,50 4,95% 0,27560,50Info Gain 64,61 6,79% 62,00 2,48% 0,532Chi-Squared 63,65 5,19% 62,09 2,62% 0,300100% dos Candi<strong>da</strong>tos 62,27 2,93% 62,27 2,93%Tabela 4.20: Resultados máximos e mínimos <strong>de</strong> microF 1para Ohsumed expandi<strong>da</strong> com w-conceitos +categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> feature selectionconfronta<strong>da</strong>s com a utilização <strong>de</strong> 100%dos candi<strong>da</strong>tos.Resultados <strong>de</strong> microF 1 para 20Newsgroups expandi<strong>da</strong> com w-conc. e cat./SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemicroF 1ganhomicroF 1ganho d.p. s.e.FT1C78,87 2,59% 77,93 1,37% 0,230Gain Ratio 78,10 1,59% 76,20 -0,87% 0,61276,88Info Gain 78,09 1,58% 76,13 -0,96% 0,591Chi-Squared 78,45 2,04% 76,19 -0,89% 0,701100% dos Candi<strong>da</strong>tos 76,27 -0,79% 76,27 -0,79%Tabela 4.21: Resultados máximos e mínimos <strong>de</strong> microF 1para 20Newsgroups expandi<strong>da</strong> com w-conceitos+ categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> featureselection confronta<strong>da</strong>s com a utilização <strong>de</strong>100% dos candi<strong>da</strong>tos.Resultados <strong>de</strong> macroF 1 para 20Newsgroups expandi<strong>da</strong> com w-conc. e cat./SRCMed. <strong>de</strong> <strong>Seleção</strong> Linha BasemacroF 1ganhomacroF 1ganho d.p. s.e.FT1C78,15 2,80% 77,00 1,29% 0,275Gain Ratio 77,28 1,65% 75,43 -0,77% 0,59176,02Info Gain 77,24 1,60% 75,40 -0,82% 0,558Chi-Squared 77,55 2,02% 75,63 -0,51% 0,642100% dos Candi<strong>da</strong>tos 75,47 -0,72% 75,47 -0,72%Tabela 4.22: Resultados máximos e mínimos <strong>de</strong> macroF 1para 20Newsgroups expandi<strong>da</strong> com w-conceitos+ categorias e SRC, com 4 medi<strong>da</strong>s <strong>de</strong> featureselection confronta<strong>da</strong>s com a utilização <strong>de</strong>100% dos candi<strong>da</strong>tos.


4.5 Análise dos resultados 102<strong>da</strong> CAT quando compara<strong>da</strong> ao método <strong>de</strong> expansão que utiliza 100% dos candi<strong>da</strong>tos,respon<strong>de</strong>ndo positivamente ao Problema <strong>de</strong> Pesquisa 1.Os resultados apresentados para to<strong>da</strong>s as coleções confirmam a hipótese <strong>de</strong>competitivi<strong>da</strong><strong>de</strong> <strong>da</strong> medi<strong>da</strong> FT1C <strong>na</strong> seleção <strong>de</strong> características, relativa ao Problema<strong>de</strong> Pesquisa 2, também para a expansão <strong>de</strong> documentos utilizando w-conceitos emunião com categorias.4.5.4 Análise geral dos resultadosEm linhas gerais, as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características, combi<strong>na</strong><strong>da</strong>scom o método (SRC), se mostraram fun<strong>da</strong>mentais para o processo <strong>de</strong> expansão<strong>de</strong> documentos com características extraí<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>.Como visto <strong>na</strong> Seção 4.5.1, a expansão <strong>da</strong>s coleções <strong>de</strong> <strong>da</strong>dos utilizando100% dos w-conceitos trouxe <strong>de</strong>gra<strong>da</strong>ção dos resultados <strong>na</strong> maioria dos casos.Entretanto, os experimentos pu<strong>de</strong>ram comprovar que o uso <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção<strong>da</strong>s características boas discrimi<strong>na</strong>doras <strong>de</strong> classe conseguem mu<strong>da</strong>r este quadro <strong>de</strong><strong>de</strong>gra<strong>da</strong>ção dos resultados criando um cenário em que tais características se tor<strong>na</strong>mimportantes para a melhoria <strong>da</strong> CAT, contrariando o que foi exposto por [64].Assim como ocorre para os w-conceitos, o uso <strong>de</strong> categorias <strong>da</strong> <strong>Wikipédia</strong>também se mostrou propenso a melhorias com o uso <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características,como exposto <strong>na</strong> Seção 4.5.2. Apesar dos bons resultados apresentadospor [64] no uso <strong>de</strong>ste tipo <strong>de</strong> característica provin<strong>da</strong> <strong>da</strong> <strong>Wikipédia</strong>, os experimentosconseguiram comprovar que tais resultados po<strong>de</strong>m ser melhorados, sendo que paranosso ambiente experimental conseguimos elevar consi<strong>de</strong>ravelmente os patamares <strong>de</strong>ganhos para to<strong>da</strong>s as coleções, tanto em microF 1 quanto em macroF 1 . O mesmo<strong>de</strong>sempenho é obtido para as características compostas <strong>da</strong> união entre w-conceitose categorias, tratado <strong>na</strong> Seção 4.5.2. Os experimentos apresentados <strong>na</strong>s Subseções4.5.1, 4.5.2 e 4.5.3, respon<strong>de</strong>m positivamente ao Problema <strong>de</strong> Pesquisa 1, <strong>de</strong>mostrandoa importância <strong>da</strong> etapa <strong>de</strong> seleção <strong>de</strong> características durante o processo <strong>de</strong>expansão <strong>de</strong> documentos.É importante observar que o uso <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicascontribuiu <strong>de</strong> maneira mais significativa para a coleção Ohsumed do que para as<strong>de</strong>mais coleções a<strong>na</strong>lisa<strong>da</strong>s. Para compreen<strong>de</strong>r tal comportamento <strong>de</strong>ve-se observarque a Ohsumed é uma coleção reconheci<strong>da</strong>mente mais difícil <strong>de</strong> se classificar, oque po<strong>de</strong> ser comprovado observando-se a linha-base <strong>de</strong>sta coleção, bem abaixo <strong>da</strong>s<strong>de</strong>mais coleções. Coleções que já apresentam uma linha-base eleva<strong>da</strong> estão menossusceptíveis a melhorias maiores no processo <strong>de</strong> classificação.A média macroF 1 nota<strong>da</strong>mente apresentou os melhores ganhos quando comparadosaos obtidos pela média microF 1 . Ao se a<strong>na</strong>lisar os resultados apresentados


4.5 Análise dos resultados 103<strong>na</strong>s Subseções 4.5.1, 4.5.2 e 4.5.3 po<strong>de</strong>-se verificar que as coleções mais <strong>de</strong>sbalancea<strong>da</strong>sReuters e Ohsumed apresentaram as maiores diferenças <strong>de</strong> ganhos entre macroF 1e microF 1 , enquanto que a coleção mais balancea<strong>da</strong> 20Newsgroups apresentou ganhosmais equilibrados <strong>na</strong>s duas médias. Sabendo que a média macroF 1 estabeleceigual importância para to<strong>da</strong>s as categorias <strong>de</strong> uma coleção, como expla<strong>na</strong>do<strong>na</strong> Subseção 2.4.4, coleções <strong>de</strong>sbalancea<strong>da</strong>s ten<strong>de</strong>m a apresentar menor <strong>de</strong>sempenhoem categorias menores por possuírem uma menor quanti<strong>da</strong><strong>de</strong> <strong>de</strong> exemplos parao aprendizado do classificador. Neste contexto, a expansão <strong>de</strong> documentos <strong>de</strong> categoriasmenores utilizando-se <strong>de</strong> características mais discrimi<strong>na</strong>tivas possibilita ageração <strong>de</strong> melhores classificadores para estas classes, impactando positivamente <strong>de</strong>maneira mais eleva<strong>da</strong> <strong>na</strong> média macroF 1 do que <strong>na</strong> média microF 1 .Os experimentos com a medi<strong>da</strong> <strong>de</strong> seleção proposta FT1C comprovamsua capaci<strong>da</strong><strong>de</strong> em selecio<strong>na</strong>r características boas <strong>de</strong>scrimi<strong>na</strong>doras <strong>de</strong> classe, seapresentando, portanto, como opção competitiva quando compara<strong>da</strong> com medi<strong>da</strong>s jáconsagra<strong>da</strong>s <strong>na</strong> literatura como Information Gain, Gain Ratio e Chi-squared (X 2 ).Tipo <strong>de</strong>CaracterísticaA Tabela 4.23 relacio<strong>na</strong> as medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características que obti-Melhores <strong>de</strong>sempenhos <strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> <strong>Seleção</strong> <strong>de</strong> <strong>Características</strong>Reuters-21578 Ohsumed 20 newsgroupsMICRO MACRO MICRO MACRO MICRO MACROw-conceitos Info. Gain FT1C FT1C FT1C FT1C FT1Ccategorias FT1C Gain Ratio Gain Ratio Gain Ratio FT1C FT1Cwc + cat. Gain Ratio Gain Ratio Gain Ratio Gain Ratio FT1C FT1CTabela 4.23: Comparativo entre os melhores <strong>de</strong>sempenhos<strong>da</strong>s medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características parato<strong>da</strong>s as abor<strong>da</strong>gens.veram melhor <strong>de</strong>sempenho para ca<strong>da</strong> uma <strong>da</strong>s abor<strong>da</strong>gens a<strong>na</strong>lisa<strong>da</strong>s, tanto paramicroF 1 como para macroF 1 . Esta Tabela reflete os bons resultados apresentadospela medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> característica FT1C, proposta pelo presente trabalho.Dentre as medi<strong>da</strong>s a<strong>na</strong>lisa<strong>da</strong>s, a FT1C apresentou o melhor <strong>de</strong>sempenho aose trabalhar com w-conceitos em to<strong>da</strong>s as coleções, mesmo a medi<strong>da</strong> InformationGain tendo apresentado o maior valor <strong>de</strong> microF 1 <strong>na</strong> coleção Reuters, a FT1Cobteve valores competitivos e maior estabili<strong>da</strong><strong>de</strong>.A medi<strong>da</strong> FT1C também <strong>de</strong>monstrou estabili<strong>da</strong><strong>de</strong> ao se trabalhar comcategorias, ao passo que a medi<strong>da</strong> Gain Ratio <strong>de</strong>mostrou ganhos mais elevados para acoleção Ohsumed ao se utilizar este tipo <strong>de</strong> característica. O mesmo não ocorreu paraa coleção 20Newsgroups, para a qual a medi<strong>da</strong> FT1C <strong>de</strong>mostrou maior estabili<strong>da</strong><strong>de</strong>e ganhos mais elevados. Ain<strong>da</strong> utilizando categorias, a medi<strong>da</strong> FT1C não apresentouos maiores ganhos <strong>de</strong> microF 1 , mas também se mostrou competitiva apresentando


4.5 Análise dos resultados 104menores que<strong>da</strong>s nos ganhos à medi<strong>da</strong> que utiliza-se uma maior porcentagem <strong>de</strong>características.O mesmo comportamento apresentado para categorias se repetiu para o tipo<strong>de</strong> característica forma<strong>da</strong> pela união <strong>de</strong> w-conceitos e categorias. Este fato se <strong>de</strong>ve àforte capaci<strong>da</strong><strong>de</strong> <strong>da</strong>s categorias em fornecer características boas discrimi<strong>na</strong>doras <strong>de</strong>classes, influenciando substancialmente <strong>na</strong> formação dos conjuntos <strong>de</strong> característicaseleitas.Os experimentos <strong>de</strong>mostraram que mesmo para as abor<strong>da</strong>gens em quea medi<strong>da</strong> FT1C não apresentou os melhores resultados, a mesma se portou <strong>de</strong>forma competitiva. Com isso a hipótese relacio<strong>na</strong><strong>da</strong> ao Problema <strong>de</strong> Pesquisa 2é confirma<strong>da</strong> para to<strong>da</strong>s as coleções a<strong>na</strong>lisa<strong>da</strong>s, tanto utilizando w-conceitos quantocategorias ou a combi<strong>na</strong>ção <strong>de</strong> ambos.To<strong>da</strong>via, ao se a<strong>na</strong>lisar o comportamento <strong>da</strong> metodologia CRC, po<strong>de</strong>-severificar que se em uma <strong>de</strong>termi<strong>na</strong><strong>da</strong> categoria c j , uma característica eleita t inão alcança valor local para f(t i , c j ) maior ou igual aos valores <strong>de</strong> f global (t i ) <strong>da</strong>sk características eleitas, então esta característica não será usa<strong>da</strong> para enriquecernenhum documento <strong>de</strong> treino em c j . Entretanto, como t i está entre as característicaseleitas, a mesma será utiliza<strong>da</strong> para enriquecer todos os documentos <strong>de</strong> teste emque ela ocorra, conforme metodologia estabeleci<strong>da</strong> para este conjunto, como po<strong>de</strong>ser visto <strong>na</strong> Figura 3.3. O uso <strong>de</strong> metodologias diferentes entre treino e testeacaba por gerar um mo<strong>de</strong>lo <strong>de</strong> classificador que não se adéqua bem ao conjunto<strong>de</strong> teste, provocando erros <strong>na</strong> classificação. O problema <strong>de</strong>scrito acima não ocorrepara a metodologia SRC já que tanto no conjunto <strong>de</strong> treino quanto no <strong>de</strong> teste ascaracterísticas eleitas são utiliza<strong>da</strong>s em qualquer que seja o documento em que amesmas apareçam.Os experimentos <strong>de</strong>mostraram que a utilização <strong>da</strong> metodologia <strong>de</strong> restriçãoCRC não possibilitou melhorias estáveis ao processo <strong>de</strong> seleção <strong>de</strong> características,apresentando ape<strong>na</strong>s ganhos isolados. Portanto, a hipótese relacio<strong>na</strong><strong>da</strong> ao Problema<strong>de</strong> Pesquisa 3 é refuta<strong>da</strong> para expansão <strong>de</strong> w-conceitos, categorias e união <strong>de</strong>stes,provindos <strong>da</strong> <strong>Wikipédia</strong>.No próximo capítulo são apresenta<strong>da</strong>s as conclusões gerais a cerca dopresente trabalho, além <strong>de</strong> expor os possíveis trabalhos futuros relacio<strong>na</strong>dos ao tema<strong>da</strong> pesquisa.


ConclusãoCAPÍTULO 5Neste trabalho estudou-se a expansão <strong>de</strong> documentos utilizando-se <strong>de</strong> relações<strong>de</strong> sinonímia <strong>de</strong> conceitos (w-conceitos) e categorias extraídos <strong>da</strong> <strong>Wikipédia</strong>.A<strong>na</strong>lisou-se a melhoria <strong>de</strong>ste processo adicio<strong>na</strong>ndo uma etapa <strong>de</strong> seleção <strong>de</strong> característicasboas discrimi<strong>na</strong>doras <strong>de</strong> classes. A<strong>de</strong>mais, foi a<strong>na</strong>lisado o <strong>de</strong>sempenho <strong>da</strong>adição <strong>de</strong> uma restrição <strong>de</strong> classe para a utilização <strong>da</strong>s relações <strong>de</strong> sinonímia e categoriasselecio<strong>na</strong><strong>da</strong>s <strong>na</strong> etapa anterior.Primeiramente, foi avaliado se a aplicação <strong>de</strong> um método <strong>de</strong> seleção <strong>de</strong>características consegue melhorar a eficácia <strong>da</strong> utilização <strong>da</strong>s relações <strong>de</strong> sinonímia(w-conceitos) e <strong>de</strong> categorias provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong> durante o processo <strong>de</strong> expansão<strong>de</strong> documentos, reduzindo a inserção <strong>de</strong> ruídos e potencializando a adição <strong>de</strong>características boas discrimi<strong>na</strong>doras <strong>de</strong> classes.Durante a expansão <strong>de</strong> documentos utilizando ape<strong>na</strong>s w-conceitos <strong>da</strong> <strong>Wikipédia</strong>,o uso <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características <strong>de</strong>monstrou ser <strong>de</strong> fun<strong>da</strong>mentalimportância. Como pô<strong>de</strong> ser visto <strong>na</strong> Subseção 4.5.1, os experimentos comprovamque o uso <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> w-conceitos bons discrimi<strong>na</strong>dores <strong>de</strong>classe conseguem mu<strong>da</strong>r o cenário <strong>de</strong> <strong>de</strong>gra<strong>da</strong>ção apresentado por [64], tor<strong>na</strong>ndotais características importantes para a melhoria <strong>da</strong> CAT. Os resultados para estaabor<strong>da</strong>gem obtiveram ganhos máximos <strong>de</strong> 3, 58% <strong>na</strong> medi<strong>da</strong> microF 1 e 7, 41% <strong>na</strong>medi<strong>da</strong> macroF 1 , para a coleção Ohsumed.Foi constatado que o uso <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características também éútil para a melhoria <strong>da</strong> abor<strong>da</strong>gem <strong>de</strong> expansão <strong>de</strong> documentos, utilizando ape<strong>na</strong>s ascategorias diretas dos w-conceitos <strong>da</strong> <strong>Wikipédia</strong>. Na Subseção 4.5.2 são apresentadosos resultados para esta abor<strong>da</strong>gem, <strong>na</strong> qual os ganhos máximos obtidos foram <strong>de</strong>7, 87% <strong>na</strong> medi<strong>da</strong> microF 1 e 14, 97% <strong>na</strong> medi<strong>da</strong> macroF 1 , para a coleção Ohsumed.Ao unir as características candi<strong>da</strong>tas provin<strong>da</strong>s <strong>de</strong> w-conceitos e categorias,a utilização <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características se mostrou particularmenteinteressante, visto que a técnica conseguiu selecio<strong>na</strong>r elementos bons discrimi<strong>na</strong>dores<strong>de</strong> classes, in<strong>de</strong>pen<strong>de</strong>ntemente <strong>de</strong> sua origem (w-conceitos ou categorias), criando umgrupo <strong>de</strong> w-conceitos eleitos <strong>de</strong> melhor quali<strong>da</strong><strong>de</strong> ain<strong>da</strong>, com ganho <strong>na</strong> Ohsumed <strong>de</strong>


10615, 08% <strong>na</strong> medi<strong>da</strong> macroF 1 .Os bons resultados <strong>na</strong>s três abor<strong>da</strong>gens supramencio<strong>na</strong><strong>da</strong>s e discuti<strong>da</strong>s <strong>na</strong>sSeções 4.5.1, 4.5.2, 4.5.3, solucio<strong>na</strong>m o Problema <strong>de</strong> Pesquisa 1 e confirmam ahipótese relacio<strong>na</strong><strong>da</strong> a este problema.A estratégia <strong>de</strong> extração <strong>de</strong> características <strong>da</strong> <strong>Wikipédia</strong> apresenta<strong>da</strong> <strong>na</strong>Seção 3.1, a qual divi<strong>de</strong> o documento em trechos <strong>de</strong> textos se mostrou importantepara o processo <strong>de</strong> i<strong>de</strong>ntificação <strong>de</strong> w-conceitos, uma vez que conseguiu-se diminuira inserção <strong>de</strong> elementos ruidosos.A medi<strong>da</strong> proposta para a seleção <strong>de</strong> características <strong>de</strong>nomi<strong>na</strong><strong>da</strong> Fator<strong>de</strong> Tendência a uma Categoria (FT1C) <strong>de</strong>monstrou <strong>de</strong>sempenho e estabili<strong>da</strong><strong>de</strong>ssuperiores <strong>na</strong> maioria <strong>da</strong>s abor<strong>da</strong>gens propostas. Como po<strong>de</strong> ser visto <strong>na</strong>s Subseções4.5.1, 4.5.2 e 4.5.3, a medi<strong>da</strong> FT1C apresenta-se como opção competitiva para oprocesso <strong>de</strong> seleção <strong>de</strong> w-conceitos e categorias provin<strong>da</strong>s <strong>da</strong> <strong>Wikipédia</strong>, visto queem gran<strong>de</strong> parte dos experimentos esta medi<strong>da</strong> obteve maiores ganhos e melhorestabili<strong>da</strong><strong>de</strong> que as medi<strong>da</strong>s já consagra<strong>da</strong>s <strong>na</strong> literatura Information Gain, GainRatio e Chi-squared. O Problema <strong>de</strong> Pesquisa 2 é, portanto, resolvido e a hipóteserelacio<strong>na</strong><strong>da</strong> ao mesmo foi confirma<strong>da</strong>.A verificação <strong>da</strong> eficácia <strong>da</strong> CAT ao se utilizar as medi<strong>da</strong>s <strong>de</strong> avaliação<strong>de</strong> termos FT1C, Information Gain, Gain Ratio, Chi-squared, em conjunto comas metodologias CRC e SRC <strong>na</strong> expansão <strong>de</strong> documentos, como mostrado nosresultados experimentais <strong>da</strong>s Subseções 4.5.1, 4.5.2, 4.5.3 permitem concluir que autilização <strong>da</strong> restrição <strong>de</strong> classe CRC, apresenta<strong>da</strong> <strong>na</strong> Seção 3.3 expõe resultadossatisfatórios ape<strong>na</strong>s quando utiliza<strong>da</strong> em conjunto com a medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong>características FT1C, e mesmo assim somente em casos específicos. A expansão <strong>de</strong>documentos sem a aplicação <strong>de</strong> restrição <strong>de</strong> classe (metodologia SRC) <strong>de</strong>monstroumaior flexibili<strong>da</strong><strong>de</strong> e a<strong>da</strong>ptação às diferentes medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> característicase não somente à FT1C, e melhores resultados <strong>na</strong> maioria <strong>da</strong>s abor<strong>da</strong>gens. Dessaforma, mesmo a metodologia CRC tendo sido útil ao trabalho <strong>de</strong> [14], a mesma nãose mostrou como sendo a melhor opção <strong>na</strong> utilização com características provin<strong>da</strong>s<strong>da</strong> <strong>Wikipédia</strong>. Diante do exposto, a hipótese relacio<strong>na</strong><strong>da</strong> ao Problema <strong>de</strong> Pesquisa3 foi refuta<strong>da</strong> pelos experimentos realizados.A alta restritivi<strong>da</strong><strong>de</strong> <strong>da</strong> medi<strong>da</strong> FT1C se mostrou mais eficaz que as <strong>de</strong>maismedi<strong>da</strong>s ao se trabalhar com w-conceitos, nota<strong>da</strong>mente mais ruidosos. A seleção<strong>de</strong> características em ambientes com muitos ruídos apresenta-se como um <strong>de</strong>safio amais, visto que neste contexto, erros <strong>de</strong> seleção po<strong>de</strong>m comprometer sensivelmenteos resultados. O melhor <strong>de</strong>sempenho <strong>da</strong> FT1C para este tipo <strong>de</strong> abor<strong>da</strong>gem apontaque esta medi<strong>da</strong> <strong>de</strong>monstra maior exatidão ao selecio<strong>na</strong>r características boas discrimi<strong>na</strong>doras<strong>de</strong> classes, embora não tenha apresentado os melhores ganhos com


107categorias <strong>na</strong> coleção Ohsumed.Os bons resultados obtidos para a Ohsumed, utilizando 100% <strong>da</strong>s categorias,exibem que a <strong>Wikipédia</strong> possui excelente capaci<strong>da</strong><strong>de</strong> <strong>de</strong> fornecer este tipo <strong>de</strong>característica para esta coleção, apresentando uma baixa adição <strong>de</strong> ruídos. Nestecontexto, po<strong>de</strong>-se concluir que o alto po<strong>de</strong>r restritivo <strong>da</strong> medi<strong>da</strong> FT1C acabapor limitar a inserção não só <strong>de</strong> elementos ruidosos, mas também <strong>de</strong> algumascaracterísticas que po<strong>de</strong>riam auxiliar <strong>na</strong> classificação.Trabalhos FuturosCom o presente trabalho é possível visualizar novas possibili<strong>da</strong><strong>de</strong>s <strong>de</strong> pesquisasvolta<strong>da</strong>s para a classificação <strong>de</strong> documentos. Em virtu<strong>de</strong> disso, como trabalhosfuturos, preten<strong>de</strong>mos realizar os seguintes estudos:1. Propor um método <strong>de</strong> utilização dos textos âncoras dos artigos <strong>da</strong> <strong>Wikipédia</strong>,<strong>na</strong> expansão <strong>de</strong> documentos, visto que tais elementos também representamimportantes relações <strong>de</strong> sinonímia conti<strong>da</strong>s nesta enciclopédia.2. Propor um método <strong>de</strong> utilização dos links existentes entre os artigos <strong>da</strong><strong>Wikipédia</strong>,in-links e out-links, <strong>na</strong> <strong>de</strong>termi<strong>na</strong>ção <strong>de</strong> relacio<strong>na</strong>mento entre conceitos<strong>de</strong>sta enciclopédia, e estu<strong>da</strong>r seu uso <strong>na</strong> expansão <strong>de</strong> documentos.3. Investigar se a utilização <strong>de</strong> medi<strong>da</strong>s <strong>de</strong> seleção <strong>de</strong> características po<strong>de</strong>mtambém potencializar os resultados obtidos com as abor<strong>da</strong>gens acima.4. Investigar se a medi<strong>da</strong> FT1C apresenta-se como opção competitiva tambémpara as futuras abor<strong>da</strong>gens <strong>de</strong>scritas acima.5. Investigar o uso <strong>da</strong> medi<strong>da</strong> <strong>de</strong> seleção <strong>de</strong> características FT1C como medi<strong>da</strong>geral <strong>de</strong> seleção <strong>de</strong> características, po<strong>de</strong>ndo ser utiliza<strong>da</strong> em diferentes contextos.6. Propor melhorias <strong>na</strong> medi<strong>da</strong> FT1C visando a melhorar seu <strong>de</strong>sempenho emambientes pouco ruidosos.


Referências Bibliográficas[1] Amati, G.; D’Aloisi, D.; Giannini, V.; Ubaldini, F. A Framework for FilteringNews and Ma<strong>na</strong>ging Distributed Data. Jour<strong>na</strong>l Of Universal Computer Science,3(8):1007–1021, 1997.[2] Apté, C.; Damerau, F.; Weiss, S. M. Automated learning of <strong>de</strong>cision rules fortext categorization. ACM Transactions on Information Systems, 12(3):233–251,July 1994.[3] Baeza-Yates, R.; Ribeiro-Neto, B. Mo<strong>de</strong>rn information retrieval. ACM Press,New York, New York, USA, 1999.[4] Bekkerman, R.; Allan, J. Using Bigrams in Text Categorization. Departmentof Computer Science, University of Massachusetts, Amherst, 1003(IR-408):1–10,2003.[5] Bekkerman, R.; El-Yaniv, R.; Tishby, N.; Winter, Y. Distributio<strong>na</strong>l word clustersvs. words for text categorization. The Jour<strong>na</strong>l of Machine Learning Research,3:1183–1208, 2003.[6] Burges, C. J. C. A Tutorial on Support Vector Machines for PatternRecognition. Data Mining and Knowledge Discovery, 2(2):121–167, 1998.[7] Carmel, D.; Roitman, H.; Zwerdling, N. Enhancing cluster labeling usingwikipedia. Proceedings of the 32nd inter<strong>na</strong>tio<strong>na</strong>l ACM SIGIR conference onResearch and <strong>de</strong>velopment in information retrieval - SIGIR ’09, p. 139, 2009.[8] Chandrinos, K. V.; Androutsopoulos, I.; Paliouras, G.; Spyropoulos, C. D. AutomaticWeb Rating: Filtering Obscene Content on the Web. In: Borbinha,J. L.; Baker, T., editors, Proceedings of ECDL00 4th European Conference on Researchand Advanced Technology for Digital Libraries, p. 403–406. Springer Verlag,Hei<strong>de</strong>lberg, DE, 2000.[9] Cheng, H.; Yan, X.; Han, J.; Hsu, C.-W. Discrimi<strong>na</strong>tive Frequent PatternA<strong>na</strong>lysis for Effective Classification. 2007 IEEE 23rd Inter<strong>na</strong>tio<strong>na</strong>l Conferenceon Data Engineering, p. 716–725, 2007.


Referências Bibliográficas 109[10] Couto, T.; Ziviani, N.; Calado, P.; Cristo, M.; Gonçalves, M.; Moura, E. S.;Brandão, W. Classifying documents with link-based bibliometric measures.Information Retrieval, 13(4):315–345, 2009.[11] Couto, T.; Cristo, M.; Gonçalves, M. A.; Calado, P.; Ziviani, N.; Moura, E.;Ribeiro-Neto, B. A comparative study of citations and links in documentclassification. Proceedings of the 6th ACM/IEEE-CS joint conference on Digitallibraries - JCDL ’06, p. 75, 2006.[12] Debole, F.; Sebastiani, F. Supervised term weighting for automated text categorization.In: Proceedings of the 2003 ACM symposium on Applied computing- SAC ’03, p. 784, New York, New York, USA, 2003. ACM Press.[13] Du, R.; Safavi-Naini, R.; Susilo, W. Web filtering using text classification. The11th IEEE Inter<strong>na</strong>tio<strong>na</strong>l Conference on Networks ICON 2003, p. 325–330, 2003.[14] Figueiredo, F.; Rocha, L.; Couto, T.; Salles, T.; Gonçalves, M. A.; Meira Jr., W.Word co-occurrence features for text classification. Information Systems,36(5):843–858, July 2011.[15] Forman, G. An extensive empirical study of feature selection metrics fortext classification. The Jour<strong>na</strong>l of Machine Learning Research, 3:1289–1305,2003.[16] Forman, G.; Rajaram, S. Scaling up text classification for large file systems.Proceeding of the 14th ACM SIGKDD inter<strong>na</strong>tio<strong>na</strong>l conference on Knowledgediscovery and <strong>da</strong>ta mining - KDD ’08, p. 239, 2008.[17] Furnkranz, J. A Study Using n-gram Features for Text Categorization.Austrian Research Institute for Artifical Intelligence, 3(1998):1–10, 1998.[18] Gabrilovich, E.; Markovitch, S. Feature Generation for Text CategorizationUsing World Knowledge. Artificial Intelligence, 19:1048, 2002.[19] Gabrilovich, E.; Markovitch, S. Overcoming the brittleness bottleneck usingWikipedia: Enhancing text categorization with encyclopedic knowledge.Proceedings of The 21st Natio<strong>na</strong>l Conference on Artificial Intelligence (AAAI), p.1301–1306, 2006.[20] Gantner, Z.; Schmidt-Thieme, L. Automatic content-based categorization ofWikipedia articles. Proceedings of the 2009 Workshop on The People’s WebMeets NLP Collaboratively Constructed Semantic Resources - People’s Web ’09,(August):32–37, 2009.


Referências Bibliográficas 110[21] Hammami, M.; Tsishkou, D. Adult content Web filtering and face <strong>de</strong>tectionusing <strong>da</strong>ta-mining based kin-color mo<strong>de</strong>l. In: 2004 IEEE Inter<strong>na</strong>tio<strong>na</strong>l Conferenceon Multimedia and Expo (ICME) (IEEE Cat. No.04TH8763), p. 403–406.IEEE, 2004.[22] Hu, J.; Fang, L.; Cao, Y.; Zeng, H.-J.; Li, H.; Yang, Q.; Chen, Z. Enhancingtext clustering by leveraging Wikipedia semantics. In: Proceedings of the31st annual inter<strong>na</strong>tio<strong>na</strong>l ACM SIGIR conference on Research and <strong>de</strong>velopment ininformation retrieval - SIGIR ’08, p. 179, New York, New York, USA, 2008. ACMPress.[23] Hu, X.; Zhang, X.; Lu, C.; Park, E. K.; Zhou, X. Exploiting Wikipedia as exter<strong>na</strong>lknowledge for document clustering. Proceedings of the 15th ACM SIGKDDinter<strong>na</strong>tio<strong>na</strong>l conference on Knowledge discovery and <strong>da</strong>ta mining - KDD ’09, p.389, 2009.[24] Ito, M.; Nakayama, K.; Hara, T.; Nishio, S. Association thesaurus constructionmethods based on link co-occurrence a<strong>na</strong>lysis for wikipedia. Proceeding ofthe 17th ACM conference on Information and knowledge mining - CIKM ’08, p.817, 2008.[25] Joachims, T. Text categorization with support vector machines: Learningwith many relevant features. Machine Learning ECML98, 1398(23):137–142,1998.[26] Joachims, T. A support vector method for multivariate performancemeasures. In: Proceedings of the 22nd inter<strong>na</strong>tio<strong>na</strong>l conference on Machinelearning, p. 377–384. ACM, 2005.[27] Joachims, T. Training linear SVMs in linear time. In: Proceedings of the 12thACM SIGKDD inter<strong>na</strong>tio<strong>na</strong>l conference on Knowledge discovery and <strong>da</strong>ta mining,p. 217–226. ACM, 2006.[28] Lan, M.; Tan, C. L.; Su, J.; Lu, Y. Supervised and traditio<strong>na</strong>l term weightingmethods for automatic text categorization. IEEE Transactions on PatternA<strong>na</strong>lysis and Machine Intelligence, 31(4):721–735, 2009.[29] Lewis, D. D. Representation quality in text classification: An introductio<strong>na</strong>nd experiment. In: Proceedings of Workshop on Speech and Natural Language.Hid<strong>de</strong>n Valley, PA, p. 288–295, 1990.[30] Lewis, D. D. An Evaluation of Phrasal and Clustered Representations on aText Categorization Task. Proceedings of the 15th annual inter<strong>na</strong>tio<strong>na</strong>l ACM


Referências Bibliográficas 111SIGIR conference on Research and <strong>de</strong>velopment in information retrieval SIGIR 92,pages(ACM Press):37–50, 1992.[31] Lewis, D. D. Feature selection and feature extraction for text categorization.Proceedings of the workshop on Speech and Natural Language - HLT ’91, p. 212,1992.[32] Lewis, D.; Yang, Y.; Rose, T.; Li, F. Rcv1: A new benchmark collection for textcategorization research. The Jour<strong>na</strong>l of Machine Learning Research, 5:361–397,2004.[33] Li, Y.; Luk, W. P. R.; Ho, K. S. E.; Chung, F. L. K. Improving weak ad-hocqueries using wikipedia as exter<strong>na</strong>l corpus. Proceedings of the 30th annualinter<strong>na</strong>tio<strong>na</strong>l ACM SIGIR conference on Research and <strong>de</strong>velopment in informationretrieval - SIGIR ’07, p. 797, 2007.[34] Liu, T.-Y. Learning to Rank for Information Retrieval. Media, 3(3):60558–60558, 2010.[35] Manning, C. D.; Raghavan, P.; Schütze, H. An Introduction to InformationRetrieval, volume 1. Cambridge University Press, Cambridge, England, Apr. 2009.[36] McCallum, A.; Nigam, K. A comparison of event mo<strong>de</strong>ls for <strong>na</strong>ive bayes textclassification. AAAI-98 workshop on learning for text, p. 41–48, 1998.[37] Metzler, D.; Novak, J.; Cui, H.; Reddy, S. Building enriched documentrepresentations using aggregated anchor text. Proceedings of the 32ndinter<strong>na</strong>tio<strong>na</strong>l ACM SIGIR conference on Research and <strong>de</strong>velopment in informationretrieval - SIGIR ’09, p. 219, 2009.[38] Michie, D.; Spiegelhalter, D. Machine learning, neural and statistical classification,volume 37. Ellis Horwood, Nov. 1994.[39] Milne, D.; Me<strong>de</strong>lyan, O.; Witten, I. Mining Domain-Specific Thesauri fromWikipedia: A Case Study. 2006 IEEEWICACM Inter<strong>na</strong>tio<strong>na</strong>l Conference onWeb Intelligence WI 2006 Main Conference ProceedingsWI06, p. 442–448, 2006.[40] Milne, D. N.; Witten, I. H.; Nichols, D. M. A knowledge-based searchengine powered by wikipedia. Proceedings of the sixteenth ACM conferenceon Conference on information and knowledge ma<strong>na</strong>gement - CIKM ’07, p. 445,2007.


Referências Bibliográficas 112[41] Mla<strong>de</strong>nic, D.; Grobelnik, M. Word sequences as features in text-learning. In:Proc of ERK98 7th Electrotechnical and Computer Science Conference, p. 145–148,1998.[42] Nakayama, K.; Hara, T.; Nishio, S. A Thesaurus Construction Method fromLarge Scale Web Dictio<strong>na</strong>ries. 21st Inter<strong>na</strong>tio<strong>na</strong>l Conference on AdvancedNetworking and Applications AINA 07, (Ai<strong>na</strong>):932–939, 2007.[43] Nakayama, K.; Hara, T.; Nishio, S. Wikipedia Mining for an Association WebThesaurus Construction. Construction, 4831:322–334, 2007.[44] Page, L.; Brin, S.; Motwani, R.; Winograd, T. The PageRank citation ranking:Bringing or<strong>de</strong>r to the web. World Wi<strong>de</strong> Web Internet And Web InformationSystems, p. 1–17, 1999.[45] Rosa, T. C. <strong>Uso</strong> <strong>de</strong> Apontadores <strong>na</strong> <strong>Classificação</strong> <strong>de</strong> Documentos emColeções Digitais. PhD thesis, Universi<strong>da</strong><strong>de</strong> Fe<strong>de</strong>ral <strong>de</strong> Mi<strong>na</strong>s Gerais, 2007.[46] Salton, G.; Wong, A.; Yang, C. A vector space mo<strong>de</strong>l for automatic in<strong>de</strong>xing.Communications of the ACM, 18(11):613–620, 1975.[47] Salton, G.; Buckley, C. Term-weighting approaches in automatic text retrieval.Information Processing & Ma<strong>na</strong>gement, 24(5):513–523, 1988.[48] Schapire, R. E.; Singer, Y. A boosting-based system for text categorization.Machine Learning, 39(2/3):135–168, 2000.[49] Schölkopf, B.; Smola, A. J. Learning with Kernels, volume 64 <strong>de</strong> A<strong>da</strong>ptiveComputation and Machine Learning. MIT Press, 2002.[50] Schonhofen, P. I<strong>de</strong>ntifying Document Topics Using the Wikipedia CategoryNetwork. In: 2006 IEEE/WIC/ACM Inter<strong>na</strong>tio<strong>na</strong>l Conference on Web Intelligence(WI 2006 Main Conference Proceedings)(WI’06), p. 456–462. IEEE, Dec. 2006.[51] Sculley, D.; Wachman, G. M. Relaxed online SVMs for spam filtering.Proceedings of the 30th annual inter<strong>na</strong>tio<strong>na</strong>l ACM SIGIR conference on Researchand <strong>de</strong>velopment in information retrieval SIGIR 07, p. 415, 2007.[52] Sebastiani, F. Machine Learning in Automated Text Categorization. Computing,34(1):1–47, 2002.[53] Senellart, P.; Blon<strong>de</strong>l, V. D. Automatic discovery of similar words. Discovery,p. 20 pp, 1913.


Referências Bibliográficas 113[54] Shen, D.; Sun, J.-T.; Yang, Q.; Chen, Z. Text classification improved throughmultigram mo<strong>de</strong>ls. Proceedings of the 15th ACM inter<strong>na</strong>tio<strong>na</strong>l conference onInformation and knowledge ma<strong>na</strong>gement - CIKM ’06, p. 672, 2006.[55] Slattery, S.; Craven, M. Combining Statistical and Relatio<strong>na</strong>l Methodsfor Learning in Hypertext Domains. In: Page, D., editor, Inductive LogicProgramming 8th Inter<strong>na</strong>tio<strong>na</strong>l Workshop ILP98 Madison Wisconsin USA July 22241998, volume 1446 <strong>de</strong> Lecture Notes in Computer Science, p. 38–52. Springer,1998.[56] Smith, A. G. Web links as a<strong>na</strong>logues of citations. Information Research,9(4):net/ir/9–4/paper188, 2004.[57] Srivastava, A. N.; Sahami, M. Text mining: Classification, clustering, an<strong>da</strong>pplications. Chapman & Hall/CRC, Minneapolis, Minnesota, U.S.A, 2009.[58] Supreethi, K. P.; Prasad, E. V. A Novel Document Representation Mo<strong>de</strong>l forClustering. Inter<strong>na</strong>tio<strong>na</strong>l Jour<strong>na</strong>l of Computer Science Communication, 1(2):243–245, 2010.[59] Tan, C. The use of bigrams to enhance text categorization. InformationProcessing & Ma<strong>na</strong>gement, 38(4):529–546, 2002.[60] Van Rijsbergen, C. J. Information Retrieval, volume 30 <strong>de</strong> The KluwerInter<strong>na</strong>tio<strong>na</strong>l Series on information retrieval. Butterworths, 1979.[61] Vapnik, V. N. The Nature of Statistical Learning Theory, volume 8 <strong>de</strong>Statistics for Engineering and Information Science. Springer, 1995.[62] Völkel, M.; Krötzsch, M.; Vran<strong>de</strong>cic, D.; Haller, H.; Stu<strong>de</strong>r, R. Semantic Wikipedia.Proceedings of the 15th inter<strong>na</strong>tio<strong>na</strong>l conference on World Wi<strong>de</strong> Web - WWW’06, (January 2001):585, 2006.[63] Wang, P.; Domeniconi, C. Building semantic kernels for text classificationusing wikipedia. Proceeding of the 14th ACM SIGKDD inter<strong>na</strong>tio<strong>na</strong>l conferenceon Knowledge discovery and <strong>da</strong>ta mining - KDD ’08, p. 713, 2008.[64] Wang, P.; Hu, J.; Zeng, H.-J.; Chen, Z. Using Wikipedia knowledge to improvetext classification. Knowledge and Information Systems, 19(3):265–281, Sept.2008.[65] Wikipedia. Wikipedia, the free encyclopedia, 2011.


Referências Bibliográficas 114[66] Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin,1(6):80–83, 1945.[67] Wu, F.; Weld, D. S. Autonomously semantifying wikipedia. Proceedingsof the sixteenth ACM conference on Conference on information and knowledgema<strong>na</strong>gement - CIKM ’07, p. 41, 2007.[68] Yang, Y.; Liu, X. A re-exami<strong>na</strong>tion of text categorization methods. In:Proceedings of the 22nd annual inter<strong>na</strong>tio<strong>na</strong>l ACM SIGIR conference on Researchand <strong>de</strong>velopment in information retrieval, p. 42–49. ACM, 1999.[69] Yang, Y.; Pe<strong>de</strong>rsen, J. A comparative study on feature selection in text categorization.In: MACHINE LEARNING-INTERNATIONAL WORKSHOP THENCONFERENCE-, p. 412–420. MORGAN KAUFMANN PUBLISHERS, INC., 1997.[70] Zaïane, O. R.; Antonie, M.-L. Classifying text documents by associating termswith text categories. Australian Computer Science Communications, 5:215–222,2002.[71] Zhang, L.; Zhu, J.; Yao, T. An evaluation of statistical spam filteringtechniques. Acm Transactions On Asian Language Information Processing,3(4):243–269, 2004.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!