INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP
INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP
INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
pela proposição central do texto-fonte; b) por seu objetivo comunicativo e c) por seu<br />
conteúdo informativo, ao qual denominaremos base de conhecimento do sumário (Rino,<br />
1996). Sob essa perspectiva, construir um sumário consiste em preservar a mensagemfonte<br />
[do texto original], a qual deve ser reconhecida por meio da análise lingüística e<br />
estrutural do texto-fonte 4 .<br />
Nas seções seguintes são apresentados os principais problemas da abordagem<br />
profunda, em função de sua dependência de uma mensagem-fonte a ser preservada,<br />
assim como uma arquitetura clássica de sumarização textual. São descritos, ainda,<br />
alguns modelos lingüísticos para a sumarização automática.<br />
5.1. A Sumarização Automática na Abordagem Profunda<br />
O problema de se construir sumários automaticamente remete às máximas de<br />
Grice (1975), a saber:<br />
Qualidade: informar precisamente somente o que pode ser evidenciado no textofonte;<br />
Quantidade: dizer exatamente o que se requer, nem mais, nem menos;<br />
Relevância: transmitir somente o que é relevante, dependendo da meta comunicativa<br />
e do conhecimento do leitor;<br />
Modo: evitar obscuridade e ambigüidade e escrever de forma ordenada e breve.<br />
Na sumarização automática, tais máximas relacionam-se, ainda, a outras<br />
medidas, tais como:<br />
Grau de abstração: grau com que o escritor ignora detalhes;<br />
Clareza: relacionada ao esforço de compreensão do leitor;<br />
Grau de detalhe: relacionado à quantidade e qualidade da informação transmitida;<br />
Grau de explicitação: grau de evidência das informações e de seu interrelacionamento;<br />
Nível de informatividade: relacionado à referência a unidades significativas de<br />
conteúdo.<br />
Essas características, por sua vez, estão relacionadas à observação (humana) de<br />
que não necessariamente um sumário mais conciso é obscuro, tampouco um mais<br />
explicitamente marcado 5 garante clareza ou é de melhor qualidade. Um sumário menos<br />
marcado, por exemplo, pode exigir maior esforço de compreensão, pela necessidade de<br />
inferência do que ficou implícito. Essas questões envolvem tanto o conhecimento do<br />
domínio quanto a competência lingüística do leitor e estão vinculadas, ainda, a<br />
considerações de gênero e tipo de texto em foco, os quais, por sua vez, caracterizam<br />
eventos comunicativos particulares, que podem ser evidenciados por recursos de<br />
linguagem ou recursos estruturais especiais, além de formas lingüísticas características<br />
do gênero ou da tipologia sob enfoque.<br />
A distinção entre gênero e tipo de um texto é delicada, sendo o entendimento de<br />
ambos polêmico até mesmo no meio literário. Entretanto, é consenso que o tipo textual<br />
4 Como observamos na Seção 2.2., sumários podem ser construídos, que apresentem<br />
objetivos comunicativos diversos de seus textos-fonte correspondentes. Ainda assim,<br />
eles devem ter um forte elo com os originais, que permita reconhecê-los como formas<br />
condensadas daqueles.<br />
5 Isto é, com marcadores superficiais das relações de discurso subjacentes.<br />
22