08.05.2013 Views

INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP

INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP

INTRODUÇÃO À SUMARIZAÇÃO AUTOMÁTICA - ICMC - USP

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4. Estrutura de discurso possível:<br />

ED:<br />

CAUSA<br />

núcleo satélite<br />

feliz(X)<br />

5. Resultado final:<br />

S: “O menino beijou a menina e ficou feliz.”<br />

menino(X), menina(Y) ∧ beijou(X,Y)<br />

Nesse exemplo, o formalismo escolhido para representar as mensagens (M)<br />

resultantes da interpretação do texto-fonte é o Cálculo de Predicados de Primeira Ordem<br />

(Clocksin and Mellish, 1981). A estrutura de discurso será explicada mais adiante,<br />

bastando entender agora que ela indica a relação causal entre o fato do menino beijar a<br />

menina e ficar feliz por esse motivo.<br />

Como mostra a mensagem comprimida (M2), foi eliminado, de M1, o<br />

qualificativo ‘bonita(Y)’, relativo a ‘menina(Y)’. Uma possível heurística de seleção de<br />

conteúdo pode ser, assim, ‘elimine qualquer qualificativo de uma entidade do discurso’.<br />

Outras heurísticas similares a essa podem ser definidas para a seleção do conteúdo.<br />

Certamente, é necessário haver um modelo de domínio no sistema, juntamente com seu<br />

léxico, para que se distingam qualificativos ou propriedades de entidades conceituais<br />

que possam servir a heurísticas dessa natureza. Esse modelo, assim como o léxico,<br />

deverão ser consultados durante a seleção do conteúdo, mediante a base de heurísticas<br />

de seleção. Nos demais níveis de processamento, podem existir outros procedimentos,<br />

determinísticos ou não, algoritmizáveis ou baseados em heurísticas, que sirvam também<br />

aos propósitos da sumarização automática. A diferença se dará pelo tipo de informação<br />

contemplada em cada nível que, certamente, implicará conjuntos de procedimentos<br />

distintos.<br />

A sumarização de M1 se baseou tanto no número de palavras quanto no número<br />

de sentenças. Entretanto, de modo geral, a sumarização pode se refletir também no<br />

número de segmentos de discurso (que são unidades de significado mínimo em um<br />

texto 7 ) e no número de relações retóricas (p.ex., causa-efeito, no exemplo acima), as<br />

quais indicam as relações existentes entre os segmentos de discurso. O uso de relações<br />

de tal natureza é necessário para que se permita a estruturação coerente de textos em<br />

segmentos de discurso.<br />

O processo de realização lingüística, como já mencionamos, é responsável por<br />

expressar a estrutura de discurso resultante do processo de planejamento textual (ED)<br />

em sua forma lingüística (S). Esse processo pode se dar de várias formas, a saber (Reiter<br />

and Dale, 2000; Scott and Souza, 1990):<br />

Pela utilização de sistemas computacionais já disponíveis, por exemplo, FUF<br />

(Elhadad, 1991), que utiliza f-structures (Kaplan e Bresnan, 1982) como<br />

7<br />

Segmento difere de sentença no sentido de que uma sentença pode conter vários<br />

segmentos de discurso.<br />

26

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!