05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

exemple qui montre une non-monotonie dans l’arrangement <strong>de</strong> critères pour le <strong>résumé</strong><br />

d’articles scientifiques. Comment attribuer les bonnes valeurs pour les coefficients α 1 ,<br />

α 2 ,..., α k-1 et α k appliquées aux k critères c 1 , c 2 ,… c k-1 , c k retenus ? Si c’est le concepteur<br />

qui peut le faire, dans ce cas les valeurs <strong>de</strong>viennent totalement arbitraires, ou bien si<br />

cela se fait à la suite d’un apprentissage statistique, alors cela <strong>de</strong>vient dépendant du<br />

corpus d’apprentissage.<br />

Présentons maintenant quelques autres techniques toujours <strong>de</strong> type numérique.<br />

Certains travaux comme ceux <strong>de</strong> M. Mitra [Mitra 1997] et G. Salton [Salton<br />

1997] s’inspirent totalement <strong>de</strong>s métho<strong>de</strong>s employées dans la recherche d’informations<br />

classique. Ils emploient <strong>de</strong>s techniques issues du modèle vectoriel, voir [Salton 1982].<br />

<strong>Le</strong> texte et les segments délimités qui le composent (les paragraphes dans les travaux <strong>de</strong><br />

Mitra) sont considérés comme <strong>de</strong>s vecteurs dans un espace à n dimension, où n étant le<br />

nombre <strong>de</strong> mots représentant le texte 31 . Dans ce modèle, le sens du texte est associé à<br />

l’ensemble <strong>de</strong>s termes qui le compose. <strong>Le</strong>s coordonnées <strong>de</strong>s vecteurs <strong>de</strong> chaque<br />

segment textuel correspon<strong>de</strong>nt aux valeurs déterminées à partir <strong>de</strong> la fréquence <strong>de</strong><br />

chaque mot dans le texte. On peut par la suite alors effectuer <strong>de</strong>s calculs <strong>de</strong> similarité<br />

entre chaque vecteur. <strong>Le</strong>s vecteurs qui sont les plus reliées aux autres correspon<strong>de</strong>nt aux<br />

segments les plus pertinents puisque on prend pour hypothèse que les segments<br />

importants englobent thématiquement les autres. Il existe <strong>de</strong> nombreux autres travaux<br />

qui s’inspirent <strong>de</strong> ce même modèle ou qui en sont proches techniquement (pas<br />

forcément conceptuellement). Notamment, on peut citer le travail <strong>de</strong> Goldstein<br />

[Goldstein 2000] pour le <strong>résumé</strong> multidocument qui calcule la similarité entre les<br />

phrases dans le cadre <strong>de</strong> la sémantique latente (latent semantic).<br />

Certains autres travaux utilisent un modèle probabiliste provenant toujours <strong>de</strong> ce<br />

qui se fait en recherche d’informations, voir [Ribeiro et al. 1998]. L’idée est <strong>de</strong> calculer<br />

pour chaque phrase la probabilité conditionnelle qu’elle a d’être dans le <strong>résumé</strong> par<br />

rapport à tous les critères qui sont retenues. Plus la probabilité est élevée, plus la phrase<br />

a <strong>de</strong> chance d’apparaître dans le <strong>résumé</strong>. La probabilité pour un segment S d’être dans le<br />

<strong>résumé</strong> R à partir <strong>de</strong> k critères prend alors la forme suivante :<br />

31 C’est-à-dire tous les différents mots « pleins » du texte. <strong>Le</strong>s mots « vi<strong>de</strong>s » correspon<strong>de</strong>nt aux articles,<br />

déterminants et autres termes grammaticaux aucunement représentatifs du texte.<br />

67

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!