05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

un simple document, toutefois <strong>de</strong> nouveaux traitements <strong>de</strong>viennent nécessaires en raison<br />

<strong>de</strong> nouvelles difficultés à gérer.<br />

<strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> multidocument a pour objectif <strong>de</strong> s’appliquer sur un<br />

ensemble <strong>de</strong> documents reliés les uns aux autres, par exemple par un même sujet. <strong>Le</strong><br />

<strong>résumé</strong> à construire doit pouvoir contenir les informations les plus pertinentes contenues<br />

parmi tous les <strong>textes</strong>. Si les <strong>textes</strong> sont liés par un sujet commun, il risque d’y avoir<br />

alors <strong>de</strong> nombreuses informations communes, et le <strong>résumé</strong> construit doit alors éviter<br />

toutes formes <strong>de</strong> redondance d’informations. Ceci est déjà un premier obstacle<br />

technique considérable puisque une même information pertinente dans plusieurs <strong>textes</strong><br />

peut prendre <strong>de</strong>s formes d’expression très différentes. De plus, dans le cas d’un<br />

ensemble d’articles <strong>de</strong> presse portant sur un même évènement, une information<br />

pertinente renvoyant à cet événement dans chaque texte peut varier considérablement<br />

par rapport au temps. Par exemple, dans le cas d’une élection, les informations<br />

contenues dans les articles les plus distants temporellement <strong>de</strong> l’événement principal qui<br />

est décrit sont les plus fiables par rapport aux résultats qui y sont donnés puisque<br />

effectivement les informations <strong>de</strong>viennent <strong>de</strong> mieux en mieux déterminées. Quand le<br />

<strong>résumé</strong> multidocument porte sur différentes interprétations se déroulant dans le temps à<br />

propos d’un même événement, cette prise en compte <strong>de</strong> la temporalité <strong>de</strong>vient<br />

nécessaire. Dans d’autres cas, différents paramètres doivent être retenus, comme par<br />

exemple la fiabilité plus importante <strong>de</strong>s informations provenant <strong>de</strong> certaines sources <strong>de</strong><br />

<strong>textes</strong> par rapport à d’autres. Des informations pertinentes peuvent être redondantes<br />

dans l’ensemble <strong>de</strong>s <strong>textes</strong> à traiter, mais elles peuvent également varier quant à leur<br />

fiabilité d’un texte à un autre et cela suivant différents critères à retenir, notamment par<br />

rapport au type <strong>de</strong> texte ou au domaine traité à l’intérieur.<br />

Une métho<strong>de</strong> <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong> multidocument performante doit aussi être<br />

capable <strong>de</strong> fonctionner quel que soit le nombre <strong>de</strong> documents qu’on lui soumet. Ce<br />

point n’est pas évi<strong>de</strong>nt puisqu’il n’est pas toujours facile <strong>de</strong> vérifier qu’une métho<strong>de</strong><br />

s’exécutant correctement sur <strong>de</strong>ux ou trois documents fonctionne encore bien sur 10, 20<br />

ou même 100 documents. Dans le cas d’un ensemble important <strong>de</strong> documents à<br />

résumer, le taux <strong>de</strong> compression <strong>de</strong>vient alors très faible avec <strong>de</strong>s valeurs pouvant être<br />

très facilement inférieur à 1% tandis que pour un seul document les taux varient<br />

généralement entre 5 et 25%. Cela montre bien qu’il faut disposer <strong>de</strong> métho<strong>de</strong> capable<br />

<strong>de</strong> discriminer <strong>de</strong> manière très efficace les informations les plus pertinentes <strong>de</strong>s autres<br />

81

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!