05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

Des systèmes employant uniquement ou quasi-uniquement <strong>de</strong>s techniques linguistiques<br />

sont rares. Par exemple, <strong>de</strong>s systèmes par extraction multicritères comme ceux proposés<br />

par H.P. Edmundson [Edmundson 1969], J. Kupiec [Kupiec et al. 1995] ou encore S.<br />

Teufel [Teufel 1997] utilisent <strong>de</strong>s connaissances linguistiques sous la forme<br />

d’heuristiques. Effectivement, la présence dans une phrase <strong>de</strong> cue phrases, <strong>de</strong> termes<br />

provenant du titre, et la localisation <strong>de</strong> la phrase dans le texte sont <strong>de</strong>s critères<br />

initialement linguistiques qui sont intégrés dans ces systèmes pour évaluer la pertinence<br />

<strong>de</strong>s phrases. Si ces systèmes par extraction exploitent <strong>de</strong>s valeurs numériques issues <strong>de</strong><br />

manipulations quantitatives, ils intègrent bien toutefois <strong>de</strong>s connaissances sur les <strong>textes</strong><br />

n’ayant à la base aucune valeur quantitative. Finalement, au sein <strong>de</strong>s systèmes où il<br />

existe cet aspect multicritère dans l’évaluation <strong>de</strong> la pertinence, <strong>de</strong>s critères d’origine<br />

linguistique sont très souvent utilisés. Malgré tout, il reste difficile <strong>de</strong> les considérer<br />

comme <strong>de</strong>s techniques réellement linguistiques.<br />

Dans d’autres travaux, on trouve un emploi plus direct et plus important <strong>de</strong><br />

techniques et <strong>de</strong> connaissances linguistiques, mais toujours <strong>de</strong> manière complémentaire.<br />

Ainsi, il existe <strong>de</strong> nombreux systèmes <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong> qui emploient<br />

conjointement au traitement principal <strong>de</strong>s dictionnaires sémantiques lexicaux comme<br />

WordNet pour effectuer <strong>de</strong>s i<strong>de</strong>ntifications <strong>de</strong> thèmes [Barsilay et Elhdad 1997], <strong>de</strong>s<br />

métho<strong>de</strong>s <strong>de</strong> parsing pour trouver notamment les groupes nominaux, [Barsilay et<br />

Elhdad 1997] et pour reconstituer <strong>de</strong>s structures discursives, <strong>de</strong>s analyseurs<br />

morphosyntaxiques et syntaxiques, <strong>de</strong>s segmenteurs linguistiques, etc.<br />

Par ailleurs d’autres travaux intègrent <strong>de</strong>s techniques et <strong>de</strong>s analyses linguistiques<br />

comme éléments principaux du traitement, et cela notamment avec une plus gran<strong>de</strong><br />

prise en compte <strong>de</strong> la structuration du texte. On peut faire référence par exemple aux<br />

travaux <strong>de</strong> D. Marcu [Marcu 1997] qui exploitent la structure rhétorique du texte selon<br />

la RST (Rhetorical Structure Theory, [Mann et Thompson 1988]). L’hypothèse<br />

linguistique (<strong>de</strong> niveau rhétorique) étant que les nuclei <strong>de</strong> la RST semblent correspondre<br />

aux éléments les plus pertinents du texte du fait d’une forte corrélation (empirique)<br />

entre eux. Il utilise entre autres la présence <strong>de</strong> marqueurs à la surface du texte pour<br />

reconstruire <strong>automatique</strong>ment les relations rhétoriques à l’intérieur du texte. On peut<br />

également donner l’exemple <strong>de</strong>s travaux <strong>de</strong> Ono [Ono et al. 1994] qui s’appliquent à<br />

résumer <strong>de</strong>s articles techniques et <strong>de</strong>s éditoriaux en japonais. L’idée ici est que la<br />

70

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!