05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4 : Processus et stratégies <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong><br />

pertinente mais qui ne le sont pas en réalité à cause <strong>de</strong> marqueurs annulant ou altérant<br />

leur fonction dans le texte. Par exemple, le marqueur en début <strong>de</strong> phrase Nous<br />

concluons, indiquant bien la présence d’une conclusion <strong>de</strong> l’auteur, perd tout son rôle<br />

dans l’expression Si nous concluons où le marqueur si rend hypothétique le contenu qui<br />

suit et annule la conclusion <strong>de</strong> l’auteur (c’est en ce sens que le segment est dit alors<br />

« non fiable »). <strong>Le</strong> principe sera alors ici <strong>de</strong> repérer certains marqueurs affectant la<br />

pertinence <strong>de</strong>s segments annotés, par l’emploi <strong>de</strong> règles d’exploration contextuelle<br />

dédiées à les distinguer. Dans ce qui suit, nous allons décrire trois catégories <strong>de</strong> phrases<br />

à exclure du <strong>résumé</strong> et qui sont i<strong>de</strong>ntifiables par <strong>de</strong>s marques <strong>de</strong> surface : les phrases<br />

dont le contenu n’est fiable que sous certaines conditions, les phrases dont le contenu<br />

n’est pas pris en charge par l’auteur, et enfin les phrases qui sont <strong>de</strong>s exemples. Nous<br />

donnerons quelques explications afin <strong>de</strong> justifier ce choix pour ces trois catégories <strong>de</strong><br />

phrases. Toutefois, si nous nous concentrons sur ces trois catégories, afin <strong>de</strong> ne pas les<br />

extraire, nous convenons qu’il en existe encore d’autres dans le cas du <strong>résumé</strong> qui<br />

auraient également pu faire l’objet d’analyses dans notre travail. Nous pensons<br />

cependant qu’il est mieux <strong>de</strong> nous restreindre pour le moment à ces trois choix plutôt<br />

que <strong>de</strong> chercher à analyser toutes les formes non fiables selon nous dans les <strong>textes</strong><br />

(scientifiques), ce qui sortirait largement du cadre <strong>de</strong> notre thèse.<br />

2.3.2. <strong>Le</strong>s phrases hypothétiques du type « Si … . »<br />

La première catégorie <strong>de</strong> phrases à exclure correspond à toutes celles dont le<br />

contenu n’est pas fiable parce qu’il n’est vali<strong>de</strong> que sous certaines conditions. La<br />

recherche <strong>de</strong> toutes ces phrases dans un texte est particulièrement difficile. Malgré tout,<br />

à partir <strong>de</strong> certaines marques, et en appliquant certaines règles d’exploration<br />

contextuelle, on peut en repérer quelques-unes, et ainsi les éviter dans l’élaboration du<br />

<strong>résumé</strong> par extraction. Prenons le cas <strong>de</strong>s phrases débutant par la présence d’un si ou<br />

d’une expression équivalente (au cas où, en supposant, etc.) qui renvoie le contenu<br />

entier suivant dans le domaine du possible (nous nous limiterons à la phrase). Dans le<br />

cadre <strong>de</strong> la recherche <strong>de</strong> segments pertinents pour le <strong>résumé</strong>, ces phrases peuvent être<br />

exclues, selon nous, parce que les informations les plus pertinentes contenues dans les<br />

<strong>textes</strong> scientifiques sont, en principe, celles qui sont nécessairement vraies ou correctes<br />

(au moins pour l’auteur), et ne doivent sûrement pas poser d’ambiguïté au lecteur quant<br />

280

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!