05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Introduction<br />

éléments textuels <strong>de</strong> surface. Premièrement, les techniques statistiques, en adéquation<br />

avec <strong>de</strong>s modèles <strong>de</strong> recherche d’informations (pour les fon<strong>de</strong>ments voir [Salton et<br />

McGill 1983]), qui prennent comme critère <strong>de</strong> pertinence la valeur numérique d’un<br />

segment textuel calculée par une fonction <strong>de</strong> score portant sur plusieurs critères précis et<br />

variables [Hatzivassiloglou et al. 2001] ; [Mitra et al. 1997] ; [Salton et al. 1997]. Un<br />

segment textuel est alors extrait si cette valeur est suffisamment élevée par rapport à un<br />

seuil et aussi par rapport à la valeur <strong>de</strong>s autres segments. <strong>Le</strong>s critères pris en compte<br />

dans l’évaluation <strong>de</strong> la pertinence d’un segment sont relativement hétérogènes. <strong>Le</strong>s<br />

principaux sont la fréquence <strong>de</strong> termes pertinents ou bien représentatifs du texte, la<br />

position dans le texte, la présence <strong>de</strong> termes contenus dans le titre ou encore la présence<br />

<strong>de</strong> certaines marques linguistiques. Ce qui caractérise ces métho<strong>de</strong>s statistiques, c’est<br />

qu’elles travaillent sur <strong>de</strong>s valeurs entièrement numériques calculées pour certaines à<br />

l’ai<strong>de</strong> <strong>de</strong> poids et <strong>de</strong> valeurs arbitrairement données ou dépendants d’un apprentissage.<br />

Signalons la présence importante désormais <strong>de</strong>s approches par apprentissage dans le<br />

cadre du <strong>résumé</strong> <strong>automatique</strong>, travaillant sur <strong>de</strong>s corpus <strong>textes</strong>/<strong>résumé</strong>s, et qui relèvent<br />

globalement dans notre classification <strong>de</strong>s métho<strong>de</strong>s statistiques. Deuxièmement, les<br />

techniques plutôt linguistiques s’appuient quant à elles sur la présence <strong>de</strong> marques<br />

linguistiques <strong>de</strong> surface, et sur <strong>de</strong>s critères <strong>de</strong> nature discursive liés aux marques,<br />

comme la position dans la structure discursive, etc. pour établir la pertinence ou non<br />

d’une phrase dans le texte. L’objectif est dans ce cas <strong>de</strong> repérer les segments les plus<br />

importants par <strong>de</strong>s connaissances linguistiques sur le texte (marques, structures<br />

discursives, etc.) sans faire appel à une forme d’évaluation quantitative <strong>de</strong> la pertinence<br />

mélangeant <strong>de</strong>s critères <strong>de</strong> natures diverses. Elle repose généralement sur l’idée que<br />

certaines marques <strong>de</strong> surface dans un contexte textuel bien précis permettent d’attribuer<br />

une valeur sémantique au segment qui les contient, et ainsi <strong>de</strong> connaître sa pertinence<br />

dans le texte. L’avantage <strong>de</strong> la métho<strong>de</strong> par analyse <strong>de</strong> surface avec extraction est <strong>de</strong> ne<br />

pas passer par une analyse en profon<strong>de</strong>ur du texte, et <strong>de</strong> pouvoir fournir un <strong>résumé</strong> <strong>de</strong><br />

façon plus simple sans <strong>de</strong>voir générer du texte. Du point <strong>de</strong> vue cognitif, cette métho<strong>de</strong><br />

n’est pas incorrecte puisque les résumeurs professionnels ten<strong>de</strong>nt à résumer rapi<strong>de</strong>ment<br />

les <strong>textes</strong> avec une analyse superficielle <strong>de</strong>s <strong>textes</strong>, ceci en construisant les <strong>résumé</strong>s<br />

essentiellement par <strong>de</strong>s opérations <strong>de</strong> « copier » et « coller » avec quelques<br />

modifications ajoutées, mais les formulations propres aux résumeurs restent rares<br />

[Endres-Niggemeyer, 1998].<br />

11

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!