05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

éléments <strong>de</strong> cette représentation à partir d’une certaine hiérarchie d’importance qui<br />

tenait compte également <strong>de</strong>s besoins <strong>de</strong> l’utilisateur. Enfin, on générait le <strong>résumé</strong><br />

textuel à partir <strong>de</strong>s propositions les plus pertinentes. Ce système était conçu pour<br />

résumer <strong>de</strong>s <strong>textes</strong> scientifiques. Toutefois, il ne fut jamais complet et beaucoup <strong>de</strong><br />

traitements n’ont jamais pu réellement se faire <strong>automatique</strong>ment par le système. Son<br />

ambition fut plus gran<strong>de</strong> que la capacité réelle <strong>de</strong>s moyens conceptuels (à travers le<br />

modèle <strong>de</strong> Kintsch et Van Dijk principalement) et techniques (issues <strong>de</strong> l’intelligence<br />

artificielle), qui, croyait-on à l’époque, aurait pu résoudre cette activité résumante<br />

<strong>automatique</strong>ment.<br />

2.3. L’approche par extraction avec analyse <strong>de</strong> surface<br />

<strong>Le</strong> second type d’approche est celui qui consiste en la production <strong>de</strong> <strong>résumé</strong>s par<br />

extraction et qui s’inspire en partie <strong>de</strong>s approches issues <strong>de</strong> la recherche d’informations.<br />

Ce rapprochement avec la recherche d’informations 26 fait que, <strong>de</strong> nos jours, le <strong>résumé</strong><br />

<strong>automatique</strong> en <strong>de</strong>vient une branche spécifique au sein <strong>de</strong> ses applications sur <strong>de</strong>s<br />

données textuelles (fouilles textuelles, etc.). L’objectif <strong>de</strong> cette approche est <strong>de</strong> pouvoir<br />

fournir rapi<strong>de</strong>ment et sans analyse en profon<strong>de</strong>ur du texte un <strong>résumé</strong> à l’utilisateur. On<br />

repère et extrait les segments textuels (phrases ou paragraphes) les plus pertinents du<br />

texte afin <strong>de</strong> construire un sous-ensemble d’extraits textuels que l’on considère comme<br />

un <strong>résumé</strong>. <strong>Le</strong> travail principal se situe alors dans l’évaluation <strong>de</strong> la pertinence <strong>de</strong>s<br />

segments textuels suivant un ou plusieurs critères. On peut dissocier <strong>de</strong>ux principales<br />

façons <strong>de</strong> faire : soit par l’emploi <strong>de</strong> techniques numériques/statistiques (c’est-à-dire<br />

essentiellement quantitatives), soit par l’emploi <strong>de</strong> techniques linguistiques (plutôt<br />

qualitatives).<br />

<strong>Le</strong>s techniques statistiques, en adéquation avec <strong>de</strong>s modèles <strong>de</strong> recherche<br />

d’informations (vectoriels par exemple, voir [Salton 1982]), prennent comme critère <strong>de</strong><br />

pertinence une valeur numérique associée à un segment textuel et qui est calculée par<br />

une fonction <strong>de</strong> score portant sur un ou plusieurs critères variables. Un segment textuel<br />

est alors extrait si sa valeur est suffisamment élevée par rapport à un seuil et aussi par<br />

26 Au sens actuel <strong>de</strong> recherche d’informations, c’est-à-dire essentiellement quantitative, numérique et ne<br />

portant pas forcément uniquement sur du texte.<br />

57

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!