05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

rapport à la valeur <strong>de</strong>s autres segments. <strong>Le</strong>s critères pris en compte dans l’évaluation<br />

d’un segment jugé pertinent sont relativement hétérogènes. <strong>Le</strong>s principaux sont la<br />

fréquence <strong>de</strong> termes représentatifs du texte, la position dans le texte, la présence <strong>de</strong><br />

termes contenus dans le titre, la présence <strong>de</strong> certaines marques linguistiques (comme les<br />

cue phrases), etc. Ce qui caractérise ces métho<strong>de</strong>s numériques/statistiques, c’est<br />

qu’elles travaillent sur <strong>de</strong>s valeurs entièrement numériques calculées pour certaines à<br />

l’ai<strong>de</strong> <strong>de</strong> poids et <strong>de</strong> valeurs arbitrairement données ou dépendantes d’un apprentissage.<br />

Nous soulignons la présence forte aujourd’hui <strong>de</strong>s techniques par apprentissage dans le<br />

cadre du <strong>résumé</strong> <strong>automatique</strong>, travaillant sur <strong>de</strong>s corpus <strong>textes</strong>/<strong>résumé</strong>s, et qui<br />

s’intègrent généralement dans notre classification parmi les métho<strong>de</strong>s statistiques. Il<br />

existe beaucoup <strong>de</strong> travaux utilisant <strong>de</strong>s techniques statistiques et numériques, toutefois<br />

nous n’en citerons que <strong>de</strong>ux pour illustration, et qui nous semblent caractéristiques pour<br />

comprendre l’approche par extraction. <strong>Le</strong>s travaux <strong>de</strong> M. Mitra [Mitra et al. 1997] et <strong>de</strong><br />

G. Salton [Salton et al. 1997] sont représentatifs <strong>de</strong> ce courant statistique avec<br />

l’exploitation d’outils issus <strong>de</strong> la recherche d’informations. Effectivement, ils proposent<br />

l’extraction <strong>de</strong> segments textuels (paragraphes ou phrases) à partir <strong>de</strong> calculs <strong>de</strong><br />

similarité entre chaque segment représenté chacun par un vecteur. <strong>Le</strong>s coordonnées <strong>de</strong>s<br />

vecteurs correspon<strong>de</strong>nt à <strong>de</strong>s valeurs numériques telles que la fréquence <strong>de</strong> termes<br />

(mots-pleins), etc. <strong>Le</strong>s segments textuels les plus pertinents pour le <strong>résumé</strong> sont ainsi<br />

ceux qui sont les plus liées au reste du texte (c’est-à-dire par rapport aux autres<br />

paragraphes). Pour un autre exemple <strong>de</strong> travail à partir <strong>de</strong> techniques statistiques, on<br />

renvoie à ceux <strong>de</strong> S. Teufel et M. Moens [Teufel et Moens 99] qui proposent une<br />

métho<strong>de</strong> par apprentissage statistique permettant d’ajuster les différentes heuristiques<br />

évaluant la pertinence <strong>de</strong>s phrases. Ces heuristiques correspon<strong>de</strong>nt à la présence <strong>de</strong> cue<br />

phrases, à la position textuelle, à la présence <strong>de</strong> termes thématiques, etc.<br />

L’apprentissage s’effectue sur un corpus d’articles scientifiques avec leur <strong>résumé</strong><br />

construit par les auteurs.<br />

<strong>Le</strong> <strong>de</strong>uxième groupe <strong>de</strong> techniques dans les approches par extraction, regroupent<br />

celles <strong>de</strong> nature linguistiques qui s’appuient, pour évaluer la pertinence <strong>de</strong>s segments<br />

textuels, sur la présence <strong>de</strong> marques linguistiques <strong>de</strong> surface auxquelles on associe un<br />

certain rôle (discursif, sémantique…) et non une simple valeur numérique. Elles<br />

s’appuient aussi sur d’autres critères liés au texte et à sa structure, comme la position <strong>de</strong><br />

la phrase. L’objectif est <strong>de</strong> repérer les segments textuels les plus importants par <strong>de</strong>s<br />

connaissances linguistiques sur le texte (ensemble <strong>de</strong> marques, structuration discursive,<br />

58

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!