05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

Prob(S) = [Prob(S∈R). [Prob(c 1 | S∈R)…( Prob(c k | S∈R)]] / [Prob(c 1 )…Prob(c k )]<br />

Où :<br />

• Prob(S∈R) est le taux <strong>de</strong> compression du <strong>résumé</strong> (0,1 par exemple).<br />

• Prob(c i | S∈R) est la probabilité que ce critère soit présent pour un segment du<br />

<strong>résumé</strong>.<br />

• Prob(c i ) est la probabilité que ce critère soit présent.<br />

Ici, l’apprentissage prend une place importante, notamment pour calculer les<br />

probabilités conditionnelles Prob(c i | S∈R) et sans conditions Prob(c i ) pour chaque<br />

critère. On donnera l’exemple les travaux <strong>de</strong> S. Teufel [Teufel 1997] qui suivent ceux<br />

<strong>de</strong> J. Kupiec [Kupiec et al. 1995] et qui emploient cette approche probabiliste avec<br />

apprentissage. L’apprentissage s’effectue sur un corpus d’articles scientifiques auxquels<br />

sont joints leur <strong>résumé</strong> fait par les auteurs. Teufel retient cinq critères : la présence <strong>de</strong><br />

cue phrases, la position dans le texte, la longueur <strong>de</strong> la phrase, le présence <strong>de</strong> termes<br />

thématiques et la présence <strong>de</strong> termes du titre. Pour un texte qui est soumis au système,<br />

l’idée est <strong>de</strong> juger la pertinence <strong>de</strong>s phrases <strong>de</strong> celui-ci à travers la probabilité qu’elles<br />

ont d’appartenir au <strong>résumé</strong>, et ceci en fonction <strong>de</strong>s valeurs qui ont été calculées lors <strong>de</strong><br />

l’apprentissage préalable pour tous les critères. Grâce à cette métho<strong>de</strong> on peut<br />

sélectionner les combinaisons les plus adéquates pour construire le <strong>résumé</strong>. Toutefois<br />

Teufel admet que l’amélioration du système ne peut passer que par l’ajout <strong>de</strong> nouveaux<br />

critères positifs et non par plus d’apprentissages.<br />

Pour les techniques utilisant l’apprentissage, elles sont généralement assez<br />

variables et s’utilisent <strong>de</strong> nombreuses façons. <strong>Le</strong>urs inconvénients portent cependant sur<br />

leur dépendance aux corpus, et aussi sur l’incapacité, qui résulte <strong>de</strong> leur utilisation, à<br />

maîtriser le processus résumant. Nous entendons par cette <strong>de</strong>rnière remarque le fait que<br />

toute action effectuée, telle que l’estimation <strong>de</strong> la pertinence, à la suite et sous la<br />

condition d’un apprentissage, ne peut pas être totalement explicable comme cela peut<br />

l’être pour un système à base <strong>de</strong> règles ou <strong>de</strong> connaissances bien définies.<br />

L’apprentissage est conditionné par l’objectif d’obtenir les sorties qui sont espérées, et<br />

peu importe les traitements effectués <strong>de</strong> manière interne au système, le travail étant<br />

alors uniquement <strong>de</strong> paramétrer le système convenablement (les coefficients, les<br />

probabilités conditionnelles, etc.) et <strong>de</strong> ne retenir que la combinaison <strong>de</strong> critères la plus<br />

68

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!