05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 2 : <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> <strong>de</strong> <strong>textes</strong><br />

optimale. De plus, on peut noter que l’on s’éloigne ici toujours plus <strong>de</strong> la réalité<br />

cognitive correspondant à l’activité résumante humaine, et que les informaticiens<br />

semblent totalement l’oublier. L’apprentissage, ainsi que les métho<strong>de</strong>s numériques et<br />

statistiques, resteront toujours limités et confrontés aux barrières <strong>de</strong> la langue puisqu’ils<br />

ne peuvent rester qu’à la manipulation <strong>de</strong> valeurs reliées à <strong>de</strong>s propriétés d’objets à la<br />

surface <strong>de</strong>s <strong>textes</strong>. Ils ne peuvent envisager à eux seuls la manipulation <strong>de</strong> structures<br />

plus profon<strong>de</strong>s, telles que les scripts, et la reconnaissance du rôle sémantique et<br />

discursif sous-jacent <strong>de</strong>s éléments <strong>de</strong> surface. Pourtant ces <strong>de</strong>ux actions paraissent<br />

désormais nécessaires pour faire évoluer qualitativement le domaine du <strong>résumé</strong><br />

<strong>automatique</strong>.<br />

Pour terminer cette <strong>de</strong>scription <strong>de</strong>s techniques numériques et statistiques, il faut<br />

malgré tout reconnaître qu’elles sont bien plus généralisables aux diverses langues que<br />

les autres techniques. En effet, il est bien moins coûteux d’entraîner un système par<br />

apprentissage sur un corpus d’une nouvelle langue que <strong>de</strong> construire <strong>de</strong> nouvelles règles<br />

linguistiques ou d’ajouter <strong>de</strong> nouvelles connaissances linguistiques dépendantes que<br />

d’une seule langue. Pour <strong>de</strong>s systèmes utilisant <strong>de</strong>s vecteurs <strong>de</strong> fréquences par exemple,<br />

l’application à différentes langues ne pose pas plus <strong>de</strong> problème car les fréquences sont<br />

calculées à partir <strong>de</strong>s formes graphiques (mots, N-gram, etc.). Dans la perspective<br />

multilingue du <strong>résumé</strong> <strong>automatique</strong> 32 , les techniques statistiques sont clairement<br />

avantageuses et c’est ce qui explique leur utilisation dans presque tous les systèmes<br />

multilingues.<br />

3.4. <strong>Le</strong>s techniques linguistiques<br />

Pour estimer la pertinence <strong>de</strong>s informations dans un texte afin <strong>de</strong> construire le<br />

<strong>résumé</strong>, les techniques linguistiques s’appuient quant à elles sur la présence <strong>de</strong>s<br />

marques linguistiques <strong>de</strong> surface (mots, groupe <strong>de</strong> mots, etc.), et particulièrement sur<br />

certaines <strong>de</strong> leurs propriétés syntaxiques, sémantiques, discursives, etc.<br />

Au sein <strong>de</strong>s applications, l’utilisation <strong>de</strong> techniques linguistes se fait plutôt <strong>de</strong><br />

manière hybri<strong>de</strong> conjointement avec l’emploi <strong>de</strong> techniques quantitatives et statistiques.<br />

32 Description dans le chapitre 5 partie 2.<br />

69

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!