05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Introduction<br />

segments textuels les plus pertinents en fonction <strong>de</strong> leur annotation, cette <strong>de</strong>rnière<br />

exprimant une catégorie discursive rattachée à une carte sémantique définie par <strong>de</strong>s<br />

analyses linguistiques <strong>de</strong> <strong>textes</strong>. Ainsi, une catégorisation discursive d’une partie <strong>de</strong>s<br />

segments textuels étant faite, cela ouvre aussi la possibilité à un ensemble plus large<br />

d’applications grâce à l’exploitation <strong>de</strong> ces segments catégorisés. Certains outils <strong>de</strong><br />

fouille textuelle par catégorie ou les fiches <strong>de</strong> synthèse <strong>de</strong>viennent alors les principales<br />

autres applications qui découlent <strong>de</strong> cette approche par annotation, en complément <strong>de</strong> la<br />

tâche <strong>de</strong> <strong>résumé</strong> <strong>automatique</strong>.<br />

Avec le système d’annotation EXCOM, les principaux points qui caractérisent<br />

l’annotation discursive <strong>automatique</strong> sont :<br />

• l’indépendance par rapport aux domaines contenus dans les <strong>textes</strong>, cela en raison<br />

<strong>de</strong> la nature <strong>de</strong>s marques discursives, elles-mêmes détachées <strong>de</strong> ces domaines ;<br />

• aucun recours à <strong>de</strong>s terminologies (entités nommées, dictionnaires, etc.) ;<br />

• aucune utilisation nécessaire et préalable d’analyseurs morphosyntaxiques ou<br />

syntaxiques en raison <strong>de</strong> l’emploi <strong>de</strong> la métho<strong>de</strong> d’exploration contextuelle qui<br />

opère directement sur les formes <strong>de</strong> surfaces reliées à <strong>de</strong>s représentations<br />

sémantiques.<br />

• aucune utilisation d’apprentissage pour la constitution <strong>de</strong>s ressources<br />

(marqueurs discursifs), ces <strong>de</strong>rnières étant construites par le linguiste à partir<br />

d’analyses <strong>de</strong> les <strong>textes</strong>.<br />

Une orientation multilingue est développée par EXCOM, aussi bien pour<br />

l’annotation discursive que pour les applications qui en résultent. Effectivement, si les<br />

ressources (marqueurs et règles) exploitées lors <strong>de</strong>s traitements varient d’une langue à<br />

une autre, les catégories discursives dégagées, ainsi que la carte sémantique qui les<br />

structure, traversent les différentes langues. Ainsi une fois que le travail a été effectué<br />

dans une langue, il n’est pas nécessaire <strong>de</strong> refaire une analyse linguistique <strong>de</strong> <strong>textes</strong><br />

dans une autre langue pour dégager une carte sémantique et ses catégories constituantes,<br />

seule l’écriture <strong>de</strong>s nouvelles ressources est requise (inventaire <strong>de</strong>s marqueurs).<br />

Par rapport à d’autres approches antérieures, y compris celles menées dans le<br />

laboratoire, nous distinguons nettement la phase d’annotation en fonction d’une carte<br />

sémantique et les stratégies <strong>de</strong> <strong>résumé</strong>. La phase d’annotation repose sur l’i<strong>de</strong>ntification<br />

<strong>de</strong> plusieurs catégories discursives liées à <strong>de</strong>s points <strong>de</strong> vue <strong>de</strong> fouille comme comme<br />

les objectifs <strong>de</strong> l’auteur, les présentations thématiques, les hypothèses générales<br />

13

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!