05.07.2014 Views

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

Le résumé automatique de textes - LaLIC - Université Paris-Sorbonne

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 7 : Quelques aspects multilingues<br />

- annotation en français et en coréen <strong>de</strong>s hypothèses dans les <strong>textes</strong> <strong>de</strong><br />

biologie (travaux actuels <strong>de</strong> Julien Desclés en collaboration avec<br />

l’université <strong>de</strong> Hankuk à Séoul).<br />

Notre approche <strong>de</strong> l’annotation discursive n’est pas seulement indépendante <strong>de</strong>s<br />

langues, mais lorsque <strong>de</strong>s ressources linguistiques ont été créés dans une langue donnée<br />

par une analyse <strong>de</strong>s marqueurs caractéristiques <strong>de</strong> chaque catégorie discursive, elles<br />

peuvent être aisément transmisses pour la plupart dans une autre langue. <strong>Le</strong>s marqueurs<br />

linguistiques constituent <strong>de</strong>s mots et <strong>de</strong>s expressions qui sont spécifiques à chaque<br />

langue, et dans certains cas ils ne peuvent pas toujours être simplement traduits à partir<br />

<strong>de</strong>s marqueurs d’une autre langue. Cependant, les catégories discursives, et la<br />

méthodologie d’annotation restent les mêmes pour toutes les langues. Si le concepteur<br />

<strong>de</strong>s ressources dans une langue donnée s’appuie sur l’organisation d’une carte<br />

sémantique et sur les définitions <strong>de</strong>s catégories discursives qui la composent, il lui<br />

<strong>de</strong>vient facile <strong>de</strong> sélectionner les marqueurs linguistiques <strong>de</strong> sa langue pour les classer<br />

dans chacune <strong>de</strong>s catégories. Il en est <strong>de</strong> même <strong>de</strong>s règles d’exploration contextuelle<br />

pour l’annotation qui peuvent différer d’une langue à l’autre mais qui, dans le principe,<br />

restent évi<strong>de</strong>ntes au concepteur lorsqu’il acquiert correctement la carte et les catégories<br />

constituantes. Dans le cas <strong>de</strong>s hypothèses <strong>de</strong> l’auteur (« je prend pour hypothèse… »), et<br />

lorsqu’elles sont bien définies préalablement, il n’existe pas <strong>de</strong> problème d’une langue à<br />

une autre pour comprendre ces catégories, et il suffit alors <strong>de</strong> les exprimer avec les<br />

marqueurs et les règles <strong>de</strong> reconnaissance adéquates (ce qui peut être bien sûr plus dur<br />

dans quelques langues à cause <strong>de</strong> la rareté <strong>de</strong>s marqueurs <strong>de</strong> certaines catégories mais ce<br />

qui reste totalement réalisable pour quelqu’un qui les maîtrise).<br />

1.2. <strong>Le</strong> <strong>résumé</strong> <strong>automatique</strong> multilingue<br />

Dans le chapitre 2, nous avons présenté les différentes approches et techniques<br />

employées au sein du <strong>résumé</strong> <strong>automatique</strong>, et nous avons dit brièvement que <strong>de</strong>s<br />

métho<strong>de</strong>s étaient plus appropriées que d’autres pour généraliser une application <strong>de</strong><br />

<strong>résumé</strong> <strong>automatique</strong> à différentes langues. <strong>Le</strong>s métho<strong>de</strong>s numériques (fréquentielles, par<br />

apprentissage, etc.) montrent en effet un avantage incontestable pour les traitements<br />

multilingues dans la mesure où elles exploitent <strong>de</strong>s propriétés quantitatives rattachées<br />

350

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!