23.06.2013 Views

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur<br />

morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus<br />

annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement<br />

exponentiel des capacités des machines et la multiplication des ressources textuelles<br />

électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à<br />

toutes les tâches du TAL.<br />

Concernant l’analyse <strong>syntaxique</strong> automatique, toute une série de travaux convergent vers<br />

la construction automatique de grammaires hors contextes probabilistes à partir de<br />

l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des<br />

grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de<br />

dérivation. Ces probabilités sont calculées à partir de corpus annotés <strong>syntaxique</strong>ment,<br />

presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir<br />

parmi les multiples analyses d’une phrase fournies par l’<strong>analyseur</strong> quelles sont celles qui<br />

ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres<br />

11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse<br />

<strong>syntaxique</strong> automatique.<br />

2.3. Travaux en analyse <strong>syntaxique</strong> robuste<br />

2.3.1. La robustesse en analyse <strong>syntaxique</strong><br />

Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce<br />

chapitre à une revue de travaux en analyse <strong>syntaxique</strong> robuste. L’analyse <strong>syntaxique</strong><br />

robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive<br />

dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la<br />

mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les<br />

deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL<br />

depuis 50 ans. Dès les débuts de la TA, on a fabriqué des <strong>analyseur</strong>s <strong>syntaxique</strong>s, et si le<br />

problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était<br />

acquis que les <strong>analyseur</strong>s devaient fournir une analyse <strong>syntaxique</strong> la plus complète, la<br />

plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept<br />

de robustesse en analyse <strong>syntaxique</strong> peut s’expliquer par deux facteurs concomitants :<br />

l’échec rencontré par les approches théorisantes en syntaxe à produire des <strong>analyseur</strong>s<br />

utiles, et la pression de la demande sociale liée au développement des nouvelles<br />

technologies de l’information. Les années 1980 voient l’arrivée des grammaires<br />

d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a<br />

conduit à l’élaboration de théories <strong>syntaxique</strong>s très fécondes, qui ont contribué à une<br />

meilleure description des langues. Mais il est apparu que cet objectif théorique était<br />

difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’<strong>analyseur</strong>s<br />

<strong>syntaxique</strong>s utilisables dans des contextes applicatifs. Les limites des <strong>analyseur</strong>s<br />

s’appuyant sur les descriptions formelles développées par ces théories sont connues :<br />

temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites<br />

42

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!