Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
Un analyseur syntaxique opérationnel : SYNTEX - ERSS
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Geoffrey Leech, à partir de la fin des années 70, autour de la réalisation de l’étiqueteur<br />
morphologique CLAWS4 à l’aide de méthodes d’apprentissage automatique sur un corpus<br />
annoté à la main (Garside, 1987). A partir des années 1990, avec l’accroissement<br />
exponentiel des capacités des machines et la multiplication des ressources textuelles<br />
électroniques, les chercheurs en statistique et apprentissage automatique s’attaquent à<br />
toutes les tâches du TAL.<br />
Concernant l’analyse <strong>syntaxique</strong> automatique, toute une série de travaux convergent vers<br />
la construction automatique de grammaires hors contextes probabilistes à partir de<br />
l’exploitation du Penn Treebank. Les grammaires hors contexte probabilistes sont des<br />
grammaires hors contexte dans lesquelles des probabilités sont associées aux règles de<br />
dérivation. Ces probabilités sont calculées à partir de corpus annotés <strong>syntaxique</strong>ment,<br />
presque toujours le Penn Treebank. Grâce à ces probabilités, il est possible de choisir<br />
parmi les multiples analyses d’une phrase fournies par l’<strong>analyseur</strong> quelles sont celles qui<br />
ont la plus forte plausibilité. On peut se reporter à (Maning et Schütze, 1999, chapitres<br />
11 et 12) pour un état de l’art complet sur les méthodes statistiques en analyse<br />
<strong>syntaxique</strong> automatique.<br />
2.3. Travaux en analyse <strong>syntaxique</strong> robuste<br />
2.3.1. La robustesse en analyse <strong>syntaxique</strong><br />
Après un panorama historique du domaine du TAL, je consacre la deuxième partie de ce<br />
chapitre à une revue de travaux en analyse <strong>syntaxique</strong> robuste. L’analyse <strong>syntaxique</strong><br />
robuste, ou plus généralement le « TAL robuste », ne constitue pas une évolution tardive<br />
dans le domaine du Traitement Automatique des langues. Si la robustesse devient à la<br />
mode dans les années 1990, c’est par le simple retour d’un balancier qui oscille entre les<br />
deux pôles, empirique et théorique, qui caractérisent le paysage de la recherche en TAL<br />
depuis 50 ans. Dès les débuts de la TA, on a fabriqué des <strong>analyseur</strong>s <strong>syntaxique</strong>s, et si le<br />
problème de la robustesse n’a pas à l’époque été posé explicitement, c’est qu’il était<br />
acquis que les <strong>analyseur</strong>s devaient fournir une analyse <strong>syntaxique</strong> la plus complète, la<br />
plus juste et la plus utile possible pour toute phrase en entrée. L’émergence du concept<br />
de robustesse en analyse <strong>syntaxique</strong> peut s’expliquer par deux facteurs concomitants :<br />
l’échec rencontré par les approches théorisantes en syntaxe à produire des <strong>analyseur</strong>s<br />
utiles, et la pression de la demande sociale liée au développement des nouvelles<br />
technologies de l’information. Les années 1980 voient l’arrivée des grammaires<br />
d’unification sur le devant de la scène du TAL (section 2.2.3). Ce courant de recherche a<br />
conduit à l’élaboration de théories <strong>syntaxique</strong>s très fécondes, qui ont contribué à une<br />
meilleure description des langues. Mais il est apparu que cet objectif théorique était<br />
difficilement conciliable avec les impératifs pratiques, liés à la réalisation d’<strong>analyseur</strong>s<br />
<strong>syntaxique</strong>s utilisables dans des contextes applicatifs. Les limites des <strong>analyseur</strong>s<br />
s’appuyant sur les descriptions formelles développées par ces théories sont connues :<br />
temps de traitement importants, échecs d’analyse, multiplicité des analyses. Ces limites<br />
42