Un analyseur syntaxique opérationnel : SYNTEX - ERSS

More documents

Recommendations

Info

(Hutchins, 1986, section 3.10) Pour illustrer les recherches menées dans les années 1950 et 1960, j’ai choisi deux équipes de chercheurs parmi les pionniers de cette grande époque, représentant chacune un des deux courants (Hutchins, 1986, sections 4.2 et 4.3). Comme représentants du courant pragmatique, je présente les chercheurs de l’université de Georgetown, parce qu’ils ont été les tenants les plus actifs de cette approche et parce que leurs recherches, entamées dès 1952, ont conduit au système SYSTRAN, très largement utilisé de nos jours 19 . Comme représentant du courant perfectionniste, je présente l’équipe de recherche sur la TA au Massachusetts Institute of Technology, parce qu’elle a placé d’emblée le transfert syntaxique au centre de son modèle de traduction automatique, et parce qu’elle a développé très tôt l’idée de la déclarativité. A l’université de Georgetown, les recherches sur la TA ont été lancées par Leon Dostert en juin 1952 et développées en collaboration avec IBM. En janvier 1954, une première démonstration d’une maquette expérimentale donne des résultats suffisamment impressionnants à l’époque pour que la National Science Fundation décide de subventionner de façon massive les recherches sur la TA à Georgetown. Une vingtaine de chercheurs sont recrutés sur le projet. Une équipe menée par Michael Zarenach développe une méthode dite « General Analysis Technique », rebaptisée ensuite « Georgetown Automatic Translation » (GAT). Cette méthode est implémentée dans un système de traduction Russe-Anglais (SERNA system) par Peter Toma en 1959, système qui est installé à EURATOM à Ispra en Italie en 1963, et au Laboratoire National d’Oak Ridge en 1964. Pour des raisons mal connues (on évoque des conflits entre linguistes et programmeurs), les subventions s’arrêtent et les recherches sur la TA à Georgetown s’interrompent. Ces deux systèmes seront utilisés, à la satisfaction des utilisateurs selon plusieurs enquêtes réalisées sur le terrain, jusqu’à leur remplacement par SYSTRAN, à Ispra en 1970 et à Oak Ridge en 1980. Le système GAT était présenté par les auteurs comme constitué de plusieurs « niveaux », ou de plusieurs « passes » : (1) consultation du dictionnaire, analyse morphémique et résolution des homographes, (2) analyse syntagmatique pour le repérage de combinaisons de mots basée sur les relations d’accord, de gouvernance et d’apposition, (3) analyse syntaxique pour le repérage des relations sujet/prédicat. Dans les faits, l’analyse effectivement réalisée était très rudimentaire (Hutchins, 1986, section 4.2). Elle était chargée de lever les ambiguïtés morphologiques par l’examen des catégories des mots précédent et suivant. La méthode de développement adoptée par les concepteurs du système était entièrement « guidée par les textes », selon un mode par essai/erreur. Les programmes étaient testés sur un corpus particulier, étendus ou corrigés en fonction des résultats, puis testés sur un autre corpus, et ainsi de suite. Selon (Kay, 1973), cité par (Hutchins, 1986), le résultat fut une grammaire « monolithique » de taille et de complexité monstrueuse, développée sans conception claire de ce que devait être une règle grammaticale et une structure syntaxique, dans laquelle les phases d’analyse de la phrase source et de transfert vers la langue cible étaient intriquées, rendant les évolutions 19 www.systran.fr 30
et améliorations de plus en plus difficiles à introduire. Ce constat établi par Kay en particulier constitua une leçon pour les développements futurs, pour lesquels les notions d’architecture et de modularité furent mises en avant. C’est ainsi que, à partir de 1964, Peter Toma a continué ses recherches et a développé le système SYSTRAN, dans lequel la complexité monolithique du système sera réduite grâce à la modularisation du système : In many respects, Systran may be regarded as essentially a greatly improved descendant of the Georgetown ‘direct translation’ system. Linguistically there is little advance, but computationally the improvements are considerable, resulting in the main from the ‘modularity’ of its programming design. (Hutchins, 1986, section 12.1) Au Massachusetts Institute of Technology, après le départ de Y. Bar-Hillel à Jérusalem en juillet 1953, c’est Victor H. Yngve qui prend la direction du projet de recherche sur la traduction automatique au MIT. D’emblée, il se donne comme objectif la traduction automatique de haute qualité, et donne une orientation très théorique aux recherches. L’effort porte sur des recherches fondamentales en linguistique, en particulier autour des grammaires transformationnelles, à partir des travaux de Chomsky, et sur le développement d’outils de programmation dédiés au développement en TA. Yngve développe COMIT, le premier langage de programmation dédié à la manipulation et au filtrage de chaînes de caractères. Selon Yngve, COMIT peut être appris assez rapidement par les linguistes et doit leur permettre de formuler leurs idées de façon claire et concise. Ceci doit mettre fin à situation dans laquelle les linguistes sont contraints de confier la tâche de programmer leurs algorithmes à des informaticiens spécialistes de l’assembleur, ce qui est très peu efficace sur le plan des résultats et très frustrant pour les deux parties. Yngve insiste sur le principe de la séparation nette entre, d’une part, les règles et connaissances linguistiques et, d’autre part, les algorithmes et programmes. Les règles et connaissances abstraites sur les structures linguistiques des langues doivent être séparées des choix de programmation particuliers adoptés dans un système de traduction particulier donné. On l’a vu ce principe n’a pas été adopté dans le système GAT où des règles d’analyse et de transfert étaient codées dans le cœur même du lexique. Matthews et Rodovin conçoivent, et développent dans le langage COMIT, une méthode d’analyse syntaxique qui identifie les constituants syntaxiques d’une phrase en entrée en cherchant à découvrir l’enchaînement des règles de grammaires qui ont dû être appliquées pour produire cette phrase, dans le sens des règles génératives de Chomsky. Matthews (1962) formule de façon plus explicite ce principe d’analyse par synthèse (« analysis by synthesis » approach). L’idée est de comparer symbole (classe grammaticale) par symbole la séquence à analyser avec toutes les séquences de même nombre de symboles susceptibles d’être générées par la grammaire. Les séquences qui correspondent fournissent une analyse en constituants possible pour la phrase initiale. Cette méthode était reconnue a priori comme inefficace, mais elle était supposée pouvoir être rendue plus performante par l’introduction de règles et de stratégies adéquates. 31
Page 1: Université Toulouse-Le Mirail Un a
Page 5 and 6: Table des matières Chapitre 1 De L
Page 7 and 8: Chapitre 1 De LEXTER à SYNTEX : ru
Page 9 and 10: logiciel doit être capable de trai
Page 11 and 12: Le concept fondateur de LEXTER est
Page 13 and 14: éférentielle et dans sa forme, ca
Page 15 and 16: d’entretiens avec les experts son
Page 17 and 18: Il s’agit de considérer la termi
Page 19 and 20: terminologique navigable construit
Page 21 and 22: classe en expansion. Par exemple, l
Page 23 and 24: intégrer les résultats de LEXTER
Page 25 and 26: Chapitre 2 Etat de l’art en analy
Page 27 and 28: ésultats finalement prometteurs, e
Page 29: langue en question. Bar-Hillel éme
Page 33 and 34: translation or editing. In this con
Page 35 and 36: Ces améliorations ont permis au fo
Page 37 and 38: Les DCG (Definite Clause Grammars)
Page 39 and 40: problématiques et des méthodes qu
Page 41 and 42: Dans la philosophie du NLP, il conv
Page 43 and 44: en performance ne remettent pas né
Page 45 and 46: 2.3.2. L’analyseur FULCRUM de P.
Page 47 and 48: 4. Repérage des groupes nominaux s
Page 49 and 50: effectue le découpage de la phrase
Page 51 and 52: Karen Jensen, du Centre de Recherch
Page 53 and 54: comme devant compenser les faibless
Page 55 and 56: l’ambiguïté en évitant qu’el
Page 57 and 58: - préférer un attachement bas. No
Page 59 and 60: (Vergne, 1999, p. 28) Selon J. Verg
Page 61 and 62: d’implémenter via une architectu
Page 63 and 64: connaissances disponibles au moment
Page 65 and 66: 2- Conditions : il y a une relation
Page 67 and 68: Chapitre 3 Description de l’analy
Page 69 and 70: (1) Dans certaines gammes, trop de
Page 71 and 72: (2’) [SNom] : [SNom Une mesure im
Page 73 and 74: Lors d’une troisième passe, l’
Page 75 and 76: De façon générale, l’antinomie
Page 77 and 78: Néanmoins, même si le développem
Page 79 and 80: Le module ne peut s’arrêter sur
Page 81 and 82:
(6) Marie 1 regarde 2 le 3 chat 4 g
Page 83 and 84:
Fonction dgDG(i,i0) 1. si frDmax(i)
Page 85 and 86:
(1a) Victor Hugo (1b) John F. Kenne
Page 87 and 88:
Le module ADV place un lien entre u
Page 89 and 90:
3.2.4. Coordination La représentat
Page 91 and 92:
et son gouverneur potentiel, de l
Page 93 and 94:
(7) Ils pourront communiquer avec l
Page 95 and 96:
Noms (19) La réunion du conseil [1
Page 97 and 98:
(33) Nous croyons que cette straté
Page 99 and 100:
La recherche d’un complément d
Page 101 and 102:
Le traitement de ces configurations
Page 103 and 104:
subordonnées relatives et de séqu
Page 105 and 106:
avoir trouvé de sujet. Il relance
Page 107 and 108:
(relation REL), la relation entre u
Page 109 and 110:
coefficient de normalisation, chois
Page 111 and 112:
Le nombre total d’occurrences de
Page 113 and 114:
(2) L'opinion du ministre selon laq
Page 115 and 116:
(1) Jean donne un bonbon à Marie.
Page 117 and 118:
sont testés les algorithmes de dé
Page 119 and 120:
BAL LMO TRA REA base 83.0 70.3 65.5
Page 121 and 122:
(3) Exeunt les représentants de l'
Page 123 and 124:
candidat. Après chaque application
Page 125 and 126:
Dans le cas de dépendances non bor
Page 127 and 128:
campagnes d’évaluation des techn
Page 129 and 130:
p r f P1 0.59 0.51 (3) 0.55 (3) P2
Page 131 and 132:
3.3. Discussion Pour conclure ce m
Page 133 and 134:
Un autre dogme du paradigme formel
Page 135 and 136:
Un argument régulièrement avancé
Page 137 and 138:
(Milner, 1989, p. 19) Il ne convien
Page 139 and 140:
technique ; le progrès se fait par
Page 141 and 142:
des extensions peuvent être apport
Page 143 and 144:
de problème, une invention qui pos
Page 145 and 146:
2004). Pour alléger le travail, un
Page 147 and 148:
technique qui recherche toujours é
Page 149 and 150:
Bibliographie ABEILLE A. & BLACHE P
Page 151 and 152:
BOURIGAULT D. (1994b) Lexter, un lo
Page 153 and 154:
GARCIA D. (1998) L’analyse automa
Page 155 and 156:
KAHANE S. (1997) Bubble trees and s
Page 157 and 158:
SAGER, N. (1970). The Sublanguage M
show all

Un analyseur syntaxique opérationnel : SYNTEX - ERSS

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?