Transparents 29.10.2004

tal.univ.paris3.fr

Transparents 29.10.2004

Marcel CoriUniversité Paris X - NanterreTraitement automatique deslangueset formalisation en linguistiquele 29 octobre 200429 octobre 2004 PLURITAL 1


1. Du traitement automatique des languesà la formalisation en linguistique2. Les ambiguïtés en TAL3. Une forme spécifique d ’ambiguïté29 octobre 2004 PLURITAL 2


1. Du traitement automatique deslangues à la formalisation enlinguistiqueDéfinition : le traitement automatique des langues (TAL) estconstitué des méthodes et des programmes qui prennent pourdonnées des productions langagières, quand ces méthodes etprogrammes tiennent compte des spécificités des langueshumaines.29 octobre 2004 PLURITAL 3


Les oppositions internes au TAL(1) L ’opposition objectifs pratiques / recherche théoriqueobjectifs pratiques = objectifs industriels(2) L ’opposition TAL robuste / TAL théorique(3) L ’opposition méthodes numériques / méthodessymboliques29 octobre 2004 PLURITAL 4


TAL robuste / TAL théoriqueTAL robusteTAL théorique• s’applique à de vraiesproductionslangagières• doit donner desrésultats quelles quesoient les données• les données peuventêtre construites par lelinguiste• objectif : fournir dessystèmes dedescription deslangues29 octobre 2004 PLURITAL 5


Les perspectives du TALthéoriqueEn traitant des données idéales, tenter de séparer les différentsphénomènes, les différentes propriétés :- morphologie,- syntaxe,- sémantique, …TAL théorique = TAL de laboratoire,TAL expérimental29 octobre 2004 PLURITAL 6


Informatisation d’un problème ⇒ nécessité d’être explicite,précis et objectif.Les règles énoncées entrent dans des processus automatisés ⇒impossibilité de rester dans le vague ou d’être ambigu.D’où la construction de systèmes de description des languesrigoureux, ou le perfectionnement de systèmes existants.Le TAL entraîne plus de rigueur dans la recherche enlinguistique.29 octobre 2004 PLURITAL 7


L ’oppositionprocédural/ déclaratifApproche procédurale:if a[0]=='V':if categ(a[1:])=='SN': return 'SV'elif categ(a[1:])=='SP': return 'SV'Approche déclarative:a. SV → V SNb. SV → V SP29 octobre 2004 PLURITAL 8


Les traitements déclaratifs- Mise à jour facilitée:c. SV → V SN SP- division du travail entre l’informaticien (qui écrit lesprogrammes) et le linguiste (qui définit les grammaires et leslexiques)Logique des « systèmes experts ».29 octobre 2004 PLURITAL 9


Nécessité de trouver un langage commun entre le linguiste etl ’informaticien :c ’est le modèle formel dans lequel le linguiste va exprimerses données,et sur lequel vont agir les programmes de l ’informaticien.Le modèle formel doit être:- rigoureux : les objets doivent être bien définis ;- expressif : il doit être lisible par un être humain.⇒ La formalisation en linguistique29 octobre 2004 PLURITAL 10


2. Les ambiguïtés en TALDans l’analyse automatique d’un énoncé, la première tâcheconsiste en une segmentation de l ’énoncé en unités de base(mots ?), et en l ’étiquetage de ces unités.Problèmes : La polysémie, l’homophonie ou l’homographie.Le boucher ferme son livreMon beau-frère est masseurMon beau-frère et ma sœurMon beau-frère est ma sœurMon beau-frère aima sœur29 octobre 2004 PLURITAL 11


Beaucoup d ’ambiguïtés sont résolues par la syntaxe :Le boucher ferme son livreMon beau-frère aima sœurMon beau-frère et ma sœurMais, il reste des ambiguïtés que la syntaxe ne peut résoudre :Mon beau-frère est masseurMon beau-frère est ma sœurEnfin, il y a des énoncés où l ’étiquetage est non ambigu,mais dont la syntaxe est ambiguë, et donc que l ’on peutcomprendre de plusieurs façons.29 octobre 2004 PLURITAL 12


Ambiguïtés syntaxiquesJ’ai rencontré une directrice de société enrhuméeJ’ai rencontré un conducteur de train électriqueJ’ai trouvé une pièce de monnaie ancienneJean lit le livreJean lit le matinJean mange le matinJean aime le matin“ Attachement prépositionnel ”Il mange une glace au chocolatIl mange une glace au restaurantIl mange une glace au café29 octobre 2004 PLURITAL 13


La statue de marbre de Rodin du duc d ’Aumale de retourd ’AfriqueD ’où le rejet par le TAL robuste de la résolution decertaines ambiguïtés.Enlève le bonnet du bébé et mets-le à la machine à laverEnlève le bonnet du bébé et mets-le au litJean-Louis Debré : « Je préfère la constitution demon père à celle de Mamère »D’où l’intérêt de la sémantique, de la pragmatique, …29 octobre 2004 PLURITAL 14


3. Une forme spécifiqued ’ambiguïtéa. Les rayonnements magnétiques perturbent les électriquesb. Il a mangé les pourriesc. Le parler vrai du ministre lui a causé des ennuisd. Il a un veston très sporte. Paul est très siestef. Que tu viennes m'ennuieg. Le frapper pourrait nous valoir des ennuis29 octobre 2004 PLURITAL 15


Analyse non TAL :Les rayonnements magnétiques perturbent les ∅ électriquesIl a mangé les ∅ pourries(∅ de catégorie N)∅ que tu viennes m'ennuie (∅ de catégorie SN)∅ ∅ le frapper pourrait nous valoir des ennuisLe parler vrai du ministre lui a causé des ennuis(parler de catégorie N)Il a un veston très sportPaul est très sieste29 octobre 2004 PLURITAL 16


- Les « objets vides » sont très difficiles à traiter enanalyse syntaxique.- Il n ’est pas raisonnable non plus de multiplier lescatégories pour une même unité.Syntagmes canoniques et syntagmes non canoniquesUn constituant de catégorie X apparaît quand on attend unconstituant de catégorie Y.Un syntagme avec un constituant non attendu sera dit noncanonique.29 octobre 2004 PLURITAL 17


Analyse du syntagme nominalL’adjectif ou le verbe occupe la position noyau du GN.- (i) il n’y a pas de différence structurelle entre un GN qui admetune tête nominale et un GN qui admet une tête verbale ouadjectivale : N, A ou V apparaissent exactement dans la mêmeposition.29 octobre 2004 PLURITAL 18


- (ii) le contraste entre les syntagmes canoniques et lessyntagmes non canoniques n’est pas corrélé à une différence destructures, il est lié au fait qu’un N est plus naturel qu’un A ouun V dans la position noyau d’un GN.ReprésentationLes positions doivent être définies sans référence à lacatégorie du constituant qui les occupe ; la position noyau ne faitpas exception.C’est pourquoi on introduit des couleurs dans la définitiondes arbres syntaxiques.29 octobre 2004 PLURITAL 19


Coloration des arbres :Une grammaire d'arbres polychromes est constituée par unensemble fini d’arbres élémentaires à p couleurs:G = {A 1 ,A 2 ,...,A m }.(Cori et Marandin, 1993, 1994, 1998)29 octobre 2004 PLURITAL 20


Exemple de grammaire:p = 529 octobre 2004 PLURITAL 21


Exemple d ’arbre polychrome engendré par la grammaireLes rayonnements magnétiques perturbent les électriques29 octobre 2004 PLURITAL 22


Les ambiguïtés induitesMarie a mangé les mûres (mûres: N ou A)Marie a mangé les pourriesMarie a mangé les pommesPaul est très calme (calme: A ou N)Paul est très siestePaul est très intelligentLe manger cru pourrait avoir des vertus thérapeutiques(le: pronom ou déterminant)Le frapper pourrait avoir des vertus thérapeutiquesLe vin rouge pourrait avoir des vertus thérapeutiquesLes instinctivores préconisent le manger cru29 octobre 2004 PLURITAL 23


Syntagmes préférésQuand les énoncés sont interprétés isolément,l’interprétation fondée sur la structure canonique est préférée àl’interprétation fondée sur la structure non canonique.Marie a mangé les mûres (mûres: N )Paul est très calme (calme: A)Le manger cru pourrait avoir des vertus thérapeutiques(le: déterminant)29 octobre 2004 PLURITAL 24


ReprésentationLe fait que certaines tournures soient plus naturelles que d’autresdoit être pris en compte par la grammaire.C’est pourquoi la grammaire est partitionnée en deux sousensemblesd’arbres élémentaires disjoints:G = C ∪ NC est l'ensemble des structures canoniquesN est l'ensemble des structures non canoniques.Ceci permet un calcul de préférence.Cori et Marandin, 1997.29 octobre 2004 PLURITAL 25


Arbres canoniquesArbres non canoniques29 octobre 2004 PLURITAL 26


Le manger cru aurait des vertus thérapeutiques29 octobre 2004 PLURITAL 27


La préférence liée à la canonicité des structures enchâssantesl’emporte sur la préférence liée à la canonicité des structuresenchâssées.a. Pierre a apporté les pommes. Marie a mangé lesmûres, Paul a jeté les vertes.b. Il n'y a plus de feu pour cuire le bifteck. Le mangercru pourrait avoir des vertus thérapeutiques.L’interprétation préférée est celle qui est corrélée avec uneinterprétation anaphorique.ConclusionLa préférence syntaxique s’applique quand la lectureanaphorique ne convient pas.29 octobre 2004 PLURITAL 28


La suite :Définir précisément un objet privilégié de la formalisation enlinguistique : l ’arbre.Qu’est-ce qu’un arbre ? y a-t-il différentes sortes d ’arbres?Quelles sont les limites des arbres dans la représentation ensyntaxe ?A travers l’étude d’un problème : la discontinuité:Paul a, le pauvre, Marie en a pleuré, perdu son emploi.29 octobre 2004 PLURITAL 29

More magazines by this user
Similar magazines