28.06.2013 Views

projet PROLEX : réalisation d'un dictionnaire…

projet PROLEX : réalisation d'un dictionnaire…

projet PROLEX : réalisation d'un dictionnaire…

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Annotation et normalisation<br />

des Entités Nommées<br />

Claude Martineau<br />

Takuya Nakamura<br />

Lidia Varga<br />

Stavroula Voyatzi<br />

@univ­mlv.fr<br />

28ème Colloque International sur le Lexique et la Grammaire<br />

Bergen, 30 septembre ­ 3 octobre 2009


Plan<br />

• Contexte de travail<br />

• Extraction d’Entités Nommées (EN)<br />

• Module d’Annotation d’EN<br />

• Normalisation d’EN<br />

• Évaluation<br />

• Conclusion et Perspectives


Pôle de compétitivité des<br />

Contexte<br />

contenus numériques<br />

(janvier 2006 – juin 2009)<br />

29 partenaires (PME, grands groupes, établissements<br />

publics);<br />

Financé par les partenaires ainsi que par la DGE et<br />

quelques conseils régionaux d’Ile de France;<br />

Étudier et proposer des prototypes logiciels de fonctions<br />

avancées d’analyse multimodale de données numériques.<br />

3


Projet Infom@gic<br />

• Sous­tâche ST2.11 : extraction d’information à<br />

partir de données textuelles<br />

Objectif :<br />

– fédérer les savoir faire de chaque partenaire dans le<br />

domaine de l’extraction d’information;<br />

– Permettre à d’autres partenaires du <strong>projet</strong> (ex.<br />

moteur de recherche sémantique sur le Web)<br />

d’utiliser cette information.<br />

4


Extraction d’Information<br />

Conversion du texte en données structurées répondant à des<br />

questions factuelles : Qui Fait quoi A qui Quand Où<br />

Comment …<br />

Le 3ème salon Naturel‘Monts va inaugurer et invahir les salles du nouveau<br />

Palais des Congrès de St Jean de Monts les 3 et 4 octobre 2009<br />

(www.autourdubio.fr, 2009)<br />

5


Extraction d’Entités d Entités Nommées<br />

La tâche d’Extraction d’Information a mis en évidence l’intérêt de<br />

reconnaître les Entités Nommées<br />

Qu’est­ce qu’on entend par Entités Nommées ?<br />

…tous les éléments du langage qui font référence à une entité unique et<br />

concrète, appartenant à un domaine spécifique (ie. social,<br />

économique, géographique, etc.);<br />

…noms propres au sens classique, noms propres dans un sens élargi<br />

mais aussi expressions de temps et de quantité;<br />

…unités permettant un accès particulièrement pertinent au contenu<br />

des documents. (MUC­7, Chinchor 1998)<br />

6


Typologie sémantique d’EN (1/2)<br />

Classes EN Exemples<br />

Personnes Laurent Gbagbo, Pascal Affi N’Guessan<br />

Lieux<br />

(expressions spatiales)<br />

Guinée­Bissau<br />

axe Bouaké­Yamoussoukro<br />

Organisations Mouvement patriotique de Côte d’Ivoire, MPCI<br />

Faits 25e sommet franco­britannique du Touquet<br />

Moyens Boeing 747­300<br />

Œuvres New Press, Le Nouveau Testament<br />

Dates & Heures<br />

(expressions temporelles)<br />

le 29 mars 2003, 10h00 GMT<br />

depuis jeudi matin<br />

Expressions numériques 400 kilomètres, 50%<br />

Coordonnées 01 56 40 13 72, appels.actu@rfi.fr<br />

7


Typologie sémantique d’EN (2/2)<br />

Chacune de ces classes est affinée par un ensemble de sous­<br />

classes et d’attributs qui spécifient :<br />

Attributs<br />

0, n<br />

Classe d’EN<br />

Types Attributs<br />

0, n 0, n<br />

Sous­types<br />

0,n<br />

Attributs<br />

0, n<br />

8


Module d’annotation (1/2)<br />

• Réutilisation, validation et adaptation des ressources<br />

linguistiques, développées au sein de l’équipe d’Informatique<br />

Linguistique à l’IGM, en vue de tâches et d’applications réelles<br />

(i.e. extraction d’entités nommées → moteur de recherche<br />

sémantique sur le Web)<br />

• Annotation fine: annotation et ajout d’informations sur le type<br />

de la sous­ classe et les attributs de l’entité nommée<br />

• Normalisation des expressions temporelles et numériques<br />

9


Module d’annotation (2/2)<br />

• Grammaires locales: écrites sous forme de RTN utilisant des<br />

informations morphosyntaxiques et sémantiques présentes dans les<br />

dicos<br />

• Élaborées au sein de l’IGM, les grammaires sont rassemblées et<br />

accessibles grâce au système Graalweb (Constant, 2004)<br />

• Dictionnaires généraux et spécialisés (ie. DELAF, toponymes,<br />

anthroponymes, sigles …)<br />

• Unitex (Paumier, 2003) : analyse des textes et traitement des<br />

ressources linguistiques<br />

Martineau, Claude; Tolone, Elsa et Voyatzi, Stavroula. 2007. « Les Entités Nommées :<br />

usage et degrés de précision et de désambiguïsation », In Catherine Camugli, Matthieu<br />

Constant et Anne Dister (éds.) Actes du XXVIe Colloque International Lexique et<br />

Grammaire, Bonifacio, Corse du Sud, 2­6 octobre 2007, pp. 105­112<br />

10


Normalisation des EN (1/5)<br />

Normaliser une EN consiste à associer à chaque forme qu’elle<br />

peut prendre dans le texte une représentation unique<br />

Ex: Toutes les EN de type Date suivantes :<br />

5/02/2009<br />

5 fév. 2009<br />

cinq février 2009<br />

Normalisation<br />

2009­02­05<br />

Le texte qui les contient est alors annoté ainsi:<br />

2/02/2009<br />

2 fév 2009<br />

deux février 2009<br />

La représentation choisie, la norme ISO8601, permet de traiter des dates incomplètes<br />

2 février<br />

février 2009<br />

11


Normalisation des EN (2/5)<br />

Comment normaliser avec Unitex ?<br />

Pour transformer 5 février 2009 en 2009­02­05<br />

­ Traduire (transduction) certains constituants :<br />

5 en 05<br />

février en 02<br />

­ Réordonner les traductions en insérant des « ­ » : 5 février 2009 2009­02­05<br />

1 2 3 1<br />

2<br />

3<br />

Sous Unitex les variables ne permettent de mémoriser et de réordonner que des constituants<br />

strictement extraits du texte mais pas d’effectuer une transduction en même temps.<br />

Ainsi le graphe ci­dessous peut transformer 5 février 2009 en 2009­février­5<br />

Ordre<br />

Mais chaque constituant conserve sa forme initiale<br />

12


Normalisation des EN (3/5)<br />

Pour effectuer le traitement souhaité nous utilisons le mode morphologique<br />

d’Unitex qui permet de récupérer dans des variables les informations associées à<br />

une entrée d’un dictionnaire, dit dico morphologique.<br />

En particulier, de récupérer la forme canonique associée à une forme fléchie. Si<br />

$X$ est une variable morphologique, $X.LEMMA$ contient la forme canonique<br />

associée.<br />

Si nous traitons la phrase : « Les enfants chantent dans le jardin » à l’aide du dico<br />

morphologique et du graphe ci­dessous:<br />

Nous obtenons la concordance suivante:<br />

Les enfants chantent [chanter] dans le jardin<br />

chante,chanter.V:P1s:P3s:S1s:S3s<br />

chantes,chanter.V:P2s:S2s<br />

chantent,chanter.V:P3p<br />

Extrait de dico morphologique<br />

13


Normalisation des EN (4/5)<br />

Un dico morphologique dans lequel on considère les formes<br />

canoniques comme les formes normalisées et l’ensemble des<br />

variantes potentiellement présentes dans le texte comme des<br />

formes fléchies permet d’effectuer la normalisation souhaitée<br />

Extrait de dico morphologique<br />

Graphe de normalisation de dates<br />

Un traitement similaire permet de normaliser des unités monétaires que la valeur soit<br />

exprimée en chiffres ou lettres (norme ISO4217).<br />

dix mille yen, 10 000 yen ou 10000 ¥ 10.000 JPY<br />

Normalisation<br />

Graphe de normalisation d’unité monétaire<br />

14


Exemples d’EN normalisées<br />

Normalisation des EN (5/5)<br />

La normalisation de certains types d’EN facilite la<br />

comparaison, le tri et les requêtes sur ces données<br />

15


Évaluation valuation (1/2)<br />

• Corpus : 11 988 mots, un ensemble de dépêches d’agences portant sur les<br />

événements politiques en Côte d’Ivoire durant la période 2000­2003<br />

(corpus « CDI ») et un article de Wikipedia (corpus « endurance »)<br />

• Il contient 938 entités nommées réparties dans les catégories suivantes : 255<br />

Personnes, 327 Lieux, 300 Expressions Temporelles et 56 Expressions<br />

Numériques.<br />

• Schéma d’annotation : hiérarchie de types et sous­types<br />

16


Évaluation valuation (2/2)<br />

Nous avons donc calculé, pour chaque fichier ainsi que<br />

globalement, les taux de précision (quantité d’EN pertinentes<br />

parmi les EN relevées), de rappel (quantité d’EN pertinentes<br />

relevées par rapport à la quantité totale d’EN pertinentes du<br />

corpus) et la F­mesure (combinaison de la précision et du<br />

rappel).<br />

• 813 entités nommées détectées, parmi lesquelles 698 sont pertinentes, 66<br />

sont mal délimitées et 31 ont des erreurs de catégorisation dont 19 sont<br />

étiquetées avec le type supérieur. Enfin, 22 séquences non­pertinentes sont<br />

reconnues et 155 entités nommées sont oubliées.<br />

17


Conclusion et Perspectives<br />

• Système d’extraction et d’annotation d’EN en<br />

réutilisant autant que possible les ressources et outils<br />

existants, en particulier, ceux développés au sein de<br />

l’équipe d’Informatique Linguistique de l’IGM.<br />

• Traitement efficace de la normalisation d’EN avec<br />

Unitex.<br />

• Annotations par sous­type spécifique fournies et<br />

bonne précision : une amorce fiable pour des<br />

systèmes d’apprentissage automatique.<br />

• Enrichissement des ressources, amélioration de la<br />

typologie (ex. sous­types d’événements), résolution<br />

de métonymie<br />

18


MERCI !<br />

19


Bibliographie (1/3)<br />

Allerton D. (1987), «The linguistic and sociolinguistic status of proper names », in Journal of<br />

Pragmatics, vol. 11 : 61­92.<br />

Bikel D. M., Miller S. Schwartz R. et Weischedel R. (1997), «Nymble: a high­performance<br />

learning name­finder », in Proceedings of the 5th Conference on Applied Natural language<br />

processing, 31/03­03/04 1997, Morgan Kaufman Publishers Inc., Washington, DC, pp. 194­201.<br />

Chinchor N. (1998), « MUC­7 Named Entity Task Definition (version 3.5) », in Proceedings of the<br />

7th Message Understanding Conference (MUC­7), 19 April­1 May 1998, Fairfax, VA.<br />

Constant M. (2004), « GRAAL, une bibliothèque de graphes : mode d’emploi », in Muller C.,<br />

Royeauté J. et Silberztein M. (éds), Cahiers de la MSH Ledoux 1, INTEX pour la linguistique et le<br />

traitement automatique des langues, Presse Universitaire de Franche­Comté, Besançon : 321­330.<br />

Courtois B. (1990), « Un système de dictionnaires électroniques pour les mots simples du français »,<br />

in Courtois B. et Silberztein M. (éds), Dictionnaires électroniques du français, Langue Française, n°<br />

87, Larousse, Paris : 11­22.<br />

Daille B. et Morin E. (2000), « Reconnaissance automatique des noms propres de la langue écrite :<br />

les récentes <strong>réalisation</strong>s », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des<br />

Langues, vol. 41/3 : 601­621.<br />

Dister A et Fairon C. (2004), « Extension des ressources lexicales grâce à un corpus dynamique »,<br />

in Lexicometrica, Paris, version électronique : http://www.cavi.univ­paris3.fr/lexicometrica/thema<br />

/thema7/Texte­Dister.pdf.<br />

Fourour N. (2002), « Nemesis, un système de reconnaissance incrémentielle des entités nommées<br />

pour le français », in Actes de la 9ème Conférence Nationale sur le Traitement Automatique des<br />

Langues Naturelles (TALN 2001), Nancy, vol. 1 : 265­274.<br />

20


Bibliographie (2/3)<br />

Friburger N. (2002), Reconnaissance automatique des noms propres : Application à la classification<br />

automatique des textes journalistiques, Thèse de doctorat, Université de Tours, Paris.<br />

Grass T. (2000), « Typologie et traductibilité des noms propres de l’allemand vers le français à partir<br />

d’un corpus journalistique », in Maurel D. et Gueunthner F. (éds), Traitement Automatique des<br />

Langues, vol. 41/3 : 643­669.<br />

Gross M. (1981),« Les bases empiriques de la notion de prédicat sémantique », in Langages, n° 63,<br />

Larousse, Paris : 7­52.<br />

Hobbs J., Appelt D., Bear J., Israel D., Kameyama M., Stickel M. et Tyson M. (1996), «<br />

FASTUS : a cascaded finite­state transducer for extracting information from natural­language text»,<br />

in Roche E. et Schabes Y. (éds), Finite State Devices for Natural Language Processing, MIT Press,<br />

Cambridge, USA : 383­406.<br />

Jacquemin C. et Bush C. (2000), « Fouille du Web pour la collecte d’entités nommées », in Actes de<br />

la 8ème Conférence Nationale sur le Traitement Automatique des Langues Naturelles (TALN 2000),<br />

Lausanne : 187­196.<br />

Kleiber G. (1999), Problèmes de Sémantique, la polysémie en questions, Presses Universitaires du<br />

Septentrion, Lille (Sens et structures), 223 p.<br />

LE MEUR C., GALLIANO S. et GEOFFROIS E. (2004), « Conventions d’annotations en Entités<br />

Nommées », ESTER, http://www.afcp­parole.org/ester/publis.html, pp. 6­10.<br />

Li H., SRIHARI R, Niu C et Li W. (2002), « Location normalization for information extraction », in<br />

Proceedings of the 19th International Conference on Computational Linguistics, vol. 1, Association<br />

for Computational Linguistics, Taipei, Taiwan : 1­7.<br />

Maurel D. et Piton O. (1999), « Un dictionnaire de noms propres pour Intex : Les noms propres<br />

géographiques », in Linguisticae Investigationes, vol. 22 : 277­287.<br />

21


Bibliographie (3/3)<br />

Maurel D., Belleil C., Eggert E. et Piton O. (1996), « Le <strong>projet</strong> <strong>PROLEX</strong> : <strong>réalisation</strong> d’un<br />

dictionnaire électronique relationnel des noms propres du français », in Proceedings of GDR­PRC<br />

Communication Homme­Machine Séminaire Lexique, Grenoble : 164­175.<br />

McDonald D. (1996), « Internal and External Evidence in the Identification and Semantic<br />

Categorisation of Proper Names », in Boguraev B. et Pustejovsky J. (éds), Corpus processing for<br />

lexical acquisition (Language, Speech and Communication), MIT Press, Cambridge, London : 21­37.<br />

Paumier S. (2003), De la reconnaissance de formes linguistiques à l’analyse syntaxique, Thèse de<br />

doctorat, Université de Marne­la­Vallée.<br />

Poibeau T. (2005), « Le statut référentiel des entités nommées » in Actes de la conférence<br />

Traitement Automatique des Langues Naturelles (TALN 2005), Dourdan, France.<br />

Roche E. et Schabes Y. (1997), Finite­State Language Processing, Roche E. et Schabes Y. (éds),<br />

MIT Press, Cambridge, Mass./London (Language, Speech and Communication), 464 p.<br />

Sekine S. et Nobata C. (1998), « An Information Extraction System and a Customization Tool », in<br />

Proceedings of the New Challenges in Natural Language Processing and its Application, 25­26 May<br />

1998, Tokyo, Japan.<br />

Sekine S., Sudo K. et Nobata C. (2002), « Extended Named Entity Hierarchy», in Proceedings of<br />

the Third International Conference on Language Resources and Evaluation (LREC 2002), Las<br />

Palmas, Canary Islands, Spain : 1818­1824.<br />

Tolone E. (2006), Rapport technique de stage en Master I d’Informatique, Université de Marne­la­<br />

Vallée, Paris, 39 p.<br />

Watrin P. (2006), Une approche hybride de l’extraction d’information : sous­langages et lexiquegrammaire,<br />

Thèse de doctorat, Cental, Université de Louvain­La­Neuve, Belgique.<br />

22


BACK UP


De la reconnaissance à l’extraction<br />

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré<br />

a convoqué l’ambassadeur du Burkina à Abidjan, Émile Ilboudo<br />

Attribut Attribut<br />

EN<br />

Concordance<br />

nat nat<br />

fonction fonction fonction_suite fonction_suite<br />

Fonctions ministérielles<br />

Nom prenom de personne<br />

prenom<br />

<br />

<br />

entite nom nom entite<br />

<br />

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré a convoqué<br />

•Délimiter l’EN: Identifier ses bornes<br />

Le ministre ivoirien des Affaires Étrangères, Abou Drahamane Sangaré<br />

une a catégorie convoqué l’ambassadeur sémantique du non Burkina ambiguë à Abidjan<br />

•Associer éventuellement Abou Drahamane Sangaré les attributs présents<br />

Nom: Drahamane Sangaré<br />

Prénom: Abou<br />

Fonction: ministre des Affaires Étrangères<br />

Nationalité: ivoirien<br />

24


Ressources linguistiques (1/3)<br />

spécialisés (43 921 entrées)<br />

Nous utilisons des dictionnaires généraux (1 256 951 entrées)<br />

construits pour le corpus (1000 entrées)<br />

Type de dictionnaire Auteur Exemple Effectifs<br />

Prénoms Maurel et al. 1996 Caroline,.N+PR+Hum+Prénom:fs 24 291<br />

Toponymes Maurel & Piton 1999 Seine,.N+PR+Hydronyme:fs 6 107<br />

Pays, Capitales et Gentilés Maurel & Piton 1999 France,.N+PR+Toponyme+Pays+IsoFR:fs 3 093<br />

Adjectifs toponymiques Maurel & Piton 1999 parisiens,parisien.A+Toponyme+Ville:mp 3 407<br />

Noms de profession Fairon 2004 banquiers,banquier.N+Profession:mp 4 185<br />

Sigles et Abréviations Maurel et al. 1996 Solensi,Solidarité Enfants Sida.N+Sigle:fs 2 838<br />

Toponymes Africains Trouvés sur le Web Assinie,.N+PR+Toponyme+Ville:fs 400<br />

Organisations et Abréviations Elsa Tolone FMI,Fonds Monétaire<br />

International.N+Sigle+Org:ms<br />

Mots simples (DELAF) LADL / IGM praesidia,praesidium.N+HumColl:mp 984 723<br />

Mots composés (DELACF) LADL / IGM week­ends,week­end.N+Tps+weekend:mp 272 228<br />

25<br />

500


Ressources Linguistiques (2/3)<br />

Dictionnaire morphologique du français (Système DELA)<br />

mots simples (DELAF): 984 723 entrées<br />

f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph<br />

praesidium,praesidium.N+HumColl:ms<br />

praesidia,praesidium.N+HumColl:mp<br />

présidium,présidium.N+HumColl+praesidium:ms<br />

présidiums,présidium.N+HumColl+praesidium:mp<br />

mots composés (DELACF): 272 228 entrées<br />

f_fléchie,f_canonique.cat_gram+infos sém+variante:infos morph<br />

week­end,week­end.N+Tps+weekend:ms<br />

week­ends,week­end.N+Tps+weekend:mp<br />

26


Ressources Linguistiques(3/3)<br />

Dictionnaires spécialisés (<strong>projet</strong> <strong>PROLEX</strong>)<br />

Prénoms : 24 291 entrées<br />

Laurent,.N+PR+Hum+Prénom:ms<br />

Toponymes : 6 107 entrées<br />

Seine,.N+PR+Toponyme+Hydronyme:fs<br />

Pays, Capitales et Gentilés : 3 093 entrées<br />

France,.N+PR+Toponyme+Pays+IsoFR:fs<br />

Paris,.N+PR+Toponyme+Ville+Cap+IsoFR:ms:fs<br />

Français,.N+PR+Hum+Toponyme+Pays:ms:mp<br />

Abréviations et Sigles : 2 838 entrées<br />

Solensi,Solidarité Enfants Sida.N+Sigle:fs<br />

Professions : 4 185 entrées<br />

avocat d’affaires,.N+Profession:ms<br />

avocate d’affaires,avocat d’affaires.N+Profession:fs<br />

27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!