11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 2 Études des travaux comparablesI. TRAVAUX CONCERNANT LA RECONNAISSANCE DE GÈNES OU DELEURS PRODUITS DANS DES TEXTESLa reconnaissance des interactions génétiques ou moléculaires nécessite de savoirreconnaître les gènes dans les textes. Il s’agit aussi de savoir reconnaître le produit des gèneset notamment les protéines. Nous emploierons le terme de label pour tout terme relatif àun gène ou ses produits. Les travaux que nous présentons ici sont relatifs à lareconnaissance des labels. Ceux-ci s’intègrent pour la plupart dans des dispositifs plus largesd’analyse automatique de publications scientifiques. Les méthodes de reconnaissance deslabels n’étant qu’un aspect secondaire des travaux présentés, elles ne sont pas souventévaluées par leurs auteurs. Ces méthodes, inspirées de la tache de reconnaissance d’entiténommée, visent à repérer des portions de textes qui correspondent à des labels. Elles ne visentpas à identifier le gène, c’est à dire à mettre en relation le label avec le ou les gènes quipeuvent lui correspondre.On distingue deux grands types de méthodes. Les premières utilisent des listes de labels. Lessecondes essaient de reconnaître les occurrences de labels sans utiliser aucune connaissancesur la nomenclature. Dans cette section, nous discuterons aussi des travaux sur la créationautomatique de dictionnaires de gènes ou de protéine à partir de corpus.A. TRAVAUX SUR LA RECONNAISSANCE DES GÈNES OU DE LEURS PRODUITS BASÉS SURL’UTILISATION DE LISTES DE TERMESLa méthode la plus simple pour reconnaître l’utilisation d’un nom de gène dans un texte estl’utilisation d’un lexique, autrement dit d’une liste non structurée de termes.D’une façon générale, nous emploierons le terme de lexique pour désigner une simple liste.Dans le cas où la structuration des données est suffisante pour permettre de savoir queplusieurs termes désignent la même entité, nous emploierons le terme de dictionnaire.Nous réserverons le terme de nomenclature dans le cas où les entités elles-mêmes sontstructurées en classe. Il s’agit par exemple de protéines organisées en familles.L’avantage d’un dictionnaire sur un lexique est qu’il rend possible l’identification précised’un gène, alors que l’utilisation d’un lexique ne le permet pas.Il existe de nombreux systèmes d’extraction d’informations sur les interactions génétiquesou moléculaires et plus généralement sur la fonction des gènes. Les auteurs prennentsouvent le parti de ne travailler que sur un ensemble de gènes défini à l’avance. Ilsrenoncent de ce fait à des études globales sur le génome, mais cela leur permet de seconcentrer sur les problèmes que pose la nomenclature des gènes. Dans ce cas, l’utilisateura la possibilité d’intervenir sur les dictionnaires utilisés et de rajouter, par exemple, dessynonymes qui manqueraient.ANDRADE et alii dans leur travail d’extraction de mots clefs et de phrases clefs décrivant aumieux une famille de protéines, utilisent une simple liste de protéines (2001). La listecontient des noms synonymes mais les auteurs remarquent qu’ils ne sont pas tous répertoriésdans la liste qu’ils utilisent, et que cela oblige l’utilisateur à compléter manuellement la liste.25

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!