11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

INTRODUCTIONL’achèvement du projet génome ouvre la voie vers de nouvelles perspectives. Il s’agitd’exploiter les données acquises pour parvenir à comprendre le fonctionnement du vivant.De grandes bases de données capitalisent et organisent le savoir accumulé. Chacune répondà une problématique différente et la synthèse appartient finalement au chercheur lui-même.Les bases de données bibliographiques permettent l’accès au texte, qu’il s’agisse d’unrésumé de publication, ou qu’il s’agisse du texte intégral de la publication. C’est là que setrouve l’information la plus complète, la plus détaillée, et la plus à jour. Les encyclopédiesélectroniques offrent un point de vue synthétique sur l’état du savoir. Les bases de donnéesde résultats d’expériences permettent de formuler des hypothèses fécondes. Le va-et-viententre les bases de données bibliographiques et les bases de données factuelles est rendupossible par des liens croisés. Pour les bases de données factuelles, il s’agit de maintenir despointeurs vers de la bibliographie. Pour les bases de données bibliographiques, il s’agit,d’une part, de proposer des liens vers les résultats d’expériences, et d’autre part, d’indexerles textes à l’aide des nomenclatures maintenues par les encyclopédies électroniques. Lamasse des données en jeu est énorme. La vitesse avec laquelle le savoir s’accumule ets’actualise est grande. L’établissement de liens entre bases de données bibliographiques etbases de données factuelles ne peut plus être effectué manuellement. Commentl’automatiser ? Nous prenons deux exemples d’applications complémentaires pour yrépondre.Dans les publications scientifiques, qu’est-ce que nous aimerions voir repéré et lié à desdonnées factuelles ? D’une part les objets, et d’autre part, les relations entre ces objets.Nous prendrons un exemple d’application pour chaque cas. Pour les objets, nous prendronscomme exemple les gènes de la Drosophile. Pour les relations, nous prendrons commeexemple les interactions génétiques ou moléculaires chez ce même organisme. Il s’agit d’untype de relation pertinent en génétique. La question est de savoir quand deux gènescollaborent dans un processus dans lequel ils sont impliqués. Dans certains cas (interactionmoléculaire), cette collaboration s’explique par un contact physique entre des molécules.Plus généralement (interaction génétique), les mécanisme moléculaire reste inconnus oul’interaction résulte de plusieurs interactions moléculaires s’enchaînant en cascade.Notre travail comprend donc deux volets. Le premier volet consiste à repérer dans la basede données bibliographique Medline 1 les gènes qui sont répertoriés dans l’encyclopédieélectronique sur la Drosophile Flybase. Le deuxième volet consiste à construire une base dedonnées sur les interactions à partir des résumés de publications contenus dans Medline.Enfin, nous présentons le travail d’annotation permettant d’évaluer les résultats.1. Le repérage des gènes et des interactions géniquesÀ quelles disciplines scientifiques pouvons-nous faire appel ? Il s’agit tout d’abord derecherche d’informations. Quels sont les textes qui citent tel ou tel gène ? Quel sont lestextes qui traitent d’interactions génétiques ou moléculaires ? L’intelligence artificielle estconcernée, elle aussi. Il s’agit de compréhension du langage naturel. L’analyse grammaticaledes phrases permet de repérer des syntagmes qui sont éventuellement des noms de gènes.1 Les termes de l’index sont en italique. A l’endroit du textes où ils sont définis, ils sont en gras.6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!