11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

a. Présentation de la base de données FlybaseFlybase est une base de données spécialisée sur la drosophile. Elle répertorie entre autres desréférences bibliographiques. Pour chaque référence bibliographique, le texte intégral de lapublication est lu par un annotateur de Flybase. Les informations, qui y sont contenues, sontrelatées et classées dans des catégories pré établies. Cette structure permet d’avoir accès àl’information de différentes manières et pas uniquement par référence bibliographique. Unaccès par gène permet notamment de connaître la synthèse de tout ce qui a été publié surun gène donné. Un champ a particulièrement reçu l’attention de PILLET, il s’agit du champPhenotypic information. Les informations sur les interactions génétiques ou moléculaires sontfréquentes dans ce champ. Ce champ se présente comme un résumé de quelques lignes. Lesinformations se présentent donc sous une forme semblable à celles qui sont issues deMedline. Cependant, l’utilisation de ce champ présente de nombreux avantages comme nousallons le voir dans la section suivante.b. Avantages de la base de données FlybaseLa base de données Flybase fait autorité et est très complète en ce qui concerne lesinteractions génétiques ou moléculaires chez la drosophile. On peut donc s’attendre à ytrouver l’essentiel des informations.Dans les textes issus de Flybase, l’expression de l’information est beaucoup plus compacte ethomogène. En effet, les rédacteurs des textes écrivent des petits résumés de quelques lignessur les articles qu’ils ont lus. A l’opposé, les résumés issus de Medline font environ une demipage.La concision de Flybase est très avantageuse pour mettre en œuvre les techniquesd’extraction d’informations : plus petite est la proportion de texte non pertinent, moins on ade chance de considérer à tort une partie du texte comme pertinente.Le fait que les textes issus de Flybase soient écrits par quelques personnes seulement contreplusieurs centaines d’auteurs différents pour les textes issus de Medline, permet de garantirune certaine homogénéité dans l’expression. Ceci est très précieux pour déceler par desméthodes statistiques des motifs spécifiques d’expression d’interactions génétiques oumoléculaires.Par ailleurs, certaines caractéristiques de Flybase permettent d’éviter des erreurs d’analyse quidemeurent possibles dans les textes issus de Medline. Par exemple, sur Medline il peut y avoirdes informations sur des gènes d’autres espèces et ce, d’autant plus que les noms de gènessont parfois les mêmes d’une espèce à l’autre. Ceci est évité dans Flybase puisqu’elle seconsacre presque exclusivement à la drosophile. Par ailleurs, l’identification des gènes dansles textes issus de Medline pose des difficultés spécifiques alors que dans Flybase lesannotateurs s’imposent une terminologie stricte et parfaitement décrite dans Flybase ellemême.C’est un point important, et nous reviendrons sur les difficultés de l’identificationdes gènes dans les textes issue de Medline à la section Partie 2.2. Choix d’une méthode d’analyse basée sur la présence conjointe de noms degènes et d’un vocabulaire spécifique dans une même phraseLa méthode qui a été adoptée est très intuitive, car elle est basée sur un constat simple etpragmatique sur les textes à analyser : les phrases qui décrivent une interaction génétique oumoléculaire se caractérisent par un vocabulaire spécifique et la présence de plusieursoccurrences de gènes.41

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!