11.07.2015 Views

X - Luc Quoniam

X - Luc Quoniam

X - Luc Quoniam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

être adaptées facilement à l’analyse de données sur d’autres organismes modèles. Celan’aurait pas été le cas s’il avait fallu changer de base de données.2. Choix de l’échantillon d’analyseNous nous intéressons au texte de Medline qui traite de la génétique de la drosophile engénéral. Cependant, il a fallu faire le choix d’un échantillon d’analyse. Nous expliquons cechoix dans cette section.Notre échantillon est constitué des résumés issus de Medline, qui sont cités dans au moinsune phrase du corpus de PILLET. En effet, les textes étudiés par PILLET sont tirés de lalecture de publications de résultats qui sont pour la plupart référencés par Medline. Ainsi, ilexiste un lien naturel entre ces phrases et les résumés de Medline.Ce choix rend la comparaison avec le travail de PILLET plus facile. En effet, le corpus étudiépar PILLET est naturellement riche en interaction, car il est obtenu par une présélection desphrases sur le critère de la présence de deux occurrences de gènes dans chaque phrase. Cecritère assez exigeant permet d’avoir dès le départ une bonne proportion de textes quirelatent des interactions. Il a d’ailleurs été appliqué pour cette caractéristique. Cette bonneproportion de texte qui relate des interactions est tout naturellement conservée dans le lienqui relie les textes étudiés par PILLET et ceux que nous avons inclus dans notre échantillond’analyse.La richesse comparable en énoncés d’interaction est utile pour la comparaison desperformances car cette richesse affecte les taux de précision à rappel égal. Par exemple,pour un rappel de 100%, la précision n’est autre que le taux de phrases relatant uneinteraction.Plus prosaïquement, ce lien entre le corpus d’étude de PILLET et le nôtre permet de voir siles interactions décrites par les opérateurs de Flybase sont ou non présentes dans les résumésassociés. Il est en effet possible que certaines d’entre elles ne soient présentes que dans letexte intégral des publications. Inversement, il est intéressant de savoir s’il y a desinteractions présentes dans les résumés issus de Medline qui ne sont pas reprises dansl’échantillon d’étude de PILLET. Dans ce cas cela signifierait que les annotateurs de Flybaseauraient oublié de noter certaines informations présentes dans les résumés. Une autresolution serait que cette absence d’information dans le corpus de PILLET soit due à laméthode de constitution du son corpus. Je pense notamment au critère de présencesimultanée de deux occurrences de gènes.3. Utiliser les données issues de Flybase pour analyser les textes de MedlineIl peut sembler surprenant de vouloir utiliser des données issues de Flybase pour analyserdes données issues de Medline. Il y a plusieurs justifications à cela.Tout d’abord, comme nous l’avons évoqué à la section I.B.1.b, les données issues de Flybasesont plus homogènes que les données issues de Medline. Elles sont donc plus intéressantespour obtenir le vocabulaire spécifique des interactions à partir de méthodes statistiques.Ensuite, et c’est le principal, en utilisant les données issues du travail de PILLET, nousn’avons pas le problème de la distinction entre données d’apprentissage et données de test.Les résultats que nous obtenons peuvent être considérés comme des données de test alorsque PILLET avait ce problème de l’absence de données de test. Nous évitons, par49

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!