Swiss Medical Informatics - SGMI

More documents

Recommendations

Info

1. Mean Average Precision (MAP): calcule la précision moyenne après chaque document extrait. 2. Binary Preference (Bpref): calcule le taux de réponses non pertinentes affichées avant les réponses pertinentes. 3. R precision (R-prec): calcule la précision moyenne après Rréponses extraites. 4. Mean Reciprocal Rank (MRR): taux de réponses pertinentes au 1 er rang. 5. Precision at five documents (P@5): taux de réponses pertinentes au rang 5. 6. Precision at ten documents (P@10): taux de réponses pertinentes au rang 10. Ces mesures ont été calculées sous deuxconditions: «soft» et «strict» comme dans [5].Pour la première(«soft»),nous avons considéré qu’une réponse est pertinente si elle est notée AouB.Pour la seconde («strict»), seulement les réponses ayant obtenues un Aont été considérées comme pertinentes. Résultats Evaluation systématique Nous recherchons la capacité du système àretrouver les réponses récoltées manuellement dans les douze sites d’où proviennent les questions de la base de test, soit un corpus de 914 pages. Par un simple test de «patternmatching» (comparaison de chaîne de caractères), nous avons considéréque le système donnait une réponse correcte lorsqu’une réponse du système était contenue dans la sélection manuelle des réponses. Ainsi le système obtient un taux de bonnes réponses de 80%. Ce résultat est positif même s’il n’est malheureusement pas un indicateur pour la précision,car les réponses du système qui nefont pas partie du corpus de référencenesont pas comptabilisées alors qu’elles peuvent être justes. En effet, le système trouve des réponses que lapersonne n’a pas récoltées manuellement. De plus, le système, recherchant dans une base de 12 sites, trouve en moyenne 3,2 réponses par question alors que manuellement deux réponses au maximum par question ont été collectées. Figure 1 Courbe de précision/rappel. PROCEEDINGS ANNUAL MEETING 2009 Evaluation qualitative La première observation qui peut être faite est que les résultats sont meilleurs pour QAHON_honcode que pour QAHON_google (tab. 1). En effet, QAHON_honcode aune MAP de 0,59 contre 0,36 pour QAHON_google. Cela signifie que sur l’ensemble des réponses données par QAHON_honcode pour une question, 59%sont pertinentes contre36% pourQAHON_google. De plus, sur les cinq premières réponses trouvées par QAHON_honcode, plusdela moitiérépondent exactement àlaquestionposée. La seule mesure pour laquelle QAHON_google est plus performant que QAHON_honcode est MRR. La première réponse pertinente aunmeilleur rang pour QAHON_google que pour QAHON_honcode. Tableau 1. Résultats de l’évaluation soft. Evaluation qualitative Système QAHON_honcode QAHON_google MAP 0,59 0,36 Bpref 0,50 0,34 R-prec 0,59 0,38 MRR 0,76 0,86 P@5 0,54 0,36 P@10 0,32 0,22 La figure 1donne le rapportprécision/rappel pour lesdeux systèmes, selon l’évaluation «soft». On constate que QA- HON_google est trèsperformant aux deuxpremiers rangs puis que QAHON_honcode passe en tête. Cela signifie que sur l’ensemble des réponses données par les systèmes, QAHON_honcode est globalement plus pertinent que QA- HON_google. Discussion sur l’évaluation Nous avonsutilisé six mesures pourévaluer notre système: troisgénérales (MAP,Bpref et R-prec) et trois plus précises (MRR, P@5 et P@10). Si l’on considère l’évaluation «soft», avec une MAP et une R-prec de 59%, QAHON_honcodeest performant pour obtenir une vue d’ensemble d’un sujet particulier. De plus, sur un échantillon de100 questions, nous constatons queles réponses de QAHON_honcodesont meilleures que celles de QAHON_google. En effet, les réponses provenant de sites certifiés ont été mieux notées par l’expert (avec un fort taux de AetdeB). Les réponses retournées par QAHON_honcode sont donc de meilleure qualité avec 59% de réponses pertinentes par question. Discussion sur laqualité del’information dans le cadre des systèmes QR La figure 1démontre queles réponses extraites des documents HONcode sont de meilleure qualité que celles extraites uniquement de Google car les résultats de QA- HON_honcode dépassent ceux deQAHON_google àpartir du rang 3. Swiss Medical Informatics 2009; n o 67 5
Utilisation de ressources fiables Dans cet article, nous avons présenté l’utilisation de ressources dignes de confiancedifférentes danslecadred’un systèmeQR. L’hypothèse estque l’utilisation de documents sélectionnés par rapport àdes critères éditoriaux favorise la qualité des réponses du système de QR (à l’instar d’un système de recherche d’information classiquesur le Web). De plus, suivant le mode de sélection, politique éditoriale, certification tierce, sélectionpar des professionnels ou rating collaboratif, se pose la question de la pondération des différentes ressources et de sa combinaison avec le score de pertinence sémantique. Utilisation deladate comme indice de qualité de l’information La date est un critère important de la qualité de l’information àprendre en compte dans unsystème de QR. Un système QR de qualité devrait prendre encompte cette dimension au sein de sa stratégie de classement ou de filtrage des réponses et du moins donner les indications de date de rédaction pourchaqueréponse présentée àl’utilisateur final. En effet, une déclaration peut être juste àun moment donné et être dépassée quelques années ou mois plus tard. Utilisation delaredondance de l’information La redondance de l’information est l’une des stratégies principalesdes systèmes de QR actuels pourl’identification de réponses pertinentes. Dupoint de vue de la qualité de l’information, l’hypothèse peut être la même, puisqu’une même information répétée sur plusieurs sites distincts a certainement plus dechances d’être crédible. Web sémantique et la qualité del’information Evoqué dans l’introduction, leprometteur Web sémantique atout pour séduire etnous offre des possibilités énormes quant àlapertinence de la recherche d’information (aussi dans le cas QR). Cependant là encore ilfaudra être vigilant, car ceux qui produiront ou collecteront cette information auront des objectifs qui risquent d’être forts différents, allant de la philanthropie au mercantile pur et dur. Eneffet, les informations du Web sémantique seront certainement encoremoins lisibles en terme de traçabilité et seuls des garde-fous d’organisation tierce pourront garantirune certaine neutralité ou du moins obtenirdes détails indépendants concernant cette information. Limitation de l’étude L’évaluation aété réalisée sur un corpusde100 questions et par une seule personne en raison du travail fastidieux que représente la notation manuelle des réponses. PROCEEDINGS ANNUAL MEETING 2009 Ensuite,dans la partie du système QR quirécupèreles passages pertinents, nous effectuons un nettoyage de la page Web. Parfois, ce nettoyage est trop strict et enlève de l’information pertinente. Cependant,cette étape est nécessaire car elle retire le bruit delapage Web(en-tête et menus). Le lecteur avisé est endroit de se demander si cette étude met enlumière la distinction ressource médicale (HONcode) vis-à-vis de ressource générale (Google) plutôt que ressource fiable vis-à-vis de ressource non contrôlée. Cependant, les auteurs pensent que les questions utilisées dans cette étude sont suffisamment spécifiques pour ne donner que des réponses de type médical. Eteneffet, une lecture aléatoire d’un échantillon de réponses nous a confirmé cette hypothèse. Conclusion Les solutions proposées pour prendre en compte la variabilitédelaqualité de l’information médicalesur le Websont justifiées aussi bien dans la recherche d’information classique que dans le cadre d’utilisation de systèmes de QR. L’utilisation deméta-informations telles que laprise en compte de la date est ici cruciale. La redondance de l’information,bien qu’étantunindicateur brut, peut être un très bon indice depertinence qualitative si on s’assure de le retrouver dans des ressources sûres et indépendantes. D’un autre côté, un bon système de QR se doitaussidemettre en exerguelapluralité des réponses. Dans l’interface, l’utilisateur doit pouvoir àtout moment avoir accès àlaréponse dans son contexte pourune meilleure traçabilité delaréponse. Références 1 Kwok C, et al. Scaling question answering to the Web, In Proceedings of WWW’10, 2001. 2 Roussinov D. How Question Answering Technology Helps to Locate Malevolent Online Content, Intelligence and Security Informatics volume 3495/2005, 2005. 3 http://trec.nist.gov/ 4 Voorhees EM,Hoa T. Dang. 2006.Overview of the TREC 2005 question answering track. In Proceedingsofthe Fourteenth Text REtrievalConference (TREC 2005). 5 Sneiderman CA, et al. Knowledge-Based Methods toHelp Clinicians Find Answers inMEDLINE. JAMIA 2007. 6 Demmer-Fusman D, et al. Answering Clinical Questions with Knowledge- Based and Statistical Techniques.Computational Linguistics. 2007. 7 Demmer-Fusman D, et al. Combining resources to find answerstobiomedical questions. TREC 2007. 8 Lin J, et al.Semantic Clustering of AnswerstoClinical Questions. AMIA. 2007. 9 Hong Y, et al. Development, implementation, and acognitive evaluation of adefinitional question answering system for physicians. JBiomed Inform. 2007. 10 Horvitz E. Cyberchondria:Studies of the Escalation of Medical Concerns in WebSearch. Microsoft study. 2008. 11 Selby M,etal. Health On the Net Foundation Code ofConduct for Medical and Health Websites. MedNet 96 –European Congress onthe Internet in Medicine, Brighton, U.K., Oct. 14 to 17, 1996. 12 Boyer C, et al. Health On the Net foundation: assessing the quality of health web pages all over the world. MedInfo. 2007. 13 http://www.hon.ch/HONcode/Conduct.html 14 http://www.pips.eu.org/ 15 Cruchet S,&Supervised approach to recognize question type in aQA system for health. MIE. 2008. 16 Fox S. http://www.pewinternet.org/pdfs/PIP_Online_Health_2006.pdf, 2006 17 http://trec.nist.gov/trec_eval/index.html Swiss Medical Informatics 2009; n o 67 6
Page 1 and 2: SMI 67 SGMI Schweizerische Gesellsc
Page 3 and 4: «Plug and p(r)ay» Marc Oertle, Ch
Page 5: Matériels et méthodes Nous utilis
Page 9 and 10: Abbildung 1 Ablauf und Übersicht d
Page 11 and 12: PROCEEDINGS ANNUAL MEETING 2009 SOA
Page 13 and 14: In rund 10% der Fälle wird die Ein
Page 15 and 16: The most interesting and intriguing
Page 17 and 18: Figure 4 Information architecture f
Page 19 and 20: même endroit). Dans ce sens, des e
Page 21 and 22: implantées qui offrent une grande
Page 23 and 24: Methods and materials Aliterature s
Page 25 and 26: In summary we can conclude that mos
Page 27 and 28: sur la sérialisationdes objets, ce
Page 29 and 30: en soi illimité, comme c’est le
Page 31 and 32: Cas pratiques SITEX Société priv
Page 33 and 34: Prescription informatisée: de l’
Page 35 and 36: La figure 2illustre les ordres spé
Page 37 and 38: PROCEEDINGS ANNUAL MEETING 2009 Aut
Page 39 and 40: PROCEEDINGS ANNUAL MEETING 2009 Fig
Page 41 and 42: PROCEEDINGS ANNUAL MEETING 2009 Ent
Page 43 and 44: Der Nebel lichtet sich eHealth-Stra
Page 45 and 46: ternehmensweite Ausrichtung und Spe
Page 47 and 48: Die bei der ausführlichencomputerg
Page 49 and 50: aufwand zur Bedienung der Systeme,
Page 51 and 52: Externer Anreiz Berücksichtigungfa
Page 53 and 54: zelnerBerufsgruppen, unterschiedlic
Page 55 and 56: àcette étude. 207 réponses ont
Page 57 and 58:
Les avantages de l’utilisation d
Page 59 and 60:
Figure 1 DebugIT CDR architecture:
Page 61 and 62:
in performance and ease of implemen
Page 63 and 64:
d’un SIH. Les bénéfices financi
Page 65 and 66:
d’autres études. Les résultats
Page 67:
Events Switzerland 2. GS1-Forum Eff
show all

Swiss Medical Informatics - SGMI

Create successful ePaper yourself

Delete template?

Save as template?