30.07.2015 Views

CV - LSIS

CV - LSIS

CV - LSIS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Patrice BELLOTProfesseur des Universités en InformatiqueAix-Marseille Université - Polytech’ MarseilleLaboratoire des Sciences de l’Information et desSystèmes (<strong>LSIS</strong> - UMR CNRS 7296)OpenEdition Lab (UMS CNRS - Equipex)Tél. (bureau) : (+33/0) 4 91 05 60 79Tél. (portable) : (+33/0) 6 43 18 44 07courriel : patrice.bellot@univ-amu.frNé le 22 décembre 1972Nationalité FrançaiseMarié, 3 enfantsMots-clésRecherche d’information, Traitement Automatique des Langues, Fouille de textes.Je suis Professeur des Universités depuis 2011, bénéficiaire de la PEDR entre 2004 et 2012. Membre du laboratoire<strong>LSIS</strong> (UMR CNRS 7296), je suis responsable de l’équipe DIMAG "Data, Information & content Management Group"composée de 14 enseignants-chercheurs, dont 5 professeurs, et de 18 doctorants, dont les activités sont centrées autourdes systèmes d’information, de la recherche d’information et de la fouille de données. Je suis également directeur del’OpenEdition Lab au sein de l’équipement d’excellence (Equipex) DILOH-OpenEdition.org (Digital Library for OpenHumanities). Mon activité d’enseignement s’effectue au sein de l’Ecole d’ingénieurs Polytech Marseille (départements"Génie Industriel Informatique" -GII-, "Informatique, Réseaux et Multimédia" -IRM- et "Parcours préparatoire" -PEIP-)mais aussi du Master Informatique d’Aix-Marseille Université et de son parcours Recherche (M2) et enfin du collègedoctoral d’AMU.J’ai soutenu une thèse de Doctorat en Informatique en janvier 2000 autour du problème de la dualité entre classificationet segmentation thématiques de textes. J’ai travaillé sur des approches numériques statistiques et probabilistes en proposantdes méthodes non supervisées et en développant un système de recherche d’information (SIAC). En septembre 2000, jesuis devenu Maître de conférences à l’Université d’Avignon et des Pays de Vaucluse, au sein du laboratoire d’Informatiqued’Avignon (LIA). En 2008, j’ai soutenu mon habilitation à diriger des recherches (HDR) autour de la personnalisation dela recherche d’information avec des applications aux systèmes de questions-réponses, à la recherche de documents audioet à la prise en considération de certains handicaps langagiers en recherche d’information Web tels les dyslexies. J’aiobtenu la qualification aux fonctions de Professeur des Universités (section CNU 27) en 2009. En 2010, je suis devenuDirecteur du Département Informatique (Directeur des Etudes du CERI) de l’Université d’Avignon et j’ai obtenu un postede PR27 en 2011. Je participe enfin au comité de pilotage du Pôle de Recherche Interdisciplinaire et Intersectoriel (PR2i)"Humanités" d’AMU.J’ai reçu en 2011, puis de nouveau en 2012, un Google Digital Humanities Award (soutien financier total de 100 000 $)pour conduire des travaux en extraction d’information en collaboration avec le CLEO / OpenEdition.org. Cela a permis laréalisation de l’extracteur d’information BILBO actuellement déployé sur les plateformes d’OpenEdition.org. Ces travauxse prolongent depuis via deux projets Investissements d’Avenir : un EQUIPement d’EXcellence (DILOH) comprenant unvolet Recherche important via l’OpenEdition Lab dont je suis responsable et un projet collaboratif du Fonds de la SociétéNumérique en partenariat avec le CLEO et deux entreprises.Je suis actuellement investi dans 2 projets Investissements d’Avenir, 1 Région PACA, 1 ANR, 1 COST Européen et 1thèse CIFRE mais aussi au sein du Bureau de l’association savante en Recherche d’Information ARIA et dans le comitéde rédaction permanent de la revue Traitement Automatique des Langues (TAL). Depuis 2009, j’ai participé à 22 jurys dethèses dont 15 en tant que rapporteur. En 2013, j’ai participé à l’organisation de 3 ateliers internationaux et été membredu Comité Scientifique d’Evaluation du programme ANR CONTINT. Depuis 2007, 5 thèses ont été soutenues sous ma(co)direction. Actuellement j’encadre 3 doctorats en informatique à 100% et 2 autres à 50%. Depuis 2009, j’ai participé à29 jurys de doctorats et 2 jurys d’HDR.Je suis enfin membre des sociétés savantes ACM, ARIA (membre du Bureau) et ATALA et ai été président d’uncomité de sélection MCF en 2014.Déroulement de carrière– 2011- : Professeur des Universités - Aix-Marseille Université, Ecole Polytechnique Universitaire de Marseille,Laboratoire des Sciences de l’Information et des Systèmes (<strong>LSIS</strong> - UMR CNRS) ;– 2000-2011 : Maître de conférences - Université d’Avignon et des Pays de Vaucluse ;– 2004-2012 : titulaire de la Prime d’Encadrement Doctoral et de Recherche (PEDR) ;– 1999-2000 : Attaché Temporaire d’Enseignement et de Recherche (ATER) ;1


– 1996-1999 : Moniteur de l’Enseignement Supérieur – Allocataire de Recherche.Formation et diplômes– Habilitation à Diriger des Recherches en Informatique (4 décembre 2008) - Université d’Avignon et des Paysde Vaucluse ; Titre : Contributions en faveur d’une meilleure personnalisation de la recherche d’informations - Applicationsà la tâche questions-réponses, à la recherche de documents audio et à l’accessibilité pour des personnesdyslexiques– Doctorat en Informatique (janvier 2000) - Université d’Avignon et des Pays de Vaucluse ; Titre : « Méthodes declassification et de segmentation locales non supervisées pour la recherche documentaire »– DEA en Informatique (1996) - Université Aix-Marseille II et Université d’Avignon ;– Ingénieur en Informatique option Génie Logiciel (1996) - ESIL (Univ. Aix-Marseille II) ;– Licence de Mathématiques (1993) - Université de Provence ;– Baccalauréat série C (1990) - Académie Aix-Marseille.Projets collaboratifsProjets en coursResponsable scientifique depuis 2012 pour le <strong>LSIS</strong> des projets :– 2 Investissements d’avenir :– 2012-2016 : Fonds national pour la Société Numérique (FSN), Appel à Projets Technologies des contenus numériques: projet Inter-Textes en partenariat avec le CLEO (UMS CNRS, AMU, EHESS, UAPV) et les entreprisesQwam CI (Paris) et Demain Un Autre Jour (Paris) : 1 doctorat + 1 post-doc 18 mois ;– 2012-2020 : Equipement d’excellence Equipex DILOH : Digital Library for Open Humanities en partenariatavec le CLEO (UMS CNRS, AMU, EHESS, UAPV), le Centre pour la Communication Scientifique Directe(CCSD, CNRS, Lyon), le Roy Rosenzweig Center for History and New Media (CHNM, Univ. Virginia - USA)et la fondation Open Access Publishing in European Networks (OAPEN) : 2 doctorats + 2 post-docs.– 2012-2015 : Région PACA, APO volet général : projet Agoraweb "Recommandation automatique et analysedynamique de critiques de livres sur le Web", en partenariat avec le CLEO (UMS CNRS, AMU, EHESS, UAPV)et le LIF (AMU, CNRS) ;– Thèse CIFRE : société Kware (2013-2016)– Je participe aussi au projet européen COST IC1302 : KEYSTONE - semantic keyword-based search on structureddata sources (2013-).Projets et CIFREs terminés– Google Research Award (2011-2013) : Digital Humanities Research Award, Robust and Language IndependentMachine Learning Approaches for Automatic Annotation of Bibliographical References in DH Books, Articles andBlogs avec le CLEO (Centre pour l’édition électronique ouverte)– Thèses CIFRE : sociétés Thales (2004-2007), EDF (2009-2012), iSmart (2010-2013)Responsable scientifique pour le LIA (Université d’Avignon) des projets :– ANR CAAS (CONTINT 2010 pour la période 2011-2014) : Contextual Analysis and Adaptive Search (avecUniv. Toulouse II et III / CNRS, sociétés Exalead, Nomao)– ANR PIITHIE (RNTL 2006 pour la période 2007-2009) : Détection de plagiats et suivi informationnel (avecUniv. Nantes LINA, Sinequa, Advestigo, Syllabs)– UNESCO, Section des industries créatives pour le développement, Division des expressions culturelles et desindustries créatives, Secteur de la Culture : projet "Analyse de références bibliographiques pour le programmed’observatoire des langues" : 2010-2011– Technolangue : projets EQUER (évaluation en questions-réponses) piloté par le LIMSI-CNRS (B. Grau) et OURAL(segmentation thématique de documents) piloté par Sinequa SA (2003-2005)– Projet ENCORE, 2007-2008 (Recherche d’informations spécialisées en chimie organique) avec le laboratoire deChimie Organique de Synthèse de l’Université de Namur (Belgique). Ce projet a donné lieu à la participation à lapiste d’évaluation Enterprise de la campagne TREC 2007.– Projet Ontofruit 2006-2009 (Recherche d’informations et ontologies pour le domaine de l’écophysiologie végétale)avec l’INRA Avignon2


– 2011 : Informatique MCF de l’INSA Lyon (LIRIS)– 2010 : Informatique MCF de l’Université de Grenoble (LIG)– 2008 : Informatique MCF de l’Université Aix-Marseille II– 2004-2008 : Membre élu de la commission de spécialistes mixte Informatique et Linguistique (sections 7, 27 et 61)de l’Université d’AvignonExpertises– Membre des Comités d’Evaluation ANR des programmes Contenus et Interactions CONTINT (2013) et de l’appelgénérique (2014) ;– Expertises ANR : Technologies Logicielles (2006), Masse de données (2007), Programme Blanc (2008, 2010),Contenus et Interactions (2008, 2009, 2010, 2013 CE), JCJC SIMI 2 (2013)– Expertises projets Région Ile de France, Région Aquitaine, Région Languedoc-Roussillon (2009, 2010)– 2014 (Canada) : Membre du comité d’experts pour la Fondation canadienne pour l’innovationComité de rédaction– Membre du comité de rédaction de la revue Traitement Automatique des Langues (TAL) depuis septembre 2009 –classée rang A par l’AERES ;– Membre du directoire des Editions de l’Université d’Avignon (EUA) (2008-2011), puis de son comité éditorial(2013-).Comités de programme– octobre 2014 : Président du comité de programme de l’école en Recherche d’Information et Applications (EA-RIA’14) de l’ARIA, organisée en 2014 par le LIG.– Numéros spéciaux des revues "Fouille de données et Humanités Numériques" (RNTI, 2013) + (DN 2013)– Président des comités de programme des conférences « Jeunes chercheurs » RECITAL 2008 (Avignon), RJCRI2008 (Saint-Etienne), RJCRI 2010 (Tunisie), RJCRI 2011 (Avignon) ;Relectures récentes– revues Pattern Recognition Letters (PATREC), Information Retrieval (Kluwer), Information Processing & Management(IPM), IEEE Transactions on Knowledge and Data Engineering, Documents numériques (Hermès), TraitementAutomatique des Langues (TAL).– conférences depuis 2011 : ECAI 2014, ECIR (2015, 2014), SAI 2014, IEEE/ACM WI (2011, 2012, 2013, 2014),Interspeech (2014, 2013), NAACL-HLT 2013, CoDIT 2013, SIAM 2013, SETIT (2011, 2012), CORIA (chaqueannée depuis 2005), TALN (chaque année)– en 2013 et 2014, membre des comités de lecture des ateliers en recherche d’information sémantique RISE et jeuneschercheurs en TAL (RECITAL) ;Direction de thèsesThèse en cours (3 à 100% + 2 à 50%)– 50 % : Anaïs Ollagnier, Combinaison d’approches du traitement automatique des langues et de la recherche d’informationpour une recherche de livres orientée contenu efficace., Equipement d’Excellence OpenEdition.org, démarrageau 1er mars 2014, co-direction avec S. Fournier (<strong>LSIS</strong>)– 100 % : Chahinez Benkoussas, Approches non supervisées pour la recommandation de lectures et la mise en relationautomatique de contenus au sein d’une bibliothèque numérique, projet FSN Inter-Textes : démarrage au 1er février2013– 50 % : Hussam Hamdan, Algorithmes probabilistes pour la recommandation automatique d’ouvrages en SHS etl’analyse dynamique de critiques sur le Web, allocation Région PACA, co-direction avec F. Béchet (LIF, Marseille)– 100 % : Vincent Bouvier, Recherche d’informations sur le Web pour la validation puis le peuplement de nouvellesbases de données, convention CIFRE avec la société iSmart : démarrage au 9 décembre 2011 ;– 100 % : Ludovic Bonnefoy, Approches numériques en recherche d’information contextuelle pour la recherche d’entitésproches ou similaires sur le Web, convention CIFRE avec la société iSmart : démarrage au 1er octobre 2010— soutenance prévue novembre 2014 ;4


Thèses soutenues (5)– 50 % : Romain Deveaud, Exploitation du contexte utilisateur et de la structure des documents pour une recherched’information ciblée. Application à un domaine de spécialité et à la recherche d’information dans un contextemobile., co-encadrée avec E. San Juan, contrat Doctoral (allocation de Recherche) : démarrage au 1er septembre2010 — soutenance 26 novembre 2013 ;– 50 % : Rémi Lavalley, Identification de syntagmes discriminants pour la classification automatique de textes et ladétection de nouveautés. Application à la gestion de la relation client et en particulier à l’analyse de réponses àdes questions ouvertes d’enquêtes de satisfaction, co-encadrée avec M. El-Bèze (PR, LIA), convention CIFRE avecEDF R&D : démarrage au 1er janvier 2009, soutenue en juillet 2012.– 75 % : Laurianne Sitbon (Robustesse des méthodes symboliques et numériques en recherche d’informations pourl’assistance de personnes handicapées) co-encadrée avec P. Blache (LPL, CNRS Aix-en-Provence), financementBDI CNRS, soutenue en novembre 2007, actuellement post-doctorante en Australie (Université de Brisbane) ;– 50 % : Laurent Gillard (Quelles méthodes pour les systèmes de Questions/Réponses ? Une avancée vers le toutnumérique) co-encadrée avec M. El-Bèze (LIA), financement : allocataire de recherche, soutenue en octobre 2007,actuellement en post-doc au CEA à Saclay ;– 50 % : Benoît Favre (Résumé automatique de parole pour un accès efficace aux bases de données audios) coencadréeavec J.-F. Bonastre (LIA), financement CIFRE avec Thalès, soutenue en mars 2007, actuellement enpost-doc aux Etats-Unis (ICSI - Berkeley).Encadrement de Post-doctorants (3)– Dr. Mme Y.-M. Kim (Informatique - Extraction automatique d’informations bibliographiques pour le cross-linking,projet Google Digital Humanities) - 2011-2013– Dr. M. Estratat (Informatique - Détection automatique de plagiats, projet ANR) - 2007-2008– Dr. M.-L. Guénot (Linguistique - Détection automatique de plagiats, projet ANR) - 2007-2009Encadrement de Masters Recherche et DEA Informatique (9)Encadrement à 100 % des Master Recherche / DEA de :– L. Bonnefoy (Recherche d’entités nommées similaires à une entité cible dans des pages web) - 2010 (ce travail estl’occasion d’une participation à la piste Entity de la campagne d’évaluation TREC 2010 ; par ailleurs, le prolongementde ce sujet devrait faire l’objet d’une thèse CIFRE avec la société iSmart)– T. Waszak (Détection automatique de citations) – 2007– I. Temou (Recherche d’information et ontologie) en collaboration avec l’INRA - 2007 (actuellement ingénieur chezLingway)– N. Flavier (Similarités entre requêtes en langage naturel) - 2006– L. Sitbon (Méthodes de segmentation thématique) - 2004Co-encadrement à 50 % des Master Recherche / DEA de :– H. Hamdan (Classification et extraction d’information à base d’ontologies) - 2012– R. Lavalley (Classification automatique – Acquisition terminologique) - 2008– B. Favre (Moteur de recherche multimédia) - 2003– L. Gillard (Indexation de documents) - 2002– C. Raymond (Enrichissement de requêtes) - 2001Jurys de thèses et d’HDRs– Rapporteur d’Habilitation à Diriger des Recherche en Informatique (1) :– Marc Thomas Spaniol, "A Framework for Temporal Web Analytics" (Université de Caen), septembre 2014.– Examinateur d’Habilitation à Diriger des Recherche en Informatique (1) :– Xavier Tannier, "Traitement des événements et câblage d’information" (Université Paris-Sud, LIMSI), juin 2014.– Rapporteur de Doctorats en Informatique (18) :– Bissan Audeh, "Reformulation sémantique des requêtes pour la recherche d’information ad-hoc sur le Web"(Ecole des Mines de St Etienne), sous la dir. de M. Beigbeder et de P. Beaune, septembre 2014.– Firas Damak, "Etude des facteurs de pertinence dans la recherche de microblogs" (Université de Toulouse, IRIT),sous la dir. de M. Boughanem et de K. Pinel-Sauvagnat, juillet 2014 ;5


– Nicolas Foucault, "Recherche d’information pour les systèmes de question-réponses dans des collections dedocuments tout venant" (Université Paris XI, LIMSI, sous la direction de S. Rosset et G. Adda), décembre 2013 ;– Christian Gillot, "Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissancede la parole" (LORIA, Nancy, sous la direction de Christophe Cerisare) - décembre 2012 ;– Ali Reza Ebadat, "Toward Robust Information Extraction Models for Multimedia Documents" (INSA Rennes -IRISA, sous la direction de P. Sébillot et de V. Claveau), octobre 2012 ;– Béatrice Arnulphy, "Désignations nominales des événements - Etude et extraction automatique dans les textes",(Université Paris-Sud, LIMSI - sous la direction de A. Vilnat) - octobre 2012 ;– Cédric Lopez, "Titrage automatique de documents textuels", (Université Montpellier 2, LIRMM - sous la directionde V. Prince et de M. Roche) - octobre 2012 ;– Olena Kummer, "Feature Weighting Approaches in Sentiment Analysis of Short Text" (Université de Neucâtel,Suisse – sous la direction de J. Savoy) – septembre 2012 ;– Ludovic Jean-Louis, "Extraction d’information générique à partir de textes fondée sur une analyse linguistiqueprofonde" (CEA, Université Paris XI, sous la direction de O. Ferret et de R. Besançon), décembre 2011.– Arnaud Grappy,"Validation de réponses dans un système de questions réponses" (Université Paris XI, LIMSI,sous la direction de B. Grau), novembre 2011.– Guillaume Bernard,"Réordonnancement de réponses/hypothèses dans un système de questions-réponses" (UniversitéParis XI, LIMSI, sous la direction de S. Rosset et de M. Adda), mai 2011.– Fabien Poulard, "Détection de dérivation de texte" (Université de Nantes, LINA, sous la direction de B. Daille),mars 2011.– Damien Poirier, "Des textes communautaires à la recommandation" (Université d’Orléans et Université Paris VI,sous la direction de I. Tellier et de P. Gallinari), février 2011.– Frederik Cailliau, "Des ressources aux traitements linguistiques : le rôle d’une architecture linguistique – Miseen place d’un environnement de gestion de ressources linguistiques pour une plate-forme d’analyse textuelle"(Université Paris-Nord, LIPN, sous la direction de A. Nazarenko), décembre 2010.– Sarra El Ayari, "Evaluation transparente du traitement des éléments de réponse à une question factuelle" (UniversitéParis Orsay, LIMSI, sous la direction de Brigitte Grau et de Benoît Habert) - novembre 2009.– Olivier Galibert, "Approches et méthodologies pour la réponse automatique à des questions adaptées à un cadreinteractif en domaine ouvert" (Université Paris Orsay, LIMSI, sous la direction de Martine Adda) - juin 2009.– Samir Abdou, « Recherche d’Information Plurilingue » (Université de Neuchâtel, Suisse – sous la direction de J.Savoy) – juin 2007 ;– Laura Perret, « Extraction automatique d’information : génération de résumé et question-réponse » (Universitéde Neuchâtel, Suisse – sous la direction de J. Savoy) – mars 2005.– Examinateur de Doctorats en Informatique (10) :– Faiza Belbachir, "Approches basées sur les modèles de langue pour la recherche d’opinions", (Université deToulouse, IRIT), sous la dir. de M. Boughanem, juillet 2014.– Shereen Albitar, "De l’usage de la sémantique dans la classification supervisée de textes : Application au domainemédical", Aix-Marseille Université, <strong>LSIS</strong>, sous la dir. de B. Espinasse et de S. Fournier, décembre 2013.– Sara Bouzid, "Approche Sémantique de Gestion de Ressources d’Information pour le Contrôle de ProcessusIndustriels : Application au Processus de Fabrication chez STMicroElectronics", Aix-Marseille Université, <strong>LSIS</strong>,sous la dir. de C. Cauvet et de C. Frydman, décembre 2013.– David Hébert, "Champs aléatoires conditionnels par l’extraction de structures dans les images de documents",Université de Rouen, LITIS, sous la dire. de Thierry Paquet, juin 2013.– Benjamin Duthil, "Fouille de données d’opinion" (Université Montpellier 2, ENS Mines d’Ales, sous la directionde P. Poncelet et J. Montmain) - décembre 2012 ;– Mohameth François Sy, "Utilisation d’ontologies comme support à la recherche et à la navigation dans unecollection de documents", (Université Montpellier 2, ENS Mines d’Ales, sous la direction de M. Crampes, V.Ranwez, S. Ranwez) - décembre 2012 ;– Camille Guinaudeau, "Structuration automatique de flux télévisuels" (IRISA/INRIA, INSA de Rennes, sous ladirection de P. Sébillot et de G. Gravier), décembre 2011– Young-Min Kim, "Document Clustering in a Learned Concept Space" (Université Paris VI, LIP6, sous la directionde M.R. Amini et de P. Gallinari) - décembre 2010.– Mehdi Embarek, "Un système de questions-réponses dans le domaine médical" (Université Marne-la-Vallée,CEA - sous la direction de C. Fluhr et de O. Ferret) - juillet 2008 ;– Amélie Imafouo, « Etude de l’influence du passage à l’échelle sur les modèles de recherche d’information »(Ecole des Mines de Saint-Etienne et Université Jean Monnet, sous la direction de M. Beigbeder, décembre2006).– Examinateur de Doctorat en Linguistique (1) :– Alain Régnier, « Analyse et représentation formelle du discours pour la classification automatique des textes »6


(Université de Provence, LPL – sous la direction de P. Blache) – décembre 2007.Campagnes internationales d’évaluation de systèmes de RI– en recherche d’informations : TREC-Medical 2012, TREC-Knowledge Base Acceleration 2012,2013 , TREC Web,2011,2012, TREC-Entity 2010,2011, INEX- Book track 2010, 2011, 2012, 2013 + Question-answering track 2011,TREC-Enterprise 2008 , TREC ad-hoc 1998,Amaryllis (AUF) 1996 et 1999 ;– en recherche d’informations type "questions-réponses" : NIST TREC 2002 (Anglais) , Technolangue EQUER 2004(Français) , CLEF 2006 (Français et Anglais) ;– en résumé automatique : DUC 2006 (Anglais)– en analyse d’opinion : SemEval 2013 (Anglais).– en segmentation automatique : DEFT 2005 (Français)– Co-organisateur de la tâche "questions-réponses" des évaluations INEX 2009, 2010, 2011 (QA@INEX) puis deCLEF 2012 en compagnie de E. San Juan (LIA), Véronique Moriceau (LIMSI), Xavier Tannier (LIMSI) et JosianeMothe (IRIT).Enseignements et Responsabilités administratives et pédagogiquesDirection– Directeur des Etudes 2010 et 2011 du Centre d’Enseignement et de Recherche en Informatique (CERI) de l’Universitéd’Avignon. Le CERI est une structure regroupant les activités en Recherche et en Enseignement de l’Universitéd’Avignon. La direction des études équivaut à un rôle de direction de département Informatique au seind’une UFR.Conseils– 2013- : Membre élu du conseil du département Génie Industriel et Informatique de Polytech Marseille (AMU)– 2006-2011 : Membre du Conseil des Etudes et de la Vie Universitaire (CEVU) de l’Université d’Avignon– Membre élu du conseil d’administration de l’IUP GMI (2005-2009)– Membre nommé du conseil de perfectionnement de l’IUP GMI (2006-2009)– Membre élu du conseil du Service Commun de la Documentation de l’Université d’Avignon (2006-2011)– Membre du directoire des Editions de l’Université d’Avignon (EUA) (2008-2011)Enseignement– Responsable 2009 et 2010 de la Mention Informatique du Master Sciences et Technologie de l’Université d’Avignon(environ 75 étudiants par année de Master)– Responsable 2004-2008 du Master Informatique Spécialité TAIM –Traitement Automatique de l’InformationMultimédia : parcours Recherche et Professionnels (environ 45 étudiants par année de Master)– Responsable 2002-2004 du DESS Traitement Automatique de l’Information sur Internet– Responsable 2000-2004 de l’option "Génie Logiciel", 3è année (Maîtrise Informatique) IUP GMI– Membre du groupe de travail "Réussite en Licence" de l’Université d’Avignon (2007-2008)Enseignement - synthèseAnnées 2011-14– 2011-2014 : Responsable des cours de l’Ecole Polytechnique Universitaire de Marseille (dépt. GII) :– Recherche d’information multimédia (5è année) (40 h/an)– Génie logiciel avancé (analyse et conception, techniques de test) (4è année) (40h/an)– Analyse de données (3è année) (30h/an)– 2011-2014 : Master Informatique, spécialité Recherche SIS M2 (tronc commun, 9h), option (16h) : Recherched’information ;– 2013 : Master Informatique, spécialité Professionnelle SIR M2 (9h) : Indexation multimédia ;– 2012-2014 : Polytech PEIP 2è année (30h) : HTML/CSS/Javascript/PHP + encadrement PRT.7


Années 2000-11– 2000-2011, au sein de l’Université d’Avignon / CERI :– Responsable des UEs Master Informatique (M1 ou M2) :– Recherche d’information et Ingénierie documentaire (2002-2011) : modèles numériques en RI : booléens,vectoriels et probabilistes, pagerank ; référencement de sites web, archivage et catalogage (60 heures par an)– Apprentissage automatique, Analyse de données et Classification Automatique (2002-2006) (rédactiond’un support de cours de près de 200 pages – cf. table des matières jointe) : algorithmes de classification etde partitionnement, arbres de décision, classification bayésienne et modèles de langue, machines à vecteurssupports (24 heures par an) ;– Indexation automatique (2002-2011) : algorithmes d’indexation rapide, compression d’index, indexationmultimédia, indexation de collections structurées (30 heures par an)– Génie logiciel avancé et Techniques de Test (2000-2011) : modélisation objet et UML, test logiciel (30 heurespar an).– Responsable du cours "Introduction à la traduction automatique" en Master 2 Traduction (UFR Lettres) en2011 (6 heures)– Responsable du cours "Internet & Culture" en 3è année de Licence Information et Communication de l’Universitéd’Avignon (2007-2011) (18 h. par an) ;– Participation aux TD Maîtrise Informatique (2000-2004) en Analyse et Conception UML, Java, Architecturesdistribuées, de DEUG (2000-2001) en Algorithmique ;– Tuteur d’étudiants en Master Informatique Alternance (2008-11) et de stages de fin d’étude Master / IUP depuis2000.– Président des jurys de semestres et de diplômes DESS Informatique et Master Informatique depuis 2002.– 2007-2009 : chargé de cours à l’Ecole Supérieure d’Ingénieurs de Luminy (Univ. Aix-Marseille II) : responsabledu cours "Indexation et Recherche d’informations" en 2è année de l’(ESIL)(années scolaires 2007 puis 2008) ;– Vietnam :– 2008 : chargé de cours à l’Université de Dalat (Vietnam) (1 semaine).Enseignements et Responsabilités administratives et pédagogiquesDirecteur des Etudes 2010 et 2011 du Centre d’Enseignement et de Recherche en Informatique (CERI) de l’Universitéd’Avignon. Le CERI est une structure regroupant les activités en Recherche et en Enseignement de l’Universitéd’Avignon. La direction des études équivaut à un rôle de direction de département Informatique au sein d’une UFRclassique.Conseils– Membre élu du conseil du département Génie Industriel et Informatique de Polytech Marseille (2013-)– Membre du Conseil des Etudes et de la Vie Universitaire (CEVU) de l’Université d’Avignon (2006-2011)– Membre élu du conseil d’administration de l’IUP GMI (2005-2009)– Membre nommé du conseil de perfectionnement de l’IUP GMI (2006-2009)– Membre élu du conseil du Service Commun de la Documentation de l’Université d’Avignon (2006-2011)– Membre du directoire des Editions de l’Université d’Avignon (EUA) (2008-2011)Enseignement– Responsable 2009 et 2010 de la Mention Informatique du Master Sciences et Technologie de l’Université d’Avignon(environ 75 étudiants par année de Master)– Responsable 2004-2008 du Master Informatique Spécialité TAIM –Traitement Automatique de l’InformationMultimédia : parcours Recherche et Professionnels (environ 45 étudiants par année de Master)– Responsable 2002-2004 du DESS Traitement Automatique de l’Information sur Internet– Responsable 2000-2004 de l’option "Génie Logiciel", 3è année (Maîtrise Informatique) IUP GMI– Membre du groupe de travail "Réussite en Licence" de l’Université d’Avignon (2007-2008)8


Enseignement - synthèseAnnées 2011-13– 2011-2013 : Responsable des cours de l’Ecole Polytechnique Universitaire de Marseille (dépt. GII) :– Recherche d’information multimédia (5è année) (40 h/an)– Génie logiciel avancé (analyse et conception, techniques de test) (4è année) (40h/an)– Analyse de données (3è année) (30h/an)– 2013 : Master Informatique, spécialité Recherche SIS M2 (tronc commun, 9h), option (16h) ;– 2013 : Master Informatique, spécialité Professionnelle SIR M2 (9h) ;– 2013 : Polytech PEIP 2è année (30h) + encadrement PRT.Années 2000-11– 2000-2011, au sein de l’Université d’Avignon / CERI :– Responsable des UEs Master Informatique (M1 ou M2) :– Recherche d’information et Ingénierie documentaire (2002-2011) : modèles numériques en RI : booléens,vectoriels et probabilistes, pagerank ; référencement de sites web, archivage et catalogage (60 heures par an)– Apprentissage automatique, Analyse de données et Classification Automatique (2002-2006) (rédactiond’un support de cours de près de 200 pages – cf. table des matières jointe) : algorithmes de classification etde partitionnement, arbres de décision, classification bayésienne et modèles de langue, machines à vecteurssupports (24 heures par an) ;– Indexation automatique (2002-2011) : algorithmes d’indexation rapide, compression d’index, indexationmultimédia, indexation de collections structurées (30 heures par an)– Génie logiciel avancé et Techniques de Test (2000-2011) : modélisation objet et UML, test logiciel (30 heurespar an).– Responsable du cours "Introduction à la traduction automatique" en Master 2 Traduction (UFR Lettres) en2011 (6 heures)– Responsable du cours "Internet & Culture" en 3è année de Licence Information et Communication de l’Universitéd’Avignon (2007-2011) (18 h. par an) ;– Participation aux TD Maîtrise Informatique (2000-2004) en Analyse et Conception UML, Java, Architecturesdistribuées, de DEUG (2000-2001) en Algorithmique ;– Tuteur d’étudiants en Master Informatique Alternance (2008-11) et de stages de fin d’étude Master / IUP depuis2000.– Président des jurys de semestres et de diplômes DESS Informatique et Master Informatique depuis 2002.– 2007-2009 : chargé de cours à l’Ecole Supérieure d’Ingénieurs de Luminy (Univ. Aix-Marseille II) : responsabledu cours "Indexation et Recherche d’informations" en 2è année de l’(ESIL)(années scolaires 2007 puis 2008) ;9


Publications scientifiquesh-index = 15 ; i10 = 22 (Google Scholar)375 citations depuis 2009Direction d’ouvrage1. P. Bellot, "Recherche d’information contextuelle, assistée et personnalisée" – Hermès (collection Recherche d’Informationet Web), 306 pages, Paris, ISBN-978-2746225831, décembre 2011.Direction de numéros spéciaux1. P. Bellot, C. Cauvet, G. Pasi, N. Valles, "Approches pour la recherche d’information en contexte", Documentnumérique RSTI série DN - Volume 15 – num. 1/2012.Edition d’actes de conférences1. G. Pasi, P. Bellot, "COnférence en Recherche d’Infomations et Applications - CORIA 2011, 8th French InformationRetrieval Conference", Avignon, France, Editions Universitaires d’Avignon, 2011.2. F. Béchet, J.-F. Bonastre, P. Bellot, "Actes de JEP-TALN 2008 - Journées d’Etudes sur la Parole 2008, TraitementAutomatique des Langues Naturelles 2008", Avignon, France, 2008.Revues répertoriées1. Romain Deveaud, Eric SanJuan, Patrice Bellot, "Accurate and Effective Latent Concept Modeling", DocumentNumérique RSTI, vol. 17-1, 20142. L. Bonnefoy, V. Bouvier, P. Bellot, "Approches de classification pour le filtrage de documents importants au sujetd’une entité nommée", Document Numérique RSTI, vol. 17-1, 20143. P. Bellot, B. Grau, "Recherche et Extraction d’Information", L’information Grammaticale, p. 37-45, 2014, (indexéepar Persée) — rang B AERES4. P. Bellot, A. Doucet, S. Geva, S. Gurajada, J. Kamps, G. Kazai, M. Koolen, V. Moriceau, J. Mothe, M. Sanderson,E. Sanjuan, F. Scholer, A. Schuh, X. Tannier, "Report on INEX 2013", ACM SIGIR Forum 47 (2), 21-32, 2013.5. P. Bellot, T. Chappell, A. Doucet, S. Geva, S. Gurajada, J. Kamps, G. Kazai, M. Koolen, M. Landoni, M. Marx,A. Mishra, V. Moriceau, J. Mothe, M. Preminger, G. Ramírez, M. Sanderson, E. Sanjuan, F. Scholer, A. Schuh, X.Tannier, M. Theobald, M. Trappett, A. Trotman, Q. Wang, "Report on INEX 2012", ACM SIGIR Forum, vol. 46-2,p. 50-59, 2012.6. Patrice Bellot, Timothy Chappell, Antoine Doucet, Shlomo Geva, Jaap Kamps, Gabriella Kazai, Marijn Koolen,Monica Landoni, Maarten Marx, Véronique Moriceau, Josiane Mothe, G. Ramírez, Mark Sanderson, Eric SanJuan,Falk Scholer, Xavier Tannier, Martin Theobald, Matthew Trappett, Andrew Trotman, Qiuyue Wang, Report onINEX 2011, ACM SIGIR Forum,vol. 46-1, p. 33-42, 20127. D. Alexander, P. Arvola, T. Beckers, P. Bellot, T. Chappell, C.M. De Vries, A. Doucet, N. Fuhr, S. Geva, J. Kamps,G. Kazai, M. Koolen, S. Kutty, M. Landoni, V. Moriceau, R. Nayak, R. Nordlie, N. Pharo, E. SanJuan, R. Schenkel,A. Tagarelli, X. Tannier, J.A. Thom, A. Trotman, J. Vainio, Q. Wang, C. Wu. Report on INEX 2010. ACM SIGIRForum,vol. 45-1, p. 2-17, 20118. R. Lavalley, C. Clavel, P. Bellot, "Extraction probabiliste de chaînes de mots relatives à une opinion", TraitementAutomatique des Langues (TAL), p. 101-130, vol. 50, 3-2011. — rang A AERES9. L. Sitbon, P. Bellot, P. Blache, "Vers une recherche d’informations adaptée aux capacités de lecture des utilisateurs– Recherche d’informations et résumé automatique pour des personnes dyslexiques", Revue des Sciences etTechnologies de l’Information, série Document numérique, volume 13, 1-2010, p. 161-186, 201010. T. Beckers, P. Bellot, G. Demartini, L. Denoyer, C. M. De Vries, A. Doucet, K. N. Fachry, N. Fuhr, P. Gallinari,S. Geva, W.-C. Huang, T. Iofciu, J. Kamps, G. Kazai, M. Koolen, S. Kutty, M. Landoni, M. Lehtonen,V. Moriceau, R. Nayak, R. Nordlie, N. Pharo, E. SanJuan, R. Schenkel, X. Tannier, M. Theobald, J. A. Thom,A. Trotman, and A. P. de Vries, 2010. Report on INEX 2009. ACM SIGIR Forum 44, 1 (August 2010), 38-57.DOI=10.1145/1842890.1842897 http ://doi.acm.org/10.1145/1842890.184289711. Juan-Manuel Torres-Moreno, Pier-Luc St-Onge, Michel Gagnon, Marc El-Bèze, Patrice Bellot, "Automatic SummarizationSystem coupled with a Question-Answering System (QAAS)", CoRR, arXiv :0905.2990v1, 2009.10


12. P. Zweigenbaum, B. Grau, A.-L. Ligozat, I. Robba, S. Rosset, X. Tannier, A. Vilnat (LIMSI) & P. Bellot (Univ. Avignon),"Apports de la linguistique dans les systèmes de recherche d’informations précises", RFLA (Revue Françaisede Linguistique Appliquée),XIII (1), p. 41 à 62, 2008.– Numéro spécial sur l’apport de la linguistique en extraction d’informations contenant des contributions de C.J.Van Rijsbergen (Glasgow), de H. Saggion (Sheffield), de P. Vossen (Amsterdam) et de M.C. L’Homme (Montréal); http ://www.rfla-journal.org/som_2008-1.html13. L. Sitbon, P. Bellot, P. Blache, "Éléments pour adapter les systèmes de recherche d’information aux dyslexiques",Traitement Automatique des Langues (TAL), vol. 48-2, p. 123 à 147, 2007 — rang A AERES14. Laurent Gillard, Laurianne Sitbon, Patrice Bellot, Marc El-Bèze, "Dernières évolutions de SQuALIA, le systèmede Questions/Réponses du LIA", 2006 Traitement Automatique des Langues (TAL), vol. 46-3, p. 41 à 70, Hermès15. P. Bellot, M. El-Bèze, « Classification locale non supervisée pour la recherche documentaire », Traitement Automatiquedes Langues (TAL), vol. 42-2, Hermès, p. 335 à 366, 200116. P. Bellot, M. El-Bèze, « Classification et segmentation de textes par arbres de décision », Technique et ScienceInformatiques (TSI), Editions Hermès, volume 20-3, p. 397 à 424, 2001.17. P.-F. Marteau, C. De Loupy, P. Bellot, M. El-Bèze, « Le Traitement Automatique du Langage Naturel, Outil d’Assistanceà la Fonction d’Intelligence Economique », Systèmes et Sécurité, Vol. 5, num.4, p. 8-41, 1999.Chapitres de livres1. P. Bellot, L. Bonnefoy, V. Bouvier, F. Duvert, Young-Min Kim, Large Scale Text Mining Approaches for InformationRetrieval and Extraction, ISBN : 978-3-319-01865-2 In book : Innovations in Intelligent Machines-4, Chapter :1, Publisher : Springer International Publishing Switzerland, Editors : Lakhmi C., Colette Faucher, pp.1-43, 2013.2. J.M. Torres-Moreno, M. El-Bèze, P. Bellot, F. Béchet, "Opinion Detection as a Topic Classification Problem", in"Textual Information Access : Statistical Models" E. Gaussier & F. Yvon Eds., J. Wiley-ISTE, chapitre 9, ISBN :978-1-84821-322-7, 2012.3. P. Bellot, "Vers une prise en compte de certains handicaps langagiers dans les processus de recherche d’information",in "Recherche d’information contextuelle, assistée et personnalisée" sous la direction de P. Bellot, chapitre 7,p. 191 à 226, collection Recherche d’information et Web, Hermes, 2011.4. J.M. Torres-Moreno, M. El-Bèze, P. Bellot, F. Béchet, "Peut-on voir la détection d’opinions comme un problèmede classification thématique ?", in "Modèles statistiques pour l’accès à l’information textuelle" sous la direction deE. Gaussier et F. Yvon, Hermes, chapitre 9, p. 389-422, 2011.5. P. Bellot, M. Boughanem, "Recherche d’information et systèmes de questions-réponses", 2008 in " La recherched’informations précises : traitement automatique de la langue, apprentissage et connaissances pour les systèmes dequestion-réponse (Traité IC2, série Informatique et systèmes d’information)", sous la direction de B.Grau, Hermès-Lavoisier, chapitre 1, p. 5-356. Patrice Bellot, "Classification de documents et enrichissement de requêtes", 2004 Méthodes avancées pour lessystèmes de recherche d’informations (Traité des sciences et techniques de l’information) sous la dir. de IHADJA-DENE M., chapitre 4, p.73 à 96, Hermès7. J.-C. Meilland, P. Bellot, "Extraction automatique de terminologie à partir de libellés textuels courts", 2005 in "LaLinguistique de corpus" sous la direction de G. Williams, Presses Universitaires de Rennes, p. 357 à 370, 2005Conférences internationales avec comités de lecture (ACTI)1. H. Hamdan, P. Bellot, F. Béchet, "The Impact of Z score on Twitter Sentiment Analysis", Int. Workshop on SemanticEvaluation (SEMEVAL 2014), COLING 2014, Dublin (Ireland)2. Chahinez Benkoussas, Hussam Hamdan, Patrice Bellot, Frédéric Béchet, Elodie Faath, "A Collection of ScholarlyBook Reviews from the Platforms of electronic sources in Humanities and Social Sciences OpenEdition.org", 9thInternational Conference on Language Resources and Evaluation (LREC 2014), Rejkjavik, Iceland, May 2014.3. Romain Deveaud, Eric San Juan, Patrice Bellot, "Are Semantically Coherent Topic Models Useful for Ad HocInformation Retrieval ?", 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia,Bulgaria, August 2013.4. L. Bonnefoy, V. Bouvier, P. Bellot, "A weakly-supervised detection of entity central documents in a stream", The36th Annual ACM SIGIR Conference SIGIR’13, Dublin (Ireland), July 2013.5. Romain Deveaud, Eric San Juan, Patrice Bellot, "Estimating Topical Context by Diverging from External Resources",The 36th Annual ACM SIGIR Conference SIGIR’13, Dublin (Ireland), July 2013.11


6. Hussam Hamdan, Frédéric Béchet, Patrice Bellot, "OASIS : Experiments with DBpedia, WordNet and Senti-WordNet as resources for sentiment analysis in micro-blogging", International Workshop on Semantic EvaluationSemEval-2013 (NAACL Workshop), June 14-15, Atlanta, Georgia (USA), 2013.7. Romain Deveaud, Eric San Juan, Patrice Bellot, "Unsupervised Latent Concept Modeling to Identify Query Facets",in : ACM Press, OAIR (Open research Areas in Information Retrieval) 10th ACM International Conference in theRIAO series, pp. long paper, Lisboa (Portugal), mai 2013.8. E. San Juan, V. Moriceau, X. Tannier, P. Bellot, J. Mothe, "Overview of the INEX 2012 Tweet ContextualizationTrack", CLEF-2012 Labs and Workshop, Online Working Notes 2012, Roma (Italy) - Final version to appear inLNCS (2013).9. Y.-M. Kim, P. Bellot, J.Tavernier, E. Faath, M. Dacos, "Evaluation of BILBO Reference Parsing in Digital Humanitiesvia a Comparison of Different Tools", ACM 12th Symposium on Document Engineering DocEng’12, Paris,septembre 2012.10. Y.-M. Kim, P. Bellot, E. Faath, M. Dacos, "Machine Learning for Automatic Annotation of References in DHscholarly papers", Digital Humanities 2012, Hamburg, Allemagne, juillet 2012.11. Y.-M. Kim, P. Bellot, E. Faath, M. Dacos, "Annotated Bibliographical Reference Corpora in Digital Humanities",eighth international conference on Language Resources and Evaluation (LREC), p. 494-501, Istanbul, Turquie, mai2012.12. Young-Min Kim, Patrice Bellot, Elodie Faath, Marin Dacos, "Automatic annotation of incomplete and scattered bibliographicalreferences in Digital Humanities papers", 9e Conférence en Recherche d’Informations et Applications(CORIA), Bordeaux (France), p. 329-340, 2012.13. J. Tavernier, P. Bellot, "Flesch and Dale-Chall Readability Measures for INEX 2011 Question-Answering Track",Focused Retrieval of Content and Structure, 10th International Workshop of the Initiative for the Evaluation ofXML Retrieval, INEX 2011, Saarbrücken, Germany, December 12-14, 2011, Revised Selected Papers - LectureNotes in Computer Science LNCS 7424 - Springer, p. 235-246, 2012.14. R. Deveaud, E. San Juan, P. Bellot, "Social Recommendation and External Resources for Book Search", FocusedRetrieval of Content and Structure, 10th International Workshop of the Initiative for the Evaluation of XML Retrieval,INEX 2011, Saarbrücken, Germany, December 12-14, 2011, Revised Selected Papers - Lecture Notes inComputer Science LNCS 7424 - Springer, p. 68-79, 2012.15. E. San Juan, V. Moriceau, X. Tannier, P. Bellot, J. Mothe, "Overview of the INEX 2011 Question Answering Track(QA@INEX)", Focused Retrieval of Content and Structure, 10th International Workshop of the Initiative for theEvaluation of XML Retrieval, INEX 2011, Saarbrücken, Germany, December 12-14, 2011, Revised Selected Papers- Lecture Notes in Computer Science LNCS 7424 - Springer, p. 188-206, 2012.16. Young-Min Kin, P. Bellot, E. Faath, M. Dacos, "Automatic Annotation of Bibliographical References in DigitalHumanities Books, Articles and Blogs", BooksOnline 2011 at CIKM 2011, Microsoft Research Ed., ACM Press,Glasgow, Scotland, 2011.17. L. Bonnefoy, P. Bellot, M. Benoit, "The Web as a Source of Evidence for Filtering Candidate Answers to NaturalLanguage Questions", The 2011 IEEE/WIC/ACM International Conference on Web Intelligence (WI’2011), Lyon,France, 2011.18. R. Lavalley, C. Clavel, P. Bellot, M. El Bèze, "Combining text categorization and dialog modeling for speaker roleidentification on call center conversations", Interspeech, Japan, 201019. R. Lavalley, C. Clavel, M. El Bèze, P. Bellot, "Finding topic-specific strings in text categorization and opinionmining contexts ", 2010 The 2010 International Conference on Data Mining (DMIN’10), USA, p. 38-44, 2010.20. E. San Juan, P. Bellot, V. Moriceau, X. Tannier, "Overview of the INEX 2010 Question Answering Track (QA@INEX)",INEX 2010 - Lecture Notes in Computer Science LNCS 6932 - Elsevier, LNCS, p. 269-281, 2011.21. R. Deveaud, F. Boudin, P. Bellot, "LIA at INEX 2010 Book Track", INEX 2010 - Lecture Notes in ComputerScience LNCS - Elsevier, LNCS 6932, p. 118-127, 2011.22. V. Moriceau, E. San Juan, X. Tannier, P. Bellot, "Overview of the 2009 QA Track : Towards a Common Task forQA, Focused IR and Automatic Summarization Systems", Focused Retrieval and Evaluation (INEX 2009) - LectureNotes in Computer Science LNCS 6203 - Elsevier, LNCS, 201023. Laurianne Sitbon, Patrice Bellot, « A readability measure for an information retrieval process adapted to dyslexics» Second international workshop on Adaptive Information Retrieval (AIR 2008) (in conjunction with IIiX 2008),p. 52 à 57, octobre 2008, http ://www.dcs.gla.ac.uk/workshops/air2008/accepted.html (workshop organisé par C. J.van Rijsbergen).24. Laurianne Sitbon, Patrice Bellot, « How to cope with questions typed by dyslexic users », second ACM workshopon Analytics for noisy unstructured text data (AND at SIGIR 2008), ACM, Singapour, p. 1 à 8, 2008,http ://and2008workshop. googlepages.com/ + ACM Digital Library.12


25. Laurianne Sitbon, Patrice Bellot, Philippe Blache, "Evaluation of lexical resources and semantic networks on acorpus of mental associations", 6th edition of the Language Resources and Evaluation Conference (LREC 2008),Marrakech (Maroc), 5 pages, mai 2008, http ://www.lrec-conf.org/proceedings/lrec2008/.26. Laurianne Sitbon, Patrice Bellot, Philippe Blache, "A corpus of real-life questions for evaluating robustness of QAsystems", 6th edition of the Language Resources and Evaluation Conference (LREC 2008), Marrakech (Maroc), 6pages, mai 2008.27. Laurianne Sitbon, Patrice Bellot, Philippe Blache, "Phonetic based sentence level rewriting of questions typed bydyslexic spellers in an information retrieval context", Interspeech 2007, Anvers (Belgique), p. 2543 à 2548, 2007,http ://www. interspeech2007.org/.28. Benoît Favre, Jean-François Bonastre, Patrice Bellot, "An Interactive Timeline for Speech Database Browsing",Interspeech 2007, Anvers (Belgique), p. 2413 à 2416, 2007, http ://www.interspeech2007.org/29. Laurianne Sitbon, Patrice Bellot, "Topic segmentation using weighted lexical links (WLL)", ACM SIGIR 07, ACMPress, Amsterdam (Pays-Bas), p. 737-738, 200730. Laurent Gillard , Laurianne Sitbon , Eric Blaudez , Patrice Bellot, Marc El-Bèze, « Relevance Measures for QuestionAnswering, The LIA at QA@CLEF-2006 », CLEF Workshop, Lecture Notes in Computer Science,4730/2007, «Evaluation of Multilingual and Multi-modal Information Retrieval », p. 440 à 449, 2007.31. Laurent Gillard, Patrice Bellot, Marc El-Bèze, "Question Answering Evaluation Survey", actes de la 5ième conférenceLanguage Resources and Evaluation Conference (LREC), Gênes (Italie), 6 p., 24-26 mai 2006.32. Laurianne Sitbon, Patrice Bellot, "Tools and methods for topic segmentation of texts and contextual evaluation",Fifth International Conference on Language Resources and Evaluation (LREC 2006), 6 p., Italie, 2006.33. L. Sitbon, P. Bellot, "Adapting and comparing linear segmentation methods for french", actes de la 7è conférenceRIAO, Avignon, France, p.623 à 637 ; 200434. K. Lavenus, J. Grivolla, L. Gillard, P. Bellot, "Question-answer matching : two complementary methods", actes dela 7ième conférence en Recherche d’Information Assistée par Ordinateur (RIAO), Avignon (France), 26-28 avril2004, pages 244 à 25935. Benoît Favre, Patrice Bellot, Jean-François Bonastre, "Information retrieval on mixed written and spoken documents",actes de la 7è conférence RIAO, Avignon, France, p. 826 à 835, 200436. P. Bellot, M. El-Bèze, « Clustering by means of decision trees without learning or hierarchical and K-Means likealgorithms », actes de RIAO’2000, Paris, p. 344-363, 2000.37. C. De Loupy, P. Bellot, « Evaluation of Document Retrieval Systems and Query Difficulty », Actes du LREC’2000Satelitte Workshop : "Using Evaluation within HLT Programs", 6 p., Athènes, 2000.38. P. Bellot, M. El-Bèze, « Query length, number of classes and routes through clusters : experiments with a clusteringmethod for information retrieval », Lecture Notes in Computer Science (LNCS 1746), Springer-Verlag, IEEE Int.Conf. Comp. Science, Hong-Kong, p. 196-205, 1999.Conférences internationales référencées mais sans comité de lecture1. Vincent Bouvier, Patrice Bellot, "Filtering Entity Centric Documents using Numerics and Temporals features withinRF Classifier", in : NIST Special Publication, The 22nd Text REtrieval Conference (TREC 2013) Notebook, 6 p.,Gaithersburg (USA), 2014.2. Hussam Hamdan, Shereen Albitar, Patrice Bellot, Bernard Espinasse, Sébastien Fournier, "<strong>LSIS</strong> at TREC 2012Medical Track – Experiments with conceptualization, a DFR model and a semantic measure" , in : NIST SpecialPublication 500-298, The Twenty-First Text REtrieval Conference (TREC 2012) Notebook, 12 p., Gaithersburg(USA), novembre 2012.3. Romain Deveaud, Eric San Juan, Patrice Bellot, "TREC 2012 Web Track : Unsupervised Search Concepts Identificationfrom General Sources of Information" , in : NIST Special Publication 500-298, The Twenty-First TextREtrieval Conference (TREC 2012) Proceedings, Gaithersburg (USA), novembre 2012.4. L. Bonnefoy, P. Bellot, "LIA-<strong>LSIS</strong> at TAC KBP 2012 English Entity Linking track" , in : NIST, Text AnalysisConference 2012 (TAC), Gaithersburg (USA), novembre 20125. L. Bonnefoy, V. Bouvier, P. Bellot, "<strong>LSIS</strong>-LIA at TREC 2012 Knowledge Base Acceleration" , in : NIST SpecialPublication 500-298, The Twenty-First Text REtrieval Conference (TREC 2012) Proceedings, Gaithersburg (USA),novembre 2012.6. E. San Juan, V. Moriceau, X. Tannier, P. Bellot, J. Mothe, "Overview of the INEX 2012 Tweet ContextualizationTrack", CLEF-2012 Labs and Workshop, Online Working Notes 2012, Roma (Italy), http ://clef2012.org/index.php ?page=Pages/pr7. L. Bonnefoy, R. Deveau, P. Bellot, "Do Social Information Help Book Search ?", Springer-Verlag CLEF-2012 Labs,Rome, septembre 201213


8. R. Deveaud, E. SanJuan, P. Bellot, "LIA at TREC 2011 Web Track : Experiments on the Combination of OnlineResources", The Twentieth Text REtrieval Conference (TREC 2011) Proceedings, NIST Special Publication : SP500-2959. L. Bonnefoy, P. Bellot "LIA-iSmart at the TREC 2011 Entity Track : Entity List Completion Using ContextualUnsupervised Scores for Candidate Entities Ranking", The Twentieth Text REtrieval Conference (TREC 2011)Proceedings, NIST Special Publication : SP 500-29510. Ludovic Bonnefoy, Patrice Bellot, Michel Benoit, "LIA-iSmart at TREC 2010 : A Web-oriented Language ModelingApproach for Question Related Entity Finding", Text REtrieval Conference, NIST Special publication, 201111. E. San Juan, P. Bellot, V. Moriceau, X. Tannier, "Overview of the 2010 QA Track : Preliminary Results", 9thWorkshop of the INitiative for the Evaluation of XML retrieval (INEX 2010)12. V. Moriceau, E. San Juan, X. Tannier, P. Bellot, "QA@INEX 2009 : A common task for QA, focused IR andautomatic summarization systems", 8th Workshop of the INitiative for the Evaluation of XML retrieval (INEX2009) - Lecture Notes in Computer Science LNCS - Elsevier, LNCS, 201013. Eric San Juan, Patrice Bellot, "The LIA at TREC-Enterprise 2008", Text REtrieval Conference, NIST Specialpublication, 2009 — Résultat : 7è sur 30 participants14. Benoît Favre, Frédéric Béchet, Patrice Bellot, Florian Boudin, Marc El-Bèze, Laurent Gillard, Guy Lapalme,Juan-Manuel Torres-Moreno, "The LIA-Thales summarization system at DUC-2006", Actes du HLT-NAACL’06workshop Document Understanding Conference (DUC-2006), New York (USA), 8 p., 8-9 juin 2006, http ://duc.nist.gov/pubs.html#2006. — Résultat : 5è sur 34 participants (mesure automatique Rouge-2) ;15. Laurent Gillard , Laurianne Sitbon , Eric Blaudez , Patrice Bellot, Marc El-Bèze, « The LIA at QA@CLEF-2006», actes de Cross Language Evaluation Forum (CLEF 2006). — Résultat : 2è sur 7 participants sur les tâches enFrançais.16. P. Bellot, E. Crestan, M. El-Bèze, L. Gillard, C. de Loupy, « Coupling Named Entity Recognition, Vector-SpaceModel and Knowledge Bases for TREC-11 Question-Answering Track », actes de 11th Text REtrieval Conference,NIST Special publication 500-251, 9 p., 2003 — Résultat : milieu du 2è tiers (notre première participation à la tâchequestions-réponses)17. C. De Loupy, P. Bellot, M. El-Bèze, P.-F. Marteau, « Query Expansion and Automatic Classification », actes de 7thText REtrieval Conference, NIST Special Publication 500-242, p. 443-450, 1999.Conférences francophones avec comité de lecture1. Anaïs Ollagnier, Sébastien Fournier, Patrice Bellot, Frédéric Béchet, "Impact de la nature et de la taille des corpusd’apprentissage sur les performances dans la détection automatique des entités nommées", TALN 2014 (Marseille)2. V. Bouvier, P. Bellot, "Critères numériques et temporels pour la détection de documents vitaux dans un flux",INFORSID 2014.3. Romain Deveaud, Ludovic Bonnefoy, Patrice Bellot, "Quantification et identification des concepts implicites d’unerequête", 10e Conférence en Recherche d’Informations et Applications (CORIA), Neuchâtel (Suisse), avril 2013,Prix du meilleur papier.4. Vincent Bouvier, Patrice Bellot, "Amélioration d’un corpus de requêtes à l’aide d’une méthode non-supervisée",10e Conférence en Recherche d’Informations et Applications (CORIA), Neuchâtel (Suisse), avril 2013.5. Ludovic Bonnefoy, Vincent Bouvier, Patrice Bellot, "Vers une détection en temps réel de documents Web centréssur une entité donnée", 10e Conférence en Recherche d’Informations et Applications (CORIA), Neuchâtel (Suisse),avril 2013.6. Patrice Bellot, Véronique Moriceau, Josiane Mothe, Eric San Juan, Xavier Tannier, "Contextualisation de textescourts : le cas des tweets", 10e Conférence en Recherche d’Informations et Applications (CORIA), Neuchâtel(Suisse), avril 2013.7. R. Deveaud, P. Bellot, "Combinaison de ressources générales pour la contextualisation implicite de requêtes", TALN2012, Grenoble, France.8. Ludovic Bonnefoy, Patrice Bellot, Michel Benoit, "Une approche non supervisée pour le typage et la validationd’une réponse à une question en langage naturel : application à la tâche Entity de TREC 2010", 8e Conférence enRecherche d’Informations et Applications (CORIA), Avignon (France), p. 191-206, 2011.9. Romain Deveaud, Florian Boudin, Patrice Bellot, Eric San Juan, "Correction de césures et enrichissement de requêtespar Wikipédia appliqués à la recherche de livres", 8e Conférence en Recherche d’Informations et Applications(CORIA), Avignon (France), p. 89-96, 2011.10. L. Bonnefoy, P. Bellot, M. Benoit, "Mesure non-supervisée du degré d’appartenance d’une entité à un type", TALN2011, Montpellier, France, 2011.14


11. R. Deveaud, E. San Juan, P. Bellot, "Ajout d’informations contextuelles issues de Wikipédia pour la recherche depassages", TALN 2011, Montpellier, France, 2011.12. Thierry Waszak, Claude de Loupy, Patrice Bellot, "Identification et structuration hiérarchique des titres dans lesdocuments HTML", 6è Conférence en Recherche d’Informations et Applications (CORIA), Toulon (France), p.285-299, mai 2009.13. Rémi Lavalley, Patrice Bellot, Marc El-Bèze, "Interactions entre le calcul de collocations et la catégorisation automatiquede textes", 6è Conférence en Recherche d’Informations et Applications (CORIA), Toulon (France), mai2009, p. 251-265.14. Laurent Gillard, Patrice Bellot, Marc El-Bèze, « Quelles combinaisons de scores et de critères numériques pour unsystème de Questions/Réponses ? », TALN 2008, Avignon, p. 69 à 78, juin 2008.15. Poulard Fabien, Waszak Thierry, Hernandez Nicolas , Bellot Patrice, « Repérage de citations, classification desstyles de discours et identification des constituants citationnels en écrits journalistiques », TALN 2008, Avignon, p.450 à 459, juin 2008.16. Laurianne Sitbon, Patrice Bellot, Philippe Blache, "Lisibilité et recherche d’information : vers une meilleure accessibilité",5è Conférence en Recherche d’Informations et Applications (CORIA), Trégastel (France), p. 241 à 256,mars 2008 Prix du meilleur papier.17. Laurent Gillard, Patrice Bellot, Marc El-Bèze, "D’une compacité positionnelle à une compacité probabiliste pourun système de Questions/Réponses", 4è Conférence en Recherche d’Informations et Applications (CORIA), Saint-Etienne (France), p. 271 à 286, mars 200718. Laurianne Sitbon, Patrice Bellot, Philippe Blache, "Traitements phrastiques phonétiques pour la réécriture dephrases dysorthographiées", Actes de TALN 2007, Toulouse, p. 263 à 272, 2007.19. Laurent Gillard, Patrice Bellot, Marc El-Bèze, "Analyse des échecs d’une méthode pour traiter les questions définitoiressoumises à un système de Questions/Réponses", actes de TALN, Toulouse (France), p. 83 à 92, 2007.20. Nicolas Flavier, Patrice Bellot, "Vers un appariement automatique de questions extraites de courriers électroniques",Conférence Francophone sur l’Apprentissage Automatique (CAp 2007), Grenoble (France), p. 139 à 141, 2007.21. L. Sitbon, J. Grivolla, L. Gillard, P. Bellot, P. Blache, "Vers une prédiction automatique de la difficulté d’une questionen langue naturelle", 13ième conférence Traitement Automatique des Langues Naturelles (TALN), Louvain(Belgique), 10-13 avril 2006, pages 337 à 346.22. Laurent Gillard, Patrice Bellot, Marc El-Bèze, "Influence de mesures de densité pour la recherche de passages etl’extraction de réponses dans un système de questions-réponses", actes de la 3ième Conférence en Recherche dInformations et Applications (CORIA), Lyon (France), 15-17 mars 2006, pages 193-204.23. Laurent Gillard, Patrice Bellot, Marc El-Bèze, "Questions Booléennes : Oui ou Non, des Questions et des Réponses",actes de la 13ième conférence Traitement Automatique des Langues Naturelles (TALN), Louvain (Belgique),10-13 avril 2006, pages 159 à 166.24. Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman, "Accès aux connaissances orales par le résuméautomatique", 6è journées francophones "Extraction et Gestion des Connaissances" EGC 2006, Lille (France),janvier 2006.25. L. Sitbon, P. Bellot, "Segmentation thématique par chaînes lexicales pondérées", Actes de TALN 2005, Dourdan,France, p. 505 à 511, 2005.26. Benoît Favre, Jean-François Bonastre, Patrice Bellot, "Recherche d’information dans un mélange de documentsécrits et parlés", Journées d’Etude de la Parole, Fèz (Maroc), 2004.27. L. Sitbon, P. Bellot, "Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptationau français ", Actes de la conférence TALN, Fez (Maroc), p. 441 à 450, avril 2004.28. K. Lavenus, J. Grivolla, L. Gillard, P. Bellot, "Deux pistes complémentaires pour améliorer l’appariement QuestionRéponse", 11è conférence TALN, Fez (Maroc), p. 403 à 412, 2004.29. L. Gillard, P. Bellot, M. El-Bèze, « Bases de connaissances pour asseoir la crédibilité des réponses d’un prototypede question réponse », actes de la conférence Traitement Automatique des Langues Naturelles, Nantes, 200330. C. Raymond, P. Bellot, M. El-Bèze, « Enrichissement de requêtes pour la recherche documentaire selon une classificationnon-supervisée », 13ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et d’IntelligenceArtificielle (RFIA’2002) - Angers, volume 2, p. 625 à 632, 2002.31. J.-C. Meilland, P. Bellot, « Extraction automatique de terminologie - Application à des libellés courts issus de lagrande distribution » , 2è Journées "Linguistique de Corpus" - Lorient - Septembre 200232. P. Bellot , « Structuration dynamique de textes pour la recherche documentaire », Ecole thématique "Nouveauxdéfis en science de l’information" - GDR I3 - Marseille, septembre 2000.33. P. Bellot, M. El-Bèze, « Un Algorithme de Segmentation Automatique de Corpus - Le Système S.I.A.C. », PremièresJournées Scientifiques et Techniques (JST 97), p. 113-117, Avignon, 1997.15


Démonstrations1. P. Bellot, Y-M. Kim, J. Tavernier, E. Faath, M. Dacos, "BILBO Automatic Annotation of Bibliographical References",World-Wide-Web Conference WWW’2012, Lyon, France, avril 2012.2. Y. Moreau, E. San Juan, P. Bellot, "Restad : un logiciel d’indexation et de stockage relationnel de contenus XML",session démonstration, TALN 2011, Montpellier, France, 2011.Séminaires, ateliers, écoles d’été1. P. Bellot, OpenEdition Lab, Editions ouverte pour les humanités numériques : projets de R&D, Journée PLAIR(Plateforme d’Indexation Régionale), Rouen, juin 2013.2. P. Bellot, Recherche d’information et Traitement Automatique des Langues, Ecole d’Automne en Recherche d’Information(EARIA 2012), Eveux (France), octobre 2012.3. P. Bellot, De l’annotation automatique de références à la recommandation de lectures, Journées du GDR I3, Porquerolles,mai 2012.4. P. Bellot, Atelier apprentissage automatique pour la fouille de textes avec l’environnement Weka, URFIST, Marseille,décembre 2011.5. P. Bellot, Annotation automatique de textes, 2e Université d’été de l’Edition Electronique Ouverte, Marseille, septembre2011.6. P. Bellot, Traitement Automatique des Langues et Apprentissage automatique pour la fouille de textes : comment laconnaissance peut jaillir du désordre, EHESS Paris, séminaire Digital Humanities, les transformations numériquesdu rapport aux savoirs, décembre 20107. P. Bellot, conférence invitée dans le cadre du Café des Sciences d’Avignon sur les Handicaps en février 2008 sousle titre : « Modèles cognitifs et modèles informatiques pour le traitement automatique des langues ».8. Aventurier, P. ; Leiser, H. ; Richard, H. ; Bellot, P., OntoFruit : Ecophysiologie végétale de l’arboriculture fruitière–un référentiel documentaire indexé par une ontologie du domaine, Séminaire Texte et Connaissance, INRA, Paris,20089. P. Bellot, "Traitement automatique des langues et classification automatique : méthodes et applications pour larecherche d’informations", RIAs 2006, Lyon, mars 200610. P. Bellot, Les moteurs de recherche sur Internet, Journée de rencontres Enseignants-Chercheurs, Rectorat de l’académieAix-Marseille, mars 200411. P. Bellot, Quelques modèles probabilistes et statistiques en recherche d’informations. Application aux moteursQuestions-Réponses, Journée d’Etude RIP-WEB, Paris, décembre 200312. E. Crestan, L. Gillard, M. El-Bèze, P. Bellot, C. de Loupy, « Entités nommées pour les systèmes de question/réponse», Journée ATALA "Des requêtes aux questions : nouvelle perspective pour la recherche d’information ?", Paris, 17mai 2003.13. Laurent Gillard, Patrice Bellot, Marc El-Bèze, "Le LIA à EqueR (campagne Technolangue des systèmes Questionsréponses)",actes de l’atelier Evaluation en Question Réponse (EQueR) de la 12è conférence Traitement Automatiquedes Langues Naturelles (TALN), volume 2, Dourdan (France), 6-10 juin 2005, pages 81 à 84.14. P. Bellot, C. De Loupy, « SIAC et IndeXal à Amaryllis’99 », Atelier de la deuxième campagne Amaryllis (AUF),2000, Paris.15. P. Bellot, « Méthodes de classification et de segmentation pour la recherche documentaire », Workshop "Fouille detextes", GDRI3, Ecole Polytechnique, Paris, 1999.16. P. Bellot, M. El-Bèze, « Description du Système I.A.C.S. », Première campagne d’évaluation Amaryllis (AUPELF-UREF), Avignon, 199716


Projet de Recherche (résumé)L’équipe DIMAG du <strong>LSIS</strong> dont je suis responsable travaille autour des systèmes d’information et du Web aussi bienpour leur conception (architectures, services) et leur adaptation (spécialisation métier, personnalisation) que pour le traitementdes contenus documentaires et des données qui leur sont associés (recherche, extraction, (fouille, intégration). Lebut de nos travaux est ainsi de : développer des modèles et des algorithmes de recherche d’information et de fouille dedonnées applicables à de grands corpus de documents, de pages Web et de masses de données, en domaine de spécialitéou non ; de proposer des architectures pour les systèmes d’information (modèles distribués, modèles et simulationsmulti-agents, modèles guidés par les processus) ainsi que des modélisation de processus (BPM) et des approches pour ladéfinition, l’intégration et la recherche de services Web. Mon projet de recherche s’inscrit donc naturellement dans cettedynamique et une priorité forte sera donnée à la réalisation d’implémentations évaluées à grande échelle, dans le cadrede projets collaboratifs (domaines des Digital Libraries, du e-commerce, de la santé, de la recherche d’information surWeb) et de campagnes internationales d’évaluation des systèmes de recherche d’information (TREC, CLEF, INEX). Unenjeu scientifique et sociétal majeur réside en effet dans le développement d’approches informatiques robustes vis-à-visde la qualité variable et de la quantité sans cesse croissante des informations disponibles sur Internet. Mon objectif estde concevoir des méthodes de recherche d’information, de classification et de fouille de textes efficaces, en domaine despécialité ou non, sur des documents et pages Web plus ou moins structuré(e)s en provenance de collections ferméesdu Web et des réseaux sociaux. De toute évidence, les approches informatiques nouvelles doivent combiner traitementautomatique des langues, apprentissage automatique et ingénierie des connaissances.Les modèles de recherche se doivent de considérer des flux de textes et non plus des collections statiques, être robusteset adaptatifs. La personnalisation et la contextualisation de la recherche d’information sont deux aspects cruciaux :puisqu’il n’est pas possible de tout indiquer dans une requête, les modèles doivent exploiter d’autres indices que ceuxfournis explicitement par l’utilisateur. Etre capable de formuler des hypothèses sur ce que recherche un utilisateur et defouiller finement des masses de documents sans cesse croissante et mouvante est un enjeu majeur pour les années à venir.La croisée des disciplines et des approches, qu’elles soient issues de l’informatique, de la linguistique, des mathématiquesvoire des neuro-sciences, sont autant de pistes prometteuses. Pour le court terme, je retiens :1. Modèles et méthodes numériques pour le suivi de tendances et la recommandation : aucun système de recherchene répond de façon satisfaisante au besoin d’une navigation personnalisée et contextuelle Nos deux projetsInvestissements d’Avenir Equipex DILOH et Société Numérique INTER-TEXTES mais aussi le projet APO-GPACA AGORAWEB tous débutés en 2013 s’inscrivent dans ces directions :– méthodes d’extraction d’information pour l’identification de relations inter-textuelles ;– méthodes de fouille du Web et de classification de contenu pour l’analyse d’opinion (recherche de commentairesliés à la parution d’un ouvrage et de comptes-rendus de lecture, analyse automatique de commentaires sur desréseaux sociaux) ;– algorithmes d’analyse de tendance et de recommandation. Cet aspect pose la question de la centralité d’undocument selon plusieurs points de vue (analyse de graphes) mais aussi celui d’une analyse de tendance selondeux directions complémentaires : auteur et lecteur. Un des principaux problèmes de la détection de tendancesréside dans la très grande dimensionnalité des espaces lexicaux et de la variabilité lexicale. Les approches de typeallocation de Dirichlet latente (LDA), qui identifient, pour chaque classe de documents les thèmes principaux etpour chaque thème les mots les plus représentatifs, ne considèrent les textes que comme des « sacs de mots »et les documents comme des individus non ordonnés. Si elles sont efficaces pour déterminer des thèmes, ellessont peu à l’aise pour identifier des tendances de façon dynamique. L’allocation de Dirichlet latente et spatiale(SLDA), appliquée notamment pour l’analyse d’image, peut répondre à ce problème en ne supposant plus connuel’association mots/documents mais en la représentant comme une variable cachée supplémentaire.2. Modèles hybrides lexical/sémantique de Recherche d’information : l’objectif est de proposer de nouveaux modèlesde recherche d’information exploitant des ressources (connaissances) spécialisées dans un domaine tout enconservant les principaux avantages des modèles "sac de mots" actuels (robustesse, relative indépendance vis-à-visde la langue, capacité de traiter de très gros volumes de données). Les modèles numériques surfaciques présententde nombreux inconvénients (difficultés pour tenir compte de relations lexicales hiérarchiques ou de relations de voisinagesémantique, difficulté pour passer outre la variabilité lexicale dans l’expression de besoins en information...).Des propositions d’adaptation des modèles d’information multilingues pour des modèles conceptuels sont en coursd’élaboration.Au delà de ces aspects strictement informatiques et linguistiques, je m’intéresse à développer des approches nouvellesissues de collaborations inter-disciplinaires et inter-sectorielles, notamment avec les Sciences Humaines et Sociales dansles domaines des Humanités numériques (via l’Equipes OpenEdition) mais aussi de la Psychologie Cognitive. Sur cedernier axe, il s’agira de travailler sur des modèles de fouille de textes et de recherche d’information inspirées de l’étudedu cerveau — application à la personnalisation de la recherche et au traitement de l’information). J’ai co-encadrée sur cethème une thèse avec P. Blache (LPL) (thèse de L. Sitbon soutenue en 2007) alors que j’étais à L’Université d’Avignon.Mon arrivée au sein d’AMU ainsi que ma participation récente au comité du pilotage du pôle de Recherche "Humanités"me permet de me rapprocher des équipes locales concernées (laboratoires LPL et LPC). Je suis à ce titre de près lesactivités du Labex BLRI (Brain and Language Research Institute) piloté par le LPL.17


Projet de Recherche (général)Comme je l’ai écrit plus haut, une importance particulière sera accordée à l’évaluation sur des données réelles (campagnesinternationales d’évaluation, équipement d’excellence DILOH-OpenEdition, coopération internationale commeactuellement avec l’Université du Michigan, l’Université d’Essex et l’initiative d’excellence ISTEX pour l’évaluation denotre plateforme d’extraction d’information Bilbo).De façon générale, la problématique de la personnalisation et de la prise en compte de l’utilisateur en recherched’informations renvoie naturellement à celle, bien plus large, des fondements du traitement automatique des langues, aucroisement de la linguistique et de l’informatique, toutes deux rejointes par la psychologie pour l’étude des comportementsindividuels, les neurosciences pour l’étude du cerveau et des racines physiologiques du langage mais aussi par la sociologieet la sémiologie pour des analyses globales des besoins, des attitudes et des significations. Ce croisement pluridisciplinaireest un enjeu majeur des années à venir si l’on veut aller au-delà, pour reprendre K. Sparck-Jones, de la seule étudepermettant d’espérer (et encore ne s’agit-il que d’un espoir sans même être convaincu de la significativité des gains)grappiller quelques points de précision en recherche ad-hoc. La place de l’informaticien dans ce puzzle au dessein encoreflou mérite d’être discutée même si, pour nous, la réponse est à peu près claire.Parallèlement aux approches symboliques, les méthodes numériques, fondées sur une étude statistique étudiée encorpus, ont prouvé leur grande capacité à s’adapter rapidement à diverses thématiques ou langues. Cela s’est fait au prixd’une certaine approximation dans les résultats, toujours exacts dans les approches symboliques pour peu que les règlessoient justes et complètes.Ces deux orientations, symbolique et numérique, ont longtemps été opposées, chacune des communautés scientifiquesse distinguant par des finalités divergentes opposant prototypes limités mais exacts pour l’une et systèmes fonctionnelsmais approximatifs pour l’autre et par des attitudes plus ou moins pragmatiques. Cette opposition rejoint en quelque sortecelle qui a opposé, et oppose toujours, certains linguistes et philosophes sur la nature même du langage et son acquisitionà savoir, en simplifiant à l’extrême, la pré-existence ou non d’un système (cognitif) de règles génératrices des phrasespossibles au sein d’une langue (ou tout du moins du degré de pré-existence). C’est ainsi que F. de Saussure parlait audébut du 20 e siècle de faculté de langage comme instinct naturel inhérent à tout être humain ou que, dans un autre style,Nietzsche écrivait : "[...] La « raison » dans le langage : ah ! quelle vieille femme trompeuse ! Je crains bien que nous nenous débarrassions jamais de Dieu, puisque nous croyons encore à la grammaire" (Nietzsche, 1888) 1 . L’existence de loispremières est évoquée par M. Foucault dans l’ouvrage "Les mots et les choses" dont nous reprenons ici un court extrait(Foucault, 1966) :Si le mot peut figurer dans un discours où il veut dire quelque chose, ce ne sera pas par la vertu d’unediscursivité immédiate qu’il détiendrait en propre et par droit de naissance, mais parce que dans sa formemême, dans les sonorités qui le composent, dans les changements qu’il subit selon la fonction grammaticalequ’il occupe, dans les modifications enfin auxquelles il se trouve soumis à travers le temps, il obéit à uncertain nombre de lois strictes qui régissent de façon semblable tous les autres éléments de la même langue ;si bien que le mot n’est plus attaché à une représentation que dans la mesure où il fait partie d’abord del’organisation grammaticale par laquelle la langue définit et assure sa cohérence propre. Pour que le motpuisse dire ce qu’il dit, il faut qu’il appartienne à une totalité grammaticale qui, par rapport à lui, estpremière, fondamentale et déterminante.Ce débat sur la nature et le rôle de la grammaire, a ses origines au 17 e siècle entre tenants de l’empirisme (l’êtrehumain est né vierge et est entièrement façonné par l’expérience) et du rationnalisme (l’homme ne peut être réduit àson expérience). Dans les années 1950, le courant béhavioriste, empiriste, a tenté de définir l’acquisition du langagecomme un apprentissage sous forme de réactions en chaîne par rapport à des renforcements positifs ou négatifs. Enopposition, N. Chomsky a proposé la pré-existence de structures cognitives spécifiques au langage et propres à l’êtrehumain, suggérant ainsi que le langage est quelque chose de réellement biologique (Grodzinsky, 2007).Une conséquence directe de la pré-existence de structures grammaticales pour l’acquisition du langage a d’abordconsisté à définir à la fois une grammaire universelle exprimant les universaux linguistiques et des grammaires particulièrespour les spécificités des multiples langues (Chomsky, 1964) : "Dans cette conception, l’acquisition de la langue étaitvue comme un processus d’induction de règles : l’enfant, pourvu de la structure générale de la grammaire universelle définissantune certaine classe de grammaires particulières possibles, doit découvrir les règles particulières qui engendrentla langue particulière à laquelle il est exposé" (Rizzi, 2007). Ultérieurement, les grammaires particulières ont été réduitesà des valeurs spécifiques de paramètres de la grammaire universelle, l’acquisition d’une langue correspondant ainsi enla fixation de ces paramètres (Chomsky, 1981). Il n’y a alors plus besoin d’induire de quelconques règles (Rizzi, 2007),l’induction étant remplacée par un processus de détermination et de sélection parmi toutes les productions linguistes apriori possibles (Mehler et Dupoux, 1992).Selon cette description de l’acquisition du langage, la notion d’apprentissage est bien sûr de première importance.Cet apprentissage peut être vu sous deux angles qui rejoignent la problématique déjà évoquée plus haut, à savoir apprentissagestatistique ou "analytique" (tous deux naturellement inconscients, et, probablement, combinés). Dans le premier1 in "Le crépuscule des idoles", chapitre "La « raison » dans la philosophie".18


cas, il s’agit pour l’enfant, d’observer lesquelles de ses productions linguistiques aboutissent au but recherché et, de manièreévolutive, accumuler une sorte de comptabilité de ce qui réussit et de ce qui échoue pour aboutir à une sélection depossibles. Ce type d’apprentissage peut être modélisé par des réseaux de neurones faisant intervenir différentes couchesplus ou moins explicites reliant le lexique, des concepts et des sons ; l’intention (le but recherché) étant alors un cheminparticulier au sein du réseau. Le succès ou l’échec se traduisent par un renforcement ou un affaiblissement des connexions.Cependant, aucune simulation n’est encore parvenue à simuler le langage humain dans son étendue sémantique et comportementale.La question de la convergence de l’apprentissage se pose aussi bien que celle de la réduction de la combinatoireà des parcours possibles. On se reportera tout de même avec le plus grand intérêt au modèle Caramel et à ses implémentations(Sabbah, 1996; Sabbah et Popescu-Belis, 1999). Dans le second cas, l’apprentissage consiste à un raffinementprogressif de la valeur des paramètres de la grammaire universelle autorisant la production, et la compréhension, desénoncés qu’elle peut générer.Remarquons que, dans le premier cas, il est toujours possible de relever, une fois le système stabilisé, des régularitésstructurelles, nécessaires ne serait-ce que pour assurer une homogénéité dans le temps et une compréhension mutuelleentre deux interlocuteurs, desquelles une grammaire peut être déduite. Concernant le second point de vue, des interrogationssur sa pertinence sont soulevées qui concernent à la fois l’ensemble des productions s’écartant de la grammaire (dansla lignée de la linguistique de corpus) mais pourtant compréhensibles (au sens où un enfant peut tout à coup construireincorrectement une phrase qui aurait pourtant dû respecter une forme syntaxique qu’il maîtrise par ailleurs) 2 et les conséquenceslinguistiques propres à certains troubles du langage (dysphasie développementale) difficiles à modéliser 3 . Iciencore, les interprétations sont multiples mais l’on pourra retenir celle exprimée par Jakubowicz (2007) :[...] je propose que les différences observées par rapport au système adulte, transitoires chez l’enfantsain, de durée plus longue ou indéfinie chez l’enfant atteint d’un trouble spécifique du langage, ne relèvent enfait pas de l’engin syntaxique lui-même mais d’opérations post-syntaxiques par lesquelles les représentationsconstruites par cet engin sont matérialisées.Les découvertes récentes de l’imagerie médicale fonctionnelle 4 ne permettent pas à elles seules de décider de lavalidité de cette hypothèse. Si l’on parvient à déterminer au moins approximativement les zones du cerveau propres àla prononciation mentale (aire de Broca comme étape pré-articulatoire), la détection de phonèmes (partie antérieure del’aire de Wernicke) ou encore les aires visuelles distinctes pour la reconnaissance des visages, la représentation mentaledes lieux ou des mots écrits (différentes zones qui sont en jeu dans la lecture) (Dehaene, 2007), il est plus délicat dedéterminer une localisation précise d’un quelconque engin syntaxique. Ce pas est en partie franchi par certains chercheursqui relèvent une forte activation de l’aire de Broca dans le traitement de mouvement syntaxique — mouvement de l’objetau cours du traitement des relatives objet par rapport aux phrases complétives — (Grodzinsky, 2007).Finalement, les propositions et modèles qui découlent des travaux de N. Chomsky ne paraissent pas incompatiblesavec une vision béhavioriste relativisée (voir par exemple Harth (1993) cité par Sabbah, 2006). Au lieu d’opposer modélisationsneuronales et grammaire générative avec structures innées, il est parfaitement possible de postuler l’existence deréseaux neuronaux ayant une structure initiale propice à l’acquisition du langage, à la fois en respect avec une grammaireuniverselle et en accord avec la nécessité d’interconnexion avec les aires cognitives non spécifiques au langage : le réseauforme bien un tout. Cette approche est alors en partie (mais en partie seulement) conforme au modèle d’une consciencehumaine définie comme une dynamique neuronale (Edelman, 2007) dans laquelle l’apprentissage par renforcement (processusde sélection) est contraint par le code génétique tout en étant sensible à l’expérience. G. Edelman s’oppose toutefoisfermement aux propositions chomskyennes sans les nommer explicitement (p. 77) :Nous formons la seule espèce dotée d’un langage fondé sur une syntaxe. De nombreux chercheurs ontsuggéré que le langage est un trait dû à l’évolution biologique ; certains ont même proposé de penser que nouspossédons un dispositif spécifique d’acquisition du langage ; nous en aurions hérité et il nous permettraitd’effectuer et de reconnaître les déclarations correctes quant à la syntaxe. La théorie de la sélection desgroupes de neurones rejette cette conception.Toutefois, cette opposition ne paraît pas définitive puisqu’à peine plus loin (p. 78), il ajoute :L’interaction des ganglions de la base des aires motrices, sensorielles et préfrontales du cortex a pudonner lieu à une capacité généralisée de détecter les séquences sensorimotrices, formant ainsi une sorte de2 Si les modèles numériques sont par nature robustes, ça n’est pas le cas de la plupart des modèles symboliques. Face à l’incapacité des grammaireschomskyennes à considérer les énoncés qu’elles ne peuvent générer (et qui sont donc en ce sens en dehors du langage), d’autres grammaires ont étéproposées telles que les grammaires de propriétés (Blache, 2000). Elles fournissent "[...] une vision de la langue comme un tout, dans laquelle chaquedomaine [phonologie, syntaxe, sémantique...] possède son propre système de description (ou grammaire), les interactions étant contrôlées par un niveausupérieur. [...] La possibilité de rendre compte de la langue en situation et dans une perspective communicationnelle tout en se situant dans une approcheformelle confère ainsi pleinement un aspect cognitif à la théorie.3 D’autres interrogations, plus philosophiques, trouvent au moins en partie leur réponse dans (Pollock, 2007) qui ajoute que l’étude neurophysiologiquedes activités cérébrales ne peut suffire à elle seule pour étudier le langage sous peine de se priver d’une cinquantaine d’années de travaux auxrésultats "formellement précis".4 Dans le domaine de l’imagerie anatomique, certains auteurs vont jusqu’à spécifier des aires corticales spécifiques à certains verbes d’action enliaison avec les zones neuronales du système moteur (Rizzolatti et Sinigaglia, 2008). Ainsi certaines neurones discriminent l’information sensoriellesuivant les possibilités d’action qu’elle offre (formes, dimensions...). L’activation de neurones miroirs potentiellement associés à des actes moteurs estliée à des actions (intentions) et non à des mouvements particuliers du corps.19


"syntaxe de base". Le cas échéant, un langage vrai fondé sur une syntaxe est apparu, invention s’appuyant surdes capacités déjà évoluées. [...] notre compréhension de la façon dont le cerveau rend possible le langageen est au stade de l’enfance.J.P. Changeux (2002) va dans ce sens lorsqu’il écrit :Le développement du langage chez l’enfant se démarque de la conception naïve de l’acquisition desmots comme une simple mise en connexion un par un des signifiants et des signifiés, mais s’accorde, enrevanche, avec le schéma de la communication inférentielle : il s’agit de la dynamique de développement duprocessus d’acquisition du sens des mots. [Elle] ne suit pas une croissance progressive du nombre de motspuis de syntagmes [...] puis de groupes de mots. [c’est le contraire qui se produit] [...] On peut concevoirqu’une restriction et une spécification progressive des relations entre son et sens [...] s’effectuent par unprocessus de sélection par récompense partagée. Tout récemment, L. Rizzi [a montré que] l’enfant exploreun grand nombre de règles syntaxiques possibles, qui sont éphémères [...] Ensuite il omet ou oublie, c’està dire élimine, les constructions qui ne sont pas en accord avec les connaissances grammaticales courantesqu’il tire de son environnement social immédiat.En tout état de cause, les modèles neuronaux (et les modèles numériques en général) apportent un plus essentiel quiest la possibilité d’associer des valeurs continues aux objets manipulés, qu’ils soient conceptuels ou non. Ainsi, plutôtque d’opposer de manière irréductible le modèle aristotélicen qui va permettre de catégoriser des objets en fonction deleurs propriétés communes et le modèle qui procède au classement selon des ressemblances avec des objets "prototypes",on préférera associer, à tout objet, une valeur d’appartenance à chaque catégorie. Ainsi un verre, défini comme étant unobjet dans lequel on peut mettre un liquide, sera toujours un verre, même s’il est cassé ; mais il le sera un peu moins. Noussuivons en ce sens les positions avancées par Sabbah (2006) qui préconise de laisser de côté la quête plus ou moins vainede définir le sens d’un texte dans l’absolu (sauf pour des cas particuliers de domaines spécifiques ou normalisés commepour le Web Sémantique) pour se pencher vers une sémantique subjective :Ignorer l’existence de sensations néglige le fait que l’incarnation est productrice de sens et qu’il estimpossible d’avoir des états intentionnels sans expérience subjective. Une sémantique subjective centrée surl’individu, serait ainsi plus utile pour modéliser de façon plus analogique les processus de compréhension.On ne chercherait pas à représenter le sens comme un état du monde de référence, mais comme une modificationd’un état de connaissance, c’est à dire comme un effet sur le contexte cognitif du système. [...] Ilsemble donc fondamental d’examiner de plus près les liens entre les significations et les perceptions. [...]pour une confrontation continuelle entre les énoncés reçus et les connaissances antérieures, stockés dansune mémoire non seulement associative, mais aussi prospective et réflexive. Ainsi l’intelligence artificiellepurement symbolique semble-t-elle prendre le problème à l’envers. [...]Nous n’avons pas la prétention de trancher entre une approche ou une autre quant au choix de celle qui correspondle mieux au fonctionnement du cerveau humain. Cependant nous croyons que l’un des principaux acquis du traitementautomatique des langues de ces dernières années et qu’il est nécessaire, au moins en l’état des connaissances et descapacités computationnelles des machines, de ne pas se cantonner soit dans une approche entièrement numérique soit(j’oserais dire encore moins) dans une approche uniquement symbolique.Ainsi, je propose d’être attentif simultanément aux travaux issus des neurosciences et de la linguistique même s’ilfaut avoir conscience que le transfert d’une discipline à l’autre ne pourra peut être se réaliser qu’à long terme et qu’il estdéjà évoqué depuis fort longtemps (par ex. (Rastier, 1991)). À ce titre, je serai particulièrement sensible à la robustessedes modèles face aux phénomènes linguistiques rencontrés, qu’ils soient corrects ou non, tels que ceux en provenancede données bruitées, orales ou textuelles. Les méthodes d’apprentissage automatique basées sur le renforcement (Munos,1997) et la réentrance, par opposition à un apprentissage supervisé ou à des méthodes de prise de décision markoviennes oùun plan d’action doit être décidé en chaque état, seront approfondies et adaptées en profitant de leur apparente adéquationsupérieure avec les processus cognitifs qui régissent notre cerveau.Le travail débuté avec la thèse de Laurianne Sitbon, la capacité des modèles numériques neuronaux à rendre compte decertaines déficiences cognitives et l’expérience acquise avec les moteurs de questions-réponses sont autant d’argumentsen faveur de cette voie pluridisciplinaire centrée sur l’individu que je souhaite continuer à suivre. Les applications sontnombreuses, depuis les systèmes de recherche d’informations multimédia (Gros, 2007) jusqu’aux systèmes de dialoguehomme-machine (De Mori, 1998). Celles-ci devront intégrer tout ou partie des savoir-faire que nous avons désormais enanalyse linguistique (syntaxe, sémantique et discours), modélisations des utilisateurs et des connaissances et modèles delangue afin d’aller au-delà des performances des systèmes actuels. La manière de combiner ces différentes informationsconstitue un enjeu considérable pour les années à venir, non pour éclairer les capacités humaines (ça n’est certainementpas l’objet de l’informatique), mais pour développer des systèmes logiciels automatiques ou semi-automatiques aptes àrelever les nombreux défis de la société de l’information.20


Références(Blache, 2000) P. Blache, 2000. Le rôle des contraintes dans les théories linguistiques et leur intérêt pour l’analyseautomatique : les grammaires de propriétés. Dans les actes de TALN 2000, Lausanne (Suisse).(Changeux, 2002) J. Changeux, 2002. L’homme de vérité. Paris : Odile Jacob (2008 pour la trad. française).(Chomsky, 1964) N. Chomsky, 1964. Current issues in linguistic theory. Dans J. Fodor et B. Katz (Eds.), The structureof language. Prentice Hall.(Chomsky, 1981) N. Chomsky, 1981. Lectures in Government and Binding. Dordrecht : Foris Publications.(De Mori, 1998) R. De Mori, 1998. Spoken Dialogues with Computers. Academic Press.(Dehaene, 2007)(Edelman, 2007)S. Dehaene, 2007. Les neurones de la lecture. Paris : Odile Jacob.G. Edelman, 2007. La science du cerveau et de la connaissance. Paris : Odile Jacob.(Foucault, 1966) M. Foucault, 1966. Les mots et les choses - Une archéologie des sciences humaines. Collection tel(édition 2007). Gallimard.(Grodzinsky, 2007) Y. Grodzinsky, 2007. La syntaxe générative dans le cerveau. Dans J. Bricmont et J. Franck (Eds.),Chomsky (Les Cahiers de l’Herne). Paris : Editions de l’Herne.(Gros, 2007)(Harth, 1993)P. Gros, 2007. L’indexation multimédia - description et recherche automatiques. Hermes.E. Harth, 1993. The creative loop : how the brain makes a mind. New-York : Addison-Wesley.(Jakubowicz, 2007) C. Jakubowicz, 2007. Grammaire universelle et trouble spécifique du langage. Dans J. Bricmont etJ. Franck (Eds.), Chomsky (Les Cahiers de l’Herne). Paris : Editions de l’Herne.(Mehler et Dupoux, 1992) J. Mehler et E. Dupoux, 1992. Naître humain. Paris : Odile Jacob.(Munos, 1997) R. Munos, 1997. L’apprentissage par renforcement, étude du cas continu. Thèse de doctorat, Ecole desHautes Etudes en Sciences Sociales.(Nietzsche, 1888) F. Nietzsche, 1888. Le Crépuscule des idoles.(Pollock, 2007) J.-Y. Pollock, 2007. La grammaire générative et le programme minimaliste. Dans J. Bricmont et J. Franck(Eds.), Chomsky (Les Cahiers de l’Herne). Paris : Editions de l’Herne.(Rastier, 1991)F. Rastier, 1991. Sémantique et recherches cognitives. Formes sémiotiques. PUF.(Rizzi, 2007) L. Rizzi, 2007. L’acquisition de la langue et la faculté de langage. Dans J. Bricmont et J. Franck (Eds.),Chomsky (Les Cahiers de l’Herne), 147–156. Paris : Editions de l’Herne.(Rizzolatti et Sinigaglia, 2008)trad. française).G. Rizzolatti et C. Sinigaglia, 2008. Les neurones miroires. Paris : Odile Jacob (pour la(Sabbah, 1996) G. Sabbah, 1996. Le « carnet d’esquisses » : une mémoire interprétative dynamique. Dans les actes deRFIA, 1096–1105.(Sabbah, 2006) G. Sabbah, 2006. Compréhension automatique des langues : où va-t-on ? où pourrait-on aller ? DansG. Sabbah (Ed.), Compréhension des langues et interaction. Paris : Hermès.(Sabbah et Popescu-Belis, 1999) G. Sabbah et A. Popescu-Belis, 1999. Experiments in language acquisition by artificialsystems. Dans les actes de MIND-4, Dublin, 1–10.21

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!