ACTES du colloque national La loi numérique et après ?
actes-colloque-avec-presentations_11-2016
actes-colloque-avec-presentations_11-2016
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
à une gamme d'outils de recherche <strong>et</strong> d'exp<strong>loi</strong>tation. Le champ couvert par Persée a été<br />
progressivement élargi – des SHS vers les sciences de la vie – <strong>et</strong> inclut maintenant tout type de<br />
publication scientifique.<br />
Les axes stratégiques de Persée sont notamment la valorisation de collections de publications<br />
scientifiques <strong>et</strong> la structuration des contenus afin de faciliter les recherches <strong>et</strong> analyses.<br />
Les données contenues dans Persée proviennent d’images numérisées qui sont tra<strong>du</strong>ites en<br />
fichiers de textes, notamment grâce à l’utilisation d’un logiciel de reconnaissance optique de<br />
caractères (OCR). <strong>La</strong> volumétrie est de presque 630 000 documents en texte intégral. Des<br />
métadonnées sont ensuite ajoutées (Erudit schema, TEI). Ces métadonnées peuvent être<br />
bibliographiques (DC / MODS / marcXML) <strong>et</strong> pour les autorités (MADS).<br />
L’intérêt des chercheurs pour l’analyse de l’évolution des corpus a mené à de nombreuses<br />
demandes de réutilisation des données Persée.<br />
Plusieurs questions se posent pour l’avenir. Par exemple comment va évoluer le cadre<br />
juridique de Persée ? Comment mieux associer Persée aux activités externes de création<br />
d’outils de services aux chercheurs ? Comment rediffuser les résultats <strong>du</strong> TDM <strong>et</strong> les données<br />
annotées ? C’est la question de la mise en place d’un tiers de confiance a également été<br />
abordée.<br />
Présentation de Charles Huot<br />
Structurer le non-structuré<br />
Charles Huot, Corporate Development Officer à Expert System, a présenté les activités de sa<br />
société dans le domaine <strong>du</strong> text and data mining, en détaillant des cas d’application <strong>et</strong> certaines<br />
difficultés liées. Charles Huot a notamment présenté :<br />
1. Deux exemples d’API disponibles en version test, COGITO smart content <strong>et</strong> COGITO<br />
Intelligent Api. C<strong>et</strong>te dernière API perm<strong>et</strong> d’extraire plusieurs types d’information d’un<br />
article, telles que des catégories, des noms (de personnes, d’organisations, de villes<br />
mentionnées), des mots clés <strong>et</strong> expressions. De plus, le système analyse des<br />
informations sur le style de l’article (lisibilité, vocabulaire utilisé, conjugaison, syntaxe,<br />
<strong>et</strong>c.).<br />
2. Le proj<strong>et</strong> Luxid Navigator, dans le domaine médical. Des informations médicales sont<br />
récupérées (depuis des établissements ainsi que MEDLINE) puis réorganisées. Les<br />
données concernent notamment des essais cliniques en cours ou à venir, des brev<strong>et</strong>s,<br />
des experts par thématiques, des publications. Les articles sont accessible en résumé<br />
seul ou texte intégral <strong>et</strong> comportent des métadonnées (mots clés associés, informations<br />
les auteurs, date de publication <strong>et</strong> source). <strong>La</strong> base intègre également des informations<br />
46