27.03.2017 Views

ACTES du colloque national La loi numérique et après ?

actes-colloque-avec-presentations_11-2016

actes-colloque-avec-presentations_11-2016

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

à une gamme d'outils de recherche <strong>et</strong> d'exp<strong>loi</strong>tation. Le champ couvert par Persée a été<br />

progressivement élargi – des SHS vers les sciences de la vie – <strong>et</strong> inclut maintenant tout type de<br />

publication scientifique.<br />

Les axes stratégiques de Persée sont notamment la valorisation de collections de publications<br />

scientifiques <strong>et</strong> la structuration des contenus afin de faciliter les recherches <strong>et</strong> analyses.<br />

Les données contenues dans Persée proviennent d’images numérisées qui sont tra<strong>du</strong>ites en<br />

fichiers de textes, notamment grâce à l’utilisation d’un logiciel de reconnaissance optique de<br />

caractères (OCR). <strong>La</strong> volumétrie est de presque 630 000 documents en texte intégral. Des<br />

métadonnées sont ensuite ajoutées (Erudit schema, TEI). Ces métadonnées peuvent être<br />

bibliographiques (DC / MODS / marcXML) <strong>et</strong> pour les autorités (MADS).<br />

L’intérêt des chercheurs pour l’analyse de l’évolution des corpus a mené à de nombreuses<br />

demandes de réutilisation des données Persée.<br />

Plusieurs questions se posent pour l’avenir. Par exemple comment va évoluer le cadre<br />

juridique de Persée ? Comment mieux associer Persée aux activités externes de création<br />

d’outils de services aux chercheurs ? Comment rediffuser les résultats <strong>du</strong> TDM <strong>et</strong> les données<br />

annotées ? C’est la question de la mise en place d’un tiers de confiance a également été<br />

abordée.<br />

Présentation de Charles Huot<br />

Structurer le non-structuré<br />

Charles Huot, Corporate Development Officer à Expert System, a présenté les activités de sa<br />

société dans le domaine <strong>du</strong> text and data mining, en détaillant des cas d’application <strong>et</strong> certaines<br />

difficultés liées. Charles Huot a notamment présenté :<br />

1. Deux exemples d’API disponibles en version test, COGITO smart content <strong>et</strong> COGITO<br />

Intelligent Api. C<strong>et</strong>te dernière API perm<strong>et</strong> d’extraire plusieurs types d’information d’un<br />

article, telles que des catégories, des noms (de personnes, d’organisations, de villes<br />

mentionnées), des mots clés <strong>et</strong> expressions. De plus, le système analyse des<br />

informations sur le style de l’article (lisibilité, vocabulaire utilisé, conjugaison, syntaxe,<br />

<strong>et</strong>c.).<br />

2. Le proj<strong>et</strong> Luxid Navigator, dans le domaine médical. Des informations médicales sont<br />

récupérées (depuis des établissements ainsi que MEDLINE) puis réorganisées. Les<br />

données concernent notamment des essais cliniques en cours ou à venir, des brev<strong>et</strong>s,<br />

des experts par thématiques, des publications. Les articles sont accessible en résumé<br />

seul ou texte intégral <strong>et</strong> comportent des métadonnées (mots clés associés, informations<br />

les auteurs, date de publication <strong>et</strong> source). <strong>La</strong> base intègre également des informations<br />

46

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!