13.07.2013 Views

Base de données

Base de données

Base de données

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Sonal - Mo<strong>de</strong> d’emploi<br />

sans relâcher le bouton. Cliquez ensuite sur le bouton “Regrouper” (2) qui vous<br />

affiche une fenêtre <strong>de</strong> lemmatisation récapitulant toutes les formes sélectionnées.<br />

Dans la zone <strong>de</strong> texte en bas <strong>de</strong> la page, donnez un nom pour le groupe créé (3),<br />

(pour faciliter la remémoration qu’il s’agit d’une forme synthétique, vous pouvez<br />

prendre le parti <strong>de</strong> placer un petit “+” à la fin). Cliquez enfin sur “lemmatiser” pour<br />

vali<strong>de</strong>r. Votre nouveau groupe va être créé. Si le nom <strong>de</strong> groupe existe déjà, les mots<br />

seront simplement ajoutés au groupe existant.<br />

La base est partiellement réécrite puis triée. Cette opération peut prendre un certain<br />

temps si le groupe contient beaucoup <strong>de</strong> mots différents…<br />

- Définir les mots outils<br />

Toutes les formes présentes dans un corpus ne présentent pas forcément un grand<br />

intérêt. On ne peut cependant pas présumer <strong>de</strong> la liste <strong>de</strong> formes que chacun<br />

souhaitera écarter <strong>de</strong> l’analyse.<br />

Le bouton « mots outils » en bas à gauche <strong>de</strong> cette page permet d’envoyer les mots<br />

sélectionnés dans un lemme spécifique, celui <strong>de</strong>s « mots outils », qui regroupe toutes<br />

les formes dont vous n’aurez pas l’usage dans l’analyse. On les appelle parfois <strong>de</strong>s «<br />

mots vi<strong>de</strong>s » par opposition aux « mots pleins » qui véhiculent du sens. Ces mots<br />

outils sont mémorisés dans un fichier texte nommé “Outils.txt”, qui est placé dans le<br />

répertoire “Dico\” du dossier du programme (généralement C:\Program Files\Sonal\).<br />

Cela implique que votre dictionnaire <strong>de</strong>s mots outils est partagé entre vos différents<br />

corpus. La liste <strong>de</strong>s mots outils est vierge à l’installation, vous <strong>de</strong>vez l’enrichir<br />

progressivement. Une bonne métho<strong>de</strong> est <strong>de</strong> trier les mots par occurrences avant<br />

toute lemmatisation. Les mots les plus courants sont généralement les moins<br />

significatifs et peuvent être éliminés collectivement.<br />

- La lemmatisation automatique<br />

Le bouton “Lemmatiser la base” propose une lemmatisation automatique <strong>de</strong> toute la<br />

base. En cliquant sur la flèche pointant vers le bas à droite du bouton, vous pourrez<br />

choisir les différentes options. Pour<br />

l’instant, est proposée la lemmatisation<br />

<strong>de</strong>s verbes, <strong>de</strong>s pluriels (simples ! (s), pour<br />

l’instant…), <strong>de</strong>s nombres et <strong>de</strong>s mots outils.<br />

A chaque fois qu’un groupe est créé, la<br />

forme synthétique affectée à tous les mots<br />

qui en font partie est suivie d’un “+”.<br />

Cette procédure est très rudimentaire et<br />

ne gère aucune exception. Aussi, il est<br />

généralement nécessaire <strong>de</strong> revenir sur les<br />

regroupements opérés.<br />

136

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!