23.06.2013 Views

Segmentation de la parole : méthode et logiciel

Segmentation de la parole : méthode et logiciel

Segmentation de la parole : méthode et logiciel

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Segmentation</strong> <strong>de</strong> <strong>la</strong> <strong>parole</strong> :<br />

métho<strong>de</strong> <strong>et</strong> <strong>logiciel</strong><br />

Brigitte Bigi – 03/06/2012<br />

Brigitte Bigi<br />

1/29


Segmenter <strong>de</strong> <strong>la</strong> <strong>parole</strong> : métho<strong>de</strong><br />

Brigitte Bigi – 03/06/2012<br />

2/29


Brigitte Bigi – 03/06/2012<br />

Introduction<br />

Définir une unité segmentale <strong>de</strong> référence<br />

Apprendre un modèle<br />

Déco<strong>de</strong>r/Segmenter un signal avec ce modèle<br />

3/29


Unité représentée dans le modèle<br />

Limitée par :<br />

● <strong>la</strong> variabilité du phénomène<br />

● les quantités <strong>de</strong> données que l'on peut<br />

recueillir<br />

● <strong>la</strong> puissance <strong>de</strong> calcul <strong>de</strong>s systèmes<br />

Segmenter en mots ?<br />

● C<strong>la</strong>irement : non !<br />

Brigitte Bigi – 03/06/2012<br />

4/29


Brigitte Bigi – 03/06/2012<br />

Variabilité...<br />

Prononciation « standard » ou « canonique »<br />

Prononciation mise en contexte<br />

Style <strong>de</strong> <strong>parole</strong><br />

Locuteur (genre, âge, milieu social...)<br />

Paramètres acoustiques<br />

Réductions, assimi<strong>la</strong>tions, <strong>et</strong>c...<br />

5/29


Unité segmentale : phonème<br />

"Le phonème est une unité linguistique abstraite.<br />

C’est <strong>la</strong> plus p<strong>et</strong>ite unité distinctive <strong>de</strong> <strong>la</strong> <strong>la</strong>ngue :<br />

<strong>la</strong> permutation entre 2 phonèmes entraîne une<br />

différence <strong>de</strong> sens."<br />

/m/ <strong>et</strong> /s/ sont <strong>de</strong>ux phonèmes différents car il<br />

distinguent le mot "matin" du mot "satin"<br />

/e/ <strong>et</strong> /a/ sont <strong>de</strong>ux phonèmes différents car ils<br />

distinguent le mot "belle" du mot "balle".<br />

Plusieurs heures <strong>de</strong> <strong>parole</strong>s sont nécessaires pour<br />

apprendre un modèle<br />

Mise en contexte : modèles triphones pour<br />

apprendre les contextes gauche <strong>et</strong> droits<br />

Brigitte Bigi – 03/06/2012<br />

6/29


Brigitte Bigi – 03/06/2012<br />

Modèles<br />

Les modèles actuels sont <strong>de</strong>s distributions <strong>de</strong><br />

probabilités, apprises à partir d'exemples<br />

Le modèle est le « refl<strong>et</strong> » <strong>de</strong> ce qui est observé<br />

Appris à partir <strong>de</strong> vecteurs <strong>de</strong> paramètres extraits<br />

du signal<br />

Utilise <strong>la</strong> fréquence d'échantillonnage (en Hz)<br />

Extraction <strong>de</strong>s valeur d'énergie sur une échelle<br />

log-linéaire (plus <strong>de</strong> valeurs les fréquences<br />

basses)<br />

HMM<br />

7/29


Segmenter en phonèmes / mots<br />

je suis<br />

j @ S H i<br />

Brigitte Bigi – 03/06/2012<br />

Transcription<br />

Phonétisation<br />

je suis<br />

/ j @ S H i /<br />

/ j S H i /<br />

/ S H i /<br />

Alignement<br />

Dictionnaire<br />

Modèle<br />

Acoustique<br />

8/29


SPPAS : un outil « user-friendly »<br />

pour l'alignement texte/son<br />

Brigitte Bigi – 03/06/2012<br />

9/29


Situer SPPAS... parmi les outils <strong>de</strong><br />

segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Informaticiens Linguistes<br />

Brigitte Bigi – 03/06/2012<br />

10/29


Situer SPPAS... parmi les outils <strong>de</strong><br />

segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Informaticiens<br />

Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Brigitte Bigi – 03/06/2012<br />

Linguistes<br />

Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

11/29


Situer SPPAS... parmi les outils <strong>de</strong><br />

segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Informaticiens<br />

Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Automatiques<br />

Brigitte Bigi – 03/06/2012<br />

Linguistes<br />

Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Manuelles<br />

12/29


Situer SPPAS... parmi les outils <strong>de</strong><br />

segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Informaticiens<br />

Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Automatiques<br />

Outils libres :<br />

- Julius<br />

- sphinx<br />

- HTK<br />

- ...<br />

Outils « maison »...<br />

Brigitte Bigi – 03/06/2012<br />

Linguistes<br />

Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Manuelles<br />

Outils libres :<br />

- Praat<br />

+ plugins praat<br />

- wavsurfer<br />

...<br />

Autres...<br />

13/29


Situer SPPAS... parmi les outils <strong>de</strong><br />

segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Informaticiens<br />

Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Automatiques<br />

Outils libres :<br />

- Julius<br />

- sphinx<br />

- HTK<br />

- ...<br />

Outils « maison »...<br />

Brigitte Bigi – 03/06/2012<br />

SPPAS<br />

Linguistes<br />

Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Manuelles<br />

Outils libres :<br />

- Praat<br />

+ plugins praat<br />

- wavsurfer<br />

...<br />

Autres...<br />

14/29


Situer SPPAS... parmi les outils <strong>de</strong><br />

segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Informaticiens<br />

Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Automatiques<br />

Outils libres :<br />

- Julius<br />

- sphinx<br />

- HTK<br />

- ...<br />

Outils « maison »...<br />

Brigitte Bigi – 03/06/2012<br />

SPPAS<br />

Linguistes<br />

Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />

Annotations<br />

Manuelles<br />

Outils libres :<br />

- Praat<br />

+ plugins praat<br />

- wavsurfer<br />

...<br />

Autres...<br />

15/29


Que fait SPPAS (en juin 2012) ?<br />

Annotations automatiques :<br />

Momel <strong>et</strong> INTSINT (Modélisation <strong>de</strong> <strong>la</strong> mélodie)<br />

<strong>Segmentation</strong> en unités inter-pausales<br />

Phonétisation<br />

Alignement (segmentation en phonèmes <strong>et</strong> mots)<br />

Syl<strong>la</strong>bation<br />

Goodies:<br />

Wav, TextGrid, PitchTier information<br />

wav p<strong>la</strong>yer<br />

Brigitte Bigi – 03/06/2012<br />

16/29


Un outil <strong>de</strong>stiné à <strong>la</strong> fois<br />

Brigitte Bigi – 03/06/2012<br />

Points forts<br />

● aux informaticiens <strong>et</strong> aux linguistes<br />

Des algorithmes indépendants <strong>de</strong> <strong>la</strong> <strong>la</strong>ngue<br />

Des ressources pour traiter le français, l'ang<strong>la</strong>is,<br />

l'italien <strong>et</strong> le chinois<br />

Une architecture simple qui perm<strong>et</strong> d'ajouter/modifier<br />

les ressources linguistiques<br />

GNU Public License<br />

17/29


Brigitte Bigi – 03/06/2012<br />

Capture d'écran<br />

18/29


<strong>Segmentation</strong> en unités inter-pausales<br />

L'algorithme recherche<br />

les paramètres suivants :<br />

● Seuil <strong>de</strong> volume<br />

● Durée min silence<br />

● Durée min unités <strong>de</strong><br />

<strong>parole</strong><br />

Brigitte Bigi – 03/06/2012<br />

19/29


Exemple <strong>de</strong> segmentation en IPUs<br />

Transcription :<br />

silences indiqués par <strong>de</strong>s saut <strong>de</strong> ligne <strong>et</strong>/ou les symboles '#'<br />

Brigitte Bigi – 03/06/2012<br />

20/29


Représenter <strong>la</strong> transcription<br />

sous <strong>la</strong> forme <strong>de</strong> symboles<br />

SPPAS n'utilise que le<br />

dictionnaire.<br />

En cas <strong>de</strong> variantes,<br />

aucune sélection : les<br />

variantes sont agrégées.<br />

Brigitte Bigi – 03/06/2012<br />

Phonétisation<br />

21/29


Ressource :<br />

un dictionnaire<br />

Exemple <strong>de</strong> phonétisation<br />

Brigitte Bigi – 03/06/2012<br />

22/29


<strong>Segmentation</strong> du signal<br />

audio en phonèmes<br />

SPPAS utilise Julius<br />

Brigitte Bigi – 03/06/2012<br />

Alignement<br />

L'alignment est effectué en 2 étapes :<br />

1. Phonétisation : choix <strong>de</strong>s variantes<br />

2. <strong>Segmentation</strong>.<br />

23/29


Ressource :<br />

un modèle acoustique<br />

Exemple d'alignement<br />

Brigitte Bigi – 03/06/2012<br />

24/29


Brigitte Bigi – 03/06/2012<br />

Syl<strong>la</strong>bation<br />

Un système à base <strong>de</strong> règles<br />

pour grouper les phonèmes<br />

alignés<br />

La syl<strong>la</strong>bation repose sur 2<br />

principes fondamentaux :<br />

une syl<strong>la</strong>be contient une<br />

voyelle, <strong>et</strong> une seule ;<br />

une pause est une<br />

frontière <strong>de</strong> syl<strong>la</strong>be.<br />

Les phonèmes sont groupés<br />

en c<strong>la</strong>sses, sur lesquelles<br />

s'appliquent les règles V C C V<br />

25/29


SPPAS : exemple <strong>de</strong> segmentation<br />

Brigitte Bigi – 03/06/2012<br />

26/29


Dictionnaire :<br />

Numbre<br />

d'entrées<br />

Modèle<br />

Acoustique :<br />

Type<br />

Données d'app.<br />

Brigitte Bigi – 03/06/2012<br />

Ressources<br />

FR IT ZH EN<br />

350k mots<br />

<strong>et</strong><br />

300k variantes<br />

Triphones<br />

-<br />

7h30 CID<br />

+30min lu<br />

390k mots<br />

<strong>et</strong><br />

5k variantes<br />

Triphones<br />

-<br />

3h30 maptask<br />

88k mots<br />

(350 syl<strong>la</strong>bes)<br />

Monophones<br />

-<br />

50min lu<br />

121k mots<br />

<strong>et</strong><br />

10k variantes<br />

Triphones<br />

-<br />

voxforge.org<br />

Forge SLDR Evalita 2011<br />

Dictionnaire du CMU<br />

27/29


Quelques aspects techniques...<br />

L'encodage <strong>de</strong> <strong>la</strong> transcription doit être le même<br />

que celui du dictionnaire :<br />

● UTF-8 pour FR, ZH <strong>et</strong> IT<br />

● us-ascii pour EN.<br />

La transcription <strong>et</strong> le fichier audio doivent avoir<br />

exactement le même nom (exception faite <strong>de</strong><br />

l'extension)<br />

Brigitte Bigi – 03/06/2012<br />

28/29


Brigitte Bigi – 03/06/2012<br />

Conclusions<br />

SPPAS peut réaliser <strong>de</strong>s alignements texte/son <strong>de</strong><br />

façon simple <strong>et</strong> ergonomique<br />

SPPAS est en cours <strong>de</strong> développement...<br />

● Vos suggestions sont les bienvenues<br />

URL: http://www.lpl-aix.fr/~bigi/sppas/<br />

29/29

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!