Segmentation de la parole : méthode et logiciel
Segmentation de la parole : méthode et logiciel
Segmentation de la parole : méthode et logiciel
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Segmentation</strong> <strong>de</strong> <strong>la</strong> <strong>parole</strong> :<br />
métho<strong>de</strong> <strong>et</strong> <strong>logiciel</strong><br />
Brigitte Bigi – 03/06/2012<br />
Brigitte Bigi<br />
1/29
Segmenter <strong>de</strong> <strong>la</strong> <strong>parole</strong> : métho<strong>de</strong><br />
Brigitte Bigi – 03/06/2012<br />
2/29
Brigitte Bigi – 03/06/2012<br />
Introduction<br />
Définir une unité segmentale <strong>de</strong> référence<br />
Apprendre un modèle<br />
Déco<strong>de</strong>r/Segmenter un signal avec ce modèle<br />
3/29
Unité représentée dans le modèle<br />
Limitée par :<br />
● <strong>la</strong> variabilité du phénomène<br />
● les quantités <strong>de</strong> données que l'on peut<br />
recueillir<br />
● <strong>la</strong> puissance <strong>de</strong> calcul <strong>de</strong>s systèmes<br />
Segmenter en mots ?<br />
● C<strong>la</strong>irement : non !<br />
Brigitte Bigi – 03/06/2012<br />
4/29
Brigitte Bigi – 03/06/2012<br />
Variabilité...<br />
Prononciation « standard » ou « canonique »<br />
Prononciation mise en contexte<br />
Style <strong>de</strong> <strong>parole</strong><br />
Locuteur (genre, âge, milieu social...)<br />
Paramètres acoustiques<br />
Réductions, assimi<strong>la</strong>tions, <strong>et</strong>c...<br />
5/29
Unité segmentale : phonème<br />
"Le phonème est une unité linguistique abstraite.<br />
C’est <strong>la</strong> plus p<strong>et</strong>ite unité distinctive <strong>de</strong> <strong>la</strong> <strong>la</strong>ngue :<br />
<strong>la</strong> permutation entre 2 phonèmes entraîne une<br />
différence <strong>de</strong> sens."<br />
/m/ <strong>et</strong> /s/ sont <strong>de</strong>ux phonèmes différents car il<br />
distinguent le mot "matin" du mot "satin"<br />
/e/ <strong>et</strong> /a/ sont <strong>de</strong>ux phonèmes différents car ils<br />
distinguent le mot "belle" du mot "balle".<br />
Plusieurs heures <strong>de</strong> <strong>parole</strong>s sont nécessaires pour<br />
apprendre un modèle<br />
Mise en contexte : modèles triphones pour<br />
apprendre les contextes gauche <strong>et</strong> droits<br />
Brigitte Bigi – 03/06/2012<br />
6/29
Brigitte Bigi – 03/06/2012<br />
Modèles<br />
Les modèles actuels sont <strong>de</strong>s distributions <strong>de</strong><br />
probabilités, apprises à partir d'exemples<br />
Le modèle est le « refl<strong>et</strong> » <strong>de</strong> ce qui est observé<br />
Appris à partir <strong>de</strong> vecteurs <strong>de</strong> paramètres extraits<br />
du signal<br />
Utilise <strong>la</strong> fréquence d'échantillonnage (en Hz)<br />
Extraction <strong>de</strong>s valeur d'énergie sur une échelle<br />
log-linéaire (plus <strong>de</strong> valeurs les fréquences<br />
basses)<br />
HMM<br />
7/29
Segmenter en phonèmes / mots<br />
je suis<br />
j @ S H i<br />
Brigitte Bigi – 03/06/2012<br />
Transcription<br />
Phonétisation<br />
je suis<br />
/ j @ S H i /<br />
/ j S H i /<br />
/ S H i /<br />
Alignement<br />
Dictionnaire<br />
Modèle<br />
Acoustique<br />
8/29
SPPAS : un outil « user-friendly »<br />
pour l'alignement texte/son<br />
Brigitte Bigi – 03/06/2012<br />
9/29
Situer SPPAS... parmi les outils <strong>de</strong><br />
segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Informaticiens Linguistes<br />
Brigitte Bigi – 03/06/2012<br />
10/29
Situer SPPAS... parmi les outils <strong>de</strong><br />
segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Informaticiens<br />
Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Brigitte Bigi – 03/06/2012<br />
Linguistes<br />
Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
11/29
Situer SPPAS... parmi les outils <strong>de</strong><br />
segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Informaticiens<br />
Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Automatiques<br />
Brigitte Bigi – 03/06/2012<br />
Linguistes<br />
Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Manuelles<br />
12/29
Situer SPPAS... parmi les outils <strong>de</strong><br />
segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Informaticiens<br />
Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Automatiques<br />
Outils libres :<br />
- Julius<br />
- sphinx<br />
- HTK<br />
- ...<br />
Outils « maison »...<br />
Brigitte Bigi – 03/06/2012<br />
Linguistes<br />
Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Manuelles<br />
Outils libres :<br />
- Praat<br />
+ plugins praat<br />
- wavsurfer<br />
...<br />
Autres...<br />
13/29
Situer SPPAS... parmi les outils <strong>de</strong><br />
segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Informaticiens<br />
Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Automatiques<br />
Outils libres :<br />
- Julius<br />
- sphinx<br />
- HTK<br />
- ...<br />
Outils « maison »...<br />
Brigitte Bigi – 03/06/2012<br />
SPPAS<br />
Linguistes<br />
Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Manuelles<br />
Outils libres :<br />
- Praat<br />
+ plugins praat<br />
- wavsurfer<br />
...<br />
Autres...<br />
14/29
Situer SPPAS... parmi les outils <strong>de</strong><br />
segmentation <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Informaticiens<br />
Technologies <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Automatiques<br />
Outils libres :<br />
- Julius<br />
- sphinx<br />
- HTK<br />
- ...<br />
Outils « maison »...<br />
Brigitte Bigi – 03/06/2012<br />
SPPAS<br />
Linguistes<br />
Analyses <strong>de</strong> <strong>la</strong> <strong>parole</strong><br />
Annotations<br />
Manuelles<br />
Outils libres :<br />
- Praat<br />
+ plugins praat<br />
- wavsurfer<br />
...<br />
Autres...<br />
15/29
Que fait SPPAS (en juin 2012) ?<br />
Annotations automatiques :<br />
Momel <strong>et</strong> INTSINT (Modélisation <strong>de</strong> <strong>la</strong> mélodie)<br />
<strong>Segmentation</strong> en unités inter-pausales<br />
Phonétisation<br />
Alignement (segmentation en phonèmes <strong>et</strong> mots)<br />
Syl<strong>la</strong>bation<br />
Goodies:<br />
Wav, TextGrid, PitchTier information<br />
wav p<strong>la</strong>yer<br />
Brigitte Bigi – 03/06/2012<br />
16/29
Un outil <strong>de</strong>stiné à <strong>la</strong> fois<br />
Brigitte Bigi – 03/06/2012<br />
Points forts<br />
● aux informaticiens <strong>et</strong> aux linguistes<br />
Des algorithmes indépendants <strong>de</strong> <strong>la</strong> <strong>la</strong>ngue<br />
Des ressources pour traiter le français, l'ang<strong>la</strong>is,<br />
l'italien <strong>et</strong> le chinois<br />
Une architecture simple qui perm<strong>et</strong> d'ajouter/modifier<br />
les ressources linguistiques<br />
GNU Public License<br />
17/29
Brigitte Bigi – 03/06/2012<br />
Capture d'écran<br />
18/29
<strong>Segmentation</strong> en unités inter-pausales<br />
L'algorithme recherche<br />
les paramètres suivants :<br />
● Seuil <strong>de</strong> volume<br />
● Durée min silence<br />
● Durée min unités <strong>de</strong><br />
<strong>parole</strong><br />
Brigitte Bigi – 03/06/2012<br />
19/29
Exemple <strong>de</strong> segmentation en IPUs<br />
Transcription :<br />
silences indiqués par <strong>de</strong>s saut <strong>de</strong> ligne <strong>et</strong>/ou les symboles '#'<br />
Brigitte Bigi – 03/06/2012<br />
20/29
Représenter <strong>la</strong> transcription<br />
sous <strong>la</strong> forme <strong>de</strong> symboles<br />
SPPAS n'utilise que le<br />
dictionnaire.<br />
En cas <strong>de</strong> variantes,<br />
aucune sélection : les<br />
variantes sont agrégées.<br />
Brigitte Bigi – 03/06/2012<br />
Phonétisation<br />
21/29
Ressource :<br />
un dictionnaire<br />
Exemple <strong>de</strong> phonétisation<br />
Brigitte Bigi – 03/06/2012<br />
22/29
<strong>Segmentation</strong> du signal<br />
audio en phonèmes<br />
SPPAS utilise Julius<br />
Brigitte Bigi – 03/06/2012<br />
Alignement<br />
L'alignment est effectué en 2 étapes :<br />
1. Phonétisation : choix <strong>de</strong>s variantes<br />
2. <strong>Segmentation</strong>.<br />
23/29
Ressource :<br />
un modèle acoustique<br />
Exemple d'alignement<br />
Brigitte Bigi – 03/06/2012<br />
24/29
Brigitte Bigi – 03/06/2012<br />
Syl<strong>la</strong>bation<br />
Un système à base <strong>de</strong> règles<br />
pour grouper les phonèmes<br />
alignés<br />
La syl<strong>la</strong>bation repose sur 2<br />
principes fondamentaux :<br />
une syl<strong>la</strong>be contient une<br />
voyelle, <strong>et</strong> une seule ;<br />
une pause est une<br />
frontière <strong>de</strong> syl<strong>la</strong>be.<br />
Les phonèmes sont groupés<br />
en c<strong>la</strong>sses, sur lesquelles<br />
s'appliquent les règles V C C V<br />
25/29
SPPAS : exemple <strong>de</strong> segmentation<br />
Brigitte Bigi – 03/06/2012<br />
26/29
Dictionnaire :<br />
Numbre<br />
d'entrées<br />
Modèle<br />
Acoustique :<br />
Type<br />
Données d'app.<br />
Brigitte Bigi – 03/06/2012<br />
Ressources<br />
FR IT ZH EN<br />
350k mots<br />
<strong>et</strong><br />
300k variantes<br />
Triphones<br />
-<br />
7h30 CID<br />
+30min lu<br />
390k mots<br />
<strong>et</strong><br />
5k variantes<br />
Triphones<br />
-<br />
3h30 maptask<br />
88k mots<br />
(350 syl<strong>la</strong>bes)<br />
Monophones<br />
-<br />
50min lu<br />
121k mots<br />
<strong>et</strong><br />
10k variantes<br />
Triphones<br />
-<br />
voxforge.org<br />
Forge SLDR Evalita 2011<br />
Dictionnaire du CMU<br />
27/29
Quelques aspects techniques...<br />
L'encodage <strong>de</strong> <strong>la</strong> transcription doit être le même<br />
que celui du dictionnaire :<br />
● UTF-8 pour FR, ZH <strong>et</strong> IT<br />
● us-ascii pour EN.<br />
La transcription <strong>et</strong> le fichier audio doivent avoir<br />
exactement le même nom (exception faite <strong>de</strong><br />
l'extension)<br />
Brigitte Bigi – 03/06/2012<br />
28/29
Brigitte Bigi – 03/06/2012<br />
Conclusions<br />
SPPAS peut réaliser <strong>de</strong>s alignements texte/son <strong>de</strong><br />
façon simple <strong>et</strong> ergonomique<br />
SPPAS est en cours <strong>de</strong> développement...<br />
● Vos suggestions sont les bienvenues<br />
URL: http://www.lpl-aix.fr/~bigi/sppas/<br />
29/29