17.01.2015 Views

Traitement du signal pour la reconnaissance ... - Université Paris 8

Traitement du signal pour la reconnaissance ... - Université Paris 8

Traitement du signal pour la reconnaissance ... - Université Paris 8

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Traitement</strong> <strong>du</strong> <strong>signal</strong> <strong>pour</strong><br />

<strong>la</strong> <strong>reconnaissance</strong> vocale<br />

Cours 5: <strong>Traitement</strong> <strong>du</strong> <strong>signal</strong> et<br />

<strong>reconnaissance</strong> de forme


Chaîne de Reconnaissance vocale<br />

Acquisition<br />

microphone<br />

Numérisation<br />

<strong>du</strong> <strong>signal</strong><br />

Pré-traitement<br />

Tests et<br />

validation<br />

C<strong>la</strong>ssification<br />

et décision<br />

Extraction de<br />

paramètres<br />

Dictionnaire


P<strong>la</strong>n<br />

Numérisation <strong>du</strong> <strong>signal</strong><br />

Fourier<br />

Reconnaissance de <strong>la</strong> parole<br />

Conclusion


P<strong>la</strong>n<br />

Numérisation <strong>du</strong> <strong>signal</strong><br />

Fourier<br />

Reconnaissance de <strong>la</strong> parole<br />

Conclusion


Signal <br />

Définition: codage et simplification d’un<br />

message. un <strong>signal</strong> 1D est une fonction en<br />

général <strong>du</strong> temps s(t) signaux lumineux,<br />

sonores, etc… ou spatial (2D, 3D images)<br />

A chaque instant t, on associe une valeur<br />

(amplitude).<br />

Le traitement, l’analyse, et l’interprétation des<br />

signaux sont regroupés dans <strong>la</strong> discipline<br />

appelée traitement <strong>du</strong> <strong>signal</strong>.


Différents secteurs et différentes<br />

branches<br />

Les signaux sont présents dans<br />

différents secteurs (électronique,<br />

optique, audiovisuels, informatiques…).<br />

Quelques branches particulières qui<br />

nous intéressent .<br />

- traitement d’image (déjà vu)<br />

- traitement de <strong>la</strong> parole


Signaux<br />

Signaux analogiques: signaux pro<strong>du</strong>its de<br />

manière naturelle, continus (capteurs,<br />

amplificateurs, CNA)<br />

traitement réalisé par circuits<br />

électroniques, (ou manuellement)<br />

Signaux numériques: signaux utilisés dans le<br />

traitement informatique, discrets, facilité et<br />

rapidité de traitement. Ils sont artificiels<br />

traitement réalisé par micro-ordinateurs,<br />

DSP (microprocesseurs spécialisés)


Problème en <strong>reconnaissance</strong> de<br />

parole<br />

Acquisition<br />

microphone<br />

Signal analogique<br />

<strong>Traitement</strong><br />

de <strong>la</strong> parole<br />

Signal numérique<br />

Conversion analogique –numérique (CAN)


Exemple<br />

Signal analogique U(t)<br />

<strong>signal</strong> continu<br />

(représentation par<br />

une courbe)<br />

Signal numérique U t <br />

valeurs non continues<br />

(représentation par un<br />

histogramme)


Conversion analogiquenumérique<br />

(1)<br />

La conversion analogique- numérique se<br />

décompose en général en deux actions:<br />

- l’échantillonnage (on prélève <strong>la</strong> valeur<br />

<strong>du</strong> <strong>signal</strong> à une fréquence définie)<br />

- <strong>la</strong> quantification (on affecte une valeur<br />

numérique à chaque échantillon prélevé)


Qualité de <strong>la</strong> CAN<br />

La qualité <strong>du</strong> <strong>signal</strong> numérique dépend<br />

donc:<br />

- Taux d’échantillonnage (ou fréquence<br />

d’échantillonnage) plus <strong>la</strong> fréquence est<br />

grande, plus <strong>la</strong> qualité <strong>du</strong> <strong>signal</strong><br />

numérique est bonne.<br />

- le nombre de bits sur lequel on code<br />

les valeurs (phase de quantification)


Echantillonnage<br />

Qui dit échantillonnage dit perte d’information.<br />

Si fréquence très faible espace très grand entre<br />

deux données grosse perte d’informations<br />

Si fréquence trop grande information stockée<br />

inutile gaspil<strong>la</strong>ge de l’espace de stockage<br />

Fréquence d‘échantillonnage: fréquence à <strong>la</strong>quelle<br />

les données sont enregistrées ou capturées (Hz <br />

nombre de valeurs par seconde).


Théorème de Shannon –<br />

fréquence de Nyquist<br />

Pour pouvoir échantillonner un <strong>signal</strong>, il<br />

faut fixer une fréquence d’échantillonnage<br />

au moins égal au double de <strong>la</strong> fréquence<br />

<strong>du</strong> <strong>signal</strong> fréquence limite = fréquence<br />

de Nyquist (théorème de Shannon)<br />

Signal sinusoïdal fréquence <strong>du</strong> <strong>signal</strong>:<br />

pas de problème


Exemple: <strong>signal</strong> sinusoïdal<br />

T<br />

Signal analogique (f = 10 Hz)<br />

échantillonnage à 20Hz (=2f) <br />

cas parfait si on part <strong>du</strong> maximum<br />

Sous échantillonnage à 10Hz


Signal périodique non sinusoïdal<br />

On applique le théorème de shannon<br />

mais quelle fréquence choisir <br />

Signal peut être décomposé en signaux<br />

sinusoïdaux dont <strong>la</strong> fréquence est le<br />

multiple d’une fréquence fondamentale<br />

(<strong>la</strong>rgeur de bande)<br />

Fréquence de Nyquist = 2*plus haute<br />

fréquence


Phénomène d’aliasing<br />

Sous-échantillonnage (restitution d’un<br />

faux <strong>signal</strong>) phénomène d’Aliasing<br />

(ou de repliement)


Quantification (1)<br />

Chaque valeur est quantifiée sur un<br />

certain nombre de bits par rapport à <strong>la</strong><br />

valeur réelle <strong>du</strong> <strong>signal</strong> analogique.<br />

Nombre de bits disponibles est<br />

important <strong>pour</strong> quantifier <strong>la</strong> valeur <strong>du</strong><br />

<strong>signal</strong> à un temps t. Plus le nombre est<br />

élevé, plus <strong>la</strong> quantification est de<br />

qualité


Quantification (2)<br />

Quantification<br />

- sur 1 bit (2 valeurs)<br />

- sur 8 bits = 1 octet (256 valeurs)<br />

- sur 16 bits = 2 16 valeurs<br />

les quantifications se font en général<br />

sur 16 bits


P<strong>la</strong>n<br />

Numérisation <strong>du</strong> <strong>signal</strong><br />

Fourier<br />

Reconnaissance de <strong>la</strong> parole<br />

Conclusion


Fourier <br />

Joseph Fourier (mathématicien <strong>du</strong><br />

XIXème sicèle)<br />

Séries de Fourier (par extension,<br />

transformée de Fourier et transformée<br />

de Fourier discrète) base de toute <strong>la</strong><br />

théorie de traitement <strong>du</strong> <strong>signal</strong>


De façon mathématique<br />

Signal périodique (période T) = somme<br />

pondérée de signaux sinusoïdaux<br />

f<br />

( t)<br />

=<br />

∞ <br />

n=<br />

0<br />

[ a<br />

n<br />

cos<br />

2πnt<br />

T<br />

+<br />

b<br />

n<br />

sin<br />

2πnt<br />

T<br />

]<br />

1/T : fréquence fondamentale (on utilise souvent =2/T)<br />

n/T: harmonique<br />

a n et b n coefficients pondérateurs de Fourier


Exemples (1)<br />

Somme pondérée de deux signaux de<br />

fréquence f et 3f (H3) <strong>signal</strong><br />

résultant (b): addition point par point<br />

des deux courbes de (a).


Exemples (2)<br />

Meilleure approximation<br />

d’un Signal carré f(t):<br />

décomposition de <strong>la</strong><br />

façons suivante<br />

f<br />

1<br />

1<br />

1<br />

( t)<br />

= sin( ϖ t)<br />

+ 0cos(2ϖt<br />

) + sin(3ϖ<br />

t)<br />

+ 0cos(4ϖt<br />

) + sin(5ϖ<br />

t)<br />

+ ... + sin(23ϖ<br />

t)<br />

3<br />

5<br />

23


Analyse spectrale (1)<br />

Représentation des amplitudes des<br />

différentes harmoniques (n=1,3,5,7…23)<br />

d’un <strong>signal</strong> analyse spectrale.


Analyse spectrale (2)<br />

Note de musique: harmoniques différentes <strong>pour</strong> le son <strong>du</strong><br />

diapason (La pur) , son d’une guitare, son de cymbale.


Remarque (1)<br />

Etant donné que les séries de Fourier sont<br />

une décomposition en cosinus et sinus, on<br />

utilise souvent <strong>la</strong> notation complexe:<br />

2π<br />

int<br />

f ( t)<br />

= Fn<br />

exp( )<br />

T<br />

∞<br />

<br />

n=<br />

−∞<br />

Avec F n =(a n +ib n )/2 et F -n =(a n -ib n )/2


Remarque (2)<br />

A partir de l’équation précédente, les<br />

coefficients de Fourier se calculent de <strong>la</strong><br />

façon suivante:<br />

T<br />

1<br />

2π<br />

int<br />

Fn = f ( t)exp(<br />

− ) dt<br />

T<br />

T<br />

−T<br />

/ 2<br />

/ 2<br />

Le nombre de descripteurs de Fourier calculés ainsi est en<br />

théorie infini


Interprétation<br />

Plus n est grand, plus les fonctions sinusoïdales<br />

varient rapidement.<br />

une fonction lisse (c.a.d qui ne varient pas<br />

beaucoup) aura des coefficients a n et b n qui<br />

prendront rapidement (hautes fréquences) des<br />

valeurs faibles<br />

une fonction très perturbée et très changeante<br />

(ou bruitée) auront des composantes importantes<br />

dans les hautes fréquences.


Transformée de Fourier (1)<br />

Souvent fonctions non périodiques et non<br />

bornées , <strong>la</strong> transformée de Fourier permet de<br />

généraliser le concept de séries de Fourier à ce<br />

type de fonction:<br />

F<br />

( υ<br />

π υ<br />

) = f(<br />

t)exp(<br />

−2<br />

i t)<br />

dt<br />

∞<br />

−∞<br />

On peut noter le changement de variable = n/T, ce qui<br />

explique <strong>la</strong> disparition <strong>du</strong> facteur 1/T avant <strong>la</strong> somme.


Interprétation<br />

De façon peu rigoureuse, on <strong>pour</strong>rait<br />

considérer un <strong>signal</strong> analogique non<br />

périodique comme un <strong>signal</strong> dont <strong>la</strong><br />

période tendrait vers l’infini, <strong>la</strong><br />

fréquence tendrait alors vers 0 (dν)<br />

et on obtient un spectre de Fourier<br />

continu appelé spectre de bande (et<br />

non un spectre de raies):


Exemple de spectre de bande


Vers <strong>la</strong> transformée de Fourier<br />

discrète<br />

En pratique, <strong>signal</strong> non borné: très rare !<br />

on définit une fenêtre d’application [-T/2,T/2]<br />

Échantillonnage à une fréquence f telle que T=K/f<br />

F<br />

n<br />

=<br />

( / 2) − 1<br />

1 K <br />

k =−K<br />

/ 2<br />

K<br />

f<br />

K<br />

exp( −<br />

2πink<br />

K<br />

)


Remarque<br />

Le <strong>signal</strong> numérique est décomposé en K<br />

segments. Le nombre total de coefficients<br />

de Fourier sera K.<br />

En traitement de <strong>signal</strong>, on utilise <strong>la</strong> FFT<br />

(Fast Fourier Transform) qui, sous certaines<br />

conditions, permet d’accélérer le calcul


Pour en revenir à<br />

l’échantillonnage<br />

On fait un échantillonnage à très haute<br />

fréquence f e<br />

Toutes les fréquences supérieures à f e /2<br />

sont éliminées: filtre anti-aliasing<br />

Exemple: Pour un CD (fréquence 44,1<br />

kHz), il ne faut pas de sons supérieurs à<br />

22 kHz (L’oreille humaine capte au<br />

maximum à 20 kHz) .


Exemple de FFT et théorème de<br />

Shannon<br />

Spectre de bande, coupure à f e /2


P<strong>la</strong>n<br />

Numérisation <strong>du</strong> <strong>signal</strong><br />

Fourier<br />

Reconnaissance de <strong>la</strong> parole<br />

Conclusion


La <strong>reconnaissance</strong> vocale<br />

Applications de <strong>la</strong> <strong>reconnaissance</strong> vocale:<br />

- commande vocale: mots isolés, petit vocabu<strong>la</strong>ire.<br />

- compréhension: signification d’un petit message<br />

en parole continue<br />

- dictée: retranscription <strong>du</strong> texte sans<br />

compréhension<br />

- Identification ou vérification <strong>du</strong> locuteur


Comment ça marche<br />

Même méthodologie que <strong>reconnaissance</strong><br />

de forme:<br />

- Pré-traitement<br />

- Segmentation<br />

- Extraction de caractéristiques<br />

- C<strong>la</strong>ssification<br />

- Décision


Mais….<br />

Continuité: difficulté de séparer les mots ou les<br />

phonèmes dans un <strong>signal</strong> (les silences ne<br />

remp<strong>la</strong>cent pas les b<strong>la</strong>ncs)<br />

Variabilité (effets plus importants que sur document<br />

visuel):<br />

- plusieurs locuteurs (timbre de voix, âge)<br />

- <strong>pour</strong> un même locuteur (émotions, voix enrouée,<br />

chants..)<br />

- rythme de <strong>la</strong> dictée (temps plus ou moins long<br />

<strong>pour</strong> dire <strong>la</strong> même chose)<br />

- bruit extérieur


Deux approches<br />

Approche globale: <strong>reconnaissance</strong> de<br />

mots. Plus facile mais limité par le<br />

vocabu<strong>la</strong>ire, <strong>la</strong> taille mémoire et le<br />

temps de calcul.<br />

Approche analytique: <strong>reconnaissance</strong><br />

de phonèmes, de sons, plus difficile à<br />

mettre en p<strong>la</strong>ce mais plus puissant


Pré-traitement <strong>du</strong> <strong>signal</strong><br />

Signal parlé: onde non stationnaire (pas<br />

les mêmes caractéristiques statistiques<br />

au cours <strong>du</strong> temps.<br />

On découpe le <strong>signal</strong> en fenêtre<br />

temporelle (quelques ms)<br />

On analyse chaque fenêtre temporelle


Exemple


Segmentation (en mots ou<br />

phonèmes)<br />

Les mots sont marqués par des silences plus<br />

ou moins longs<br />

Reconnaissance de mots isolés: facile<br />

Reconnaissance de mots dans une parole<br />

continue: bien articuler et distinguer les mots<br />

Reconnaissance de phonèmes: très difficile<br />

(changement de rythmes, rupture en<br />

fréquence…)


Extraction de l’empreinte <strong>du</strong><br />

<strong>signal</strong><br />

Identifier une empreinte caractéristique<br />

<strong>du</strong> son émis<br />

- analyse spectrale<br />

- analyse par prédiction linéaire<br />

- analyse par coefficients cepstraux


Analyse spectrale<br />

Au cours <strong>du</strong> temps (par fenêtre temporelle),<br />

on fait une FFT<br />

On peut tracer un graphique<br />

temps/fréquence/ amplitude Sonagramme.<br />

L’amplitude est donnée par les niveaux de<br />

gris<br />

Les coefficients de Fourier par fenêtre<br />

temporelle sont des caractéristiques <strong>du</strong> <strong>signal</strong>


Analyse par prédiction linéaire<br />

Approximation <strong>du</strong> <strong>signal</strong> par un modèle suivant les<br />

échantillons précédents<br />

Le <strong>signal</strong> est alors modélisé par une combinaison<br />

linéaire pondérée des échantillons précédents.<br />

s<br />

n<br />

= a s<br />

...<br />

1<br />

n− 1<br />

+ a2sn−2<br />

+ +<br />

a<br />

p<br />

s<br />

n−<br />

p<br />

Les différents coefficients servent de caractéristiques


Analyse par cepstres<br />

Cepstre: passage <strong>du</strong> domaine temporel à<br />

un autre domaine temporel<br />

Pour un <strong>signal</strong> x(t), on obtient les<br />

coefficients cepstraux exprimés en<br />

quéfrences par:<br />

−1<br />

c( T ) = F (log10<br />

( F(<br />

x(<br />

t)))<br />

Les coefficients cepstraux sont des caractéristiques <strong>du</strong> <strong>signal</strong>.


Mesure de ressemb<strong>la</strong>nce<br />

Calculer <strong>la</strong> ressemb<strong>la</strong>nce entre un mot<br />

(ou un phonème) et les mots ou les<br />

phonèmes d’un dictionnaire<br />

Critères statistiques (ou euclidiens) déjà<br />

vus en <strong>reconnaissance</strong> de forme


Mais…<br />

Si un locuteur prononce deux fois le<br />

même mot. Il y aura des différences de<br />

rythme (temps).<br />

Comparaison dynamique (DTW:<br />

dynamic Time Warping)


La DTW<br />

Création d’une fonction qui met en<br />

correspondance les évolutions<br />

temporelles.<br />

Problème, le réajustement est souvent<br />

long.<br />

La DTW est très utilisée <strong>pour</strong> <strong>la</strong><br />

<strong>reconnaissance</strong> de mots isolés


Modèles statistiques<br />

Type Bayes: Probabilité d’appartenance<br />

à un c<strong>la</strong>sse.<br />

Très bien <strong>pour</strong> les mots isolés ou les<br />

phrases très simples<br />

Problème: le modèle statistique<br />

bayésien n’est pas assez puissant.


Exemple<br />

Reconnaissance de phonèmes:<br />

Phonème<br />

Extraction de<br />

caractéristiques<br />

Identification <strong>du</strong><br />

phonème<br />

(problème de<br />

coarticu<strong>la</strong>tion)<br />

Identification <strong>du</strong> phonème à<br />

l’intérieur d’un mot: comparaison<br />

avec d’autres mots


HMM et Réseaux de neurones<br />

Chaines de Markov Cachées (HMM):<br />

méthode statistique très é<strong>la</strong>borée <br />

très utilisées car permet de mettre en<br />

correspondance le phonème identifié et<br />

le <strong>la</strong>ngage proprement dit.<br />

Méthodes neuronales: moins utilisées<br />

en <strong>reconnaissance</strong> de forme mais petit<br />

à petit on y vient.


Système mono et multi-locuteurs<br />

Caractéristiques <strong>du</strong> <strong>signal</strong> très liées au locuteur.<br />

- Développement de systèmes monolocuteur, une<br />

personne fait un apprentissage et fournit ainsi son<br />

empreinte vocale fort taux de <strong>reconnaissance</strong>,<br />

limité à une personne<br />

- Développement de systèmes multi-locuteurs, on<br />

moyenne l’empreinte vocale de tout le monde taux<br />

de <strong>reconnaissance</strong> plus faible


Différences globales/analytiques<br />

Taille <strong>du</strong> vocabu<strong>la</strong>ire<br />

(>1000)<br />

Apprentissage<br />

cout<br />

Mutlilocuteur<br />

Mots isolés<br />

dictée<br />

Globale<br />

-<br />

+ (qq mots)/ - (grand<br />

mot)<br />

++<br />

+/-<br />

+++<br />

-<br />

analytique<br />

+<br />

+<br />

-<br />

+<br />

-<br />

++


Conclusion traitement <strong>du</strong> <strong>signal</strong><br />

<strong>Traitement</strong> numérique <strong>du</strong> <strong>signal</strong>:<br />

Analyse de Fourier et notions de filtrage<br />

sont les bases.<br />

Murat Kunt « Techniques Modernes de<br />

<strong>Traitement</strong> numérique des Signaux »,<br />

Presse Polytechniques et Universitaires<br />

Romandes, Lausanne, 1991.


Conclusion et Avenir de <strong>la</strong><br />

<strong>reconnaissance</strong> de parole<br />

Principe simi<strong>la</strong>ire à <strong>la</strong> <strong>reconnaissance</strong><br />

de forme<br />

Les méthodes de <strong>reconnaissance</strong> de<br />

parole sont encore loin d‘être optimales<br />

malgré l’apport des HMM<br />

Problèmes de segmentation, de<br />

<strong>reconnaissance</strong> de phonème, de bruit,<br />

d’usage multi locuteurs


ibliographie<br />

<strong>Traitement</strong> de <strong>la</strong> parole:<br />

http://r.battault.free.fr/probatoire/probatoire.html<br />

http://www.vieartificielle.com/index.phpaction=article&id=191<br />

Mariani J. (: Reconnaissance de <strong>la</strong> parole : <strong>Traitement</strong><br />

automatique <strong>du</strong> <strong>la</strong>ngage parlé, Lavoisier<br />

Boîte R., Bour<strong>la</strong>rd H., Dutoit H., Hancq J., Leich H.; <strong>Traitement</strong> de<br />

<strong>la</strong> parole, Presse Polytechnique Universitaires Romandes, 1999.<br />

Chaines de Markov<br />

http://r.battault.free.fr/probatoire/probatoire.html<br />

Frederick Jelinek Statistical Methods for Speech Recognition MIT Press,<br />

1998.


Bibliographie (2)<br />

Réseaux de neurones<br />

Jodouin J.F (1994) les réseaux de neurones: principe et définition. Hermès,<br />

<strong>Paris</strong>, France<br />

Renders J.M. (1995) Algorithmes génétiques et réseaux de neurones. Hermès,<br />

<strong>Paris</strong>, France<br />

http://www.umoncton.ca/sciences/informatique/maia/in4413/projets/<strong>la</strong>ndry/histor<br />

ique.html<br />

Statistiques<br />

Dodge Y. (1993) Statistique. Dictionnaire encyclopédique. Dunod, <strong>Paris</strong>,<br />

France<br />

Saporta G. (1990) Probabilités, analyse des données et statistique.<br />

Editio<br />

SCHERRER B. (1984) - Biostatistique - Gaëtan Morin (ed.), C.P. 965,<br />

Chicoutimi, Québec, Canada.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!