20.04.2014 Views

Desarrollo de Soluciones Cliente-Servidor para la Verificación ...

Desarrollo de Soluciones Cliente-Servidor para la Verificación ...

Desarrollo de Soluciones Cliente-Servidor para la Verificación ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.5. <strong>Desarrollo</strong> <strong>de</strong> Módulos <strong>de</strong> Reconocimiento Biométrico según <strong>la</strong> Especificación<br />

BioAPI 79<br />

nominado BWAVoiceBSP. El reconocedor <strong>de</strong> locutor en una primera etapa transforma<br />

<strong>la</strong> voz a un dominio a<strong>de</strong>cuado don<strong>de</strong> <strong>la</strong> i<strong>de</strong>ntidad <strong>de</strong> los locutores pueda ser diferenciada.<br />

Este proceso se <strong>de</strong>nomina <strong>para</strong>metrización <strong>de</strong> voz. Los vectores <strong>de</strong> parámetros<br />

utilizados por el reconocedor <strong>de</strong> locutor son 12 Mel Frequency Cepstral Coefficients<br />

(MFCC) [Davis y Mermelstein, 1980], añadiendo a<strong>de</strong>más <strong>la</strong> energía logarítmica. A este<br />

vector se le aña<strong>de</strong>n a<strong>de</strong>más sus primeras y segundas diferencias temporales, <strong>de</strong>nominadas<br />

popu<strong>la</strong>rmente ∆ y ∆∆, obteniendo finalmente vectores <strong>de</strong> dimensión 39. En cuanto al<br />

proceso <strong>para</strong> su obtención, se pue<strong>de</strong> resumir en los siguientes pasos:<br />

1. Preénfasis La señal acústica se filtra linealmente <strong>para</strong> realzar <strong>la</strong>s altas frecuencias,<br />

que tienen menores energías en señales <strong>de</strong> voz.<br />

2. Enventanado La señal acústica es dividida en fragmentos <strong>de</strong> igual longitud según<br />

una ventana Hamming [Nuttall, 1981]. Cada una <strong>de</strong> estas ventanas se trata a partir<br />

<strong>de</strong> aquí in<strong>de</strong>pendientemente.<br />

3. Cálculo <strong>de</strong> <strong>la</strong> potencia espectral Se obtiene <strong>la</strong> Fast Fourier Transform (FFT) <strong>de</strong> <strong>la</strong><br />

señal enventanada, y se calcu<strong>la</strong> <strong>la</strong> potencia espectral como el cuadrado <strong>de</strong>l módulo<br />

<strong>de</strong> esta señal transformada.<br />

4. Esca<strong>la</strong>do Mel Se transforma el eje <strong>de</strong> frecuencia a <strong>la</strong> esca<strong>la</strong> psicoacústica Mel.<br />

5. Cálculo <strong>de</strong>l Cepstrum Se calcu<strong>la</strong> el logaritmo <strong>de</strong> <strong>la</strong> potencia espectral en esca<strong>la</strong> Mel,<br />

y a esta señal se le aplica <strong>la</strong> transformada <strong>de</strong> coseno, obteniendo los coeficientes<br />

MFCC.<br />

6. Adición <strong>de</strong> diferencias y energía<br />

De los vectores así obtenidos, se eliminan los que no correspondan con segmentos <strong>de</strong><br />

voz. Para ello se utiliza un <strong>de</strong>tector <strong>de</strong> actividad <strong>de</strong> voz.<br />

Una vez <strong>la</strong> voz está transformada <strong>de</strong> esta forma, se aplica el <strong>para</strong>digma <strong>de</strong> reconocimiento<br />

GMM-UBM (<strong>de</strong>l inglés Gaussian Mixture Mo<strong>de</strong>ls-Universal Background Mo<strong>de</strong>l)<br />

[Reynolds y otros, 2000] <strong>para</strong> realizar el reconocimiento <strong>de</strong> locutor. En este tipo <strong>de</strong><br />

reconocedores <strong>de</strong> locutor <strong>la</strong> voz se mo<strong>de</strong><strong>la</strong> estadísticamente mediante mezc<strong>la</strong>s <strong>de</strong> gausianas<br />

Λ, cuya expresión matemática se muestra a continuación:<br />

p (x | Λ) =<br />

M∑<br />

i=1<br />

ω Λ,i<br />

exp ( − 1 2 (x − µ Λ,i) t Σ Λ,i −1 (x − µ Λ,i ) )<br />

(2π) N/2 |Σ Λ,i | 1/2 (4.3)<br />

Según este esquema, <strong>la</strong> verificación <strong>de</strong> locutor se realiza mediante el siguiente contraste<br />

<strong>de</strong> hipótesis:<br />

{<br />

H0 : <strong>la</strong> voz pertenece al locutor u<br />

H 1 : <strong>la</strong> voz pertenece a algún otro locutor,<br />

don<strong>de</strong> <strong>la</strong> hipótesis H 0 está representada por el GMM <strong>de</strong>l usuario u: Λ u ; y <strong>la</strong> hipótesis<br />

alternativa H 1 está representada por el UBM: Λ UBM . Este contraste <strong>de</strong> hipótesis permite

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!