Desarrollo de Soluciones Cliente-Servidor para la Verificación ...
Desarrollo de Soluciones Cliente-Servidor para la Verificación ...
Desarrollo de Soluciones Cliente-Servidor para la Verificación ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4.5. <strong>Desarrollo</strong> <strong>de</strong> Módulos <strong>de</strong> Reconocimiento Biométrico según <strong>la</strong> Especificación<br />
BioAPI 79<br />
nominado BWAVoiceBSP. El reconocedor <strong>de</strong> locutor en una primera etapa transforma<br />
<strong>la</strong> voz a un dominio a<strong>de</strong>cuado don<strong>de</strong> <strong>la</strong> i<strong>de</strong>ntidad <strong>de</strong> los locutores pueda ser diferenciada.<br />
Este proceso se <strong>de</strong>nomina <strong>para</strong>metrización <strong>de</strong> voz. Los vectores <strong>de</strong> parámetros<br />
utilizados por el reconocedor <strong>de</strong> locutor son 12 Mel Frequency Cepstral Coefficients<br />
(MFCC) [Davis y Mermelstein, 1980], añadiendo a<strong>de</strong>más <strong>la</strong> energía logarítmica. A este<br />
vector se le aña<strong>de</strong>n a<strong>de</strong>más sus primeras y segundas diferencias temporales, <strong>de</strong>nominadas<br />
popu<strong>la</strong>rmente ∆ y ∆∆, obteniendo finalmente vectores <strong>de</strong> dimensión 39. En cuanto al<br />
proceso <strong>para</strong> su obtención, se pue<strong>de</strong> resumir en los siguientes pasos:<br />
1. Preénfasis La señal acústica se filtra linealmente <strong>para</strong> realzar <strong>la</strong>s altas frecuencias,<br />
que tienen menores energías en señales <strong>de</strong> voz.<br />
2. Enventanado La señal acústica es dividida en fragmentos <strong>de</strong> igual longitud según<br />
una ventana Hamming [Nuttall, 1981]. Cada una <strong>de</strong> estas ventanas se trata a partir<br />
<strong>de</strong> aquí in<strong>de</strong>pendientemente.<br />
3. Cálculo <strong>de</strong> <strong>la</strong> potencia espectral Se obtiene <strong>la</strong> Fast Fourier Transform (FFT) <strong>de</strong> <strong>la</strong><br />
señal enventanada, y se calcu<strong>la</strong> <strong>la</strong> potencia espectral como el cuadrado <strong>de</strong>l módulo<br />
<strong>de</strong> esta señal transformada.<br />
4. Esca<strong>la</strong>do Mel Se transforma el eje <strong>de</strong> frecuencia a <strong>la</strong> esca<strong>la</strong> psicoacústica Mel.<br />
5. Cálculo <strong>de</strong>l Cepstrum Se calcu<strong>la</strong> el logaritmo <strong>de</strong> <strong>la</strong> potencia espectral en esca<strong>la</strong> Mel,<br />
y a esta señal se le aplica <strong>la</strong> transformada <strong>de</strong> coseno, obteniendo los coeficientes<br />
MFCC.<br />
6. Adición <strong>de</strong> diferencias y energía<br />
De los vectores así obtenidos, se eliminan los que no correspondan con segmentos <strong>de</strong><br />
voz. Para ello se utiliza un <strong>de</strong>tector <strong>de</strong> actividad <strong>de</strong> voz.<br />
Una vez <strong>la</strong> voz está transformada <strong>de</strong> esta forma, se aplica el <strong>para</strong>digma <strong>de</strong> reconocimiento<br />
GMM-UBM (<strong>de</strong>l inglés Gaussian Mixture Mo<strong>de</strong>ls-Universal Background Mo<strong>de</strong>l)<br />
[Reynolds y otros, 2000] <strong>para</strong> realizar el reconocimiento <strong>de</strong> locutor. En este tipo <strong>de</strong><br />
reconocedores <strong>de</strong> locutor <strong>la</strong> voz se mo<strong>de</strong><strong>la</strong> estadísticamente mediante mezc<strong>la</strong>s <strong>de</strong> gausianas<br />
Λ, cuya expresión matemática se muestra a continuación:<br />
p (x | Λ) =<br />
M∑<br />
i=1<br />
ω Λ,i<br />
exp ( − 1 2 (x − µ Λ,i) t Σ Λ,i −1 (x − µ Λ,i ) )<br />
(2π) N/2 |Σ Λ,i | 1/2 (4.3)<br />
Según este esquema, <strong>la</strong> verificación <strong>de</strong> locutor se realiza mediante el siguiente contraste<br />
<strong>de</strong> hipótesis:<br />
{<br />
H0 : <strong>la</strong> voz pertenece al locutor u<br />
H 1 : <strong>la</strong> voz pertenece a algún otro locutor,<br />
don<strong>de</strong> <strong>la</strong> hipótesis H 0 está representada por el GMM <strong>de</strong>l usuario u: Λ u ; y <strong>la</strong> hipótesis<br />
alternativa H 1 está representada por el UBM: Λ UBM . Este contraste <strong>de</strong> hipótesis permite