11.07.2015 Views

III Congreso de la Sociedad Española de Acústica Forense Página ...

III Congreso de la Sociedad Española de Acústica Forense Página ...

III Congreso de la Sociedad Española de Acústica Forense Página ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Para realizar el estudio propuesto se ha escogido como marca experimental el <strong>de</strong> unatarea <strong>de</strong> transcripción automática <strong>de</strong> noticiarios <strong>de</strong> televisión. Este tipo <strong>de</strong> aplicación esa<strong>de</strong>cuada para el estudio que se preten<strong>de</strong> realizar, ya que, en el<strong>la</strong> se dispone por logeneral <strong>de</strong> una señal <strong>de</strong> audio <strong>de</strong> <strong>la</strong> que no existe a priori información sobre el número ei<strong>de</strong>ntidad <strong>de</strong> los locutores presentes ni sobre los instantes <strong>de</strong> tiempo en los que hab<strong>la</strong>ncada uno <strong>de</strong> ellos. Lo que si se pue<strong>de</strong> saber a priori, con facilidad, es el número ei<strong>de</strong>ntidad <strong>de</strong> los presentadores habituales. Así, en este artículo se propone realizar <strong>la</strong>i<strong>de</strong>ntificación y seguimiento <strong>de</strong> dichos presentadores habituales a lo <strong>la</strong>rgo <strong>de</strong> todo unnoticiario <strong>de</strong> TV.2 Sistema “Oracle” <strong>de</strong> Verificación <strong>de</strong> LocutorComo sistema <strong>de</strong> referencia con el cual comparar <strong>la</strong>s prestaciones <strong>de</strong>l sistema <strong>de</strong>segmentación, i<strong>de</strong>ntificación y seguimiento <strong>de</strong> locutor propuesto, vamos a consi<strong>de</strong>rar unsistema <strong>de</strong> verificación <strong>de</strong> locutor in<strong>de</strong>pendiente <strong>de</strong>l texto basado en GMMs (GaussianMixture Mo<strong>de</strong>ls), utilizado en <strong>la</strong> mayoría <strong>de</strong> los sistemas <strong>de</strong>l estado-<strong>de</strong>l-arte.Este sistema <strong>de</strong> referencia lo <strong>de</strong>nominaremos oracle, <strong>de</strong>bido a que <strong>la</strong>s grabaciones queutiliza son mono-locutor, es <strong>de</strong>cir, en cada grabación hab<strong>la</strong> so<strong>la</strong>mente un locutor.A<strong>de</strong>más, si <strong>la</strong>s grabaciones son multi-locutor se consi<strong>de</strong>ra que éstas están perfectamentesegmentadas y etiquetadas en cuanto a i<strong>de</strong>ntida<strong>de</strong>s <strong>de</strong> locutor, para utilizar sólo <strong>la</strong> parte<strong>de</strong> señal <strong>de</strong> voz correspondiente al locutor bajo análisis.En general, un sistema <strong>de</strong> verificación <strong>de</strong> locutor consta <strong>de</strong> dos fases. En <strong>la</strong> primera fasese entrena un mo<strong>de</strong>lo estadístico que representará al locutor que se va a querer verificarcon posterioridad. En este trabajo se ha optado por una aproximación en <strong>la</strong> que losmo<strong>de</strong>los <strong>de</strong> los locutores son GMMs, los cuales se obtienen a partir <strong>de</strong> una adaptaciónMAP (Maximum a Posteriori) <strong>de</strong> un mo<strong>de</strong>lo universal <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s (UniversalBackgroud Mo<strong>de</strong>l, UBM). La segunda fase es <strong>la</strong> fase <strong>de</strong> verificación propiamente dicha.En el<strong>la</strong> el sistema calcu<strong>la</strong> <strong>la</strong> verosimilitud <strong>de</strong> <strong>la</strong> señal <strong>de</strong> voz a <strong>la</strong> entrada con el mo<strong>de</strong>lo<strong>de</strong>l locutor cuya i<strong>de</strong>ntidad se rec<strong>la</strong>ma. Esta verosimilitud se normaliza por <strong>la</strong>verosimilitud obtenida con el mo<strong>de</strong>lo universal <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s. Por lo tanto, siguiendoesta aproximación para <strong>la</strong> toma <strong>de</strong> <strong>de</strong>cisión se calcu<strong>la</strong> primero el valor:log L ( X ) = log p( X | S ) − log p( X | )c S UBMdon<strong>de</strong>, X es <strong>la</strong> voz a <strong>la</strong> entrada, S c <strong>de</strong>nota el mo<strong>de</strong>lo <strong>de</strong>l locutor afirmado y S UBM elmo<strong>de</strong>lo universal. Y luego <strong>la</strong> toma <strong>de</strong> <strong>de</strong>cisión se basa en comparar dicho valor,logL(X), con un umbral δ:⎧logL(X ) > δ aceptar⎨⎩logL(X ) < δ rechazarLa figura 1 muestra un esquema <strong>de</strong> este sistema <strong>de</strong> verificación <strong>de</strong> locutor.3 Sistema <strong>de</strong> Verificación con Segmentación <strong>de</strong> LocutorEn esta sección se va a realizar una <strong>de</strong>scripción <strong>de</strong>l sistema propuesto para realizar <strong>la</strong>tarea <strong>de</strong> segmentación y seguimiento <strong>de</strong> locutor, cuando <strong>la</strong> señal <strong>de</strong> audio a <strong>la</strong> entradacontiene voz <strong>de</strong> más <strong>de</strong> un locutor. Dicho sistema consta <strong>de</strong> 4 módulos principales: un<strong>de</strong>tector <strong>de</strong> cambios acústicos, un c<strong>la</strong>sificador voz/no-voz, un c<strong>la</strong>sificador hombre/mujery un agrupamiento (clustering) <strong>de</strong> locutor. En <strong>la</strong> figura 2 se muestra un esquema <strong>de</strong>lsistema global que incluye también un módulo para realizar <strong>la</strong> verificación <strong>de</strong> locutor.


Figura 1: Sistema “Oracle” <strong>de</strong> verificación <strong>de</strong> locutorVoz <strong>de</strong>llocutor AAdaptaciónMAPGMMUniversalMo<strong>de</strong>lo <strong>de</strong>lpresentadorAVozentrada<strong>de</strong>Verificación<strong>de</strong> locutorAceptado oRechazadoI<strong>de</strong>ntidadrec<strong>la</strong>mada: AFigura 2: Sistema <strong>de</strong> segmentación, i<strong>de</strong>ntificación y seguimiento <strong>de</strong> locutorvi<strong>de</strong>oDetector cambios<strong>de</strong> p<strong>la</strong>noGMMsvoz/no-vozGMMshombre/mujeraudioDetector cambiosacústicos: BICC<strong>la</strong>sificaciónvoz/no-vozvozC<strong>la</strong>sificaciónhombre/mujerEtiquetado<strong>de</strong> clusters:<strong>de</strong>tección<strong>de</strong> locutorVerificación <strong>de</strong>locutoresClustering <strong>de</strong>locutoresMo<strong>de</strong>los <strong>de</strong>locutoresMo<strong>de</strong>louniversal(UBM)


3.1 Detección <strong>de</strong> cambios acústicosLa primera tarea a realizar es <strong>la</strong> división <strong>de</strong> <strong>la</strong> señal <strong>de</strong> audio en regiones homogéneasacústicamente. Para ello se utiliza un algoritmo <strong>de</strong> segmentación que busca cambios en<strong>la</strong>s condiciones acústicas, y marca los instantes <strong>de</strong> tiempo correspondientes comofronteras <strong>de</strong> los segmentos. El módulo <strong>de</strong> segmentación implementado en nuestrosistema se basa en una aproximación multimedia que utiliza <strong>la</strong>s señales <strong>de</strong> audio y <strong>de</strong>vi<strong>de</strong>o en el proceso <strong>de</strong> segmentación [1]. Dicha segmentación se basa principalmente enun algoritmo que utiliza el “Bayesian Information Criterion (BIC)” [2].Este módulo <strong>de</strong> segmentación consta <strong>de</strong> tres etapas. En <strong>la</strong> primera etapa se preten<strong>de</strong>encontrar cambios acústicos que consi<strong>de</strong>raremos como candidatos. Se aplica para ello e<strong>la</strong>lgoritmo BIC utilizando una ventana <strong>de</strong> 2 segundos. En <strong>la</strong> segunda etapa, que esopcional, se implementa un <strong>de</strong>tector <strong>de</strong> cambio <strong>de</strong> p<strong>la</strong>no en <strong>la</strong> imagen basado enhistogramas. Dicho <strong>de</strong>tector se aplica sobre ventanas <strong>de</strong> 2 segundos centradas en loscandidatos obtenidos en <strong>la</strong> etapa anterior. Finalmente, en <strong>la</strong> última etapa se aplicatambién el algoritmo BIC pero utilizando una ventana <strong>de</strong> tamaño fijo <strong>de</strong> 8 segundos,centrada en los candidatos obtenidos en <strong>la</strong> primera fase. Con <strong>la</strong> informaciónproporcionada por el <strong>de</strong>tector <strong>de</strong> <strong>la</strong> segunda etapa acerca <strong>de</strong> <strong>la</strong> existencia o no <strong>de</strong> uncambio <strong>de</strong> p<strong>la</strong>no en <strong>la</strong> imagen, se adapta dinámicamente el peso <strong>de</strong> penalización λ en e<strong>la</strong>lgoritmo BIC. Si se <strong>de</strong>tecta un cambio <strong>de</strong> p<strong>la</strong>no se reduce el peso <strong>de</strong> penalización, encaso contrario dicho peso no se modifica. Al reducir este peso, se aumenta <strong>la</strong>probabilidad <strong>de</strong> que el candidato sea aceptado como un verda<strong>de</strong>ro cambio acústico. Elfactor por el que se reduce el peso <strong>de</strong>pen<strong>de</strong> <strong>de</strong> <strong>la</strong> fiabilidad <strong>de</strong> <strong>la</strong> frontera <strong>de</strong> p<strong>la</strong>no <strong>de</strong>imagen <strong>de</strong>tectada.3.2 C<strong>la</strong>sificación voz/no-vozUna vez realizada <strong>la</strong> segmentación en regiones acústicamente homogéneas, cada uno <strong>de</strong>los segmentos <strong>de</strong> audio obtenidos se c<strong>la</strong>sifica como voz o como no-voz. Esta etapa esmuy importante para el resto <strong>de</strong>l procesado a realizar, ya que sólo estamos interesadosen procesar segmentos <strong>de</strong> audio que contienen voz útil.Para realizar <strong>la</strong> <strong>de</strong>tección <strong>de</strong> voz utilizamos una aproximación que utiliza unac<strong>la</strong>sificación <strong>de</strong> máxima verosimilitud basada en GMMs. Se han consi<strong>de</strong>rado cincoc<strong>la</strong>ses acústicas: música, voz limpia, silencio, ruido y voz ruidosa. De esta forma,aquellos segmentos que se c<strong>la</strong>sifican como música, silencio, o ruido se <strong>de</strong>scartan y sólopasan a <strong>la</strong> siguiente etapa <strong>de</strong> procesado los segmentos c<strong>la</strong>sificados como voz.Los GMMs utilizados fueron <strong>de</strong> 32 gaussianas con matrices <strong>de</strong> covarianza diagonales.3.3 C<strong>la</strong>sificación hombre/mujerEste módulo c<strong>la</strong>sifica cada uno <strong>de</strong> los segmentos <strong>de</strong> voz a <strong>la</strong> salida <strong>de</strong>l c<strong>la</strong>sificadorvoz/no-voz como hombre o como mujer. Para ello se utiliza también un c<strong>la</strong>sificador <strong>de</strong>máxima verosimilitud basado en GMMs. Los GMMs utilizados fueron también <strong>de</strong> 32gaussianas con matrices <strong>de</strong> covarianza diagonales.Esta c<strong>la</strong>sificación facilita <strong>la</strong> tarea <strong>de</strong> agrupamiento, ya que se pue<strong>de</strong>n agrupar porseparado los hombres y <strong>la</strong>s mujeres, evitando así que en un cluster se agrupensegmentos <strong>de</strong> ambos sexos.


3.4 Agrupamiento <strong>de</strong> locutorI<strong>de</strong>almente, el proceso <strong>de</strong> agrupamiento <strong>de</strong> locutor <strong>de</strong>bería proporcionar un grupo ocluster por cada i<strong>de</strong>ntidad <strong>de</strong> locutor. Con el fin <strong>de</strong> agrupar los segmentos <strong>de</strong> vozpertenecientes a un mismo locutor, hemos optado por una técnica <strong>de</strong> agrupamientoaglomerativo jerárquico.Antes <strong>de</strong> proce<strong>de</strong>r con el proceso <strong>de</strong> agrupamiento propiamente dicho se entrena, enprimer lugar, un GMM universal,Θ, utilizando, para ello, todos los segmentos <strong>de</strong> voz en<strong>la</strong> señal <strong>de</strong> audio a <strong>la</strong> entrada. A continuación se obtienen los mo<strong>de</strong>los, Θ i , querepresentan a cada segmento, s i , utilizando una adaptación MAP <strong>de</strong>l mo<strong>de</strong>lo Θ.El proceso <strong>de</strong> agrupamiento se lleva a cabo en tres pasos. En el primer paso se calcu<strong>la</strong>una medida <strong>de</strong> similitud, o distancia, entre pares <strong>de</strong> segmentos. Hemos optado por unamedida basada en verosimilitu<strong>de</strong>s. Así, para cada segmento <strong>de</strong> voz, s i , se obtiene suverosimilitud frente a todos los mo<strong>de</strong>los Θ j , y esta colección <strong>de</strong> verosimilitu<strong>de</strong>sconstituye un vector que <strong>de</strong>nominaremos vector característico <strong>de</strong> dicho segmento. Unavez obtenidos los vectores característicos <strong>de</strong> todos los segmentos se calcu<strong>la</strong> <strong>la</strong> distanciaentre cada par <strong>de</strong> segmentos como <strong>la</strong> distancia <strong>de</strong> coseno entre sus respectivos vectorescaracterísticos. Es <strong>de</strong>cir, si los segmentos s i y s j tienen asociados los vectorescaracterísticos v i y v j , respectivamente, <strong>la</strong> distancia entre ellos será:d(s , sij) =v ⋅vEl siguiente paso consiste en crear una estructura en árbol comenzando con cadasegmento constituyendo su propio cluster, y luego, recursivamente, juntar los clustersmás cercanos conforme a algún criterio <strong>de</strong> distancia, hasta que que<strong>de</strong> un sólo cluster.Del paso anterior tenemos <strong>la</strong>s distancias entre pares <strong>de</strong> segmentos <strong>de</strong> voz, por lo quenecesitaremos algún método para <strong>de</strong>finir distancias entre clusters a partir <strong>de</strong> <strong>la</strong>sdistancias entre los segmentos que los forman. En <strong>la</strong> literatura se pue<strong>de</strong>n encontrardiversas posibilida<strong>de</strong>s, <strong>la</strong>s más comunes son: single-linkage, complete-linkage y groupaverage-linkage [3]. En experimentos previos <strong>de</strong> speaker diarization [4] hemos vistoque <strong>la</strong> técnica <strong>de</strong> complete-linkage es <strong>la</strong> que proporciona mejores resultados por lo queésta será <strong>la</strong> técnica empleada en los experimentos mostrados en este artículo.Por último se tiene que elegir una partición <strong>de</strong>l árbol construido en el paso anterior. Sepue<strong>de</strong>n proponer diversas técnicas. Por motivos <strong>de</strong> sencillez, hemos optado por cortar elárbol a un <strong>de</strong>terminado nivel <strong>de</strong>terminado por el número máximo <strong>de</strong> locutores que suelecontener un fichero <strong>de</strong> audio para <strong>la</strong> tarea en cuestión.4 Detección <strong>de</strong> locutorEsta es <strong>la</strong> última tarea a realizar. Con el<strong>la</strong> se i<strong>de</strong>ntifican aquellos clusters que pertenecena los locutores que se quiere <strong>de</strong>tectar. De esta forma, los clusters se etiquetarán comolocutor <strong>de</strong>sconocido o como uno <strong>de</strong> los locutores conocidos.Para <strong>de</strong>tectar o i<strong>de</strong>ntificar a los locutores conocidos se utiliza <strong>la</strong> misma técnica que <strong>la</strong>presentada en <strong>la</strong> sección 2 para el sistema oracle. Así, se calcu<strong>la</strong> <strong>la</strong> diferencia entre <strong>la</strong>slog-verosimilitu<strong>de</strong>s obtenidas con el mo<strong>de</strong>lo <strong>de</strong>l locutor que se preten<strong>de</strong> <strong>de</strong>tectar y elmo<strong>de</strong>lo universal <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s. Esta diferencia se compara con un umbral para <strong>de</strong>cidirsi se acepta o rechaza <strong>la</strong> hipótesis <strong>de</strong> que el cluster bajo análisis se correspon<strong>de</strong> con ellocutor en cuestión.viivjj


uno <strong>de</strong> los presentadores habituales se entrenaron con <strong>la</strong> voz existente en el conjunto <strong>de</strong>entrenamiento.La figura 3 muestra <strong>la</strong>s curvas <strong>de</strong> falso rechazo y falsa aceptación obtenidas para <strong>la</strong>presentadora <strong>de</strong> <strong>la</strong>s noticias (Marga Pazos) y <strong>la</strong> figura 4 <strong>la</strong>s obtenidas para <strong>la</strong>presentadora <strong>de</strong> los <strong>de</strong>portes (Mónica Martínez). Tomaremos como referencia el valorEER que es <strong>de</strong>l 2% para Marga Pazos y <strong>de</strong>l 1.28% para Mónica Martínez. Estasprestaciones constituyen el techo <strong>de</strong> <strong>la</strong>s prestaciones que se obtendrán con el sistemapropuesto en este artículo.Como hemos dicho anteriormente cada uno <strong>de</strong> los módulos que componen el sistema <strong>de</strong>segmentación, <strong>de</strong>tección y seguimiento <strong>de</strong> locutor comete errores. Así, el c<strong>la</strong>sificadorvoz/no-voz tiene una tasa <strong>de</strong> acierto (c<strong>la</strong>sifica segmentos <strong>de</strong> voz como voz) <strong>de</strong>l 99.1%, yuna tasa <strong>de</strong> falsa a<strong>la</strong>rma (c<strong>la</strong>sifica no-voz como voz) <strong>de</strong>l 15.8%. Estos errores influyennegativamente en <strong>la</strong>s prestaciones <strong>de</strong> los módulos <strong>de</strong> agrupamiento y verificación.Al utilizar el sistema propuesto para <strong>la</strong> tarea <strong>de</strong> <strong>de</strong>tección <strong>de</strong> los presentadores seobtiene una EER <strong>de</strong>l 15%, aproximadamente, en ambos casos. Este valor <strong>de</strong> EER essignificativamente mayor que el obtenido por el sistema oracle. Este incremento <strong>de</strong>error se <strong>de</strong>be principalmente a los errores cometidos por <strong>la</strong>s etapas <strong>de</strong> c<strong>la</strong>sificaciónacústica y <strong>de</strong> agrupamiento. Así, para mejorar <strong>la</strong>s prestaciones <strong>de</strong>l <strong>de</strong>tector habrá quesegmentar y agrupar mejor los locutores. Cabe notar aquí, que en el sistema <strong>de</strong><strong>de</strong>tección propuesto pue<strong>de</strong> ocurrir que se asocie con el locutor a <strong>de</strong>tectar más <strong>de</strong> uncluster ya que en <strong>la</strong> fase <strong>de</strong> agrupamiento se ha cortado el árbol a un nivel en el que elnúmero <strong>de</strong> clusters obtenidos es mayor que el número <strong>de</strong> locutores presentes en elnoticiario. Esto se ha hecho así para po<strong>de</strong>r agrupar en diferentes clusters voces <strong>de</strong> unmismo locutor entre <strong>la</strong>s que existe un <strong>de</strong>sajuste (mismatch) <strong>de</strong>bido a <strong>la</strong>s condicionesacústicas <strong>de</strong>l entorno, tan frecuentes en el área <strong>de</strong> <strong>la</strong> transcripción automática <strong>de</strong>noticiarios <strong>de</strong> TV.7 Conclusiones y líneas futurasEste artículo presenta nuestros estudios en el <strong>de</strong>sarrollo <strong>de</strong> un sistema <strong>de</strong> segmentación<strong>de</strong> audio que es capaz <strong>de</strong> <strong>de</strong>tectar y seguir a un conjunto <strong>de</strong> <strong>de</strong>terminados locutores <strong>de</strong>los que se dispone información acústica a priori. Los resultados muestran como unsistema <strong>de</strong> speaker diarization pue<strong>de</strong> ayudar en <strong>la</strong> tarea <strong>de</strong> reconocimiento <strong>de</strong> locutorcuando hay más <strong>de</strong> un locutor en <strong>la</strong> conversación a analizar. Los resultados obtenidosestán en el or<strong>de</strong>n <strong>de</strong> magnitud <strong>de</strong> los que obtienen los sistemas que existen en el estado<strong>de</strong>l-arte[5].Como líneas futuras <strong>de</strong> investigación en este campo proponemos mejoras en cada uno<strong>de</strong> los módulos que componen el sistema <strong>de</strong> segmentación y agrupamiento <strong>de</strong> locutor,con el fin <strong>de</strong> acercar <strong>la</strong> tasa <strong>de</strong> <strong>de</strong>tección a <strong>la</strong> obtenida por el sistema oracle.


Figura 3: Curvas <strong>de</strong> Falsa Aceptación(FA) y Falso Rechazo(FR) <strong>de</strong>l sistema oracleFigura 4: Curvas <strong>de</strong> Falsa Aceptación (FA) y Falso Rechazo (FR) <strong>de</strong>l sistema oracle.


BIBLIOGRAFÍA[1] PÉREZ FREIRE, Luís y GARCÍA MATEO, Carmen: “A multimedia approach foraudio segmentation in TV broadcast news”, Proceedings ICASSP 2004.[2] CHEN, S y GOPALAKRISHNAN, P.S.: “Speaker, environment and channel change<strong>de</strong>tection and clustering via the Bayesian information criterion”, en DARPAProceedings Speech Recognition Workshop, 1998.[3] JAIN, K.A., MURTY, M.N. y FLYNN, P.J.: “Data clustering: A review”, ACMComputing Surveys, Vol. 31, No. 3, Septiembre 1999.[4] DOCIO-FERNANDEZ, Laura y GARCIA-MATEO, Carmen: “Speakersegmentation, <strong>de</strong>tection and tracking in multi-speaker long-audio recordings”,Proceedings Third COST 275 Workshop: Biometrics on the Internet, 2005.[5] THE ELISA CONSORTIUM: “The Elisa Systems for the NIST 99 Evaluation inSpeaker Detection and Tracking”, Digital Signal Procesing, Vol. 10, 2000.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!