III Congreso de la Sociedad Española de Acústica Forense Página ...

Para realizar el estudio propuesto se ha escogido como marca experimental el de unatarea de transcripción automática de noticiarios de televisión. Este tipo de aplicación esadecuada para el estudio que se pretende realizar, ya que, en ella se dispone por logeneral de una señal de audio de la que no existe a priori información sobre el número eidentidad de los locutores presentes ni sobre los instantes de tiempo en los que hablancada uno de ellos. Lo que si se puede saber a priori, con facilidad, es el número eidentidad de los presentadores habituales. Así, en este artículo se propone realizar laidentificación y seguimiento de dichos presentadores habituales a lo largo de todo unnoticiario de TV.2 Sistema “Oracle” de Verificación de LocutorComo sistema de referencia con el cual comparar las prestaciones del sistema desegmentación, identificación y seguimiento de locutor propuesto, vamos a considerar unsistema de verificación de locutor independiente del texto basado en GMMs (GaussianMixture Models), utilizado en la mayoría de los sistemas del estado-del-arte.Este sistema de referencia lo denominaremos oracle, debido a que las grabaciones queutiliza son mono-locutor, es decir, en cada grabación habla solamente un locutor.Además, si las grabaciones son multi-locutor se considera que éstas están perfectamentesegmentadas y etiquetadas en cuanto a identidades de locutor, para utilizar sólo la partede señal de voz correspondiente al locutor bajo análisis.En general, un sistema de verificación de locutor consta de dos fases. En la primera fasese entrena un modelo estadístico que representará al locutor que se va a querer verificarcon posterioridad. En este trabajo se ha optado por una aproximación en la que losmodelos de los locutores son GMMs, los cuales se obtienen a partir de una adaptaciónMAP (Maximum a Posteriori) de un modelo universal de identidades (UniversalBackgroud Model, UBM). La segunda fase es la fase de verificación propiamente dicha.En ella el sistema calcula la verosimilitud de la señal de voz a la entrada con el modelodel locutor cuya identidad se reclama. Esta verosimilitud se normaliza por laverosimilitud obtenida con el modelo universal de identidades. Por lo tanto, siguiendoesta aproximación para la toma de decisión se calcula primero el valor:log L ( X ) = log p( X | S ) − log p( X | )c S UBMdonde, X es la voz a la entrada, S c denota el modelo del locutor afirmado y S UBM elmodelo universal. Y luego la toma de decisión se basa en comparar dicho valor,logL(X), con un umbral δ:⎧logL(X ) > δ aceptar⎨⎩logL(X ) < δ rechazarLa figura 1 muestra un esquema de este sistema de verificación de locutor.3 Sistema de Verificación con Segmentación de LocutorEn esta sección se va a realizar una descripción del sistema propuesto para realizar latarea de segmentación y seguimiento de locutor, cuando la señal de audio a la entradacontiene voz de más de un locutor. Dicho sistema consta de 4 módulos principales: undetector de cambios acústicos, un clasificador voz/no-voz, un clasificador hombre/mujery un agrupamiento (clustering) de locutor. En la figura 2 se muestra un esquema delsistema global que incluye también un módulo para realizar la verificación de locutor.

Figura 1: Sistema “Oracle” de verificación de locutorVoz dellocutor AAdaptaciónMAPGMMUniversalModelo delpresentadorAVozentradadeVerificaciónde locutorAceptado oRechazadoIdentidadreclamada: AFigura 2: Sistema de segmentación, identificación y seguimiento de locutorvideoDetector cambiosde planoGMMsvoz/no-vozGMMshombre/mujeraudioDetector cambiosacústicos: BICClasificaciónvoz/no-vozvozClasificaciónhombre/mujerEtiquetadode clusters:detecciónde locutorVerificación delocutoresClustering delocutoresModelos delocutoresModelouniversal(UBM)

3.1 Detección de cambios acústicosLa primera tarea a realizar es la división de la señal de audio en regiones homogéneasacústicamente. Para ello se utiliza un algoritmo de segmentación que busca cambios enlas condiciones acústicas, y marca los instantes de tiempo correspondientes comofronteras de los segmentos. El módulo de segmentación implementado en nuestrosistema se basa en una aproximación multimedia que utiliza las señales de audio y devideo en el proceso de segmentación [1]. Dicha segmentación se basa principalmente enun algoritmo que utiliza el “Bayesian Information Criterion (BIC)” [2].Este módulo de segmentación consta de tres etapas. En la primera etapa se pretendeencontrar cambios acústicos que consideraremos como candidatos. Se aplica para ello elalgoritmo BIC utilizando una ventana de 2 segundos. En la segunda etapa, que esopcional, se implementa un detector de cambio de plano en la imagen basado enhistogramas. Dicho detector se aplica sobre ventanas de 2 segundos centradas en loscandidatos obtenidos en la etapa anterior. Finalmente, en la última etapa se aplicatambién el algoritmo BIC pero utilizando una ventana de tamaño fijo de 8 segundos,centrada en los candidatos obtenidos en la primera fase. Con la informaciónproporcionada por el detector de la segunda etapa acerca de la existencia o no de uncambio de plano en la imagen, se adapta dinámicamente el peso de penalización λ en elalgoritmo BIC. Si se detecta un cambio de plano se reduce el peso de penalización, encaso contrario dicho peso no se modifica. Al reducir este peso, se aumenta laprobabilidad de que el candidato sea aceptado como un verdadero cambio acústico. Elfactor por el que se reduce el peso depende de la fiabilidad de la frontera de plano deimagen detectada.3.2 Clasificación voz/no-vozUna vez realizada la segmentación en regiones acústicamente homogéneas, cada uno delos segmentos de audio obtenidos se clasifica como voz o como no-voz. Esta etapa esmuy importante para el resto del procesado a realizar, ya que sólo estamos interesadosen procesar segmentos de audio que contienen voz útil.Para realizar la detección de voz utilizamos una aproximación que utiliza unaclasificación de máxima verosimilitud basada en GMMs. Se han considerado cincoclases acústicas: música, voz limpia, silencio, ruido y voz ruidosa. De esta forma,aquellos segmentos que se clasifican como música, silencio, o ruido se descartan y sólopasan a la siguiente etapa de procesado los segmentos clasificados como voz.Los GMMs utilizados fueron de 32 gaussianas con matrices de covarianza diagonales.3.3 Clasificación hombre/mujerEste módulo clasifica cada uno de los segmentos de voz a la salida del clasificadorvoz/no-voz como hombre o como mujer. Para ello se utiliza también un clasificador demáxima verosimilitud basado en GMMs. Los GMMs utilizados fueron también de 32gaussianas con matrices de covarianza diagonales.Esta clasificación facilita la tarea de agrupamiento, ya que se pueden agrupar porseparado los hombres y las mujeres, evitando así que en un cluster se agrupensegmentos de ambos sexos.

3.4 Agrupamiento de locutorIdealmente, el proceso de agrupamiento de locutor debería proporcionar un grupo ocluster por cada identidad de locutor. Con el fin de agrupar los segmentos de vozpertenecientes a un mismo locutor, hemos optado por una técnica de agrupamientoaglomerativo jerárquico.Antes de proceder con el proceso de agrupamiento propiamente dicho se entrena, enprimer lugar, un GMM universal,Θ, utilizando, para ello, todos los segmentos de voz enla señal de audio a la entrada. A continuación se obtienen los modelos, Θ i , querepresentan a cada segmento, s i , utilizando una adaptación MAP del modelo Θ.El proceso de agrupamiento se lleva a cabo en tres pasos. En el primer paso se calculauna medida de similitud, o distancia, entre pares de segmentos. Hemos optado por unamedida basada en verosimilitudes. Así, para cada segmento de voz, s i , se obtiene suverosimilitud frente a todos los modelos Θ j , y esta colección de verosimilitudesconstituye un vector que denominaremos vector característico de dicho segmento. Unavez obtenidos los vectores característicos de todos los segmentos se calcula la distanciaentre cada par de segmentos como la distancia de coseno entre sus respectivos vectorescaracterísticos. Es decir, si los segmentos s i y s j tienen asociados los vectorescaracterísticos v i y v j , respectivamente, la distancia entre ellos será:d(s , sij) =v ⋅vEl siguiente paso consiste en crear una estructura en árbol comenzando con cadasegmento constituyendo su propio cluster, y luego, recursivamente, juntar los clustersmás cercanos conforme a algún criterio de distancia, hasta que quede un sólo cluster.Del paso anterior tenemos las distancias entre pares de segmentos de voz, por lo quenecesitaremos algún método para definir distancias entre clusters a partir de lasdistancias entre los segmentos que los forman. En la literatura se pueden encontrardiversas posibilidades, las más comunes son: single-linkage, complete-linkage y groupaverage-linkage [3]. En experimentos previos de speaker diarization [4] hemos vistoque la técnica de complete-linkage es la que proporciona mejores resultados por lo queésta será la técnica empleada en los experimentos mostrados en este artículo.Por último se tiene que elegir una partición del árbol construido en el paso anterior. Sepueden proponer diversas técnicas. Por motivos de sencillez, hemos optado por cortar elárbol a un determinado nivel determinado por el número máximo de locutores que suelecontener un fichero de audio para la tarea en cuestión.4 Detección de locutorEsta es la última tarea a realizar. Con ella se identifican aquellos clusters que pertenecena los locutores que se quiere detectar. De esta forma, los clusters se etiquetarán comolocutor desconocido o como uno de los locutores conocidos.Para detectar o identificar a los locutores conocidos se utiliza la misma técnica que lapresentada en la sección 2 para el sistema oracle. Así, se calcula la diferencia entre laslog-verosimilitudes obtenidas con el modelo del locutor que se pretende detectar y elmodelo universal de identidades. Esta diferencia se compara con un umbral para decidirsi se acepta o rechaza la hipótesis de que el cluster bajo análisis se corresponde con ellocutor en cuestión.viivjj

uno de los presentadores habituales se entrenaron con la voz existente en el conjunto deentrenamiento.La figura 3 muestra las curvas de falso rechazo y falsa aceptación obtenidas para lapresentadora de las noticias (Marga Pazos) y la figura 4 las obtenidas para lapresentadora de los deportes (Mónica Martínez). Tomaremos como referencia el valorEER que es del 2% para Marga Pazos y del 1.28% para Mónica Martínez. Estasprestaciones constituyen el techo de las prestaciones que se obtendrán con el sistemapropuesto en este artículo.Como hemos dicho anteriormente cada uno de los módulos que componen el sistema desegmentación, detección y seguimiento de locutor comete errores. Así, el clasificadorvoz/no-voz tiene una tasa de acierto (clasifica segmentos de voz como voz) del 99.1%, yuna tasa de falsa alarma (clasifica no-voz como voz) del 15.8%. Estos errores influyennegativamente en las prestaciones de los módulos de agrupamiento y verificación.Al utilizar el sistema propuesto para la tarea de detección de los presentadores seobtiene una EER del 15%, aproximadamente, en ambos casos. Este valor de EER essignificativamente mayor que el obtenido por el sistema oracle. Este incremento deerror se debe principalmente a los errores cometidos por las etapas de clasificaciónacústica y de agrupamiento. Así, para mejorar las prestaciones del detector habrá quesegmentar y agrupar mejor los locutores. Cabe notar aquí, que en el sistema dedetección propuesto puede ocurrir que se asocie con el locutor a detectar más de uncluster ya que en la fase de agrupamiento se ha cortado el árbol a un nivel en el que elnúmero de clusters obtenidos es mayor que el número de locutores presentes en elnoticiario. Esto se ha hecho así para poder agrupar en diferentes clusters voces de unmismo locutor entre las que existe un desajuste (mismatch) debido a las condicionesacústicas del entorno, tan frecuentes en el área de la transcripción automática denoticiarios de TV.7 Conclusiones y líneas futurasEste artículo presenta nuestros estudios en el desarrollo de un sistema de segmentaciónde audio que es capaz de detectar y seguir a un conjunto de determinados locutores delos que se dispone información acústica a priori. Los resultados muestran como unsistema de speaker diarization puede ayudar en la tarea de reconocimiento de locutorcuando hay más de un locutor en la conversación a analizar. Los resultados obtenidosestán en el orden de magnitud de los que obtienen los sistemas que existen en el estadodel-arte[5].Como líneas futuras de investigación en este campo proponemos mejoras en cada unode los módulos que componen el sistema de segmentación y agrupamiento de locutor,con el fin de acercar la tasa de detección a la obtenida por el sistema oracle.

Figura 3: Curvas de Falsa Aceptación(FA) y Falso Rechazo(FR) del sistema oracleFigura 4: Curvas de Falsa Aceptación (FA) y Falso Rechazo (FR) del sistema oracle.

BIBLIOGRAFÍA[1] PÉREZ FREIRE, Luís y GARCÍA MATEO, Carmen: “A multimedia approach foraudio segmentation in TV broadcast news”, Proceedings ICASSP 2004.[2] CHEN, S y GOPALAKRISHNAN, P.S.: “Speaker, environment and channel changedetection and clustering via the Bayesian information criterion”, en DARPAProceedings Speech Recognition Workshop, 1998.[3] JAIN, K.A., MURTY, M.N. y FLYNN, P.J.: “Data clustering: A review”, ACMComputing Surveys, Vol. 31, No. 3, Septiembre 1999.[4] DOCIO-FERNANDEZ, Laura y GARCIA-MATEO, Carmen: “Speakersegmentation, detection and tracking in multi-speaker long-audio recordings”,Proceedings Third COST 275 Workshop: Biometrics on the Internet, 2005.[5] THE ELISA CONSORTIUM: “The Elisa Systems for the NIST 99 Evaluation inSpeaker Detection and Tracking”, Digital Signal Procesing, Vol. 10, 2000.

III Congreso de la Sociedad Española de Acústica Forense Página ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?