III Congreso de la Sociedad Española de Acústica Forense Página ...

uno de los presentadores habituales se entrenaron con la voz existente en el conjunto deentrenamiento.La figura 3 muestra las curvas de falso rechazo y falsa aceptación obtenidas para lapresentadora de las noticias (Marga Pazos) y la figura 4 las obtenidas para lapresentadora de los deportes (Mónica Martínez). Tomaremos como referencia el valorEER que es del 2% para Marga Pazos y del 1.28% para Mónica Martínez. Estasprestaciones constituyen el techo de las prestaciones que se obtendrán con el sistemapropuesto en este artículo.Como hemos dicho anteriormente cada uno de los módulos que componen el sistema desegmentación, detección y seguimiento de locutor comete errores. Así, el clasificadorvoz/no-voz tiene una tasa de acierto (clasifica segmentos de voz como voz) del 99.1%, yuna tasa de falsa alarma (clasifica no-voz como voz) del 15.8%. Estos errores influyennegativamente en las prestaciones de los módulos de agrupamiento y verificación.Al utilizar el sistema propuesto para la tarea de detección de los presentadores seobtiene una EER del 15%, aproximadamente, en ambos casos. Este valor de EER essignificativamente mayor que el obtenido por el sistema oracle. Este incremento deerror se debe principalmente a los errores cometidos por las etapas de clasificaciónacústica y de agrupamiento. Así, para mejorar las prestaciones del detector habrá quesegmentar y agrupar mejor los locutores. Cabe notar aquí, que en el sistema dedetección propuesto puede ocurrir que se asocie con el locutor a detectar más de uncluster ya que en la fase de agrupamiento se ha cortado el árbol a un nivel en el que elnúmero de clusters obtenidos es mayor que el número de locutores presentes en elnoticiario. Esto se ha hecho así para poder agrupar en diferentes clusters voces de unmismo locutor entre las que existe un desajuste (mismatch) debido a las condicionesacústicas del entorno, tan frecuentes en el área de la transcripción automática denoticiarios de TV.7 Conclusiones y líneas futurasEste artículo presenta nuestros estudios en el desarrollo de un sistema de segmentaciónde audio que es capaz de detectar y seguir a un conjunto de determinados locutores delos que se dispone información acústica a priori. Los resultados muestran como unsistema de speaker diarization puede ayudar en la tarea de reconocimiento de locutorcuando hay más de un locutor en la conversación a analizar. Los resultados obtenidosestán en el orden de magnitud de los que obtienen los sistemas que existen en el estadodel-arte[5].Como líneas futuras de investigación en este campo proponemos mejoras en cada unode los módulos que componen el sistema de segmentación y agrupamiento de locutor,con el fin de acercar la tasa de detección a la obtenida por el sistema oracle.

Previous page

Next page

3

4

5

6

8

9

10

III Congreso de la Sociedad Española de Acústica Forense Página ...

Create successful ePaper yourself

Delete template?

Save as template?