11.07.2015 Views

III Congreso de la Sociedad Española de Acústica Forense Página ...

III Congreso de la Sociedad Española de Acústica Forense Página ...

III Congreso de la Sociedad Española de Acústica Forense Página ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

uno <strong>de</strong> los presentadores habituales se entrenaron con <strong>la</strong> voz existente en el conjunto <strong>de</strong>entrenamiento.La figura 3 muestra <strong>la</strong>s curvas <strong>de</strong> falso rechazo y falsa aceptación obtenidas para <strong>la</strong>presentadora <strong>de</strong> <strong>la</strong>s noticias (Marga Pazos) y <strong>la</strong> figura 4 <strong>la</strong>s obtenidas para <strong>la</strong>presentadora <strong>de</strong> los <strong>de</strong>portes (Mónica Martínez). Tomaremos como referencia el valorEER que es <strong>de</strong>l 2% para Marga Pazos y <strong>de</strong>l 1.28% para Mónica Martínez. Estasprestaciones constituyen el techo <strong>de</strong> <strong>la</strong>s prestaciones que se obtendrán con el sistemapropuesto en este artículo.Como hemos dicho anteriormente cada uno <strong>de</strong> los módulos que componen el sistema <strong>de</strong>segmentación, <strong>de</strong>tección y seguimiento <strong>de</strong> locutor comete errores. Así, el c<strong>la</strong>sificadorvoz/no-voz tiene una tasa <strong>de</strong> acierto (c<strong>la</strong>sifica segmentos <strong>de</strong> voz como voz) <strong>de</strong>l 99.1%, yuna tasa <strong>de</strong> falsa a<strong>la</strong>rma (c<strong>la</strong>sifica no-voz como voz) <strong>de</strong>l 15.8%. Estos errores influyennegativamente en <strong>la</strong>s prestaciones <strong>de</strong> los módulos <strong>de</strong> agrupamiento y verificación.Al utilizar el sistema propuesto para <strong>la</strong> tarea <strong>de</strong> <strong>de</strong>tección <strong>de</strong> los presentadores seobtiene una EER <strong>de</strong>l 15%, aproximadamente, en ambos casos. Este valor <strong>de</strong> EER essignificativamente mayor que el obtenido por el sistema oracle. Este incremento <strong>de</strong>error se <strong>de</strong>be principalmente a los errores cometidos por <strong>la</strong>s etapas <strong>de</strong> c<strong>la</strong>sificaciónacústica y <strong>de</strong> agrupamiento. Así, para mejorar <strong>la</strong>s prestaciones <strong>de</strong>l <strong>de</strong>tector habrá quesegmentar y agrupar mejor los locutores. Cabe notar aquí, que en el sistema <strong>de</strong><strong>de</strong>tección propuesto pue<strong>de</strong> ocurrir que se asocie con el locutor a <strong>de</strong>tectar más <strong>de</strong> uncluster ya que en <strong>la</strong> fase <strong>de</strong> agrupamiento se ha cortado el árbol a un nivel en el que elnúmero <strong>de</strong> clusters obtenidos es mayor que el número <strong>de</strong> locutores presentes en elnoticiario. Esto se ha hecho así para po<strong>de</strong>r agrupar en diferentes clusters voces <strong>de</strong> unmismo locutor entre <strong>la</strong>s que existe un <strong>de</strong>sajuste (mismatch) <strong>de</strong>bido a <strong>la</strong>s condicionesacústicas <strong>de</strong>l entorno, tan frecuentes en el área <strong>de</strong> <strong>la</strong> transcripción automática <strong>de</strong>noticiarios <strong>de</strong> TV.7 Conclusiones y líneas futurasEste artículo presenta nuestros estudios en el <strong>de</strong>sarrollo <strong>de</strong> un sistema <strong>de</strong> segmentación<strong>de</strong> audio que es capaz <strong>de</strong> <strong>de</strong>tectar y seguir a un conjunto <strong>de</strong> <strong>de</strong>terminados locutores <strong>de</strong>los que se dispone información acústica a priori. Los resultados muestran como unsistema <strong>de</strong> speaker diarization pue<strong>de</strong> ayudar en <strong>la</strong> tarea <strong>de</strong> reconocimiento <strong>de</strong> locutorcuando hay más <strong>de</strong> un locutor en <strong>la</strong> conversación a analizar. Los resultados obtenidosestán en el or<strong>de</strong>n <strong>de</strong> magnitud <strong>de</strong> los que obtienen los sistemas que existen en el estado<strong>de</strong>l-arte[5].Como líneas futuras <strong>de</strong> investigación en este campo proponemos mejoras en cada uno<strong>de</strong> los módulos que componen el sistema <strong>de</strong> segmentación y agrupamiento <strong>de</strong> locutor,con el fin <strong>de</strong> acercar <strong>la</strong> tasa <strong>de</strong> <strong>de</strong>tección a <strong>la</strong> obtenida por el sistema oracle.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!