01.07.2013 Views

Capítulo VISIÓN GENERAL DE MPEG-4 - Repositorio Digital EPN ...

Capítulo VISIÓN GENERAL DE MPEG-4 - Repositorio Digital EPN ...

Capítulo VISIÓN GENERAL DE MPEG-4 - Repositorio Digital EPN ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

La herramienta TTSI de <strong>MPEG</strong>-4 es una interfaz TTS escalable híbrido -<br />

multinivel considerado como un conjunto más poderoso que la infraestructura<br />

TTS convencional. EL TTSI extendido puede añadir información de prosodia<br />

tomada de la voz natural, además de la entrada de texto. La interfaz y su formato<br />

de stream de bits son altamente escalables en términos de ésta información<br />

añadida; por ejemplo, si algunos parámetros de la información de prosodia no<br />

están disponibles, el decodíficador puede generar los parámetros que faltan<br />

siguiendo determinada regla. Los algoritmos para síntesis de voz y para<br />

conversión de texto a fonemas no son normativos en <strong>MPEG</strong>-4.<br />

El TTSI de <strong>MPEG</strong>-4 tiene importantes funcionalidades como un codificador<br />

individual y como sincronizador con las técnicas de animación facial. Como un<br />

codificador autosuficiente, el formato del strea-m de bits provee enlaces para<br />

controlar el lenguaje que está siendo transmitido, el género, la edad del locutor, la<br />

velocidad de hablado y la prosodia de la voz.<br />

En algunas ocasiones se puede enviar un siream de bits que contenga solo<br />

texto que será convertido a voz. En este caso el sintetizador añadirá a la voz<br />

sintetizada prosodia predefinida o generados por una regla. La voz sintetizada con<br />

prosodia predefinida entregará contenido emocional al oyente.<br />

Por otro lado, se puede enviar un stream. de bits que contenga texto, así como<br />

la prosodia detallada de la voz original, como por ejemplo: secuencia de fonemas,<br />

duración de cada fonema, frecuencia base (pitch) de cada fonema, y la energía<br />

de cada fonema. La voz sintetizada en este caso será muy similar a la voz original<br />

ya que emplea la prosodia original.<br />

3.3,2.1.2 Proceso de Decodificación TTSI <strong>MPEG</strong>-4<br />

La arquitectura del decodificador puede ser vista como una colección de<br />

interfaces. El comportamiento normativo del TTSI de <strong>MPEG</strong>-4 es descrito en<br />

términos de estas interfaces, no del sonido o animación que estos producen.<br />

217

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!