01.07.2013 Views

Capítulo VISIÓN GENERAL DE MPEG-4 - Repositorio Digital EPN ...

Capítulo VISIÓN GENERAL DE MPEG-4 - Repositorio Digital EPN ...

Capítulo VISIÓN GENERAL DE MPEG-4 - Repositorio Digital EPN ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

se señala en el stream de bits que una región espectral es como "ruido",<br />

incluyendo información adicional que indique la energía total en esa región. De<br />

esta manera se evita la asignación de bits para este tipo de valores espectrales.<br />

3.3.2 HERRAMIENTAS <strong>DE</strong> CODIFICACIÓN <strong>DE</strong> AUDIO SINTÉTICO.<br />

<strong>MPEG</strong>-4 provee compresión, representación y transmisión de sonidos sintéticos y<br />

la combinación de sonidos naturales y sintéticos dentro de pistas de sonido<br />

híbridas. A través de las herramientas de audio <strong>MPEG</strong>-4 se proveen capacidades<br />

avanzadas para la transmisión de sonidos a bajas velocidades de transmisión,<br />

así como interactividad con escenas que contengan sonido.<br />

A diferencia de la codificación de audio natural, que usa modelos basados en la<br />

percepción (modelos perceptuales) para comprimir el audio natural, en la<br />

codificación de audio sintético se emplean modelos específicos para transmitir<br />

descripciones de sonido. Las descripciones son recibidas en el terminal de<br />

decodificación y convertidas en sonido a través de síntesis de sonido en tiempo<br />

real.<br />

3.3.2.1 Voz humana sintetizada.<br />

El sistema de conversión de texto a voz (Text-to-speech,, TTS), definido por<br />

<strong>MPEG</strong>-4, genera sonidos de voz de acuerdo a un texto dado.<br />

Los sistemas TTS típicamente consisten de múltiples módulos de procesamiento,<br />

como se muestra en la figura 3.58. Los sistemas aceptan texto como entrada y<br />

generan la correspondiente secuencia de fonemas. Los fonemas son las unidades<br />

más pequeñas del lenguaje humano; cada fonema corresponde a un sonido<br />

utilizado en la voz. Un conjunto de alrededor 120 fonemas, es suficiente para<br />

describir todo el lenguaje humano.<br />

La secuencia de fonemas se usa para generar una secuencia de voz básica sin<br />

prosodia, que es, sin tono (pitch), sin duración, y sin variaciones de amplitud.<br />

De forma paralela, un módulo de entendimiento de texto analiza la entrada para<br />

3.3.2.1.1 La interfaz Texto a Voz <strong>MPEG</strong>-4 (Interface Text-to-Speech, TTSI).<br />

El TTSI <strong>MPEG</strong>-4 es definido para que la voz pueda ser transmitida como un<br />

stream de bits que contenga texto.<br />

215

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!