TECNOLOGIE DI COMPRESSIONE AUDIO - Matematicamente.it

matematicamente.it

TECNOLOGIE DI COMPRESSIONE AUDIO - Matematicamente.it

Centro

Salesiano

don Bosco

Treviglio

scuola secondaria di secondo grado

via G. Zanovello, 1 - 24047 TREVIGLIO – Bergamo

tel 0363.31.39.11 – fax 0363.31.39.08

posta elettronica direttore.treviglio@salesiani.it

TECNOLOGIE DI

COMPRESSIONE AUDIO

SALA GABRIELE

5^ SCIENTIFICO A

ANNO SCOLASTICO 2006/2007

TREVIGLIO, GIUGNO 2007


SOMMARIO

CAPITOLO 1 – CENNI DI PSICOACUSTICA E DI TEORIA DEL SUONO .............5

1 - Fisica del suono ................................................................................................... 7

1.1 Dal concetto di onda al concetto di suono..............................................................................7

1.2 La forma delle onde: le armoniche e il principio di sovrapposizione ....................................8

1.3 L'uso della Trasformata di Fourier nello studio del suono.....................................................9

2 - Biologia del suono ............................................................................................. 11

2.1 Gli organi di senso dell'apparato uditivo..............................................................................11

Il timpano .......................................................................................................................11

I tre ossicini....................................................................................................................11

La coclea ........................................................................................................................11

2.2 I rischi del sistema uditivo ...................................................................................................12

CAPITOLO 2 – LA COMPRESSIONE DATI IN INFORMATICA.........................13

1 - Compressione dati ............................................................................................ 15

1.1 Cosa si intende per “compressione”? ...................................................................................15

1.2 Diversi tipi di compressione.................................................................................................16

Lossless:.........................................................................................................................16

Lossy: .............................................................................................................................16

1.3 Tecniche di compressione dati: la ridondanza .....................................................................17

1.4 Perché comprimere un file compresso non è conveniente ...................................................20

2 - Il settore audio della compressione................................................................. 21

2.1 Il punto di partenza...............................................................................................................21

2.2 Registrazione digitale di un suono: il campionamento ........................................................21

La frequenza di campionamento: .................................................................................22

La profondità .................................................................................................................22

2.3 I fenomeni sfruttati dalla compressione dell'audio...............................................................23

Frequenze. .....................................................................................................................24

Mascheramento. ............................................................................................................24

Differenze fra suoni.......................................................................................................24

2.4 Psicoacustica ........................................................................................................................24

2.5 Gli effetti di mascheramento................................................................................................25

2.6 Diversi tipi di codifica..........................................................................................................26

Codifica nel dominio del tempo .....................................................................................26

Codifica per modelli.......................................................................................................27

Codifica nel dominio delle frequenze.............................................................................27

2.7 Molti compromessi: lo streaming.........................................................................................27

3


CAPITOLO 3: I FORMATI DI COMPRESSIONE AUDIO...................................29

1 - Il formato Mpeg ................................................................................................31

1.1 Il successo del formato do compressione Mpeg.................................................................. 31

Mpeg-I............................................................................................................................ 31

Mpeg-II .......................................................................................................................... 31

Mpeg-IV ......................................................................................................................... 31

Layer I........................................................................................................................ 32

Layer II ...................................................................................................................... 32

Layer III ..................................................................................................................... 32

1.2 Il funzionamento generale del formato Mpeg ..................................................................... 32

1.3 Il formato Mp3: i miglioramenti.......................................................................................... 34

1.4 Le fasi della compressione Mpeg ........................................................................................ 34

Analisi............................................................................................................................ 34

Utilizzo del modello psicoacustica ................................................................................ 34

Codifica.......................................................................................................................... 34

Stream............................................................................................................................ 34

Decodifica.................................................................................................................. 35

Codifica inversa ......................................................................................................... 35

Sintesi ........................................................................................................................ 35

2 - Il formato Mp3..................................................................................................36

2.1 Dove, quando e perché ........................................................................................................ 36

2.2 Il funzionamento del formato Mp3...................................................................................... 36

Analisi............................................................................................................................ 36

Modello percettivo ......................................................................................................... 37

Quantizzazione e codifica.............................................................................................. 37

Creazione dello stream.................................................................................................. 37

2.3 Il rumore .............................................................................................................................. 37

2.4 La riproduzione di un file Mp3............................................................................................ 38

3 – Cenni sui formati Mpeg II ed Mpeg IV .........................................................40

INDICI E BIBLIOGRAFIA ..............................................................................41

Indice delle tabelle..................................................................................................42

Indice delle figure...................................................................................................42

Riferimenti bibliografici........................................................................................43

4


CAPITOLO 1

CENNI DI PSICOACUSTICA E DI TEORIA DEL SUONO

5


1 - Fisica del suono

1.1 Dal concetto di onda al concetto di suono

Si definisce onda qualsiasi genere di perturbazione che si propaga in un mezzo materiale.

Un'onda non muove particelle materiali, ma trasferisce energia: ogni punto in cui viene propagata

l'onda è sede di energia cinetica, che viene quindi spostata dalla sorgente nel mezzo di

propagazione.

A seconda della direzione di propagazione, le onde vengono divise in due categorie:

onde longitudinali: le particelle del mezzo di propagazione oscillano nella stessa direzione di

propagazione dell'onda

onde trasversali: le onde oscillano trasversalmente alla direzione di propagazione.

È di particolare importanza il concetto di periodicità delle onde: si definiscono periodiche

quelle onde che si riproducono identiche a se stesse ad intervalli di tempo regolari, ovvero ogni

punto dell'onda assume, dopo intervalli regolari di tempo, le medesime caratteristiche.

L’ampiezza d'onda rappresenta il massimo valore della grandezza rappresentativa dell'onda

in un periodo. [Wiki]

Il suono è una particolare specie di onda di natura meccanica: si intende per suono, infatti, la

sensazione che viene generata da una serie di onde di pressione dell'aria che raggiungono il nostro

orecchio. Esso è un'onda di tipo longitudinale e non si propaga nel vuoto (in quanto si basa sulla

densità delle particelle del mezzo di propagazione).

Le caratteristiche fondamentali di un'onda sonora

sono le seguenti: [Ber05]

1. altezza: caratteristica associata alla

frequenza, ovvero quante volte l'onda assume

le medesime caratteristiche in ogni suo punto

in un secondo. Viene espressa in Hertz (Hz);

2. intensità: grandezza associata all'energia

che viene spostata dall'onda. Si distinguono

due tipi di intensità:

2.1.1. l'intensità fisica (che dipende solo

dal valore della pressione massima

dell'onda sonora); viene misurata in

Pascal, unità di misura del Sistema

Internazionale propria della

pressione.

Fig. 1: Rappresentazione delle curve isofoniche e dei

valori di sensazione sonora. [Cra01]

2.1.2. l’intensità fisiologica (che dipende dalla percezione del nostro orecchio in base alla

frequenza del suono: suoni di uguale intensità ma diversa frequenza generano

sensazioni di intensità diverse); viene misurata in Phon 1 , che indica il valore della

sensazione sonora. La stessa sensazione sonora può venire prodotta da una serie di

suoni aventi intensità e frequenze diverse, che vanno a costituire le varie curve

isofoniche [Fig.1];

1

Phon: Unità di misura della percezione dell'intensità sonora alla frequenza di 1KHz. Utilizzato per identificare le

curve isofoniche. [Audiosonica.com]

7


8

3. timbro: ogni sorgente audio possiede caratteristiche peculiari che la differenziano da tutte le

altre. Queste differenze risiedono nel timbro, ovvero nella particolare forma d'onda audio che

produce quella determinata sorgente. Due sorgenti che producono due suoni di uguale intensità

e frequenza possono essere riconosciute e distinte a seconda del loro timbro.

Spesso si usa anche indicare di un suono il suo livello di pressione sonora: espresso di

deciBel (dB), esso è un’unità di relazione logaritmica, poiché la sensazione sonora in un individuo

normoudente è legata ad una relazione di tipo logaritmico.

Il livello della pressione sonora (indicato con Lp) viene ricavato a partire dall’intensità sonora

mediante la relazione:

Fig. 2: Formula della percezione sonora [IAc.it]

dove p è l’intensità sonora (fisica), p0 è la pressione standard (p0 = 1 atm = 101.325 Pa).

1.2 La forma delle onde: le armoniche e il principio di sovrapposizione

Un'onda di tipo acustico è rappresentabile

tramite una linea curva, spezzata o continua, i cui

punti rappresentano i livelli di pressione che essa

assume al passare del tempo.

Ogni onda che, nello spazio, incontra un'altra

onda (per esempio, in un ambiente ricco di sorgenti

sonore) interagisce con essa per formare un'altra

onda, che costituisce il risultato della somma delle

due onde. Quasi tutti i suoni presenti in natura

sono, generalmente, il risultato della

sovrapposizione di onde sonore più semplici,

definite armoniche [Fig. 3]. I suoni che non sono

frutto della composizione di altri suoni sono detti

anche suoni puri (il suono del diapason).

La sovrapposizione di più onde armoniche

avviene anche all'interno di sorgenti sonore stesse,

che emettono suoni composti da diverse

armoniche, come i vari strumenti musicali. Tutto

ciò ci permette di riconoscere diversi tipi di suoni

(la voce e la sua modulazione) e diversi tipi di sorgenti (il timbro).

Un suono prodotto da uno strumento musicale, che rappresenta una nota, è, spesso, composto

da più suoni puri diversi, corrispondenti ciascuno ad armoniche diverse. Grazie a questo fenomeno,

siamo in grado di riconoscere un DO centrale da un DO distante 2 Figura 3: Un'onda sonora composta da diverse

armoniche. [Gui01]

da esso, anche se si assomigliano

molto.

2 Per trovare l'ottava di una nota è sufficiente moltiplicare per due la frequenza della nota fondamentale. Vedi [Fig.4].


Fig. 4: Frequenze relative di ogni DO della scala

musicale. [Lom06]

Inoltre, musicisti particolarmente allenati

nell'ascolto sono in grado di riconoscere le varie

componenti di un suono prodotto da uno

strumento musicale: basandosi su una tonalità di

riferimento (cosiddetto orecchio relativo) o

addirittura senza riferimenti (cosiddetto orecchio

assoluto), essi riescono ad individuare con

relativa precisione la nota ascoltata, la sua

posizione all'interno della scala musicale o,

addirittura, se si suona un accordo, la tonalità

stessa dell'accordo (minore o maggiore), che

varia a seconda delle armoniche da cui è

composto.

Il cervello, in questi casi, analizza il suono, percepito nel tempo, e lo rielabora sotto l'aspetto

delle frequenze. è un'operazione molto complessa, che la biologia del cervello riesce a fare in

maniera tanto più precisa quanto più è allenata la persona che la compie, e che viene utilizzata, in

matematica e in fisica, per studiare le componenti spettrali di un'onda complessa. Tali operazioni

sono eseguite tramite un operatore matematico chiamato Trasformata di Fourier.

1.3 L'uso della Trasformata di Fourier nello studio del suono

La Trasformata di Fourier è un particolare integrale definito, che viene utilizzato per un

duplice scopo:

scomporre un'onda sonora

complessa in una somma di onde

armoniche più semplici in funzione del

seno e del coseno. Matematicamente

parlando, esso consente di descrivere

una funzione non periodica complessa

tramite funzioni elementari periodiche;

analizzare dal punto di vista

matematico un fenomeno fisico che

richiederebbe calcoli straordinariamente

complessi, in modo tale da poter

risolverli in modo più semplice e lineare

ottenendo gli stessi risultati.

Preso un generico segnale periodico Xt0(t) di periodo T0 e frequenza f0, lo sviluppo in serie di

Fourier fornisce una rappresentazione del segnale come somma di seni e coseni, caratterizzati da

una specifica ampiezza e da una frequenza multipla intera della frequenza fondamentale fn:

X

T 0

( t)

= a

0

+

+

n=

0

A * cos( n * 2 *

n

* f * t)

+ j * B * sen(

n * 2*

* f * t)

0

Fig. 5: Formula della Trasformata di Fourier.

[Matematicamente.it]

n

0

9


Il calcolo della Serie di Fourier si riduce allora alla determinazione dei coefficienti

10

A0 = ampiezza della componente continua del segnale

An = ampiezza delle armoniche cosinusoidali

Bn = ampiezza delle armoniche sinusoidali

In genere non è necessario descrivere tutte le infinite componenti: il calcolo delle prime 10

armoniche è già di per sé sufficiente per fornire un’approssimazione accettabile del segnale di

partenza.

Naturalmente, più coefficienti vengono calcolati, migliore e più precisa è la descrizione del

segnale audio.

Il calcolo di questo integrale necessita di strumenti matematici complessi come il calcolo su

variabili immaginarie e degli integrali definiti da meno infinito a più infinito.

La Trasformata di Fourier è un passo avanti nello studio della Serie di Fourier, che

rappresenta lo stadio precedente dello stesso operatore, in grado di descrivere funzioni periodiche

complesse mediante funzioni periodiche più semplici. Si passa allo studio della Trasformata di

Fourier per funzioni non periodiche quando si considera infinito il periodo della funzione (infatti, la

Trasformata di Fourier è un integrale definito da meno infinito a più infinito), facendo tendere, cioè,

il limite del periodo ad infinito.

Un segnale periodico, sotto opportune ipotesi, si può vedere come la somma di infiniti

segnali sinusoidali (sviluppo in serie di Fourier). [Cos07]


2.1 Gli organi di senso dell'apparato uditivo

Alla base della percezione uditiva ci sono

diversi organi, sollecitati dalle perturbazioni di

pressione delle onde audio, e complessi processi

biologici che intervengono a comporre la

sensazione uditiva finale.

Il senso dell'udito ha sede nelle tre parti in cui

è diviso l'orecchio: la parte esterna, la parte media e

la parte interna. Le diverse parti sono così composte

[Fig. 6]:

2 - Biologia del suono

Parte esterna: padiglione auricolare, condotto

uditivo e timpano;

Parte media: martello, incudine e staffa, i tre

ossicini più piccoli del corpo. È in comunicazione

Fig. 6: Disegno dell'orecchio. [Far99]

con la faringe tramite le trombe di Eustachio, che

hanno il compito di equilibrare gli stati di

pressione tra i due lati del timpano;

Parte interna (separata dalla media da una membrana, che poggia sulla staffa): coclea (dal

latino, chiocciola), dalla quale parte il nervo acustico.

Della struttura dell’orecchio il timpano, gli ossicini e la coclea sono gli organelli principali.

Il timpano

È una membrana elastica, molto sottile, in grado di mettersi in vibrazione con l'arrivo di

perturbazioni di pressione provenienti dall'ambiente esterno. Non può percepire suoni al di fuori

della soglia di udibilità che, nell'uomo, è compresa mediamente fra i 16-20 Hz e i 16-20 kHz.

Suoni di particolare frequenza o intensità producono una sensazione di dolore che non è dovuta

a particolari fenomeni violenti, bensì dagli effetti dinamici che questi suoni provocano sulla

membrana del timpano.

Non è raro che il timpano subisca seri danni in seguito a sollecitazioni troppo violente o

dopo essere stato esposto per periodi di lunga durata a sollecitazioni di media intensità ma

particolarmente fastidiose.

I tre ossicini

Martello, incudine e staffa, i tre ossicini più piccoli del corpo, convogliano le vibrazioni

sonore dal timpano alla coclea. Il martello è collegato direttamente alla membrana del timpano,

l'incudine e la staffa le trasmettono alla coclea tramite un'altra membrana.

Se l'efficacia del timpano è relativamente semplice da ripristinare in seguito a traumi o alla

perdita progressiva delle capacità uditive, causata dall'età, più complesso risulta un intervento

sui tre ossicini in caso di un loro malfunzionamento. Il fatto di essere racchiusi in una cavità

così protetta del corpo, le loro dimensioni e la loro così delicata fisionomia rendono difficile un

intervento chirurgico diretto.

La coclea

Organo complesso e non ancora del tutto conosciuto dagli studiosi, la coclea è una galleria,

avvolta su se stessa, piena di liquido e divisa in tre canali. Il più importante dei tre è quello

11


12

centrale, sede delle cellule recettrici dell'udito, poste sulla membrana basilare. Queste cellule,

dotate di ciglia (stereociglia) dette anche cellule capellute, sono disposte in una precisa

sequenza lungo tutta la chiocciola, formando l'organo di Corti, e sono sovrastate da una

membrana tectoria extracellulare. L'arrivo di una perturbazione di pressione dalla membrana

della staffa fa piegare le stereociglia sulla membrana tectoria, provocando una depolarizzazione

delle cellule ciliate che viene tradotta in una serie di impulsi nervosi, raccolti, infine, dal nervo

acustico.

Studi di psicoacustica riferiti alla percezione uditiva media provano che la precisione delle

sensazioni uditive hanno un andamento logaritmico che va dai suoni più gravi a quelli più acuti

[vedi Capitolo 2]; questo fenomeno è provato dalla disposizione delle cellule ciliate lungo l'organo

di Corti e dalla disposizione dei loro collegamenti con il nervo acustico.

2.2 I rischi del sistema uditivo

L'orecchio umano, come tutti gli altri organi del corpo, è esposto a numerosi pericoli sia per

quanto riguarda disturbi sia abusi. Di questi ultimi si è cominciato a parlare da qualche anno, in

seguito all'esplodere delle nuove tecnologie audio-musicali: dai lettori multimediali portatili alla

frequentazione di ambienti acusticamente inquinati, le cause dei disturbi uditivi sono in crescita

esponenziale.

Per come è strutturato, il timpano ha dei limiti ben precisi per il suo utilizzo. Se esiste un

limite prima del quale un suono non viene percepito (0 dB), esistono anche dei limiti per intensità

sonora: rischia seri danni un timpano esposto per un breve tempo ad una sollecitazione di 120 dB.

Infatti: [Cel00]

Soglia dell'udibile = 2 x 10 -5 Pascal = 0 dB

Soglia del dolore = 100 Pascal = 120 dB

Tuttavia, se 120 dB è considerata un'intensità sonora piuttosto considerevole, è vero anche che

suoni di 80 dB e di durata più lunga possono sortire gli stessi effetti di un suono di 120 dB più

breve.

È quindi necessario avere cura del proprio orecchio sia dal punto di vista fisiologico che nelle

abitudini. Esistono infiniti tipi di rumori pericolosi per il nostro orecchio, molti dei quali

provengono, spesso, da fonti vicine a noi, in luoghi familiari o in strada. Alcuni esempi di valori,

espressi in deciBel, di pressione sonora di alcuni suoni comuni sono riportati nella seguente tabella:

Tipo di rumore dB

Normale conversazione 60

Traffico cittadino 80

Sparo di arma da fuoco 140/170

Tab. 1: Esempi di valori dei rumori più comuni. [Airs.it]


CAPITOLO 2

LA COMPRESSIONE DATI IN INFORMATICA

13


1 - Compressione dati

1.1 Cosa si intende per “compressione”?

Parlare di compressione è come parlare di riassunti: il concetto di fondo è quello di ridurre lo

spazio occupato da una certa quantità di dati. Quando si riassume un testo, infatti, si scrive qualcosa

che abbia lo stesso significato di un testo dato, occupando meno parole; occupare meno parole

significa risparmiare spazio ed inchiostro. Tanto migliore vogliamo che sia il risultato, tanto più

impegno dobbiamo mettere nel riassumere il testo.

In ambito informatico, questo processo viene portato sul piano logico-matematico. Un pc

memorizza grandi quantità di dati in linguaggio binario, ovvero come serie di 1 e di 0. Ogni 1 e 0

costituiscono un bit; una serie di 8 cifre, ovvero di 8 bit (per esempio “10001011”), viene chiamata

byte.

Per un computer, comprimere un file vuol dire trovare tutti quegli accorgimenti che

consentono di salvare quel file conservando tutta l’informazione ma occupando meno byte

possibile. Per esempio, in un qualsiasi testo in lingua italiana, dopo ogni lettera q seguirà

certamente (tranne per la parola “soqquadro”) una lettera u.

Quando si parla di software di compressione ci si riferisce ad un algoritmo, un insieme di

operatori logico-matematici in grado di lavorare con una discreta autonomia su dati informatici e

che rappresentano il nocciolo del software. Essi possono essere considerati come il motore di una

macchina, l'interfaccia grafica alla carrozzeria e tutto il software come la macchina stessa.

Le tecniche di compressione sono molte e differenti, ciascuna adatta ad ogni formato di dato.

Ci sono algoritmi che danno risultati eccellenti se applicati su dati di tipo multimediale e altri su

documenti di testo. I formati più diffusi sui pc moderni (Zip per Windows, Stuffit per Mac, etc..) si

basano su algoritmi “intelligenti”, che sanno adattarsi, nella maggior parte dei casi, al tipo di dato

da comprimere.

L’azione inversa della compressione è la decompressione. Come si può intuire dal nome,

attraverso la decompressione si trasforma un file compresso in un file non compresso. Utilizzando

un pc connesso ad internet capita frequentemente di imbattersi in file già compressi, per esempio

file di tipo Zip. Prima di poter accedere ad un file di questa specie è necessario, quindi,

decomprimerlo. Infatti, se si parla di compressione di un file, si parla di un processo attraverso il

quale è stato modificato un file, trasformandolo in un altro che occupa meno byte, e salvato con un

altro formato. Per ritornare al file originale, il software di compressione usato procede al contrario:

ricostruisce i dati di partenza ripristinando le parti “riassunte” o tagliate nella fase di compressione

Il problema principale della compressione è questo: il file, una volta decompresso, è uguale

oppure no all’originale?

Informazione di

partenza

?

Informazione

ricostruita

Compressione

Decompressione

File compresso

A seconda del rapporto che intercorre tra informazione originale e informazione ricostruita, si

parlerà di compressione Lossless (senza perdita di informazione) o Lossy (con perdita di

informazione).

15


1.2 Diversi tipi di compressione

A diversi tipi di dati corrispondono diversi tipi di compressione. Tra un file audio, di testo e

video ci sono molte differenze, sia a livello quantitativo sia a livello qualitativo. A priori, un file di

testo considerato “enorme” alla percezione umana (come può essere, ad esempio, una versione

digitale di un libro di 2000 pagine) occupa molto meno spazio su supporti di registrazione che un

file audio di pochi minuti ad alta qualità. Perché?

Va innanzi tutto precisato che la natura dei dati informatici dipende molto dalle affinità che ci

sono tra il tipo di dato e il modo di “pensare” che ha il computer: c'è molta più somiglianza tra il

sistema binario e un testo che tra il sistema binario e un'onda sonora. Infatti, un'onda sonora ha

bisogno di essere trasformata in una serie di valori numerici prima di essere elaborata dal pc.

La maggior parte dei sistemi di compressione informatica sfrutta le potenzialità di calcolo dei

moderni computer al fine di risparmiare spazio. Con questo sistema, ad elevate percentuali di

compressione corrispondono tempi di compressione più lunghi, e lo sviluppo tecnologico consente

di ridurre sempre di più il tempo impiegato dalla compressione.

Tutti i formati di compressione esistenti possono essere ricondotti a due grandi categorie

principali:

Lossless:

Durante la compressione non viene persa alcuna informazione. Appartengono a questa

categoria i compressori destinati a dati non multimediali in generale (codici di programmazione,

documenti di testo, software, etc). Per questo, per compressori lossless si intende tutta quella

categoria di software che sfruttano algoritmi in grado di comprimere un file senza eliminarne

alcun dato. Dal risultato finale di questo tipo di compressione è possibile ricostruire

fedelmente il file originale.

Lossy:

Durante la compressione vengono eliminate alcune informazioni considerate “scarsamente

significative”, a favore dello spazio risparmiato ma a discapito dell'integrità del file originale.

Appartengono a questa categoria i compressori destinati a dati di tipo multimediale. Per

compressione lossy, perciò, si intende quel tipo di compressione che modifica il file originale,

eliminandone alcune parti in modo più o meno incisivo, creandone uno dal quale non è

possibile ricostruire fedelmente il file originale ma uno molto simile, una copia

approssimata. Viene usato questo tipo di compressione per risparmiare lo spazio occupato da

file multimediali (immagini, suoni, video, ecc.). La compressione risulta efficiente nel momento

in cui il risultato finale occupa meno spazio dell'originale e i nostri sensi non sono in grado di

cogliere significativamente le differenze tra il file originale e quello compresso.

Un compressore specifico per un certo tipo di dati potrebbe dare risultati insoddisfacenti se

applicato ad un formato di dati diverso da quello per cui è stato progettato.

Lossless Lossy

Testo Zip /

Immagini Gif Jpeg

Audio Wav Mp3

Video Avi (non compresso) Mov

Tab. 2: Esempi di formati lossy e lossless.

Come si desume dalla tabella, per i testi non esiste un formato di compressione lossy, in

quanto tagliare direttamente porzioni intere di testo significa andare a modificare il documento

16


stesso. Eliminare parti di un documento influisce notevolmente sul risultato finale, per cui è

impensabile pensare di applicare un formato di compressione lossy ad un testo.

Per questo motivo, lo strumento più sfruttato per comprimere un testo con una compressione

di tipo lossless è la cosiddetta ridondanza.

1.3 Tecniche di compressione dati: la ridondanza

Ci sono molti fenomeni che vengono sfruttati per risparmiare spazio. Uno tra i più importanti

è la ridondanza: per ridondanza si intende la ripetizione di porzioni identiche di dati in una

determinata sequenza. La ridondanza è presente in molti ambiti del sapere umano, compresa la

retorica; in generale, con essa si identificano tutte quelle parti di informazione non necessarie, che

possono essere eliminate senza problemi. [Wiki]

Si può considerare, ad esempio, quante volte la lettera “i” è stata utilizzata all'interno di questo

paragrafo, e la distanza tra le singole lettere “i”. Agendo su questi aspetti, un software è in grado di

creare uno schema che si basa su queste ripetizioni piuttosto che sul testo stesso.

VERSIONE NON COMPRESSA VERSIONE COMPRESSA

Nel mezzo del cammin di nostra vita

mi ritrovai per una selva oscura

ché la diritta via era smarrita.

Ah quanto a dir qual era è cosa dura

esta selva selvaggia e aspra e forte

che nel pensier rinova la paura!

Tant'è amara che poco èpiù morte

ma per trattar del ben ch'io vi trovai,

dirò dell'altre cose ch'io v'ho scorte...

Nl mzz dl cmmn d nstr vt

m rtrv pr n slv scr

ch l drtt v r smrrt.

h qnt dr ql r cs dr

st slv slvgg spr frt

ch nl pnsr rnv l pr!

Tnt' mr ch pc p mrt

m pr trttr dl bn ch' v trv,

dr dll'ltr cs ch' v'h scrt...

Tab. 3: Esempio di compressione su un testo sfruttando la ridondanza. [Nar00]

Per quanto riguarda il formato audio, invece, è molto difficile trovare attimi in cui il segnale in

uscita sia esattamente identico; è, cioè, praticamente impossibile trovare un numero consistente di

istanti in cui l'onda sonora da emettere sia identica in tutte le sue componenti in più punti di uno

stesso flusso audio.

Le tecniche di compressione che si basano sulla ridondanza hanno anche il vantaggio di avere

un ulteriore controllo contro la possibile insorgenza di errori nella compressione. La ridondanza è,

infatti, uno strumento di controllo, oltre che di compressione, specialmente in fase di trasferimento

dei dati via Internet.

Nelle pagine seguenti, come esempio di compressione lossy, un confronto tra un’ immagine

ad alta definizione e la stessa immagine compressa mediante algoritmo JPEG al 90% di

compressione:

17


Fig. 7: Confronto fra un’immagine ad alta definizione prima della compressione… [Istart.com]

18

Caratteristiche dell’immagine

Dimensioni: 1024 x 768 pixel

Spazio occupato: 846 Kb


Fig. 8: …e dopo la compressione. [Istart.com]

Caratteristiche dell’immagine

Dimensioni: 1024 x 768 pixel

Spazio occupato: 80 Kb

Si può facilmente notare che i particolari dei fiori nel campo e dei rami degli alberi appaiono,

nella seconda, molto meno precisi, tanto che risulta difficile distinguerli tra loro, a differenza della

prima nella quale ciò risulta possibile.

19


1.4 Perché comprimere un file compresso non è conveniente

Nel grande marasma dei formati di compressione esistenti, molti sono quasi equivalenti,

compatibili tra loro e possono essere usati contemporaneamente su uno stesso file. Purtroppo, però,

una volta compresso un file, se lo si comprime con un altro software, diverso da quello usato per la

prima compressione, non ci sono risparmi di spazio significativi, poiché il file si presenta in una

forma già troppo essenziale.

Perciò, non ha senso proporre di comprimere un determinato file più volte e con software

diversi al fine di ottenere un risultato migliore!

Inoltre, lo stesso software di compressione fornisce risparmi di spazio molto diversi a seconda

del tipo di file che si comprime.

20


2 - Il settore audio della compressione

2.1 Il punto di partenza

Negli ultimi anni, il settore informatico e quello musicale del commercio mondiale si sono

avvicinati sempre di più, grazie alla messa in commercio di lettori audio tecnologicamente sempre

più avanzati e alle richieste sempre più notevoli da parte dei consumatori.

L'esigenza più rilevante nel mercato è quella di avere sempre a disposizione un numero

consistente di canzoni, o di dati in generale, in un dispositivo portatile di dimensioni ridotte e

senza riduzione di qualità.

Da una parte grandi multinazionali della musica offrono, ormai da anni, la possibilità di

acquistare musica online tramite carta di credito, dall'altra milioni di utenti scaricano, in modo più o

meno legale, una quantità incalcolabile di brani audio tramite software di condivisione file. Lo

stesso mercato musicale online è cresciuto, nel 2006, complessivamente del 44%: nello specifico, la

vendita legale di brani musicali online è cresiuta del 119% per un fatturato medio di 7 milioni di

euro. [Html.it]

Tutto ciò non sarebbe possibile senza la

compressione audio. Infatti, i costi di memorizzazione e,

aspetto di notevole importanza, di trasferimento

sarebbero troppo ingenti senza di essa: un Cd Audio da

80 minuti contiene circa 700 Mb di flusso audio non

compresso di alta qualità e occuperebbe, se copiato

fedelmente su disco fisso, gli stessi 700 Mb. Tuttavia, se

700 Mb di spazio è una dimensione accettabile per un Cd,

non lo è per quanto riguarda il disco rigido di un

computer, nel quale 700 Mb rappresentano una

dimensione più che considerevole, né tantomeno per una

trasmissione via Internet.

Il problema è ancora più evidente se prendiamo in

considerazione i supporti di riproduzione portatili la cui

capacità è di sicuro inferiore a quella di un computer

domestico.

La questione è stata quindi affrontata e, in parte,

risolta fino ad arrivare ad un compromesso più che

accettabile. Un album di 800 Mb di musica occupa, una

volta compresso, una dimensione che varia dai 52 ai 180

Mb [Fig. 9], in media, su disco senza una così fastidiosa

perdita di qualità, a seconda della qualità media del

risultato e dal formato di compressione scelti dall'utente.

Fig. 9: Finestra di scelta del bitrate e del

formato di compressione in Windows

Media Player 10 [Microsoft.com]

Se si pensa, inoltre, a quegli utilizzi per cui la qualità sonora non dev'essere elevata, come una

telefonata o una trasmissione audio non professionale, una scelta mirata del formato di

compressione più adatto fornisce la soluzione più funzionale al problema della trasmissione audio.

2.2 Registrazione digitale di un suono: il campionamento

Campionare un segnale audio significa tradurre un flusso audio continuo in una serie

discreta di valori numerici, in modo tale da poterli memorizzare. Il nome del sistema di

campionamento più diffuso è PCM (Pulse Code Modulation), ed è utilizzato in tutti i sistemi di

registrazione e di conversione audio digitale, per poi essere elaborato dai computer all'interno di

formati audio non compressi come Wave, AIFF e AU. [Fig. 10]

21


I valori numerici in cui è stato tradotto il segnale sono i valori che esso assume in intervalli

equidistanti di tempo.

La qualità della registrazione digitale viene determinata da due valori fondamentali: la

frequenza di campionamento e la profondità:

22

Fig. 10: Campionamento PCM, schema

esemplificativo. [Lor04]

La frequenza di campionamento:

misurata in kiloHertz (kHz), indica il numero di

campioni audio che vengono registrati in un secondo: se

essa è pari a 44.100, vuol dire che in un secondo sono

stati regis trati 44.100 valori numerici riferiti al suono

in entrata.

La profondità

indica l'accuratezza di ogni singolo campione: ogni

campione è come una parola che descrive un istante di

suono campionato. Più lettere ha la parola, più precisa

risulta la descrizione. Per questo, un campionamento a

16 bit è molto più fedele di un campionamento a 8 bit,

ma occupa anche il doppio dello spazio. Un campione a

16 bit ha 65.536 (2 16 ) combinazioni. [Gui01]

Una frequenza di campionamento ottimale per

l'orecchio umano è di 44.100 Hz. Questo valore deriva

dal Teorema del Campionamento, per cui il numero di

campioni al secondo di un flusso audio dev'essere pari

alla massima soglia di udibilità moltiplicata per due.

[Lithium.it] Questo concetto è anche alla base del

teorema di Shannon-Nyquist, che afferma: “È possibile ricostruire correttamente un segnale

continuo, variabile nel tempo, da una serie di valori digitali discreti, quando questi sono stati presi

con una frequenza di campionamento pari o superiore al doppio della massima frequenza

contenuta nel segnale in input”. [Stru03]

Un brano musicale inciso su Cd-Audio ha, in genere, le seguenti caratteristiche:

frequenza di campionamento pari a

44.100 campioni al secondo.

profondità pari a 16 bit, corrispondente

a 2 byte per ogni istante di

campionamento: 2 byte * 8 bit / byte =

16 bit;

2 canali di uscita audio (per un flusso

audio di tipo stereo).

Le dimensioni occupate dal brano al minuto sono pari a:

Fig. 11: Una campionatura a 44100 campioni è molto più

precisa di una a 22000. [Gui01]

44.100 campioni/secondo * 2 byte/campione * 2 canali * 60 secondi = 10.584.000 byte

quantificabili approssimativamente in 10 Mbyte. [Vis01]

Come già accennato, se un valore del genere è accettabile in un Cd-Audio, non lo è per quanto

riguarda il trasferimento via internet e lo stoccaggio su supporti di memorizzazione. Per questo

motivo, su questo substrato digitale agiscono i vari sistemi di compressione che lo modificano in

modo permanente (compressione lossy) o non permanente (compressione lossless) al fine di


idurre lo spazio occupato dal flusso audio. Nella maggior parte dei casi, per contenuti di tipo

multimediale si preferisce utilizzare sistemi di compressione lossy (con perdita) a patto che il

risultato finale sia ad una prima percezione identico all'originale.

Tuttavia, esistono anche formati di compressione lossless specifici per il formato audio che

agiscono direttamente sul flusso PCM non compresso. Sono formati di compressione lossless

particolarmente efficaci e con rapporti ci compressione vantaggiosi, con percentuali di spazio

risparmiato che sfiorano il 50%; vengono utilizzati più largamente nel formato MPEG-4 [vedi

Capitolo 3]. [Xia04] Questi sistemi, però, si rendono inutili quando vengono applicati su formati

audio già compressi in altri formati, come, per esempio, l'Mp3. Infatti, in questi casi le percentuali

di compressione scendono drasticamente verso l'1-2%. [Programmifree.it]

2.6]

La codifica di tipo PCM rientra nella tipologia di compressione nel dominio del tempo. [sez.

Esiste inoltre un altro tipo di codifica PCM di tipo lossless, chiamata ADPCM (Adaptive

Differential Pulse Code Modulation) che si basa sulle differenze che esistono tra i campioni

registrati con il metodo PCM. Durante la codifica, a ciascun campione viene sostituita

l'informazione della differenza che intercorre tra quel campione e quello precedente; questa

informazione è così composta: 1

bit che identifica il segno della

differenza più un valore che ne

determina l'ammontare. Essendo

per forza la differenza minore del

campione stesso, il risultato sarà

un risparmio di spazio

considerevole [Fig. 12]. In

decodifica, il segnale originale

viene ricostruito sulla base delle

Fig. 12: Schema del funzionamento della codifica ADPCM. [Lom00]

informazioni delle differenze tra i

vari campioni.

Uno strumento in più per

ottimizzare ulteriormente questo

sistema di compressione è la creazione di una tabella di look-up, ovvero una tabella che associa dei

valori standard a dei puntatori all'indice; grazie a questo sistema non si rende più necessario

memorizzare le singole differenze, ma solo i rispettivi puntatori all'indice, i quali contengono

l'informazione sulla differenza. [Lom00]

2.3 I fenomeni sfruttati dalla compressione dell'audio

Spesso la compressione di un file audio lo modifica in maniera permanente. Ciò vuol dire che

il risultato finale è un suono fisicamente diverso all'originale. Come mai allora si procede alla

compressione se questa in qualche modo modifica il suono?

In realtà, il risultato finale, pur non essendo esattamente uguale al suono di partenza, è molto

simile a questo; anzi, se per la compressione si sono usati software corretti e di qualità, il suono da

noi percepito sarà praticamente identico al primo. Questo perché la compressione agisce su quei

suoni che l'orecchio umano non è in grado di percepire.

Il genere di suoni che il nostro orecchio non percepisce sono quelli troppo gravi (di bassissima

frequenza) o quelli troppo acuti (di frequenza altissima), quelli posti in determinati punti oppure

quelli talmente rapidi da non essere neppure percepiti.

23


È perciò possibile ridurre lo spazio occupato dal file andando ad agire sugli effetti che questo

provoca sul nostro orecchio. Questo processo è stato sviluppato secondo metodologie e

interpretazioni diverse. I principi sui quali si basano le più importanti ricerche in campo di

compressione sono le seguenti:

24

Frequenze.

L'orecchio umano è in grado di recepire ed

interpretare suoni di frequenza compresa fra 16-

20 Hz e 16-20 kHz. Suoni la cui frequenza è

fuori da questo intervallo non sono percepibili.

Da ciò segue che ogni suono che abbia

frequenza al di fuori da questo intervallo è

inutile ai fini dell'ascolto. Questo principio non

è però così esatto, in quanto non tutte le onde

sonore hanno una funzione esclusivamente

percettiva: spesso alcuni suoni armonizzano altri

suoni o fanno parte del timbro di altre onde

sonore, per cui, anche se non direttamente

udibili dall'uomo, contribuiscono alla qualità

complessiva del flusso.

Fig. 13: Frequenze dei diversi tipi di suoni.

[Sanpaolo.it]

Mascheramento.

Alcuni suoni vengono mascherati durante il processo di ascolto. Questo fenomeno è dovuto alla

forma dell'onda sonora: picchi di intensità particolarmente accentuata provocano il maschermento

di suoni di intensità minore che seguono immediatamente i picchi. Ci sono diversi tipi di

mascheramento, tra cui il pre-mascheramento e il post-mascheramento.

Differenze fra suoni.

Un'onda sonora si può convertire facilmente in una serie di valori numerici relativi ai singoli

istanti di esecuzione. Ogni singolo “pezzettino” di onda audio può essere quindi visto come

uguale al precedente, tranne che per una piccola parte che rappresenta la loro differenza. È quindi

possibile considerare ogni parte del brano come una parte campione “modificata di un

pezzettino”. [vedi:Sezione 2.6]

Altri fenomeni acustici contribuiscono alla compressione in maniera meno significativa

rispetto a quelli appena descritti, e sono utilizzati in modo più o meno rilevante a seconda dello

scopo della compressione.

2.4 Psicoacustica

Con il termine psicoacustica si intende tutto l'insieme dei processi fisiologici e psicologici che

intervengono nella percezione uditiva umana.

Grazie allo studi di psicoacustica è stato possibile, nel corso degli anni, creare una serie di

modelli a cui fare riferimento per la creazione di compressori audio funzionali, e si sono definite le

soglie di udibilità dei diversi suoni. Per soglia di udibilità si intende genericamente il valore

minimo di intensità di stimolazione necessaria perché si verifichi una certa risposta biologica o

psicologica. [Ube83]

La psicoacustica studia principalmente i fenomeni sonori facendo riferimento alle loro

frequenze, alle proprietà fisiche del suono nel mezzo materiale in cui si propaga e alle

caratteristiche biologiche dell'ascoltatore (nel nostro caso, dell'orecchio umano).

Questi studi confluiscono nelle varie tecniche di compressione audio che, al loro interno,


contengono diversi modelli psicoacustici.

I compressori audio più avanzati, infatti,

sfruttano questi modelli per eliminare tutti quei

suoni che l'orecchio umano non è in grado di

percepire; senza gli studi di psicoacustica che

hanno portato alla creazione dei modelli, oggi

non avremmo a disposizione le tecnologie di

compressione audio e, senza di queste, non

potremmo sfruttare tutti gli strumenti

tecnologici che ne fanno uso.

2.5 Gli effetti di mascheramento

Tra i fenomeni sfruttati per

comprimere un suono, quelli di maggiore

importanza sono i cosiddetti effetti di

mascheramento. Basati sulla fisiologia

dell'orecchio umano e sulle caratteristiche

fisiche del suono, questi fenomeni fanno si

che la percezione che abbiamo di un suono

emesso da una sorgente non sia esattamente

identica al suono stesso. Questi fenomeni

sono causati dalla natura stessa del suono, o

dalle componenti spettrali di cui è composto.

Infatti, non è detto che un uditore, anche

attento, riesca a percepite un suono

proveniente dall’ambiente circostante nella

sua piena interezza, perché alcune parti di

questo suono potrebbero mascherarne altre,

quelle più deboli.

Un esempio molto utile per dare

un'idea di questi fenomeni è quello di stare

per qualche secondo vicini ad una cascata

abbastanza grossa. Il rumore dell'acqua che

cade con violenza coprirebbe qualsiasi voce

presente nei paraggi non sufficientemente

forte per essere udita. Questo fenomeno è l'effetto del mascheramento in frequenza, a causa del

quale componenti spettrali di debole intensità e distanti anche qualche centinaio di Hz da suoni

molto più intensi non vengono percepite e risultano, quindi, mascherate.

Fig. 17: Mascheramento temporale. Come varia la

zona di mascheramento prodotta da un suono

forte.[Ben-Giu]

Fig. 14: Soglia di udibilità, infrasuoni ed ultrasuoni:

zone di percezione e non percezione audio. [QCP.it]

Fig. 16: Mascheramento in frequenza. Componenti spettrali

di una certa intensità mascherano componenti più deboli.

[Lithium.it]

Fig. 15: Mascheramento in frequenza. Suoni

particolarmente intensi mascherano suoni più deboli anche

distanti. [Ben-Giu]

Un altro tipo di mascheramento è il

cosiddetto mascheramento temporale, e si basa

sulla fisiologia del timpano. Come si è già

analizzato nel primo capitolo, la membrana del

timpano, dopo essere stata sollecitata da un

suono piuttosto forte, impiega un certo periodo di

tempo per tornare allo stato di riposo. In questo

periodo di tempo, come reagisce a nuovi stimoli?

Alcuni studi hanno dimostrato che dopo la

25


cessazione di un suono piuttosto forte, suoni meno intensi e distanti pochi istanti dal primo suono

non vengono uditi dal nostro orecchio. Infatti, se il suono più debole cade in quell'intervallo di

tempo in cui il timpano sta tornando dalla posizione di riposo, è difficile che sia in grado di

produrre una sollecitazione sufficiente per essere udito. La componente spettrale che subisce le

conseguenze del suono forte che cessa è indicata nella figura (mask zone).

Il mascheramento temporale viene

anche studiato come l'insieme di due tipi

diversi, e più specifici, di

mascheramento: il pre-mascheramento

e il post-mascheramento. Entrambi

analizzano zone di non udibilità

immediatamente precedenti (pre) o

successive (post) ad un suono. Il premascheramento

dura mediamente un

istante (pochi millisecondi), mentre il

post-mascheramento è quello che

influenza più significativamente

l'udibilità dei suoni e che viene più

spesso chiamato generalmente mascheramento temporale. [Lom00]

Il range di frequenze per cui si manifesta l’effetto di mascheramento è detto banda critica.

[Ber05]

L'unione di questi tre fenomeni consente di creare una Global Masking Threshold (o Soglia

di Udibilità Dinamica), una rappresentazione di quelle regioni audio che non influiscono in modo

rilevante sul suono che viene percepito dall'uditore, per cui possono essere eliminate senza una

perdita considerevole di informazione. [Vis01]

2.6 Diversi tipi di codifica

Come già accennato, esistono molte modalità di compressione diverse tra loro: ogni modalità

ha i suoi pregi e i suoi difetti ed è destinata alle diverse esigenze degli utenti finali.

Tutte le modalità si riconducono a tre grandi gruppi:

26

codifica nel dominio del tempo

codifica per modelli

codifica nel dominio delle frequenze

Fig. 18: Rappresentazione 3D del mascheramento temporale.

[Nol93]

I primi due tipi vengono principalmente utilizzati per segnali audio parlati, mentre il terzo è il

più funzionale per comprimere dati musicali. [Ben-Giu]

Codifica nel dominio del tempo

Per codifica nel dominio del tempo si intende indicare tutti quei processi che

analizzano e codificano un segnale audio utilizzando come variabile indipendente di

riferimento il tempo.

Il formato PCM appartiene alla codifica nel dominio del tempo, poiché converte, ad

intervalli regolari, l'onda audio in una serie di valori numerici. A partire da questi valori, si

ricostruisce un suono identico a quello originale. Come già visto, però, questo tipo di

codifica comporta un notevole impiego di spazio per la memorizzazione. [Vis01]


Codifica per modelli

Sfruttare determinati modelli, nel caso di una codifica per modelli, significa studiare in

modo specifico la natura stessa del suono preso in esame. Viene applicata per codificare la

voce umana in apparecchi come il telefono, che non necessitano di un'elevatissima qualità

audio.

Essa è costituita, appunto, da modelli, secondo cui il flusso audio viene compresso per

accordarsi meglio alle caratteristiche dell'orecchio umano (durante una telefonata, la

qualità scadente dell'audio è facilmente percepibile, eppure, la maggior parte delle volte, ci

si capisce senza particolari difficoltà).

È praticamente impossibile creare una serie di modelli per la compressione di flussi

musicali, in quanto il numero di sorgenti audio nel mondo è virtualmente infinita, mentre

la voce umana ha molte caratteristiche comuni in tutti gli individui.

Codifica nel dominio delle frequenze

Questo tipo di compressione agisce sullo spettro delle frequenze di un suono, andando

a tagliare e modificare il suono originale. Esso è l'insieme della maggior parte dei

fenomeni sonori descritti precedentemente: sfruttando un modello psicoacustico, diviso un

suono in diverse parti, a seconda del tipo di suono e delle sorgenti audio è possibile

comprimere il flusso audio in modo molto più efficiente rispetto alla codifica nel dominio

del tempo

È un tipo di compressione lossy, in quanto elimina una certa percentuale di suono

originale. Un buon compressore nel dominio delle frequenze è in grado di limitare anche

gli effetti indesiderati della compressione, quali il rumore o l'eccessiva perdita di

limpidezza del suono.

A questo tipo di compressione appartiene il formato Mpeg, che verrà analizzato

meglio nel prossimo capitolo.

2.7 Molti compromessi: lo streaming

Per streaming si intende il

trasferimento di dati multimediali in

tempo reale via internet, senza che

questi dati vengano scaricati

completamente sul disco fisso del

computer.

Un file visualizzato in streaming

viene quindi scaricato e visualizzato per

“blocchi”: nel momento in cui un blocco

è stato scaricato, comincia la sua

riproduzione e, contemporaneamente,

viene scaricato il successivo. [Vis01]

In generale qualsiasi file

audiovisivo può essere inviato in

Fig. 19: Un popolare sito internet per la condivisione mondiale

di filmati via streaming.

streaming via internet, a condizione che venga trasformato in un formato adatto e compresso in

modo opportuno. Infatti, i limiti di velocità posti dalla connessione internet obbligano il file ad

avere una qualità in Kbyte al massimo pari alla velocità di trasferimento sulla rete. Se si prova a

trasferire in streaming un video di qualità elevata, una connessione internet di media velocità non

sarebbe assolutamente in grado di trasmetterlo fluidamente. Condizione necessaria, dunque, per un

invio dei dati fluido e senza interruzioni è la compressione del file multimediale.

In genere, per gli scopi a cui è destinato un file multimediale inviato in streaming, non è

richiesta una qualità troppo elevata, per cui vengono utilizzati rapporti di compressione lossy molto

27


pesanti che modificano significativamente il file originale, rendendolo molto meno ingombrante e

più facilmente trasferibile.

Interruzioni nella riproduzione del flusso (il file multimediale che viene inviato in streaming si

definisce flusso) sono causate dallo stato di congestione della rete. Ciò si verifica quando la qualità

del file supera la velocità di download, per cui la connessione non riesce a star dietro alla

riproduzione.

Per ovviare a questo inconveniente, i software multimediali più avanzati sono in grado di

aumentare o diminuire in tempo reale la compressione, e quindi la qualità, del flusso audio-video. I

disturbi visivi che possono verificarsi durante la riproduzione di un filmato in streaming, quindi,

sono gli effetti di un trasferimento non del tutto efficiente e dei sistemi che il software mette in

pratica per risolvere questo problema.

Se volessimo tornare al paragone tra un software di compressione e un’automobile,

certamente il processo di streaming equivarrebbe all’organo del cambio: a seconda della velocità di

trasferimento del flusso, cambiano i rapporti di compressione, e i disturbi alla riproduzione sono

causati dalla variazione di questi rapporti.

28


CAPITOLO 3

I FORMATI DI COMPRESSIONE AUDIO

29


1 - Il formato Mpeg

1.1 Il successo del formato do compressione Mpeg

Acronimo di Moving Pictures Experts

Group, Mpeg è un progetto che nasce nel

1988 su iniziativa di Leonardo Chiariglione,

in geniere dello CSELT di Torino (Centro

studi e Laboratori Telecomunicazioni di

telecom Italia). È stato pensato per la

trasmissione audio-video in formato digitale

sfruttando la compressione dei dati,

utilizzando meno banda rispetto ai formati

analogici. Il progetto si divide in diversi

gruppi, a seconda dell’utilizzo: Mpeg-I,

Mpeg-II, Mpeg-IV. etc. Ognuno di questi Fig. 20: Convegno Mpeg a Firenze, 1996. [Mpeg.org]

formati indica anche un diverso standard di

compressione per diverse velocità di trasferimento. [LuG]

Il formato Mpeg ha riscosso enorme successo grazie al fatto che è uno standard aperto:

oggigiorno sono disponibili diverse decine di versioni diverse di Mpeg, tutte perfettamente

compatibili fra loro. Le poche eccezioni devono la loro incompatibilità al diverso uso degli

algoritmi presenti al loro interno, non alla differenza fra gli stessi. Nella maggior parte dei casi, ogni

codec-decoder è retro-compatibile, ovvero è in grado di lavorare con flussi compressi con

versioni precedenti dello stesso software.

Questa sua peculiarità ha le radici nella natura stessa del progetto Mpeg: il gruppo di ricerca si

ritrova tre volte l’anno, ed ogni convegno dura cinque giorni. Durante i periodi in mezzo a questi

convegni, ad ogni ricercatore viene data massima libertà d’azione sullo studio del software.

[Mpeg.org]

Qui in seguito alcuni esempi di formati Mpeg:

Mpeg-I

Lo standard Mpeg-I nasce per essere applicato su flussi audio-video di banda pari o

inferiore a 1.5 Mbit/s. Questo valore corrisponde al bitrate di un CD. Dallo standard

Mpeg-I, più precisamente dalla parte audio del software Mpeg-1, proviene il famoso

standard Mp3 [vedi Sezione 2: Il formato Mp3], caratterizzato da una grandissima

versatilità. Venne approvato nel 1992.

Mpeg-II

Più avanzato del Mpeg-I, aggiunge importanti funzioni come la possibilità di inviare

più di due canali audio e di consentire lo zapping tra più livelli video. Nello standard

Mpeg-II è stato fatto rientrare anche lo standard Mpeg-III. Venne approvato nel 1994.

Mpeg-IV

Caratterizzato da un’innovativa tecnologia multimediale mai vista prima della sua

comparsa in questo standard, l’Mpeg-IV è frutto di studi informatici influenzati molto

dalla crescita di Internet e delle esigenze del mercato sempre più tecnologico. Esso ha un

funzionamento del tutto diverso rispetto agli altri software, poiché considera il flusso

audiovisivo non come semplice susseguirsi di immagini e suoni ma come un’insieme di

oggetti a sé stanti, in movimento; in aggiunta a ciò, l’utente è in grado persino di scegliere

31


32

il proprio punto di vista nella visione. Venne approvato nel 1998 (prima versione) e nel

1999 (seconda persione).

Per ogni versione del formato Mpeg sono state sviluppate diverse sottocategorie, chiamate

layer (letteralmente: “livello” [WR.com]), che vanno da I a III. I vantaggi crescono

proporzionatamente alla loro complessità, dal layer I al layer III:

Layer I

È il più semplice fra i tre, tuttavia ha l’inconveniente di offrire risultati mediocri dal

punto di vista del rapporto qualità/compressione;

Layer II

Sia l'encoder che il decoder sono più complessi del layer I, riescono ad eliminare la

ridondanza ed applicare il modello psicoacustico all'onda audio in modo più efficiente;

Layer III

È notevolmente più complesso rispetto ai primi due ed è utilizzato da applicazioni che

richiedono una forte riduzione di spazio, ottenuta mediante l'impiego di molteplici

Threshold Mask (banchi di filtri) e sistemi di controllo ciclici. È il tipo a cui appartiene il

formato Mp3.

1.2 Il funzionamento generale del formato Mpeg

Tecnicamente, un file Mpeg è costituito da una serie di blocchi, chiamati frame, ognuno dei

quali contiene informazioni riguardanti l’audio e il necessario per essere riprodotto; essi vengono

poi riprodotti successivamente l’uno dopo l’altro.

“An MPEG audio file is built up from a

succession of smaller parts called frames.

A frame is a datablock with its own header

and audio information.”

“MPEG Audio Layer I/II/III frame header” [Mp3-tech]

I compressori basati sul formato Mpeg sfruttano dei modelli psicoacustici, ovvero schemi

statistici (frutto di anni di ricerche scientifiche, dei principali comportamenti della percezione audio

umana). Il lavoro effettuato durante il processo di compressione non è quello di creare un segnale

esattamente fedele all'originale, ma un segnale che sembri, all'orecchio umano, il più “simile”

possibile all'originale.

Il punto di partenza della compressione Mpeg è la trasformazione del flusso audio dal

dominio del tempo (la cui codifica occupa moltissimo spazio) al dominio delle frequenze

(sensibilmente più “leggero e maneggevole” dal punto di vista operativo) attraverso la Trasformata

di Fourier. La funzione ottenuta viene quindi divisa in 32 sottobande di uguale ampiezza. In altri

sistemi, questa suddivisione è stata cambiata con una suddivisione in 26 sottobande, la cui

ampiezza varia su base logaritmica [Fig. 21]. Questa diversa divisione è spiegata con una teoria

secondo la quale l'udito umano è più sensibile alle differenze tra frequenze più basse che tra

frequenze più alte. Due suoni gravi ma con frequenza leggermente diversa, anche di poco, sono più

facilmente riconoscibili rispetto a due suoni acuti distinti.


Fig. 21: Andamento logaritmico della percezione uditiva umana. [Vis01]

Altri fenomeni che sono stati analizzati dai

creatori del formato Mpeg sono quelli per cui

alcune parti del segnale (per esempio frequenze

troppo alte o troppo basse e suoni diversi molto

ravvicinati fra loro, ecc) non vengono percepiti

dall'orecchio umano, perciò possono essere

considerate inutili. Questi fenomeni prendono il

nome di effetti di mascheramento, già trattati nel

capitolo precedente [vedi Capitolo 2, sezione 2.5].

Un'immagine che rende bene l'idea di questi

effetti è quella di un uccellino che vola controluce

[Fig. 22]. Se provassimo a fissarlo quando è

esattamente al centro del disco solare, il nostro

occhio non riuscirebbe a vederlo a causa della

quantità di luce del sole che lo colpisce, perciò è

come se per noi non ci fosse. In realtà, siamo noi a

non percepirlo presente, ma in quel fotogramma

l'informazione della sua presenza risulta inutile.

Fig. 22: Come tutto ciò che sta davanti al disco

solare non viene percepito dal nostro occhio, così

anche alcuni suoni non vengono percepiti perché

mascherati da altri suoni.

Il codec, sfruttando questi effetti, analizza il segnale originale dividendolo in blocchi; per ogni

blocco viene analizzato lo spettro audio ed eliminate quelle parti che l'uomo non è in grado di

percepire. Una volta tagliate le parti inutili, il segnale viene ricomposto e salvato, con un risparmio

di spazio che dipende dal modello a cui si è fatto riferimento per la compressione, e l'algoritmo

usato.

Durante la fase di compressione, il codec cerca di rispettare il bitrate scelto per la

compressione, dando a ciascun blocco il numero di bit che corrisponde al bitrate. Il decoder è

molto più semplice dell'encoder perché si limita a ricostruire il segnale audio a partire da quello

compresso, senza l'uso dei modelli.

Ritornando all'esempio del testo da riassumere, è immediato riconoscere che riassumere un

testo sia più difficile che leggerne uno riassunto. Se il riassunto è stato fatto bene, il risultato finale

sarà lo stesso, mentre se è stato fatto male la differenza sarà immediatamente percepita dal lettore.

La compressione Mpeg è, quindi, una compressione lossy (con perdita) nel dominio delle

frequenze. Il codec è composto da molti piccoli software più piccoli che interagiscono fra loro in

maniera sequenziale, ognuno con il suo compito.

Il problema più spinoso della questione è la generazione collaterale di rumore. La

compressione, infatti, crea un segnale audio diverso dall'originale e la differenza risiede, spesso, in

alcuni punti in cui vi sono grandi “salti di frequenza”: i tagli fatti per risparmiare spazio hanno,

33


cioè, creato una discontinuità dell'onda audio, e vengono percepiti distintamente come fastidiosi.

Generalmente, il rumore si manifesta sottoforma di “metallizzazione della voce”, in tanti fruscii di

fondo, nel tipico “gracchiare” del suono in coincidenza di note ad alta frequenza. Tanto più si

comprime un file audio (ovvero tanto più basso il bitrate che scegliamo per la compressione) tanto

più questo fastidio aumenta. Il rumore è, perciò, un effetto collaterale della compressione che va

limitato il più possibile. All'interno del codec Mpeg ci sono particolari sistemi che cercano di

limitare l’insorgere di questo rumore, compatibilmente con i parametri scelti.

1.3 Il formato Mp3: i miglioramenti

L'Mp3 (acronimo di Mpeg-I Layer-III) è una particolare versione del formato Mpeg; più

nello specifico, è una delle sue più evolute versioni. È caratterizzato da sistemi di

codifica/decodifica più efficienti, una maggiore complessità, risultati più convenienti in termini di

spazio risparmiato e costo: infatti l'Mp3, a differenza del formato Mpeg, non è un formato “libero”

in termini di proprietà, ma è di proprietà dell'azienda tedesca Fraunhofer, che ne detiene il marchio

e i diritti. Il suo utilizzo è consentito liberamente a tutti per quanto riguarda l'aspetto non

commerciale, ma quello a fini commerciali o, più frequentemente, per creare dei file audio

compressi non lo è. In sintesi, la riproduzione di un file Mp3 è libera, mentre non lo è la

compressione.

Per questo, il software più diffuso che consente di creare file Mp3 o che viene largamente

utilizzato per scopi che non siano soltanto di riproduzione audio è una versione per così dire

“craccata” della versione ufficiale. Che essa sia liberamente sfruttabile e distribuibile non è del

tutto chiaro; all'interno della rete si possono trovare migliaia di informazioni anche opposte a

riguardo, vi è una gran confusione.

Ufficialmente, nei pc ad uso privato gli unici formati in cui è possibile convertire un file audio

sono quelli non compressi (per esempio wav) o quelli di proprietà della casa produttrice del

sistema operativo (Windows Media Audio, Wma, concorrente dell’Mp3, per i computer

Windows), a meno che ci siano altri accordi commerciali.

1.4 Le fasi della compressione Mpeg

La compressione Mpeg trasforma un segnale audio dal dominio del tempo al dominio delle

frequenze.

Come già accennato in precedenza, ogni compressore funziona sia per la compressione che

per la riproduzione. Nella prima fase ha il compito di rielaborare un flusso audio al fine di crearne

uno il più simile possibile dal punto di vista percettivo e meno ingombrante, a partire da un segnale

codificato nel dominio del tempo, e nella seconda quello di riprodurre un flusso audio compresso e

riportarlo nel dominio del tempo.

Il funzionamento del codec Mpeg, per quanto riguarda il processo di compressione, è diviso in

4 fasi fondamentali:

34

Analisi

Il segnale audio viene trasformato dal dominio del tempo al dominio delle frequenze,

utilizzando la Trasformata di Fourier, e quindi analizzato.

Utilizzo del modello psicoacustico

Il decodificatore cerca quelle frequenze che possono essere eliminate perché non udibili e

quelle che non influenzano la percezione.

Codifica

Il segnale audio viene quantizzato (compresso) al fine di occupare meno spazio (meno bit).

Stream

Si ricrea il flusso audio unendo tutte le parti compresse insieme con le informazioni per la

riproduzione.


Si nota chiaramente che è un sistema particolarmente funzionale dal punto di vista operativo:

il processo è costituito, infatti, da operazioni matematiche, eseguibile in tempi relativamente brevi

da un computer.

Il processo inverso, cioè quello che riporta il flusso audio compresso al dominio del tempo e

lo riproduce, si articola in 3 fasi:

Decodifica

Viene ricreata l'onda audio nel dominio delle frequenze a partire dalle informazioni elaborate

dal decodificatore.

Codifica inversa

Il flusso compresso viene ricostruito sulla base delle informazioni di codifica.

Sintesi

Viene riportato il flusso dal dominio delle frequenze al dominio del tempo e, infine, riprodotto.

Schematizzando, le fasi in cui si articola la trasformazione dell'audio può essere rappresentata

in questo modo:

Fig. 23: Schema delle fasi del compressore MPEG generico. [Vis01]

35


2.1 Dove, quando e perché

Come appena accennato, il formato Mp3 è

uno dei risultati finali del progetto di ricerca

Mpeg. I diritti sul marchio Mp3 sono detenuti

da un'azienda tedesca chiamata Fraunhofer e

che è partita con la sperimentazione sul formato

di codifica Mpeg-1/2 Layer 2.

Finanziata dall'Unione Europea, diede

come primo risultato due formati di

compressione chiamati Musicam e ASPEC; da

questi, nel 1992 si arrivò alla compilazione di

questo terzo formato, l'Mp3, che aveva lo scopo

di riprodurre le stesse caratteristiche dei

precedenti Mpeg ma con bitrate più bassi. 3

Nel 1995 veniva pubblicato lo standard

Mpeg-2, quando i formati Mpeg-1 erano stati

definitivamente definiti standard internazionali

già da alcuni anni.

All’inizio, con l’affermarsi del formato

Mp3, la qualità di compressione a 128 kbps

venne considerata come corrispondente alla

CD-Quality (anche se le frequenze tagliate

dalla compressione sono ben udibili).

36

2 - Il formato Mp3

Fig. 24: Gli aggiornamenti più recenti sullo standard Mp3

hanno portato alla creazione di versioni in grado di

supportare l’audio in Dolby e caratteristiche ancora più

avanzate.

Successivamente, schede audio e impianti stereo più avanzati permisero di toccare una risoluzione

di 24 bit di campionamento e anche oltre, per cui l’Mp3 cominciava a dar segni di debolezza, fino

ad essere considerato utile più per la sua comodità e maneggevolezza che per la sua qualità.

Oggigiorno un file Mp3 di bitrate inferiore a 128 kbps è considerato di pessima qualità, a 192

kbps media e solo a 320 kbps si avvicina davvero alla CD-Quality.

2.2 Il funzionamento del formato Mp3

Come ultimo gradino della ricerca sul formato Mpeg, la struttura del formato Mp3 è divisa in

4 parti, corrispondenti a quelle descritte nel precedente paragrafo. Le innovazioni introdotte in

questa versione sono da ricercare principalmente in un'ottimizzazione del funzionamento delle

fasi in qui è diviso. A scapito della velocità di elaborazione (problema risolto grazie all'evolversi

della tecnologia informatica), la compressione ha raggiunto livelli più alti e risultati più

soddisfacenti, sia per la qualità del suono sia per la percentuale di spazio risparmiato:

Analisi

Il segnale audio viene trasformato nel dominio delle frequenze e diviso in 32 sottobande,

ognuna delle quali definita per intervalli di frequenza precisi, attraverso un “banco dei filtri”

( o Threshold Mask ). Nella versione layer-III, a questa divisione, migliorata ulteriormente

3

ATTENZIONE: su questa pagina (http://www.beta.it/beta/bs029801/2299.5/ext/b2299e02.htm) ci sono dati

discordanti riguardo alcune date storiche. Ricerche incrociate hanno dimostrato l’esistenza di informazioni simili e/o

contraddittorie, ma, al fine di questa breve trattazione, non sono ritenute fondamentali, per cui si è ritenuto lecito

riportare una fonte sola.


ispetto alle versioni I e II, segue un'ulteriore suddivisione molto più complessa ad opera di

un altro banco, chiamato MDCT (Modified Discrete Cosine Trasform) che migliora

ulteriormente la qualità delle frequenze.

Modello percettivo

Il confronto con il modello percettivo è arricchito dalle informazioni riguardanti il premascheramento

e il post-mascheramento. In questo modo, il codificatore è in grado di

risparmiare ulteriore spazio eliminando altre parti di suoni non percepibili.

Quantizzazione e codifica

Questo passaggio è migliore (e più complesso) nella versione layer-III rispetto all'originale

Mpeg. Dopo aver scelto il rapporto di codifica (il famoso bitrate), il suono viene liberato

dai suoni non udibili trovati al punto precedente. Questa fase è la fase più lunga e più

impegnativa della compressione, in quanto in più fasi cicliche vengono controllate sia la

qualità di ogni singolo “blocco” audio sia il livello del rumore di fondo, che il compressore

cercherà di eliminare il più possibile.

Creazione dello stream

Viene creato il flusso dati compresso unendo i risultati ottenuti dalla compressione.

Questo schema riassume in modo preciso e completo i passaggi della compressione Mp3

sopra descritti:

Fig. 25: Schema delle fasi del compressore Mp3. [Vis01]

2.3 Il rumore

Il problema principale è ancora una volta la generazione del rumore, che costituisce un

residuo non eliminabile della quantizzazione. La sua presenza è provocata principalmente dal fatto

che, tagliando parti di frequenze audio, si creano dei “salti” in prossimità degli estremi delle

sottobande in cui è stato diviso il flusso, proprio come nelle altre versioni del Mpeg. Tutte queste

imperfezioni riprodotte insieme danno luogo ad un fastidioso effetto metallico chiamato,

comunemente, rumore.

È chiaro che, durante la riproduzione di un flusso compresso, a causa della natura stessa della

compressione, il rumore non può essere eliminato; tuttavia si può cercare di limitarlo tramite dei

buoni algoritmi di compressione. La compressione Mp3, a differenza delle altre versioni Mpeg, ha

in sé, nell'ultima fase di quantizzazione, un sistema, chiamato Noise Control Loop, che controlla il

livello del rumore; se questo supera una certa soglia, viene rifatta la quantizzazione con valori di

compressione differenti fino a quando il rumore non si abbasserà a livelli prefissati (è questo uno

37


dei controlli ciclici menzionati precedentemente che rendono l’Mp3 così avanzato).

2.4 La riproduzione di un file Mp3

Il processo di decodifica è esattamente l'opposto della compressione: si tratta di ricostruire

l'onda audio (da riprodurre, per esempio, tramite la scheda audio del computer) a partire da un file

compresso.

Il software addetto a tale compito è il decodificatore o decoder (termine usato anche per altre

tecnologie, quali per esempio la televisione satellitare, che altro non è che un segnale digitale

compresso) [InfoSat]. Spesso si tratta di un software semplicemente inverso al codec, molto più

semplificato. Esso sfrutta, nella maggior parte dei casi, una raccolta di Threshold Mask (banco di

filtri) molto simile a quella di un codec al fine di ricreare un suono fedele all'originale.

Riprodurre un flusso audio compresso è un'operazione più semplice dal punto di vista del

funzionamento, poiché è assente tutta quella parte del processo in cui vi è la compressione. È come

dire che leggere un testo ad alta voce è più semplice che prendere appunti da una lezione.

Qui inseguito vengono riportati alcuni esempi di bitrate e caratteristiche dei principali supporti

di riproduzione, con relative percentuali di compressione del formato Mp3 rispetto ad essi, ed

esempi di compressori audio diversi dall’Mp3, sempre con relative caratteristiche.

38

Tab. 4: Prestazioni della codifica audio Mp3. [Fraunhofer Ins.]

Tab. 5: Confronto fra le caratteristiche di diverse tecnologie di campionamento audio. [Noll 99]


Lossy

Codec Produttore Caratteristiche

Wma Microsoft Molto simile all’Mp3, riduzione di spazio del 20%.

Mp3 Fraunhofer A 128 Kbps occupa circa 1/11 del file originale.

Ogg Vorbis Open Source Fornisce risultati migliori dell’Mp3 a bitrate bassi, inferiori

a 128 kbps.

Lossless

Codec Produttore Caratteristiche

Wav Microsoft/IBM Pura e semplice registrazione del flusso audio non

compresso. La sua qualità dipende esclusivamente dalla

qualità degli strumenti di registrazione utilizzati.

Ape Monkey audio Compressore audio che raggiunge livelli di compressione

anche del 50% senza perdita di qualità. Un album di 600

FLAC Xiph.Org

Foundation

Mb in formato Wav, ne occupa 300 in formato Ape.

Molto popolare tra i musicofili, è molto simile al formato

Ape, ma con minori risultati. Un album di 600 Mb a

compressione Wav ne occupa 340 con compressione Flac.

Tab. 6: Esempi di formati audio lossy e lossless. [Programmifree.it]

39


40

3 – Cenni sui formati Mpeg II ed Mpeg IV

Ricerche più recenti ed avanzate sono state effettuate per

aumentare sempre più le prestazioni e la qualità delle

compressioni Mpeg. Tuttavia, esigenze di mercato e di

consumo hanno spinto le aziende ricercatrici ad affrontare

nuove avanguardie nello sviluppo di formati di compressione

sempre più tecnologici.

Tra i primi ritrovati più significativamente importanti nel

complesso mondo Mpeg rientra l'introduzione di un numero

superiore a due di canali audio per applicazioni di tipo multimediale, cinematografico, digitale. In

questo campo è famosa la tecnologia della statunitense Dolby Surround, che fin dal 1965 studia e

presenta le più avanzate tecnologie audio digitali cinematografiche [Dolby].

Dal punto di vista della compressione, si è reso necessario modificare gli standard stessi al

fine di poter lavorare con flussi audio molto più consistenti e schemi di compressione notevolmente

più complessi.

I primi studi in questa direzione portarono alla definizione di una nuova versione dello

standard Mpeg, chiamato Mpeg-II, dotato di scarsa retro-compatibilità ma altissime prestazioni.

Sempre nel settore multimediale, più precisamente in quello cinematografico, è stato

introdotto un altro formato Mpeg che offre risultati decisamente impareggiabili per quanto riguarda

qualità e prestazioni: l’Mpeg-IV. Questa versione avanzata dello standard Mpeg è utilizzata

principalmente in ambito audiovisivo digitale e informatico: sua caratteristica peculiare, infatti, è la

possibilità di dividere la scena di un filmato in tanti frame separati, disposti in piani differenti, così

da poterli trattare singolarmente come oggetti a se stanti. La comodità di questo sistema risiede in

una maggiore comodità di lavoro e di modifica e nelle elevate prestazioni di codifica del risultato

finale.

Le caratteristiche fondamentali dell’Mpeg-IV si possono così riassumere: [Ner-Giu]

Interattività del contenuto

Compressione efficiente dei dati

Accesso universale

La complessità e la difficoltà di funzionamento dei sistemi più avanzati come l'Mpeg-II e

l'Mpeg-IV rendono difficile una trattazione semplificata eliminando concetti ed approfondimenti

essenziali. Scopo di questa ricerca non è, infatti, quello di analizzare a fondo gli schemi logicomatematici

di questi nuovi formati, bensì quello di capire quali sono state le cause che hanno spinto

la ricerca in questa direzione e i risultati più significativi che sono stati raggiunti.

Al fine di questa breve ricerca, è sufficiente sapere che questi nuovi formati multimediali

racchiudono in sé tutte le tecnologie proprie anche agli altri formati, con l’aggiunta di componenti

software molto più sofisticate e tecnologie in continua evoluzione, che farebbero di qualsiasi

trattazione scritta un documento già di per sé obsoleto.


INDICI E BIBLIOGRAFIA

41


42

Indice delle tabelle

Tab. 1: Esempi di valori dei rumori più comuni. [Airs.it]

Tab. 2: Esempi di formati lossy e lossless

Tab. 3: Esempio di compressione su un testo sfruttando la ridondanza. [Nar00]

Tab. 4: Prestazioni della codifica audio Mp3. [Fraunhofer Ins.]

Tab. 5: Confronto fra le caratteristiche di diverse tecnologie di campionamento audio. [Noll 99]

Tab. 6: Esempi di formati audio lossy e lossless. [Programmifree.it]

Indice delle figure

Fig. 1:Rappresentazione delle curve isofoniche e dei valori di sensazione sonora. [Cra01]

Fig. 2: Formula della percezione sonora [IAc.it]

Fig. 3: Un'onda sonora composta da diverse armoniche. [Gui01]

Fig. 4: Frequenze relative di ogni DO della scala musicale. [Lom06]

Fig. 5: Formula della Trasformata di Fourier. [Matematicamente.it]

Fig. 6: Disegno dell'orecchio. [Far99]

Fig. 7: Confronto fra un’immagine ad alta definizione prima della compressione… [Istart.com]

Fig. 8: …e dopo la compressione. [Istart.com]

Fig. 9: Finestra di scelta del bitrate e del formato di compressione in Windows Media Player 10

[Microsoft.com]

Fig. 10: Campionamento PCM, schema esemplificativo. [Lor04]

Fig. 11: Una campionatura a 44100 campioni è molto più precisa di una a 22000. [Gui01]

Fig. 12: Schema del funzionamento della codifica ADPCM. [Lom00]

Fig. 13: Frequenze dei diversi tipi di suoni. [Sanpaolo.it]

Fig. 14: Soglia di udibilità, infrasuoni ed ultrasuoni: zone di percezione e non percezione audio. [QCP.it]

Fig. 15: Mascheramento in frequenza. Componenti spettrali di una certa intensità mascherano componenti

più deboli. [Lithium.it]

Fig. 16: Mascheramento in frequenza. Suoni particolarmente intensi mascherano suoni più deboli anche

distanti. [Ben-Giu]

Fig. 17: Mascheramento temporale. Come varia la zona di mascheramento prodotta da un suono forte.[Ben-

Giu]

Fig. 18: Rappresentazione 3D del mascheramento temporale. [Nol93]

Fig. 19: Un popolare sito internet per la condivisione mondiale di filmati via streaming.

Fig. 20: Convegno Mpeg a Firenze, 1996. [Mpeg.org]

Fig. 21: Andamento logaritmico della percezione uditiva umana. [Vis01]

Fig. 22: Come tutto ciò che sta davanti al disco solare non viene percepito dal nostro occhio, così anche

alcuni suoni non vengono percepiti perché mascherati da altri suoni.

Fig. 23: Schema delle fasi del compressore MPEG generico. [Vis01]

Fig. 24: Gli aggiornamenti più recenti sullo standard Mp3 hanno portato alla creazione di versioni in grado di

supportare l’audio in Dolby e caratteristiche ancora più avanzate.

Fig. 25: Schema delle fasi del compressore Mp3. [Vis01]


Riferimenti bibliografici

[AIRS.IT] Faq sulla sordità, Home Page Associazione Italiana per la Ricerca sulla Sordità, 2007,

http://www.associazioneairs.it/html/faq_rumore.HTM.

[AUDIOSONICA.COM] Glossario, Ingegneria del suono, 2007,

http://www.audiosonica.com/it/glossario.

[BEN-GIU] ING. F. BENEDETTO e PROF. G. GIUNTA, “Codifica musicale (standard MPEG)”, Corso di

elaborazione numerica dei segnali, Dipartimento di elettronica applicata dell'Università

degli Studi di Roma Tre, Roma Tre.

[BER05] M.E. BERGAMASCHI, P. MARAZZINI, L. MAZZONI, “L'indagine sul mondo fisico”, Onde e

luce, ed. Carlo Signorelli Editore, Toledo, 2005.

[BER05] S. BERRETTI, “Visual Information Processing Laboratori”, MPEG Audio, Dipartimento

Sistemi e Informatica dell'Università di Firenze, Firenze, 2005.

[CEL00] F. CELLETTI, “Rischi da Rumore, Seminario didattico sui rischi del rumore”, Firenze,

2000, http://www.fi.infn.it/sezione/prevprot/rumore.htm.

[COS07] ING. C. COSENTINO, “Analisi dei sistemi lineari nel dominio del tempo”, Corso di

fondamenti di automatica, Università degli studi Magna Graecia, Catanzaro, A.A.

2006/2007, pg. 58.

[CRA01] P. CRAVERO, “Studio ed implementazione di applicativi per la produzione di materiale

multimediale distribuibile tramite Internet”, Tesi di laurea in Ingegneria delle

Telecomunicazioni, Torino, 2001, pg 28.

[DOLBY] Dolby Home Page, http://www.info-sat.org/ .

[FAR99] PROF. A. FARINA, “Appunti del corso di Acustica applicata”.

Testo di riferimento: R. SPAGNOLO, “Manuale di acustica applicata”, UTET Libreria,

Torino, 2001.

[FRAUNHOFER INS.] Fraunhofer Institut home page:

http://www.iis.fhg.de/amm/techinf/index.html.

[GUI01] M. GUIDOTTI, “La codifica digitale PCM ed i problemi di digitalizzazione del suono” ,

2001, http://www.nemesi.net/audio2.htm.

[HTML.IT] T.M. FANTI, “Musica digitale: + 44% nel 2006”, 3 Aprile 2007,

http://webnews.html.it/news/leggi/5748/musica-digitale-44-nel-2006/.

[IAC.IT] “La percezione del rumore”, Trento, 2007, Inquinamentoacustico.it,

http://www.inquinamentoacustico.it/percezione_del_rumore.htm.

[INFOSAT] Portale Info-Sat, http://www.info-sat.org/ .

[ISTART.COM] http://www.istartedsomething.com/.

43


[LITHIUM.IT] L.MARCHETTI, “Speciale compressione audio: dal PCM all'MP3”, Giugno 2001,

http://www.lithium.it/articolo0012p2.htm.

[LOM00] V. LOMBARDO, “La compressione audio”, Novembre 2000.

[LOM06] V. LOMBARDO, “Cenni di Acustica”, slide per il Corso di Laurea MultiDAMS in

Multimedialità e Discipline dell'Arte della Musica e dello Spettacolo, Torino, 2006.

[LOR04] A. LORENZANI, “I formati audio AAC e Dolby Digital (AC-3)”, Tesi di laurea specialistica

in Tecnologie Informatiche, Pisa, 2004.

[LUG] A.LUBRANO, F. GARGANO, L. GIUSTIZI, “La codifica digitale Mpeg”, 2001,

http://www.beta.it/beta/bs029801/2299.5/ext/b2299e02.htm.

[MAR05] P. ABBATI MARESCOTTI, “La Trasformata di Fourier”, Appunti del corso di Metodi

Matematici per l'Ingegneria, lezioni del prof. G. Vergara Caffarelli, Maggio 2005.

[MATEMATICAMENTE.IT] F.CIMOLIN, “La formula più bella”, Settembre 2006,

http://www.matematicamente.it/cimolin/formula.

[MICROSOFT.COM] “Windows Media Player: save space on your Hard Disk When Ripping” , Febbraio 2005,

http://www.microsoft.com/windows/windowsmedia/knowledgecenter/howto/compress.as

px.

[MP3-TECH] G. BOUVIGNE, Mp3-tech, MPEG Audio Layer I/II/III frame header, 2002,

http://www.mp3-tech.org/programmer/frame_header.html .

[MPEG.ORG] Mpeg Home Page, http://www.chiariglione.org/mpeg/about_mpeg.htm.

[NAR00] F. NARDONE, “Compressione dati”, tesina in Algoritmi e Strutture Dati 2 del

Dipartimento di Informatica ed Applicazioni "Renato M. Capocelli", Università di

Salerno, Salerno, 2000.

[NER-GIU] PROFF. A. NERI e G. GIUNTA, “Appunti sulla codifica MPEG-4”, corsi di Comunicazioni

Elettriche ed Elaborazione Numerica dei Segnali, Università di Roma Tre, Roma, Marzo

2000.

[NOL93] P. NOLL, “Wideband Speech Audio Coding” IEEE audio coding comunication magazine,

Vol. 31, No 11, Nov 1993.

[NOLL 99] P. NOLL, “Digital Audio for Multimedia”, NATO Advanced Audio Institute, Berlino,

1999.

[PROGRAMMIFREE.IT] “Confronto programmi archiviazione e compressione”, Archiviazione audio,

http://www.programmifree.com/confronti/archiviatori-audio.htm.

[QCP.IT] C.QUADRINI, “MPEG e Psicoacustica”, Progetti universitari, 2007,

http://www.qcp.it/universita/progetti/mpegc60/mpegc603.php3.

[SANPAOLO.NET] C. SANPAOLO, “Soglia di udibilità”, 2005,

http://www.sampaolo.net/liuteria/soglia.htm.

44


[STRU03] D.STRUPPA, “Conferenza sulla Matematica della percezione”, in un articolo tratto da:

M.CAPORLINGUA, Milano, Novembre 2003,

http://www.scienzaesperienza.it/news/new.php?id=0223.

[UBE83] M.UBERTI, “La Nuova Enciclopedia della Musica”, “Psicoacustica”, ed. Garzanti,

Milano, 1983 e 1996 (sec. ed.).

[VIC04] G. VICINO, “Studio sulle tecniche di Compressione Dati”, Tesina per il corso d'Algoritmi

e Strutture Dati II, Università degli Studi del Piemonte Orientale, A.A. 2003/2004, pg 11.

[VIS01] F. VISCIOTTI, “Tecniche di Compressione Audio: Evoluzione dello Standard MPEG”,

Corso di Sistemi Informativi II 2000/2001 dell'Università degli Studi di Bologna, facoltà

di Ingegneria, Bologna, 2001.

[VIS01] F. VISCIOTTI, “Tecniche di Compressione Audio: Evoluzione dello Standard MPEG”, tesi

di Laurea in Ingegneria, Bologna, 2001.

[XIA04 YU RONGSHAN, SUSANTO RAHARDJA, LIN XIAO, “Advanced Audio Zip - Emerging

International Standard for Next Generation Digital Audio Coding”, Institute for

Infocomm Research, Synthesis Journal, Section three, pg 103-106. 2004.

45

More magazines by this user
Similar magazines