TECNOLOGIE DI COMPRESSIONE AUDIO - Matematicamente.it

Centro 

Salesiano 

don Bosco 

Treviglio 

scuola secondaria di secondo grado 

via G. Zanovello, 1 - 24047 TREVIGLIO – Bergamo 

tel 0363.31.39.11 – fax 0363.31.39.08 

posta elettronica direttore.treviglio@salesiani.it 

TECNOLOGIE DI 

COMPRESSIONE AUDIO 

SALA GABRIELE 

5^ SCIENTIFICO A 

ANNO SCOLASTICO 2006/2007 

TREVIGLIO, GIUGNO 2007

SOMMARIO 

CAPITOLO 1 – CENNI DI PSICOACUSTICA E DI TEORIA DEL SUONO .............5 

1 - Fisica del suono ................................................................................................... 7 

1.1 Dal concetto di onda al concetto di suono..............................................................................7 

1.2 La forma delle onde: le armoniche e il principio di sovrapposizione ....................................8 

1.3 L'uso della Trasformata di Fourier nello studio del suono.....................................................9 

2 - Biologia del suono ............................................................................................. 11 

2.1 Gli organi di senso dell'apparato uditivo..............................................................................11 

Il timpano .......................................................................................................................11 

I tre ossicini....................................................................................................................11 

La coclea ........................................................................................................................11 

2.2 I rischi del sistema uditivo ...................................................................................................12 

CAPITOLO 2 – LA COMPRESSIONE DATI IN INFORMATICA.........................13 

1 - Compressione dati ............................................................................................ 15 

1.1 Cosa si intende per “compressione”? ...................................................................................15 

1.2 Diversi tipi di compressione.................................................................................................16 

Lossless:.........................................................................................................................16 

Lossy: .............................................................................................................................16 

1.3 Tecniche di compressione dati: la ridondanza .....................................................................17 

1.4 Perché comprimere un file compresso non è conveniente ...................................................20 

2 - Il settore audio della compressione................................................................. 21 

2.1 Il punto di partenza...............................................................................................................21 

2.2 Registrazione digitale di un suono: il campionamento ........................................................21 

La frequenza di campionamento: .................................................................................22 

La profondità .................................................................................................................22 

2.3 I fenomeni sfruttati dalla compressione dell'audio...............................................................23 

Frequenze. .....................................................................................................................24 

Mascheramento. ............................................................................................................24 

Differenze fra suoni.......................................................................................................24 

2.4 Psicoacustica ........................................................................................................................24 

2.5 Gli effetti di mascheramento................................................................................................25 

2.6 Diversi tipi di codifica..........................................................................................................26 

Codifica nel dominio del tempo .....................................................................................26 

Codifica per modelli.......................................................................................................27 

Codifica nel dominio delle frequenze.............................................................................27 

2.7 Molti compromessi: lo streaming.........................................................................................27 

3

CAPITOLO 3: I FORMATI DI COMPRESSIONE AUDIO...................................29 

1 - Il formato Mpeg ................................................................................................31 

1.1 Il successo del formato do compressione Mpeg.................................................................. 31 

Mpeg-I............................................................................................................................ 31 

Mpeg-II .......................................................................................................................... 31 

Mpeg-IV ......................................................................................................................... 31 

Layer I........................................................................................................................ 32 

Layer II ...................................................................................................................... 32 

Layer III ..................................................................................................................... 32 

1.2 Il funzionamento generale del formato Mpeg ..................................................................... 32 

1.3 Il formato Mp3: i miglioramenti.......................................................................................... 34 

1.4 Le fasi della compressione Mpeg ........................................................................................ 34 

Analisi............................................................................................................................ 34 

Utilizzo del modello psicoacustica ................................................................................ 34 

Codifica.......................................................................................................................... 34 

Stream............................................................................................................................ 34 

Decodifica.................................................................................................................. 35 

Codifica inversa ......................................................................................................... 35 

Sintesi ........................................................................................................................ 35 

2 - Il formato Mp3..................................................................................................36 

2.1 Dove, quando e perché ........................................................................................................ 36 

2.2 Il funzionamento del formato Mp3...................................................................................... 36 

Analisi............................................................................................................................ 36 

Modello percettivo ......................................................................................................... 37 

Quantizzazione e codifica.............................................................................................. 37 

Creazione dello stream.................................................................................................. 37 

2.3 Il rumore .............................................................................................................................. 37 

2.4 La riproduzione di un file Mp3............................................................................................ 38 

3 – Cenni sui formati Mpeg II ed Mpeg IV .........................................................40 

INDICI E BIBLIOGRAFIA ..............................................................................41 

Indice delle tabelle..................................................................................................42 

Indice delle figure...................................................................................................42 

Riferimenti bibliografici........................................................................................43 

4

CAPITOLO 1 

CENNI DI PSICOACUSTICA E DI TEORIA DEL SUONO 

5

1 - Fisica del suono 

1.1 Dal concetto di onda al concetto di suono 

Si definisce onda qualsiasi genere di perturbazione che si propaga in un mezzo materiale. 

Un'onda non muove particelle materiali, ma trasferisce energia: ogni punto in cui viene propagata 

l'onda è sede di energia cinetica, che viene quindi spostata dalla sorgente nel mezzo di 

propagazione. 

A seconda della direzione di propagazione, le onde vengono divise in due categorie: 

onde longitudinali: le particelle del mezzo di propagazione oscillano nella stessa direzione di 

propagazione dell'onda 

onde trasversali: le onde oscillano trasversalmente alla direzione di propagazione. 

È di particolare importanza il concetto di periodicità delle onde: si definiscono periodiche 

quelle onde che si riproducono identiche a se stesse ad intervalli di tempo regolari, ovvero ogni 

punto dell'onda assume, dopo intervalli regolari di tempo, le medesime caratteristiche. 

L’ampiezza d'onda rappresenta il massimo valore della grandezza rappresentativa dell'onda 

in un periodo. [Wiki] 

Il suono è una particolare specie di onda di natura meccanica: si intende per suono, infatti, la 

sensazione che viene generata da una serie di onde di pressione dell'aria che raggiungono il nostro 

orecchio. Esso è un'onda di tipo longitudinale e non si propaga nel vuoto (in quanto si basa sulla 

densità delle particelle del mezzo di propagazione). 

Le caratteristiche fondamentali di un'onda sonora 

sono le seguenti: [Ber05] 

1. altezza: caratteristica associata alla 

frequenza, ovvero quante volte l'onda assume 

le medesime caratteristiche in ogni suo punto 

in un secondo. Viene espressa in Hertz (Hz); 

2. intensità: grandezza associata all'energia 

che viene spostata dall'onda. Si distinguono 

due tipi di intensità: 

2.1.1. l'intensità fisica (che dipende solo 

dal valore della pressione massima 

dell'onda sonora); viene misurata in 

Pascal, unità di misura del Sistema 

Internazionale propria della 

pressione. 

Fig. 1: Rappresentazione delle curve isofoniche e dei 

valori di sensazione sonora. [Cra01] 

2.1.2. l’intensità fisiologica (che dipende dalla percezione del nostro orecchio in base alla 

frequenza del suono: suoni di uguale intensità ma diversa frequenza generano 

sensazioni di intensità diverse); viene misurata in Phon 1 , che indica il valore della 

sensazione sonora. La stessa sensazione sonora può venire prodotta da una serie di 

suoni aventi intensità e frequenze diverse, che vanno a costituire le varie curve 

isofoniche [Fig.1]; 

1 

Phon: Unità di misura della percezione dell'intensità sonora alla frequenza di 1KHz. Utilizzato per identificare le 

curve isofoniche. [Audiosonica.com] 

7

8 

3. timbro: ogni sorgente audio possiede caratteristiche peculiari che la differenziano da tutte le 

altre. Queste differenze risiedono nel timbro, ovvero nella particolare forma d'onda audio che 

produce quella determinata sorgente. Due sorgenti che producono due suoni di uguale intensità 

e frequenza possono essere riconosciute e distinte a seconda del loro timbro. 

Spesso si usa anche indicare di un suono il suo livello di pressione sonora: espresso di 

deciBel (dB), esso è un’unità di relazione logaritmica, poiché la sensazione sonora in un individuo 

normoudente è legata ad una relazione di tipo logaritmico. 

Il livello della pressione sonora (indicato con Lp) viene ricavato a partire dall’intensità sonora 

mediante la relazione: 

Fig. 2: Formula della percezione sonora [IAc.it] 

dove p è l’intensità sonora (fisica), p0 è la pressione standard (p0 = 1 atm = 101.325 Pa). 

1.2 La forma delle onde: le armoniche e il principio di sovrapposizione 

Un'onda di tipo acustico è rappresentabile 

tramite una linea curva, spezzata o continua, i cui 

punti rappresentano i livelli di pressione che essa 

assume al passare del tempo. 

Ogni onda che, nello spazio, incontra un'altra 

onda (per esempio, in un ambiente ricco di sorgenti 

sonore) interagisce con essa per formare un'altra 

onda, che costituisce il risultato della somma delle 

due onde. Quasi tutti i suoni presenti in natura 

sono, generalmente, il risultato della 

sovrapposizione di onde sonore più semplici, 

definite armoniche [Fig. 3]. I suoni che non sono 

frutto della composizione di altri suoni sono detti 

anche suoni puri (il suono del diapason). 

La sovrapposizione di più onde armoniche 

avviene anche all'interno di sorgenti sonore stesse, 

che emettono suoni composti da diverse 

armoniche, come i vari strumenti musicali. Tutto 

ciò ci permette di riconoscere diversi tipi di suoni 

(la voce e la sua modulazione) e diversi tipi di sorgenti (il timbro). 

Un suono prodotto da uno strumento musicale, che rappresenta una nota, è, spesso, composto 

da più suoni puri diversi, corrispondenti ciascuno ad armoniche diverse. Grazie a questo fenomeno, 

siamo in grado di riconoscere un DO centrale da un DO distante 2 Figura 3: Un'onda sonora composta da diverse 

armoniche. [Gui01] 

da esso, anche se si assomigliano 

molto. 

2 Per trovare l'ottava di una nota è sufficiente moltiplicare per due la frequenza della nota fondamentale. Vedi [Fig.4].

Fig. 4: Frequenze relative di ogni DO della scala 

musicale. [Lom06] 

Inoltre, musicisti particolarmente allenati 

nell'ascolto sono in grado di riconoscere le varie 

componenti di un suono prodotto da uno 

strumento musicale: basandosi su una tonalità di 

riferimento (cosiddetto orecchio relativo) o 

addirittura senza riferimenti (cosiddetto orecchio 

assoluto), essi riescono ad individuare con 

relativa precisione la nota ascoltata, la sua 

posizione all'interno della scala musicale o, 

addirittura, se si suona un accordo, la tonalità 

stessa dell'accordo (minore o maggiore), che 

varia a seconda delle armoniche da cui è 

composto. 

Il cervello, in questi casi, analizza il suono, percepito nel tempo, e lo rielabora sotto l'aspetto 

delle frequenze. è un'operazione molto complessa, che la biologia del cervello riesce a fare in 

maniera tanto più precisa quanto più è allenata la persona che la compie, e che viene utilizzata, in 

matematica e in fisica, per studiare le componenti spettrali di un'onda complessa. Tali operazioni 

sono eseguite tramite un operatore matematico chiamato Trasformata di Fourier. 

1.3 L'uso della Trasformata di Fourier nello studio del suono 

La Trasformata di Fourier è un particolare integrale definito, che viene utilizzato per un 

duplice scopo: 

scomporre un'onda sonora 

complessa in una somma di onde 

armoniche più semplici in funzione del 

seno e del coseno. Matematicamente 

parlando, esso consente di descrivere 

una funzione non periodica complessa 

tramite funzioni elementari periodiche; 

analizzare dal punto di vista 

matematico un fenomeno fisico che 

richiederebbe calcoli straordinariamente 

complessi, in modo tale da poter 

risolverli in modo più semplice e lineare 

ottenendo gli stessi risultati. 

Preso un generico segnale periodico Xt0(t) di periodo T0 e frequenza f0, lo sviluppo in serie di 

Fourier fornisce una rappresentazione del segnale come somma di seni e coseni, caratterizzati da 

una specifica ampiezza e da una frequenza multipla intera della frequenza fondamentale fn: 

X 

T 0 

( t) 

= a 

0 

+ 

+ 

n= 

0 

A * cos( n * 2 * 

n 

* f * t) 

+ j * B * sen( 

n * 2* 

* f * t) 

0 

Fig. 5: Formula della Trasformata di Fourier. 

[Matematicamente.it] 

n 

0 

9

Il calcolo della Serie di Fourier si riduce allora alla determinazione dei coefficienti 

10 

A0 = ampiezza della componente continua del segnale 

An = ampiezza delle armoniche cosinusoidali 

Bn = ampiezza delle armoniche sinusoidali 

In genere non è necessario descrivere tutte le infinite componenti: il calcolo delle prime 10 

armoniche è già di per sé sufficiente per fornire un’approssimazione accettabile del segnale di 

partenza. 

Naturalmente, più coefficienti vengono calcolati, migliore e più precisa è la descrizione del 

segnale audio. 

Il calcolo di questo integrale necessita di strumenti matematici complessi come il calcolo su 

variabili immaginarie e degli integrali definiti da meno infinito a più infinito. 

La Trasformata di Fourier è un passo avanti nello studio della Serie di Fourier, che 

rappresenta lo stadio precedente dello stesso operatore, in grado di descrivere funzioni periodiche 

complesse mediante funzioni periodiche più semplici. Si passa allo studio della Trasformata di 

Fourier per funzioni non periodiche quando si considera infinito il periodo della funzione (infatti, la 

Trasformata di Fourier è un integrale definito da meno infinito a più infinito), facendo tendere, cioè, 

il limite del periodo ad infinito. 

Un segnale periodico, sotto opportune ipotesi, si può vedere come la somma di infiniti 

segnali sinusoidali (sviluppo in serie di Fourier). [Cos07]

2.1 Gli organi di senso dell'apparato uditivo 

Alla base della percezione uditiva ci sono 

diversi organi, sollecitati dalle perturbazioni di 

pressione delle onde audio, e complessi processi 

biologici che intervengono a comporre la 

sensazione uditiva finale. 

Il senso dell'udito ha sede nelle tre parti in cui 

è diviso l'orecchio: la parte esterna, la parte media e 

la parte interna. Le diverse parti sono così composte 

[Fig. 6]: 

2 - Biologia del suono 

Parte esterna: padiglione auricolare, condotto 

uditivo e timpano; 

Parte media: martello, incudine e staffa, i tre 

ossicini più piccoli del corpo. È in comunicazione 

Fig. 6: Disegno dell'orecchio. [Far99] 

con la faringe tramite le trombe di Eustachio, che 

hanno il compito di equilibrare gli stati di 

pressione tra i due lati del timpano; 

Parte interna (separata dalla media da una membrana, che poggia sulla staffa): coclea (dal 

latino, chiocciola), dalla quale parte il nervo acustico. 

Della struttura dell’orecchio il timpano, gli ossicini e la coclea sono gli organelli principali. 

Il timpano 

È una membrana elastica, molto sottile, in grado di mettersi in vibrazione con l'arrivo di 

perturbazioni di pressione provenienti dall'ambiente esterno. Non può percepire suoni al di fuori 

della soglia di udibilità che, nell'uomo, è compresa mediamente fra i 16-20 Hz e i 16-20 kHz. 

Suoni di particolare frequenza o intensità producono una sensazione di dolore che non è dovuta 

a particolari fenomeni violenti, bensì dagli effetti dinamici che questi suoni provocano sulla 

membrana del timpano. 

Non è raro che il timpano subisca seri danni in seguito a sollecitazioni troppo violente o 

dopo essere stato esposto per periodi di lunga durata a sollecitazioni di media intensità ma 

particolarmente fastidiose. 

I tre ossicini 

Martello, incudine e staffa, i tre ossicini più piccoli del corpo, convogliano le vibrazioni 

sonore dal timpano alla coclea. Il martello è collegato direttamente alla membrana del timpano, 

l'incudine e la staffa le trasmettono alla coclea tramite un'altra membrana. 

Se l'efficacia del timpano è relativamente semplice da ripristinare in seguito a traumi o alla 

perdita progressiva delle capacità uditive, causata dall'età, più complesso risulta un intervento 

sui tre ossicini in caso di un loro malfunzionamento. Il fatto di essere racchiusi in una cavità 

così protetta del corpo, le loro dimensioni e la loro così delicata fisionomia rendono difficile un 

intervento chirurgico diretto. 

La coclea 

Organo complesso e non ancora del tutto conosciuto dagli studiosi, la coclea è una galleria, 

avvolta su se stessa, piena di liquido e divisa in tre canali. Il più importante dei tre è quello 

11

12 

centrale, sede delle cellule recettrici dell'udito, poste sulla membrana basilare. Queste cellule, 

dotate di ciglia (stereociglia) dette anche cellule capellute, sono disposte in una precisa 

sequenza lungo tutta la chiocciola, formando l'organo di Corti, e sono sovrastate da una 

membrana tectoria extracellulare. L'arrivo di una perturbazione di pressione dalla membrana 

della staffa fa piegare le stereociglia sulla membrana tectoria, provocando una depolarizzazione 

delle cellule ciliate che viene tradotta in una serie di impulsi nervosi, raccolti, infine, dal nervo 

acustico. 

Studi di psicoacustica riferiti alla percezione uditiva media provano che la precisione delle 

sensazioni uditive hanno un andamento logaritmico che va dai suoni più gravi a quelli più acuti 

[vedi Capitolo 2]; questo fenomeno è provato dalla disposizione delle cellule ciliate lungo l'organo 

di Corti e dalla disposizione dei loro collegamenti con il nervo acustico. 

2.2 I rischi del sistema uditivo 

L'orecchio umano, come tutti gli altri organi del corpo, è esposto a numerosi pericoli sia per 

quanto riguarda disturbi sia abusi. Di questi ultimi si è cominciato a parlare da qualche anno, in 

seguito all'esplodere delle nuove tecnologie audio-musicali: dai lettori multimediali portatili alla 

frequentazione di ambienti acusticamente inquinati, le cause dei disturbi uditivi sono in crescita 

esponenziale. 

Per come è strutturato, il timpano ha dei limiti ben precisi per il suo utilizzo. Se esiste un 

limite prima del quale un suono non viene percepito (0 dB), esistono anche dei limiti per intensità 

sonora: rischia seri danni un timpano esposto per un breve tempo ad una sollecitazione di 120 dB. 

Infatti: [Cel00] 

Soglia dell'udibile = 2 x 10 -5 Pascal = 0 dB 

Soglia del dolore = 100 Pascal = 120 dB 

Tuttavia, se 120 dB è considerata un'intensità sonora piuttosto considerevole, è vero anche che 

suoni di 80 dB e di durata più lunga possono sortire gli stessi effetti di un suono di 120 dB più 

breve. 

È quindi necessario avere cura del proprio orecchio sia dal punto di vista fisiologico che nelle 

abitudini. Esistono infiniti tipi di rumori pericolosi per il nostro orecchio, molti dei quali 

provengono, spesso, da fonti vicine a noi, in luoghi familiari o in strada. Alcuni esempi di valori, 

espressi in deciBel, di pressione sonora di alcuni suoni comuni sono riportati nella seguente tabella: 

Tipo di rumore dB 

Normale conversazione 60 

Traffico cittadino 80 

Sparo di arma da fuoco 140/170 

Tab. 1: Esempi di valori dei rumori più comuni. [Airs.it]

CAPITOLO 2 

LA COMPRESSIONE DATI IN INFORMATICA 

13

1 - Compressione dati 

1.1 Cosa si intende per “compressione”? 

Parlare di compressione è come parlare di riassunti: il concetto di fondo è quello di ridurre lo 

spazio occupato da una certa quantità di dati. Quando si riassume un testo, infatti, si scrive qualcosa 

che abbia lo stesso significato di un testo dato, occupando meno parole; occupare meno parole 

significa risparmiare spazio ed inchiostro. Tanto migliore vogliamo che sia il risultato, tanto più 

impegno dobbiamo mettere nel riassumere il testo. 

In ambito informatico, questo processo viene portato sul piano logico-matematico. Un pc 

memorizza grandi quantità di dati in linguaggio binario, ovvero come serie di 1 e di 0. Ogni 1 e 0 

costituiscono un bit; una serie di 8 cifre, ovvero di 8 bit (per esempio “10001011”), viene chiamata 

byte. 

Per un computer, comprimere un file vuol dire trovare tutti quegli accorgimenti che 

consentono di salvare quel file conservando tutta l’informazione ma occupando meno byte 

possibile. Per esempio, in un qualsiasi testo in lingua italiana, dopo ogni lettera q seguirà 

certamente (tranne per la parola “soqquadro”) una lettera u. 

Quando si parla di software di compressione ci si riferisce ad un algoritmo, un insieme di 

operatori logico-matematici in grado di lavorare con una discreta autonomia su dati informatici e 

che rappresentano il nocciolo del software. Essi possono essere considerati come il motore di una 

macchina, l'interfaccia grafica alla carrozzeria e tutto il software come la macchina stessa. 

Le tecniche di compressione sono molte e differenti, ciascuna adatta ad ogni formato di dato. 

Ci sono algoritmi che danno risultati eccellenti se applicati su dati di tipo multimediale e altri su 

documenti di testo. I formati più diffusi sui pc moderni (Zip per Windows, Stuffit per Mac, etc..) si 

basano su algoritmi “intelligenti”, che sanno adattarsi, nella maggior parte dei casi, al tipo di dato 

da comprimere. 

L’azione inversa della compressione è la decompressione. Come si può intuire dal nome, 

attraverso la decompressione si trasforma un file compresso in un file non compresso. Utilizzando 

un pc connesso ad internet capita frequentemente di imbattersi in file già compressi, per esempio 

file di tipo Zip. Prima di poter accedere ad un file di questa specie è necessario, quindi, 

decomprimerlo. Infatti, se si parla di compressione di un file, si parla di un processo attraverso il 

quale è stato modificato un file, trasformandolo in un altro che occupa meno byte, e salvato con un 

altro formato. Per ritornare al file originale, il software di compressione usato procede al contrario: 

ricostruisce i dati di partenza ripristinando le parti “riassunte” o tagliate nella fase di compressione 

Il problema principale della compressione è questo: il file, una volta decompresso, è uguale 

oppure no all’originale? 

Informazione di 

partenza 

? 

Informazione 

ricostruita 

Compressione 

Decompressione 

File compresso 

A seconda del rapporto che intercorre tra informazione originale e informazione ricostruita, si 

parlerà di compressione Lossless (senza perdita di informazione) o Lossy (con perdita di 

informazione). 

15

1.2 Diversi tipi di compressione 

A diversi tipi di dati corrispondono diversi tipi di compressione. Tra un file audio, di testo e 

video ci sono molte differenze, sia a livello quantitativo sia a livello qualitativo. A priori, un file di 

testo considerato “enorme” alla percezione umana (come può essere, ad esempio, una versione 

digitale di un libro di 2000 pagine) occupa molto meno spazio su supporti di registrazione che un 

file audio di pochi minuti ad alta qualità. Perché? 

Va innanzi tutto precisato che la natura dei dati informatici dipende molto dalle affinità che ci 

sono tra il tipo di dato e il modo di “pensare” che ha il computer: c'è molta più somiglianza tra il 

sistema binario e un testo che tra il sistema binario e un'onda sonora. Infatti, un'onda sonora ha 

bisogno di essere trasformata in una serie di valori numerici prima di essere elaborata dal pc. 

La maggior parte dei sistemi di compressione informatica sfrutta le potenzialità di calcolo dei 

moderni computer al fine di risparmiare spazio. Con questo sistema, ad elevate percentuali di 

compressione corrispondono tempi di compressione più lunghi, e lo sviluppo tecnologico consente 

di ridurre sempre di più il tempo impiegato dalla compressione. 

Tutti i formati di compressione esistenti possono essere ricondotti a due grandi categorie 

principali: 

Lossless: 

Durante la compressione non viene persa alcuna informazione. Appartengono a questa 

categoria i compressori destinati a dati non multimediali in generale (codici di programmazione, 

documenti di testo, software, etc). Per questo, per compressori lossless si intende tutta quella 

categoria di software che sfruttano algoritmi in grado di comprimere un file senza eliminarne 

alcun dato. Dal risultato finale di questo tipo di compressione è possibile ricostruire 

fedelmente il file originale. 

Lossy: 

Durante la compressione vengono eliminate alcune informazioni considerate “scarsamente 

significative”, a favore dello spazio risparmiato ma a discapito dell'integrità del file originale. 

Appartengono a questa categoria i compressori destinati a dati di tipo multimediale. Per 

compressione lossy, perciò, si intende quel tipo di compressione che modifica il file originale, 

eliminandone alcune parti in modo più o meno incisivo, creandone uno dal quale non è 

possibile ricostruire fedelmente il file originale ma uno molto simile, una copia 

approssimata. Viene usato questo tipo di compressione per risparmiare lo spazio occupato da 

file multimediali (immagini, suoni, video, ecc.). La compressione risulta efficiente nel momento 

in cui il risultato finale occupa meno spazio dell'originale e i nostri sensi non sono in grado di 

cogliere significativamente le differenze tra il file originale e quello compresso. 

Un compressore specifico per un certo tipo di dati potrebbe dare risultati insoddisfacenti se 

applicato ad un formato di dati diverso da quello per cui è stato progettato. 

Lossless Lossy 

Testo Zip / 

Immagini Gif Jpeg 

Audio Wav Mp3 

Video Avi (non compresso) Mov 

Tab. 2: Esempi di formati lossy e lossless. 

Come si desume dalla tabella, per i testi non esiste un formato di compressione lossy, in 

quanto tagliare direttamente porzioni intere di testo significa andare a modificare il documento 

16

stesso. Eliminare parti di un documento influisce notevolmente sul risultato finale, per cui è 

impensabile pensare di applicare un formato di compressione lossy ad un testo. 

Per questo motivo, lo strumento più sfruttato per comprimere un testo con una compressione 

di tipo lossless è la cosiddetta ridondanza. 

1.3 Tecniche di compressione dati: la ridondanza 

Ci sono molti fenomeni che vengono sfruttati per risparmiare spazio. Uno tra i più importanti 

è la ridondanza: per ridondanza si intende la ripetizione di porzioni identiche di dati in una 

determinata sequenza. La ridondanza è presente in molti ambiti del sapere umano, compresa la 

retorica; in generale, con essa si identificano tutte quelle parti di informazione non necessarie, che 

possono essere eliminate senza problemi. [Wiki] 

Si può considerare, ad esempio, quante volte la lettera “i” è stata utilizzata all'interno di questo 

paragrafo, e la distanza tra le singole lettere “i”. Agendo su questi aspetti, un software è in grado di 

creare uno schema che si basa su queste ripetizioni piuttosto che sul testo stesso. 

VERSIONE NON COMPRESSA VERSIONE COMPRESSA 

Nel mezzo del cammin di nostra vita 

mi ritrovai per una selva oscura 

ché la diritta via era smarrita. 

Ah quanto a dir qual era è cosa dura 

esta selva selvaggia e aspra e forte 

che nel pensier rinova la paura! 

Tant'è amara che poco èpiù morte 

ma per trattar del ben ch'io vi trovai, 

dirò dell'altre cose ch'io v'ho scorte... 

Nl mzz dl cmmn d nstr vt 

m rtrv pr n slv scr 

ch l drtt v r smrrt. 

h qnt dr ql r cs dr 

st slv slvgg spr frt 

ch nl pnsr rnv l pr! 

Tnt' mr ch pc p mrt 

m pr trttr dl bn ch' v trv, 

dr dll'ltr cs ch' v'h scrt... 

Tab. 3: Esempio di compressione su un testo sfruttando la ridondanza. [Nar00] 

Per quanto riguarda il formato audio, invece, è molto difficile trovare attimi in cui il segnale in 

uscita sia esattamente identico; è, cioè, praticamente impossibile trovare un numero consistente di 

istanti in cui l'onda sonora da emettere sia identica in tutte le sue componenti in più punti di uno 

stesso flusso audio. 

Le tecniche di compressione che si basano sulla ridondanza hanno anche il vantaggio di avere 

un ulteriore controllo contro la possibile insorgenza di errori nella compressione. La ridondanza è, 

infatti, uno strumento di controllo, oltre che di compressione, specialmente in fase di trasferimento 

dei dati via Internet. 

Nelle pagine seguenti, come esempio di compressione lossy, un confronto tra un’ immagine 

ad alta definizione e la stessa immagine compressa mediante algoritmo JPEG al 90% di 

compressione: 

17

Fig. 7: Confronto fra un’immagine ad alta definizione prima della compressione… [Istart.com] 

18 

Caratteristiche dell’immagine 

Dimensioni: 1024 x 768 pixel 

Spazio occupato: 846 Kb

Fig. 8: …e dopo la compressione. [Istart.com] 

Caratteristiche dell’immagine 

Dimensioni: 1024 x 768 pixel 

Spazio occupato: 80 Kb 

Si può facilmente notare che i particolari dei fiori nel campo e dei rami degli alberi appaiono, 

nella seconda, molto meno precisi, tanto che risulta difficile distinguerli tra loro, a differenza della 

prima nella quale ciò risulta possibile. 

19

1.4 Perché comprimere un file compresso non è conveniente 

Nel grande marasma dei formati di compressione esistenti, molti sono quasi equivalenti, 

compatibili tra loro e possono essere usati contemporaneamente su uno stesso file. Purtroppo, però, 

una volta compresso un file, se lo si comprime con un altro software, diverso da quello usato per la 

prima compressione, non ci sono risparmi di spazio significativi, poiché il file si presenta in una 

forma già troppo essenziale. 

Perciò, non ha senso proporre di comprimere un determinato file più volte e con software 

diversi al fine di ottenere un risultato migliore! 

Inoltre, lo stesso software di compressione fornisce risparmi di spazio molto diversi a seconda 

del tipo di file che si comprime. 

20

2 - Il settore audio della compressione 

2.1 Il punto di partenza 

Negli ultimi anni, il settore informatico e quello musicale del commercio mondiale si sono 

avvicinati sempre di più, grazie alla messa in commercio di lettori audio tecnologicamente sempre 

più avanzati e alle richieste sempre più notevoli da parte dei consumatori. 

L'esigenza più rilevante nel mercato è quella di avere sempre a disposizione un numero 

consistente di canzoni, o di dati in generale, in un dispositivo portatile di dimensioni ridotte e 

senza riduzione di qualità. 

Da una parte grandi multinazionali della musica offrono, ormai da anni, la possibilità di 

acquistare musica online tramite carta di credito, dall'altra milioni di utenti scaricano, in modo più o 

meno legale, una quantità incalcolabile di brani audio tramite software di condivisione file. Lo 

stesso mercato musicale online è cresciuto, nel 2006, complessivamente del 44%: nello specifico, la 

vendita legale di brani musicali online è cresiuta del 119% per un fatturato medio di 7 milioni di 

euro. [Html.it] 

Tutto ciò non sarebbe possibile senza la 

compressione audio. Infatti, i costi di memorizzazione e, 

aspetto di notevole importanza, di trasferimento 

sarebbero troppo ingenti senza di essa: un Cd Audio da 

80 minuti contiene circa 700 Mb di flusso audio non 

compresso di alta qualità e occuperebbe, se copiato 

fedelmente su disco fisso, gli stessi 700 Mb. Tuttavia, se 

700 Mb di spazio è una dimensione accettabile per un Cd, 

non lo è per quanto riguarda il disco rigido di un 

computer, nel quale 700 Mb rappresentano una 

dimensione più che considerevole, né tantomeno per una 

trasmissione via Internet. 

Il problema è ancora più evidente se prendiamo in 

considerazione i supporti di riproduzione portatili la cui 

capacità è di sicuro inferiore a quella di un computer 

domestico. 

La questione è stata quindi affrontata e, in parte, 

risolta fino ad arrivare ad un compromesso più che 

accettabile. Un album di 800 Mb di musica occupa, una 

volta compresso, una dimensione che varia dai 52 ai 180 

Mb [Fig. 9], in media, su disco senza una così fastidiosa 

perdita di qualità, a seconda della qualità media del 

risultato e dal formato di compressione scelti dall'utente. 

Fig. 9: Finestra di scelta del bitrate e del 

formato di compressione in Windows 

Media Player 10 [Microsoft.com] 

Se si pensa, inoltre, a quegli utilizzi per cui la qualità sonora non dev'essere elevata, come una 

telefonata o una trasmissione audio non professionale, una scelta mirata del formato di 

compressione più adatto fornisce la soluzione più funzionale al problema della trasmissione audio. 

2.2 Registrazione digitale di un suono: il campionamento 

Campionare un segnale audio significa tradurre un flusso audio continuo in una serie 

discreta di valori numerici, in modo tale da poterli memorizzare. Il nome del sistema di 

campionamento più diffuso è PCM (Pulse Code Modulation), ed è utilizzato in tutti i sistemi di 

registrazione e di conversione audio digitale, per poi essere elaborato dai computer all'interno di 

formati audio non compressi come Wave, AIFF e AU. [Fig. 10] 

21

I valori numerici in cui è stato tradotto il segnale sono i valori che esso assume in intervalli 

equidistanti di tempo. 

La qualità della registrazione digitale viene determinata da due valori fondamentali: la 

frequenza di campionamento e la profondità: 

22 

Fig. 10: Campionamento PCM, schema 

esemplificativo. [Lor04] 

La frequenza di campionamento: 

misurata in kiloHertz (kHz), indica il numero di 

campioni audio che vengono registrati in un secondo: se 

essa è pari a 44.100, vuol dire che in un secondo sono 

stati regis trati 44.100 valori numerici riferiti al suono 

in entrata. 

La profondità 

indica l'accuratezza di ogni singolo campione: ogni 

campione è come una parola che descrive un istante di 

suono campionato. Più lettere ha la parola, più precisa 

risulta la descrizione. Per questo, un campionamento a 

16 bit è molto più fedele di un campionamento a 8 bit, 

ma occupa anche il doppio dello spazio. Un campione a 

16 bit ha 65.536 (2 16 ) combinazioni. [Gui01] 

Una frequenza di campionamento ottimale per 

l'orecchio umano è di 44.100 Hz. Questo valore deriva 

dal Teorema del Campionamento, per cui il numero di 

campioni al secondo di un flusso audio dev'essere pari 

alla massima soglia di udibilità moltiplicata per due. 

[Lithium.it] Questo concetto è anche alla base del 

teorema di Shannon-Nyquist, che afferma: “È possibile ricostruire correttamente un segnale 

continuo, variabile nel tempo, da una serie di valori digitali discreti, quando questi sono stati presi 

con una frequenza di campionamento pari o superiore al doppio della massima frequenza 

contenuta nel segnale in input”. [Stru03] 

Un brano musicale inciso su Cd-Audio ha, in genere, le seguenti caratteristiche: 

frequenza di campionamento pari a 

44.100 campioni al secondo. 

profondità pari a 16 bit, corrispondente 

a 2 byte per ogni istante di 

campionamento: 2 byte * 8 bit / byte = 

16 bit; 

2 canali di uscita audio (per un flusso 

audio di tipo stereo). 

Le dimensioni occupate dal brano al minuto sono pari a: 

Fig. 11: Una campionatura a 44100 campioni è molto più 

precisa di una a 22000. [Gui01] 

44.100 campioni/secondo * 2 byte/campione * 2 canali * 60 secondi = 10.584.000 byte 

quantificabili approssimativamente in 10 Mbyte. [Vis01] 

Come già accennato, se un valore del genere è accettabile in un Cd-Audio, non lo è per quanto 

riguarda il trasferimento via internet e lo stoccaggio su supporti di memorizzazione. Per questo 

motivo, su questo substrato digitale agiscono i vari sistemi di compressione che lo modificano in 

modo permanente (compressione lossy) o non permanente (compressione lossless) al fine di

idurre lo spazio occupato dal flusso audio. Nella maggior parte dei casi, per contenuti di tipo 

multimediale si preferisce utilizzare sistemi di compressione lossy (con perdita) a patto che il 

risultato finale sia ad una prima percezione identico all'originale. 

Tuttavia, esistono anche formati di compressione lossless specifici per il formato audio che 

agiscono direttamente sul flusso PCM non compresso. Sono formati di compressione lossless 

particolarmente efficaci e con rapporti ci compressione vantaggiosi, con percentuali di spazio 

risparmiato che sfiorano il 50%; vengono utilizzati più largamente nel formato MPEG-4 [vedi 

Capitolo 3]. [Xia04] Questi sistemi, però, si rendono inutili quando vengono applicati su formati 

audio già compressi in altri formati, come, per esempio, l'Mp3. Infatti, in questi casi le percentuali 

di compressione scendono drasticamente verso l'1-2%. [Programmifree.it] 

2.6] 

La codifica di tipo PCM rientra nella tipologia di compressione nel dominio del tempo. [sez. 

Esiste inoltre un altro tipo di codifica PCM di tipo lossless, chiamata ADPCM (Adaptive 

Differential Pulse Code Modulation) che si basa sulle differenze che esistono tra i campioni 

registrati con il metodo PCM. Durante la codifica, a ciascun campione viene sostituita 

l'informazione della differenza che intercorre tra quel campione e quello precedente; questa 

informazione è così composta: 1 

bit che identifica il segno della 

differenza più un valore che ne 

determina l'ammontare. Essendo 

per forza la differenza minore del 

campione stesso, il risultato sarà 

un risparmio di spazio 

considerevole [Fig. 12]. In 

decodifica, il segnale originale 

viene ricostruito sulla base delle 

Fig. 12: Schema del funzionamento della codifica ADPCM. [Lom00] 

informazioni delle differenze tra i 

vari campioni. 

Uno strumento in più per 

ottimizzare ulteriormente questo 

sistema di compressione è la creazione di una tabella di look-up, ovvero una tabella che associa dei 

valori standard a dei puntatori all'indice; grazie a questo sistema non si rende più necessario 

memorizzare le singole differenze, ma solo i rispettivi puntatori all'indice, i quali contengono 

l'informazione sulla differenza. [Lom00] 

2.3 I fenomeni sfruttati dalla compressione dell'audio 

Spesso la compressione di un file audio lo modifica in maniera permanente. Ciò vuol dire che 

il risultato finale è un suono fisicamente diverso all'originale. Come mai allora si procede alla 

compressione se questa in qualche modo modifica il suono? 

In realtà, il risultato finale, pur non essendo esattamente uguale al suono di partenza, è molto 

simile a questo; anzi, se per la compressione si sono usati software corretti e di qualità, il suono da 

noi percepito sarà praticamente identico al primo. Questo perché la compressione agisce su quei 

suoni che l'orecchio umano non è in grado di percepire. 

Il genere di suoni che il nostro orecchio non percepisce sono quelli troppo gravi (di bassissima 

frequenza) o quelli troppo acuti (di frequenza altissima), quelli posti in determinati punti oppure 

quelli talmente rapidi da non essere neppure percepiti. 

23

È perciò possibile ridurre lo spazio occupato dal file andando ad agire sugli effetti che questo 

provoca sul nostro orecchio. Questo processo è stato sviluppato secondo metodologie e 

interpretazioni diverse. I principi sui quali si basano le più importanti ricerche in campo di 

compressione sono le seguenti: 

24 

Frequenze. 

L'orecchio umano è in grado di recepire ed 

interpretare suoni di frequenza compresa fra 16- 

20 Hz e 16-20 kHz. Suoni la cui frequenza è 

fuori da questo intervallo non sono percepibili. 

Da ciò segue che ogni suono che abbia 

frequenza al di fuori da questo intervallo è 

inutile ai fini dell'ascolto. Questo principio non 

è però così esatto, in quanto non tutte le onde 

sonore hanno una funzione esclusivamente 

percettiva: spesso alcuni suoni armonizzano altri 

suoni o fanno parte del timbro di altre onde 

sonore, per cui, anche se non direttamente 

udibili dall'uomo, contribuiscono alla qualità 

complessiva del flusso. 

Fig. 13: Frequenze dei diversi tipi di suoni. 

[Sanpaolo.it] 

Mascheramento. 

Alcuni suoni vengono mascherati durante il processo di ascolto. Questo fenomeno è dovuto alla 

forma dell'onda sonora: picchi di intensità particolarmente accentuata provocano il maschermento 

di suoni di intensità minore che seguono immediatamente i picchi. Ci sono diversi tipi di 

mascheramento, tra cui il pre-mascheramento e il post-mascheramento. 

Differenze fra suoni. 

Un'onda sonora si può convertire facilmente in una serie di valori numerici relativi ai singoli 

istanti di esecuzione. Ogni singolo “pezzettino” di onda audio può essere quindi visto come 

uguale al precedente, tranne che per una piccola parte che rappresenta la loro differenza. È quindi 

possibile considerare ogni parte del brano come una parte campione “modificata di un 

pezzettino”. [vedi:Sezione 2.6] 

Altri fenomeni acustici contribuiscono alla compressione in maniera meno significativa 

rispetto a quelli appena descritti, e sono utilizzati in modo più o meno rilevante a seconda dello 

scopo della compressione. 

2.4 Psicoacustica 

Con il termine psicoacustica si intende tutto l'insieme dei processi fisiologici e psicologici che 

intervengono nella percezione uditiva umana. 

Grazie allo studi di psicoacustica è stato possibile, nel corso degli anni, creare una serie di 

modelli a cui fare riferimento per la creazione di compressori audio funzionali, e si sono definite le 

soglie di udibilità dei diversi suoni. Per soglia di udibilità si intende genericamente il valore 

minimo di intensità di stimolazione necessaria perché si verifichi una certa risposta biologica o 

psicologica. [Ube83] 

La psicoacustica studia principalmente i fenomeni sonori facendo riferimento alle loro 

frequenze, alle proprietà fisiche del suono nel mezzo materiale in cui si propaga e alle 

caratteristiche biologiche dell'ascoltatore (nel nostro caso, dell'orecchio umano). 

Questi studi confluiscono nelle varie tecniche di compressione audio che, al loro interno,

contengono diversi modelli psicoacustici. 

I compressori audio più avanzati, infatti, 

sfruttano questi modelli per eliminare tutti quei 

suoni che l'orecchio umano non è in grado di 

percepire; senza gli studi di psicoacustica che 

hanno portato alla creazione dei modelli, oggi 

non avremmo a disposizione le tecnologie di 

compressione audio e, senza di queste, non 

potremmo sfruttare tutti gli strumenti 

tecnologici che ne fanno uso. 

2.5 Gli effetti di mascheramento 

Tra i fenomeni sfruttati per 

comprimere un suono, quelli di maggiore 

importanza sono i cosiddetti effetti di 

mascheramento. Basati sulla fisiologia 

dell'orecchio umano e sulle caratteristiche 

fisiche del suono, questi fenomeni fanno si 

che la percezione che abbiamo di un suono 

emesso da una sorgente non sia esattamente 

identica al suono stesso. Questi fenomeni 

sono causati dalla natura stessa del suono, o 

dalle componenti spettrali di cui è composto. 

Infatti, non è detto che un uditore, anche 

attento, riesca a percepite un suono 

proveniente dall’ambiente circostante nella 

sua piena interezza, perché alcune parti di 

questo suono potrebbero mascherarne altre, 

quelle più deboli. 

Un esempio molto utile per dare 

un'idea di questi fenomeni è quello di stare 

per qualche secondo vicini ad una cascata 

abbastanza grossa. Il rumore dell'acqua che 

cade con violenza coprirebbe qualsiasi voce 

presente nei paraggi non sufficientemente 

forte per essere udita. Questo fenomeno è l'effetto del mascheramento in frequenza, a causa del 

quale componenti spettrali di debole intensità e distanti anche qualche centinaio di Hz da suoni 

molto più intensi non vengono percepite e risultano, quindi, mascherate. 

Fig. 17: Mascheramento temporale. Come varia la 

zona di mascheramento prodotta da un suono 

forte.[Ben-Giu] 

Fig. 14: Soglia di udibilità, infrasuoni ed ultrasuoni: 

zone di percezione e non percezione audio. [QCP.it] 

Fig. 16: Mascheramento in frequenza. Componenti spettrali 

di una certa intensità mascherano componenti più deboli. 

[Lithium.it] 

Fig. 15: Mascheramento in frequenza. Suoni 

particolarmente intensi mascherano suoni più deboli anche 

distanti. [Ben-Giu] 

Un altro tipo di mascheramento è il 

cosiddetto mascheramento temporale, e si basa 

sulla fisiologia del timpano. Come si è già 

analizzato nel primo capitolo, la membrana del 

timpano, dopo essere stata sollecitata da un 

suono piuttosto forte, impiega un certo periodo di 

tempo per tornare allo stato di riposo. In questo 

periodo di tempo, come reagisce a nuovi stimoli? 

Alcuni studi hanno dimostrato che dopo la 

25

cessazione di un suono piuttosto forte, suoni meno intensi e distanti pochi istanti dal primo suono 

non vengono uditi dal nostro orecchio. Infatti, se il suono più debole cade in quell'intervallo di 

tempo in cui il timpano sta tornando dalla posizione di riposo, è difficile che sia in grado di 

produrre una sollecitazione sufficiente per essere udito. La componente spettrale che subisce le 

conseguenze del suono forte che cessa è indicata nella figura (mask zone). 

Il mascheramento temporale viene 

anche studiato come l'insieme di due tipi 

diversi, e più specifici, di 

mascheramento: il pre-mascheramento 

e il post-mascheramento. Entrambi 

analizzano zone di non udibilità 

immediatamente precedenti (pre) o 

successive (post) ad un suono. Il premascheramento 

dura mediamente un 

istante (pochi millisecondi), mentre il 

post-mascheramento è quello che 

influenza più significativamente 

l'udibilità dei suoni e che viene più 

spesso chiamato generalmente mascheramento temporale. [Lom00] 

Il range di frequenze per cui si manifesta l’effetto di mascheramento è detto banda critica. 

[Ber05] 

L'unione di questi tre fenomeni consente di creare una Global Masking Threshold (o Soglia 

di Udibilità Dinamica), una rappresentazione di quelle regioni audio che non influiscono in modo 

rilevante sul suono che viene percepito dall'uditore, per cui possono essere eliminate senza una 

perdita considerevole di informazione. [Vis01] 

2.6 Diversi tipi di codifica 

Come già accennato, esistono molte modalità di compressione diverse tra loro: ogni modalità 

ha i suoi pregi e i suoi difetti ed è destinata alle diverse esigenze degli utenti finali. 

Tutte le modalità si riconducono a tre grandi gruppi: 

26 

codifica nel dominio del tempo 

codifica per modelli 

codifica nel dominio delle frequenze 

Fig. 18: Rappresentazione 3D del mascheramento temporale. 

[Nol93] 

I primi due tipi vengono principalmente utilizzati per segnali audio parlati, mentre il terzo è il 

più funzionale per comprimere dati musicali. [Ben-Giu] 

Codifica nel dominio del tempo 

Per codifica nel dominio del tempo si intende indicare tutti quei processi che 

analizzano e codificano un segnale audio utilizzando come variabile indipendente di 

riferimento il tempo. 

Il formato PCM appartiene alla codifica nel dominio del tempo, poiché converte, ad 

intervalli regolari, l'onda audio in una serie di valori numerici. A partire da questi valori, si 

ricostruisce un suono identico a quello originale. Come già visto, però, questo tipo di 

codifica comporta un notevole impiego di spazio per la memorizzazione. [Vis01]

Codifica per modelli 

Sfruttare determinati modelli, nel caso di una codifica per modelli, significa studiare in 

modo specifico la natura stessa del suono preso in esame. Viene applicata per codificare la 

voce umana in apparecchi come il telefono, che non necessitano di un'elevatissima qualità 

audio. 

Essa è costituita, appunto, da modelli, secondo cui il flusso audio viene compresso per 

accordarsi meglio alle caratteristiche dell'orecchio umano (durante una telefonata, la 

qualità scadente dell'audio è facilmente percepibile, eppure, la maggior parte delle volte, ci 

si capisce senza particolari difficoltà). 

È praticamente impossibile creare una serie di modelli per la compressione di flussi 

musicali, in quanto il numero di sorgenti audio nel mondo è virtualmente infinita, mentre 

la voce umana ha molte caratteristiche comuni in tutti gli individui. 

Codifica nel dominio delle frequenze 

Questo tipo di compressione agisce sullo spettro delle frequenze di un suono, andando 

a tagliare e modificare il suono originale. Esso è l'insieme della maggior parte dei 

fenomeni sonori descritti precedentemente: sfruttando un modello psicoacustico, diviso un 

suono in diverse parti, a seconda del tipo di suono e delle sorgenti audio è possibile 

comprimere il flusso audio in modo molto più efficiente rispetto alla codifica nel dominio 

del tempo 

È un tipo di compressione lossy, in quanto elimina una certa percentuale di suono 

originale. Un buon compressore nel dominio delle frequenze è in grado di limitare anche 

gli effetti indesiderati della compressione, quali il rumore o l'eccessiva perdita di 

limpidezza del suono. 

A questo tipo di compressione appartiene il formato Mpeg, che verrà analizzato 

meglio nel prossimo capitolo. 

2.7 Molti compromessi: lo streaming 

Per streaming si intende il 

trasferimento di dati multimediali in 

tempo reale via internet, senza che 

questi dati vengano scaricati 

completamente sul disco fisso del 

computer. 

Un file visualizzato in streaming 

viene quindi scaricato e visualizzato per 

“blocchi”: nel momento in cui un blocco 

è stato scaricato, comincia la sua 

riproduzione e, contemporaneamente, 

viene scaricato il successivo. [Vis01] 

In generale qualsiasi file 

audiovisivo può essere inviato in 

Fig. 19: Un popolare sito internet per la condivisione mondiale 

di filmati via streaming. 

streaming via internet, a condizione che venga trasformato in un formato adatto e compresso in 

modo opportuno. Infatti, i limiti di velocità posti dalla connessione internet obbligano il file ad 

avere una qualità in Kbyte al massimo pari alla velocità di trasferimento sulla rete. Se si prova a 

trasferire in streaming un video di qualità elevata, una connessione internet di media velocità non 

sarebbe assolutamente in grado di trasmetterlo fluidamente. Condizione necessaria, dunque, per un 

invio dei dati fluido e senza interruzioni è la compressione del file multimediale. 

In genere, per gli scopi a cui è destinato un file multimediale inviato in streaming, non è 

richiesta una qualità troppo elevata, per cui vengono utilizzati rapporti di compressione lossy molto 

27

pesanti che modificano significativamente il file originale, rendendolo molto meno ingombrante e 

più facilmente trasferibile. 

Interruzioni nella riproduzione del flusso (il file multimediale che viene inviato in streaming si 

definisce flusso) sono causate dallo stato di congestione della rete. Ciò si verifica quando la qualità 

del file supera la velocità di download, per cui la connessione non riesce a star dietro alla 

riproduzione. 

Per ovviare a questo inconveniente, i software multimediali più avanzati sono in grado di 

aumentare o diminuire in tempo reale la compressione, e quindi la qualità, del flusso audio-video. I 

disturbi visivi che possono verificarsi durante la riproduzione di un filmato in streaming, quindi, 

sono gli effetti di un trasferimento non del tutto efficiente e dei sistemi che il software mette in 

pratica per risolvere questo problema. 

Se volessimo tornare al paragone tra un software di compressione e un’automobile, 

certamente il processo di streaming equivarrebbe all’organo del cambio: a seconda della velocità di 

trasferimento del flusso, cambiano i rapporti di compressione, e i disturbi alla riproduzione sono 

causati dalla variazione di questi rapporti. 

28

CAPITOLO 3 

I FORMATI DI COMPRESSIONE AUDIO 

29

1 - Il formato Mpeg 

1.1 Il successo del formato do compressione Mpeg 

Acronimo di Moving Pictures Experts 

Group, Mpeg è un progetto che nasce nel 

1988 su iniziativa di Leonardo Chiariglione, 

in geniere dello CSELT di Torino (Centro 

studi e Laboratori Telecomunicazioni di 

telecom Italia). È stato pensato per la 

trasmissione audio-video in formato digitale 

sfruttando la compressione dei dati, 

utilizzando meno banda rispetto ai formati 

analogici. Il progetto si divide in diversi 

gruppi, a seconda dell’utilizzo: Mpeg-I, 

Mpeg-II, Mpeg-IV. etc. Ognuno di questi Fig. 20: Convegno Mpeg a Firenze, 1996. [Mpeg.org] 

formati indica anche un diverso standard di 

compressione per diverse velocità di trasferimento. [LuG] 

Il formato Mpeg ha riscosso enorme successo grazie al fatto che è uno standard aperto: 

oggigiorno sono disponibili diverse decine di versioni diverse di Mpeg, tutte perfettamente 

compatibili fra loro. Le poche eccezioni devono la loro incompatibilità al diverso uso degli 

algoritmi presenti al loro interno, non alla differenza fra gli stessi. Nella maggior parte dei casi, ogni 

codec-decoder è retro-compatibile, ovvero è in grado di lavorare con flussi compressi con 

versioni precedenti dello stesso software. 

Questa sua peculiarità ha le radici nella natura stessa del progetto Mpeg: il gruppo di ricerca si 

ritrova tre volte l’anno, ed ogni convegno dura cinque giorni. Durante i periodi in mezzo a questi 

convegni, ad ogni ricercatore viene data massima libertà d’azione sullo studio del software. 

[Mpeg.org] 

Qui in seguito alcuni esempi di formati Mpeg: 

Mpeg-I 

Lo standard Mpeg-I nasce per essere applicato su flussi audio-video di banda pari o 

inferiore a 1.5 Mbit/s. Questo valore corrisponde al bitrate di un CD. Dallo standard 

Mpeg-I, più precisamente dalla parte audio del software Mpeg-1, proviene il famoso 

standard Mp3 [vedi Sezione 2: Il formato Mp3], caratterizzato da una grandissima 

versatilità. Venne approvato nel 1992. 

Mpeg-II 

Più avanzato del Mpeg-I, aggiunge importanti funzioni come la possibilità di inviare 

più di due canali audio e di consentire lo zapping tra più livelli video. Nello standard 

Mpeg-II è stato fatto rientrare anche lo standard Mpeg-III. Venne approvato nel 1994. 

Mpeg-IV 

Caratterizzato da un’innovativa tecnologia multimediale mai vista prima della sua 

comparsa in questo standard, l’Mpeg-IV è frutto di studi informatici influenzati molto 

dalla crescita di Internet e delle esigenze del mercato sempre più tecnologico. Esso ha un 

funzionamento del tutto diverso rispetto agli altri software, poiché considera il flusso 

audiovisivo non come semplice susseguirsi di immagini e suoni ma come un’insieme di 

oggetti a sé stanti, in movimento; in aggiunta a ciò, l’utente è in grado persino di scegliere 

31

32 

il proprio punto di vista nella visione. Venne approvato nel 1998 (prima versione) e nel 

1999 (seconda persione). 

Per ogni versione del formato Mpeg sono state sviluppate diverse sottocategorie, chiamate 

layer (letteralmente: “livello” [WR.com]), che vanno da I a III. I vantaggi crescono 

proporzionatamente alla loro complessità, dal layer I al layer III: 

Layer I 

È il più semplice fra i tre, tuttavia ha l’inconveniente di offrire risultati mediocri dal 

punto di vista del rapporto qualità/compressione; 

Layer II 

Sia l'encoder che il decoder sono più complessi del layer I, riescono ad eliminare la 

ridondanza ed applicare il modello psicoacustico all'onda audio in modo più efficiente; 

Layer III 

È notevolmente più complesso rispetto ai primi due ed è utilizzato da applicazioni che 

richiedono una forte riduzione di spazio, ottenuta mediante l'impiego di molteplici 

Threshold Mask (banchi di filtri) e sistemi di controllo ciclici. È il tipo a cui appartiene il 

formato Mp3. 

1.2 Il funzionamento generale del formato Mpeg 

Tecnicamente, un file Mpeg è costituito da una serie di blocchi, chiamati frame, ognuno dei 

quali contiene informazioni riguardanti l’audio e il necessario per essere riprodotto; essi vengono 

poi riprodotti successivamente l’uno dopo l’altro. 

“An MPEG audio file is built up from a 

succession of smaller parts called frames. 

A frame is a datablock with its own header 

and audio information.” 

“MPEG Audio Layer I/II/III frame header” [Mp3-tech] 

I compressori basati sul formato Mpeg sfruttano dei modelli psicoacustici, ovvero schemi 

statistici (frutto di anni di ricerche scientifiche, dei principali comportamenti della percezione audio 

umana). Il lavoro effettuato durante il processo di compressione non è quello di creare un segnale 

esattamente fedele all'originale, ma un segnale che sembri, all'orecchio umano, il più “simile” 

possibile all'originale. 

Il punto di partenza della compressione Mpeg è la trasformazione del flusso audio dal 

dominio del tempo (la cui codifica occupa moltissimo spazio) al dominio delle frequenze 

(sensibilmente più “leggero e maneggevole” dal punto di vista operativo) attraverso la Trasformata 

di Fourier. La funzione ottenuta viene quindi divisa in 32 sottobande di uguale ampiezza. In altri 

sistemi, questa suddivisione è stata cambiata con una suddivisione in 26 sottobande, la cui 

ampiezza varia su base logaritmica [Fig. 21]. Questa diversa divisione è spiegata con una teoria 

secondo la quale l'udito umano è più sensibile alle differenze tra frequenze più basse che tra 

frequenze più alte. Due suoni gravi ma con frequenza leggermente diversa, anche di poco, sono più 

facilmente riconoscibili rispetto a due suoni acuti distinti.

Fig. 21: Andamento logaritmico della percezione uditiva umana. [Vis01] 

Altri fenomeni che sono stati analizzati dai 

creatori del formato Mpeg sono quelli per cui 

alcune parti del segnale (per esempio frequenze 

troppo alte o troppo basse e suoni diversi molto 

ravvicinati fra loro, ecc) non vengono percepiti 

dall'orecchio umano, perciò possono essere 

considerate inutili. Questi fenomeni prendono il 

nome di effetti di mascheramento, già trattati nel 

capitolo precedente [vedi Capitolo 2, sezione 2.5]. 

Un'immagine che rende bene l'idea di questi 

effetti è quella di un uccellino che vola controluce 

[Fig. 22]. Se provassimo a fissarlo quando è 

esattamente al centro del disco solare, il nostro 

occhio non riuscirebbe a vederlo a causa della 

quantità di luce del sole che lo colpisce, perciò è 

come se per noi non ci fosse. In realtà, siamo noi a 

non percepirlo presente, ma in quel fotogramma 

l'informazione della sua presenza risulta inutile. 

Fig. 22: Come tutto ciò che sta davanti al disco 

solare non viene percepito dal nostro occhio, così 

anche alcuni suoni non vengono percepiti perché 

mascherati da altri suoni. 

Il codec, sfruttando questi effetti, analizza il segnale originale dividendolo in blocchi; per ogni 

blocco viene analizzato lo spettro audio ed eliminate quelle parti che l'uomo non è in grado di 

percepire. Una volta tagliate le parti inutili, il segnale viene ricomposto e salvato, con un risparmio 

di spazio che dipende dal modello a cui si è fatto riferimento per la compressione, e l'algoritmo 

usato. 

Durante la fase di compressione, il codec cerca di rispettare il bitrate scelto per la 

compressione, dando a ciascun blocco il numero di bit che corrisponde al bitrate. Il decoder è 

molto più semplice dell'encoder perché si limita a ricostruire il segnale audio a partire da quello 

compresso, senza l'uso dei modelli. 

Ritornando all'esempio del testo da riassumere, è immediato riconoscere che riassumere un 

testo sia più difficile che leggerne uno riassunto. Se il riassunto è stato fatto bene, il risultato finale 

sarà lo stesso, mentre se è stato fatto male la differenza sarà immediatamente percepita dal lettore. 

La compressione Mpeg è, quindi, una compressione lossy (con perdita) nel dominio delle 

frequenze. Il codec è composto da molti piccoli software più piccoli che interagiscono fra loro in 

maniera sequenziale, ognuno con il suo compito. 

Il problema più spinoso della questione è la generazione collaterale di rumore. La 

compressione, infatti, crea un segnale audio diverso dall'originale e la differenza risiede, spesso, in 

alcuni punti in cui vi sono grandi “salti di frequenza”: i tagli fatti per risparmiare spazio hanno, 

33

cioè, creato una discontinuità dell'onda audio, e vengono percepiti distintamente come fastidiosi. 

Generalmente, il rumore si manifesta sottoforma di “metallizzazione della voce”, in tanti fruscii di 

fondo, nel tipico “gracchiare” del suono in coincidenza di note ad alta frequenza. Tanto più si 

comprime un file audio (ovvero tanto più basso il bitrate che scegliamo per la compressione) tanto 

più questo fastidio aumenta. Il rumore è, perciò, un effetto collaterale della compressione che va 

limitato il più possibile. All'interno del codec Mpeg ci sono particolari sistemi che cercano di 

limitare l’insorgere di questo rumore, compatibilmente con i parametri scelti. 

1.3 Il formato Mp3: i miglioramenti 

L'Mp3 (acronimo di Mpeg-I Layer-III) è una particolare versione del formato Mpeg; più 

nello specifico, è una delle sue più evolute versioni. È caratterizzato da sistemi di 

codifica/decodifica più efficienti, una maggiore complessità, risultati più convenienti in termini di 

spazio risparmiato e costo: infatti l'Mp3, a differenza del formato Mpeg, non è un formato “libero” 

in termini di proprietà, ma è di proprietà dell'azienda tedesca Fraunhofer, che ne detiene il marchio 

e i diritti. Il suo utilizzo è consentito liberamente a tutti per quanto riguarda l'aspetto non 

commerciale, ma quello a fini commerciali o, più frequentemente, per creare dei file audio 

compressi non lo è. In sintesi, la riproduzione di un file Mp3 è libera, mentre non lo è la 

compressione. 

Per questo, il software più diffuso che consente di creare file Mp3 o che viene largamente 

utilizzato per scopi che non siano soltanto di riproduzione audio è una versione per così dire 

“craccata” della versione ufficiale. Che essa sia liberamente sfruttabile e distribuibile non è del 

tutto chiaro; all'interno della rete si possono trovare migliaia di informazioni anche opposte a 

riguardo, vi è una gran confusione. 

Ufficialmente, nei pc ad uso privato gli unici formati in cui è possibile convertire un file audio 

sono quelli non compressi (per esempio wav) o quelli di proprietà della casa produttrice del 

sistema operativo (Windows Media Audio, Wma, concorrente dell’Mp3, per i computer 

Windows), a meno che ci siano altri accordi commerciali. 

1.4 Le fasi della compressione Mpeg 

La compressione Mpeg trasforma un segnale audio dal dominio del tempo al dominio delle 

frequenze. 

Come già accennato in precedenza, ogni compressore funziona sia per la compressione che 

per la riproduzione. Nella prima fase ha il compito di rielaborare un flusso audio al fine di crearne 

uno il più simile possibile dal punto di vista percettivo e meno ingombrante, a partire da un segnale 

codificato nel dominio del tempo, e nella seconda quello di riprodurre un flusso audio compresso e 

riportarlo nel dominio del tempo. 

Il funzionamento del codec Mpeg, per quanto riguarda il processo di compressione, è diviso in 

4 fasi fondamentali: 

34 

Analisi 

Il segnale audio viene trasformato dal dominio del tempo al dominio delle frequenze, 

utilizzando la Trasformata di Fourier, e quindi analizzato. 

Utilizzo del modello psicoacustico 

Il decodificatore cerca quelle frequenze che possono essere eliminate perché non udibili e 

quelle che non influenzano la percezione. 

Codifica 

Il segnale audio viene quantizzato (compresso) al fine di occupare meno spazio (meno bit). 

Stream 

Si ricrea il flusso audio unendo tutte le parti compresse insieme con le informazioni per la 

riproduzione.

Si nota chiaramente che è un sistema particolarmente funzionale dal punto di vista operativo: 

il processo è costituito, infatti, da operazioni matematiche, eseguibile in tempi relativamente brevi 

da un computer. 

Il processo inverso, cioè quello che riporta il flusso audio compresso al dominio del tempo e 

lo riproduce, si articola in 3 fasi: 

Decodifica 

Viene ricreata l'onda audio nel dominio delle frequenze a partire dalle informazioni elaborate 

dal decodificatore. 

Codifica inversa 

Il flusso compresso viene ricostruito sulla base delle informazioni di codifica. 

Sintesi 

Viene riportato il flusso dal dominio delle frequenze al dominio del tempo e, infine, riprodotto. 

Schematizzando, le fasi in cui si articola la trasformazione dell'audio può essere rappresentata 

in questo modo: 

Fig. 23: Schema delle fasi del compressore MPEG generico. [Vis01] 

35

2.1 Dove, quando e perché 

Come appena accennato, il formato Mp3 è 

uno dei risultati finali del progetto di ricerca 

Mpeg. I diritti sul marchio Mp3 sono detenuti 

da un'azienda tedesca chiamata Fraunhofer e 

che è partita con la sperimentazione sul formato 

di codifica Mpeg-1/2 Layer 2. 

Finanziata dall'Unione Europea, diede 

come primo risultato due formati di 

compressione chiamati Musicam e ASPEC; da 

questi, nel 1992 si arrivò alla compilazione di 

questo terzo formato, l'Mp3, che aveva lo scopo 

di riprodurre le stesse caratteristiche dei 

precedenti Mpeg ma con bitrate più bassi. 3 

Nel 1995 veniva pubblicato lo standard 

Mpeg-2, quando i formati Mpeg-1 erano stati 

definitivamente definiti standard internazionali 

già da alcuni anni. 

All’inizio, con l’affermarsi del formato 

Mp3, la qualità di compressione a 128 kbps 

venne considerata come corrispondente alla 

CD-Quality (anche se le frequenze tagliate 

dalla compressione sono ben udibili). 

36 

2 - Il formato Mp3 

Fig. 24: Gli aggiornamenti più recenti sullo standard Mp3 

hanno portato alla creazione di versioni in grado di 

supportare l’audio in Dolby e caratteristiche ancora più 

avanzate. 

Successivamente, schede audio e impianti stereo più avanzati permisero di toccare una risoluzione 

di 24 bit di campionamento e anche oltre, per cui l’Mp3 cominciava a dar segni di debolezza, fino 

ad essere considerato utile più per la sua comodità e maneggevolezza che per la sua qualità. 

Oggigiorno un file Mp3 di bitrate inferiore a 128 kbps è considerato di pessima qualità, a 192 

kbps media e solo a 320 kbps si avvicina davvero alla CD-Quality. 

2.2 Il funzionamento del formato Mp3 

Come ultimo gradino della ricerca sul formato Mpeg, la struttura del formato Mp3 è divisa in 

4 parti, corrispondenti a quelle descritte nel precedente paragrafo. Le innovazioni introdotte in 

questa versione sono da ricercare principalmente in un'ottimizzazione del funzionamento delle 

fasi in qui è diviso. A scapito della velocità di elaborazione (problema risolto grazie all'evolversi 

della tecnologia informatica), la compressione ha raggiunto livelli più alti e risultati più 

soddisfacenti, sia per la qualità del suono sia per la percentuale di spazio risparmiato: 

Analisi 

Il segnale audio viene trasformato nel dominio delle frequenze e diviso in 32 sottobande, 

ognuna delle quali definita per intervalli di frequenza precisi, attraverso un “banco dei filtri” 

( o Threshold Mask ). Nella versione layer-III, a questa divisione, migliorata ulteriormente 

3 

ATTENZIONE: su questa pagina (http://www.beta.it/beta/bs029801/2299.5/ext/b2299e02.htm) ci sono dati 

discordanti riguardo alcune date storiche. Ricerche incrociate hanno dimostrato l’esistenza di informazioni simili e/o 

contraddittorie, ma, al fine di questa breve trattazione, non sono ritenute fondamentali, per cui si è ritenuto lecito 

riportare una fonte sola.

ispetto alle versioni I e II, segue un'ulteriore suddivisione molto più complessa ad opera di 

un altro banco, chiamato MDCT (Modified Discrete Cosine Trasform) che migliora 

ulteriormente la qualità delle frequenze. 

Modello percettivo 

Il confronto con il modello percettivo è arricchito dalle informazioni riguardanti il premascheramento 

e il post-mascheramento. In questo modo, il codificatore è in grado di 

risparmiare ulteriore spazio eliminando altre parti di suoni non percepibili. 

Quantizzazione e codifica 

Questo passaggio è migliore (e più complesso) nella versione layer-III rispetto all'originale 

Mpeg. Dopo aver scelto il rapporto di codifica (il famoso bitrate), il suono viene liberato 

dai suoni non udibili trovati al punto precedente. Questa fase è la fase più lunga e più 

impegnativa della compressione, in quanto in più fasi cicliche vengono controllate sia la 

qualità di ogni singolo “blocco” audio sia il livello del rumore di fondo, che il compressore 

cercherà di eliminare il più possibile. 

Creazione dello stream 

Viene creato il flusso dati compresso unendo i risultati ottenuti dalla compressione. 

Questo schema riassume in modo preciso e completo i passaggi della compressione Mp3 

sopra descritti: 

Fig. 25: Schema delle fasi del compressore Mp3. [Vis01] 

2.3 Il rumore 

Il problema principale è ancora una volta la generazione del rumore, che costituisce un 

residuo non eliminabile della quantizzazione. La sua presenza è provocata principalmente dal fatto 

che, tagliando parti di frequenze audio, si creano dei “salti” in prossimità degli estremi delle 

sottobande in cui è stato diviso il flusso, proprio come nelle altre versioni del Mpeg. Tutte queste 

imperfezioni riprodotte insieme danno luogo ad un fastidioso effetto metallico chiamato, 

comunemente, rumore. 

È chiaro che, durante la riproduzione di un flusso compresso, a causa della natura stessa della 

compressione, il rumore non può essere eliminato; tuttavia si può cercare di limitarlo tramite dei 

buoni algoritmi di compressione. La compressione Mp3, a differenza delle altre versioni Mpeg, ha 

in sé, nell'ultima fase di quantizzazione, un sistema, chiamato Noise Control Loop, che controlla il 

livello del rumore; se questo supera una certa soglia, viene rifatta la quantizzazione con valori di 

compressione differenti fino a quando il rumore non si abbasserà a livelli prefissati (è questo uno 

37

dei controlli ciclici menzionati precedentemente che rendono l’Mp3 così avanzato). 

2.4 La riproduzione di un file Mp3 

Il processo di decodifica è esattamente l'opposto della compressione: si tratta di ricostruire 

l'onda audio (da riprodurre, per esempio, tramite la scheda audio del computer) a partire da un file 

compresso. 

Il software addetto a tale compito è il decodificatore o decoder (termine usato anche per altre 

tecnologie, quali per esempio la televisione satellitare, che altro non è che un segnale digitale 

compresso) [InfoSat]. Spesso si tratta di un software semplicemente inverso al codec, molto più 

semplificato. Esso sfrutta, nella maggior parte dei casi, una raccolta di Threshold Mask (banco di 

filtri) molto simile a quella di un codec al fine di ricreare un suono fedele all'originale. 

Riprodurre un flusso audio compresso è un'operazione più semplice dal punto di vista del 

funzionamento, poiché è assente tutta quella parte del processo in cui vi è la compressione. È come 

dire che leggere un testo ad alta voce è più semplice che prendere appunti da una lezione. 

Qui inseguito vengono riportati alcuni esempi di bitrate e caratteristiche dei principali supporti 

di riproduzione, con relative percentuali di compressione del formato Mp3 rispetto ad essi, ed 

esempi di compressori audio diversi dall’Mp3, sempre con relative caratteristiche. 

38 

Tab. 4: Prestazioni della codifica audio Mp3. [Fraunhofer Ins.] 

Tab. 5: Confronto fra le caratteristiche di diverse tecnologie di campionamento audio. [Noll 99]

Lossy 

Codec Produttore Caratteristiche 

Wma Microsoft Molto simile all’Mp3, riduzione di spazio del 20%. 

Mp3 Fraunhofer A 128 Kbps occupa circa 1/11 del file originale. 

Ogg Vorbis Open Source Fornisce risultati migliori dell’Mp3 a bitrate bassi, inferiori 

a 128 kbps. 

Lossless 

Codec Produttore Caratteristiche 

Wav Microsoft/IBM Pura e semplice registrazione del flusso audio non 

compresso. La sua qualità dipende esclusivamente dalla 

qualità degli strumenti di registrazione utilizzati. 

Ape Monkey audio Compressore audio che raggiunge livelli di compressione 

anche del 50% senza perdita di qualità. Un album di 600 

FLAC Xiph.Org 

Foundation 

Mb in formato Wav, ne occupa 300 in formato Ape. 

Molto popolare tra i musicofili, è molto simile al formato 

Ape, ma con minori risultati. Un album di 600 Mb a 

compressione Wav ne occupa 340 con compressione Flac. 

Tab. 6: Esempi di formati audio lossy e lossless. [Programmifree.it] 

39

40 

3 – Cenni sui formati Mpeg II ed Mpeg IV 

Ricerche più recenti ed avanzate sono state effettuate per 

aumentare sempre più le prestazioni e la qualità delle 

compressioni Mpeg. Tuttavia, esigenze di mercato e di 

consumo hanno spinto le aziende ricercatrici ad affrontare 

nuove avanguardie nello sviluppo di formati di compressione 

sempre più tecnologici. 

Tra i primi ritrovati più significativamente importanti nel 

complesso mondo Mpeg rientra l'introduzione di un numero 

superiore a due di canali audio per applicazioni di tipo multimediale, cinematografico, digitale. In 

questo campo è famosa la tecnologia della statunitense Dolby Surround, che fin dal 1965 studia e 

presenta le più avanzate tecnologie audio digitali cinematografiche [Dolby]. 

Dal punto di vista della compressione, si è reso necessario modificare gli standard stessi al 

fine di poter lavorare con flussi audio molto più consistenti e schemi di compressione notevolmente 

più complessi. 

I primi studi in questa direzione portarono alla definizione di una nuova versione dello 

standard Mpeg, chiamato Mpeg-II, dotato di scarsa retro-compatibilità ma altissime prestazioni. 

Sempre nel settore multimediale, più precisamente in quello cinematografico, è stato 

introdotto un altro formato Mpeg che offre risultati decisamente impareggiabili per quanto riguarda 

qualità e prestazioni: l’Mpeg-IV. Questa versione avanzata dello standard Mpeg è utilizzata 

principalmente in ambito audiovisivo digitale e informatico: sua caratteristica peculiare, infatti, è la 

possibilità di dividere la scena di un filmato in tanti frame separati, disposti in piani differenti, così 

da poterli trattare singolarmente come oggetti a se stanti. La comodità di questo sistema risiede in 

una maggiore comodità di lavoro e di modifica e nelle elevate prestazioni di codifica del risultato 

finale. 

Le caratteristiche fondamentali dell’Mpeg-IV si possono così riassumere: [Ner-Giu] 

Interattività del contenuto 

Compressione efficiente dei dati 

Accesso universale 

La complessità e la difficoltà di funzionamento dei sistemi più avanzati come l'Mpeg-II e 

l'Mpeg-IV rendono difficile una trattazione semplificata eliminando concetti ed approfondimenti 

essenziali. Scopo di questa ricerca non è, infatti, quello di analizzare a fondo gli schemi logicomatematici 

di questi nuovi formati, bensì quello di capire quali sono state le cause che hanno spinto 

la ricerca in questa direzione e i risultati più significativi che sono stati raggiunti. 

Al fine di questa breve ricerca, è sufficiente sapere che questi nuovi formati multimediali 

racchiudono in sé tutte le tecnologie proprie anche agli altri formati, con l’aggiunta di componenti 

software molto più sofisticate e tecnologie in continua evoluzione, che farebbero di qualsiasi 

trattazione scritta un documento già di per sé obsoleto.

INDICI E BIBLIOGRAFIA 

41

42 

Indice delle tabelle 

Tab. 1: Esempi di valori dei rumori più comuni. [Airs.it] 

Tab. 2: Esempi di formati lossy e lossless 

Tab. 3: Esempio di compressione su un testo sfruttando la ridondanza. [Nar00] 

Tab. 4: Prestazioni della codifica audio Mp3. [Fraunhofer Ins.] 

Tab. 5: Confronto fra le caratteristiche di diverse tecnologie di campionamento audio. [Noll 99] 

Tab. 6: Esempi di formati audio lossy e lossless. [Programmifree.it] 

Indice delle figure 

Fig. 1:Rappresentazione delle curve isofoniche e dei valori di sensazione sonora. [Cra01] 

Fig. 2: Formula della percezione sonora [IAc.it] 

Fig. 3: Un'onda sonora composta da diverse armoniche. [Gui01] 

Fig. 4: Frequenze relative di ogni DO della scala musicale. [Lom06] 

Fig. 5: Formula della Trasformata di Fourier. [Matematicamente.it] 

Fig. 6: Disegno dell'orecchio. [Far99] 

Fig. 7: Confronto fra un’immagine ad alta definizione prima della compressione… [Istart.com] 

Fig. 8: …e dopo la compressione. [Istart.com] 

Fig. 9: Finestra di scelta del bitrate e del formato di compressione in Windows Media Player 10 

[Microsoft.com] 

Fig. 10: Campionamento PCM, schema esemplificativo. [Lor04] 

Fig. 11: Una campionatura a 44100 campioni è molto più precisa di una a 22000. [Gui01] 

Fig. 12: Schema del funzionamento della codifica ADPCM. [Lom00] 

Fig. 13: Frequenze dei diversi tipi di suoni. [Sanpaolo.it] 

Fig. 14: Soglia di udibilità, infrasuoni ed ultrasuoni: zone di percezione e non percezione audio. [QCP.it] 

Fig. 15: Mascheramento in frequenza. Componenti spettrali di una certa intensità mascherano componenti 

più deboli. [Lithium.it] 

Fig. 16: Mascheramento in frequenza. Suoni particolarmente intensi mascherano suoni più deboli anche 

distanti. [Ben-Giu] 

Fig. 17: Mascheramento temporale. Come varia la zona di mascheramento prodotta da un suono forte.[Ben- 

Giu] 

Fig. 18: Rappresentazione 3D del mascheramento temporale. [Nol93] 

Fig. 19: Un popolare sito internet per la condivisione mondiale di filmati via streaming. 

Fig. 20: Convegno Mpeg a Firenze, 1996. [Mpeg.org] 

Fig. 21: Andamento logaritmico della percezione uditiva umana. [Vis01] 

Fig. 22: Come tutto ciò che sta davanti al disco solare non viene percepito dal nostro occhio, così anche 

alcuni suoni non vengono percepiti perché mascherati da altri suoni. 

Fig. 23: Schema delle fasi del compressore MPEG generico. [Vis01] 

Fig. 24: Gli aggiornamenti più recenti sullo standard Mp3 hanno portato alla creazione di versioni in grado di 

supportare l’audio in Dolby e caratteristiche ancora più avanzate. 

Fig. 25: Schema delle fasi del compressore Mp3. [Vis01]

Riferimenti bibliografici 

[AIRS.IT] Faq sulla sordità, Home Page Associazione Italiana per la Ricerca sulla Sordità, 2007, 

http://www.associazioneairs.it/html/faq_rumore.HTM. 

[AUDIOSONICA.COM] Glossario, Ingegneria del suono, 2007, 

http://www.audiosonica.com/it/glossario. 

[BEN-GIU] ING. F. BENEDETTO e PROF. G. GIUNTA, “Codifica musicale (standard MPEG)”, Corso di 

elaborazione numerica dei segnali, Dipartimento di elettronica applicata dell'Università 

degli Studi di Roma Tre, Roma Tre. 

[BER05] M.E. BERGAMASCHI, P. MARAZZINI, L. MAZZONI, “L'indagine sul mondo fisico”, Onde e 

luce, ed. Carlo Signorelli Editore, Toledo, 2005. 

[BER05] S. BERRETTI, “Visual Information Processing Laboratori”, MPEG Audio, Dipartimento 

Sistemi e Informatica dell'Università di Firenze, Firenze, 2005. 

[CEL00] F. CELLETTI, “Rischi da Rumore, Seminario didattico sui rischi del rumore”, Firenze, 

2000, http://www.fi.infn.it/sezione/prevprot/rumore.htm. 

[COS07] ING. C. COSENTINO, “Analisi dei sistemi lineari nel dominio del tempo”, Corso di 

fondamenti di automatica, Università degli studi Magna Graecia, Catanzaro, A.A. 

2006/2007, pg. 58. 

[CRA01] P. CRAVERO, “Studio ed implementazione di applicativi per la produzione di materiale 

multimediale distribuibile tramite Internet”, Tesi di laurea in Ingegneria delle 

Telecomunicazioni, Torino, 2001, pg 28. 

[DOLBY] Dolby Home Page, http://www.info-sat.org/ . 

[FAR99] PROF. A. FARINA, “Appunti del corso di Acustica applicata”. 

Testo di riferimento: R. SPAGNOLO, “Manuale di acustica applicata”, UTET Libreria, 

Torino, 2001. 

[FRAUNHOFER INS.] Fraunhofer Institut home page: 

http://www.iis.fhg.de/amm/techinf/index.html. 

[GUI01] M. GUIDOTTI, “La codifica digitale PCM ed i problemi di digitalizzazione del suono” , 

2001, http://www.nemesi.net/audio2.htm. 

[HTML.IT] T.M. FANTI, “Musica digitale: + 44% nel 2006”, 3 Aprile 2007, 

http://webnews.html.it/news/leggi/5748/musica-digitale-44-nel-2006/. 

[IAC.IT] “La percezione del rumore”, Trento, 2007, Inquinamentoacustico.it, 

http://www.inquinamentoacustico.it/percezione_del_rumore.htm. 

[INFOSAT] Portale Info-Sat, http://www.info-sat.org/ . 

[ISTART.COM] http://www.istartedsomething.com/. 

43

[LITHIUM.IT] L.MARCHETTI, “Speciale compressione audio: dal PCM all'MP3”, Giugno 2001, 

http://www.lithium.it/articolo0012p2.htm. 

[LOM00] V. LOMBARDO, “La compressione audio”, Novembre 2000. 

[LOM06] V. LOMBARDO, “Cenni di Acustica”, slide per il Corso di Laurea MultiDAMS in 

Multimedialità e Discipline dell'Arte della Musica e dello Spettacolo, Torino, 2006. 

[LOR04] A. LORENZANI, “I formati audio AAC e Dolby Digital (AC-3)”, Tesi di laurea specialistica 

in Tecnologie Informatiche, Pisa, 2004. 

[LUG] A.LUBRANO, F. GARGANO, L. GIUSTIZI, “La codifica digitale Mpeg”, 2001, 

http://www.beta.it/beta/bs029801/2299.5/ext/b2299e02.htm. 

[MAR05] P. ABBATI MARESCOTTI, “La Trasformata di Fourier”, Appunti del corso di Metodi 

Matematici per l'Ingegneria, lezioni del prof. G. Vergara Caffarelli, Maggio 2005. 

[MATEMATICAMENTE.IT] F.CIMOLIN, “La formula più bella”, Settembre 2006, 

http://www.matematicamente.it/cimolin/formula. 

[MICROSOFT.COM] “Windows Media Player: save space on your Hard Disk When Ripping” , Febbraio 2005, 

http://www.microsoft.com/windows/windowsmedia/knowledgecenter/howto/compress.as 

px. 

[MP3-TECH] G. BOUVIGNE, Mp3-tech, MPEG Audio Layer I/II/III frame header, 2002, 

http://www.mp3-tech.org/programmer/frame_header.html . 

[MPEG.ORG] Mpeg Home Page, http://www.chiariglione.org/mpeg/about_mpeg.htm. 

[NAR00] F. NARDONE, “Compressione dati”, tesina in Algoritmi e Strutture Dati 2 del 

Dipartimento di Informatica ed Applicazioni "Renato M. Capocelli", Università di 

Salerno, Salerno, 2000. 

[NER-GIU] PROFF. A. NERI e G. GIUNTA, “Appunti sulla codifica MPEG-4”, corsi di Comunicazioni 

Elettriche ed Elaborazione Numerica dei Segnali, Università di Roma Tre, Roma, Marzo 

2000. 

[NOL93] P. NOLL, “Wideband Speech Audio Coding” IEEE audio coding comunication magazine, 

Vol. 31, No 11, Nov 1993. 

[NOLL 99] P. NOLL, “Digital Audio for Multimedia”, NATO Advanced Audio Institute, Berlino, 

1999. 

[PROGRAMMIFREE.IT] “Confronto programmi archiviazione e compressione”, Archiviazione audio, 

http://www.programmifree.com/confronti/archiviatori-audio.htm. 

[QCP.IT] C.QUADRINI, “MPEG e Psicoacustica”, Progetti universitari, 2007, 

http://www.qcp.it/universita/progetti/mpegc60/mpegc603.php3. 

[SANPAOLO.NET] C. SANPAOLO, “Soglia di udibilità”, 2005, 

http://www.sampaolo.net/liuteria/soglia.htm. 

44

[STRU03] D.STRUPPA, “Conferenza sulla Matematica della percezione”, in un articolo tratto da: 

M.CAPORLINGUA, Milano, Novembre 2003, 

http://www.scienzaesperienza.it/news/new.php?id=0223. 

[UBE83] M.UBERTI, “La Nuova Enciclopedia della Musica”, “Psicoacustica”, ed. Garzanti, 

Milano, 1983 e 1996 (sec. ed.). 

[VIC04] G. VICINO, “Studio sulle tecniche di Compressione Dati”, Tesina per il corso d'Algoritmi 

e Strutture Dati II, Università degli Studi del Piemonte Orientale, A.A. 2003/2004, pg 11. 

[VIS01] F. VISCIOTTI, “Tecniche di Compressione Audio: Evoluzione dello Standard MPEG”, 

Corso di Sistemi Informativi II 2000/2001 dell'Università degli Studi di Bologna, facoltà 

di Ingegneria, Bologna, 2001. 

[VIS01] F. VISCIOTTI, “Tecniche di Compressione Audio: Evoluzione dello Standard MPEG”, tesi 

di Laurea in Ingegneria, Bologna, 2001. 

[XIA04 YU RONGSHAN, SUSANTO RAHARDJA, LIN XIAO, “Advanced Audio Zip - Emerging 

International Standard for Next Generation Digital Audio Coding”, Institute for 

Infocomm Research, Synthesis Journal, Section three, pg 103-106. 2004. 

45

TECNOLOGIE DI COMPRESSIONE AUDIO - Matematicamente.it

Create successful ePaper yourself

Delete template?

Save as template?