TECNOLOGIE DI COMPRESSIONE AUDIO - Matematicamente.it
TECNOLOGIE DI COMPRESSIONE AUDIO - Matematicamente.it
TECNOLOGIE DI COMPRESSIONE AUDIO - Matematicamente.it
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Centro<br />
Salesiano<br />
don Bosco<br />
Treviglio<br />
scuola secondaria di secondo grado<br />
via G. Zanovello, 1 - 24047 TREVIGLIO – Bergamo<br />
tel 0363.31.39.11 – fax 0363.31.39.08<br />
posta elettronica direttore.treviglio@salesiani.<strong>it</strong><br />
<strong>TECNOLOGIE</strong> <strong>DI</strong><br />
<strong>COMPRESSIONE</strong> AU<strong>DI</strong>O<br />
SALA GABRIELE<br />
5^ SCIENTIFICO A<br />
ANNO SCOLASTICO 2006/2007<br />
TREVIGLIO, GIUGNO 2007
SOMMARIO<br />
CAPITOLO 1 – CENNI <strong>DI</strong> PSICOACUSTICA E <strong>DI</strong> TEORIA DEL SUONO .............5<br />
1 - Fisica del suono ................................................................................................... 7<br />
1.1 Dal concetto di onda al concetto di suono..............................................................................7<br />
1.2 La forma delle onde: le armoniche e il principio di sovrapposizione ....................................8<br />
1.3 L'uso della Trasformata di Fourier nello studio del suono.....................................................9<br />
2 - Biologia del suono ............................................................................................. 11<br />
2.1 Gli organi di senso dell'apparato ud<strong>it</strong>ivo..............................................................................11<br />
Il timpano .......................................................................................................................11<br />
I tre ossicini....................................................................................................................11<br />
La coclea ........................................................................................................................11<br />
2.2 I rischi del sistema ud<strong>it</strong>ivo ...................................................................................................12<br />
CAPITOLO 2 – LA <strong>COMPRESSIONE</strong> DATI IN INFORMATICA.........................13<br />
1 - Compressione dati ............................................................................................ 15<br />
1.1 Cosa si intende per “compressione”? ...................................................................................15<br />
1.2 Diversi tipi di compressione.................................................................................................16<br />
Lossless:.........................................................................................................................16<br />
Lossy: .............................................................................................................................16<br />
1.3 Tecniche di compressione dati: la ridondanza .....................................................................17<br />
1.4 Perché comprimere un file compresso non è conveniente ...................................................20<br />
2 - Il settore audio della compressione................................................................. 21<br />
2.1 Il punto di partenza...............................................................................................................21<br />
2.2 Registrazione dig<strong>it</strong>ale di un suono: il campionamento ........................................................21<br />
La frequenza di campionamento: .................................................................................22<br />
La profond<strong>it</strong>à .................................................................................................................22<br />
2.3 I fenomeni sfruttati dalla compressione dell'audio...............................................................23<br />
Frequenze. .....................................................................................................................24<br />
Mascheramento. ............................................................................................................24<br />
Differenze fra suoni.......................................................................................................24<br />
2.4 Psicoacustica ........................................................................................................................24<br />
2.5 Gli effetti di mascheramento................................................................................................25<br />
2.6 Diversi tipi di codifica..........................................................................................................26<br />
Codifica nel dominio del tempo .....................................................................................26<br />
Codifica per modelli.......................................................................................................27<br />
Codifica nel dominio delle frequenze.............................................................................27<br />
2.7 Molti compromessi: lo streaming.........................................................................................27<br />
3
CAPITOLO 3: I FORMATI <strong>DI</strong> <strong>COMPRESSIONE</strong> AU<strong>DI</strong>O...................................29<br />
1 - Il formato Mpeg ................................................................................................31<br />
1.1 Il successo del formato do compressione Mpeg.................................................................. 31<br />
Mpeg-I............................................................................................................................ 31<br />
Mpeg-II .......................................................................................................................... 31<br />
Mpeg-IV ......................................................................................................................... 31<br />
Layer I........................................................................................................................ 32<br />
Layer II ...................................................................................................................... 32<br />
Layer III ..................................................................................................................... 32<br />
1.2 Il funzionamento generale del formato Mpeg ..................................................................... 32<br />
1.3 Il formato Mp3: i miglioramenti.......................................................................................... 34<br />
1.4 Le fasi della compressione Mpeg ........................................................................................ 34<br />
Analisi............................................................................................................................ 34<br />
Utilizzo del modello psicoacustica ................................................................................ 34<br />
Codifica.......................................................................................................................... 34<br />
Stream............................................................................................................................ 34<br />
Decodifica.................................................................................................................. 35<br />
Codifica inversa ......................................................................................................... 35<br />
Sintesi ........................................................................................................................ 35<br />
2 - Il formato Mp3..................................................................................................36<br />
2.1 Dove, quando e perché ........................................................................................................ 36<br />
2.2 Il funzionamento del formato Mp3...................................................................................... 36<br />
Analisi............................................................................................................................ 36<br />
Modello percettivo ......................................................................................................... 37<br />
Quantizzazione e codifica.............................................................................................. 37<br />
Creazione dello stream.................................................................................................. 37<br />
2.3 Il rumore .............................................................................................................................. 37<br />
2.4 La riproduzione di un file Mp3............................................................................................ 38<br />
3 – Cenni sui formati Mpeg II ed Mpeg IV .........................................................40<br />
IN<strong>DI</strong>CI E BIBLIOGRAFIA ..............................................................................41<br />
Indice delle tabelle..................................................................................................42<br />
Indice delle figure...................................................................................................42<br />
Riferimenti bibliografici........................................................................................43<br />
4
CAPITOLO 1<br />
CENNI <strong>DI</strong> PSICOACUSTICA E <strong>DI</strong> TEORIA DEL SUONO<br />
5
1 - Fisica del suono<br />
1.1 Dal concetto di onda al concetto di suono<br />
Si definisce onda qualsiasi genere di perturbazione che si propaga in un mezzo materiale.<br />
Un'onda non muove particelle materiali, ma trasferisce energia: ogni punto in cui viene propagata<br />
l'onda è sede di energia cinetica, che viene quindi spostata dalla sorgente nel mezzo di<br />
propagazione.<br />
A seconda della direzione di propagazione, le onde vengono divise in due categorie:<br />
onde long<strong>it</strong>udinali: le particelle del mezzo di propagazione oscillano nella stessa direzione di<br />
propagazione dell'onda<br />
onde trasversali: le onde oscillano trasversalmente alla direzione di propagazione.<br />
È di particolare importanza il concetto di periodic<strong>it</strong>à delle onde: si definiscono periodiche<br />
quelle onde che si riproducono identiche a se stesse ad intervalli di tempo regolari, ovvero ogni<br />
punto dell'onda assume, dopo intervalli regolari di tempo, le medesime caratteristiche.<br />
L’ampiezza d'onda rappresenta il massimo valore della grandezza rappresentativa dell'onda<br />
in un periodo. [Wiki]<br />
Il suono è una particolare specie di onda di natura meccanica: si intende per suono, infatti, la<br />
sensazione che viene generata da una serie di onde di pressione dell'aria che raggiungono il nostro<br />
orecchio. Esso è un'onda di tipo long<strong>it</strong>udinale e non si propaga nel vuoto (in quanto si basa sulla<br />
dens<strong>it</strong>à delle particelle del mezzo di propagazione).<br />
Le caratteristiche fondamentali di un'onda sonora<br />
sono le seguenti: [Ber05]<br />
1. altezza: caratteristica associata alla<br />
frequenza, ovvero quante volte l'onda assume<br />
le medesime caratteristiche in ogni suo punto<br />
in un secondo. Viene espressa in Hertz (Hz);<br />
2. intens<strong>it</strong>à: grandezza associata all'energia<br />
che viene spostata dall'onda. Si distinguono<br />
due tipi di intens<strong>it</strong>à:<br />
2.1.1. l'intens<strong>it</strong>à fisica (che dipende solo<br />
dal valore della pressione massima<br />
dell'onda sonora); viene misurata in<br />
Pascal, un<strong>it</strong>à di misura del Sistema<br />
Internazionale propria della<br />
pressione.<br />
Fig. 1: Rappresentazione delle curve isofoniche e dei<br />
valori di sensazione sonora. [Cra01]<br />
2.1.2. l’intens<strong>it</strong>à fisiologica (che dipende dalla percezione del nostro orecchio in base alla<br />
frequenza del suono: suoni di uguale intens<strong>it</strong>à ma diversa frequenza generano<br />
sensazioni di intens<strong>it</strong>à diverse); viene misurata in Phon 1 , che indica il valore della<br />
sensazione sonora. La stessa sensazione sonora può venire prodotta da una serie di<br />
suoni aventi intens<strong>it</strong>à e frequenze diverse, che vanno a cost<strong>it</strong>uire le varie curve<br />
isofoniche [Fig.1];<br />
1<br />
Phon: Un<strong>it</strong>à di misura della percezione dell'intens<strong>it</strong>à sonora alla frequenza di 1KHz. Utilizzato per identificare le<br />
curve isofoniche. [Audiosonica.com]<br />
7
8<br />
3. timbro: ogni sorgente audio possiede caratteristiche peculiari che la differenziano da tutte le<br />
altre. Queste differenze risiedono nel timbro, ovvero nella particolare forma d'onda audio che<br />
produce quella determinata sorgente. Due sorgenti che producono due suoni di uguale intens<strong>it</strong>à<br />
e frequenza possono essere riconosciute e distinte a seconda del loro timbro.<br />
Spesso si usa anche indicare di un suono il suo livello di pressione sonora: espresso di<br />
deciBel (dB), esso è un’un<strong>it</strong>à di relazione logar<strong>it</strong>mica, poiché la sensazione sonora in un individuo<br />
normoudente è legata ad una relazione di tipo logar<strong>it</strong>mico.<br />
Il livello della pressione sonora (indicato con Lp) viene ricavato a partire dall’intens<strong>it</strong>à sonora<br />
mediante la relazione:<br />
Fig. 2: Formula della percezione sonora [IAc.<strong>it</strong>]<br />
dove p è l’intens<strong>it</strong>à sonora (fisica), p0 è la pressione standard (p0 = 1 atm = 101.325 Pa).<br />
1.2 La forma delle onde: le armoniche e il principio di sovrapposizione<br />
Un'onda di tipo acustico è rappresentabile<br />
tram<strong>it</strong>e una linea curva, spezzata o continua, i cui<br />
punti rappresentano i livelli di pressione che essa<br />
assume al passare del tempo.<br />
Ogni onda che, nello spazio, incontra un'altra<br />
onda (per esempio, in un ambiente ricco di sorgenti<br />
sonore) interagisce con essa per formare un'altra<br />
onda, che cost<strong>it</strong>uisce il risultato della somma delle<br />
due onde. Quasi tutti i suoni presenti in natura<br />
sono, generalmente, il risultato della<br />
sovrapposizione di onde sonore più semplici,<br />
defin<strong>it</strong>e armoniche [Fig. 3]. I suoni che non sono<br />
frutto della composizione di altri suoni sono detti<br />
anche suoni puri (il suono del diapason).<br />
La sovrapposizione di più onde armoniche<br />
avviene anche all'interno di sorgenti sonore stesse,<br />
che emettono suoni composti da diverse<br />
armoniche, come i vari strumenti musicali. Tutto<br />
ciò ci permette di riconoscere diversi tipi di suoni<br />
(la voce e la sua modulazione) e diversi tipi di sorgenti (il timbro).<br />
Un suono prodotto da uno strumento musicale, che rappresenta una nota, è, spesso, composto<br />
da più suoni puri diversi, corrispondenti ciascuno ad armoniche diverse. Grazie a questo fenomeno,<br />
siamo in grado di riconoscere un DO centrale da un DO distante 2 Figura 3: Un'onda sonora composta da diverse<br />
armoniche. [Gui01]<br />
da esso, anche se si assomigliano<br />
molto.<br />
2 Per trovare l'ottava di una nota è sufficiente moltiplicare per due la frequenza della nota fondamentale. Vedi [Fig.4].
Fig. 4: Frequenze relative di ogni DO della scala<br />
musicale. [Lom06]<br />
Inoltre, musicisti particolarmente allenati<br />
nell'ascolto sono in grado di riconoscere le varie<br />
componenti di un suono prodotto da uno<br />
strumento musicale: basandosi su una tonal<strong>it</strong>à di<br />
riferimento (cosiddetto orecchio relativo) o<br />
addir<strong>it</strong>tura senza riferimenti (cosiddetto orecchio<br />
assoluto), essi riescono ad individuare con<br />
relativa precisione la nota ascoltata, la sua<br />
posizione all'interno della scala musicale o,<br />
addir<strong>it</strong>tura, se si suona un accordo, la tonal<strong>it</strong>à<br />
stessa dell'accordo (minore o maggiore), che<br />
varia a seconda delle armoniche da cui è<br />
composto.<br />
Il cervello, in questi casi, analizza il suono, percep<strong>it</strong>o nel tempo, e lo rielabora sotto l'aspetto<br />
delle frequenze. è un'operazione molto complessa, che la biologia del cervello riesce a fare in<br />
maniera tanto più precisa quanto più è allenata la persona che la compie, e che viene utilizzata, in<br />
matematica e in fisica, per studiare le componenti spettrali di un'onda complessa. Tali operazioni<br />
sono esegu<strong>it</strong>e tram<strong>it</strong>e un operatore matematico chiamato Trasformata di Fourier.<br />
1.3 L'uso della Trasformata di Fourier nello studio del suono<br />
La Trasformata di Fourier è un particolare integrale defin<strong>it</strong>o, che viene utilizzato per un<br />
duplice scopo:<br />
scomporre un'onda sonora<br />
complessa in una somma di onde<br />
armoniche più semplici in funzione del<br />
seno e del coseno. <strong>Matematicamente</strong><br />
parlando, esso consente di descrivere<br />
una funzione non periodica complessa<br />
tram<strong>it</strong>e funzioni elementari periodiche;<br />
analizzare dal punto di vista<br />
matematico un fenomeno fisico che<br />
richiederebbe calcoli straordinariamente<br />
complessi, in modo tale da poter<br />
risolverli in modo più semplice e lineare<br />
ottenendo gli stessi risultati.<br />
Preso un generico segnale periodico Xt0(t) di periodo T0 e frequenza f0, lo sviluppo in serie di<br />
Fourier fornisce una rappresentazione del segnale come somma di seni e coseni, caratterizzati da<br />
una specifica ampiezza e da una frequenza multipla intera della frequenza fondamentale fn:<br />
X<br />
T 0<br />
( t)<br />
= a<br />
0<br />
+<br />
+<br />
n=<br />
0<br />
A * cos( n * 2 *<br />
n<br />
* f * t)<br />
+ j * B * sen(<br />
n * 2*<br />
* f * t)<br />
0<br />
Fig. 5: Formula della Trasformata di Fourier.<br />
[<strong>Matematicamente</strong>.<strong>it</strong>]<br />
n<br />
0<br />
9
Il calcolo della Serie di Fourier si riduce allora alla determinazione dei coefficienti<br />
10<br />
A0 = ampiezza della componente continua del segnale<br />
An = ampiezza delle armoniche cosinusoidali<br />
Bn = ampiezza delle armoniche sinusoidali<br />
In genere non è necessario descrivere tutte le infin<strong>it</strong>e componenti: il calcolo delle prime 10<br />
armoniche è già di per sé sufficiente per fornire un’approssimazione accettabile del segnale di<br />
partenza.<br />
Naturalmente, più coefficienti vengono calcolati, migliore e più precisa è la descrizione del<br />
segnale audio.<br />
Il calcolo di questo integrale necess<strong>it</strong>a di strumenti matematici complessi come il calcolo su<br />
variabili immaginarie e degli integrali defin<strong>it</strong>i da meno infin<strong>it</strong>o a più infin<strong>it</strong>o.<br />
La Trasformata di Fourier è un passo avanti nello studio della Serie di Fourier, che<br />
rappresenta lo stadio precedente dello stesso operatore, in grado di descrivere funzioni periodiche<br />
complesse mediante funzioni periodiche più semplici. Si passa allo studio della Trasformata di<br />
Fourier per funzioni non periodiche quando si considera infin<strong>it</strong>o il periodo della funzione (infatti, la<br />
Trasformata di Fourier è un integrale defin<strong>it</strong>o da meno infin<strong>it</strong>o a più infin<strong>it</strong>o), facendo tendere, cioè,<br />
il lim<strong>it</strong>e del periodo ad infin<strong>it</strong>o.<br />
Un segnale periodico, sotto opportune ipotesi, si può vedere come la somma di infin<strong>it</strong>i<br />
segnali sinusoidali (sviluppo in serie di Fourier). [Cos07]
2.1 Gli organi di senso dell'apparato ud<strong>it</strong>ivo<br />
Alla base della percezione ud<strong>it</strong>iva ci sono<br />
diversi organi, sollec<strong>it</strong>ati dalle perturbazioni di<br />
pressione delle onde audio, e complessi processi<br />
biologici che intervengono a comporre la<br />
sensazione ud<strong>it</strong>iva finale.<br />
Il senso dell'ud<strong>it</strong>o ha sede nelle tre parti in cui<br />
è diviso l'orecchio: la parte esterna, la parte media e<br />
la parte interna. Le diverse parti sono così composte<br />
[Fig. 6]:<br />
2 - Biologia del suono<br />
Parte esterna: padiglione auricolare, condotto<br />
ud<strong>it</strong>ivo e timpano;<br />
Parte media: martello, incudine e staffa, i tre<br />
ossicini più piccoli del corpo. È in comunicazione<br />
Fig. 6: Disegno dell'orecchio. [Far99]<br />
con la faringe tram<strong>it</strong>e le trombe di Eustachio, che<br />
hanno il comp<strong>it</strong>o di equilibrare gli stati di<br />
pressione tra i due lati del timpano;<br />
Parte interna (separata dalla media da una membrana, che poggia sulla staffa): coclea (dal<br />
latino, chiocciola), dalla quale parte il nervo acustico.<br />
Della struttura dell’orecchio il timpano, gli ossicini e la coclea sono gli organelli principali.<br />
Il timpano<br />
È una membrana elastica, molto sottile, in grado di mettersi in vibrazione con l'arrivo di<br />
perturbazioni di pressione provenienti dall'ambiente esterno. Non può percepire suoni al di fuori<br />
della soglia di udibil<strong>it</strong>à che, nell'uomo, è compresa mediamente fra i 16-20 Hz e i 16-20 kHz.<br />
Suoni di particolare frequenza o intens<strong>it</strong>à producono una sensazione di dolore che non è dovuta<br />
a particolari fenomeni violenti, bensì dagli effetti dinamici che questi suoni provocano sulla<br />
membrana del timpano.<br />
Non è raro che il timpano subisca seri danni in segu<strong>it</strong>o a sollec<strong>it</strong>azioni troppo violente o<br />
dopo essere stato esposto per periodi di lunga durata a sollec<strong>it</strong>azioni di media intens<strong>it</strong>à ma<br />
particolarmente fastidiose.<br />
I tre ossicini<br />
Martello, incudine e staffa, i tre ossicini più piccoli del corpo, convogliano le vibrazioni<br />
sonore dal timpano alla coclea. Il martello è collegato direttamente alla membrana del timpano,<br />
l'incudine e la staffa le trasmettono alla coclea tram<strong>it</strong>e un'altra membrana.<br />
Se l'efficacia del timpano è relativamente semplice da ripristinare in segu<strong>it</strong>o a traumi o alla<br />
perd<strong>it</strong>a progressiva delle capac<strong>it</strong>à ud<strong>it</strong>ive, causata dall'età, più complesso risulta un intervento<br />
sui tre ossicini in caso di un loro malfunzionamento. Il fatto di essere racchiusi in una cav<strong>it</strong>à<br />
così protetta del corpo, le loro dimensioni e la loro così delicata fisionomia rendono difficile un<br />
intervento chirurgico diretto.<br />
La coclea<br />
Organo complesso e non ancora del tutto conosciuto dagli studiosi, la coclea è una galleria,<br />
avvolta su se stessa, piena di liquido e divisa in tre canali. Il più importante dei tre è quello<br />
11
12<br />
centrale, sede delle cellule recettrici dell'ud<strong>it</strong>o, poste sulla membrana basilare. Queste cellule,<br />
dotate di ciglia (stereociglia) dette anche cellule capellute, sono disposte in una precisa<br />
sequenza lungo tutta la chiocciola, formando l'organo di Corti, e sono sovrastate da una<br />
membrana tectoria extracellulare. L'arrivo di una perturbazione di pressione dalla membrana<br />
della staffa fa piegare le stereociglia sulla membrana tectoria, provocando una depolarizzazione<br />
delle cellule ciliate che viene tradotta in una serie di impulsi nervosi, raccolti, infine, dal nervo<br />
acustico.<br />
Studi di psicoacustica rifer<strong>it</strong>i alla percezione ud<strong>it</strong>iva media provano che la precisione delle<br />
sensazioni ud<strong>it</strong>ive hanno un andamento logar<strong>it</strong>mico che va dai suoni più gravi a quelli più acuti<br />
[vedi Cap<strong>it</strong>olo 2]; questo fenomeno è provato dalla disposizione delle cellule ciliate lungo l'organo<br />
di Corti e dalla disposizione dei loro collegamenti con il nervo acustico.<br />
2.2 I rischi del sistema ud<strong>it</strong>ivo<br />
L'orecchio umano, come tutti gli altri organi del corpo, è esposto a numerosi pericoli sia per<br />
quanto riguarda disturbi sia abusi. Di questi ultimi si è cominciato a parlare da qualche anno, in<br />
segu<strong>it</strong>o all'esplodere delle nuove tecnologie audio-musicali: dai lettori multimediali portatili alla<br />
frequentazione di ambienti acusticamente inquinati, le cause dei disturbi ud<strong>it</strong>ivi sono in cresc<strong>it</strong>a<br />
esponenziale.<br />
Per come è strutturato, il timpano ha dei lim<strong>it</strong>i ben precisi per il suo utilizzo. Se esiste un<br />
lim<strong>it</strong>e prima del quale un suono non viene percep<strong>it</strong>o (0 dB), esistono anche dei lim<strong>it</strong>i per intens<strong>it</strong>à<br />
sonora: rischia seri danni un timpano esposto per un breve tempo ad una sollec<strong>it</strong>azione di 120 dB.<br />
Infatti: [Cel00]<br />
Soglia dell'udibile = 2 x 10 -5 Pascal = 0 dB<br />
Soglia del dolore = 100 Pascal = 120 dB<br />
Tuttavia, se 120 dB è considerata un'intens<strong>it</strong>à sonora piuttosto considerevole, è vero anche che<br />
suoni di 80 dB e di durata più lunga possono sortire gli stessi effetti di un suono di 120 dB più<br />
breve.<br />
È quindi necessario avere cura del proprio orecchio sia dal punto di vista fisiologico che nelle<br />
ab<strong>it</strong>udini. Esistono infin<strong>it</strong>i tipi di rumori pericolosi per il nostro orecchio, molti dei quali<br />
provengono, spesso, da fonti vicine a noi, in luoghi familiari o in strada. Alcuni esempi di valori,<br />
espressi in deciBel, di pressione sonora di alcuni suoni comuni sono riportati nella seguente tabella:<br />
Tipo di rumore dB<br />
Normale conversazione 60<br />
Traffico c<strong>it</strong>tadino 80<br />
Sparo di arma da fuoco 140/170<br />
Tab. 1: Esempi di valori dei rumori più comuni. [Airs.<strong>it</strong>]
CAPITOLO 2<br />
LA <strong>COMPRESSIONE</strong> DATI IN INFORMATICA<br />
13
1 - Compressione dati<br />
1.1 Cosa si intende per “compressione”?<br />
Parlare di compressione è come parlare di riassunti: il concetto di fondo è quello di ridurre lo<br />
spazio occupato da una certa quant<strong>it</strong>à di dati. Quando si riassume un testo, infatti, si scrive qualcosa<br />
che abbia lo stesso significato di un testo dato, occupando meno parole; occupare meno parole<br />
significa risparmiare spazio ed inchiostro. Tanto migliore vogliamo che sia il risultato, tanto più<br />
impegno dobbiamo mettere nel riassumere il testo.<br />
In amb<strong>it</strong>o informatico, questo processo viene portato sul piano logico-matematico. Un pc<br />
memorizza grandi quant<strong>it</strong>à di dati in linguaggio binario, ovvero come serie di 1 e di 0. Ogni 1 e 0<br />
cost<strong>it</strong>uiscono un b<strong>it</strong>; una serie di 8 cifre, ovvero di 8 b<strong>it</strong> (per esempio “10001011”), viene chiamata<br />
byte.<br />
Per un computer, comprimere un file vuol dire trovare tutti quegli accorgimenti che<br />
consentono di salvare quel file conservando tutta l’informazione ma occupando meno byte<br />
possibile. Per esempio, in un qualsiasi testo in lingua <strong>it</strong>aliana, dopo ogni lettera q seguirà<br />
certamente (tranne per la parola “soqquadro”) una lettera u.<br />
Quando si parla di software di compressione ci si riferisce ad un algor<strong>it</strong>mo, un insieme di<br />
operatori logico-matematici in grado di lavorare con una discreta autonomia su dati informatici e<br />
che rappresentano il nocciolo del software. Essi possono essere considerati come il motore di una<br />
macchina, l'interfaccia grafica alla carrozzeria e tutto il software come la macchina stessa.<br />
Le tecniche di compressione sono molte e differenti, ciascuna adatta ad ogni formato di dato.<br />
Ci sono algor<strong>it</strong>mi che danno risultati eccellenti se applicati su dati di tipo multimediale e altri su<br />
documenti di testo. I formati più diffusi sui pc moderni (Zip per Windows, Stuff<strong>it</strong> per Mac, etc..) si<br />
basano su algor<strong>it</strong>mi “intelligenti”, che sanno adattarsi, nella maggior parte dei casi, al tipo di dato<br />
da comprimere.<br />
L’azione inversa della compressione è la decompressione. Come si può intuire dal nome,<br />
attraverso la decompressione si trasforma un file compresso in un file non compresso. Utilizzando<br />
un pc connesso ad internet cap<strong>it</strong>a frequentemente di imbattersi in file già compressi, per esempio<br />
file di tipo Zip. Prima di poter accedere ad un file di questa specie è necessario, quindi,<br />
decomprimerlo. Infatti, se si parla di compressione di un file, si parla di un processo attraverso il<br />
quale è stato modificato un file, trasformandolo in un altro che occupa meno byte, e salvato con un<br />
altro formato. Per r<strong>it</strong>ornare al file originale, il software di compressione usato procede al contrario:<br />
ricostruisce i dati di partenza ripristinando le parti “riassunte” o tagliate nella fase di compressione<br />
Il problema principale della compressione è questo: il file, una volta decompresso, è uguale<br />
oppure no all’originale?<br />
Informazione di<br />
partenza<br />
?<br />
Informazione<br />
ricostru<strong>it</strong>a<br />
Compressione<br />
Decompressione<br />
File compresso<br />
A seconda del rapporto che intercorre tra informazione originale e informazione ricostru<strong>it</strong>a, si<br />
parlerà di compressione Lossless (senza perd<strong>it</strong>a di informazione) o Lossy (con perd<strong>it</strong>a di<br />
informazione).<br />
15
1.2 Diversi tipi di compressione<br />
A diversi tipi di dati corrispondono diversi tipi di compressione. Tra un file audio, di testo e<br />
video ci sono molte differenze, sia a livello quant<strong>it</strong>ativo sia a livello qual<strong>it</strong>ativo. A priori, un file di<br />
testo considerato “enorme” alla percezione umana (come può essere, ad esempio, una versione<br />
dig<strong>it</strong>ale di un libro di 2000 pagine) occupa molto meno spazio su supporti di registrazione che un<br />
file audio di pochi minuti ad alta qual<strong>it</strong>à. Perché?<br />
Va innanzi tutto precisato che la natura dei dati informatici dipende molto dalle affin<strong>it</strong>à che ci<br />
sono tra il tipo di dato e il modo di “pensare” che ha il computer: c'è molta più somiglianza tra il<br />
sistema binario e un testo che tra il sistema binario e un'onda sonora. Infatti, un'onda sonora ha<br />
bisogno di essere trasformata in una serie di valori numerici prima di essere elaborata dal pc.<br />
La maggior parte dei sistemi di compressione informatica sfrutta le potenzial<strong>it</strong>à di calcolo dei<br />
moderni computer al fine di risparmiare spazio. Con questo sistema, ad elevate percentuali di<br />
compressione corrispondono tempi di compressione più lunghi, e lo sviluppo tecnologico consente<br />
di ridurre sempre di più il tempo impiegato dalla compressione.<br />
Tutti i formati di compressione esistenti possono essere ricondotti a due grandi categorie<br />
principali:<br />
Lossless:<br />
Durante la compressione non viene persa alcuna informazione. Appartengono a questa<br />
categoria i compressori destinati a dati non multimediali in generale (codici di programmazione,<br />
documenti di testo, software, etc). Per questo, per compressori lossless si intende tutta quella<br />
categoria di software che sfruttano algor<strong>it</strong>mi in grado di comprimere un file senza eliminarne<br />
alcun dato. Dal risultato finale di questo tipo di compressione è possibile ricostruire<br />
fedelmente il file originale.<br />
Lossy:<br />
Durante la compressione vengono eliminate alcune informazioni considerate “scarsamente<br />
significative”, a favore dello spazio risparmiato ma a discap<strong>it</strong>o dell'integr<strong>it</strong>à del file originale.<br />
Appartengono a questa categoria i compressori destinati a dati di tipo multimediale. Per<br />
compressione lossy, perciò, si intende quel tipo di compressione che modifica il file originale,<br />
eliminandone alcune parti in modo più o meno incisivo, creandone uno dal quale non è<br />
possibile ricostruire fedelmente il file originale ma uno molto simile, una copia<br />
approssimata. Viene usato questo tipo di compressione per risparmiare lo spazio occupato da<br />
file multimediali (immagini, suoni, video, ecc.). La compressione risulta efficiente nel momento<br />
in cui il risultato finale occupa meno spazio dell'originale e i nostri sensi non sono in grado di<br />
cogliere significativamente le differenze tra il file originale e quello compresso.<br />
Un compressore specifico per un certo tipo di dati potrebbe dare risultati insoddisfacenti se<br />
applicato ad un formato di dati diverso da quello per cui è stato progettato.<br />
Lossless Lossy<br />
Testo Zip /<br />
Immagini Gif Jpeg<br />
Audio Wav Mp3<br />
Video Avi (non compresso) Mov<br />
Tab. 2: Esempi di formati lossy e lossless.<br />
Come si desume dalla tabella, per i testi non esiste un formato di compressione lossy, in<br />
quanto tagliare direttamente porzioni intere di testo significa andare a modificare il documento<br />
16
stesso. Eliminare parti di un documento influisce notevolmente sul risultato finale, per cui è<br />
impensabile pensare di applicare un formato di compressione lossy ad un testo.<br />
Per questo motivo, lo strumento più sfruttato per comprimere un testo con una compressione<br />
di tipo lossless è la cosiddetta ridondanza.<br />
1.3 Tecniche di compressione dati: la ridondanza<br />
Ci sono molti fenomeni che vengono sfruttati per risparmiare spazio. Uno tra i più importanti<br />
è la ridondanza: per ridondanza si intende la ripetizione di porzioni identiche di dati in una<br />
determinata sequenza. La ridondanza è presente in molti amb<strong>it</strong>i del sapere umano, compresa la<br />
retorica; in generale, con essa si identificano tutte quelle parti di informazione non necessarie, che<br />
possono essere eliminate senza problemi. [Wiki]<br />
Si può considerare, ad esempio, quante volte la lettera “i” è stata utilizzata all'interno di questo<br />
paragrafo, e la distanza tra le singole lettere “i”. Agendo su questi aspetti, un software è in grado di<br />
creare uno schema che si basa su queste ripetizioni piuttosto che sul testo stesso.<br />
VERSIONE NON COMPRESSA VERSIONE COMPRESSA<br />
Nel mezzo del cammin di nostra v<strong>it</strong>a<br />
mi r<strong>it</strong>rovai per una selva oscura<br />
ché la dir<strong>it</strong>ta via era smarr<strong>it</strong>a.<br />
Ah quanto a dir qual era è cosa dura<br />
esta selva selvaggia e aspra e forte<br />
che nel pensier rinova la paura!<br />
Tant'è amara che poco èpiù morte<br />
ma per trattar del ben ch'io vi trovai,<br />
dirò dell'altre cose ch'io v'ho scorte...<br />
Nl mzz dl cmmn d nstr vt<br />
m rtrv pr n slv scr<br />
ch l drtt v r smrrt.<br />
h qnt dr ql r cs dr<br />
st slv slvgg spr frt<br />
ch nl pnsr rnv l pr!<br />
Tnt' mr ch pc p mrt<br />
m pr trttr dl bn ch' v trv,<br />
dr dll'ltr cs ch' v'h scrt...<br />
Tab. 3: Esempio di compressione su un testo sfruttando la ridondanza. [Nar00]<br />
Per quanto riguarda il formato audio, invece, è molto difficile trovare attimi in cui il segnale in<br />
usc<strong>it</strong>a sia esattamente identico; è, cioè, praticamente impossibile trovare un numero consistente di<br />
istanti in cui l'onda sonora da emettere sia identica in tutte le sue componenti in più punti di uno<br />
stesso flusso audio.<br />
Le tecniche di compressione che si basano sulla ridondanza hanno anche il vantaggio di avere<br />
un ulteriore controllo contro la possibile insorgenza di errori nella compressione. La ridondanza è,<br />
infatti, uno strumento di controllo, oltre che di compressione, specialmente in fase di trasferimento<br />
dei dati via Internet.<br />
Nelle pagine seguenti, come esempio di compressione lossy, un confronto tra un’ immagine<br />
ad alta definizione e la stessa immagine compressa mediante algor<strong>it</strong>mo JPEG al 90% di<br />
compressione:<br />
17
Fig. 7: Confronto fra un’immagine ad alta definizione prima della compressione… [Istart.com]<br />
18<br />
Caratteristiche dell’immagine<br />
Dimensioni: 1024 x 768 pixel<br />
Spazio occupato: 846 Kb
Fig. 8: …e dopo la compressione. [Istart.com]<br />
Caratteristiche dell’immagine<br />
Dimensioni: 1024 x 768 pixel<br />
Spazio occupato: 80 Kb<br />
Si può facilmente notare che i particolari dei fiori nel campo e dei rami degli alberi appaiono,<br />
nella seconda, molto meno precisi, tanto che risulta difficile distinguerli tra loro, a differenza della<br />
prima nella quale ciò risulta possibile.<br />
19
1.4 Perché comprimere un file compresso non è conveniente<br />
Nel grande marasma dei formati di compressione esistenti, molti sono quasi equivalenti,<br />
compatibili tra loro e possono essere usati contemporaneamente su uno stesso file. Purtroppo, però,<br />
una volta compresso un file, se lo si comprime con un altro software, diverso da quello usato per la<br />
prima compressione, non ci sono risparmi di spazio significativi, poiché il file si presenta in una<br />
forma già troppo essenziale.<br />
Perciò, non ha senso proporre di comprimere un determinato file più volte e con software<br />
diversi al fine di ottenere un risultato migliore!<br />
Inoltre, lo stesso software di compressione fornisce risparmi di spazio molto diversi a seconda<br />
del tipo di file che si comprime.<br />
20
2 - Il settore audio della compressione<br />
2.1 Il punto di partenza<br />
Negli ultimi anni, il settore informatico e quello musicale del commercio mondiale si sono<br />
avvicinati sempre di più, grazie alla messa in commercio di lettori audio tecnologicamente sempre<br />
più avanzati e alle richieste sempre più notevoli da parte dei consumatori.<br />
L'esigenza più rilevante nel mercato è quella di avere sempre a disposizione un numero<br />
consistente di canzoni, o di dati in generale, in un dispos<strong>it</strong>ivo portatile di dimensioni ridotte e<br />
senza riduzione di qual<strong>it</strong>à.<br />
Da una parte grandi multinazionali della musica offrono, ormai da anni, la possibil<strong>it</strong>à di<br />
acquistare musica online tram<strong>it</strong>e carta di cred<strong>it</strong>o, dall'altra milioni di utenti scaricano, in modo più o<br />
meno legale, una quant<strong>it</strong>à incalcolabile di brani audio tram<strong>it</strong>e software di condivisione file. Lo<br />
stesso mercato musicale online è cresciuto, nel 2006, complessivamente del 44%: nello specifico, la<br />
vend<strong>it</strong>a legale di brani musicali online è cresiuta del 119% per un fatturato medio di 7 milioni di<br />
euro. [Html.<strong>it</strong>]<br />
Tutto ciò non sarebbe possibile senza la<br />
compressione audio. Infatti, i costi di memorizzazione e,<br />
aspetto di notevole importanza, di trasferimento<br />
sarebbero troppo ingenti senza di essa: un Cd Audio da<br />
80 minuti contiene circa 700 Mb di flusso audio non<br />
compresso di alta qual<strong>it</strong>à e occuperebbe, se copiato<br />
fedelmente su disco fisso, gli stessi 700 Mb. Tuttavia, se<br />
700 Mb di spazio è una dimensione accettabile per un Cd,<br />
non lo è per quanto riguarda il disco rigido di un<br />
computer, nel quale 700 Mb rappresentano una<br />
dimensione più che considerevole, né tantomeno per una<br />
trasmissione via Internet.<br />
Il problema è ancora più evidente se prendiamo in<br />
considerazione i supporti di riproduzione portatili la cui<br />
capac<strong>it</strong>à è di sicuro inferiore a quella di un computer<br />
domestico.<br />
La questione è stata quindi affrontata e, in parte,<br />
risolta fino ad arrivare ad un compromesso più che<br />
accettabile. Un album di 800 Mb di musica occupa, una<br />
volta compresso, una dimensione che varia dai 52 ai 180<br />
Mb [Fig. 9], in media, su disco senza una così fastidiosa<br />
perd<strong>it</strong>a di qual<strong>it</strong>à, a seconda della qual<strong>it</strong>à media del<br />
risultato e dal formato di compressione scelti dall'utente.<br />
Fig. 9: Finestra di scelta del b<strong>it</strong>rate e del<br />
formato di compressione in Windows<br />
Media Player 10 [Microsoft.com]<br />
Se si pensa, inoltre, a quegli utilizzi per cui la qual<strong>it</strong>à sonora non dev'essere elevata, come una<br />
telefonata o una trasmissione audio non professionale, una scelta mirata del formato di<br />
compressione più adatto fornisce la soluzione più funzionale al problema della trasmissione audio.<br />
2.2 Registrazione dig<strong>it</strong>ale di un suono: il campionamento<br />
Campionare un segnale audio significa tradurre un flusso audio continuo in una serie<br />
discreta di valori numerici, in modo tale da poterli memorizzare. Il nome del sistema di<br />
campionamento più diffuso è PCM (Pulse Code Modulation), ed è utilizzato in tutti i sistemi di<br />
registrazione e di conversione audio dig<strong>it</strong>ale, per poi essere elaborato dai computer all'interno di<br />
formati audio non compressi come Wave, AIFF e AU. [Fig. 10]<br />
21
I valori numerici in cui è stato tradotto il segnale sono i valori che esso assume in intervalli<br />
equidistanti di tempo.<br />
La qual<strong>it</strong>à della registrazione dig<strong>it</strong>ale viene determinata da due valori fondamentali: la<br />
frequenza di campionamento e la profond<strong>it</strong>à:<br />
22<br />
Fig. 10: Campionamento PCM, schema<br />
esemplificativo. [Lor04]<br />
La frequenza di campionamento:<br />
misurata in kiloHertz (kHz), indica il numero di<br />
campioni audio che vengono registrati in un secondo: se<br />
essa è pari a 44.100, vuol dire che in un secondo sono<br />
stati regis trati 44.100 valori numerici rifer<strong>it</strong>i al suono<br />
in entrata.<br />
La profond<strong>it</strong>à<br />
indica l'accuratezza di ogni singolo campione: ogni<br />
campione è come una parola che descrive un istante di<br />
suono campionato. Più lettere ha la parola, più precisa<br />
risulta la descrizione. Per questo, un campionamento a<br />
16 b<strong>it</strong> è molto più fedele di un campionamento a 8 b<strong>it</strong>,<br />
ma occupa anche il doppio dello spazio. Un campione a<br />
16 b<strong>it</strong> ha 65.536 (2 16 ) combinazioni. [Gui01]<br />
Una frequenza di campionamento ottimale per<br />
l'orecchio umano è di 44.100 Hz. Questo valore deriva<br />
dal Teorema del Campionamento, per cui il numero di<br />
campioni al secondo di un flusso audio dev'essere pari<br />
alla massima soglia di udibil<strong>it</strong>à moltiplicata per due.<br />
[L<strong>it</strong>hium.<strong>it</strong>] Questo concetto è anche alla base del<br />
teorema di Shannon-Nyquist, che afferma: “È possibile ricostruire correttamente un segnale<br />
continuo, variabile nel tempo, da una serie di valori dig<strong>it</strong>ali discreti, quando questi sono stati presi<br />
con una frequenza di campionamento pari o superiore al doppio della massima frequenza<br />
contenuta nel segnale in input”. [Stru03]<br />
Un brano musicale inciso su Cd-Audio ha, in genere, le seguenti caratteristiche:<br />
frequenza di campionamento pari a<br />
44.100 campioni al secondo.<br />
profond<strong>it</strong>à pari a 16 b<strong>it</strong>, corrispondente<br />
a 2 byte per ogni istante di<br />
campionamento: 2 byte * 8 b<strong>it</strong> / byte =<br />
16 b<strong>it</strong>;<br />
2 canali di usc<strong>it</strong>a audio (per un flusso<br />
audio di tipo stereo).<br />
Le dimensioni occupate dal brano al minuto sono pari a:<br />
Fig. 11: Una campionatura a 44100 campioni è molto più<br />
precisa di una a 22000. [Gui01]<br />
44.100 campioni/secondo * 2 byte/campione * 2 canali * 60 secondi = 10.584.000 byte<br />
quantificabili approssimativamente in 10 Mbyte. [Vis01]<br />
Come già accennato, se un valore del genere è accettabile in un Cd-Audio, non lo è per quanto<br />
riguarda il trasferimento via internet e lo stoccaggio su supporti di memorizzazione. Per questo<br />
motivo, su questo substrato dig<strong>it</strong>ale agiscono i vari sistemi di compressione che lo modificano in<br />
modo permanente (compressione lossy) o non permanente (compressione lossless) al fine di
idurre lo spazio occupato dal flusso audio. Nella maggior parte dei casi, per contenuti di tipo<br />
multimediale si preferisce utilizzare sistemi di compressione lossy (con perd<strong>it</strong>a) a patto che il<br />
risultato finale sia ad una prima percezione identico all'originale.<br />
Tuttavia, esistono anche formati di compressione lossless specifici per il formato audio che<br />
agiscono direttamente sul flusso PCM non compresso. Sono formati di compressione lossless<br />
particolarmente efficaci e con rapporti ci compressione vantaggiosi, con percentuali di spazio<br />
risparmiato che sfiorano il 50%; vengono utilizzati più largamente nel formato MPEG-4 [vedi<br />
Cap<strong>it</strong>olo 3]. [Xia04] Questi sistemi, però, si rendono inutili quando vengono applicati su formati<br />
audio già compressi in altri formati, come, per esempio, l'Mp3. Infatti, in questi casi le percentuali<br />
di compressione scendono drasticamente verso l'1-2%. [Programmifree.<strong>it</strong>]<br />
2.6]<br />
La codifica di tipo PCM rientra nella tipologia di compressione nel dominio del tempo. [sez.<br />
Esiste inoltre un altro tipo di codifica PCM di tipo lossless, chiamata ADPCM (Adaptive<br />
Differential Pulse Code Modulation) che si basa sulle differenze che esistono tra i campioni<br />
registrati con il metodo PCM. Durante la codifica, a ciascun campione viene sost<strong>it</strong>u<strong>it</strong>a<br />
l'informazione della differenza che intercorre tra quel campione e quello precedente; questa<br />
informazione è così composta: 1<br />
b<strong>it</strong> che identifica il segno della<br />
differenza più un valore che ne<br />
determina l'ammontare. Essendo<br />
per forza la differenza minore del<br />
campione stesso, il risultato sarà<br />
un risparmio di spazio<br />
considerevole [Fig. 12]. In<br />
decodifica, il segnale originale<br />
viene ricostru<strong>it</strong>o sulla base delle<br />
Fig. 12: Schema del funzionamento della codifica ADPCM. [Lom00]<br />
informazioni delle differenze tra i<br />
vari campioni.<br />
Uno strumento in più per<br />
ottimizzare ulteriormente questo<br />
sistema di compressione è la creazione di una tabella di look-up, ovvero una tabella che associa dei<br />
valori standard a dei puntatori all'indice; grazie a questo sistema non si rende più necessario<br />
memorizzare le singole differenze, ma solo i rispettivi puntatori all'indice, i quali contengono<br />
l'informazione sulla differenza. [Lom00]<br />
2.3 I fenomeni sfruttati dalla compressione dell'audio<br />
Spesso la compressione di un file audio lo modifica in maniera permanente. Ciò vuol dire che<br />
il risultato finale è un suono fisicamente diverso all'originale. Come mai allora si procede alla<br />
compressione se questa in qualche modo modifica il suono?<br />
In realtà, il risultato finale, pur non essendo esattamente uguale al suono di partenza, è molto<br />
simile a questo; anzi, se per la compressione si sono usati software corretti e di qual<strong>it</strong>à, il suono da<br />
noi percep<strong>it</strong>o sarà praticamente identico al primo. Questo perché la compressione agisce su quei<br />
suoni che l'orecchio umano non è in grado di percepire.<br />
Il genere di suoni che il nostro orecchio non percepisce sono quelli troppo gravi (di bassissima<br />
frequenza) o quelli troppo acuti (di frequenza altissima), quelli posti in determinati punti oppure<br />
quelli talmente rapidi da non essere neppure percep<strong>it</strong>i.<br />
23
È perciò possibile ridurre lo spazio occupato dal file andando ad agire sugli effetti che questo<br />
provoca sul nostro orecchio. Questo processo è stato sviluppato secondo metodologie e<br />
interpretazioni diverse. I principi sui quali si basano le più importanti ricerche in campo di<br />
compressione sono le seguenti:<br />
24<br />
Frequenze.<br />
L'orecchio umano è in grado di recepire ed<br />
interpretare suoni di frequenza compresa fra 16-<br />
20 Hz e 16-20 kHz. Suoni la cui frequenza è<br />
fuori da questo intervallo non sono percepibili.<br />
Da ciò segue che ogni suono che abbia<br />
frequenza al di fuori da questo intervallo è<br />
inutile ai fini dell'ascolto. Questo principio non<br />
è però così esatto, in quanto non tutte le onde<br />
sonore hanno una funzione esclusivamente<br />
percettiva: spesso alcuni suoni armonizzano altri<br />
suoni o fanno parte del timbro di altre onde<br />
sonore, per cui, anche se non direttamente<br />
udibili dall'uomo, contribuiscono alla qual<strong>it</strong>à<br />
complessiva del flusso.<br />
Fig. 13: Frequenze dei diversi tipi di suoni.<br />
[Sanpaolo.<strong>it</strong>]<br />
Mascheramento.<br />
Alcuni suoni vengono mascherati durante il processo di ascolto. Questo fenomeno è dovuto alla<br />
forma dell'onda sonora: picchi di intens<strong>it</strong>à particolarmente accentuata provocano il maschermento<br />
di suoni di intens<strong>it</strong>à minore che seguono immediatamente i picchi. Ci sono diversi tipi di<br />
mascheramento, tra cui il pre-mascheramento e il post-mascheramento.<br />
Differenze fra suoni.<br />
Un'onda sonora si può convertire facilmente in una serie di valori numerici relativi ai singoli<br />
istanti di esecuzione. Ogni singolo “pezzettino” di onda audio può essere quindi visto come<br />
uguale al precedente, tranne che per una piccola parte che rappresenta la loro differenza. È quindi<br />
possibile considerare ogni parte del brano come una parte campione “modificata di un<br />
pezzettino”. [vedi:Sezione 2.6]<br />
Altri fenomeni acustici contribuiscono alla compressione in maniera meno significativa<br />
rispetto a quelli appena descr<strong>it</strong>ti, e sono utilizzati in modo più o meno rilevante a seconda dello<br />
scopo della compressione.<br />
2.4 Psicoacustica<br />
Con il termine psicoacustica si intende tutto l'insieme dei processi fisiologici e psicologici che<br />
intervengono nella percezione ud<strong>it</strong>iva umana.<br />
Grazie allo studi di psicoacustica è stato possibile, nel corso degli anni, creare una serie di<br />
modelli a cui fare riferimento per la creazione di compressori audio funzionali, e si sono defin<strong>it</strong>e le<br />
soglie di udibil<strong>it</strong>à dei diversi suoni. Per soglia di udibil<strong>it</strong>à si intende genericamente il valore<br />
minimo di intens<strong>it</strong>à di stimolazione necessaria perché si verifichi una certa risposta biologica o<br />
psicologica. [Ube83]<br />
La psicoacustica studia principalmente i fenomeni sonori facendo riferimento alle loro<br />
frequenze, alle proprietà fisiche del suono nel mezzo materiale in cui si propaga e alle<br />
caratteristiche biologiche dell'ascoltatore (nel nostro caso, dell'orecchio umano).<br />
Questi studi confluiscono nelle varie tecniche di compressione audio che, al loro interno,
contengono diversi modelli psicoacustici.<br />
I compressori audio più avanzati, infatti,<br />
sfruttano questi modelli per eliminare tutti quei<br />
suoni che l'orecchio umano non è in grado di<br />
percepire; senza gli studi di psicoacustica che<br />
hanno portato alla creazione dei modelli, oggi<br />
non avremmo a disposizione le tecnologie di<br />
compressione audio e, senza di queste, non<br />
potremmo sfruttare tutti gli strumenti<br />
tecnologici che ne fanno uso.<br />
2.5 Gli effetti di mascheramento<br />
Tra i fenomeni sfruttati per<br />
comprimere un suono, quelli di maggiore<br />
importanza sono i cosiddetti effetti di<br />
mascheramento. Basati sulla fisiologia<br />
dell'orecchio umano e sulle caratteristiche<br />
fisiche del suono, questi fenomeni fanno si<br />
che la percezione che abbiamo di un suono<br />
emesso da una sorgente non sia esattamente<br />
identica al suono stesso. Questi fenomeni<br />
sono causati dalla natura stessa del suono, o<br />
dalle componenti spettrali di cui è composto.<br />
Infatti, non è detto che un ud<strong>it</strong>ore, anche<br />
attento, riesca a percep<strong>it</strong>e un suono<br />
proveniente dall’ambiente circostante nella<br />
sua piena interezza, perché alcune parti di<br />
questo suono potrebbero mascherarne altre,<br />
quelle più deboli.<br />
Un esempio molto utile per dare<br />
un'idea di questi fenomeni è quello di stare<br />
per qualche secondo vicini ad una cascata<br />
abbastanza grossa. Il rumore dell'acqua che<br />
cade con violenza coprirebbe qualsiasi voce<br />
presente nei paraggi non sufficientemente<br />
forte per essere ud<strong>it</strong>a. Questo fenomeno è l'effetto del mascheramento in frequenza, a causa del<br />
quale componenti spettrali di debole intens<strong>it</strong>à e distanti anche qualche centinaio di Hz da suoni<br />
molto più intensi non vengono percep<strong>it</strong>e e risultano, quindi, mascherate.<br />
Fig. 17: Mascheramento temporale. Come varia la<br />
zona di mascheramento prodotta da un suono<br />
forte.[Ben-Giu]<br />
Fig. 14: Soglia di udibil<strong>it</strong>à, infrasuoni ed ultrasuoni:<br />
zone di percezione e non percezione audio. [QCP.<strong>it</strong>]<br />
Fig. 16: Mascheramento in frequenza. Componenti spettrali<br />
di una certa intens<strong>it</strong>à mascherano componenti più deboli.<br />
[L<strong>it</strong>hium.<strong>it</strong>]<br />
Fig. 15: Mascheramento in frequenza. Suoni<br />
particolarmente intensi mascherano suoni più deboli anche<br />
distanti. [Ben-Giu]<br />
Un altro tipo di mascheramento è il<br />
cosiddetto mascheramento temporale, e si basa<br />
sulla fisiologia del timpano. Come si è già<br />
analizzato nel primo cap<strong>it</strong>olo, la membrana del<br />
timpano, dopo essere stata sollec<strong>it</strong>ata da un<br />
suono piuttosto forte, impiega un certo periodo di<br />
tempo per tornare allo stato di riposo. In questo<br />
periodo di tempo, come reagisce a nuovi stimoli?<br />
Alcuni studi hanno dimostrato che dopo la<br />
25
cessazione di un suono piuttosto forte, suoni meno intensi e distanti pochi istanti dal primo suono<br />
non vengono ud<strong>it</strong>i dal nostro orecchio. Infatti, se il suono più debole cade in quell'intervallo di<br />
tempo in cui il timpano sta tornando dalla posizione di riposo, è difficile che sia in grado di<br />
produrre una sollec<strong>it</strong>azione sufficiente per essere ud<strong>it</strong>o. La componente spettrale che subisce le<br />
conseguenze del suono forte che cessa è indicata nella figura (mask zone).<br />
Il mascheramento temporale viene<br />
anche studiato come l'insieme di due tipi<br />
diversi, e più specifici, di<br />
mascheramento: il pre-mascheramento<br />
e il post-mascheramento. Entrambi<br />
analizzano zone di non udibil<strong>it</strong>à<br />
immediatamente precedenti (pre) o<br />
successive (post) ad un suono. Il premascheramento<br />
dura mediamente un<br />
istante (pochi millisecondi), mentre il<br />
post-mascheramento è quello che<br />
influenza più significativamente<br />
l'udibil<strong>it</strong>à dei suoni e che viene più<br />
spesso chiamato generalmente mascheramento temporale. [Lom00]<br />
Il range di frequenze per cui si manifesta l’effetto di mascheramento è detto banda cr<strong>it</strong>ica.<br />
[Ber05]<br />
L'unione di questi tre fenomeni consente di creare una Global Masking Threshold (o Soglia<br />
di Udibil<strong>it</strong>à Dinamica), una rappresentazione di quelle regioni audio che non influiscono in modo<br />
rilevante sul suono che viene percep<strong>it</strong>o dall'ud<strong>it</strong>ore, per cui possono essere eliminate senza una<br />
perd<strong>it</strong>a considerevole di informazione. [Vis01]<br />
2.6 Diversi tipi di codifica<br />
Come già accennato, esistono molte modal<strong>it</strong>à di compressione diverse tra loro: ogni modal<strong>it</strong>à<br />
ha i suoi pregi e i suoi difetti ed è destinata alle diverse esigenze degli utenti finali.<br />
Tutte le modal<strong>it</strong>à si riconducono a tre grandi gruppi:<br />
26<br />
codifica nel dominio del tempo<br />
codifica per modelli<br />
codifica nel dominio delle frequenze<br />
Fig. 18: Rappresentazione 3D del mascheramento temporale.<br />
[Nol93]<br />
I primi due tipi vengono principalmente utilizzati per segnali audio parlati, mentre il terzo è il<br />
più funzionale per comprimere dati musicali. [Ben-Giu]<br />
Codifica nel dominio del tempo<br />
Per codifica nel dominio del tempo si intende indicare tutti quei processi che<br />
analizzano e codificano un segnale audio utilizzando come variabile indipendente di<br />
riferimento il tempo.<br />
Il formato PCM appartiene alla codifica nel dominio del tempo, poiché converte, ad<br />
intervalli regolari, l'onda audio in una serie di valori numerici. A partire da questi valori, si<br />
ricostruisce un suono identico a quello originale. Come già visto, però, questo tipo di<br />
codifica comporta un notevole impiego di spazio per la memorizzazione. [Vis01]
Codifica per modelli<br />
Sfruttare determinati modelli, nel caso di una codifica per modelli, significa studiare in<br />
modo specifico la natura stessa del suono preso in esame. Viene applicata per codificare la<br />
voce umana in apparecchi come il telefono, che non necess<strong>it</strong>ano di un'elevatissima qual<strong>it</strong>à<br />
audio.<br />
Essa è cost<strong>it</strong>u<strong>it</strong>a, appunto, da modelli, secondo cui il flusso audio viene compresso per<br />
accordarsi meglio alle caratteristiche dell'orecchio umano (durante una telefonata, la<br />
qual<strong>it</strong>à scadente dell'audio è facilmente percepibile, eppure, la maggior parte delle volte, ci<br />
si capisce senza particolari difficoltà).<br />
È praticamente impossibile creare una serie di modelli per la compressione di flussi<br />
musicali, in quanto il numero di sorgenti audio nel mondo è virtualmente infin<strong>it</strong>a, mentre<br />
la voce umana ha molte caratteristiche comuni in tutti gli individui.<br />
Codifica nel dominio delle frequenze<br />
Questo tipo di compressione agisce sullo spettro delle frequenze di un suono, andando<br />
a tagliare e modificare il suono originale. Esso è l'insieme della maggior parte dei<br />
fenomeni sonori descr<strong>it</strong>ti precedentemente: sfruttando un modello psicoacustico, diviso un<br />
suono in diverse parti, a seconda del tipo di suono e delle sorgenti audio è possibile<br />
comprimere il flusso audio in modo molto più efficiente rispetto alla codifica nel dominio<br />
del tempo<br />
È un tipo di compressione lossy, in quanto elimina una certa percentuale di suono<br />
originale. Un buon compressore nel dominio delle frequenze è in grado di lim<strong>it</strong>are anche<br />
gli effetti indesiderati della compressione, quali il rumore o l'eccessiva perd<strong>it</strong>a di<br />
limpidezza del suono.<br />
A questo tipo di compressione appartiene il formato Mpeg, che verrà analizzato<br />
meglio nel prossimo cap<strong>it</strong>olo.<br />
2.7 Molti compromessi: lo streaming<br />
Per streaming si intende il<br />
trasferimento di dati multimediali in<br />
tempo reale via internet, senza che<br />
questi dati vengano scaricati<br />
completamente sul disco fisso del<br />
computer.<br />
Un file visualizzato in streaming<br />
viene quindi scaricato e visualizzato per<br />
“blocchi”: nel momento in cui un blocco<br />
è stato scaricato, comincia la sua<br />
riproduzione e, contemporaneamente,<br />
viene scaricato il successivo. [Vis01]<br />
In generale qualsiasi file<br />
audiovisivo può essere inviato in<br />
Fig. 19: Un popolare s<strong>it</strong>o internet per la condivisione mondiale<br />
di filmati via streaming.<br />
streaming via internet, a condizione che venga trasformato in un formato adatto e compresso in<br />
modo opportuno. Infatti, i lim<strong>it</strong>i di veloc<strong>it</strong>à posti dalla connessione internet obbligano il file ad<br />
avere una qual<strong>it</strong>à in Kbyte al massimo pari alla veloc<strong>it</strong>à di trasferimento sulla rete. Se si prova a<br />
trasferire in streaming un video di qual<strong>it</strong>à elevata, una connessione internet di media veloc<strong>it</strong>à non<br />
sarebbe assolutamente in grado di trasmetterlo fluidamente. Condizione necessaria, dunque, per un<br />
invio dei dati fluido e senza interruzioni è la compressione del file multimediale.<br />
In genere, per gli scopi a cui è destinato un file multimediale inviato in streaming, non è<br />
richiesta una qual<strong>it</strong>à troppo elevata, per cui vengono utilizzati rapporti di compressione lossy molto<br />
27
pesanti che modificano significativamente il file originale, rendendolo molto meno ingombrante e<br />
più facilmente trasferibile.<br />
Interruzioni nella riproduzione del flusso (il file multimediale che viene inviato in streaming si<br />
definisce flusso) sono causate dallo stato di congestione della rete. Ciò si verifica quando la qual<strong>it</strong>à<br />
del file supera la veloc<strong>it</strong>à di download, per cui la connessione non riesce a star dietro alla<br />
riproduzione.<br />
Per ovviare a questo inconveniente, i software multimediali più avanzati sono in grado di<br />
aumentare o diminuire in tempo reale la compressione, e quindi la qual<strong>it</strong>à, del flusso audio-video. I<br />
disturbi visivi che possono verificarsi durante la riproduzione di un filmato in streaming, quindi,<br />
sono gli effetti di un trasferimento non del tutto efficiente e dei sistemi che il software mette in<br />
pratica per risolvere questo problema.<br />
Se volessimo tornare al paragone tra un software di compressione e un’automobile,<br />
certamente il processo di streaming equivarrebbe all’organo del cambio: a seconda della veloc<strong>it</strong>à di<br />
trasferimento del flusso, cambiano i rapporti di compressione, e i disturbi alla riproduzione sono<br />
causati dalla variazione di questi rapporti.<br />
28
CAPITOLO 3<br />
I FORMATI <strong>DI</strong> <strong>COMPRESSIONE</strong> AU<strong>DI</strong>O<br />
29
1 - Il formato Mpeg<br />
1.1 Il successo del formato do compressione Mpeg<br />
Acronimo di Moving Pictures Experts<br />
Group, Mpeg è un progetto che nasce nel<br />
1988 su iniziativa di Leonardo Chiariglione,<br />
in geniere dello CSELT di Torino (Centro<br />
studi e Laboratori Telecomunicazioni di<br />
telecom Italia). È stato pensato per la<br />
trasmissione audio-video in formato dig<strong>it</strong>ale<br />
sfruttando la compressione dei dati,<br />
utilizzando meno banda rispetto ai formati<br />
analogici. Il progetto si divide in diversi<br />
gruppi, a seconda dell’utilizzo: Mpeg-I,<br />
Mpeg-II, Mpeg-IV. etc. Ognuno di questi Fig. 20: Convegno Mpeg a Firenze, 1996. [Mpeg.org]<br />
formati indica anche un diverso standard di<br />
compressione per diverse veloc<strong>it</strong>à di trasferimento. [LuG]<br />
Il formato Mpeg ha riscosso enorme successo grazie al fatto che è uno standard aperto:<br />
oggigiorno sono disponibili diverse decine di versioni diverse di Mpeg, tutte perfettamente<br />
compatibili fra loro. Le poche eccezioni devono la loro incompatibil<strong>it</strong>à al diverso uso degli<br />
algor<strong>it</strong>mi presenti al loro interno, non alla differenza fra gli stessi. Nella maggior parte dei casi, ogni<br />
codec-decoder è retro-compatibile, ovvero è in grado di lavorare con flussi compressi con<br />
versioni precedenti dello stesso software.<br />
Questa sua peculiar<strong>it</strong>à ha le radici nella natura stessa del progetto Mpeg: il gruppo di ricerca si<br />
r<strong>it</strong>rova tre volte l’anno, ed ogni convegno dura cinque giorni. Durante i periodi in mezzo a questi<br />
convegni, ad ogni ricercatore viene data massima libertà d’azione sullo studio del software.<br />
[Mpeg.org]<br />
Qui in segu<strong>it</strong>o alcuni esempi di formati Mpeg:<br />
Mpeg-I<br />
Lo standard Mpeg-I nasce per essere applicato su flussi audio-video di banda pari o<br />
inferiore a 1.5 Mb<strong>it</strong>/s. Questo valore corrisponde al b<strong>it</strong>rate di un CD. Dallo standard<br />
Mpeg-I, più precisamente dalla parte audio del software Mpeg-1, proviene il famoso<br />
standard Mp3 [vedi Sezione 2: Il formato Mp3], caratterizzato da una grandissima<br />
versatil<strong>it</strong>à. Venne approvato nel 1992.<br />
Mpeg-II<br />
Più avanzato del Mpeg-I, aggiunge importanti funzioni come la possibil<strong>it</strong>à di inviare<br />
più di due canali audio e di consentire lo zapping tra più livelli video. Nello standard<br />
Mpeg-II è stato fatto rientrare anche lo standard Mpeg-III. Venne approvato nel 1994.<br />
Mpeg-IV<br />
Caratterizzato da un’innovativa tecnologia multimediale mai vista prima della sua<br />
comparsa in questo standard, l’Mpeg-IV è frutto di studi informatici influenzati molto<br />
dalla cresc<strong>it</strong>a di Internet e delle esigenze del mercato sempre più tecnologico. Esso ha un<br />
funzionamento del tutto diverso rispetto agli altri software, poiché considera il flusso<br />
audiovisivo non come semplice susseguirsi di immagini e suoni ma come un’insieme di<br />
oggetti a sé stanti, in movimento; in aggiunta a ciò, l’utente è in grado persino di scegliere<br />
31
32<br />
il proprio punto di vista nella visione. Venne approvato nel 1998 (prima versione) e nel<br />
1999 (seconda persione).<br />
Per ogni versione del formato Mpeg sono state sviluppate diverse sottocategorie, chiamate<br />
layer (letteralmente: “livello” [WR.com]), che vanno da I a III. I vantaggi crescono<br />
proporzionatamente alla loro compless<strong>it</strong>à, dal layer I al layer III:<br />
Layer I<br />
È il più semplice fra i tre, tuttavia ha l’inconveniente di offrire risultati mediocri dal<br />
punto di vista del rapporto qual<strong>it</strong>à/compressione;<br />
Layer II<br />
Sia l'encoder che il decoder sono più complessi del layer I, riescono ad eliminare la<br />
ridondanza ed applicare il modello psicoacustico all'onda audio in modo più efficiente;<br />
Layer III<br />
È notevolmente più complesso rispetto ai primi due ed è utilizzato da applicazioni che<br />
richiedono una forte riduzione di spazio, ottenuta mediante l'impiego di molteplici<br />
Threshold Mask (banchi di filtri) e sistemi di controllo ciclici. È il tipo a cui appartiene il<br />
formato Mp3.<br />
1.2 Il funzionamento generale del formato Mpeg<br />
Tecnicamente, un file Mpeg è cost<strong>it</strong>u<strong>it</strong>o da una serie di blocchi, chiamati frame, ognuno dei<br />
quali contiene informazioni riguardanti l’audio e il necessario per essere riprodotto; essi vengono<br />
poi riprodotti successivamente l’uno dopo l’altro.<br />
“An MPEG audio file is built up from a<br />
succession of smaller parts called frames.<br />
A frame is a datablock w<strong>it</strong>h <strong>it</strong>s own header<br />
and audio information.”<br />
“MPEG Audio Layer I/II/III frame header” [Mp3-tech]<br />
I compressori basati sul formato Mpeg sfruttano dei modelli psicoacustici, ovvero schemi<br />
statistici (frutto di anni di ricerche scientifiche, dei principali comportamenti della percezione audio<br />
umana). Il lavoro effettuato durante il processo di compressione non è quello di creare un segnale<br />
esattamente fedele all'originale, ma un segnale che sembri, all'orecchio umano, il più “simile”<br />
possibile all'originale.<br />
Il punto di partenza della compressione Mpeg è la trasformazione del flusso audio dal<br />
dominio del tempo (la cui codifica occupa moltissimo spazio) al dominio delle frequenze<br />
(sensibilmente più “leggero e maneggevole” dal punto di vista operativo) attraverso la Trasformata<br />
di Fourier. La funzione ottenuta viene quindi divisa in 32 sottobande di uguale ampiezza. In altri<br />
sistemi, questa suddivisione è stata cambiata con una suddivisione in 26 sottobande, la cui<br />
ampiezza varia su base logar<strong>it</strong>mica [Fig. 21]. Questa diversa divisione è spiegata con una teoria<br />
secondo la quale l'ud<strong>it</strong>o umano è più sensibile alle differenze tra frequenze più basse che tra<br />
frequenze più alte. Due suoni gravi ma con frequenza leggermente diversa, anche di poco, sono più<br />
facilmente riconoscibili rispetto a due suoni acuti distinti.
Fig. 21: Andamento logar<strong>it</strong>mico della percezione ud<strong>it</strong>iva umana. [Vis01]<br />
Altri fenomeni che sono stati analizzati dai<br />
creatori del formato Mpeg sono quelli per cui<br />
alcune parti del segnale (per esempio frequenze<br />
troppo alte o troppo basse e suoni diversi molto<br />
ravvicinati fra loro, ecc) non vengono percep<strong>it</strong>i<br />
dall'orecchio umano, perciò possono essere<br />
considerate inutili. Questi fenomeni prendono il<br />
nome di effetti di mascheramento, già trattati nel<br />
cap<strong>it</strong>olo precedente [vedi Cap<strong>it</strong>olo 2, sezione 2.5].<br />
Un'immagine che rende bene l'idea di questi<br />
effetti è quella di un uccellino che vola controluce<br />
[Fig. 22]. Se provassimo a fissarlo quando è<br />
esattamente al centro del disco solare, il nostro<br />
occhio non riuscirebbe a vederlo a causa della<br />
quant<strong>it</strong>à di luce del sole che lo colpisce, perciò è<br />
come se per noi non ci fosse. In realtà, siamo noi a<br />
non percepirlo presente, ma in quel fotogramma<br />
l'informazione della sua presenza risulta inutile.<br />
Fig. 22: Come tutto ciò che sta davanti al disco<br />
solare non viene percep<strong>it</strong>o dal nostro occhio, così<br />
anche alcuni suoni non vengono percep<strong>it</strong>i perché<br />
mascherati da altri suoni.<br />
Il codec, sfruttando questi effetti, analizza il segnale originale dividendolo in blocchi; per ogni<br />
blocco viene analizzato lo spettro audio ed eliminate quelle parti che l'uomo non è in grado di<br />
percepire. Una volta tagliate le parti inutili, il segnale viene ricomposto e salvato, con un risparmio<br />
di spazio che dipende dal modello a cui si è fatto riferimento per la compressione, e l'algor<strong>it</strong>mo<br />
usato.<br />
Durante la fase di compressione, il codec cerca di rispettare il b<strong>it</strong>rate scelto per la<br />
compressione, dando a ciascun blocco il numero di b<strong>it</strong> che corrisponde al b<strong>it</strong>rate. Il decoder è<br />
molto più semplice dell'encoder perché si lim<strong>it</strong>a a ricostruire il segnale audio a partire da quello<br />
compresso, senza l'uso dei modelli.<br />
R<strong>it</strong>ornando all'esempio del testo da riassumere, è immediato riconoscere che riassumere un<br />
testo sia più difficile che leggerne uno riassunto. Se il riassunto è stato fatto bene, il risultato finale<br />
sarà lo stesso, mentre se è stato fatto male la differenza sarà immediatamente percep<strong>it</strong>a dal lettore.<br />
La compressione Mpeg è, quindi, una compressione lossy (con perd<strong>it</strong>a) nel dominio delle<br />
frequenze. Il codec è composto da molti piccoli software più piccoli che interagiscono fra loro in<br />
maniera sequenziale, ognuno con il suo comp<strong>it</strong>o.<br />
Il problema più spinoso della questione è la generazione collaterale di rumore. La<br />
compressione, infatti, crea un segnale audio diverso dall'originale e la differenza risiede, spesso, in<br />
alcuni punti in cui vi sono grandi “salti di frequenza”: i tagli fatti per risparmiare spazio hanno,<br />
33
cioè, creato una discontinu<strong>it</strong>à dell'onda audio, e vengono percep<strong>it</strong>i distintamente come fastidiosi.<br />
Generalmente, il rumore si manifesta sottoforma di “metallizzazione della voce”, in tanti fruscii di<br />
fondo, nel tipico “gracchiare” del suono in coincidenza di note ad alta frequenza. Tanto più si<br />
comprime un file audio (ovvero tanto più basso il b<strong>it</strong>rate che scegliamo per la compressione) tanto<br />
più questo fastidio aumenta. Il rumore è, perciò, un effetto collaterale della compressione che va<br />
lim<strong>it</strong>ato il più possibile. All'interno del codec Mpeg ci sono particolari sistemi che cercano di<br />
lim<strong>it</strong>are l’insorgere di questo rumore, compatibilmente con i parametri scelti.<br />
1.3 Il formato Mp3: i miglioramenti<br />
L'Mp3 (acronimo di Mpeg-I Layer-III) è una particolare versione del formato Mpeg; più<br />
nello specifico, è una delle sue più evolute versioni. È caratterizzato da sistemi di<br />
codifica/decodifica più efficienti, una maggiore compless<strong>it</strong>à, risultati più convenienti in termini di<br />
spazio risparmiato e costo: infatti l'Mp3, a differenza del formato Mpeg, non è un formato “libero”<br />
in termini di proprietà, ma è di proprietà dell'azienda tedesca Fraunhofer, che ne detiene il marchio<br />
e i dir<strong>it</strong>ti. Il suo utilizzo è consent<strong>it</strong>o liberamente a tutti per quanto riguarda l'aspetto non<br />
commerciale, ma quello a fini commerciali o, più frequentemente, per creare dei file audio<br />
compressi non lo è. In sintesi, la riproduzione di un file Mp3 è libera, mentre non lo è la<br />
compressione.<br />
Per questo, il software più diffuso che consente di creare file Mp3 o che viene largamente<br />
utilizzato per scopi che non siano soltanto di riproduzione audio è una versione per così dire<br />
“craccata” della versione ufficiale. Che essa sia liberamente sfruttabile e distribuibile non è del<br />
tutto chiaro; all'interno della rete si possono trovare migliaia di informazioni anche opposte a<br />
riguardo, vi è una gran confusione.<br />
Ufficialmente, nei pc ad uso privato gli unici formati in cui è possibile convertire un file audio<br />
sono quelli non compressi (per esempio wav) o quelli di proprietà della casa produttrice del<br />
sistema operativo (Windows Media Audio, Wma, concorrente dell’Mp3, per i computer<br />
Windows), a meno che ci siano altri accordi commerciali.<br />
1.4 Le fasi della compressione Mpeg<br />
La compressione Mpeg trasforma un segnale audio dal dominio del tempo al dominio delle<br />
frequenze.<br />
Come già accennato in precedenza, ogni compressore funziona sia per la compressione che<br />
per la riproduzione. Nella prima fase ha il comp<strong>it</strong>o di rielaborare un flusso audio al fine di crearne<br />
uno il più simile possibile dal punto di vista percettivo e meno ingombrante, a partire da un segnale<br />
codificato nel dominio del tempo, e nella seconda quello di riprodurre un flusso audio compresso e<br />
riportarlo nel dominio del tempo.<br />
Il funzionamento del codec Mpeg, per quanto riguarda il processo di compressione, è diviso in<br />
4 fasi fondamentali:<br />
34<br />
Analisi<br />
Il segnale audio viene trasformato dal dominio del tempo al dominio delle frequenze,<br />
utilizzando la Trasformata di Fourier, e quindi analizzato.<br />
Utilizzo del modello psicoacustico<br />
Il decodificatore cerca quelle frequenze che possono essere eliminate perché non udibili e<br />
quelle che non influenzano la percezione.<br />
Codifica<br />
Il segnale audio viene quantizzato (compresso) al fine di occupare meno spazio (meno b<strong>it</strong>).<br />
Stream<br />
Si ricrea il flusso audio unendo tutte le parti compresse insieme con le informazioni per la<br />
riproduzione.
Si nota chiaramente che è un sistema particolarmente funzionale dal punto di vista operativo:<br />
il processo è cost<strong>it</strong>u<strong>it</strong>o, infatti, da operazioni matematiche, eseguibile in tempi relativamente brevi<br />
da un computer.<br />
Il processo inverso, cioè quello che riporta il flusso audio compresso al dominio del tempo e<br />
lo riproduce, si articola in 3 fasi:<br />
Decodifica<br />
Viene ricreata l'onda audio nel dominio delle frequenze a partire dalle informazioni elaborate<br />
dal decodificatore.<br />
Codifica inversa<br />
Il flusso compresso viene ricostru<strong>it</strong>o sulla base delle informazioni di codifica.<br />
Sintesi<br />
Viene riportato il flusso dal dominio delle frequenze al dominio del tempo e, infine, riprodotto.<br />
Schematizzando, le fasi in cui si articola la trasformazione dell'audio può essere rappresentata<br />
in questo modo:<br />
Fig. 23: Schema delle fasi del compressore MPEG generico. [Vis01]<br />
35
2.1 Dove, quando e perché<br />
Come appena accennato, il formato Mp3 è<br />
uno dei risultati finali del progetto di ricerca<br />
Mpeg. I dir<strong>it</strong>ti sul marchio Mp3 sono detenuti<br />
da un'azienda tedesca chiamata Fraunhofer e<br />
che è part<strong>it</strong>a con la sperimentazione sul formato<br />
di codifica Mpeg-1/2 Layer 2.<br />
Finanziata dall'Unione Europea, diede<br />
come primo risultato due formati di<br />
compressione chiamati Musicam e ASPEC; da<br />
questi, nel 1992 si arrivò alla compilazione di<br />
questo terzo formato, l'Mp3, che aveva lo scopo<br />
di riprodurre le stesse caratteristiche dei<br />
precedenti Mpeg ma con b<strong>it</strong>rate più bassi. 3<br />
Nel 1995 veniva pubblicato lo standard<br />
Mpeg-2, quando i formati Mpeg-1 erano stati<br />
defin<strong>it</strong>ivamente defin<strong>it</strong>i standard internazionali<br />
già da alcuni anni.<br />
All’inizio, con l’affermarsi del formato<br />
Mp3, la qual<strong>it</strong>à di compressione a 128 kbps<br />
venne considerata come corrispondente alla<br />
CD-Qual<strong>it</strong>y (anche se le frequenze tagliate<br />
dalla compressione sono ben udibili).<br />
36<br />
2 - Il formato Mp3<br />
Fig. 24: Gli aggiornamenti più recenti sullo standard Mp3<br />
hanno portato alla creazione di versioni in grado di<br />
supportare l’audio in Dolby e caratteristiche ancora più<br />
avanzate.<br />
Successivamente, schede audio e impianti stereo più avanzati permisero di toccare una risoluzione<br />
di 24 b<strong>it</strong> di campionamento e anche oltre, per cui l’Mp3 cominciava a dar segni di debolezza, fino<br />
ad essere considerato utile più per la sua comod<strong>it</strong>à e maneggevolezza che per la sua qual<strong>it</strong>à.<br />
Oggigiorno un file Mp3 di b<strong>it</strong>rate inferiore a 128 kbps è considerato di pessima qual<strong>it</strong>à, a 192<br />
kbps media e solo a 320 kbps si avvicina davvero alla CD-Qual<strong>it</strong>y.<br />
2.2 Il funzionamento del formato Mp3<br />
Come ultimo gradino della ricerca sul formato Mpeg, la struttura del formato Mp3 è divisa in<br />
4 parti, corrispondenti a quelle descr<strong>it</strong>te nel precedente paragrafo. Le innovazioni introdotte in<br />
questa versione sono da ricercare principalmente in un'ottimizzazione del funzionamento delle<br />
fasi in qui è diviso. A scap<strong>it</strong>o della veloc<strong>it</strong>à di elaborazione (problema risolto grazie all'evolversi<br />
della tecnologia informatica), la compressione ha raggiunto livelli più alti e risultati più<br />
soddisfacenti, sia per la qual<strong>it</strong>à del suono sia per la percentuale di spazio risparmiato:<br />
Analisi<br />
Il segnale audio viene trasformato nel dominio delle frequenze e diviso in 32 sottobande,<br />
ognuna delle quali defin<strong>it</strong>a per intervalli di frequenza precisi, attraverso un “banco dei filtri”<br />
( o Threshold Mask ). Nella versione layer-III, a questa divisione, migliorata ulteriormente<br />
3<br />
ATTENZIONE: su questa pagina (http://www.beta.<strong>it</strong>/beta/bs029801/2299.5/ext/b2299e02.htm) ci sono dati<br />
discordanti riguardo alcune date storiche. Ricerche incrociate hanno dimostrato l’esistenza di informazioni simili e/o<br />
contradd<strong>it</strong>torie, ma, al fine di questa breve trattazione, non sono r<strong>it</strong>enute fondamentali, per cui si è r<strong>it</strong>enuto lec<strong>it</strong>o<br />
riportare una fonte sola.
ispetto alle versioni I e II, segue un'ulteriore suddivisione molto più complessa ad opera di<br />
un altro banco, chiamato MDCT (Modified Discrete Cosine Trasform) che migliora<br />
ulteriormente la qual<strong>it</strong>à delle frequenze.<br />
Modello percettivo<br />
Il confronto con il modello percettivo è arricch<strong>it</strong>o dalle informazioni riguardanti il premascheramento<br />
e il post-mascheramento. In questo modo, il codificatore è in grado di<br />
risparmiare ulteriore spazio eliminando altre parti di suoni non percepibili.<br />
Quantizzazione e codifica<br />
Questo passaggio è migliore (e più complesso) nella versione layer-III rispetto all'originale<br />
Mpeg. Dopo aver scelto il rapporto di codifica (il famoso b<strong>it</strong>rate), il suono viene liberato<br />
dai suoni non udibili trovati al punto precedente. Questa fase è la fase più lunga e più<br />
impegnativa della compressione, in quanto in più fasi cicliche vengono controllate sia la<br />
qual<strong>it</strong>à di ogni singolo “blocco” audio sia il livello del rumore di fondo, che il compressore<br />
cercherà di eliminare il più possibile.<br />
Creazione dello stream<br />
Viene creato il flusso dati compresso unendo i risultati ottenuti dalla compressione.<br />
Questo schema riassume in modo preciso e completo i passaggi della compressione Mp3<br />
sopra descr<strong>it</strong>ti:<br />
Fig. 25: Schema delle fasi del compressore Mp3. [Vis01]<br />
2.3 Il rumore<br />
Il problema principale è ancora una volta la generazione del rumore, che cost<strong>it</strong>uisce un<br />
residuo non eliminabile della quantizzazione. La sua presenza è provocata principalmente dal fatto<br />
che, tagliando parti di frequenze audio, si creano dei “salti” in prossim<strong>it</strong>à degli estremi delle<br />
sottobande in cui è stato diviso il flusso, proprio come nelle altre versioni del Mpeg. Tutte queste<br />
imperfezioni riprodotte insieme danno luogo ad un fastidioso effetto metallico chiamato,<br />
comunemente, rumore.<br />
È chiaro che, durante la riproduzione di un flusso compresso, a causa della natura stessa della<br />
compressione, il rumore non può essere eliminato; tuttavia si può cercare di lim<strong>it</strong>arlo tram<strong>it</strong>e dei<br />
buoni algor<strong>it</strong>mi di compressione. La compressione Mp3, a differenza delle altre versioni Mpeg, ha<br />
in sé, nell'ultima fase di quantizzazione, un sistema, chiamato Noise Control Loop, che controlla il<br />
livello del rumore; se questo supera una certa soglia, viene rifatta la quantizzazione con valori di<br />
compressione differenti fino a quando il rumore non si abbasserà a livelli prefissati (è questo uno<br />
37
dei controlli ciclici menzionati precedentemente che rendono l’Mp3 così avanzato).<br />
2.4 La riproduzione di un file Mp3<br />
Il processo di decodifica è esattamente l'opposto della compressione: si tratta di ricostruire<br />
l'onda audio (da riprodurre, per esempio, tram<strong>it</strong>e la scheda audio del computer) a partire da un file<br />
compresso.<br />
Il software addetto a tale comp<strong>it</strong>o è il decodificatore o decoder (termine usato anche per altre<br />
tecnologie, quali per esempio la televisione satell<strong>it</strong>are, che altro non è che un segnale dig<strong>it</strong>ale<br />
compresso) [InfoSat]. Spesso si tratta di un software semplicemente inverso al codec, molto più<br />
semplificato. Esso sfrutta, nella maggior parte dei casi, una raccolta di Threshold Mask (banco di<br />
filtri) molto simile a quella di un codec al fine di ricreare un suono fedele all'originale.<br />
Riprodurre un flusso audio compresso è un'operazione più semplice dal punto di vista del<br />
funzionamento, poiché è assente tutta quella parte del processo in cui vi è la compressione. È come<br />
dire che leggere un testo ad alta voce è più semplice che prendere appunti da una lezione.<br />
Qui insegu<strong>it</strong>o vengono riportati alcuni esempi di b<strong>it</strong>rate e caratteristiche dei principali supporti<br />
di riproduzione, con relative percentuali di compressione del formato Mp3 rispetto ad essi, ed<br />
esempi di compressori audio diversi dall’Mp3, sempre con relative caratteristiche.<br />
38<br />
Tab. 4: Prestazioni della codifica audio Mp3. [Fraunhofer Ins.]<br />
Tab. 5: Confronto fra le caratteristiche di diverse tecnologie di campionamento audio. [Noll 99]
Lossy<br />
Codec Produttore Caratteristiche<br />
Wma Microsoft Molto simile all’Mp3, riduzione di spazio del 20%.<br />
Mp3 Fraunhofer A 128 Kbps occupa circa 1/11 del file originale.<br />
Ogg Vorbis Open Source Fornisce risultati migliori dell’Mp3 a b<strong>it</strong>rate bassi, inferiori<br />
a 128 kbps.<br />
Lossless<br />
Codec Produttore Caratteristiche<br />
Wav Microsoft/IBM Pura e semplice registrazione del flusso audio non<br />
compresso. La sua qual<strong>it</strong>à dipende esclusivamente dalla<br />
qual<strong>it</strong>à degli strumenti di registrazione utilizzati.<br />
Ape Monkey audio Compressore audio che raggiunge livelli di compressione<br />
anche del 50% senza perd<strong>it</strong>a di qual<strong>it</strong>à. Un album di 600<br />
FLAC Xiph.Org<br />
Foundation<br />
Mb in formato Wav, ne occupa 300 in formato Ape.<br />
Molto popolare tra i musicofili, è molto simile al formato<br />
Ape, ma con minori risultati. Un album di 600 Mb a<br />
compressione Wav ne occupa 340 con compressione Flac.<br />
Tab. 6: Esempi di formati audio lossy e lossless. [Programmifree.<strong>it</strong>]<br />
39
40<br />
3 – Cenni sui formati Mpeg II ed Mpeg IV<br />
Ricerche più recenti ed avanzate sono state effettuate per<br />
aumentare sempre più le prestazioni e la qual<strong>it</strong>à delle<br />
compressioni Mpeg. Tuttavia, esigenze di mercato e di<br />
consumo hanno spinto le aziende ricercatrici ad affrontare<br />
nuove avanguardie nello sviluppo di formati di compressione<br />
sempre più tecnologici.<br />
Tra i primi r<strong>it</strong>rovati più significativamente importanti nel<br />
complesso mondo Mpeg rientra l'introduzione di un numero<br />
superiore a due di canali audio per applicazioni di tipo multimediale, cinematografico, dig<strong>it</strong>ale. In<br />
questo campo è famosa la tecnologia della statun<strong>it</strong>ense Dolby Surround, che fin dal 1965 studia e<br />
presenta le più avanzate tecnologie audio dig<strong>it</strong>ali cinematografiche [Dolby].<br />
Dal punto di vista della compressione, si è reso necessario modificare gli standard stessi al<br />
fine di poter lavorare con flussi audio molto più consistenti e schemi di compressione notevolmente<br />
più complessi.<br />
I primi studi in questa direzione portarono alla definizione di una nuova versione dello<br />
standard Mpeg, chiamato Mpeg-II, dotato di scarsa retro-compatibil<strong>it</strong>à ma altissime prestazioni.<br />
Sempre nel settore multimediale, più precisamente in quello cinematografico, è stato<br />
introdotto un altro formato Mpeg che offre risultati decisamente impareggiabili per quanto riguarda<br />
qual<strong>it</strong>à e prestazioni: l’Mpeg-IV. Questa versione avanzata dello standard Mpeg è utilizzata<br />
principalmente in amb<strong>it</strong>o audiovisivo dig<strong>it</strong>ale e informatico: sua caratteristica peculiare, infatti, è la<br />
possibil<strong>it</strong>à di dividere la scena di un filmato in tanti frame separati, disposti in piani differenti, così<br />
da poterli trattare singolarmente come oggetti a se stanti. La comod<strong>it</strong>à di questo sistema risiede in<br />
una maggiore comod<strong>it</strong>à di lavoro e di modifica e nelle elevate prestazioni di codifica del risultato<br />
finale.<br />
Le caratteristiche fondamentali dell’Mpeg-IV si possono così riassumere: [Ner-Giu]<br />
Interattiv<strong>it</strong>à del contenuto<br />
Compressione efficiente dei dati<br />
Accesso universale<br />
La compless<strong>it</strong>à e la difficoltà di funzionamento dei sistemi più avanzati come l'Mpeg-II e<br />
l'Mpeg-IV rendono difficile una trattazione semplificata eliminando concetti ed approfondimenti<br />
essenziali. Scopo di questa ricerca non è, infatti, quello di analizzare a fondo gli schemi logicomatematici<br />
di questi nuovi formati, bensì quello di capire quali sono state le cause che hanno spinto<br />
la ricerca in questa direzione e i risultati più significativi che sono stati raggiunti.<br />
Al fine di questa breve ricerca, è sufficiente sapere che questi nuovi formati multimediali<br />
racchiudono in sé tutte le tecnologie proprie anche agli altri formati, con l’aggiunta di componenti<br />
software molto più sofisticate e tecnologie in continua evoluzione, che farebbero di qualsiasi<br />
trattazione scr<strong>it</strong>ta un documento già di per sé obsoleto.
IN<strong>DI</strong>CI E BIBLIOGRAFIA<br />
41
42<br />
Indice delle tabelle<br />
Tab. 1: Esempi di valori dei rumori più comuni. [Airs.<strong>it</strong>]<br />
Tab. 2: Esempi di formati lossy e lossless<br />
Tab. 3: Esempio di compressione su un testo sfruttando la ridondanza. [Nar00]<br />
Tab. 4: Prestazioni della codifica audio Mp3. [Fraunhofer Ins.]<br />
Tab. 5: Confronto fra le caratteristiche di diverse tecnologie di campionamento audio. [Noll 99]<br />
Tab. 6: Esempi di formati audio lossy e lossless. [Programmifree.<strong>it</strong>]<br />
Indice delle figure<br />
Fig. 1:Rappresentazione delle curve isofoniche e dei valori di sensazione sonora. [Cra01]<br />
Fig. 2: Formula della percezione sonora [IAc.<strong>it</strong>]<br />
Fig. 3: Un'onda sonora composta da diverse armoniche. [Gui01]<br />
Fig. 4: Frequenze relative di ogni DO della scala musicale. [Lom06]<br />
Fig. 5: Formula della Trasformata di Fourier. [<strong>Matematicamente</strong>.<strong>it</strong>]<br />
Fig. 6: Disegno dell'orecchio. [Far99]<br />
Fig. 7: Confronto fra un’immagine ad alta definizione prima della compressione… [Istart.com]<br />
Fig. 8: …e dopo la compressione. [Istart.com]<br />
Fig. 9: Finestra di scelta del b<strong>it</strong>rate e del formato di compressione in Windows Media Player 10<br />
[Microsoft.com]<br />
Fig. 10: Campionamento PCM, schema esemplificativo. [Lor04]<br />
Fig. 11: Una campionatura a 44100 campioni è molto più precisa di una a 22000. [Gui01]<br />
Fig. 12: Schema del funzionamento della codifica ADPCM. [Lom00]<br />
Fig. 13: Frequenze dei diversi tipi di suoni. [Sanpaolo.<strong>it</strong>]<br />
Fig. 14: Soglia di udibil<strong>it</strong>à, infrasuoni ed ultrasuoni: zone di percezione e non percezione audio. [QCP.<strong>it</strong>]<br />
Fig. 15: Mascheramento in frequenza. Componenti spettrali di una certa intens<strong>it</strong>à mascherano componenti<br />
più deboli. [L<strong>it</strong>hium.<strong>it</strong>]<br />
Fig. 16: Mascheramento in frequenza. Suoni particolarmente intensi mascherano suoni più deboli anche<br />
distanti. [Ben-Giu]<br />
Fig. 17: Mascheramento temporale. Come varia la zona di mascheramento prodotta da un suono forte.[Ben-<br />
Giu]<br />
Fig. 18: Rappresentazione 3D del mascheramento temporale. [Nol93]<br />
Fig. 19: Un popolare s<strong>it</strong>o internet per la condivisione mondiale di filmati via streaming.<br />
Fig. 20: Convegno Mpeg a Firenze, 1996. [Mpeg.org]<br />
Fig. 21: Andamento logar<strong>it</strong>mico della percezione ud<strong>it</strong>iva umana. [Vis01]<br />
Fig. 22: Come tutto ciò che sta davanti al disco solare non viene percep<strong>it</strong>o dal nostro occhio, così anche<br />
alcuni suoni non vengono percep<strong>it</strong>i perché mascherati da altri suoni.<br />
Fig. 23: Schema delle fasi del compressore MPEG generico. [Vis01]<br />
Fig. 24: Gli aggiornamenti più recenti sullo standard Mp3 hanno portato alla creazione di versioni in grado di<br />
supportare l’audio in Dolby e caratteristiche ancora più avanzate.<br />
Fig. 25: Schema delle fasi del compressore Mp3. [Vis01]
Riferimenti bibliografici<br />
[AIRS.IT] Faq sulla sord<strong>it</strong>à, Home Page Associazione Italiana per la Ricerca sulla Sord<strong>it</strong>à, 2007,<br />
http://www.associazioneairs.<strong>it</strong>/html/faq_rumore.HTM.<br />
[AU<strong>DI</strong>OSONICA.COM] Glossario, Ingegneria del suono, 2007,<br />
http://www.audiosonica.com/<strong>it</strong>/glossario.<br />
[BEN-GIU] ING. F. BENEDETTO e PROF. G. GIUNTA, “Codifica musicale (standard MPEG)”, Corso di<br />
elaborazione numerica dei segnali, Dipartimento di elettronica applicata dell'Univers<strong>it</strong>à<br />
degli Studi di Roma Tre, Roma Tre.<br />
[BER05] M.E. BERGAMASCHI, P. MARAZZINI, L. MAZZONI, “L'indagine sul mondo fisico”, Onde e<br />
luce, ed. Carlo Signorelli Ed<strong>it</strong>ore, Toledo, 2005.<br />
[BER05] S. BERRETTI, “Visual Information Processing Laboratori”, MPEG Audio, Dipartimento<br />
Sistemi e Informatica dell'Univers<strong>it</strong>à di Firenze, Firenze, 2005.<br />
[CEL00] F. CELLETTI, “Rischi da Rumore, Seminario didattico sui rischi del rumore”, Firenze,<br />
2000, http://www.fi.infn.<strong>it</strong>/sezione/prevprot/rumore.htm.<br />
[COS07] ING. C. COSENTINO, “Analisi dei sistemi lineari nel dominio del tempo”, Corso di<br />
fondamenti di automatica, Univers<strong>it</strong>à degli studi Magna Graecia, Catanzaro, A.A.<br />
2006/2007, pg. 58.<br />
[CRA01] P. CRAVERO, “Studio ed implementazione di applicativi per la produzione di materiale<br />
multimediale distribuibile tram<strong>it</strong>e Internet”, Tesi di laurea in Ingegneria delle<br />
Telecomunicazioni, Torino, 2001, pg 28.<br />
[DOLBY] Dolby Home Page, http://www.info-sat.org/ .<br />
[FAR99] PROF. A. FARINA, “Appunti del corso di Acustica applicata”.<br />
Testo di riferimento: R. SPAGNOLO, “Manuale di acustica applicata”, UTET Libreria,<br />
Torino, 2001.<br />
[FRAUNHOFER INS.] Fraunhofer Inst<strong>it</strong>ut home page:<br />
http://www.iis.fhg.de/amm/techinf/index.html.<br />
[GUI01] M. GUIDOTTI, “La codifica dig<strong>it</strong>ale PCM ed i problemi di dig<strong>it</strong>alizzazione del suono” ,<br />
2001, http://www.nemesi.net/audio2.htm.<br />
[HTML.IT] T.M. FANTI, “Musica dig<strong>it</strong>ale: + 44% nel 2006”, 3 Aprile 2007,<br />
http://webnews.html.<strong>it</strong>/news/leggi/5748/musica-dig<strong>it</strong>ale-44-nel-2006/.<br />
[IAC.IT] “La percezione del rumore”, Trento, 2007, Inquinamentoacustico.<strong>it</strong>,<br />
http://www.inquinamentoacustico.<strong>it</strong>/percezione_del_rumore.htm.<br />
[INFOSAT] Portale Info-Sat, http://www.info-sat.org/ .<br />
[ISTART.COM] http://www.istartedsomething.com/.<br />
43
[LITHIUM.IT] L.MARCHETTI, “Speciale compressione audio: dal PCM all'MP3”, Giugno 2001,<br />
http://www.l<strong>it</strong>hium.<strong>it</strong>/articolo0012p2.htm.<br />
[LOM00] V. LOMBARDO, “La compressione audio”, Novembre 2000.<br />
[LOM06] V. LOMBARDO, “Cenni di Acustica”, slide per il Corso di Laurea MultiDAMS in<br />
Multimedial<strong>it</strong>à e Discipline dell'Arte della Musica e dello Spettacolo, Torino, 2006.<br />
[LOR04] A. LORENZANI, “I formati audio AAC e Dolby Dig<strong>it</strong>al (AC-3)”, Tesi di laurea specialistica<br />
in Tecnologie Informatiche, Pisa, 2004.<br />
[LUG] A.LUBRANO, F. GARGANO, L. GIUSTIZI, “La codifica dig<strong>it</strong>ale Mpeg”, 2001,<br />
http://www.beta.<strong>it</strong>/beta/bs029801/2299.5/ext/b2299e02.htm.<br />
[MAR05] P. ABBATI MARESCOTTI, “La Trasformata di Fourier”, Appunti del corso di Metodi<br />
Matematici per l'Ingegneria, lezioni del prof. G. Vergara Caffarelli, Maggio 2005.<br />
[MATEMATICAMENTE.IT] F.CIMOLIN, “La formula più bella”, Settembre 2006,<br />
http://www.matematicamente.<strong>it</strong>/cimolin/formula.<br />
[MICROSOFT.COM] “Windows Media Player: save space on your Hard Disk When Ripping” , Febbraio 2005,<br />
http://www.microsoft.com/windows/windowsmedia/knowledgecenter/howto/compress.as<br />
px.<br />
[MP3-TECH] G. BOUVIGNE, Mp3-tech, MPEG Audio Layer I/II/III frame header, 2002,<br />
http://www.mp3-tech.org/programmer/frame_header.html .<br />
[MPEG.ORG] Mpeg Home Page, http://www.chiariglione.org/mpeg/about_mpeg.htm.<br />
[NAR00] F. NARDONE, “Compressione dati”, tesina in Algor<strong>it</strong>mi e Strutture Dati 2 del<br />
Dipartimento di Informatica ed Applicazioni "Renato M. Capocelli", Univers<strong>it</strong>à di<br />
Salerno, Salerno, 2000.<br />
[NER-GIU] PROFF. A. NERI e G. GIUNTA, “Appunti sulla codifica MPEG-4”, corsi di Comunicazioni<br />
Elettriche ed Elaborazione Numerica dei Segnali, Univers<strong>it</strong>à di Roma Tre, Roma, Marzo<br />
2000.<br />
[NOL93] P. NOLL, “Wideband Speech Audio Coding” IEEE audio coding comunication magazine,<br />
Vol. 31, No 11, Nov 1993.<br />
[NOLL 99] P. NOLL, “Dig<strong>it</strong>al Audio for Multimedia”, NATO Advanced Audio Inst<strong>it</strong>ute, Berlino,<br />
1999.<br />
[PROGRAMMIFREE.IT] “Confronto programmi archiviazione e compressione”, Archiviazione audio,<br />
http://www.programmifree.com/confronti/archiviatori-audio.htm.<br />
[QCP.IT] C.QUADRINI, “MPEG e Psicoacustica”, Progetti univers<strong>it</strong>ari, 2007,<br />
http://www.qcp.<strong>it</strong>/univers<strong>it</strong>a/progetti/mpegc60/mpegc603.php3.<br />
[SANPAOLO.NET] C. SANPAOLO, “Soglia di udibil<strong>it</strong>à”, 2005,<br />
http://www.sampaolo.net/liuteria/soglia.htm.<br />
44
[STRU03] D.STRUPPA, “Conferenza sulla Matematica della percezione”, in un articolo tratto da:<br />
M.CAPORLINGUA, Milano, Novembre 2003,<br />
http://www.scienzaesperienza.<strong>it</strong>/news/new.php?id=0223.<br />
[UBE83] M.UBERTI, “La Nuova Enciclopedia della Musica”, “Psicoacustica”, ed. Garzanti,<br />
Milano, 1983 e 1996 (sec. ed.).<br />
[VIC04] G. VICINO, “Studio sulle tecniche di Compressione Dati”, Tesina per il corso d'Algor<strong>it</strong>mi<br />
e Strutture Dati II, Univers<strong>it</strong>à degli Studi del Piemonte Orientale, A.A. 2003/2004, pg 11.<br />
[VIS01] F. VISCIOTTI, “Tecniche di Compressione Audio: Evoluzione dello Standard MPEG”,<br />
Corso di Sistemi Informativi II 2000/2001 dell'Univers<strong>it</strong>à degli Studi di Bologna, facoltà<br />
di Ingegneria, Bologna, 2001.<br />
[VIS01] F. VISCIOTTI, “Tecniche di Compressione Audio: Evoluzione dello Standard MPEG”, tesi<br />
di Laurea in Ingegneria, Bologna, 2001.<br />
[XIA04 YU RONGSHAN, SUSANTO RAHARDJA, LIN XIAO, “Advanced Audio Zip - Emerging<br />
International Standard for Next Generation Dig<strong>it</strong>al Audio Coding”, Inst<strong>it</strong>ute for<br />
Infocomm Research, Synthesis Journal, Section three, pg 103-106. 2004.<br />
45