Capitolo 2 Codifica del segnale vocale - InfoCom

Capitolo 2 

Codifica del segnale vocale 

Contenuto 

2.1 Rappresentazione del segnale vocale in forma numerica 

Il segnale vocale é il segnale analogico convogliato dalla variazione temporale della pressione acustica generata da un 

parlatore. Si assume che le principali caratteristiche del segnale vocale siano note al lettore, cosi’ come le principali 

tecniche di codifica. Tuttavia, tali aspetti saranno qui richiamati per completezza. 

Il segnale vocale, come altri segnali di interesse nelle comunicazioni, è originariamente definito in un dominio 

e codominio continui. Supponendo che il segnale vocale x(t) presenti caratteristiche di limitazione in banda nella 

banda [−w, w], esso è perfettamente ricostruibile a partire dalla conoscenza dei suoi campioni estratti a passo di 

campionamento 1/2w. La discretizzazione del dominio del segnale pertanto non comporta perdita di informazione. 

Ciascun campione xn rappresenta un’istanza di una variabile aleatoria analogica X, e può essere rappresentato 

utilizzando un codominio discreto ˜X unicamente a patto di tollerare una perdita di informazione irreversibile sul 

segnale originario. In altre parole, una volta rappresentata la variabile aleatoria continua originale in un dominio 

quantizzato, essa sarà ricostruibile con una distorsione residua. Per una fissata misura di distorsione d(x, ˜x), si 

dice Rate-Distortion function R(D) il minimo numero di bit di informazione necessari per rappresentare la variabile 

aleatoria X con una distorsione media inferiore o al piú uguale a D, ovvero E {d(x, ˜x)} ≤D. É interessante 

osservare che, per funzione di distorsione quadratica d(x, ˜x) =(x − ˜x) 2 , a paritá di varianza σ 2 x la variabile aleatoria 

piú costosa da codificare é la variabile aleatoria Gaussiana, per la quale si ha Rg(D) = 1 

2 log2( σ2 x 

D ) per D ≤ σ2 x e 

Rg(D) =0per D ≥ σ2 x . Si supponga dunque di tollerare una perdita di informazione dovuta alla quantizzazione 

dei valori di ampiezza del segnale da rappresentare. Lo schema completo di campionamento e ricostruzione2.1del segnale vocale é rappresentato in Fig.2.5. 

2.1Si osservi che, laddove il teorema del campionamento richiederebbe una ricostruzione mediante un filtro passabasso ideale, uno schema 

operativo tipicamente realizza la ricostruzione mediante la cascata di un convertitore digitale analogico a tenuta, approssimante un filtro con 

risposta impulsiva rettangolare, seguito da un filtro passabasso con enfasi alle alte frequenze. 

3

4 CAPITOLO 2. CODIFICA DEL SEGNALE VOCALE 

Rate Distortion function 

Nel contesto della Teoria dell’informazione, la Rate distortion function si definisce come la minima informazione 

mutua media fra X e la sua rappresentazione ˜X = Q(X), sotto il vincolo che la distorsione media sia inferiore o 

al piú uguale a D, ovvero 

R(D) def 

= min 

Q, E{d(x,˜x)}≤D I(X, ˜X) =H(X) − H(X| ˜X) 

dove H(X) ha il significato di entropia nel caso di variabile aleatoria X discreta e di entropia differenziale nel 

caso di variabile aleatoria X continua. Per funzione di distorsione quadratica d(x, ˜x) =(x− ˜x) 2 , la rate distortion 

function di una variabile aleatoria Gaussiana di varianza σ2é data da: 

⎧ 

⎪⎨ 1 

Rg(D) = 2 

⎪⎩ 

log2( σ2 x 

D ) D ≤ σ2 x 

0 D ≥ σ 2 x 

La Rg(D) rappresenta un upper-bound per la R(D) di una v.a. di varianza σ2 . D’altro canto, é possibile derivare 

anche lo Shannon Lower Bound 

R(D) ≥ H(X) − 1 

2 log2 (2πeD) 

Lo studio puó essere esteso al caso di N v.a. Gaussiane indipendenti di varianza σ2 n,n=0,...N− 1. In tal caso, 

la R(D) congiunta assume la forma: 

Rg(θ) = 

 

max 0, 1 

2 log2( σ2 n 

θ ) 

 

n=0,N−1 

Dg(θ) = 

n=0,N−1 

min σ 2 n,θ) 

Analoghe argomentazioni possono essere applicate a processi aleatori Gaussiani. Infatti, per il Teorema di Rappresentazione 

spettrale, un processo aleatorio stazionario Gaussiano a valor medio nullo e di densitá spettrale di 

potenza Px(ejω ) puó essere rappresentato come sovrapposizione di processi Gausssiani indipendenti nelle diverse 

bande di frequenza, e si ha 

 

Rg(θ) = max 0, 1 

2 log Px(e 

2 

jω 

) 

dω 

θ 

 

Dg(θ) = min Px(e jω ),θ dω 

2.2 Quantizzatore di Lloyd-Max, codifica PCM e ADPCM 

La quantizzazione dei valori di ampiezza del segnale introduce una distorsione media che dipende non solo dal numero 

di bit per campione ma anche dalla modalitá di assegnazione del valore di ampiezza ai livelli discreti ammissibili, 

ovvero alla scelta degli intervalli di quantizzazione del segnale. 

Supponiamo che la distorsione sia misurata da una funzione quadratica, e che ciascun campione sia rappresentato 

da b =log2Lbits. Siano qk,k=0, ···L − 1 i valori di ampiezza assumibili dalla variabile quantizzata ˜x e θk,k= 

0, ···L gli estremi dei corrispondenti L intervalli di decisione del quantizzatore. Il quantizzatore ottimo secondo il

2.2. QUANTIZZATORE DI LLOYD-MAX, CODIFICA PCM E ADPCM 5 

Rate Distortion function: esempio di calcolo 

Figura 2.1: Calcolo della rate distortion di 4 variabili Gaussiane indipendenti di assegnata varianza. 

Figura 2.2: Schema completo di campionamento e ricostruzione. 

criterio dell’errore quadratico medio, cioé quello per cui é minima la distorsione quadratica D =E (x − ˜x) 2 é


individuato dalla soluzione congiunta, rispetto alle incognite θk e qk, delle equazioni 2.2 

dove 

⎧ 

⎨ θk+1 =(qk + qk+1)/2 

⎩ qk =E{x|θk ≤ x ≤ θk+1} 

E {x|θk ≤ x ≤ θk+1} = 

θk+1 

θk 

θk+1 

θk 

x · pX(x)dx 

pX(ξ)dξ 

(2.2.1) 

Tale quantizzatore prende il nome di quantizatore di Lloyd-Max. 

A titolo di esempio consideriamo il caso che la variabile d’aleatoria di ingresso sia uniforme nell’intervallo 

[−A, A] e che sia quantizzata a L =2b livelli mediante quantizzazione uniforme. In tal caso la distorsione quadratica 

misurata é 

D = (2A/2b ) 2 

= 

12 

A2 

3 2−2b 

e diminuisce di 6 dB per ogni bit per campione aggiuntivo2.3 . 

Nel caso di codifica del segnale vocale gli standard internazionali di rappresentazione del segnale in termini di 

campionamento e quantizzazione adottano metodologie di quantizzazione subottima. In particolare, nella definizione 

degli standard sono stati considerati alcuni aspetti operativi. In primo luogo, il segnale può presentare una dinamica 

elevata, dell’ordine di 60dB; per riprodurre tanto i livelli piú alti che quelli piú bassi di segnale con un livello 

comparabile di rapporto segnale rumore di quantizzazione sarebbe necessario avvicinare i livelli di quantizzazione 

dei valori piú bassi distanziandoli per i valori piú elevati. In secondo luogo, la realizzazione di un quantizzatore non 

uniforme è più complessa rispetto a quella di un quantizzatore uniforme. Tali aspetti sono tenuti in conto operando 

una trasformazione non lineare ˆx = η(x) dei valori x in ingresso ad un quantizzatore uniforme; la trasformazione 

espande i valori piú bassi e comprime i valori piú elevati ed é invertita all’uscita del quantizzatore. Un quantizzatore 

uniforme, preceduto e seguito da trasformazioni nonlineari prende il nome di compandor (compressor-expander) 

2.2 Infatti, la distorsione puó essere scritta come D = L−1 

k=0 

θk+1 θ (x−qk) 

k 

2px(x) . Derivando tale espressione rispetto a θk e qk e uguagliando 

a zero tali derivate, i.e. ∂D/∂θk =0,∂D/∂qk =0,k =0, ···L − 1, si ricavano le espressioni sopra riportate. 

2.3 La diminuzione di distorsione di circa 6 dB per bit si osserva anche nella R(D) di una v.a. Gaussiana, in cui D = σ 2 /2 2R . A titolo 

indicativo, la formula “6 dB per bit” puó essere applicata nella grande generalitá dei casi.


Figura 2.3: Azione del compandor: quantizzazione uniforme di η(x) e risultante quantizzazione non uniforme di x. 

La codifica Pulse Code Modulation del segnale vocale, adottata nella Raccomandazione ITU-T G.711, si basa 

sul filtraggio del segnale nella banda [−4KHz,4KHz], sul suo campionamento alla frequenza di 8KHz, e sulla 

quantizzazione a 8 bit di ciascun campione. La quantizzazione é operata a valle della espansione non lineare del 

segnale (legge A) 

⎧ 

⎪⎨ 

Ax 

0 ≤ x ≤ 1/A 

1+lnA 

ηA(x) = 

(2.2.2) 

⎪⎩ 

1+lnAx 

1/A ≤ x ≤ 1 

1+lnA 

con valore tipico A =87.6. 

Analogamente, lo standard PCM americano2.4 adotta l’espansione non lineare (legge µ) 

ηµ(x) = 

ln(1 + µx) 

ln(1 + µ) 

0 ≤ x ≤ 1 (2.2.3) 

In tal modo, una rappresentazione a livelli uniformi sull’asse ηA(x) (ηµ(x)) equivale a una rappresentazione a 

livelli non uniformi sull’asse x. Tali rappresentazioni richiedono 64Kb/s e presentano rapporto segnale rumore di 

quantizzazione comparabile a quello ottenibile con una quantizzazione uniforme a 13 bit per campione. 

2.4 Laddove necessario, il transcoding fra A-law e µ-law é a carico della rete µ.


Figura 2.4: Legge A: ηA(x) vs x. 

I campioni adiacenti estratti dal segnale vocale a 8KHz presentano un certo livello di correlazione, ovvero una 

predicibilitá. Supponendo che al decodificatore siano presenti, all’istante n, un certo numero di campioni quantizzati 

˜xn−1, ˜xn−2, ···, é possibile 

• effettuare una predizione φ(xn) del campione attuale xn a partire dai campioni giá noti al decodificatore 

ˆxn = φ(˜xn−1, ˜xn−2, ···) 

mediante regole note tanto al lato del codificatore che al lato del decodificatore, 

• valutare l’errore di predizione residuo en 

• trasmetterne una versione quantizzata ˜en. 

• calcolare il campione quantizzato ˜xn 

en = xn − ˆxn 

˜xn =ˆxn +˜en 

Laddove il predittore φ sia in grado di spiegare la correlazione residua fra i campioni, in modo che l’errore di 

predizione residuo en presenti una varianza σ 2 e inferiore alla varianza σ 2 x dei campioni del segnale di ingresso, esso 

può essere rappresentato con un numero inferiore di bit, a paritá di distorsione introdotta sul segnale ricostruito. Tale 

codifica, di tipo differenziale, puó essere ulteriormente raffinata rendendo i parametri del filtro e/o del quantizzatore 

adattativi alle caratteristiche della sequenza di ingresso.


Figura 2.5: Schema di principio del DPCM. 

Un caso di rilevante interesse teorico ed applicativo é quello in cui la predizione φ é lineare ed effettuata su un 

numero finito di campioni 

P 

ˆxn = − 

i=1 

secondo il criterio del minimo errore quadratico medio, ovvero 

aixn−i 

min 

ai,i=1,···P E (xn − ˆxn) 2 

Per il principio di ortogonalitá la precedente equazione si traduce nella condizione di ortogonalitá dell’errore allo 

spazio delle osservazioni E {(xn − ˆxn)xn−i} =0,i=1, ···P , ovvero (vedi Fig. 2.6) 

Rx[i] =− 

P 

akRx[i − k], i=1, ···P 

k=1 

dove si é posto Rx[i] def 

= E{xnxn−i}. La potenza dell’errore di predizione PE =E{(xn − ˆxn)xn} puó essere 

espressa come 

P 

PE = Rx[0] + aiRx[−i] 

Pertanto i coefficienti dello stimatore lineare ottimo e la potenza del residuo di predizione possono essere congiunta- 

i=1


Figura 2.6: Principio di ortogonalitá. 

mente calcolati risolvendo il sistema 

⎡ 

⎤ ⎡ ⎤ ⎡ ⎤ 

Rx[0] 

⎢ Rx[1] 

⎢ 

⎣ 

Rx[−1] 

Rx[0] 

. .. 

··· 

··· 

. .. 

Rx[−P ] 1 PE 

⎥ ⎢ ⎥ ⎢ ⎥ 

Rx[1 − P ] ⎥ ⎢a1 

⎥ ⎢ 

⎥ ⎢ ⎥ ⎢ 0 ⎥ 

⎥ ⎢ ⎥ = ⎢ ⎥ 

⎥ ⎢ . 

⎦ ⎣ . 

⎥ ⎢ . 

⎦ ⎣ . 

⎥ 

⎦ 

Rx[P ] Rx[P − 1] ··· Rx[0] 

0 

aP 

(2.2.4) 

La soluzione delle equazioni (2.2.4), dette di Yule-Walker, conduce alla determinazione del predittore lineare ottimo 

nel senso dell’errore quadratico medio2.5 . Osserviamo che la particolare struttura della matrice di autocorrelazione, 

che risulta di Toeplitz ed Hermitiana, consente l’adozione di algoritmi veloci per la soluzione del sistema, e rende 

tale approccio utilizzabile anche in applicazioni in tempo reale. 

Nello schema DPCM, la potenza dell’errore risultante su ˜xn eguaglia la potenza dell’errore di quantizzazione 

osservato sulla variabile ˜en 2.6 . D’altro canto l’errore di predizione en, pur avendo dinamica nominalmente maggiore 

di quella di xn, ha tipicamente potenza minore di quella di xn, epuóessere quantizzato con tecnica PCM utilizzando, 

a paritá di distorsione, un minor numero di bit. 

Tale approccio é seguito nella codifica Adaptive Differential PCM descritta nella Raccomandazione ITU-T G.726. 

In tale Raccomandazione, i coefficienti del predittore sono ricavati in modo adattativo a partire dalla sequenza dei 

valori ricostruiti ˜xn. Il quantizzatore utilizza una rappresentazione a 4 bit. Inoltre esso presenta livelli di quantizzazione 

distribuiti in modo non uniforme; gli intervalli di quantizzazione sono variabili in funzione della velocitá 

2.5 A titolo di esempio si osservi che per il predittore ottimo di ordine 1 risulta a1 = −Rx[1]/Rx[0], ovvero ˆxn = Rx[1]/Rx[0] ∗ xn. 

2.6 Infatti, en − ˜en = xn − ˆxn − ˜en = xn − (ˆxn +˜en) =xn − ˜xn

2.3. CODIFICA BASATA SU MODELLI 11 

di variazione del segnale di errore ˜en. Si osservi che le regole per l’adattamento del predittore e del quantizzatore 

dipendono da quantitá note al decodificatore e non necessitano della trasmissione di ulteriore informazione. Il bit-rate 

risultante per questo tipo di codifica édi32Kb/s. 

Predizione e Stima Ottima 

Il problema della predizione lineare si inquadra nel problema piú generale della stima lineare di un segnale yn a 

partire da un insieme di osservazioni xn secondo il criterio del minimo errore quadratico medio. In tale scenario, la 

stima lineare é realizzata mediante filtraggio ottimo, nel senso che i coefficienti fn del filtro che realizza la stima 

sono ricavati in modo che la distanza quadratica media fra la stima ˆyn = 

i fixn−i disponibile all’uscita del filtro 

e il segnale yn che si vuole ricostruire sia minima. Sia S il supporto (finito o infinito numerabile) su cui é diverso 

da zero il filtro che realizza la stima. I coefficienti del filtro ottimo sono quelli che minimizzano 

C def 

=E (yn − ˆyn) 2 

=E (yn − 

fixn−i) 2 

 

=E y 2 n + 

fifkxn−ixn−k − 2 

 

i∈S 

ovvero quelli che annullano 

⎧ 

∂C 

⎨ 

=0=E 2 

∂fm ⎩ 

k∈S,k=m 

i∈S k∈S 

fkxn−mxn−k +2fmxn−mxn−m − 2ynxn−m 

In altre parole il filtro ottimo verifica la relazione 

 

fkRx[m − k] =Ryx[m] 

k∈S 

⎫ 

⎬ 

⎭ 

i∈S 

fiynxn−i 

Per questa scelta del filtro, l’errore (yn − ˆyn) é ortogonale in senso statistico, ovvero incorrelato, alle osservazioni: 

 

E {(yn − ˆyn)xn−m} =E ynxn−m − 

 

= Ryx[m] − 

fkRx[m − k] =0 

k∈S 

fkxn−kxn−m 

Ció sipuóinterpretare geometricamente osservando che la stima lineare (appartenente, cioé, al sottospazio delle 

osservazioni) ottima nel senso dell’errore quadratico medio, é quella per cui l’errore é ortogonale al sottospazio 

delle osservazioni (Principio di Ortogonalitá). 

Tale criterio di stima ottima é di rilevante interesse in diverse applicazioni, quali l’equalizzazione di segnale, il 

restauro di immagini sfocate, l’interpolazione o estrapolazione di serie aleatorie. Un caso particolare di stima ottima 

lineare é quello in cui lo spazio delle osservazioni é costituito da P campioni di una serie aleatoria xn−1, ···,xn−P 

ed il segnale che si desidera stimare é il campione attuale della serie, xn. In tal caso, il problema di stima prende il 

nome di predizione lineare; infatti, ponendo S = {1, 2 ...P}, Ryx[m] =Rxx[m] e aggiungendo l’equazione per 

il calcolo della potenza dell’errore di predizione, le equazioni normali coincidono con le sopra esposte equazioni di 

Yule Walker. 

2.3 Codifica basata su modelli 

La codifica basata su modelli scaturisce da due ordini di considerazioni. 

k∈S


In primo luogo il segnale vocale presenta, su intervalli temporali del’ordine di 10, 20, 30 ms, caratteristiche 

spettrali quasi stazionarie e prevalente concentrazione dell’energia intorno ad un numero limitato di frequenze. Infatti, 

il segnale é formato nelle cavitá risonanti del cavo orale e nasale a partire dal flusso d’aria proveniente dai polmoni 

attraverso le corde vocali. Nell’osservazione di una finestra temporale di segnale di circa 20 ms, l’andamento spettrale 

osservato presenta un insieme di picchi, modellabili come l’uscita di un filtro, opportunamente eccitato da un segnale 

di ingresso. Per questioni di natura computazionale, il filtro é di solito descritto come un filtro a soli poli. 

In secondo luogo, l’orecchio umano puó percepire come intellegibile, accettabile o anche soddisfacente una 

rappresentazione del segnale vocale che, mimando il modello di formazione del segnale stesso, ne riproduca le 

caratteristiche spettrali a breve termine. Pertanto, nella rappresentazione del segnale come uscita di un filtro, il 

segnale di ingresso attuale puó essere rappresentato in forma variamente approssimata, dando luogo a diversi livelli di 

qualitá. Adottando tali principi per la codifica del segnale, i parametri codificati saranno costituiti dalla descrizione 

dei parametri del filtro e della versione approssimata del segnale di ingresso. In linea di principio, l’informazione 

piú sensibile é costituita dai parametri che descrivono il filtro, che influiscono maggiormente sulla resa del segnale 

ricostruito. 

Dati i campioni xn del segnale da codificare, essi sono rappresentati tramite il seguente modello di generazione 

xn = − 

P 

i=1 

aixn−i + vn 

(2.3.5) 

dove i coefficienti ai sono scelti in modo da riprodurre i picchi spettrali del segnale xn, e si calcolano in funzione 

dei valori dell’autocorrelazione della sequenza xn Rx[i] =E{xnxn−i}. Il termine vn rappresenta il segnale di 

eccitazione del filtro che genera xn. 

Ai fini del calcolo dei coefficienti ai, si ipotizza in primo luogo che il segnale di generazione vn sia costituito da 

una serie bianca, ovvero E {vnvn−k} = σ2 vδk; il modello in (2.3.6) prende il nome di modello Autoregressivo, e la 

sequenza di campioni xn é detta serie aleatoria autoregressiva (AR) 

Serie aleatoria autoregressiva 

Si dice serie aleatoria autoregressiva (AR) una serie aleatoria osservata all’uscita di un filtro a soli poli quaando 

all’ingresso é applicato un rumore bianco. Una serie aleatoria AR xn é pertanto descritta da una equazione alle 

differenze finite 

P 

xn = − 

(2.3.6) 

i=1 

aixn−i + vn 

con E {vnvn−k} = σ2 vδk. La autocorrelazione di una serie AR soddisfa un’equazione analoga a quella di generazione 

della serie AR. Lo spettro di densitá di potenza di una serie AR é esprimibile come 

Px(e jω )= 

σ 2 v 

|1+ P 

k=1 ake jωk | 2 

I parametri ak,k =1, ···P governano la posizione dei P picchi di Px(ejω ) in [−π, π)]. In definitiva, la serie 

aleatoria AR costituisce un modello matematico potente e compatto, governato cioé da un numero di parametri 

limitato, ovvero i coefficienti ai, i=1, ···P e la varianza σ2 v. 

Tale modello consente di valutare analiticamente i coefficienti ai, che influenzano direttamente i picchi spettrali 

del filtro, in funzione della autocorrelazione della sequenza xn. Una volta ricavati i valori ai, sotto questa ipotesi


semplificativa, la codifica basata su modelli opera una rappresentazione piú appropriata del segnale vn. I diversi 

algoritmi di codifica basata su modelli adottano rappresentazioni differenti di tale segnale. 

L’equazione di generazione del modello AR consente di esprimere i coefficienti di autocorrelazione della sequenza 

xn in funzione dei coefficienti ai, i=1, ···P 

ovvero 

E {xnxn−k} = − 

Rx[k] =− 

P 

aiE {xn−ixn−k} +E{vnxn−k} 

i=1 

P 

i=1 

Rx[k] =Rx[−k],k


Algoritmo di Levinson-Durbin 

Un efficiente algoritmo ricorsivo per il calcolo dei coefficienti ap e della varianza σ2 v é l’algoritmo di Levinson- 

Durbin, qui di seguito schematicamente riportato. L’algoritmo si basa sul calcolo dei coefficienti di modelli di 

ordine crescente 

• Inizializzazione 

• Modello di ordine i 

aii = − 

σ 2 v0 = ˆRx(0) 

a11 = − ˆ Rx(1)/ ˆ Rx(0) 

σ 2 v1 = σ 2 v0(1 − a 2 11) 

ˆRx(i)+ 

k=1,i−1 ai−1 k ˆ Rx(i − k) 

σ 2 vi−1 

aik = ai−1 k − aii ai−1 i−k, k=1, ···i − 1 

σ 2 vi = σ 2 vi−1(1 − a 2 ii) 

(2.3.9) 

(2.3.10) 

dove con ˆ Rx(n) si sono indicati i valori stimati dell’autocorrelazione del segnale a partire dai campioni disponibili. 

I coefficienti aii sono anche detti coefficienti di riflessione. Un algoritmo alternativo é rappresentato dall’algoritmo 

di Schur, che valuta direttamente i coefficienti di riflessione aii e si presta alla realizzazione in parallelo. 

2.3.1 Regular Pulse Excitation- Long Term Prediction - Linear Prediction Coding 

La codifica RPE-LTP-LPC é adottata nel GSM e conduce ad un bit-rate di sorgente di 13Kb/s. La codifica é 

applicata su trame di 20 ms, corripondenti a 160 campioni estratti a 8KHz. Il filtro LPC é un filtro a soli poli 

dell’ottavo ordine, ed é determinato in modo da minimizzare l’energia del segnale di eccitazione mediante l’algoritmo 

di calcolo detto di Shur. Il segnale di eccitazione é calcolato mediante filtraggio (Short Term Filtering). Il segnale 

cos´ ottenuto presenta una ridondanza dovuta ad una pseudoperiodicitá. Tale ridondanza é rimossa suddividendo la 

trama di 160 campioni in quattro blocchi (ciascuno di 40 campioni). Per ogni blocco, si individua una predizione, 

identificata in termini di ritardo e fattore di scala, a partire dai blocchi precedenti. Il residuo di predizione é quindi 

filtrato passabasso e sottocampionato di un fattore 1/3. Si sceglie una delle tre sequenze sottocampionate; poiché la 

fase scelta puó variare da blocco a blocco, essa é trasmessa insieme al valore di picco del residuo. Infine, le ampiezze 

degli impulsi residui sono codificate con tecnica ADPCM. L’allocazione dei bit fra le diversi componenti codificate 

é sintetizzata in Tabella 2.1. É interessante osservare che i parametri aii che descrivono il filtro LPC sono trasmessi 

1+aii 

. 

codificando i relativi Log Area Ratio definiti come LARii def 

=log 10 

2.3.2 Adaptive Multirate Narrowband Codec 

1 − aii 

Il codec AMR é adottato nel sistema UMTS2.8 e possiede la proprietá di consentire l’adattamento del bit-rate alla 

disponibilitá delle risorse di rete con un intervallo temporale di 20 ms. Il bit-rate puó variare da un massimo di 

2.8Al codec AMR Narrowband si affianca il codec AMR wideband, adottato per servizi di streaming e di messaggistica multimediale, che 

estende la banda a 507000Hz, ed opera a 9 differenti bit-rate fra i 6.6 e i 23.85 kbit/s, su campioni estratti a 16 KHz in un intervallo di 20ms.


Informazione 

Parametri LPC (8) 36 

Ritardo LTP 28 

Guadagno LTP 8 

Fase di sottocampionamento 8 

Ampiezza massima 24 

Ampiezze campioni (13) 156 

Totale 260 

Tabella 2.1: Bit codificati per ogni trama di 20 ms nel GSM RPE-LTP-LPC. 

Figura 2.7: Schema del vocoder LPC-LTP-RPE adottato nel GSM. 

12.2Kb/s fino ad un minimo di 4.75Kb/s. La codifica si basa su un modello LPC descritto da un filtro a soli poli 

di ordine 10. Nella modalitá a12.2Kb/s il filtro é calcolato su un intervallo di 10 ms 2.9 . I parametri dei filtri sono 

codificati quantizzando e trasmettendo delle funzioni ad esse correlate, dette Linear Spectral Pairs, che presentano 

caratteristiche piú favorevoli rispeto alla quantizzazione. 2.10 Il segnale di eccitazione del filtro LPC è suddiviso in 

Esso si basa sui principi di Linear Prediction Coding, e per motivi di complessitá computazionale codifica separatamente i contenuti al di sotto e 

al di sopra di 6400 Hz. 

2.9Ogni 120 ms, sono calcolati due filtri, a partire da due stime della funzione di autocorrelazione ottenute estraendo i campioni mediante due 

distinte finestre, relative principalmente al secondo e al quarto sottoblocco dei 160 campioni. I parametri dei due filtri cos´ ottenuti sono utilizzati 

per generare, mediante interpolazione temporale, i parametri relativi al primo e al terzo sottoblocco. 

2.10 Le Linear Spectral Pairs sono definite come LSPi =cosωi, dove ωi sono le radici dei polinomi P (z) =A(z)+z −(P +1) A(z −1 ),Q(z) = 

A(z) − z −(P +1) A(z −1 ), con A(z) =1− 

i=1,P −1 aiz −i .


quattro blocchi e rappresentato come la somma di due sequenze estratte rispettivamente da un codebook adattativo ed 

uno di innovazione. Il codebook adattativo é costituito dai precedenti campioni del segnale di ingresso stesso; nella 

ricerca della parola di codice adattativo si utilizzano anche ritardi non interi, corrispondenti a sequenze interpolate, e 

si privilegiano le sequenze di campioni piú prossime. Il codebook fisso é costituito da sequenze di impulsi sparsi di 

valore ±1, diversamente allocati. I campioni relativi al sottoblocco attuale sono descritti come una somma pesata di 

una versione interpolata temporalmente dei campioni al sottoblocco precedente e di un segnale di eccitazione estratto 

dal codebook fisso. In dipendenza del rate, cambia la rappresentazione dei pesi utilizzati nella somma, che possono 

essere ulteriormente predetti temporalmente e compressi. In decodifica sono inoltre esplicitamente previste alcune 

operazioni di post-processing finalizzate a ridurre gli artefatti introdotti dalla codifica. 

Il codec AMR presenta ulteriori caratteristiche di flessibilitá, consentendo di codificare trame che non contengano 

voce ad un bit-rate inferiore rispetto alle trame che contengono segnale vocale. Questa funzionalitá é realizzata 

ricorrendo ad un modulo di rivelazione di attivitá vocale (Voice Activity Detector, VAD) al trasmettitore, che decide 

per ogni trama di 20 ms se il segnale é presente o no. Inoltre, vengono stimati, codificati e trasmessi alcuni parametri 

(Silence Descriptor, SID) che descrivano le caratteristiche del rumore di fondo. Al decodificatore tali parametri 

sono utilizzati per generare un rumore sintetico (confort noise) che dia la percezione di comunicazione attiva. La 

flessibilitá del codec puó essere sfruttata al livello radio per ridurre le risorse trasmissive impiegate, riducendo il 

consumo di potenza del terminale e di conseguenza aumentando la durata della batteria e diminuendo il livello di 

interferenza sugli altri utenti. 

Figura 2.8: Schema del vocoder AMR adottato nell’UMTS.

2.4. TRASMISSIONE DEL SEGNALE VOCALE SU CANALI AFFETTI DA ERRORI 17 

2.4 Trasmissione del segnale vocale su canali affetti da errori 

Nelle precedenti sezioni sono state esaminati i principi di codifica del segnale vocale e i principali standard2.11 ad essi 

relativi. Su canali di comunicazione affetti da errori, l’informazione trasmessa deve essere opportunamente protetta. 

Da un punto di vista teorico, la codifica di sorgente e di canale ottima potrebbero essere derivate separatamente. 

Tuttavia le tecnica di codifica di sorgente e di canale in uso sono ben lungi dal massimo teorico e traggono beneficio 

dall’essere progettate congiuntamente. 

Per ció che riguarda le codifiche come la PCM e la ADPCM, che mirano a riprodurre la forma d’onda del segnale 

nel tempo, l’informazione compressa da trasmettere non é a priori differenziabile in termini di una maggiore o minore 

importanza ai fini della qualitá percettiva del segnale ricostruito. Pertanto la codifica di canale é operata in modo 

indifferenziato sui dati di sorgente, secondo modalitá che dipendono dal mezzo trasmissivo. 

Per ció che riguarda invece la codifica dei dati compressi mediante codifica basata su modelli, i parametri codificati 

rivestono importanza differente ai fini della riproduzione del segnale. I parametri piú sensibili sono quelli relativi ai 

coefficienti del filtro LPC, che determinano la posizione dei picchi in frequenza del segnale ricostruito. 

Il sistema GSM distingue, nell’ambito dei 260 bit relativi ad una trama, fra 182 bit che necessitano di protezione 

e 78 bit che non necessitano di protezione. Inoltre, nel sottoinsieme dei bit da proteggere sono individuati i 50 

bit piú importanti. Pertanto, a questi ultimi é preliminarmente applicata una codifica a blocco mediante l’aggiunta 

di 3 bit di paritá 2.12 . Tutti i bit della prima classe vengono poi codificati mediante un codice convoluzionale di 

rapporto di codice Rc =1/2. Essi vengono poi trasmessi insieme ai bit della seconda classe, per un totale di 

(50+3+132+4)× 2 + 78 = 456 bit, corrispondenti ad un bit-rate dopo codifica di canale pari a 456/20ms = 

22.8Kb/s. In trasmissione é effettuato un interleaving su 8 Normal Burst GSM, a loro volta inseriti in 8 trame, in 

un assegnato time slot; nei primi quattro Time Slot, i dati sono multiplati insieme ai dati della trama precedente; 

nei rimanenti quattro Time Slot, i dati sono multiplati insieme ai dati della trama successiva2.13 . Complessivamente, 

l’interleaving si estende su un intervallo temporale di 4ms × 8 = 32ms. Osserviamo l’effetto di un errore di 

trasmissione. Esso é con elevata probabilitá rivelato se compare fra i bit piú significativi; puó o meno essere rivelato 

se compare fra i bit meno significativi. In presenza di errori rivelati sui 50 bit piú importanti, la trama ricevuta 

é scartata, e possono essere messe in atto strategie di mascheramento basate su tecniche predittive. In ogni caso, 

essendo noto e prefissato il numero di bit della trama vocale, la decodifica puó riprendere dalla trama immediatamente 

successiva a quella errata. 

Nella trasmissione sul sistema UMTS, si osserva la differenza sostanziale che lo strato di Radio Resource Management 

puó pienamente fruire della flessibilitá di adattamento del bit-rate trasmissivo della sorgente, grazie alla 

possibilitá di allocare codici CDMA di differente Spreading Factor. Per altro, questo consente di sfruttare tecniche 

di Voice Activity Detection e di codifica di parametri di Confort Noise in modo piú sistematico ed efficiente di 

quanto possibile nel caso GSM. Tutti i bit della trama vocale sono trasmessi utilizzando un codice convoluzionale 

con rapporto di codice variabile fra 1/2 e 1/5, come rappresentato in Tab.2.2; un certo numero di bit, variabile in 

2.11I sistemi GSM e UMTS colloquiano fra di loro e con la rete GSTN mediante opportune operazioni di Transcoding, realizzate rispettivamente 

dalla TRAnscoding Unit nella GERAN e dal Media Gateway nella UMTS Core Network. La TRAU supporta la transcodifica fra il Full Rate a 

13 Kb/s e Half Rate a 5.6 Kb/s, basato su tecnica CELP, Enhanced Full Rate a 12.2 Kb/s, AMR NB e PCM. Il Media Gateway supporta tutte le 

modalitá di transcoding del TRAU piú quelle fra IP, ATM, PCM. 

2.12Ai rimanenti 132 bit della prima classe sono applicati 4 tail bit al fine di chiudere il successivo codificatore convoluzionale su uno stato noto. 

2.13Ciascun Normal Burst convoglia 456/8=57 bit codificati relativi alla trama attuale, che occupano alternativamente i bit pari e i bit dispari dei 

Normal Burst appartenenti a TS successivi; i rimanenti 57 bit, costituiti rispettivamente dai bit dispari e dai bit pari, sono occupati dai bit delle 

trame temporalmente adiacenti.


Figura 2.9: Normal Burst del GSM. 

funzione del bit-rate selezionato, é codificato preliminarmente con dei bit di paritá. I parametri di Confort Noise 

sono trasmessi utilizzando un codice convoluzionale di Rc =1/4. Alternativamente, puó essere utilizzata la modalitá 

cosiddetta half rate, in cui i rapporti di codice variano fra 1/2 e 1/3. 

Bit Rate Code Rate 

12.2 1/2 

10.2 1/3 

7.95 1/3 

7.4 1/3 

6.7 1/4 

5.9 1/4 

5.15 1/5 

4.75 1/5 

Tabella 2.2: Esempi di rapporti di codice per codifica di segnale vocale nel sistema UMTS.

Bibliografia 

[1] M.G. Di Benedetto, P. Mandarini, “Comunicazioni Elettriche”, Edizioni Ingegneria 2000. 

[2] G. Scarano, “Dispense di elaborazione delle immagini”, infocom.uniroma1.it/˜gaetano. 

[3] 3GPP Technical Specification TS 06.10, “Full rate speech; Transcoding”, www.3gpp.org. 

[4] 3GPP Technical Specification TS 05.03, “Channel coding”, www.3gpp.org. 

[5] 3GPP Technical Specification TS 26.090, “Adaptive Multi-Rate speech codec: Transcoding functions”, www.3gpp.org. 

[6] 3GPP Technical Specification TS 25.212, “Multiplexing and Channel Coding (FDD)”, www.3gpp.org. 

[7] 3GPP Technical Specification TS 25.222, “Multiplexing and Channel Coding (TDD)”, www.3gpp.org. 

[8] 3GPP Technical Specification TS 25.944, “ Channel Coding and Multiplexing Examples”, www.3gpp.org. 

19

Capitolo 2 Codifica del segnale vocale - InfoCom

Create successful ePaper yourself

Delete template?

Save as template?