motocompensazione - InfoCom

Capitolo 5 

La compensazione di moto 

Contenuto 

5.1 Principi di motocompensazione per la codifica di sequenze video 

I quadri che compongono una sequenza video naturale rappresentano la proiezione sul piano dell’immagine di oggetti 

reali in moto, immersi in sfondi di varia natura (interni, esterni, fissi o in movimento). Essi presentano una forte 

correlazione, nel senso che l’informazione apportata da ciascun quadro é largamente predicibile a partire dal quadro 

precedente. In un contesto di codifica di sorgente, é pertanto opportuno rappresentare ciascun quadro in termini di una 

versione predetta a partire dal quadro precedente, piú un’immagine residua, che rappresenta l’innovazione apportata 

dal quadro attuale. Il codificatore dovrá quindi trasmettere unicamente le informazioni necessarie a costruire la 

versione predetta, e l’innovazione stessa. 

Nella versione piú semplice e largamente piú adottata il quadro che deve essere codificato é scomposto in blocchi di 

8x8 pixel o di 16x16 pixel (macroblocchi). Per ciascun blocco si cerca il blocco piú simile nell’immagine precedente. 

Per questioni di complessitá computazionale, la ricerca é limitata in un intorno della posizione corrispondente a quella 

occupata nel quadro attuale. Una volta individuato il blocco piú simile, si codifica la posizione di tale macroblocco; le 

coordinate sono codificate in modo relativo, ovvero rappresentano lo spostamento rispetto alla posizione attuale. Note 

le coordinate relative di ciascun blocco, il decodificatore é in grado di ricostruire una versione predetta del quadro 

attuale, mediante la giustapposizione di opportuni tasselli del quadro precedente. Questo meccanismo di predizione 

mediante la definizione di una corrispondenza fra informazioni del quadro attuale e informazioni del quadro precedente 

prende il nome di motocompensazione. Il codificatore deve quindi codificare unicamente la differenza tra l’immagine 

predetta mediante motocompensazione ed il quadro attuale. Questo meccanismo di principio estremamente semplice 

ammette numerose varianti, sulla base della forma del blocco considerato, della funzione di misura della somiglianza 

fra blocchi, della modalitá di ricerca del blocco piú simile (esaustiva o meno), del numero di quadri, detti di 

riferimento, a partire dai quali tentare la predizione del blocco attuale, e cosi’ via. Dal punto di vista concettuale, 

tuttavia, la motocompensazione si basa su un’ipotesi implicita, e cioé che l’immagine rappresentata nel quadro attuale 

sia costituita da una versione spazialmente trasformata dell’immagine precedente. Questo tipo di corrispondenza puó 

essere modellata matematicamente come una trasformazione geometrica del piano dell’immagine. 

47

48 CAPITOLO 5. LA COMPENSAZIONE DI MOTO 

Il presente capitolo é dedicato alla sintetica descrizione dei principali modelli di trasformazioni geometriche 

utilizzate nell’ambito della codifica di immagini. I modelli che qui descriviamo con riferimento all’ambito applicativo 

della codifica video sono utilizzati anche in ambiti differenti, quali la calibrazione di immagini nel telerilevamento 

e in alcune applicazioni medicali, l’elaborazione degli effetti di morphing nella produzione video, la generazione di 

tessiture sintetiche per applicazioni di realtá virtuale. 

5.2 Trasformazioni geometriche per motocompensazione di sequenze video 

Consideriamo due quadri temporalmente adiacenti estratti da una sequenza video. La trasformazione da un quadro al 

successivo é descritta come una trasformazione geometrica del piano dell’immagine. I punti (u, v) del primo quadro 

sono mappati in punti (x, y) =(X(u, v),Y(u, v)) del secondo quadro. In altre parole, la luminanza del punto (x, y) 

del secondo quadro é la stessa del punto (u, v) del primo quadro: 

I (k) (x, y) =I (k−1) (u, v) 

La trasformazione geometrica di un quadro nell’altro é descritta dalla coppia di funzioni (x, y) =(X(u, v),Y(u, v)). 

Discutiamo qui alcune possibili forme, via via piú sofisticate, di tale trasformazione. 

Il modello di moto traslatorio 

Un moto traslatorio é definito dalla coppia di funzioni 

x = u +∆x 

y = v +∆y 

(5.2.1) 

Questo é il modello sopra citato come il piú diffuso nella motocompensazione per codifica video. La coppia (∆x, ∆y) 

é detta vettore di moto (motion vector) o di spostamento. Nelle applicazioni, il vettore spostamento puó essere 

assegnato ad aree di dimensione variabile, dal 16x16 al 8x8 al 4x4; per applicazioni particolari (visione artificiale, 

analisi automatica dell’immagine), é assegnato un vettore di moto ad ogni pixel dell’immagine, e l’insieme dei vettori 

di moto relativi ad una coppia di immagini é detta motion vector field. 

Osserviamo sin d’ora che, ai fini della ricostruzione del video decodificato, l’informazione rappresentata dai 

vettori di moto é critica, perché un errore di trasmissione che alteri i vettori spostamento tipicamente genera artefatti 

rilevanti nell’immagine ricostruita. 

Modello di moto affine 

Una trasformazione affine é definita dalla coppia di funzioni 

x = Au + Bv + C 

y = Du + Ev + F 

Il moto affine ammette come casi particolari il moto traslatorio, la rotazione 

x = cosθ u + sinθ v 

y = −sinθ u + cosθv 

(5.2.2)

5.2. TRASFORMAZIONI GEOMETRICHE PER MOTOCOMPENSAZIONE DI SEQUENZE VIDEO 49 

il cambiamento di scala 

l’inclinazione (shear) 

x = u + Huv 

y = v 

x = Suu 

y = Svv 

x = u 

y = Hvu + v 

Il modello di moto affine é largamente generale e flessibile. Osserviamo che la trasformazione affine, essendo 

descritta da sei parametri, é completamente individuata quando sia nota la trasformazione di tre punti (non allineati) 

del piano. 

Una possibile applicazione del modello affine in fase di codifica consiste nel suddividere il quadro da predire 

in un reticolato (mesh) a maglia triangolare, e nel modellare l’evoluzione di ciascuno dei triangoli del reticolato 

mediante una trasformazione affine. Ai fini della codifica, la trasformazione di ciascun triangolo é identificata dala 

trasformazione dei suoi tre vertici (sei coordinate). 

Modello di moto prospettico 

Una trasformazione prospettica (perspective ) é definita dalla coppia di funzioni 

Au + Bv + C 

x = 

Gu + Hv +1 

Du + Ev + F 

y = 

Gu + Hv +1 

(5.2.3) 

Esso modella la duplice proiezione di un quadrilatero planare del piano dell’immagine (u, v) in un quadrilatero ancora 

planare ma in generale inclinato rispetto al piano dell’immagine, e la successiva proiezione prospettica di questo sul 

piano (x, y). La trasformazione prospettica é descritta da otto parametri, ed é completamente individuata quando sia 

nota la trasformazione di quattro punti del piano. 

Una possibile applicazione del modello prospettico in fase di codifica consiste nella suddivisione del quadro da 

predire in un reticolato (mesh) a maglia quadrangolare, e nel modellare l’evoluzione di ciascuno dei quadrilateri del 

reticolato mediante una trasformazione prospettica. La trasformazione prospettica é descritta da otto parametri, ed é 

completamente individuata quando sia nota la trasformazione dei quattro vertici (otto coordinate) del quadrilatero in 

questione. 

A titolo di completezza, citiamo al termine di questo excursus anche la trasformazione bilineare, definita dalla 

coppia di funzioni 

x = Au + Bv + Cuv + G 

(5.2.4) 

y = Du + Ev + Fuv+ H 

Esso modella la duplice proiezione di un quadrilatero planare del piano dell’immagine (u, v) in un quadrilatero non 

planare e la successiva proiezione di questo sul piano (x, y). La trasformazione bilineare é applicabile per riprodurre 

in piano dati registrati da sensori non coplanari in applicazioni di telerilevamento e biomedicali, nonché a scopi 

di texture mapping, ovvero per generare sinteticamente la proiezione sul piano dell’immagine di tessiture disposte 

su oggetti virtuali tridimensionali, a partire da tasselli planari delle tessiture stesse. La trasformazione bilineare, al 

pari della prospettica, é descritta da otto parametri, ed é individuata dalla trasformazione dei quattro vertici (otto 

coordinate) di un quadrilatero.


Figura 5.1: Esempi di trasformazioni descritte da un modello affine.

5.3. ALGORITMI DI MOTOCOMPENSAZIONE PER LA CODIFICA DI SEQUENZE VIDEO 51 

5.3 Algoritmi di motocompensazione per la codifica di sequenze video 

Come discusso nei paragrafi precedenti, la motocompensazione si basa sul principio che quadri successivi della 

sequenza video siano legati da trasformazioni geometriche. Nelle applicazioni di motocompensazione il quadro 

attuale é suddiviso in regioni non sovrapposte5.1 , e per ciascuna regione é individuata l’area di provenienza nel 

quadro precedente, come illustrato in Fig. 5.2. 

Consideriamo qui il caso di gran lunga piú comune: il modello traslatorio. 

Il quadro attuale I (k) [m, n] sia partizionato in blocchi non sovrapposti, tali da ricoprire l’intero quadro. Indichiamo 

con B il generico blocco del quadro attuale. Per il blocco B, si cerca nel quadro precedente il blocco 

piú simile massimizzando un assegnato funzionale di somiglianza, ovvero minimizzando un assegnato funzionale di 

distorsione. Adottando il criterio dell’errore quadratico medio, il blocco piú simile é individuato dalla coordinate 

relative ∆mmin, ∆nmin che minimizzano la seguente funzione 

DMSE(∆m, ∆n) = 

(m,n)∈B 

 

I (k) [m, n] − I (k−1) 2 [m +∆m, n +∆n] 

al variare di (∆m, ∆n) in un intervallo preassegnato. 

Per questioni computazionali, la distorsione puó essere computata adottando il criterio della somma delle differenze 

assolute ( Sum of Absolute Differences, SAD). In tal caso il blocco piú simile é individuato dalla coordinate relative 

∆mmin, ∆nmin che minimizzano la seguente funzione 

DSAD(∆m, ∆n) = 

(m,n)∈B 

 

 

I (k) [m, n] − I (k−1) 

 

[m +∆m, n +∆n] 

per (∆m, ∆n) variabili in un intervallo preassegnato. 

Un esempio di un’immagine I (k) [m, n] estratta dalla sequenza video Suzie e della sua versione predettaÎ(k) [m, n] 

mediante motocompensazione traslatoria é riportata in Fig.7.1. La motocompensazione in questo esempio é operata 

su blocchi di dimensioni 8x8. 

Quando la motocompensazione é operata partizionando l’immagine in una griglia e individuando lo spostamento 

ottimo di ciascun vertice della griglia, l’ottimizzazione diviene piú complessa. Infatti, l’ottimizzazione deve essere 

operata congiuntamente su tutte le maglie della griglia, applicando la trasformazione ipotizzata a ciascuna maglia 

e valutando la potenza dell’errore complessivo. Per ció che concerne la scelta dei vertici della griglia, é frequente 

l’adozione di criteri euristici, finalizzati ad individuare tasselli non troppo picoli per controllare il costo di trasmissione 

dei vettori spostamento e non troppo grandi in modo da non includere discontinuitá. Una strategia frequentemente 

utilizzata consiste nella scelta dei vertici della griglia in corrispondenza di punti significativi5.2 dell’immagine stessa. 

5.1Tipicamente, nelle applicazioni di morphing e di elaborazione delle immagini la trasformazioneé applicata in avanti, scandendo il quadro 

precedente per generare i punti corrispondenti del quadro attuale. Le aree del quadro attuale non assegnate nella fase di mappatura sono 

successivamente ricostruite con sofisticate tecniche di interpolazione. Nelle applicazioni di codifica,é scandito il quadro attuale al fine di associare 

ad ogni punto un punto del quadro precedente. Tale modalitá di applicazione della trasformazione geometrica, detta all’indietro, evita che risultino 

non assegnate aree del quadro attuale. 

5.2La scelta di posizionare i vertici della griglia in corrispondenza di punti significativi -vertici, incroci- migliora le prestazioni della stima di 

spostamento, che in zone uniformi tende ad essere guidata da rumore di acquisizione o di illuminazione eventualmente presente.


Sistemi di coordinate omogenee 

Nell’ambito della Computer Graphics, é usuale rappresentare un punto dell’immagine, individuato nel piano da 

n = 2 coordinate (x, y), mediante un vettore a n +1 = 3 componenti: (x, y) ⇒ (x, y, 1). L’adozione di 

tali coordinate, dette omogenee, consente ad esempio di rappresentare la trasformazione affine definita in (5.2.2) 

mediante un operatore matriciale 3 × 3: (x, y, 1) = (u, v, 1) ·T 

⎛ 

⎞ 

A 

⎜ 

T = ⎜ 

⎝ B 

D 

E 

0 

0 

⎟ 

⎠ 

C F 1 

Si supponga poi di voler estendere la trasformazione T considerando la forma 3 × 3 piú generale: 

⎛ 

⎞ 

⎜ 

T = ⎜ 

⎝ 

A 

B 

D 

E 

g 

⎟ 

h ⎟ 

⎠ 

C F k 

Essa consente di associare ad un punto di coordinate (u, v), ovvero di coordinate omogenee (u, v, 1), un nuovo 

punto (x, y, w). A partire da tali coordinate, é possibile ottenere ancora un punto di coordinate omogenee dividendo 

tutte le componenti per w: (x/w, y/w, 1). Tale operazione ammette un’interpretazione geometrica: il punto (u, v, 1) 

puó essere interpretato come un punto dello spazio tri-dimensionale, appartenente al piano a profonditá 1. Il punto 

trasformato (x, y, w) rappresenta un punto dello spazio tri-dimensionale, appartenente al piano a profonditá w. La 

divisione per w associa a (x, y, w) il punto (x/w, y/w, 1): esso é il punto in cui il piano a profonditá 1 interseca 

la retta passante per l’origine degli assi e per (x, y, w); in altri termini, (x/w, y/w, 1) é la proiezione di (x, y, w) 

sul piano a profonditá 1. 

Con queste posizioni, la trasformazione prospettica (5.2.3) é descritta dalla seguente trasformazione lineare a 

⎛ 

⎞ 

⎜ 

T = ⎜ 

⎝ 

A 

B 

D 

E 

G 

H 

⎟ 

⎠ 

C F 1 

aSi osservi che nella modalitá di rappresentazione che impiega le coordinate omogenee, i punti che differiscono per un fattore di scala comune 

alle tre coordinate definiscono una classe di equivalenza, ed identificano lo stesso punto del piano a profonditá 1.

5.3. ALGORITMI DI MOTOCOMPENSAZIONE PER LA CODIFICA DI SEQUENZE VIDEO 53 

Figura 5.2: Uso di modelli del campo di moto a fini di motocompensazione. 

Figura 5.3: Esempio di motocompensazione su blocchi 8x8.


Modello e/o Tecnica Contesto applicativo 

traslatorio, macroblocchi 16 × 16 MPEG-2 

avanzato, Advanced Prediction su blocchi 8 × 8 H.263 

affine, image resizing H.263++ 

affine, su griglia triangolare MPEG-4 (Facial Animation) 

perspective, motocompensazione globale MPEG-4 (Sprite Coding) 

traslatorio, su oggetti di forma arbitraria MPEG-4 (Profilo Core) 

traslatorio, su blocchi quadrati e rettangolari dal 4 × 4 al 16 × 16 H.264 

Tabella 5.1: Sinossi delle tecniche di motompensazione pi ú frequentemente utilizzate.

Bibliografia 

[1] G. Scarano, “Dispense di elaborazione delle immagini”, infocom.uniroma1.it/gscarano. 

[2] B. G. Haskell, P. G. Howard, Y. A. LeCun, A. Puri, J. Ostermann, M.R. Civanlar, L. R. Rabiner, L. Bottou, and P. Haffner, “Image 

and Video Coding-Emerging Standards and Beyond”, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 8, No. 7, pp. 

814-837, November 1998 

[3] G. Wolberg, “Image Morphing: A Survey ’, Visual Computer, vol. 14, pp. 360-372, 1998 

55

motocompensazione - InfoCom

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?