Progetto e Realizzazione di un Sensore Ibrido Omnidirezionale/pin ...

Università degli Studi di Parma 

Facoltà di Ingegneria 

Corso di Laurea in Ingegneria Elettronica 

______ 

Progetto e realizzazione di un sensore 

ibrido omnidirezionale/pin-hole e suo 

impiego per compiti di navigazione di robot 

autonomi 

Relatore: Chiar.mo Prof. Ing. Giovanni Adorni 

Correlatori: Dott. Ing. Stefano Cagnoni 

Dott. Ing. Monica Mordonini 

Tesi di Laurea di: Luca Bolognini 

Anno Accademico 1999-2000

Indice 

Prefazione 4 

Ringraziamenti 6 

1. La visione artificiale 7 

1.1. Introduzione 7 

1.2. Fasi di elaborazione delle immagini 9 

1.3. La visione artificiale e la robotica 11 

1.4. Obiettivi generali e introduzione al progetto 15 

2. Calibrazione prospettica di un sensore visivo 17 


2.1.1. Il processo di formazione dell’immagine e l’effetto prospettico 18 

2.1.2. La calibrazione dei sensori visivi e la prospettiva inversa 22 

2.2. Sistema catadiottrico per la visione a 360 gradi 25 

2.2.1. I catadiottri 25 

2.2.2. Realizzazione del prototipo 29 

2.2.3. Tecniche di calibrazione prospettica sperimentate 32 

2.2.3.1. Tecnica di calibrazione geometrica o esplicita 33 

2.2.3.2. Tecnica di calibrazione empirica o implicita 38 

2.2.3.3. Tecnica combinata analitico-empirica 44 

2.3. Sensore visivo frontale 50 

2.3.1. Variante della tecnica di calibrazione analitico-empirica 51 

2.4. Progetto del software per la calibrazione 56 

2.4.1. Analisi dei requisiti 57 

2.4.2. Progetto del sistema 60 

2.4.3. La misura del coefficiente di distorsione radiale 66 

3. Calibrazione di un sistema binoculare 68 

3.1. La visione stereoscopica 68 

2

3.2. Soluzione roto-traslazionale 71 

4. L’elaborazione delle immagini e l’obstacle detection 74 

4.1. Utilizzazione di HOPS per problemi di visione artificiale 74 

4.2. Algoritmi utilizzati e risultati conseguiti 75 

4.2.1. Fase di pre-processing 76 

4.2.2. Fase di segmentazione e di interpretazione 86 

4.2.3. Risultati 98 

4.3. Sviluppi futuri 105 

5. La gestione del sistema visivo 106 


5.2. Definizione dei requisiti 107 

5.3. Analisi dei requisiti e modello concettuale del dominio 111 

5.4. Progetto del modulo visivo 117 

5.5. Sviluppi futuri 125 

Conclusioni 126 

Bibliografia 128 

3

Prefazione 

Questa tesi ha affrontato differenti aspetti di un progetto di visione artificiale applicata 

alla robotica, centrato sull’impiego di un sensore visivo denominato HOPS (Hybrid 

Omnidirectional/Pin-hole Sensor). L’idea di questo sensore si fonda sull’utilizzo di un 

catadiottro per la visione omnidirezionale combinato ad una tradizionale telecamera 

CCD. L’impiego di sensori omnidirezionali è attualmente diffuso in molti ambiti 

applicativi della visione artificiale: sia per facilitare l’auto-localizzazione e la 

navigazione di robot mobili in ambienti semi-strutturati e non strutturati sia, ad 

esempio, in applicazioni di sorveglianza. Questi e altri ambiti traggono vantaggio 

dall’ampiezza dei campi visivi generabili tramite catadiottro e dalla compatta 

organizzazione delle informazioni (seppur caratterizzata da una risoluzione limitata). 

Nel caso specifico di HOPS, si è deciso di associare al catadiottro un secondo più 

tradizionale sensore visivo allo scopo di rafforzare le potenzialità del sistema sensoriale 

con informazioni più dettagliate riguardanti una specifica regione spaziale, rendendo 

quindi più affidabile la ricostruzione dell’ambiente circostante. 

Il progetto ha come obiettivo finale la creazione di un sistema di gestione di robot 

mobili che si avvalga, nel campo sensoriale, di un modulo di visione capace di sfruttare 

tutte le potenzialità del sensore HOPS. Il lavoro descritto in questa tesi riguarda 

l’impostazione generale del progetto, la calibrazione del sensore e la costruzione di un 

modulo di gestione della visione secondo i principi di generalità, flessibilità e 

modularità. Come primo elemento di un sistema di visione completo, sono state 

realizzate delle routines per l’obstacle detection, utilizzando HOPS come sensore 

binoculare per la realizzazione di algoritmi di inversione prospettica. 

In particolare, dopo aver introdotto, nel primo capitolo, le tematiche della visione 

artificiale applicata alla robotica, nel secondo capitolo la tesi descrive la calibrazione del 

4

sensore HOPS, nel terzo (brevemente) la calibrazione stereo, nel quarto le tecniche di 

analisi delle immagini realizzate per l’obstacle detection. Infine, nel quinto capitolo, il 

progetto del sistema di gestione sensoriale per robot mobili. 

5

Ringraziamenti 

Desidero ringraziare il Prof. Giovanni Adorni per avermi dato la possibilità di svolgere 

questo lavoro, che mi ha consentito di affrontare molti problemi della visione artificiale 

attraverso un progetto articolato, comprendente aspetti teorici e applicativi diversi. 

Ringrazio inoltre il Dott. Stefano Cagnoni e la Dott.ssa Monica Mordonini per la loro 

presenza costante e i loro preziosi consigli. 

Vorrei anche ringraziare gli studenti del Laboratorio di Visione e del Laboratorio di 

Robotica per aver contribuito a creare un ambiente di lavoro collaborativo e 

amichevole. 

6

Capitolo 1. 

La visione artificiale 

1.1. Introduzione 

L’apparato visivo è senza dubbio il più potente tra gli apparati sensoriali di cui 

l’evoluzione ha dotato la specie umana: fornisce una vasta quantità di informazioni 

sull’ambiente circostante e ci permette di interagire con esso in maniera intelligente, 

senza bisogno di un contatto fisico. Allo stesso tempo però la visione è un processo 

complicato e le nostre conoscenze sulla biologia di questo processo sono ancora 

limitate. Da una parte quindi non dobbiamo stupirci dell’estrema attenzione e degli 

sforzi che si sono fatti per dare alle macchine la capacità di vedere, ma d’altra parte, 

dobbiamo prendere atto anche delle grandi difficoltà incontrate. La visione artificiale è 

un settore di ricerca ormai particolarmente attivo da oltre trent’anni. Un periodo, questo, 

nel quale si sono avvicendate molte teorie, si sono confrontati paradigmi alternativi e 

sono state sviluppate tecniche diverse. In alcuni settori di ricerca, come ad esempio 

l’image processing e la pattern recognition, questo ha portato a un rapido sviluppo e 

alla creazione di molteplici sistemi utilizzabili nella pratica. Ma in altri settori, in 

particolare quelli che comportano operazioni di più alto livello, i progressi sono stati più 

limitati. 

Possiamo dire che “la visione artificiale si pone l’obiettivo di automatizzare ed integrare 

una vasta gamma di processi e rappresentazioni tipiche della percezione visiva” [Ballard 

e Brown, 1982]. La percezione visiva è un processo che mette in relazione l’input 

visuale con modelli del mondo preesistenti. Data l’estrema diversità tra le immagini 

percepite e i modelli che ne descrivono ed astraggono le informazioni, i sistemi di 

visione artificiale normalmente sono costituiti da una gerarchia di livelli rappresentativi 

7

intermedi che richiedono altrettanti processi per la loro interconnessione. Quindi la 

visione artificiale è strettamente legata sia a problematiche di analisi di basso livello, 

dette anche di early-processing, sia a problematiche di più alto livello, che si possono 

definire cognitive. 

I processi che costituiscono le fondamenta della percezione visiva, quelli di basso 

livello, forniscono la sensibilità a caratteristiche quali la luminosità, il colore, la 

distanza, o la stessa percezione di oggetti e la distinzione tra terreno e ostacoli. Tutte 

capacità che i sistemi visivi biologici hanno sviluppato nel corso di milioni di anni di 

evoluzione e i cui meccanismi, come abbiamo già osservato, risultano essere ancora 

parzialmente inaccessibili. La necessità da parte dei sistemi di visione artificiale di 

emulare queste capacità, richiede di inventare tecniche e strumenti per l’estrazione di 

queste informazioni elementari. I processi di estrazione di queste informazioni 

rappresentano le basi per elaborazioni di più alto livello, come la modellizzazione 

geometrica dell’ambiente circostante e la pianificazione, che hanno invece come 

obiettivo quello di interpretare la scena circostante sulla base di un modello del mondo 

più o meno strutturato. 

8

1.2. Le fasi di elaborazione delle immagini 

I processi che portano alla percezione visiva si collocano a livelli di astrazione diversi, 

sia in natura e che nel campo della visione artificiale. A questi diversi livelli di 

astrazione corrispondono settori di ricerca distinti: l’image processing, che a partire da 

certe immagini ne genera di nuove, cercando di isolare le informazioni utili dal rumore; 

la pattern classification, che invece classifica i frammenti di informazione ottenuti; ed 

infine la scene analysis, che a partire da una descrizione simbolica elementare di una 

scena, cerca di produrne un’altra più complessa, in un tentativo d’interpretazione basato 

sulla conoscenza del mondo esterno immagazzinata in precedenza. 

In letteratura (si vedano ad esempio [Ballard e Brown, 1982] e [Gonzales e Woods, 

1992]) le tecniche di analisi delle immagini vengono analogamente suddivise in tre 

categorie: tecniche di basso livello (dal processo di acquisizione delle immagini al preprocessing), 

di medio livello (dalla segmentazione delle immagini alla loro 

rappresentazione e descrizione) e di alto livello (in cui si ricerca una interpretazione 

della scena osservata). Innanzitutto notiamo che le tre categorie non presentano una 

separazione netta, una precisa linea di confine. Tuttavia possiamo legare alle 

elaborazioni di basso livello l’obiettivo di ridurre il rumore ed esaltare quegli aspetti 

delle immagini che più ci interessano per le elaborazioni seguenti. Alle elaborazioni di 

medio livello possiamo ricondurre l’obiettivo di suddividere l’immagine in regioni, 

individuare precisi elementi di interesse (regioni, confini, ecc.), per giungere ad una 

caratterizzazione e a una descrizione delle componenti dell’immagine di maggiore 

interesse. Infine le elaborazioni di alto livello sono finalizzate all’interpretazione della 

scena osservata e vogliono ricondurre gli elementi estratti nei processi di livello più 

basso ad un modello del mondo esterno, ad esempio per riconoscere oggetti specifici, 

pianificare traiettorie ed obiettivi, eccetera. E’ quindi chiaro che, salendo di gradino in 

gradino i tre livelli di tecniche, si richiede via via un grado più elevato di intelligenza e 

conoscenza a priori del mondo esterno per il raggiungimento degli scopi: il preprocessing 

non ha nulla di “intelligente”, ma si limita a ripetere meccanicamente certe 

operazioni, l’interpretazione della scena richiede invece un alto grado di elasticità e di 

9

conoscenza del mondo esterno. Per questo motivo le tecniche relative a quest’ultima 

categoria risultano essere più legate al loro specifico contesto applicativo. 

10

1.3. La visione artificiale e la robotica 

La visione artificiale trova nella robotica una delle sue più importanti fonti di 

applicazione al mondo reale. Se, come definita da Brady [Brady, 1985], “la robotica è la 

connessione intelligente tra percezione e azione”, o come dice Arkin [Arkin, 1998], “un 

robot intelligente è una macchina capace di estrarre informazioni dal suo ambiente e 

usare la conoscenza sul suo mondo per muoversi in maniera sicura ed al fine di 

perseguire uno scopo”, indubbiamente una delle principali sorgenti di informazione sul 

mondo esterno, ossia uno degli strumenti di percezione migliori, non può che essere la 

visione. 

L’applicazione delle tecniche di visione artificiale ad un ambito così fortemente a 

contatto con la complessità del mondo reale, qual è la robotica, implica tutta una serie di 

problematiche aggiuntive, legate all’integrazione del sistema visivo e delle informazioni 

da esso prodotte con le restanti componenti del sistema robotico (un modulo di 

ragionamento e presa delle decisioni, un modulo di implementazione delle decisioni 

tramite operazioni sul mondo esterno o sullo stato interno del sistema, eccetera), nonché 

alla necessità di interagire con l’ambiente in tempo reale. Nel corso degli ultimi due 

decenni si sono sperimentati innumerevoli approcci a queste problematiche. In generale 

potremmo dire che tutti questi approcci possono essere ricondotti a tre diverse famiglie 

di soluzioni (e quindi anche a tre tipologie architetturali): l’approccio gerarchico 

(introdotto da Marr [Marr, 1982]), che può essere fatto risalire al paradigma della 

percezione generalizzata, le visual routines (introdotte da Ullman [Ullman, 1985]), e la 

visione attiva (introdotta da Bajcsy [Bajcsy, 1988]), più legate invece al paradigma della 

percezione modulare. In realtà difficilmente si può ricondurre un sistema di visione 

artificiale reale ad uno solo di questi modelli, che rappresentano comunque importanti 

punti di riferimento teorici e metodologici per inquadrare il problema. Analizziamo 

brevemente le caratteristiche di questi tre approcci. 

L’approccio gerarchico ha gettato le fondamenta di gran parte del lavoro svolto nel 

settore e ha influenzato anche gli altri due approcci che analizzeremo. Esso è un 

11

approccio computazionale alla visione, in cui la percezione visiva è fondamentalmente 

un problema di elaborazione di informazione su più livelli gerarchici: 

− L’input del sistema è l’immagine (o più immagini) intesa come matrice di valori di 

intensità luminosa (o insieme di matrici per le immagini a colori) e assunta come 

dato di partenza la cui formazione è un processo indipendente dalle fasi successive. 

− Un primo stadio elaborativo, che produce il cosiddetto raw primal sketch, è quello 

di estrazione di informazioni elementari dall’immagine: i contorni, le discontinuità 

di intensità. 

− Il raw primal sketch contiene un’informazione ancora parziale, frammentaria, 

dipendente dal punto di vista della telecamera. Ecco che con varie tecniche legate al 

gradiente di luminosità (shape from shading, shape from texture, shape from 

contour, il metodo delle immagini intrinseche, che cerca di combinare le precedenti, 

eccetera) si cerca di completare questa informazione e tramite la visione stereo 

ottenerne di aggiuntiva sulla profondità spaziale. 

− Si giunge quindi alla cosiddetta rappresentazione 2½D, in cui il tipo di 

rappresentazione è sempre l’immagine ma tramite la componente di profondità si 

aggiunge informazione tridimensionale. Questa informazione è comunque sempre 

legata al punto di vista della telecamera: su essa non si è ancora giunti a introdurre 

concetti di regione, oggetto, parte. 

− L’ultima fase di elaborazione, che porta alla rappresentazione 3D, cerca infine di 

astrarsi dal punto di vista della telecamera e di interpretare la scena individuando 

oggetti, caratterizzandone la forma in termini di orientazione delle superfici 

elementari che li compongono e spostando il sistema di riferimento negli oggetti 

individuati stessi, al preciso scopo di renderne la rappresentazione indipendente dal 

punto di vista. 

Quasi tutti i primi studi ed esperimenti riguardanti la percezione robotica si sono rifatti 

al paradigma della percezione generalizzata: il sistema visivo veniva considerato come 

un modulo a sé stante, indipendente dal resto, anche a causa delle difficoltà tecniche 

inizialmente incontrate ed il notevole peso elaborativo richiesto. Inoltre, per assicurare 

in ogni situazione l’acquisizione di sufficiente informazione, ci si poneva l’obiettivo di 

12

una ricostruzione tridimensionale completa della scena osservata. Questi due aspetti 

finivano per diventare limiti del sistema stesso: si determinava uno spreco di risorse 

elaborative e il sistema era troppo rigido per operare efficientemente in tempo reale. 

Dalla rilevazione di questi limiti ebbe origine il secondo paradigma: quello di 

percezione modulare. In questo caso il sistema sensoriale non è più una componente 

indipendente, ma interagisce e si mette al servizio degli altri moduli del robot. In 

pratica, di volta in volta, ricerca e rileva solamente le informazioni necessarie, senza 

andare oltre il bisogno di informazioni del robot. 

Innumerevoli sono gli approcci nati a partire da questo paradigma di interazione 

sistema-percezione. Essi presentano diversi gradi di influenza dello stato interno e della 

conoscenza pregressa del robot sul processo visivo in quasi tutte le sue fasi. Tra gli 

esempi più importanti dobbiamo ricordare la percezione attiva (con controllo interattivo 

del robot sul processo percettivo), la percezione action-oriented (dove le ipotesi di 

azione e di goal influenzano il tipo di analisi e di elaborazione da eseguire), la 

percezione basata sulle aspettative e metodi focus-of-attention (dove le conoscenze 

immagazzinate sull’ambiente influenzano rispettivamente l’interpretazione e l’area di 

interesse delle immagini). Tutti questi approcci fanno comunque riferimento alle due 

famiglie di cui abbiamo detto sopra: la visione attiva e le visual routines. 

La visione attiva introduce, rispetto al modello dell’approccio gerarchico, un importante 

grado di libertà: ogni livello elaborativo può influenzare i precedenti in una sorta di 

retroazione controllata dagli effettivi bisogni del sistema, ed in particolare inserisce in 

questo loop anche la fase di acquisizione delle immagini, fase quindi non più passiva 

ma di ricerca attiva. 

Infine le visual routines costituiscono un approccio un po’ più flessibile dei precedenti 

che si fonda sulla realizzazione e l’impiego di un insieme di routines elementari che 

operano elaborazioni finalizzate ad un preciso obiettivo. Vi sono routines più generiche 

(dette routines universali) finalizzate ad una prima elaborazione delle immagini (cioè a 

far emergere le informazioni elementari) e quindi applicabili in molte situazioni, ed un 

13

insieme di routines più specifiche della singola applicazione finalizzate a elaborazioni 

generalmente di alto livello. Secondo quest’ultimo paradigma, quindi, ogni sistema 

visivo non può che essere dedicato a specifici compiti e all’estrazione di informazioni 

legate alle applicazioni specifiche. 

Oggi, la visione artificiale ha due principali aree di applicazione nella robotica: il 

riconoscimento e l’interpretazione degli oggetti presenti nella scena (al servizio quindi 

di manipolatori e robot mobili) e la navigazione in ambienti indoor o outdoor (al 

servizio di veicoli, trasportatori, robot mobili). In molte di queste applicazioni, da un 

utilizzo combinato di sensori ottici e di range-sensors, sempre più ricercatori stanno 

attualmente spostando la propria attenzione verso sistemi basati esclusivamente sulla 

visione. Oltre alla semplicità, flessibilità e relativa economicità di questi, l’abbandono 

di altri tipi di sensori quali laser e ultrasuoni, consente di superare le non trascurabili 

problematiche di confronto e fusione tra dati provenienti da sistemi sensoriali 

disomogenei. 

14

1.4. Obiettivi generali e introduzione al progetto 

Il primo obiettivo di questa tesi riguarda il progetto e la realizzazione di un modulo 

software di gestione di un sistema di visione binoculare per robot mobili in tutti i suoi 

principali aspetti: a partire dalla calibrazione dei singoli sensori ottici, passando per la 

calibrazione stereo del sistema, per giungere a strumenti di analisi e interpretazione 

delle immagini e ad un sottomodulo di comunicazione dei risultati ottenuti. Il modulo di 

visione può essere infatti visto come uno dei componenti del robot stesso in grado di 

comunicare (ad esempio ad un modulo di pianificazione ed azione) i propri risultati. 

Durante la fase di progetto si è seguito come principio fondamentale quello della 

generalità, ossia si è voluto creare un modulo in grado di adattarsi facilmente a diverse 

applicazioni e a diversi sensori visivi, dunque non solo a uno specifico sistema 

binoculare e ad una specifica applicazione. Allo stesso tempo però, buona parte del 

lavoro svolto ha riguardato il progetto e la realizzazione fisica di uno specifico sistema 

binoculare (denominato HOPS, Hybrid Omnidirectional/Pin-hole Sensor, si veda il 

paragrafo 2.2.2) nel cui utilizzo il modulo software sviluppato ha trovato la sua 

principale applicazione. Per il sensore HOPS è centrale l’idea dell’impiego combinato 

di un sensore catadiottrico per la visione omnidirezionale, ed un sensore più tradizionale 

(una telecamera CCD che inquadra la regione frontale) con il quale condivide parte del 

campo visivo fornendo quindi informazioni stereoscopiche. 

Il lavoro svolto può essere ricondotto a due diversi obiettivi di ricerca: una prima parte 

ha riguardato la messa a punto di tecniche per la calibrazione di sensori ottici, con 

particolare riferimento al sistema catadiottrico impiegato (capitolo 2); una seconda parte 

ha riguardato l’analisi delle immagini, ponendosi l’obiettivo generale di analizzare le 

informazioni stereoscopiche per rilevare la presenza di eventuali ostacoli al movimento 

del robot in ambienti semi-strutturati e non strutturati (capitolo 3 per la calibrazione 

stereo, capitolo 4 per l’analisi delle immagini). Questa seconda parte ha utilizzato il 

modello dell’inversione prospettica (paragrafo 2.1.2), ricavando informazione sulla 

presenza di ostacoli dall’analisi delle differenze tra le immagini generate per inversione 

15

prospettica a partire da quelle acquisite dalle due telecamere. 

In relazione a queste diverse parti della ricerca sono stati progettati e realizzati due 

differenti moduli software: 

− il modulo per la calibrazione (paragrafo 2.4), che raccoglie l’insieme degli algoritmi 

sperimentati, ne permettere l’applicazione a diversi tipi di sensori e situazioni 

(principio di generalità), ed è stato strutturato per permettere una facile integrazione 

di nuovi algoritmi; 

− il software per il controllo della visione binoculare (capitolo 5), che risulta 

indipendente dalla calibrazione e dal tipo di sensori, e che fornisce delle routines 

generiche per l’identificazione e l’analisi di ostacoli e per l’estrazione di 

informazioni di basso livello, permettendo una facile integrazione di routines più 

specifiche per singole applicazioni (come potrebbe essere la ricerca del pallone nel 

caso di applicazione in campo Robocup). Infine il software gestisce tutti gli aspetti 

del controllo hardware dei framegrabber e gli strumenti di inversione prospettica. 

L’architettura realizzata propone quindi alcuni aspetti computazionali tipici 

dell’approccio gerarchico e altri aspetti operativi più legati invece al paradigma delle 

visual routines. 

Allo scopo di facilitare l’integrazione di nuovi algoritmi nell’architettura dei moduli 

sopra descritti, si è deciso di progettare e realizzare il software con tecniche e strumenti 

orientati agli oggetti. 

16

Capitolo 2. 

Calibrazione di un sensore visivo 


Obiettivo della prima parte del progetto è generare una rimappatura, secondo la tecnica 

della prospettiva inversa, delle immagini acquisite dalle due telecamere sulla superficie 

di riferimento del pavimento. 

Questo capitolo descrive le fasi del progetto finalizzate alla calibrazione dei due sensori 

ottici utilizzati: la realizzazione fisica dell’apparato sperimentale, le tecniche di 

calibrazione utilizzate, le problematiche emerse e infine il progetto del software di 

calibrazione realizzato. Vengono quindi introdotte le tematiche riguardanti il processo di 

formazione dell’immagine, le principali tecniche di calibrazione esistenti, la tecnica 

della prospettiva inversa e le sue applicazioni. 

17

2.1.1. Il processo di formazione dell’immagine e l’effetto 

prospettico 

Questo paragrafo inquadra le principali fasi e le problematiche del processo di 

formazione delle immagini digitali. 

Il processo di formazione dell’immagine di una scena su una superficie implica che, tra 

tutti i raggi luminosi riflessi o emessi dagli oggetti presenti nella scena, sia possibile 

eseguire una selezione, in maniera che, idealmente, la luce proiettata su diversi punti 

della superficie di formazione dell’immagine provenga da diversi punti dello spazio 

della scena e, viceversa, diversi punti dello spazio proiettino luce su diversi punti della 

superficie. Lo scopo del processo è quindi produrre sulla superficie una immagine che 

sia una rappresentazione sufficientemente buona della scena. I fenomeni e le 

problematiche che intervengono in questo processo sono molteplici e hanno portato, nel 

corso della storia, a molteplici studi sia scientifici che tecnologici. 

Per ottenere questo risultato di selezione il sistema di filtraggio ideale dal punto di vista 

della risoluzione è lo stenoscopio, ossia una camera oscura dotata di un piccolo foro su 

un lato che determina la formazione dell’immagine sul lato opposto. Questo foro lascia 

entrare nella scatola, tra tutti i raggi luminosi propagati da ogni singolo punto dello 

spazio oggetto (ossia lo spazio tra il dispositivo di filtraggio e la scena stessa), solo 

quelli che sono direzionati attraverso il foro. Quindi ad ogni punto dello spazio oggetto 

corrisponderà nello spazio immagine (ossia lo spazio tra il filtro e la superficie di 

formazione dell’immagine) un cono di luce, e quindi una piccola ellisse luminosa (detta 

“disco di Airy”) sulla superficie come contributo all’immagine. In altre parole, il disco 

di Airy è la proiezione del foro sulla superficie nella direzione della retta congiungente 

il centro del foro ad un punto dello spazio. La somma di tutte le ellissi prodotte da tutti i 

punti dello spazio genera l’immagine. Tanto più piccolo è il foro, tanto più alta sarà la 

risoluzione dell’immagine: infatti, dati due punti dello spazio molto vicini, i due dischi 

di Airy da essi prodotti avranno una percentuale di sovrapposizione delle aree tanto 

minore quanto minore sarà il diametro del foro. E’ proprio in questi termini che si può 

18

misurare la risoluzione dell’immagine prodotta. Il principale limite alla risoluzione 

dell’immagine è dovuto al fenomeno della diffrazione che ci impedisce di ridurre oltre 

un certo limite ben preciso (pari a un diametro di 0,38 mm) le dimensioni del foro. Oltre 

questo limite infatti la diffrazione determina un deterioramento dell’immagine, 

sfocandola. 

Il principale problema pratico dello stenoscopio, che lo rende non utilizzabile in casi 

pratici, è il fatto che tanto minore è la dimensione del foro, tanto minore è la quantità di 

luce che lo può attraversare per unità di tempo: per operare l’acquisizione di 

un’immagine in tempi brevi risulta necessario avere fori di dimensione elevata, a 

scapito quindi della risoluzione. Da qui nasce l’esigenza, per recuperare la risoluzione 

persa, di sostituire il foro con un altro tipo di filtro, una lente, in grado di concentrare 

tutta la luce proveniente da un’area più ampia, focalizzandola sulla superficie di 

formazione dell’immagine. Questo vantaggio viene però pagato nei termini di una 

proiezione non più ideale sulla superficie. L’ottica di tutte le telecamere, infatti, produce 

una distorsione delle immagini (si veda figura 2.33), generalmente distinta in una 

componente radiale e una tangenziale, di solito trascurabile. In quasi tutte le telecamere 

con angoli di apertura non superiori agli 80 gradi questo effetto di distorsione è 

comunque molto limitato e un primo modello grossolano dell’ottica può anche 

trascurarlo. 

Analizziamo ora il fenomeno che va sotto il nome di effetto prospettico. Trascurando la 

distorsione delle lenti (adottando quindi il cosiddetto modello pin-hole per l’ottica della 

telecamera), l’effetto prospettico è il processo di proiezione degli oggetti 

tridimensionale della scena reale nelle corrispondenti forme sulla superficie di 

formazione dell’immagine. In particolare questa proiezione si chiama proiezione 

geometrica planare, ed è caratterizzata dal fatto che la proiezione avviene su un piano e 

che le linee di proiezione sono delle rette. La retta di proiezione di ogni punto della 

scena dello spazio oggetto o passa per uno specifico punto detto centro di proiezione e 

da qui interseca il piano di proiezione, se si tratta di una proiezione prospettica, o è 

parallela ad un asse di proiezione unico per tutti i punti, se si tratta di una proiezione 

ortografica. 

19

La proiezione prospettica è un processo che determina la perdita di molte informazioni: 

da un mondo tridimensionale si passa a una descrizione bidimensionale, quindi le 

informazioni su dimensione, profondità e posizione relativa degli oggetti si perdono. Si 

tratta di un processo non lineare e non reversibile. Inoltre questo fenomeno va a 

sommarsi a quello delle distorsioni introdotte dall’ottica. 

Sempre considerando un sistema ottico non distorcente e una superficie di formazione 

dell’immagine planare, la relazione matematica tra le coordinate di un punto nello 

spazio osservato e quelle del suo corrispondente nell’immagine generata (ossia le 

equazioni della proiezione prospettica) è piuttosto elementare: 

x = ( X f ) / Z 

y = ( Y f ) / Z 

Laddove X, Y, Z sono le coordinate nello spazio oggetto riferite ad un sistema di 

coordinate centrato nel centro ottico O (come si vede in figura 2.1), x, y le coordinate 

sul piano dell’immagine F, f la distanza focale del sensore, cioè la distanza tra il centro 

ottico del sistema di lenti e il piano di formazione dell’immagine (oO). Questa relazione 

permette, conoscendo la distanza focale, di determinare come ogni punto dello spazio 

vada a generare un punto dell’immagine ma, come abbiamo osservato precedentemente, 

questa relazione non è invertibile. 

20

Figura 2.1 

Nel processo descritto l’immagine generata sulla superficie è un’immagine continua. 

Quindi, per ottenere un’immagine digitale, è necessario effettuarne un campionamento. 

Questo generalmente avviene tramite una struttura a matrice di elementi sensibili alla 

luminosità detta CCD (Charge Coupled Device). Questo campionamento determina un 

ulteriore deterioramento della qualità dell’immagine, sia in termini di risoluzione, che in 

termini di quantizzazione dei livelli di intensità luminosa. 

21

2.1.2. La calibrazione dei sensori visivi e la prospettiva 

inversa 

Un passo fondamentale verso il recupero di almeno una parte delle informazioni perse 

durante il processo di formazione dell’immagine è la cosiddetta calibrazione del sensore 

visivo. Nel caso più generale e classico questa consiste nel ricavare le caratteristiche 

ottico-geometriche interne della telecamera, inerenti al modello adottato della 

telecamera stessa (dette parametri intrinseci), e quelle esterne, cioè l’orientazione ed il 

posizionamento della telecamera nello spazio (dette parametri estrinseci). A partire da 

una precisa conoscenza di questi parametri e dall’utilizzo di informazioni sull’ambiente 

di lavoro, o derivanti da sistemi di visione stereoscopica, o derivanti ad esempio da 

sequenze di immagini, risulta possibile recuperare informazioni sulla profondità, la 

distanza relativa e la forma degli oggetti. Insomma si può cercare di aggiungere 

tridimensionalità alla conoscenza che si ha della scena osservata. Tra le innumerevoli 

tecniche proposte in letteratura per la calibrazione di telecamere, la principale è 

probabilmente quella di Tzai [Tzai, 1997]. Un’altra tecnica molto importante è stata 

proposta da Faugeras [Faugeras, 1993]. 

Un modo di impiegare le informazioni sul sistema ottico ricavate dalla sua calibrazione 

è quello che va sotto il nome di prospettiva inversa (IPM, Inverse Perspective 

Mapping). Come descritto nello studio del processo di formazione dell’immagine, le 

immagini fornite da una qualsiasi telecamera danno una rappresentazione molto distorta 

della realtà: si ha una componente di distorsione legata all’ottica della telecamera, ma 

soprattutto una distorsione geometrica legata al processo di proiezione prospettica. La 

prospettiva inversa è un tecnica che vuol rimappare le informazioni presenti 

nell’immagine I su una nuova immagine rettificata R che dia una rappresentazione non 

distorta di ciò che appare su un qualunque piano P preso come riferimento. Questa 

mappatura può essere così descritta: 

Dati (k,m) le coordinate del pixel dell’immagine I che rappresenta il 

punto (x,y) del piano P (ed è questa la relazione (k(x,y),m(x,y)) che la 

22

calibrazione deve individuare) e I(k,m) la sua intensità, (i,j) le 

coordinate del pixel dell’immagine rettificata R che rappresenta lo 

stesso punto (x,y) del piano P e R(i,j) la sua intensità, a parte traslazioni 

nei sistemi di riferimento, 

i = round(x / Sens), 

j = round(y / Sens), 

R(i(x) , j(y)) = I(k(x,y) , m(x,y)) 

Dove Sens è la lunghezza del lato del quadrato di superficie del piano 

P rappresentata da un pixel dell’immagine R. 

Nel caso della navigazione in cui questo piano di riferimento è tipicamente il piano del 

pavimento il risultato di questa operazione è la generazione di una mappa dell’ambiente 

a livello pavimento: questa immagine sembrerà una fotografia scattata dall’alto verso il 

basso ad una altezza considerevole. Tutti gli elementi della scena che non si trovano sul 

piano di riferimento risulteranno ulteriormente distorti. E’ chiaro però che riuscendo a 

distinguere (sia tramite conoscenza a priori sull’ambiente di lavoro sia tramite l’impiego 

di visione stereo) ciò che giace e ciò che non giace su questo piano, si ottiene 

informazione sulla profondità, posizione relativa e distanza fra gli oggetti nello spazio 

osservato. 

A seconda della specifica applicazione il piano di riferimento potrà essere diverso: oltre 

a quello del pavimento, si può ad esempio pensare di avere piani orizzontali a diverse 

altezze per studiare la posizione di oggetti specifici dalle dimensioni note, o piani 

verticali per l’analisi di pareti (si veda [Adorni et al., 2000a]), eccetera. Le applicazioni 

possono essere molteplici: dalla navigazione indoor e outdoor, alla ricostruzione e 

analisi di specifici piani di una scena (ad esempio pareti di palazzi), all’autolocalizzazione 

in ambienti strutturati. I vantaggi di ottenere una tale descrizione 

dell’ambiente sono ovvi e infatti negli ultimi dieci anni si sono sviluppate molte 

applicazioni sfruttando questo strumento. 

L’applicazione di questa tecnica a campi quali il riconoscimento di ostacoli e la 

determinazione dello spazio libero, trova le sue origini in un progetto sviluppato nel 

23

1991 da Mallot H.A. [Mallot et al., 1991a]. Da allora, questa tecnica è stata utilizzata in 

numerosi progetti di cui alcuni esempi possono essere trovati in bibliografia, sia nel 

campo di navigazione indoor ([Adorni et al., 2000a], [Adorni et al., 2000b], [Bohrer et 

al., 1991], [Christensen et al., 1994], [Cornell et al., 1992], [Drocourt et al., 1999], [Lee 

et al., 1994], [Mallot et al., 1991a], [Mallot et al., 1991b], [Morgenthaler et al., 1990], 

[Santos e Sandini, 1996]), sia per la navigazione di veicoli su strada, ([Bertozzi e 

Broggi, 1996], [Bohrer et al., 1991], [Gang e Tae, 2000], [Onoguchi et al., 1998], 

[Storjohann et al., 1993], [Zielke et al., 1990]). 

Dobbiamo però notare come non sia sempre possibile conoscere con precisione tutti i 

parametri intrinseci ed estrinseci del sensore. D’altro conto, per applicare l’IPM, la 

conoscenza di tutti questi non è strettamente necessaria. L’obiettivo da raggiungere è la 

determinazione di una relazione tra la posizione dei pixel nell’immagine originale e la 

relativa posizione nell’immagine rettificata (quindi sul piano preso come riferimento 

nello spazio oggetto). Conoscendo tutti i parametri intrinseci ed estrinseci del sensore 

ottico, questa relazione è una trasformazione geometrica relativamente semplice (si 

veda a riguardo il paragrafo 2.2.3.1). In caso contrario, è possibile cercare questa 

relazione attraverso tecniche di calibrazione più empiriche che, come descritto nei 

successivi paragrafi, presentano alcuni vantaggi operativi in sede di calibrazione, ma 

anche svantaggi dovuti alla necessità di operare una nuova calibrazione completa ad 

ogni modifica, strutturale o di componentistica, del sensore visivo. 

24

2.2. Sensore catadiottrico per la visione a 360 gradi 

2.2.1. I catadiottri 

Molte delle applicazioni nel campo della visione artificiale richiedono (o comunque 

possono trarre beneficio da) un ampio campo visivo. Esistono molteplici esempi a 

questo riguardo: la sorveglianza, la tele-conferenza, l’acquisizione di modelli per la 

realtà virtuale, l’operazione in spazi di grandi lavoro, e chiaramente il trasporto, l’autolocalizzazione, 

la stima del proprio movimento, la pianificazione. 

Purtroppo le telecamere convenzionali hanno, nella maggior parte dei casi, un campo 

visivo piuttosto limitato, e questo risulta essere spesso restrittivo per l’applicazione. Per 

cercare di ovviare a questa mancanza sono state introdotte numerose varianti ai sensori 

visivi classici. Fra le soluzioni proposte le più immediate riguardano l’utilizzo di più 

telecamere o di telecamere mobili (active vision). Un approccio alternativo molto 

efficace che permette di semplificare la gestione dell’input visivo è di accrescere il 

campo visivo utilizzando specchi in congiunzione alle tradizionali telecamere. Per 

sensore catadiottrico si intende appunto la combinazione di lenti e specchi posizionati 

in configurazioni appropriatamente studiate per ottenere un campo visivo molto 

superiore rispetto a quello del sensore effettivamente utilizzato. Il termine catadiottrico 

deriva da “diottrica”, la disciplina degli elementi rifrangenti (le lenti) e la “catottrica”, la 

disciplina delle superfici riflettenti (gli specchi). 

Se si vuole espandere il campo visivo in maniera isotropa, la migliore delle soluzioni è 

probabilmente quella di adottare specchi convessi con un asse di simmetria centrale 

(quindi a sezione tipicamente conica, sferica, ellittica, parabolica, eccetera) e in effetti 

quasi tutti i sistemi impiegati sono di questo tipo ([Svoboda e Pajdla, 2000], [Hicks e 

Bajcsy, 1999]). Posizionando l’asse ottico della telecamera in verticale e facendolo 

coincidere con l’asse di simmetria dello specchio si ottiene un ampio campo visivo in 

tutte le direzioni. 

25

Nel campo della robotica, in particolare, ci si sta movendo verso ambienti di lavoro 

sempre meno strutturati e sempre più dinamici che propongono numerosi problemi 

legati all’individuazione di caratteristiche generali dell’ambiente circostante, ad 

esempio, nell’auto-localizzazione (si veda [Zhang et al., 1999]), o nella ricerca di 

oggetti di interesse. Questo richiede l’utilizzo di sensori visivi che diano una 

informazione più “globale” (anche se meno precisa e particolareggiata) sulla scena in 

cui il robot è immerso, e permettano quindi di ottenere una veloce descrizione, magari 

sommaria ma più direttamente traducibile in azione. E’ per questo che i catadiottri 

vengono utilizzati in ambienti dinamici come ad esempio quello della competizione 

Robocup ([Asada et al., 1998], [Marquez e Lima, 2000], [Bonarini et al., 2000]). 

L’impiego di catadiottri quindi ha il vantaggio di raccogliere in una sola immagine 

informazione riguardante una vasta area, evitando i complessi meccanismi di controllo 

generalmente impiegati nella visione attiva; tuttavia vanno anche evidenziati due nuovi 

problemi connessi: 

− la riflessione della telecamera e del robot sullo specchio fa sì che la parte centrale 

dell’immagine, ossia quella caratterizzata da maggiore risoluzione e minori 

distorsioni, sia generalmente occupata dall’immagine riflessa del robot e non sia 

quindi utilizzabile per descrivere la scena circostante; 

− l’utilizzo congiunto di una telecamera e di uno specchio concavo determina il 

sommarsi di effetti distorcenti di cui risulta spesso difficile trovare la legge e quindi 

compensare l’effetto. 

In particolare per quanto riguarda il primo di questi due aspetti va citato il progetto e 

utilizzo di specchi dalla forma non distorcente ([Hicks e Bajcsy, 1999], [Marchese e 

Sorrenti, 2000], [Marquez e Lima, 2000]), appositamente introdotti per limitare il 

problema. Anche lo specchio utilizzato in questo progetto cerca di limitare questo 

problema, impiegando una forma progettata per dare una più ampia descrizione, rispetto 

ai classici specchi conici, della regione circostante vicina al robot, senza pagare il 

prezzo di una descrizione a risoluzione troppo bassa delle regioni più distanti (si veda 

per i particolari [Bonarini et al., 2000]). 

26

Tutti questi aspetti fanno sì che tramite il catadiottro si possano ottenere informazioni 

adeguate per un’analisi di massima di un’ampia scena (facilitando ad esempio l’autolocalizzazione, 

l’individuazione di oggetti ed elementi di possibile interesse per 

l’applicazione, eccetera), ma non sufficientemente dettagliate per un’analisi 

approfondita dei particolari (ad esempio per l’individuazione di ostacoli). Ecco perché 

una buona soluzione è quella di associare un tipo differente di sensore al catadiottro in 

modo da accrescere la qualità e la risoluzione dell’informazione legata ad una specifica 

parte (ad esempio quella considerata frontale) del campo visivo e rendere più robusta 

l’analisi della scena. Un esempio può essere quello presentato da Clérentin [Clérentin et 

al., 2000] che associa al catadiottro un range-finder laser. Anche nel nostro progetto è 

stato introdotto un secondo sensore, che in questo caso è una telecamera CCD usata per 

inquadrare la regione considerata frontale al robot. 

In molti degli esempi di applicazioni visti a inizio paragrafo risulta essere interessante la 

proprietà, che alcuni catadiottri presentano, di avere un singolo punto di proiezione: 

ogni fascio luminoso che attraversa l’apertura dell’ottica, e che si era precedentemente 

riflesso sullo specchio, sarebbe passato per un singolo punto (detto di proiezione) se non 

ci fosse stato lo specchio stesso. Si rende così molto semplice la generazione di 

immagini a prospettiva pura e immagini panoramiche a partire da quelle acquisite dal 

catadiottro, il che permette al sistema di visione di utilizzare tutte le più tradizionali e 

testate tecniche di analisi delle immagini, nonché di presentare agli eventuali utenti 

immagini non distorte. Solo i catadiottri che fanno uso di specchi con specifiche forme 

possono presentare (se adeguatamente progettati) questa proprietà, ossia specchi a 

sezione parabolica, ellittica ed iperbolica. 

Nel nostro caso, dato che le immagini provenienti dal sensore omnidirezionale vengono 

rielaborate per ottenere la simulazione di un punto di vista di tipo bird-eye, ossia per 

creare una “vista dall’alto”, questa proprietà del singolo punto di proiezione non risulta 

essere rilevante, mentre molto importante è invece l’ampiezza del campo visivo 

combinata alla risoluzione con cui gli oggetti vengono visti a distanza e la possibilità di 

vedere oggetti molto vicini al robot. 

27

Un problema centrale che è stato affrontato nella prima parte della sperimentazione 

effettuata è quello della calibrazione del sensore catadiottrico. Le difficoltà incontrate 

sono legate sostanzialmente al fatto di non conoscere con precisione la forma dello 

specchio impiegato. Infatti, non solo questo non risulta, a causa dell’imprecisione della 

tecnologia di realizzazione impiegata, esattamente rispondente al progetto (si veda 

[Bonarini et al., 2000]), ma la sua superficie risulta abbastanza irregolare. Gli algoritmi 

sviluppati non hanno tuttavia perso in generalità e sono applicabili a qualsiasi tipo di 

specchio e di telecamera. 

I prossimi paragrafi tratteranno innanzitutto dell’apparato sperimentale realizzato, per 

poi descrivere le diverse tecniche impiegate per la calibrazione del sensore e i risultati 

ottenuti. 

28

2.2.2. Realizzazione del prototipo 

E’ stato realizzato un prototipo sperimentale di sensore costituito da due sensori visivi: 

un sensore catadiottrico per la visione omnidirezionale, e una normale telecamera posta 

frontalmente. A questo sistema è stato dato il nome HOPS: Hybrid 

Omnidirectional/Pin-hole Sensor. Come si può osservare nelle figure 2.2-4, la struttura 

è costituita fondamentalmente da un cilindro in plexiglas, un ripiano circolare interno ad 

esso, uno specchio fissato sulla sommità del cilindro, due telecamere a CCD. Questo 

sistema è simile a quello descritto in [Clérentin et al., 2000], anche se in questo caso il 

catadiottro è combinato con un sensore visivo che, utilizzato come tale e non come 

range-sensor, fornisce informazioni più ricche utilizzabili in diverse applicazioni. Nel 

caso specifico dell’applicazione sviluppata, come già detto, si utilizza la combinazione 

delle immagini acquisite dai due sensori visivi per la ricerca di ostacoli nell’area 

frontale al robot. 

Figura 2.2 Figura 2.3 Figura 2.4 

Nel prototipo realizzato, per la parte che costituisce il catadiottro, una delle due 

telecamere è fissata al centro del ripiano circolare ed è orientata verticalmente verso la 

specchio in maniera tale da far coincidere il suo asso ottico con l’asse dello specchio. 

29

Inoltre il ripiano circolare interno possiede un grado di libertà che gli permette di essere 

posizionato a diverse altezze. La seconda telecamera è invece posizionata sul ripiano di 

plexiglas che poggia sopra lo specchio, orientata in modo tale da inquadrare l’area di 

fronte al sistema. Sia la base del sistema che il ripiano della telecamera superiore sono 

entrambi dotati di un sistema per l’orientamento della struttura costituito da quattro 

coppie vite-molla utilizzate come regolatori di posizione tra due ripiani di plexiglas. 

Tramite la regolazione di queste è possibile orientare il piano della base dello specchio e 

il ripiano della telecamera superiore in modo che essi risultino paralleli al piano del 

pavimento, ottenendo quindi anche la verticalità dell’asso ottico del catadiottro. 

Vediamo ora più in particolare le caratteristiche dello specchio impiegato. Per il suo 

progetto si veda [Bonarini et al., 2000]. Come mostrato in figura 2.5, la sua forma di 

progetto (la cui sezione è rappresentata dalla linea nera più spessa) è data 

dall’intersezione (con tangenza) di un cono e di una sfera. La sfera ha un raggio di 6.6 

cm, il cono un angolo di apertura di circa 117 gradi ed una base di raggio 8.9 cm. I due 

solidi si incontrano ad una distanza dall’asse del cono pari a 3.5 cm, cosicché lo 

specchio nel suo complesso raggiunge un’altezza di 4.3 cm. 

Figura 2.5 

In realtà le tecnologie di lavorazione dell’acciaio utilizzate per la realizzazione di 

specchi per catadiottri, introducono spesso delle imprecisioni sia per quanto riguarda il 

profilo dello specchio che per la sua regolarità superficiale: nel nostro caso solo una 

30

egione centrale e una esterna dello specchio possono essere considerate corrispondenti 

al progetto, mentre tutta la regione intermedia è una regione di passaggio dal profilo 

della sfera a quello del cono. Si sono inoltre osservate imprecisioni anche dal punto di 

vista della simmetria assiale (ossia la sezione perpendicolare all’asse non è 

perfettamente circolare ma piuttosto leggermente ellittica) e delle irregolarità locali a 

livello della superficie riflettente. Questi problemi hanno richiesto, per la calibrazione 

del catadiottro, l’utilizzo di una tecnica parzialmente empirica per il recupero delle 

distorsioni locali legate alle irregolarità osservate. 

Data la sua forma lo specchio non presenta un singolo punto di proiezione, ma come 

osservato in precedenza, questo risulta essere utile solo nel caso di generazione e analisi 

di immagini panoramiche o prospettiche pure. Nella nostra situazione, invece, il punto 

di arrivo del processo di calibrazione dovrà essere piuttosto una inversione prospettica 

riferita al piano del pavimento (con la conseguente visione di tipo bird-eye). Il progetto 

della forma dello specchio è stato finalizzato a: 

− ottenere un campo visivo molto ampio mantenendo il più possibile alta la 

risoluzione degli oggetti ai margini di questo, 

− rendere minima l’occlusione del campo visivo da parte del robot stesso: esso, 

riflettendosi nello specchio, fa sì che l’area centrale dell’immagine sia “persa” e con 

l’utilizzo di più tradizionali specchi conici determina la copertura della regione 

vicina al robot. Quindi oggetti vicini o a contatto con il robot possono risultare 

occlusi e non osservabili tramite il catadiottro. In particolare in applicazioni quali la 

competizione Robocup (per la quale lo specchio è stato progettato) dove il robot 

deve identificare specifici oggetti, raggiungerli e manipolarli, è fondamentale evitare 

che si verifichi questa occlusione. 

La soluzione è stata quella di adottare uno specchio con la regione centrale sferica, che 

riduce questo effetto di occlusione, e una parte esterna conica che permette di ottenere 

un migliore compromesso fra campo visivo e risoluzione. 

La telecamera superiore, infine è posizionata lateralmente rispetto all’asse ottico del 

catadiottro in maniera tale da ottenere una maggiore disparità stereo e quindi una più 

facile estrazione delle informazioni tridimensionali contenute nella coppia di immagini. 

31

2.2.3. Tecniche di calibrazione prospettica sperimentate 

La calibrazione del sensore catadiottrico, come visto, ha l’obiettivo finale di ottenere 

una corrispondenza tra la posizione dei punti del piano di riferimento (nel nostro caso 

quello del pavimento) e la posizione dei pixel nell’immagine acquisita dal catadiottro 

stesso. In questo modo, sapendo da quale pixel ogni punto del piano viene 

rappresentato, è immediata l’operazione di inversione della prospettiva per ottenere una 

visione di tipo bird-eye. 

Come già precedentemente notato, un obiettivo primario di tutto il lavoro svolto è la 

generalità, ossia l’applicabilità delle routines e degli algoritmi impiegati a nuove, 

diverse situazioni. Per questo motivo il software realizzato è stato strutturato in maniera 

da poter essere esteso facilmente con nuovi algoritmi e soluzioni al problema della 

calibrazione, permettendo un facile adattamento e impiego con i più svariati tipi di 

sensori ottici. Nel seguito vengono presentati i principali algoritmi di calibrazione 

sperimentati. 

Nel corso della ricerca svolta sul sensore catadiottrico sono state progettate ed impiegate 

principalmente tre tecniche di calibrazione differenti: una basata su un modello 

geometrico del sistema, una seconda, più empirica, basata sull’impiego di campioni di 

corrispondenza punto-pixel e sull’interpolazione tra di essi, una terza che trova un buon 

compromesso tra lo studio empirico del problema e la sua modellizzazione analitica. 

32

2.2.3.1. Tecnica di calibrazione geometrica o esplicita 

Questa tecnica di calibrazione utilizza un modello molto simile a quello classico 

impiegato da Tzai [Tzai, 1996]. Tramite la costruzione di un modello geometrico del 

sensore visivo fondato sulla conoscenza della posizione e dell’orientazione reciproca 

della telecamera e dello specchio, dei parametri intrinseci della telecamera, della forma 

dello specchio, della posizione e orientazione del piano di riferimento per l’inversione 

prospettica, il modello permette di calcolare la relazione tra pixel dell’immagine e punti 

del piano di riferimento. Per la telecamera si utilizza un modello pin-hole, ipotizzando 

che la distorsione introdotta dall’ottica sia sferica e trascurando un’eventuale 

componente tangenziale. In particolare, tra i parametri intrinseci della telecamera, solo 

gli angoli di apertura e il coefficiente di distorsione radiale dell’ottica risultano essere 

rilevanti ai fini del modello. 

Figura 2.6 

Con riferimento all’immagine in figura 2.6, il modello utilizzato permette di ricostruire 

il percorso che il fascio di luce L (rappresentato per semplicità con una linea), incidente 

sull’apertura dell’ottica O, ha seguito per giungere sul piano di formazione 

dell’immagine I, passando attraverso la sua incidenza e riflessione sullo specchio M, 

fino a risalire al punto della superficie del piano di riferimento S da cui esso è stato 

emesso. Si crea quindi una relazione tra il punto in posizione p sul piano di formazione 

33

dell’immagine (legato alla direzione di incidenza del fascio luminoso sull’ottica e al 

coefficiente di distorsione radiale di questa) e il punto del piano P. Questo metodo si 

basa sul presupposto che lo specchio, e più in generale il catadiottro, abbia un asse di 

simmetria verticale coincidente con l’asse ottico. In questo modo ad ogni punto in 

posizione p distante un valore d specifico dall’incidenza dell’asse ottico sul piano I 

corrisponde un punto P distante un valore D specifico dal punto di incidenza dell’asse 

ottico sul piano S (perpendicolare a questo). Si crea quindi una funzione D(d), che 

permette di rimappare sul piano S l’immagine generata su I. Vediamo nel dettaglio 

l’algoritmo utilizzato: 

1. dato un punto p del piano di formazione dell’immagine (con riferimento 

all’immagine 2.5) di coordinate (x p , y p ) riferite ad un sistema cartesiano xoy centrato 

nel punto c di incidenza sul piano dell’asse ottico della telecamera ed espresse in 

unità di pixel, se ne calcola la distanza d da c stesso: 

d = v( x p ² + y p ²) 

2. si calcola l’inclinazione di incidenza sul centro ottico del raggio luminoso che ha 

generato nell’immagine il punto p. Per far questo bisogna prima recuperare l’effetto 

della distorsione radiale (di coefficiente K) sul valore di d calcolando d 1 : 

d 1 = d (1 + K d²) 

3. si calcola l’angolo di incidenza a: 

a = arctan ( d 1 / f ) 

con f distanza focale effettiva della telecamera (ossia il segmento cO) espressa in 

unità di pixel e definita come: 

f = (d i /2) / tan(a o /2) 

dove a o è l’apertura angolare orizzontale dell’ottica e d i la dimensione orizzontale in 

pixel dell’immagine (ma potrebbero essere anche quelle verticali); 

4. conoscendo l’altezza h del punto O dal piano di riferimento, si calcola l’equazione 

f(X,Y) della retta passante per O con direzione indicata dall’angolo a e riferita ad un 

sistema di riferimento XYZC centrato in C con asse Z verticale e coincidente con 

l’asse ottico della telecamera, X e Y paralleli a x e y, e orientati opportunamente. 

Dato che in realtà lo specchio è una superficie di rotazione e quindi il sistema è 

simmetrico rispetto al suo asse centrale, possiamo limitarci allo studio 

34

dell’equazione f(R) con R distanza sul piano di riferimento dal punto C: 

f(R) = h + tan(a) R 

5. Tra i presupposti dell’algoritmo c’è la conoscenza della forma esatta dello specchio, 

funzione radiale Z = g(R). Dalla soluzione del sistema delle due equazioni f(R) e 

g(R) si può ricavare il valore R p di R tale che f(R p ) = g(R p ), che rappresenta la 

distanza dall’asse ottico dell’ incidenza del fascio luminoso L sullo specchio M. A 

partire dalla derivata g'(R) di g(R) in R p si può ottenere l’angolo di inclinazione b = 

arctan( g'(R p ) ) dello specchio nel punto di incidenza e si può calcolare l’angolo di 

salita s con cui il fascio luminoso è giunto allo specchio a partire dal punto P: 

s = p/2 – a – 2b 

6. Conoscendo s si può calcolare la distanza D del punto P dal centro C: 

D = R p + g(R p ) / tan(s) 

7. Infine le coordinate (X p ,Y p ) di P sono semplicemente: 

X p = x p D / d 

Y p = y p D / d 

8. la look-up-table di inversione prospettica assocerà al pixel dell’immagine rettificata 

che descrive il punto del piano di riferimento di coordinate (X p ,Y p ) il pixel 

dell’immagine acquisita di coordinate (round(x p ),round(y p )). 

In conclusione ciò che si deve conoscere per applicare l’algoritmo è: l’equazione radiale 

della forma dello specchio g(R) (che notiamo include anche l’altezza di questo sul piano 

di riferimento), il coefficiente di distorsione dell’ottica K, la dimensione in pixel delle 

immagini acquisite d i , l’angolo di apertura dell’ottica a o , l’altezza h del centro ottico O 

dal piano di riferimento. 

Questo algoritmo possiede il vantaggio di suddividere tutti i componenti del catadiottro 

e di analizzarli separatamente, in modo tale che la modifica di uno di essi o la 

riorganizzazione nello spazio del sistema comporti solamente la necessità di misurare i 

nuovi valori assunti dai parametri del modello (ad esempio l’altezza dello specchio dal 

suolo, il coefficiente di distorsione di questa, l’equazione della forma dello specchio) 

per ottenere una nuova calibrazione del sistema. D’altro canto non sempre è possibile 

35

conoscere con precisione questi parametri e inoltre il sistema è molto sensibile anche a 

piccoli errori in alcuni di questi. 

L’applicazione di questo semplice algoritmo al nostro caso specifico ha dato alcuni 

problemi legati sostanzialmente all’approssimativa conoscenza della forma dello 

specchio utilizzato. Per testare l’algoritmo ci si è basati sulla forma dello specchio 

decisa in fase di progetto ma questa, come ci si è accorti, corrisponde solo parzialmente 

alla sua forma effettiva. Il progetto dello specchio prevede per la parte sferica un raggio 

di circa 6.6 cm, e per il cono un angolo di apertura di 31 gradi. La forma dello specchio 

derivante da questi valori è risultata non coincidere con la forma reale e per cercare di 

trovare una funzione che potesse descriverla in modo più accurato, ma sempre 

basandosi sull’ipotesi della divisione della forma dello specchio in una regione sferica e 

una conica tra loro tangenti, si è cercato di trovare dei valori alternativi per il raggio 

della sfera e l’apertura del cono basandosi su dei campioni empiricamente acquisiti della 

funzione d(D). Nei grafici riportati di seguito (in figura 2.7 e figura 2.8), vengono messe 

a confronto la curva d(D) ottenuta empiricamente per interpolazione di campioni di 

coppie di punto P - pixel p (la curva nera spessa) e quelle ottenute tramite l’algoritmo 

geometrico: per alcuni valori del raggio della sfera, mantenendo fisso il valore 

dell’angolo di apertura del cono, in figura 2.7; per alcuni valori dell’angolo di apertura 

del cono, mantenendo fisso il valore del raggio della sfera, in figura 2.8. 

In conclusione si è osservato che: la parte interna dello specchio viene meglio descritta 

da una sfera di raggio 6.15 cm, quella esterna da un cono con angolo di apertura di 35 

gradi, mentre tutta la regione intermedia è una transizione tra sfera e cono che non può 

essere modellizzata nel quadro di questa ipotesi cono-sfera. 

Questo algoritmo non è quindi stato utilizzato per la calibrazione di questo specifico 

catadiottro, ma rimane pur sempre un buono strumento, efficace nel caso di utilizzo di 

specchi realizzati con tecnologie a più alta precisione. 

36

160 

140 

120 

d (pixel) 

100 

80 

60 

40 

20 

0 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 

D (x20cm) 

Figura 2.7 

180 

160 

140 

120 

d (pixel) 

100 

80 

60 

40 

20 

0 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 

D (x20cm) 

Figura 2.8 

37

2.2.3.2. Tecnica di calibrazione empirica o implicita 

Invece di creare un modello articolato che descrive separatamente tutte le parti del 

sistema fisico (la telecamera con i suoi parametri intrinseci, lo specchio e la sua forma, 

il posizionamento reciproco di questi, il piano di riferimento, eccetera), per cercare di 

ovviare ai problemi visti nel paragrafo precedente si è sviluppato un algoritmo che 

anziché basarsi su un modello analitico si fonda su basi strettamente empiriche. 

Vediamone i passi principali nella versione più generale: 

− Si definiscono due sistemi di riferimento bidimensionali cartesiani: uno (xoy) 

posizionato sul piano dell’immagine F, con unità di misura pari al pixel, l’altro 

(XOY) posizionato sul piano di riferimento per l’inversione prospettica S, con unità 

di misura pari a Sens (espressa ad esempio in centimetri). 

− Si raccolgono un insieme ? di N campioni empirici costituito da coppie di punti 

(p i ,P i ) con p i appartenente al piano dell’immagine F e P i al piano di riferimento S, 

tali che il pixel p i dell’immagine sia una rappresentazione di un intorno del punto P i 

(si veda la figura 2.9). Le coppie di campioni in ? dovranno essere rappresentativi 

di tutte le regioni di interesse del campo visivo, ed essere concentrati più 

densamente nelle regioni di maggior importanza: la precisione locale dell’inversione 

prospettica sarà infatti proporzionale a questa densità. 

− Per ognuno dei punti G della porzione del piano S che viene rappresentata 

dall’immagine sul piano F, tale che G ? P i per ogni (p i , P i ) ? ? , si ricercano i tre 

punti P i primi vicini a G (tali che lo racchiudano nel triangolo di cui essi sono i 

vertici) e si opera una semplice interpolazione lineare tra le posizioni dei punti p i 

associati ad essi trovando così la posizione del punto g da associare a G (si veda la 

figura 2.8). In questo modo si riesce a rimappare tutta l’area di interesse 

dell’immagine sulla superficie di S. 

38

Figura 2.9 

Questa interpolazione lineare avviene secondo una semplice regola: date le tre coppie di 

punti campione (p 1 , P 1 ), (p 2 , P 2 ), (p 3 , P 3 ) con P 1 , P 2 , P 3 primi vicini di G che, come 

indicato in figura 2.10, lo circondano, e dati R 1 , R 2 , R 3 le tre distanze tra questi e G, si 

avrà che 

(1) x g = [ x p1 (R 2 R 3 ) + x p2 (R 1 R 3 ) + x p3 (R 1 R 2 ) ] / (R 1 R 2 + R 2 R 3 + R 1 R 3 ); 

e chiaramente 

(2) y g = [ y p1 (R 2 R 3 ) + y p2 (R 1 R 3 ) + y p3 (R 1 R 2 ) ] / (R 1 R 2 + R 2 R 3 + R 1 R 3 ). 

39

Figura 2.10 

L’implementazione di questa tecnica può essere resa molto semplice se i punti Pi dei 

campione di ? vengono scelti su un reticolo regolare applicato al piano S quale può 

essere un reticolo a maglie quadrate o rettangolari o, come nel caso in questione, lungo 

linee direttrici radiali passanti per il punto di incidenza dell’asse ottico sul piano S. Ad 

esempio come mostrato in figura 2.11 si potrebbero scegliere come punti P i quattro 

serie di punti (quelli rossi) presi ad intervalli regolari lungo le quattro semirette direttrici 

principali. 

Figura 2.11 

40

Scegliere in questo modo i punti campione risulta particolarmente efficace quando il 

sistema presenta un asse di simmetria radiale incidente perpendicolarmente nel centro O 

del piano S. Tramite questa assunzione, diventa facile estendere l’algoritmo visto e 

calcolare la posizione di g in I da associare a G in S tramite delle semplici interpolazioni 

lineari tra coppie di punti campione (non più terne) la cui posizione è conosciuta in 

maniera immediata. Dato il punto G, infatti, sulla base della sua distanza dal centro del 

sistema di riferimento O, possiamo trovare banalmente che i quattro punti (sempre con 

riferimento alla figura 2.11) P 2 , P 3 , P 6 e P 7 lo racchiudono in un settore di corona 

circolare. Tramite interpolazione lineare lungo le due rette direttrici coinvolte 

rispettivamente tra i punti P 2 , P 3 e tra i punti P 6 , P 7 si calcolano g 1 e g 2 associati a G 1 e 

G 2 (i punti lungo le direttrici in questione che si posizionano alla stessa distanza di G da 

O). Le formule per questa interpolazione lineare sono banalmente ricavate come 

riduzione al caso di due punti della (1) e della (2). Infine, grazie all’ipotesi vista sulla 

simmetria radiale, si può operare un’interpolazione lungo il tratto di circonferenza che 

unisce G 1 a G 2 passando per G, in questo caso però, invece di utilizzare come peso 

dell’interpolazione le distanze R si utilizzano gli angoli a =G 1 -O-G e ß =G-O-G 2 : 

x g = (x g1 ß + x g2 a) / (p/2); 

y g = (y g1 ß + y g2 a) / (p/2). 

Alcune osservazioni: 

− questo posizionamento dei punti P i campione ne determina una densità decrescente 

dalla regione centrale verso l’esterno. Questo consentirà di ottenere una inversione 

prospettica di precisione massima nelle vicinanze del robot e decrescente 

allontanandosi; 

− il numero di rette direttrici dalle quali attingere punti campione dipende chiaramente 

dalla precisione con cui si vuole calibrare il sistema: all’aumentare del loro numero 

la calibrazione risulta più robusta nell’affrontare eventuali imperfezioni della 

simmetria radiale. 

41

Nel nostro caso si è scelto di utilizzare campioni presi da otto direttrici equidistanti 

angolarmente. Per quanto riguarda la rilevazione delle coppie di campioni, questa è 

un’operazione che viene fatta con l’ausilio di un pattern di regioni bianche e nere che si 

alternano regolarmente lungo un direzione (si veda l’immagine in figura 2.12). 

Attualmente questa rilevazione viene fatta manualmente tramite l’osservazione di 

immagini rappresentanti il pattern in posizioni specifiche. Per velocizzare e rendere più 

efficiente il processo di calibrazione, un dei possibili sviluppi futuri riguarda 

l’automatizzazione dell’intero processo. Infatti, indipendentemente dal posizionamento 

dei campioni, questa tecnica di calibrazione ha lo svantaggio di richiedere una nuova 

completa calibrazione ad ogni modifica del sistema visivo (che non sia una semplice 

variazione di altezza del sensore nel suo complesso). In figura 2.12 è mostrato il pattern 

utilizzato per la calibrazione. Nelle figure 2.13, 2.14 e 2.15 si possono osservare i 

risultati ottenuti utilizzando un numero crescente di rette direttrici (una, quattro e otto) 

per l’acquisizione di coppie di campioni. 

Figura 2.12 Figura 2.13 

42


Dall’osservazione dell’ultima immagine si può notare come in molte regioni siano 

presenti ancora notevoli distorsioni locali (si noti ad esempio la base della porta sulla 

destra dell’immagine). Queste distorsioni sono da attribuire in gran parte alla linearità 

dell’interpolazione utilizzata: usare un’interpolazione lineare equivale ad approssimare 

la forma dello specchio tramite un insieme di quadrilateri, superfici piane che accostate 

generano una superficie a gradiente discontinuo. In realtà lo specchio ha una superficie 

molto più continua e proprio per permettere al modello implicito dello specchio che 

viene generato nel processo di calibrazione di preservare questa continuità, si è adottata 

una terza tecnica di calibrazione che costituisce un buon compromesso tra l’approccio 

analitico della tecnica esplicita e l’approccio empirico di quella implicita. 

43

2.2.3.3. Tecnica di calibrazione analitico-empirica 

Questa tecnica di calibrazione è una estensione della precedente (calibrazione empirica) 

e ha lo scopo di correggere le imprecisioni dell’inversione prospettica introdotte dalla 

linearità della interpolazione eseguita tra i campioni usati. A partire dallo stesso insieme 

di campioni ? scelti sulle otto rette direttrici (come nel caso precedente), si può definire 

F(R) come la funzione che lega la distanza R del punto P dal centro O del sistema di 

coordinate del piano S alla distanza r di un pixel p (associato a P per prospettiva 

inversa) dal centro dell’immagine o. Affinché F(R) sia effettivamente una funzione, 

sarebbe necessario ipotizzare una perfetta simmetria assiale del sistema. Ciò nella 

pratica non è vero e quindi conviene limitare il dominio della funzione ad una singola 

semiretta nascente in O (cioè nel centro del piano di riferimento). Nell’ipotesi che il 

sistema, se non simmetrico assialmente, sia quantomeno radiale, questo limita il 

codominio di F(R) ad una semiretta nascente in o (ossia nel centro dell’immagine). 

Possiamo ora definire di volta in volta per ognuna della rette direttrici scelte per i 

campioni una funzione F i (R) della quale le coppie (p i , P i ) associate a quella direttrice, e 

quindi le relative distanze r i ed R i dai centri o e O rappresentano rispettivamente dei 

campioni e dei punti di campionamento. Conoscere con precisione e per tutte le 

direzioni possibili questa funzione significa aver calibrato perfettamente il sistema. 

Nella calibrazione empirica si erano implicitamente calcolate delle approssimanti a 

queste funzioni, e lo si era fatto tramite una interpolazione lineare tra campioni vicini 

(chiamiamo queste approssimazioni I i (R)). Nel grafico in figura 2.16 sono riportati i 

risultati di queste approssimazioni lungo gli otto raggi direttori impiegati. 

44

Figura 2.16 

Invece di eseguire questa imprecisa interpolazione si preferisce ora utilizzare delle 

funzioni che non approssimano direttamente le F i (R) ma i loro campioni (chiamiamole 

P i (R)). In particolar modo si usa un polinomio di sesto grado, che garantisce una 

maggior continuità alle approssimanti di F i (R). Il grafico nella figura 2.17, rappresenta 

il confronto tra queste due diverse approssimazioni di una F i (R): la linea nera è il 

polinomio di sesto grado e la linea gialla l’interpolazione lineare tra i punti ottenute a 

partire da campioni presi lungo una singola direttrice. 

45

Figura 2.17 

Questo polinomio approssimante sarà quindi quello che meglio si avvicina a tutti i punti 

campione, ma allo stesso tempo non passerà necessariamente per i campioni stessi: 

utilizzandolo si ottiene quindi un maggior grado di continuità ma si rischia di perdere in 

precisione laddove lo specchio presenti delle forti irregolarità locali. Queste due serie di 

funzioni approssimanti vengono quindi utilizzate in combinazione modificando 

localmente le P i (R), laddove queste si discostino oltre un certo limite (Lim) dai valori 

campionati, sulla base delle I i (R). In pratica si ridefinisce la specifica P i (R) come se 

stessa maggiorata localmente (in un intervallo pari a due campionature) fino a farla 

passare per il valore del campione. Se ad esempio per il campione k-esimo (posto a 

distanza R k dal centro) lungo la direttrice i-esima si ha che |P i (R k ) - I i (R k )| > Lim, allora 

la funzione P i (R) viene modificata in tutto l’intervallo (R k-1 … R k+1 ) nel seguente modo: 

P i (r) = P i (r) + (P i (R k ) - I i (R k )) (r – R k-1 ) / (R k – R k-1 ) per R k-1 < r < R k 

P i (r) = P i (r) + (P i (R k ) - I i (R k )) (R k+1 – r) / (R k+1 – R k ) per r in R k = r < R k+1 

46

Nelle figure è mostrato il confronto tra il risultato ottenuto tramite l’utilizzo delle 

approssimanti I i (R) (figura 2.18), P i (R) (figura 2.19), e della loro combinazione C i (R) 

(figura 2.20). Di seguito vengono presentati i risultati ottenuti, tramite quest’ultima 

tecnica di calibrazione, su alcune coppie (originale - rettificata) di immagini (figure 

2.21, 2.22, 2.23, 2.24, 2.25, 2.26). 


Figura 2.20 

47



48


49

2.3. Sensore visivo frontale 

Come visto, nel sistema di visione artificiale realizzato, al sensore catadiottrico è stato 

accostata una telecamera tradizionale (pin-hole) al fine di permettere una più accurata 

analisi della scena posta frontalmente al robot. Infatti, la visione ottenuta tramite il 

catadiottro è tipicamente caratterizzata da un ampio campo visivo, ma anche da una 

bassa risoluzione, specialmente nelle zone più distanti dal centro. L’aggiunta di questo 

secondo sensore visivo permette, una volta identificato un oggetto di interesse, o 

comunque individuata la direzione da seguire, di analizzare più dettagliatamente e 

accuratamente la regione di spazio verso cui ci si muove. In particolare, una delle 

applicazioni consentite dall’utilizzo combinato dei due sensori è la ricerca di ostacoli e 

quindi dell’area camminabile nello spazio visivo comune. 

Il modello pin-hole utilizzato per le telecamere tradizionali è noto e descritto ad 

esempio in [Mallot et al., 1991a], [Onoguchi et al., 1998], [Bertozzi et al., 1998], 

[Adorni et al., 2000a]. La calibrazione di una telecamera consiste nella ricerca dei 

parametri che regolano il modello e che non sempre sono noti o facili da ottenere. Nel 

lavoro descritto è stata sperimentata una tecnica di calibrazione ispirata a quella 

analitico-empirica impiegata nella calibrazione del sistema catadiottrico. 

50

2.3.1. Variante della tecnica di calibrazione analitico-empirica 

Generiamo una discretizzazione dell’area del piano di riferimento appartenente al 

campo visivo tramite la semplice sovrapposizione di una griglia a celle quadrate di lato 

pari a Sens (che nell’immagine rettificata è la dimensione dell’area rappresentata da 

ogni singolo pixel) con i lati paralleli alla proiezione sul piano dell’asse ottico della 

telecamera. Definiamo quindi un sistema di coordinate XOY a valori discreti per 

identificare ognuna di queste celle, con origine O sull’intersezione della verticale del 

centro ottico della telecamera col piano di riferimento. Notiamo che a questo punto 

possiamo riferirci (analogamente a quanto accade per le immagini) a righe e colonne di 

celle. 

Il procedimento di calibrazione proposto si fonda su: 

1) la proprietà per cui, se la distorsione radiale dell’ottica fosse nulla, ad ogni riga 

dell’immagine corrisponderebbe una retta orizzontale sul piano di riferimento del 

pavimento; 

2) la raccolta di un insieme ? di campioni (p i , P i , S i ) costituiti dalle terne: p i , pixel 

dell’immagine rettificata; P i , cella del piano di riferimento rappresentata 

nell’immagine dal pixel p i (o da un insieme di pixel tra cui p i , a seconda del valore 

di Sens); S i , definito meglio in seguito, qui semplicemente numero di pixel che, 

accostati uno all’altro, rappresentano una lunghezza nel piano di riferimento pari al 

lato della cella elementare. 

In realtà la distorsione dell’ottica non è nulla, ma si può ipotizzare che questa 

distorsione sia di tipo sferico e rilevante esclusivamente nella sua componente radiale 

(ipotesi valida dato che la telecamera presenta un angolo di apertura inferiore agli 80 

gradi, quindi piuttosto basso) e che quindi sia possibile identificare un coefficiente di 

distorsione radiale (K) che sia costante in ogni punto dell’immagine. Grazie 

all’indipendenza dell’effetto della distorsione radiale dall’effetto prospettico, che ci 

permette di vederli come due blocchi indipendenti posti in cascata, è possibile 

recuperare la distorsione dell’ottica tramite la semplice espansione dell’immagine 

51

descritta dalla formula (da applicare a tutti i pixel dell’immagine distorta): 

x u = x d (1 + K (x d ² + y d ²)) 

y u = y d (1 + K (x d ² + y d ²)) 

Dove (x d , y d ) sono le coordinate del pixel dell’immagine originale distorta riferite ad un 

sistema cartesiano con origine nel centro dell’immagine, mentre (x u , y u ) sono le 

coordinate riferite allo stesso sistema cartesiano alle quali il pixel deve essere spostato. 

In questo modo l’immagine in figura 2.27 viene espansa nell’immagine non più distorta 

in figura 2.28. 


Nell’immagine in cui è stata eliminata la distorsione vale la proprietà descritta al punto 

1). 

I campioni da raccogliere vengono presi lungo una specifica direzione tale che i pixel p i 

appartengono alla colonna centrale dell’immagine, come indicato in figura 2.29. 

52

Figura 2.29 

Qui si può notare come sia stato posizionato sul pavimento di fronte alla telecamera un 

pattern di quadrati neri su sfondo bianco di dimensioni e posizione note, allo scopo di 

permettere una facile identificazione di specifici pixel (i p i ) nell’immagine. Scegliendo i 

pixel p i in corrispondenza dei punti di maggiore discontinuità luminosa nella transizione 

da una regione bianca a una nera, e viceversa, lungo la retta evidenziata in rosso, i punti 

P i corrispondenti possono essere ricavati immediatamente dalla geometria del pattern. 

Infine, gli S i relativi possono essere stimati con buona precisione tramite la misura della 

lunghezza l in pixel delle linee rosse orizzontali evidenziate nell’immagine (figura 2.29) 

e tramite la conoscenza dell’effettiva larghezza spaziale L (in unità di cella) dei quadrati 

neri. In particolare si avrà che: 

S i = l k / L 

(numero di pixel / cella) 

dove k è un fattore correttivo costante ricavato empiricamente per tener conto delle 

diverse dimensioni delle superfici rappresentate dai pixel in diverse posizioni su una 

stessa riga dell’immagine: a pixel più vicini al centro di ogni riga corrisponderà una 

superficie del piano di riferimento maggiore rispetto a quelli più lontani. 

53

Sono ora disponibili tutti i dati necessari ad operare la calibrazione. Si noti come tra 

tutti i parametri intrinseci ed estrinseci della telecamera risulti necessario conoscere 

solamente il coefficiente di distorsione radiale dell’ottica. Analizziamo ora le principali 

fasi dell’algoritmo di calibrazione: 

a) con riferimento al capitolo 2.2.3.3., utilizzando le coppie di campioni (p i , P i ), si 

genera la funzione discreta C(R) approssimante di F(R) lungo la retta rappresentata 

nell’immagine dalla colonna centrale (vedi figura 2.29). Anche in questo caso R ha 

il significato di distanza tra la verticale del centro ottico sul piano di riferimento e la 

posizione della generica cella P sulla retta sul piano di riferimento rappresentata 

nell’immagine dalla colonna centrale; in questo caso r = C(R) rappresenta la 

distanza in pixel, dal fondo dell’immagine, del pixel p, corrispondente per 

inversione prospettica a P e posizionato sulla colonna centrale dell’immagine. Si 

ottiene quindi la mappatura di inversione prospettica dei campioni P i lungo quella 

che potremmo definire la colonna centrale di celle del piano di riferimento. 

b) Si genera quindi, con lo stesso metodo, l’approssimante S(R) alla nuova funzione 

G(R) i valori S i della quale rappresentano i campioni associati ai punti P i presi a 

specifiche distanze R i dall’origine O, lungo la retta rappresentata nell’immagine 

dalla colonna centrale. 

c) Per completare la mappatura dell’inversione prospettica basta osservare che punti a 

pari distanza dall’origine O vengono rappresentati con uguale risoluzione 

nell’immagine, e quindi la funzione S(R) può essere applicata a qualsiasi cella del 

piano di riferimento che rientra nel campo visivo della telecamera, conoscendone la 

distanza dal centro O. Quindi, fissata una qualunque riga Y a di celle del piano di 

riferimento, e detta X c l’ascissa della colonna centrale di celle che è stata già 

rimappata, ci si sposta in orizzontale e si associa ad ogni cella (X c + n, Y a ) (con n 

intero con modulo compreso tra 1 e la semilarghezza dell’area di interesse del 

piano) il pixel (x c , y c ) dell’immagine, baricentro dell’eventualmente gruppo di pixel 

che rappresentano la cella in questione, secondo la formula: 

54

y c = round( C(Y a ) ) 

x c = round[( ? i S( D(X c + i , Y a ) ) ) + S( D(x c + n, y a ) ) / 2 ] 

sommatoria, quest’ultima, per i che va da 1 ad n-1 per n positivo, da 

n-1 a -1 per n negativo, dove la funzione D(X,Y) è la distanza (in 

unità celle) della cella di coordinate (X,Y) dal centro O. 

Il risultato della mappatura così effettuata è mostrato nelle figure 2.30 e 2.31. 


55

2.4. Progetto del software per la calibrazione 

In questa sezione vengono descritte le metodologie, i principi e le principali fasi di 

progettazione del modulo software per la calibrazione di sensori visivi. 

Come detto, il principio cui ci si è attenuti nel progetto è stato quello della generalità, 

ossia si è cercato di sviluppare algoritmi e architettura il più possibile indipendenti dagli 

specifici sensori visivi utilizzati nel progetto. Alcuni degli algoritmi sviluppati sono del 

tutto generici e applicabili a qualsiasi tipo di sensore, altri sono invece più specifici, 

poiché si basano su particolari proprietà dei sensori utilizzati, quali ad esempio la 

presenza di un asse di simmetria o particolari forme del sensore. 

Il software è stato strutturato in modo da poter essere integrato con l’introduzione di 

nuovi algoritmi in maniera molto semplice. In effetti, trattandosi di sperimentazione, 

sono state provate varie soluzioni e quindi la possibilità di avere un’architettura elastica 

e facilmente espandibile è stato un obiettivo fondamentale. 

Gli algoritmi principali che sono stati implementati sono quelli presentati nei precedenti 

paragrafi di questo capitolo, e non saranno quindi ulteriormente descritti, saranno invece 

descritte in dettaglio le fasi di analisi dei requisiti e di progetto del sistema al quale gli 

algoritmi saranno applicati. 

56

2.4.1. Analisi dei requisiti 

Dato un sensore visivo da calibrare, l’ obiettivo del software progettato è quello di 

costruire (tramite uno degli algoritmi visti precedentemente) una “look-up-table” che 

descriva la mappatura di inversione prospettica, ossia la relazione tra la posizione dei 

punti sul piano di riferimento della calibrazione e la posizione dei pixel che li 

rappresentano nell’immagine acquisita dalla telecamera. In definitiva la look-up-table 

che dobbiamo generare dovrà ricevere in ingresso la posizione (X,Y) di un punto sul 

piano, operare una discretizzazione sulla posizione di questo punto (se questa non lo è 

già) e dare in uscita la posizione (x,y) del pixel relativo: 

x = Mx[round(X / Sens)][round(Y / Sens)], 

y = My[round(X / Sens)][round(Y / Sens)], 

dove: round è un’operatore di arrotondamento all’intero più vicino, Sens è l’unità di 

misura in cui vogliamo muoverci nello spazio (o meglio il rapporto tra questa unità di 

misura e quella in cui sono espressi X e Y), Mx ed My sono due matrici contenenti i 

valori ricavati dalla calibrazione. 

In realtà, poiché sul piano di riferimento possiamo già operare una discretizzazione 

suddividendolo in un reticolo di quadrati di lato Sens (sufficientemente piccolo per 

permetterci un accesso alle posizioni del piano con adeguata risoluzione, e ad esempio 

misurato in cm), non ci riferiremo ai punti dello spazio, ma alla posizione delle sue 

celle: la cella (X,Y) sarà quella il cui baricentro è posizionato, rispetto al sistema di 

riferimento del piano, in (X*Sens,Y*Sens) cm. Quindi in generale l’accesso alla lookup-table 

sarà un semplice accesso ad una matrice di coppie di valori. 

Oltre alla look-up-table vista, nel sistema si genera e gestisce anche la tabella inversa, 

che potremmo chiamare “tabella di localizzazione”: dato un pixel indica quale parte 

della superficie del piano di riferimento esso rappresenti, quindi permette di attribuire 

57

una localizzazione sul piano di riferimento agli “oggetti” individuati nell’immagine 

acquisita. 

Nel diagramma di flusso dei dati mostrato in figura 2.32 sono riassunte tutte le 

funzionalità che sono state realizzate nel software. Vediamone brevemente una 

descrizione: 

a) generazione delle “tabelle di calibrazione” (la look-up-table per la prospettiva 

inversa e la tabella di localizzazione): riceve in ingresso da file i dati riguardanti il 

tipo di calibrazione da effettuare (cioè l’algoritmo da impiegare), la dimensione 

delle immagini, la porzione di interesse del piano di riferimento, una serie di 

parametri legati all’algoritmo stesso e una eventuale lista di campioni (per le 

tecniche di calibrazione empiriche). La tabella di localizzazione, se necessaria, viene 

generata per inversione della prima. Altro possibile flusso di dati è quello che 

permette di ricevere in ingresso la tabella di inversione prospettica (letta da file) e 

generare da essa per inversione la tabella di localizzazione. 

b) Salvataggio su file delle tabelle di sistema (in un apposito formato) allo scopo di 

poter essere lette e utilizzate sia da questo software in un secondo tempo (ad 

esempio salvare su file la tabella di inversione prospettica per creare a partire da 

essa, in un secondo momento, la tabella di localizzazione), o (soprattutto) per 

utilizzarla con un software di gestione di acquisizione e rettifica di immagini. 

c) Lettura di immagini da file, rettifica tramite la tabella generata, salvataggio su file 

delle immagini rettificate. Questa funzionalità rappresenta in parte il test del sistema 

poiché chiaramente permette un diretto controllo del risultato dell’elaborazione. 

Vengono supportati due formati di immagini non compressi: Portable PixelMap 

(PPM) per le immagini RGB e Portable GreyMap (PGM) per quelle in scala di 

grigio. 

d) Accesso ai valori delle tabelle da parte di un utente esterno (quale potrebbe essere 

sia il programmatore in fase di test degli algoritmi, sia un eventuale software di 

acquisizione ed analisi delle immagini che faccia uso delle tabelle di calibrazione). 

58

Figura 2.32 

59

2.4.2. Progetto del sistema 

A questo punto si sono suddivise le funzionalità analizzate nella fase precedente in 

gruppi il più possibile coesi ed indipendenti tra di loro. Ognuno di questi gruppi sarà 

incluso in uno o più moduli che dovranno fornire tutte le funzionalità specificate. Una 

prima suddivisione di alto livello può essere fatta distribuendo le funzionalità tra due 

moduli: 

− un modulo di generazione e gestione delle tabelle (che renda anche disponibile 

l’accesso alle tabelle stesse) che chiameremo CALIBRA; 

− un modulo di impiego delle tabelle per la rielaborazione delle immagini che 

chiameremo IMAGELAB. 

Questa suddivisione in due moduli, seppur sbilanciata a livello di numero e complessità 

di funzionalità da supportare, crea però una netta divisione tra il primo, modulo centrale 

del sistema (con elevate possibilità di riutilizzo in successive evoluzioni o di supporto in 

altri sistemi), ed il secondo, modulo di supporto e test del funzionamento del primo. 

Data inoltre la necessità di gestire molte tabelle bidimensionali contenenti diversi tipi di 

dati si è deciso di creare un terzo modulo in grado di gestire tutte le funzioni legate alle 

tabelle e al loro accesso (comprendenti funzionalità quali l’inizializzazione run-time, 

l’accesso, la modifica, la cancellazione, ecc.), che chiameremo MATRICI. 

In figura 2.33 viene presentato un diagramma dei moduli e delle loro dipendenze 

utilizzando lo strumento di rappresentazione grafica detto Graphical Design Notation 

nel quale i rettangoli corrispondono a moduli, le frecce rappresentano la relazione USA 

(a meno che non provengano dall’esterno, nel qual caso si tratta di ingressi del modulo), 

le frecce di maggior spessore (quelle grigie) la relazione EREDITA DA (usata per le 

classi), il contenimento di un modulo in un altro indica la relazione COMPOSTO DA. 

Verrà inoltre usato il corrispondente strumento testuale detto Textual Design Notation 

per una descrizione semiformale dei moduli stessi. 

60

Figura 2.33 

IMAGELAB utilizza le tabelle gestite da CALIBRA, quindi è evidente la sua 

dipendenza da esso. Per rendere più immediato l’utilizzo delle risorse richieste da 

IMAGELAB e quindi più veloce l’elaborazione complessiva, si è deciso di trasformare 

questa dipendenza in una vera e propria ereditarietà, cosicché IMAGELAB diviene una 

sottoclasse di CALIBRA, pur mantenendo rispetto a quest’ultima il più stretto grado di 

information hiding. In effetti, da un punto di vista concettuale e di ruolo dei due moduli, 

questa trasformazione non è pienamente condivisibile. Tuttavia il motivo principale per 

fare ciò è la ricerca di efficienza nell’accesso ai dati delle tabelle. L’impostazione del 

progetto è quindi orientata agli oggetti, cosa che come vedremo permette anche 

un’efficace gestione delle tabelle del modulo MATRICI implementato come classe. 

Attraverso la Textual Design Notation, diamo ora una descrizione più formale e 

completa dei moduli realizzati, a partire dalla definizione di alcuni tipi di dato utili a tali 

moduli. 

Type posizione; 

Made of xspazio:integer; 

yspazio:integer; 

-- variabili di definizione delle coordinate di un punto spaziale 

61

stato:integer; 

-- variabile di stato della struttura dati. 

End posizione; 

Type pixel; 

Made of xpixel:integer; 

ypixel:integer; 

-- variabili di definizione delle coordinate di un pixel 


-- variabile di stato della struttura dati 

End pixel; 

Type distanza; 

Made of raggioSpazio:integer; 

raggioImmagine:integer; 

-- variabili di definizione di una corrispondenza radiale tra distanze nella 

superficie di deprospettizzazione e nell’immagine 


-- variabile di stato della struttura dati 

End posizione; 

Type pixelpgm; 

Made of integer; 

-- Per comodità ridefinisco il tipo integer come pixelpgm 

End pixelpgm; 

Type pixelppm; 

Made of R:integer; 

G:integer; 

B:integer; 

-- queste cono le componenti di Red Green Blue dei pixel dell’immagine ppm. 

End pixelppm; 

62

Ed ora passiamo ai moduli del sistema: 

Generic module MATRICI; 

-- E’ una classe generica che permette la creazione run-time e la gestione degli 

accessi a matrici bidimensionali di dati di tipo TipoMatrice. 

-- Deve fornire le funzionalità di allocazione di matrici di dimensioni definite a 

run time, l’accesso in lettura e scrittura, la liberazione della memoria. 

Exports Procedure crea(xmatrice:integer, ymatrice:integer); 

-- alloca una matrice di dimenzione xmatrice, ymatrice 

Function accedi(x:integer, y:integer): TipoMatrice &; 

-- che permette di accedere ad un elemento della matrice. 

Procedure libera(); 

-- che semplicemente libera la memoria allocata. 

Implementation 

-- per rendere veloce ed efficiente l’accesso alle matrici allocate bisogna rendere 

inline i metodi di accesso. 

-- una buona implementazione dei metodi di accesso richiede l’overloading 

dell’operatore di normale accesso agli array. 

End MATRICI; 

Module CALIBRA; 

-- E’ il modulo centrale che genera e gestisce l’accesso alle tabelle del sistema 

-- Fornisce le funzionalità di: generazione delle tabelle, lettura e scrittura delle 

tabelle su file, accesso alle tabelle da utente esterno. 

Uses MATRICI; 

-- qui MATRICI viene usato per la rappresentazione della tabella di inversione 

prospettica e della tabella di localizzazione. 

-- TipoMatrici assume i valori “pixel” per la prima e “posizione” per la seconda. 

Exports Function Xspa(): integer; 

Function Yspa(): integer; 

Function Ximm(): integer; 

63

Function Ximm(): integer; 

-- questi metodi permettono ai moduli di utilizzo del presente di conoscere le 

dimensioni dell’area di piano di interesse e delle immagini su cui il modulo 

lavora. 

Procedure Calibra(file ingresso:string); 

-- si pone come procedura di costruzione dell’oggetto, lettura del file di dati di 

ingresso e a seconda di questo esecuzione di uno dei metodi per la 

calibrazione (non elencati di seguito). Contempla anche il caso di lettura delle 

tabelle da file. 

Procedure Genera_tabella_localizzazione(); 

Procedure Legge_tabella_localizzazione(nome file:string); 

Procedure Salva_tabella_prospettica(nome_file:string); 

Procedure Salva_tabella_localizzazione(nome_file:string); 

Function Accedi_tabella_prospettica(xspazio: intero, yspazio: intero): type 

pixel; 

-- Accede ad una struttura di descrizione del pixel legata ad un punto spaziale 

Function Accedi_tabella_localizzazione(xpixel: intero, ypixel: intero): type 

pixel; 

-- Accede ad una struttura di descrizione del punto spaziale legato and un pixel 


-- i due metodi di accesso alle tabelle non eseguono controlli sulla correttezza 

dei parametri attuali, perdendo quindi in sicurezza, ma guadagnando in velocità 

di accesso, punto questo fondamentale nelle applicazioni in campo visivo. In 

ogni caso vengono forniti dal modulo tutti i dati necessari per fare eventuali 

controlli dall’esterno: cioè le dimensioni delle immagini e dell’area di piano 

trattati. 

End CALIBRA; 

Generic module IMAGELAB inherits CALIBRA; 

-- E’ il modulo di utilizzo delle tabelle di sistema. 

-- Deve fornire le funzionalità di lettura delle immagini di input, generazione 

delle immagini di output, e di salvataggio delle stesse. 

64

Uses MATRICI; 

-- qui MATRICI viene usato per la rappresentazione dell’immagine di input e di 

quella di output. 

-- TipoMatrice può assumere i valori pixelppm, pixelpgm. 

Exports Procedure Leggi_immagine(file immagine:string); 

Procedure Rettifica_immagine(); 

Procedure Salva_immagine(file immagine:string); 

-- tutti e tre questi metodi sono ridefiniti per ogni tipo di immagine supportata. 

-- in particolare TipoImmagine può assumere il valore pixelppm e pixelpgm; 


-- l’elaborazione delle immagini dovrebbe avvenire tramite l’accesso alle tabelle 

di CALIBRA per ottenere le corrispondenze tra immagine di input e immagine 

di output. 

Infatti la posizione di un pixel nell’immagine di output corrisponde alla 

posizione dell’oggetto da esso rappresentato se esso si trova sul piano di 

riferimento. 

End IMAGELAB; 

Per quanto riguarda in particolare la rettificazione delle immagini, questa avviene 

semplicemente creando una nuova immagine dello stesso formato (cioè grayscale o 

RGB) nella quale ad ogni pixel venga fatta corrispondere la descrizione di una cella del 

piano di riferimento con uguali coordinate. L’algoritmo consiste semplicemente nel 

consultare per ogni cella dello spazio (e quindi per ogni pixel dell’immagine di output) 

la tabella di inversione prospettica. Questa ci fornisce la posizione del pixel 

dell’immagine di input (II) nel quale leggere i valori di luminosità da assegnare al pixel 

dell’immagine di output (IO): 

IO[X][Y] = II[ M[X][Y].xpixel ][ M[X][Y].ypixel ], 

con riferimento al simbolismo utilizzato nel capitolo precedente (2.4.1.) 

e considerando che nel progetto sviluppato Mx e My sono unite 

in una stessa struttura dati M, la tabella di inversione prospettica. 

65

2.4.3. La misura del coefficiente di distorsione radiale 

Viene fatto qui un breve cenno alla tecnica utilizzata per il recupero della distorsione 

radiale introdotta dall’ottica delle telecamere. Come già spiegato in capitoli precedenti, 

l’ottica delle telecamere introduce una distorsione che, generalmente, quando l’angolo 

di apertura non sia molto elevato, può essere approssimata con una distorsione 

ellissoidale. In questo caso limitiamo il nostro breve studio al caso particolare ma 

frequente di distorsione sferica. Distorsione sferica significa che potremmo immaginare 

l’immagine come su un foglio di carta il cui centro sia appoggiato ad una sfera (e tale 

quindi da piegarsi e assumere una forma arrotondata). Per poter recuperare la 

distorsione e vedere nell’immagine una corretta rappresentazione della scena bisogna 

compiere un’operazione equivalente a prendere i vertici del foglio di carta e tenderli in 

modo da raddrizzare il foglio stesso. 

Trascurata ogni componente tangenziale, la distorsione può essere identificata da un 

singolo parametro, coefficiente di distorsione radiale K e per “tendere il foglio” risulta 

sufficiente applicare una espansione dell’immagine secondo le semplici formule 

presentate nel paragrafo 2.3.1. 

Il parametro K generalmente non è noto e per poter semplificare la sua misura è stato 

realizzato un software che permette di mostrare in tempo reale il risultato 

dell’espansione dell’immagine dato un certo valore di K e di far variare quest’ultimo a 

piacimento. In questo modo, utilizzando un’immagine di un pattern noto (ad esempio 

una griglia di righe), è possibile ricercare un buon valore per K facendolo variare fino a 

che l’immagine espansa risulti rispettare la geometria del pattern (ossia quando le righe 

della griglia siano diritte). Nelle due immagini seguenti (figura 2.34 e figura 2.35) sono 

riportate l’immagine originale e quella espansa (nell’immagine dell’interfaccia grafica 

del software realizzato) dove per pattern di esempio si sono utilizzate le righe di 

separazione fra le piastrelle di un pavimento. 

66


Si può notare come, mentre le righe nell’immagine di sinistra sono leggermente distorte 

e quindi non perfettamente rettilinee, nella seconda immagine (dove l’espansione è 

responsabile delle linee nere) la distorsione è stata recuperata. 

67

Capitolo 3. 

Calibrazione di un sistema binoculare 

3.1. La visione stereo 

Le differenti prospettive sotto le quali i nostri due occhi vedono, determinano delle 

piccole differenze (disparità stereo) nel posizionamento degli oggetti osservati nelle due 

singole viste monoculari della scena. Il sistema visivo umano è in grado di utilizzare 

queste disparità per stimare la profondità della scena e la distanza, forma e posizione 

relativa degli oggetti. Le due viste monoculari vengono unite e rielaborate in una 

rappresentazione non più bidimensionale ma tridimensionale della scena osservata. 

La visione stereoscopica è stata approfonditamente studiata per molto tempo e il 

problema fondamentale alla sua base è l’estrazione di informazioni stereoscopiche 

elementari a partire dalle immagini acquisite: bisogna poter associare ad ogni pixel 

dell’immagine di destra un pixel (rappresentante la stessa parte di un oggetto) di quella 

di sinistra, ottenendo in questo modo una indicazione (dipendente dalle posizioni di 

questi due pixel) sulla disparità tra le due immagini. Ottenere una corretta e veloce 

stima delle disparità è reso difficile dal fatto che ulteriori ingenti differenze tra le due 

viste emergono a causa di fenomeni quali l’occlusione tra oggetti, le riflessioni 

speculari, ecc. 

A prima vista questo problema è di natura bidimensionale, cosa che complicherebbe 

ancora di più la sua soluzione, ma in realtà, con semplici considerazioni, è possibile 

trasformare il problema in monodimensionale: da un’analisi della geometrica del 

sistema risulta che punti corrispondenti di oggetti 3D sono rappresentati nelle due 

immagini su specifiche linee dette linee epipolari. Quindi, data una riga dell’immagine 

68

di destra, ad essa competerà una linea dell’immagine di sinistra secondo una relazione 

dipendente dalla geometria del sistema e la ricerca delle disparità potrà limitarsi ad una 

ricerca e ad un matching di discontinuità di colore o intensità su righe, alla soluzione 

quindi di un problema monodimensionale. Evidentemente questo richiede una 

calibrazione del sistema binoculare per recuperare le distorsioni introdotte dalle ottiche 

e per mettere in relazione tra di loro le righe delle immagini. 

Quello appena descritto è il caso classico di calibrazione di un sistema binoculare. Nel 

nostro caso specifico, in realtà, la situazione è diversa: il procedimento seguito si basa 

sul modello dell’inversione prospettica e quindi, limitandosi all’estrazione di 

informazioni stereo legate ad un solo specifico piano (gli oggetti o giacciono sul piano o 

non ne fanno parte), non serve cercare le disparità dei singoli pixel ma basta operare una 

sottrazione pixel a pixel delle due immagini, per poi analizzarne le differenze. Prima di 

analizzare i particolari del processo di calibrazione, vale la pena di notare come in ogni 

caso, anche non adottando il modello dell’inversione prospettica, non avremmo potuto 

operare con la tecnica suddetta dato che lo specchio utilizzato nel catadiottro non 

presenta un singolo punto prospettico. Non sarebbe stato quindi possibile (se non 

passando per un processo di calibrazione assai più complicato) giungere a immagini 

prospettiche pure, passo indispensabile affinché valga il principio delle linee epipolari. 

Il problema di calibrazione binoculare è in realtà molto più semplice di quello basato sul 

metodo delle linee epipolari. Dall’inversione prospettica delle due immagini stereo, si 

generano due descrizioni (mappe) del piano di riferimento del pavimento, che 

coincidono laddove rappresentano qualcosa che effettivamente risiede su questo piano, 

e differiscono laddove invece si presenta un oggetto che emerge dal piano: la 

calibrazione stereo consiste solamente nell’identificare quali pixel debbano essere 

confrontati con quali, tenendo conto che le due immagini rettificate possono avere scale 

diverse (ossia la porzione di piano rappresentata da un pixel può non essere la stessa per 

entrambe le immagini). La soluzione sarà utilizzare per il confronto una semplice rototraslazione 

di una immagine rispetto all’altra (con un’eventuale fattore di scala). 

Vedremo nel prossimo paragrafo come questa soluzione è stata realizzata nel nostro 

sistema. 

69

Come ultima considerazione si noti che il calcolo della disparità stereo, evidentemente 

possibile per ogni punto dell’immagine nel caso in cui si abbiano due telecamere 

tradizionali, non è così immediata nel nostro caso specifico: la presenza dello specchio 

fa sì che nell’immagine da catadiottro ogni pixel sia legato ad una prospettiva differente 

e dipendente dall’orientazione del piano tangente allo specchio nel punto di riflessione 

per il quale passa il fascio luminoso che genera il pixel stesso. Quindi, se la telecamera 

superiore fosse posizionata con il centro ottico nelle vicinanze dell’asse ottico del 

catadiottro, potrebbe verificarsi che per alcuni pixel le due prospettive coincidano e 

quindi in loro corrispondenza si avrebbe l’annullamento delle differenze stereo. Per 

scongiurare questa eventualità la telecamera superiore è stata posizionata lateralmente 

rispetto a quest'asse. 

70

3.2. Soluzione roto-traslazionale 

Come detto, entrambe le immagini rettificate sono una rappresentazione di una porzione 

del piano di riferimento. Di esse, basta prendere in considerazione la parte in comune. 

In figura 3.1 è rappresentato il campo visivo delle due telecamere: in giallo quello del 

catadiottro, in blu quello della telecamera frontale e in verde la parte in comune. “C” è 

la proiezione sul pavimento del centro ottico della telecamera frontale ed “A” 

l’intersezione dell’asse ottico del catadiottro con il pavimento. In questa immagine è 

stato volutamente allungato il campo visivo della telecamera frontale per mostrare come 

sia possibile sovrapporre solamente una parte di questo; in realtà tutto il campo visivo 

della telecamera frontale è contenuto in quello del catadiottro. 

Figura 3.1 

Nelle figure 3.2 e 3.3 rispettivamente, sono invece presentate le immagini rettificate da 

catadiottro e da telecamera frontale ottenute da una scena del campo Robocup. In esse si 

ha una rappresentazione delle due rispettive porzioni del piano del pavimento 

inquadrato. Si fissi un sistema di riferimento xoy per la telecamera frontale centrato in C 

e con asse y direzionato come la bisettrice del campo visivo, e uno XOY per il 

catadiottro (ma potrebbe essere un qualsiasi sensore) centrato in A e con asse Y 

71

direzionato verso il fronte convenzionale del robot e infine un terzo sistema di 

riferimento apb del robot, anch’esso per localizzare punti sul piano di riferimento e con 

b direzionato esattamente come Y. Notiamo che nel caso considerato (ma questo non 

sarà vero in generale) il sistema di riferimento del robot coincide con quello del 

catadiottro. Obiettivo della calibrazione stereo è di trovare quelle trasformazioni dei 

sistemi di riferimento dei due sensori visivi che li porta a coincidere con il sistema di 

riferimento del robot. Queste trasformazioni sono delle roto-traslazioni definite da tre 

parametri: R è la rotazione in radianti, Dx la coordinata sull’asse a (quello del sistema di 

riferimento del robot) del centro del sistema di riferimento in questione (O o o), Dy 

analogamente sull’asse b (si veda la figura 3.4 come esempio per un singolo sistema di 

riferimento). Questi parametri, per ognuno dei due sensori ottici, si possono determinare 

nel seguente modo: 

a) si posiziona un pattern predefinito (come può essere quello rappresentato in figura 

3.2) in una posizione nota rispetto al sistema di riferimento del robot, e quindi si 

conoscono le posizioni di certi punti (ad esempio (a p ,b p ) per il punto P) del pattern 

rispetto al sistema apb; 

b) si acquisisce un’immagine per sensore visivo; 

c) si estrapolano dalla rettificazione di queste le posizioni relative ai sistemi di 

riferimento xoy e XOY dei punti corrispondenti ((x p , y p ) e (X p ,Y p )). 

In questo modo abbiamo ottenuto dei campioni delle due trasformazioni di sistema di 

riferimento che cerchiamo. Se il sistema fosse esente da rumore e da errori di 

quantizzazione basterebbero tre punti per identificare i tre parametri richiesti per la 

trasformazione (sarebbe un semplice sistema lineare a tre equazioni e tre incognite), ma 

poiché questo non accade conviene campionare su un numero maggiore di punti 

(multiplo di tre) e, ad esempio, mediare i valori ottenuti per R, Dx, Dy da diverse terne 

di campioni. O come alternativa meno empirica utilizzare la tecnica dei minimi quadrati 

per minimizzare gli errori sui valori dei parametri. 

72


Figura 3.4 

73

Capitolo 4. 

L’elaborazione delle immagini 

e l’obstacle detection 

4.1. Utilizzazione di HOPS per problemi di visione artificiale 

Il sensore HOPS realizzato prevede, come abbiamo visto, da una parte la possibilità di 

impiego del catadiottro per un’analisi poco particolareggiata ma globale della scena 

circostante: applicazioni quali l’auto-localizzazione, la ricerca su tutta la regione 

circostante al sistema di eventuali elementi di interesse, come potrebbe essere il pallone 

in una partita della Robocup, trovano grossi vantaggi nell’uso di un sensore di quel tipo. 

Mentre l’altra telecamera può essere utilizzata per un’analisi a maggiore risoluzione 

della scena presente di fronte al robot. 

L’uso congiunto delle informazioni provenienti dalle due telecamere è in realtà solo una 

delle possibilità di impiego di HOPS, ed inoltre, in applicazioni di visione binoculare, 

HOPS non dà vantaggi rispetto a sensori binoculari più tradizionali. L’obiettivo 

primario del lavoro svolto nell’analisi delle immagini è stato quello di riconoscere la 

presenza di ostacoli nello spazio visivo comune ai due sensori di cui HOPS si avvale, 

quindi un utilizzo da sistema binoculare. Questa, chiaramente, è un’applicazione 

centrale per la navigazione di robot mobili e quindi componente fondamentale per la 

costruzione di un qualsiasi sistema di visione completo. A seconda della specifica 

applicazione e dello specifico ambiente di lavoro, bisognerà implementare un insieme di 

routines che completino l’insieme delle funzionalità necessarie allo scopo. 

74

4.2. Algoritmi utilizzati e risultati conseguiti 

Il meccanismo di riconoscimento degli ostacoli proposto si basa sulla tecnica della 

prospettiva inversa che è stata analizzata nel paragrafo 2.1.2. Allo scopo di ottenere 

informazioni riguardanti la presenza di ostacoli e quindi l’entità dell’area camminabile, 

una valida alternativa allo studio delle disparità stereo su linee epipolari, già esplorata in 

alcuni studi ([Adorni et al., 2000a], [Bertozzi e Broggi, 1996], [Mallot et al., 1991a], 

[Onoguchi et al.,1998], si veda inoltre la sezione sulla tecnica della prospettiva inversa), 

è quella di rettificare entrambe le immagini e, grazie ad una calibrazione del sistema 

binoculare (si veda a riguardo il terzo capitolo), di confrontarle direttamente: 

l’operazione di recupero della prospettiva è svolta rispetto al piano del pavimento 

(ipotizzato orizzontale), e quindi entrambe le immagini rettificate saranno identiche 

nella loro rappresentazione di ciò che risiede sul pavimento stesso, mentre tutto ciò che 

emerge da questo piano (gli ostacoli) subirà una distorsione dipendente dalla prospettiva 

dalla quale si osserva la scena, cioè una distorsione che risulta essere diversa per le due 

diverse telecamere. Una semplice ricerca delle differenze tra le due immagini pixel a 

pixel fa quindi emergere informazioni sugli ostacoli presenti. Si tratta dunque a quel 

punto di interpretare le informazioni emerse per giungere all’identificazione degli 

ostacoli veri e propri. 

Nei prossimi paragrafi saranno messe in luce le principali tecniche di elaborazione ed 

analisi delle immagini utilizzate. In particolare queste saranno suddivise in: 

− fase di pre-processing, costituita da tutte le elaborazioni che a partire dalle immagini 

acquisite cercano di accentuare l’informazione di basso livello, e ridurre il rumore. 

− fase di segmentazione e di interpretazione, nella quale, da una parte, si cerca di 

identificare regioni e di darne una descrizione e classificazione, dall’altra si cerca di 

ragionare sulle caratteristiche delle regioni individuate per ottenere una 

interpretazione della scena osservata (in questo caso l’area camminabile). 

75

4.2.1. Fase di pre-processing 

Obiettivo di questa prima fase di elaborazione delle immagini è di far emergere e 

marcare le regioni in cui le due immagini rettificate sono diverse, a causa della presenza 

di un ostacolo. Le due telecamere operano in condizioni diverse sia di illuminazione, 

che di area inquadrata. Inoltre nel prototipo realizzato la situazione è aggravata dal fatto 

che i due sensori CCD hanno delle curve di sensibilità alla luce diverse ed entrambe 

utilizzano un sistema di bilanciamento automatico del bianco, problemi che comunque 

possono essere eliminati o limitati al momento della realizzazione dell’apparato 

definitivo. Quindi non può bastare un semplice e immediato confronto tra le due 

immagini pixel a pixel, ma saranno necessari alcuni passi di elaborazione per ridurre il 

rumore e le differenze cromatiche con cui stessi oggetti vengono visti dalle due diverse 

telecamere. Le due seguenti (figura 4.1 e figura 4.2) sono un esempio di immagini così 

come lette dai framegrabbers, acquisite in un campo per la competizione Robocup e 

utilizzate in questa sede per una semplice descrizione degli algoritmi impiegati. 

Figura 4.1 

76

Figura 4.2 

La prima operazione che viene eseguita sulle immagini lette dai framegrabber è quella 

di inversione della prospettiva: questa operazione viene eseguita molto semplicemente 

utilizzando la look-up-table generata nella fase iniziale di calibrazione del sistema. 

Inoltre si estraggono dalle immagini rettificate quelle parti appartenenti al campo visivo 

comune, le si sottopone ad una roto-traslazione sulla base dei parametri individuati in 

fase di calibrazione stereoscopica del sensore, e si ottengono così due nuove immagini. 

Si hanno quindi tre immagini rettificate di interesse: una rappresentante tutta la regione 

del campo visivo del sensore omnidirezionale (vedi figura 4.3.), e le altre due 

rappresentanti esclusivamente quel settore del campo visivo che è comune ad entrambe 

le telecamere e riferite al sistema di riferimento del robot (vedi figura 4.4 per 

l’immagine da telecamera frontale e figura 4.5 per l’immagine da sensore omnidirezionale). 

La prima potrà essere utilizzata per compiti di auto-localizzazione e ricerca 

ad ampio raggio di oggetti di possibile interesse, le altre due vengono qui impiegate 

come coppia stereo per la ricerca di ostacoli. 

77

Figura 4.3 


78

La seconda operazione è una trasformazione dell’istogramma dell’immagine 

proveniente dal sensore catadiottrico allo scopo di renderlo il più simile possibile a 

quello dell’immagine proveniente dall’altra telecamera (chiamiamola di riferimento). 

Chiamiamo immagine iniziale quella da catadiottro originale (figura 4.4) e immagine 

trasformata il risultato dell’applicazione dell’algoritmo all’immagine iniziale. Questa 

operazione risulta essere necessaria per ridurre le differenze cromatiche con cui gli 

stessi oggetti sono rappresentati nelle due immagini (si vedano le figure 4.3 e 4.4). 

Questo è dovuto sia ai differenti campi visivi delle due telecamere, e quindi la differente 

scena rappresentata, sia dal fatto che mentre la telecamera frontale osserva direttamente 

la scena che rappresenta, il catadiottro riceve luce indiretta per riflessione dello specchio 

e filtrata dal cilindro di plexiglas della struttura. Descriviamo brevemente i passi 

dell’elaborazione eseguita: 

− l’istogramma dell’immagine iniziale viene trasformato indipendentemente sulle tre 

bande R, G, B, ipotizzando che la correlazione tra i loro andamenti sia bassa. Nel 

seguito ci riferiremo alle operazioni da svolgere su una sola delle tre bande (ad 

esempio quella del rosso R), ma il tutto è identico anche per le altre due; 

− per ogni valore p tra 0 e 255 (ossia tutti i valori di intensità che un pixel può 

assumere) l’istogramma dell’immagine trasformata dovrà avere (come risultato 

finale) che il suo integrale da 0 a p sia il più vicino possibile all’integrale sullo stesso 

intervallo dell’istogramma dell’immagine di riferimento; 

− per ottenere questo si dovrà operare questa integrazione da 0 a p (ottenendo valore 

T) prima sull’immagine di riferimento, e poi andare a cercare nell’istogramma 

dell’immagine iniziale per quale valore q si ottiene l’integrale nell’intervallo (0..q) 

di valore più vicino a T; 

− grazie ad una integrazione su intervalli di dimensione crescente (da 0 a 255), si 

ottiene quindi una funzione q(p). Ecco che la trasformazione dell’istogramma 

consisterà semplicemente nel modificare le intensità dei pixel dell’immagine 

trasformante sulla base della relazione q(p) ottenuta: da esse si può infatti 

suddividere l’istogramma in intervalli delimitati dai valori q(i) con i da 0 a 255, 

ossia il primo intervallo (per i = 0) sarà [0...q(0)], l’n-esimo (n=i+1) sarà pari a: 

] q(n-2) … q(n-1) ] 

79

Ad ogni pixel con intensità, sulla banda in questione, compresa nell’intervallo n- 

esimo verrà assegnato un nuovo valore di intensità pari a i=n-1. 

Si è scelto di operare questa trasformazione sull’immagine da catadiottro perché questa 

presenta tipicamente un istogramma con valori molto bassi nelle regioni estreme, di 

bassa e alta intensità, quindi minor contrasto. Grazie a questa operazione si rendono le 

due immagini (quella di riferimento e quella trasformata) il più simili possibile sia dal 

punto di vista cromatico che del contrasto. Faccio notare che questa elaborazione viene 

eseguita tra due immagini che, a parte piccole differenze legate alla distorsione della 

prospettiva inversa sugli ostacoli, inquadrano la stessa porzione di una scena e quindi 

rappresentano gli stessi oggetti e lo stesso sfondo, cosa necessaria per poter considerare 

fondato l’algoritmo stesso. Il risultato può essere evidenziato dal confronto tra le due 

immagini in figura 4.6 e figura 4.7: la prima è la stessa immagine di figura 4.3, la 

seconda è il risultato dell’applicazione di questa trasformazione all’immagine in figura 

4.4. 


Per evidenziare meglio il risultato ottenuto è interessante osservare gli istogrammi delle 

due immagini iniziali, quelle in figura 4.4 e in figure 4.3, rispettivamente nella figura 

4.8 e nella figura 4.9, e l’istogramma ottenuto dalla trasformazione (e quindi relativo 

all’immagine in figura 4.7) in figura 4.10. 

80

Figura 4.8 

Figura 4.9 

Figura 4.10 

81

Si noti come tramite la trasformazione suddetta gli istogrammi delle tre componenti 

dell’immagine da catadiottro vengano espansi e assumano un profilo molto simile a 

quello dell’istogramma dell’immagine da telecamera frontale. 

Nella terza fase viene generata una nuova immagine a partire dal confronto diretto delle 

altre due: si calcola cioè la differenza di intensità pixel a pixel nelle tre diverse bande di 

colore. Detti C 1 e C 2 i colori dei due pixel in esame si ottengono le seguenti differenze 

dR=|R 1 -R 2 |, dG=|G 1 -G 2 |, dB=|B 1 -B 2 |. Tra dR, dG, dB si sceglie poi la più alta 

(chiamiamola dM) e si opera su di essa una sogliatura ad un valore S, cosicché dM=0 

per Max{dR,dG,dB} < S, dM = Max{dR,dG,dB} per Max{dR,dG,dB} = S. Per rendere il 

valore S dipendente dall’ambiente specifico e dall’illuminazione, lo si è reso pari al 

valore medio delle intensità medie (Im) delle due immagini: S = Im. Questa uguaglianza 

si è dimostrata valida, permettendo una buona separazione dell’informazione dal rumore 

in tutti gli ambienti in cui si è effettuato un test del sistema. Il valore di dM infine 

rappresenta l’intensità del tono di grigio della nuova immagine generata. Nelle due 

immagini proposte in figura 4.11 e in figura 4.12, viene mostrato prima il risultato di 

questo confronto nelle sue tre componenti R, G, B e poi l’immagine generata con i 

valori dM. 


82

Nell’immagine ottenuta dal confronto, si possono evidenziare regioni tipicamente legate 

al diverso posizionamento dei confini laterali degli ostacoli nelle due immagini 

rettificate. Si tratta quasi sempre di regioni allungate e posizionate verticalmente 

nell’immagine. E’ presente ancora una notevole quantità di rumore che in questo ultimo 

passo della fase di pre-processing si cerca di ridurre tramite l’applicazione di un filtro 

che cerca di individuare ed evidenziare regioni localmente compatte e con estensione 

verticale, e di cancellare o ridurre di intensità regioni estese prevalentemente in 

orizzontale e poco compatte, come ad esempio piccoli gruppi di pixel isolati. 

Il filtro opera su una finestra di lato pari a nove pixel e modifica l’intensità del pixel 

centrale in base ai valori di pixel situati in posizioni particolari in un suo intorno. 

Nell’immagine in figura 4.13 viene presentato uno schema dei pixel presi in 

considerazione da questo filtro, colorati a seconda del loro ruolo: il pixel nero è quello 

di riferimento al quale il filtro è applicato, dai valori di intensità letti nei pixel gialli si 

ottengono informazioni sull’estensione locale verticale verso il basso e da quelli azzurri 

verso l’alto, da quelli rossi sull’estensione locale orizzontale e da quelli verdi 

sull’appartenenza del pixel ad una “regione estesa”. Dall’uso del termine “estensione” 

emerge l’ipotesi iniziale fatta dal filtro che ogni pixel di riferimento sia parte di una 

regione a intensità non nulla (una di quelle emerse dall’analisi delle differenze del passo 

precedente e mostrate in figura 4.12), e questo indipendentemente dal valore di intensità 

del pixel di riferimento stesso. A seconda dei valori letti nei vari gruppi di pixel, e sulla 

base di semplici euristiche il filtro conferma o smentisce questa ipotesi. 

Figura 4.13 

83

Dato che l’immagine di input del filtro ha già subito una sogliatura che ha azzerato tutti 

i valori più bassi dell’intensità media dell’immagine (vedi passo precedente), per 

ognuno dei gruppi di pixel (mostrati in figura 4.13) si opera un semplice conteggio del 

numero di pixel non nulli, ottenendo come risultato contA, contG, contV e contR, 

rispettivamente contatori del gruppo degli azzurri, dei gialli, dei verdi, dei rossi. 

Ognuno di questi contatori ha un suo valore massimo pari al numero di pixel del gruppo 

relativo (mA, mG, mV, mR). Inoltre viene ricercato il valore di intensità più alto (M) tra 

tutti quelli letti. L’intensità del pixel centrale viene modificata in due possibili 

situazioni: 

1. se i valori rilevati mostrano la possibile presenza di una regione di intensità non 

nulla che si estende localmente in verticale e poco in orizzontale, l’intensità del 

pixel centrale viene elevata al valore letto più alto M. In particolare questo avviene 

applicando la regola: 

if ((contA = (mA/2)) AND (contG = (mG/2)) AND (contR < (mR/2)) AND (contV 

< (mV/2))) 

then (intensità del pixel di riferimento = M) 

2. se la situazione che si può ipotizzare a partire dai pixel considerati è quella di una 

regione localmente non estesa in verticale e poco compatta, l’intensità del pixel 

centrale viene azzerata. In particolare si applica la regola: 

if ((contA = 0) AND (contG = 0)) 

or if ( ((contA = 0) OR (contG = 0)) AND (contR > (mR/2)) ) 

then (intensità del pixel di riferimento = 0) 

Si noti come l’unico momento in cui il valore dell’intensità del pixel di riferimento è 

usato nell’algoritmo è durante la ricerca del valore massimo M. 

Questo filtro è stato testato in innumerevoli situazioni e ha sempre dato un buon 

risultato di abbassamento del rumore. Infine l’immagine viene trasformata da toni di 

grigio a bianco e nero utilizzando una soglia di valore molto basso fissato a 10. Il 

risultato ottenuto è presentato in figura 4.14. 

84

Figura 4.14 

85

4.2.2. Fase di segmentazione e di interpretazione 

Queste due fasi, sebbene concettualmente distinte, sono presentate insieme poiché nel 

lavoro svolto procedono di pari passo. L’immagine generata nella precedente fase di 

pre-processing (si veda figura 4.14) contiene tutta l’informazione disponibile sui 

possibili ostacoli presenti nella scena, di cui evidenzia sostanzialmente, tramite le 

regioni di differenza emerse, parte dei contorni. 

Come primo passo, per individuare, distinguere e poter poi studiare le regioni 

differenza, si opera una segmentazione di tipo blob-coloring (basata su connettività a 

otto vicini) delle regioni bianche evidenziate nell’immagine (figura 4.14). La fase di 

interpretazione si basa sostanzialmente su euristiche per la classificazione delle regioni 

ottenute da questa segmentazione, e per la loro combinazione. Tipicamente la presenza 

di un ostacolo può produrre nella fase di segmentazione dell’immagine due o più 

regioni distinte, che sarà necessario combinare tra loro, associandole ad uno stesso 

ostacolo . 

Analizziamo brevemente le fasi di questa elaborazione. Definiamo due sistemi di 

riferimento legati all’immagine da elaborare: il primo (xoy) semplicemente centrato sul 

pixel in alto a sinistra dell’immagine (a cui fanno riferimento le coordinate di tutti i 

pixel esaminati) con assi direzionati positivamente verso il basso per le y, e verso destra 

per le x. Poiché l’immagine è rettificata e ogni pixel è quindi la descrizione di una ben 

nota regione del piano di riferimento, possiamo utilizzare un secondo sistema di 

riferimento (XOY) coincidente con quello del robot, quindi centrato sul robot stesso, e 

utilizzato per definire le posizioni relative al robot degli oggetti descritti dai pixel. 

Definiamo inoltre la sensibilità Sens associata all’immagine come il lato del quadrato di 

superficie del pavimento descritto da un pixel dell’immagine stessa (pari, nel nostro 

caso, a 2cm). 

Tra tutte le regioni differenza, segmentate con la tecnica di blob-coloring, quelle 

costituite da pochi pixel (meno di 25) vengono subito eliminate come siano rumore. Per 

86

tutte le altre vengono calcolati una serie di parametri per le successive fasi di 

elaborazione. Vediamoli: 

− posizione dell’apice inferiore (x 1 ,y 1 ), ossia il punto della regione più in basso (se ne 

è presente più di uno sulla stessa riga, il centrale); 

− posizione di un eventuale secondo apice inferiore (x 2 ,y 2 ) rilevato in base alla 

seguente euristica: il pretendente secondo apice, pixel (x,y), deve appartenere alla 

regione in questione, si deve avere che, invece, tutti i pixel della riga sottostante 

(y+1) con valore x compreso tra (x-3) ed (x+3) non appartengono alla regione, e 

infine la distanza tra (x 1 ,y 1 ) e (x 2 ,y 2 ) sia maggiore di (10/Sens) (per evitare che i due 

apici portino la stessa informazione). Tra tutti gli eventuali pretendenti al ruolo di 

secondo apice si sceglie quello con distanza angolare maggiore dal primo apice 

rispetto all’origine del sistema di riferimento del robot (ossia con il massimo angolo 

(X1,Y1)-O-(X,Y)). Il calcolo di questo secondo apice inferiore è utile per l’analisi di 

regioni differenza che comprendono entrambi i confini laterali degli ostacoli ad esse 

associati. 

− posizione dell’apice superiore (x s ,y s ); 

− altezza A = sqrt((x s -x 1 )² + (y s -y 1 )²); 

− larghezza media Lm, definita come la media su tutte le righe comprese tra y s e y 1 

(ossia su tutta l’altezza) della distanza tra il primo e l’ultimo pixel appartenenti alla 

regione; 

− larghezza massima LM, definita come la massima tra le distanze tra il primo e 

l’ultimo pixel della regione su tutte le righe comprese tra y s e y 1 . 

− posizione del baricentro della regione (x b ,y b ), come semplice media pesata sulla 

larghezza della regione riga per riga; 

− ad entrambi i lati (destro e sinistro) della regione differenza si individua un insieme 

di pixel di test: per ogni riga (y i ) compresa tra y s e y 1 si scelgono come punti per le 

suddette statistiche (x Si ,y i ), per l’insieme sul lato sinistro e (x Di ,y i ) per l’insieme sul 

lato destro, tali che (x Si +2,y i ) è il primo pixel della regione sulla riga, e (x Di -2,y i ) è 

l’ultimo pixel della regione sulla riga. Su questi insiemi di pixel, presi però 

dall’immagine rettificata proveniente dal catadiottro in figura 4.7, vengono poi 

87

calcolate alcune statistiche: il colore medio destro CmD (nelle sue componenti RmD 

– valore medio della banda del rosso a destra, GmD, BmD) e il colore medio sinistro 

CmS (nelle sue componenti RmS – valore medio della banda del rosso a sinistra, 

GmS, BmS); l’intensità media destra ImD e sinistra ImS e la loro varianze VmD 

(varianza media dell’intensità sul lato destro) e VmS; infine la variazione media del 

colore, tra i pixel di test (ad esempio (x Si ,y i )) ed i pixel sottostanti (quindi 

(x Si ,y i +1)), di destra (FmD) e di sinistra (FmS): 

FmD = [ ? Dc( Im(x Di ,y i ) , Im(x Di ,y i +1) ) ] / N 

N è il numero di punti dell’insieme di test di destra, Im(x,y) è il colore RGB del pixel 

(x,y) dell’immagine rettificata da catadiottro in figura 4.7, Dc è la funzione di 

appartenenza alla classe fuzzy di differenza colore di cui si parlerà in seguito, e la 

sommatoria è estesa a tutti i pixel del gruppo di test in questione. 

Si opera quindi una classificazione delle regioni in base ad alcuni dei parametri elencati: 

la loro larghezza media Lm, la loro altezza A, nonché la media delle loro altezze A e la 

loro variazione di spessore lungo l’altezza (semplicemente stimata tramite la differenza 

tra Lm e LM). E’ da notare come la maggior parte delle situazioni incontrate nei test ha 

prodotto in termini di queste regioni differenza, delle classi di regioni ben definite e 

facilmente gestibili per l’identificazione degli ostacoli: 

1) regioni lunghe ((A > 0.7A) OR (A > 110/Sens)) e spesse (Lm > 40/Sens) o con 

variazioni elevate dello spessore (LM > 2Lm), che presentino in ogni caso un 

secondo apice (x2,y2), che nella maggior parte dei casi, estendendosi lungo due o 

più lati dell’ostacolo ne permettono da sole l’identificazione: 

if { [(A > 0.7A) OR (A > 110/Sens)] AND [(Lm > 40/Sens) OR (LM > 2Lm)] } 

AND [(x2,y2) è definito] 

2) regioni lunghe ((A > 0.7A) OR (A > 110/Sens)) e sottili (Lm = 40/Sens) e con 

variazioni basse dello spessore (LM = 2Lm), o che comunque presentino un solo 

apice inferiore, che richiedono quasi sempre di essere combinate con altre regioni al 

fine di individuare l’ostacolo, e che quindi vengono considerate per prime nella 

88

successiva fase di matching: 

if { [(A > 0.7A) OR (A > 110/Sens)] AND [((Lm = 40/Sens) AND (LM = 2Lm)) 

OR ((x 2 ,y 2 ) non è definito)] } 

3) regioni corte ((A = 0.7A) AND (A = 110/Sens)) e con un basso rapporto 

altezza/spessore medio (Lm = 0.16A), che vengono interpretati come parte di piccoli 

ostacoli da individuare attraverso l’espansione della regione stessa (i piccoli ostacoli 

difficilmente generano regioni differenze su entrambi i lati da combinare, ma 

piuttosto dei blob che ricoprono parte dell’oggetto stesso): 

if { [(A = 0.7A) AND (A = 110/Sens)] AND (Lm = 0.16A) } 

4) regioni corte ((A = 0.7A) AND (A = 110/Sens)) e con un elevato rapporto 

altezza/spessore medio (Lm < 0.16A), che vengono interpretati come regioni 

analoghe a quelle del tipo sub 2), ma che essendo più corte sono meno attendibili e 

quindi rivestiranno un ruolo secondario nella fase di matching: 

if { [(A = 0.7A) AND (A = 110/Sens)] AND (Lm < 0.16A) } 

Per cercare di rendere più limitato l’insieme delle regioni differenza e quindi 

semplificare le successive fasi di interpretazione, viene utilizzata una tecnica di 

estensione delle regioni dei casi sub 2) e sub 4) allo scopo di cercare di collegarle ad 

altre analoghe con stessa orientazione e simili colorazioni ai lati (ossia ipotizzando che 

siano legati allo stesso ostacolo). In particolare l’algoritmo prevede di estendere verso 

l’alto (per una lunghezza limitata a 30/Sens pixel) la regione in questione lungo la 

direzione tan(ang1) riferita al sistema di coordinate del robot e indicata dalla retta 

passante per il suo apice superiore (x s ,y s ) e il suo baricentro (x b ,y b ). Nel caso in cui 

durante questa operazione si incontri un’altra regione differenza appartenete al caso sub 

2), sub 3) o sub 4), si dovrà ipotizzare o meno l’appartenenza delle due regioni allo 

stesso ostacolo. Ciò avviene se: 

− la direzione tan(ang2) della seconda regione definita nel sistema di riferimento del 

robot come la direzione della retta passante per l’apice inferiore (x 1 ,y 1 ) e il baricentro 

(x b ,y b ) della seconda regione, è tale che: 

ang1 – ang2 < 0.2 rad; 

− i colori medi delle due regioni o sul lato destro (CmD1 e Cmd2) o sul lato sinistro 

89

(CmS1 e CmS2) sono considerati uguali utilizzando la tecnica fuzzy descritta in 

seguito: 

(Dc(CmS1,CmS2)=0) or (Dc(CmD1,CmD2)=0); 

dove la funzione Dc(colore1,colore2) rappresenta il grado di appartenenza alla 

classe di differenza di colore della coppia di colori. 

Nel caso in cui si operi l’estensione la nuova regione nata dalla fusione delle due viene 

nuovamente classificata. 

La figura 4.15 mostra il risultato della segmentazione e della tecnica di estensione 

nell’immagine: le varie regioni individuate sono state colorate a posteriori per una 

migliore visualizzazione. Il piccolo riquadro nero nell’immagine vuole mettere in 

evidenza la fusione fra la regione azzurra e quella verde per estensione della regione 

azzurra: si noti infatti la differenza con l’immagine in figura 4.14, dove le due regioni 

sono separate. 

Figura 4.15 

90

Per commentare l’esempio, secondo la tecnica di classificazione vista, le macchie blu e 

viola appartengono alla classe sub 2), la macchia nera, quella verde scuro e quella 

arancio alla classe sub 3), quelle azzurra e verde chiaro alla classe sub 4) prima della 

loro unione e alla classe sub 2) dopo. 

Per lo studio della diversità di colore si fa ampio utilizzo della seguente tecnica fuzzy: 

dati due colori RGB C 1 e C 2 , per ognuna delle tre bande R, G, B si definisce una classe 

fuzzy di differenza, sulla specifica banda, tra i due colori (Dr, Dg, Db). Questa è 

definita come (nel caso della banda R): 

Dr(C 1 ,C 2 ) = 0 per |R 1 -R 2 | < sogliaInferiore 

Dr(C 1 ,C 2 ) = arctan [(|R 1 -R 2 | - sogliaInferiore)/costanteDiScala] /(p/2) 

altrove 

Il grado di appartenenza alla classe di diversità di colore RGB Dc, è invece dato da: 

Dc(C 1 ,C 2 ) = Max{Dr,Dg,Db} per Max{Dr,Dg,Db} > sogliaDifferenza 

Dc(C 1 ,C 2 ) = 0 altrove 

Quindi i due colori C 1 e C 2 verranno considerati uguali per Dc = 0, diversi (con grado 

variabile) altrimenti. 

Il passo successivo del metodo consiste nell’operare una combinazione (matching) delle 

regioni classificate nel caso sub 2) e sub 4) e nella “chiusura” di certe aree 

dell’immagine contenenti ipotesi di ostacolo (denominate regioni ostacolo). Il matching 

viene eseguito tramite euristiche che si basano sulle statistiche descritte 

precedentemente. Come visto, queste statistiche sono calcolate su un insieme di punti 

alla destra e un insieme di punti alla sinistra delle regioni differenza. Poiché le regioni 

differenza si presentano prevalentemente lungo i confini degli ostacoli, si tratta di un 

insieme di pixel che fanno parte dell’immagine dell’ostacolo e, verosimilmente, un 

insieme di pixel che fanno parte dello sfondo dietro a questo. Nella maggior parte dei 

casi, quello che si deve decidere è se, data una situazione come quella descritta nel caso 

sub 2), l’ostacolo ipotizzato si trovi più probabilmente alla sua sinistra o alla sua destra. 

Il matching viene operato nel modo seguente: 

− per ogni regioni del caso sub 2) e sub 4) si cercano le regioni prime vicine di destra 

91

e di sinistra anch’esse del tipo sub 2) o sub 4); tale vicinanza è stabilita in base alla 

distanza angolare tra i baricentri (x b ,y b ) e (x bi ,y bi ) delle regioni rispetto al centro del 

sistema di riferimento del robot, e in base al posizionamento degli apici e dei 

baricentri delle regioni stesse. Ad esempio la regione i è la vicina di destra (se esiste) 

di quella in questione se: 

(y si < y b < y 1i ) OR (y s < y bi < y 1 ) 

e l’angolo (X b ,Y b )-O-(X bi ,Y bi ) è il minimo tra quelli delle regioni che rispettano la 

prima condizione; 

Questo è un passo molto importante perché individua le coppie di regioni differenza 

che identificano le possibili regioni ostacolo rappresentate dalle aree comprese tra 

due regioni differenza prime vicine e le aree comprese tra una regione differenza e il 

margine laterale del campo visivo (qualora la regione differenza non abbia una 

regione vicina a destra o a sinistra). 

− Sulla base delle statistiche inizialmente calcolate si trovano i valori di alcuni 

indicatori sulla presenza di ostacoli, sia operando su singole regioni differenza (data 

ogni regioni differenza si attribuirà una maggiore probabilità alla presenza di un 

ostacolo alla sua destra piuttosto che alla sua sinistra se la variazione di colore e di 

intensità luminosa sarà minore a destra che a sinistra), sia su coppie vicine di regioni 

differenza (data una coppia di regioni differenza la presenza di un ostacolo nell’area 

compresa tra di esse può essere indicata da una colorazione simile presente 

all’interno delle due regioni stesse, nonché da un’intensa variazione di colorazione, 

studiata con la tecnica fuzzy descritta in seguito, nella zona tra gli apici inferiori 

delle regioni stesse, corrispondente alla base del possibile ostacolo). Questi 

indicatori verranno esaminati più approfonditamente in seguito. 

− Fase di matching: a ognuno di questi indicatori utilizzati viene fornito un peso e se 

ne opera una media ponderata, andando quindi ad attribuire ad ogni area compresa 

tra due regioni differenza vicine (o tra una regione differenza e il margine laterale 

del campo visivo) un certo grado di probabilità sulla presenza in quell’area 

d’immagine di un ostacolo (ossia attribuendo una probabilità alle possibili regioni 

ostacolo). Questi indicatori vengono letti più volte con soglie decrescenti in maniera 

da permettere e privilegiare prima un matching “forte”, poi via via uno più debole. 

92

Le regioni differenza che non risultano trovare matching vengono lasciate in sospeso 

come regioni incerte. Vediamo più nel dettaglio le fasi di controllo richieste da 

questa fase dall’algoritmo: 

1. definiamo una soglia di probabilità So = 0.9, pari cioè, per l’uso che 

se ne farà, ad un valore molto alto. 

2. Per ognuna delle regioni differenza del caso sub 2) e sub 4), e per 

ognuna delle coppie individuate (possibili regioni ostacolo), calcolo i 

valori degli indicatori precedentemente descritti e, operandone una 

media ponderata (vedremo in seguito i pesi di questa media), associo 

alle possibili regioni ostacolo un grado di probabilità. 

3. Tutte le aree comprese tra due regioni differenza, o tra una regione 

differenza e il margine del campo visivo (ossia tutte le possibili 

regioni ostacolo), che abbiano un indice di probabilità superiore o pari 

alla soglia So, verranno definite come ostacolo e le relative regioni 

differenza subiranno il matching. 

4. Se tutte le regioni dei casi sub 2) e sub 4) hanno trovato matching 

l’operazione è finita, altrimenti si riduce la soglia So (ad esempio So 

= So – 0.1) e si ripete dal punto 3. Se però So è pari ad un valore 

minimo prefissato (nel nostro caso pari a 0.3), si prosegue dal punto 

seguente. 

5. tutte le regioni del tipo sub 2) e sub 4) che non hanno trovato 

matching vengono considerate incerte. 

Vediamo ora più approfonditamente gli indicatori utilizzati in questa fase di matching: 

ipotizziamo ad esempio di avere due regioni differenza vicine indicate con s (quella 

sinistra) e d (quella destra), e calcoliamo la probabilità che la regione compresa tra di 

esse (Os) sia effettivamente un ostacolo: 

− indicatore di variazione di intensità luminosa V: 

V = 0 se (VmDs < 2 VmSs) AND (VmSd < 2 VmDd) 

V = 0.5 se (VmDs = 2 VmSs) XOR (VmSd = 2 VmDd) 

V = 1 se (VmDs = 2 VmSs) AND (VmSd = 2 VmDd) 

Dove VmS e VmD indicano la varianza di intensità luminosa ai lati delle regioni 

93

differenza, mentre s e d indicano la regione differenza specifica; 

− indicatore di variazione di colore laterale F: 

F = 0 se (FmDs < 2 FmSs) AND (FmSd < 2 FmDd) 

F = 0.5 se (FmDs = 2 FmSs) XOR (FmSd = 2 FmDd) 

F = 1 se (FmDs = 2 FmSs) AND (FmSd = 2 FmDd) 

Dove i fattori Fm sono la media delle variazioni tra i colori dei pixel dell’insieme di 

test e i pixel a loro sottostanti (ossia sono il numero medio di attraversamenti dei 

confini tra regioni a colorazione diversa); 

− indicatore di pari colorazione ai due margini laterali dell’ostacolo C: 

C = 0 se Dc(CmDs , CmSd) > 0 

C = 1 se Dc(CmDs , CmSd) = 0 

dove Dc è la funzione di appartenenza alla classe fuzzy di differenza di colore, 

definita in seguito. Si richiede cioè che l’ostacolo abbia una colorazione simile ai 

suoi due estremi laterali; 

− indicatore di alta variazione di colorazione tra i due apici inferiori delle regioni 

differenza U: 

si considera il rettangolo di immagine con x compreso tra (x 1s +1) e (x 1d -1) 

(ossia le coordinate x degli apici inferiori delle regioni differenze s e d), e 

con y compreso tra (min{y 1s ,y 1d }-6) e (max{y 1s ,y 1d }+6) e si conta il 

numero Nv di colonne del rettangolo lungo le quali si incontra almeno un 

punto ad elevata discontinuità di colore: per ogni pixel della colonna si 

opera un confronto tra il colore medio dei tre pixel superiori ed il colore 

medio dei tre pixel inferiori con la tecnica fuzzy descritta, e, se il grado di 

appartenenza alla classe di diversità di colore è superiore a 0.5, la colonna 

presenta tale discontinuità. Si avrà: 

U = 0 se (Nv / (x 1d - x 1s - 2)) < 0.5 

U = 1 se (Nv / (x 1d - x 1s - 2)) = 0.5 

Il significato di questo indicatore è che se effettivamente tra le regioni s e d è 

presente un ostacolo, la base dell’ostacolo sarà compresa tra i loro apici 

inferiori, e quindi si presenterà un confine tra regioni a colorazione diverse 

(l’ostacolo ed il pavimento). 

94

Mentre i primi due indicatori si fondano sull’analisi di caratteristiche della singola 

regione differenza, e basano il loro principio sull’ipotesi che l’ostacolo abbia delle 

variazioni di colore e intensità più limitate rispetto al suo sfondo, il terzo e quarto 

indicatore sono invece legati a caratteristiche della coppia di regioni differenza da 

collegare e si sono dimostrati più efficaci. Per questo motivo agli indicatori si 

attribuiscono pesi diversi: I e F hanno peso rispettivamente pI e pF pari a 2, C ha peso 

pC pari a 6, U ha peso pU pari a 10. In conclusione, la probabilità Po attribuita alla 

regione ostacolo Os è pari a: 

Po = (I * pI + F * pF + C * pC + U *pU) / (pI + pF + pC + pU) 

In seguito si opera la “chiusura” dei contorni individuando le regioni in cui si ipotizza 

essere presente un ostacolo: questa chiusura verrà eseguita sulla base della posizione dei 

due apici inferiori per regioni appartenenti alla classe sub 1) e sub 3) (sempre che queste 

ultime presentino due apici) e sulla base dei primi apici inferiori delle coppie di regioni 

unite da matching. In ogni casi si avranno due apici da collegare per “chiudere” l’area 

dell’ostacolo. Questa operazione avviene tracciando solamente linee orizzontali e, 

laddove necessario, prolungamenti delle regioni sub 2) e sub 4) e linee radiali al centro 

del sistema di riferimento del robot (O) nel caso sub 1) e sub 3). Nell’immagine in 

figura 4.16 viene mostrato il risultato di questa operazione. 

95

Figura 4.16 

L’ultima fase di elaborazione consiste nell’adattare tramite estensione o restringimento 

laterale e verticale le regioni individuate ad effettive regioni (a colorazione uniforme) 

presenti nell’immagine rettificata iniziale (figura 4.6). Si torna ad utilizzare quindi 

l’immagine RGB rettificata proveniente dalla telecamera frontale, e per eseguire questo 

adattamento si studia linea per linea la discontinuità della colorazione in un intorno 

(detto IntO) dell’intervallo delle regioni-ostacolo su quella linea, e si spostano i confini 

di questa regione in maniera da farli corrispondere alle discontinuità più elevate e 

vicine. Per lo studio della diversità di colore si utilizza una tecnica fuzzy già descritta. 

In particolare per ogni pixel di IntO si confrontano i due colori C1 e C2 ottenuti dalla 

media dei valori RGB dei tre pixel precedenti e dei tre pixel successivi a quello in 

questione. Ricercando i massimi locali di appartenenza a questa classe lungo il 

segmento in questione IntO si trovano i possibili nuovi estremi della regione ostacolo e 

nel caso della presenza di più possibilità si scelgono quelle che massimizzano il fattore 

(I / D), dove I è l’intensità di appartenenza alla classe Dc, D è la distanza tra il massimo 

locale e l’estremo iniziale, sulla riga della regione-ostacolo, da spostare. 

96

Utilizzando i seguenti valori di soglia: sogliaInferiore = 10; costanteDiScala = 25; 

sogliaDifferenza = 0.5, si è ottenuto il risultato mostrato in figura 4.17, dove le macchie 

rosse individuano gli ostacoli e quindi, per contrasto, l’area camminabile. 

Figura 4.17 

97

4.2.3. Risultati 

Occupiamoci ora delle prestazioni ottenute dal sistema di riconoscimento degli ostacoli: 

ci interessa sia la velocità di esecuzione e la complessità delle elaborazioni viste, sia 

l’efficacia di riconoscimento degli ostacoli. In particolare questo secondo indice di 

prestazione si basa su un test eseguito montando il sensore HOPS su un robot mobile e 

impiegandolo per il riconoscimento di ostacoli lungo traiettorie navigate in diversi 

ambienti. 

Utilizzando un processore AMD K6 a 350MHz si è raggiunta una frequenza di lavoro di 

circa 3Hz (acquisizioni e analisi al secondo); ciò significa che con un processore più 

recente non si avrebbero problemi a raggiungere i 10 Hz. A parte la fase di 

inizializzazione del sistema, che richiede un tempo di circa 7 secondi per la lettura delle 

look-up-tables e la creazione delle strutture dati richieste, possiamo suddividere l’intero 

processo in sottofasi e analizzare più nel dettaglio il tempo di esecuzione richiesto da 

ognuna di esse. Come mostrato in figura 4.19, possiamo identificare le seguenti 

sottofasi: 

− acquisizione, in cui i valori di intensità dei pixel vengono letti da un buffer 

aggiornato dal framegrabber e vengono direttamente utilizzati per la generazione 

delle immagini rettificate; 

− preparazione al confronto, dove si generano le immagini riguardanti il solo campo 

visivo comune e si opera la trasformazione d’istogramma; 

− confronto, in cui viene generata l’immagine di confronto e operato il filtraggio di 

questa; 

− segmentazione, dove si opera il blob coloring; 

− interpretazione, dove infine si opera il matching e l’adattamento delle regioni 

ostacolo. 

Si osservi nella figura 4.19 come, mentre le prime due sottofasi sono “doppie” e quindi 

eseguibili in parallelo per le due diverse telecamere, tutte le successive sono “uniche”. 

98

Figura 4.19 

I tempi medi di esecuzione rilevati per le diverse sottofasi sono pari a: 41ms (per il 

catadiottro) e 30ms (per la telecamera frontale) per le due fasi di acquisizione, 50ms e 

45ms per le due fasi di preparazione (la trasformazione dell’istogramma avviene solo 

per l’immagine da catadiottro), ed infine 29ms, 33ms, 150s rispettivamente per il 

confronto, la segmentazione, l’interpretazione. In conclusione si ha un ciclo elaborativo 

di acquisizione-ricerca ostacoli che richiede un tempo pari a 378ms, che appunto 

corrisponde ad una frequenza di 2,65Hz. Facendo una semplice analisi sulla possibilità 

di rendere parallela l’elaborazione, si è osservato che sia la fase di acquisizione che 

quella di preparazione al confronto, ma anche circa l’80% della fase di interpretazione si 

prestano favorevolmente all’impiego di processori in parallelo. Nel caso di due 

processori si determinerebbe un elevato incremento di prestazioni, portando facilmente 

la frequenza di lavoro attorno ai 4Hz. 

Dal punto di vista della complessità degli algoritmi è stato calcolato che: detti m ed n il 

numero di pixel delle due immagini rettificate (quella da catadiottro e quella da 

telecamera frontale), le sottofasi di acquisizione e preparazione al confronto sono 

rispettivamente degli O(m) e O(n), le fasi di confronto e segmentazione sono degli O(n) 

e infine la fase di interpretazione, volendo adottare una stima molto peggiorativa, è un 

O(m+nvn). Quindi il ciclo completo è sostanzialmente un O(m+nvn). 

Occupiamoci ora delle prestazioni di riconoscimento degli ostacoli. Sono stati eseguiti 

numerosi test del sistema in ambienti indoor parzialmente strutturati quali il campo 

99

della competizione Robocup, laboratori e corridoi della facoltà ottenendo buoni risultati 

di affidabilità. I test si sono svolti nel seguente modo: il sistema viene montato su un 

robot mobile e viene simulato (dato che non esiste ancora un modulo comportamentale 

e di pianificazione) il suo spostamento lungo una traiettoria verso uno specifica meta. 

Tra il punto di partenza e la meta vengono posizionati degli ostacoli che il modulo di 

visione dovrebbe riconoscere. Se effettivamente questi vengono riconosciuti si può 

ipotizzare che il sistema, una volta dotato di un modulo di pianificazione adeguato, 

raggiungerebbe la meta comportandosi adeguatamente, e quindi si dà esito positivo al 

test. Le immagini acquisite durante i test sono prese dalle posizioni più critiche lungo la 

traiettoria seguita e lo spostamento successivo ad ogni acquisizione è chiaramente 

legato al risultato di ricerca di ostacoli prodotto dal sistema. 

Come esempi significativi, presentiamo di seguito i risultati di due di questi test: 

− il primo eseguito in un corridoio della facoltà nel quale sono stati posizionati sia 

degli ostacoli veri e propri (un classificatore, un cestino, una sacca, una sedia e una 

persona) sia dei finti ostacoli (pattern ad alto contrasto disegnati su fogli posti sul 

pavimento) per testare l’efficacia dell’algoritmo di studio delle differenze stereo 

basato sull’IPM. In questo test gli ostacoli sono fissi. 

− Il secondo eseguito in un laboratorio della facoltà nel quale si introduce la mobilità 

degli ostacoli (in particolare di una persona) e quindi si simula una interazione tra il 

movimento di questi e la traiettoria del robot. 

I risultati dei test vengono presentati come sequenze di immagini relative a punti critici 

del percorso navigato. Innanzitutto abbiamo le due immagini acquisite, poi le due 

immagini rettificate pronte al confronto (nelle quali compare solo la parte di campo 

visivo comune), infine l’immagine rappresentante l’area camminabile (in cui in rosso 

sono evidenziati gli ostacoli, ossia le parti della scena non camminabili). Nella figura 

4.20 la mappa di rappresentazione schematica delle scene del test, mentre nella tabella 

di seguito è presentato l’insieme delle immagini relative al primo test. 

100

Figura 4.20 

Acquisizione 

frontale 

Acquisizione 

catadiottro 

Rettificata 

frontale 

Rettificata 


Area 

camminabile 

101

Come si può osservare nella mappa rappresentata in figura 4.20, sono stati posizionati 

lungo il corridoio sei ostacoli (1-6) e tre finti ostacoli (A-C). Il cerchio blu rappresenta il 

robot ed il segmento nero ad esso radiale, la direzione di osservazione nell’istante di 

acquisizione. La traiettoria percorsa dal robot è indicata in azzurro e va da sinistra verso 

destra. Nella prima posizione del robot sono stati osservati tre ostacoli: un mobile da 

ufficio sulla sinistra (1), un cestino in centro (2) e ed una sporgenza del muto. Dalla 

rielaborazione delle immagini acquisite nella seconda posizione emergono nuovamente 

il mobile (1), il cestino (2) ed una borsa (3). Nella terza posizione, una sedia (4) e la 

borsa (3); nella quarta nuovamente la sedia (4) e sullo sfondo il muro; infine nella 

quinta una persona nel centro (5), il muro e l’inizio di un vaso (6) sulla destra e l’inizio 

di un’asse di legno (7) distesa sulla sinistra. 

Inoltre tutti gli ostacoli finti, inquadrati nelle prime tre immagini, sono stati 

correttamente interpretati. 

Passiamo ora al secondo test: la mappa della scena è presentata nella figura 4.21, mentre 

le sequenze di immagini sono riportate nella tabella seguente. 

Figura 4.21 

102

Acquisizione 

frontale 

Acquisizione 


Rettificata 

frontale 

Rettificata 


Area 

camminabile 

Nel secondo test la navigazione avviene in un laboratorio. In esso si trovano i seguenti 

ostacoli: una cassettiera (1), una scatola di cartone (2), una sedia (3), tre tavoli (4, 5, 6), 

nonché una persona che, durante la navigazione del robot, cammina e quindi rende 

dinamico l’ambiente. Infine abbiamo due finti ostacoli (A e B). Anche qui il robot è 

rappresentato dal cerchio blu e la traiettoria dalla linea azzurra, percorsa da sinistra 

verso destra. La persona usata come ostacolo mobile è invece rappresentata dal cerchio 

rosso e la sua traiettoria dalla linea gialla (anch’essa percorsa da sinistra verso destra). 

Ad ogni istante di acquisizione di immagini riportato è stata indicata la relativa 

103

posizione della persona. Quindi ad esempio, il terzo cerchio rosso corrisponde alla 

posizione della persona relativa alla terza acquisizione di immagini. 

Nella prima rappresentazione dell’area camminabile si identificano due ostacoli, sulla 

sinistra la cassettiera (1) e sulla destra la persona seduta sulla sedia (3). Nella seconda 

viene identificata una grossa regione ostacolo che comprende sia la persona (ora alzatasi 

in piedi) sia due tavoli (4, 5). Nella terza la persona che si dirige verso il centro della 

stanza, nonché un tavolo sullo sfondo (4). Nella quarta la persona che si dirige verso la 

porta, la scatola (2) sulla sinistra e la gamba di un tavolo (6) sullo sfondo. Infine nella 

quinta rappresentazione si osservano due soli ostacoli: la base della sedia sulla destra e 

una gamba di un tavolo (3) sullo sfondo. 

Anche in questo caso i finti ostacoli sono stati correttamente interpretati come area 

camminabile, prova del buon funzionamento degli algoritmi di calibrazione e di 

inversione prospettica. 

104

4.3. Sviluppi futuri 

In questa prima fase del progetto centrato sull’impiego di HOPS ci si è posto l’obiettivo 

di fornire il sistema sensoriale della capacità di individuare ostacoli nella regione di 

campo visivo comune alle due telecamere. In fasi successive del progetto sarà 

necessario sviluppare routines per l’estrazione di altri tipi di informazioni, legate 

all’applicazione specifica: ad esempio nel caso dell’applicazione Robocup è 

fondamentale la capacità di auto-localizzazione nel campo (estremamente facilitata 

dall’impiego del catadiottro), di riconoscimento di alcuni oggetti di interesse quali il 

pallone e le porte, eccetera. Quindi sarà fondamentale estendere le funzionalità visive 

per sfruttare a pieno il sensore catadiottrico, per l’analisi su vasto raggio di 

caratteristiche di interesse, e l’accoppiamento dei due sensori per un’analisi più 

approfondita dei particolari della regione frontale al robot. 

Al sistema visivo che si occupa di fornire informazioni sul mondo esterno dovranno 

essere affiancati uno o più moduli che si occupino di utilizzare queste informazioni con 

scopi più decisionali: ad esempio si dovranno sviluppare funzionalità di pianificazione 

delle traiettorie dato un ambiente con ostacoli e obiettivi da raggiungere. 

105

Capitolo 5. 

La gestione del sistema visivo 


Questo capitolo descrive il progetto del sistema di gestione dell’apparato visivo di un 

robot mobile. Verranno messe in luce tutte le principali scelte architetturali e progettuali. 

Dopo una fase iniziale di definizione dei requisiti, delle funzionalità da sviluppare e del 

loro scheduling, il processo di creazione del sistema si fonda sull’iterazione di tre passi 

fondamentali: l’analisi di un sottoinsieme delle funzionalità (con la conseguente 

creazione di un modello concettuale del dominio, ossia un insieme di entità e di concetti 

messi in relazione tra di loro), la progettazione delle classi necessarie a garantire al 

sistema le funzionalità scelte (e quindi la costruzione di un diagramma delle classi, 

passando attraverso un’analisi delle interazioni e collaborazioni prima tra i concetti e 

poi tra le classi), lo sviluppo delle classi progettate. 

Il paragrafo 5.2 contiene una breve descrizione dei risultati della fase di definizione dei 

requisiti del sistema. Nel paragrafo 5.3 si individuano i punti chiave della fase di analisi 

dei requisiti e della creazione di un modello concettuale del dominio. Infine, nel 

paragrafo 5.4, si sviluppa la fase di progetto delle classi del sistema. 

106

5.2. Definizione dei requisiti 

Il modulo di gestione software dell’apparato sensoriale visivo di un robot mobile è stato 

progettato tenendo conto delle seguenti specifiche: 

− il modulo visivo deve gestire tutte le fasi dall’acquisizione delle immagini, 

all’interpretazione della scena circostante, alla comunicazione del modello della 

scena costruito ad altri moduli elaborativi del robot (comportamentale, attuativo, di 

pianificazione, eccetera). Infatti il modulo visivo è solo uno dei componenti di un 

più ampio sistema di gestione del robot mobile e deve quindi integrarsi in una 

architettura di livello superiore nella quale deve sostanzialmente utilizzare un 

sistema di comunicazione per render noti agli altri moduli interessati i risultati delle 

proprie elaborazioni ed eventualmente per ricevere informazioni dall’esterno. 

− La conformazione dell’apparato visivo è da considerarsi del tutto generica, a parte 

l’unico assunto di avere due sole telecamere: indipendentemente dall’utilizzo di 

catadiottri o telecamere CCD più tradizionali o altri tipi di sensori visivi, ad ogni 

nuovo input sensoriale il sistema acquisisce al massimo due immagini da diverse 

telecamere. In realtà anche se nel modulo viene preso in considerazione un sistema 

di visione binoculare, deve essere possibile gestire con semplici modifiche la 

presenza di altre telecamere. 

− Le eventuali informazioni di inizializzazione del sistema, riguardanti ad esempio la 

calibrazione dei diversi sensori visivi o i parametri di acquisizione, devono essere 

codificate in maniera uniforme e indipendente dal sensore stesso (per potersi astrarre 

da questo). 

− Nell’analisi delle immagini, per rendere facile l’impiego del sistema in differenti tipi 

di applicazioni, il modulo visivo deve essere flessibile per potersi adattare a casi 

diversi e integrare nuovi algoritmi. Il sistema, pronto per una specifica applicazione, 

avrà infatti sia un insieme di routines di base fornite all’origine (come quelle per 

l’inversione prospettica, l’obstacle detection, eccetera), sia un insieme di routines 

più specifiche da integrare nel sistema di volta in volta (secondo il paradigma delle 

visual routines). 

− Trattandosi di elaborazione in sistemi real-time si vuol poter raggiungere una 

107

frequenza di lavoro sufficiente a garantire al robot una buona reattività, che 

possiamo quantificare con il valore di 10 acquisizioni/secondo. 

− Il sistema deve avere un dispositivo software di controllo della frequenza effettiva di 

lavoro e la possibilità di ridurre il carico computazionale di certe elaborazioni 

eseguite, per poter gestire l’analisi delle immagini in maniera proporzionale alle 

risorse elaborative disponibili. 

A partire da queste specifiche è possibile estrapolare un insieme di funzionalità 

elementari per il sistema. Nella tabella che segue vengono presentate e descritte tutte le 

funzionalità prese in considerazione: ossia solo quelle del tutto generiche ed 

indipendenti da ogni specifica applicazione. 

Ref.# Funzionalità Attributi Dettagli e Limiti Cat. Attr. 

R1.1 Settare i parametri di 

funzionamento dei 

framegrabbers. 

R1.2 Acquisire immagini dalle due 

telecamere. 

Interfaccia 

grafica 

Dimensioni 

immagini 

R1.3 Settare i parametri degli descrizione 

strumenti di inversione uniforme e 

prospettica delle telecamere. indipendente 

dallo 

specifico 

sensore. 

R1.4 Operare l’inversione prospettica Tolleranza 

sulle immagini acquisite. imprecisioni 

Finestra sullo Opzionale 

schermo con 

l’immagine 

catturata. 

Circa 500x300 Opzionale 

Entro circa 10cm Obbligat. 

dalla posizione 

reale a 3 m dal 

108

sistema 

R1.5 Identificare il campo visivo 

Tolleranza 

Eventuali errori < 

Obbligat. 

comune e settare i parametri 

imprecisioni 

5cm 

degli strumenti di confronto 

stereo. 

R1.6 Calibrare i colori dei diversi 

sensori. 

R1.7 Analizzare le immagini e 

Risposta 

Frequenza totale 

Desiderato 

interpretare la scena 

temporale 

del sistema di 10 

rappresentata secondo i criteri 

Hz con un 

della specifica applicazione. 

processore recente 

R1.8 Operare l’obstacle detection. 

R1.9 Aggiornare la rappresentazione 

del mondo esterno via via che si 

identificano nuovi elementi. 

R1.10 Regolare il carico 

computazionale dell’analisi 

delle immagini tramite una 

relativa politica. 

R1.11 Generare messaggi di 

Limite 

I messaggi 

descrizione del mondo esterno 

dimensionale 

dovranno essere il 

più concisi 

possibile 

R1.12 Inviare e ricevere messaggi 

tramite il “sistema di 

comunicazione” 

R1.13 Utilizzare messaggi ricevuti per 

eventualmente modificare il 

proprio stato interno (politica di 

gestione e analisi) e la 

descrizione del mondo esterno. 

109

Il modulo visivo rappresenta solamente una delle componenti del sistema di gestione 

del robot mobile. Le funzionalità che dovranno essere realizzate in questo sistema 

possono essere suddivise in differenti gruppi affidati a differenti moduli: un modulo 

sensoriale di visione (ma potremmo avere anche un modulo sensoriale di diversa natura 

da collegare a questo), un modulo di pianificazione e decisione comportamentale, 

moduli specifici per implementare diversi comportamenti (come può essere la 

manipolazione di uno specifico oggetto), un modulo di attuazione (ossia di controllo di 

basso livello dei motori, eventuali piccoli arti meccanici o utensili eccetera). Una 

possibile architettura di sistema prevede la gestione delle funzionalità di ogni modulo da 

parte di uno o più agenti software. Comunicando agli altri agenti i risultati delle loro 

elaborazioni e decisioni, questi permettono agli altri di crearsi un modello (relativo ai 

loro compiti) del mondo esterno. Chiaramente, mentre il modulo comportamentale per 

sua natura può essere facilmente implementato da un pool di agenti, quello visivo, o più 

in generale sensoriale, data la sua natura piuttosto ripetitiva, garantisce poche possibilità 

di implementazione tramite un agente vero e proprio. In ogni caso si è voluto realizzare 

un modulo visivo basato sul progetto di un insieme di classi facilmente adottabili come 

strumenti elaborativi di un eventuale agente visivo. 

Le principali problematiche di sviluppo del modulo che si possono a questo punto 

individuare sono: 

− i limiti di velocità operativa da rispettare: questo problema riguardante in modo 

particolare i lunghi tempi richiesti dall’elaborazione delle immagini e l’eventuale 

lentezza di scambio di messaggi tra moduli cooperanti qualora i messaggi non 

fossero sufficientemente schematici e completi; 

− l’implementazione di efficaci routines per l’obstacle detection. 

Per quanto riguarda l’analisi degli use cases del modulo, in questo stadio del progetto 

non esiste ancora una definizione chiara degli altri moduli presenti nel sistema, e tanto 

meno del sistema di comunicazione tra di essi. Quindi più che use cases del modulo 

visivo, risulta essere interessante lo studio delle interazioni tra sottoparti del modulo 

stesso, che è stato sviluppato nella fase di progetto delle classi. 

110

5.3. Analisi dei requisiti e modello concettuale del dominio 

A partire dai requisiti e dalle funzionalità finora prese in considerazione, è stato 

possibile estrapolare un insieme di concetti chiave del dominio di interesse e metterli in 

relazione tra di loro allo scopo di creare una mappa, un modello concettuale. 

Ecco una lista di concetti con relativi attributi (tra parentesi) che rientrano nel dominio 

di interesse: non si tratta di un dominio del mondo reale (quindi molti concetti sono 

astratti) ma si è cercato di evitare concetti di tipo informatico, non adatti a questa fase 

preliminare di analisi. 

Sistema di 

visione 

(frequenza 

desiderata, 

frequenza 

reale) 

Agente esterno Comunicatore Ricercatore Feature (tempo 

dell’osservazione) 

Mondo Esterno 

(numero 

features 

individuate) 

Sistema 

Binoculare 

(posizionament 

o reciproco dei 

sistemi di 

riferimento) 

Telecamera 

(corrispondenz 

e punti-pixel, 

Ximmagine, 

Yimmagine) 

Messaggio 

(sorgente, 

destinatario) 

Frame Grabber 

(parametri di 

acquisizione) 

ImmagineRGB 

(Ximmagine, 

Yimmagine, 

matrice 

intensità RGB) 

ImmagineRGB 

Ricostruita 

(Ximmagine, 

Yimmagine, 

matrice 

intensità RGB, 

sensibilita) 

ImmagineGrey 

(Ximmagine, 

Yimmagine, 

matrice 

intensità grey) 

ImmagineGrey 

Ricostruita 

(Ximmagine, 

Yimmagine, 

matrice 

intensità grey, 

sensibilita) 

Immagine 

Segmentata 

(Ximmagine, 

Yimmagine, 

matrice 


matrice 

segmenti, 

sensibilita) 

111

Ostacolo 

(posizione, 

velocità) 

Robot 

(posizione, 

orientazione, 

velocità) 

Area 

Camminabile 

(matrice 

camminabilità) 

E’ necessario chiarire il significato di alcuni di questi concetti: 

− Mondo Esterno non è altro che una rappresentazione della conoscenza della scena e 

dell’ambiente che il modulo ha acquisito dalle sue elaborazioni; 

− Agente Esterno è chiaramente un qualsiasi agente esterno al sistema (modulo visivo) 

con il quale si debba comunicare; 

− Comunicatore che si occupa di mandare e ricevere messaggi; 

− Messaggio costituito da informazioni riguardanti una o più features individuate; 

− ImmagineRGB è una semplice immagine acquisita; 

− ImmagineRGB Ricostruita è una immagine generata per inversione prospettica da 

immagine acquisita; 

− Immagine Segmentata è composta da una immagine RGB Ricostruita e di 

distinguere tra diverse aree di essa. 

Vediamo ora le principali relazioni tra i concetti elencati. Innanzitutto la relazione di 

generalizzazione, poi una seconda tabella per le altre. Invece di mostrare queste 

relazioni in un diagramma UML delle classi, si è preferito farlo con tabelle per una 

migliore visibilità. 

Superclasse Sottoclasse Commento 

Messaggio Feature Ogni feature è anche un messaggio che 

può essere comunicato 

Feature Ostacolo Ogni elemento di cui si vuol poter 

comunicare l’entità è una feature 

Feature Area Camminabile Ogni elemento di cui si vuol poter 


112

Feature Robot Ogni elemento di cui si vuol poter 


ImmagineRGB ImmagineRGB Ricostruita 

ImmagineGrey ImmagineGrey Ricostruita 

ImmagineRGB 

Ricostruita 

Immagine Segmentata 

Soggetto Relazione Oggetto Descrizione 

Ricercatore(1) Usa Sistema 

Binoculare (1) 

Per acquisire e preparare (tramite 

inversione prospettica e calibrazione 

stereo) le immagini alla ricerca delle 

Features. 

Sistema di 

visione (1) 

Usa Ricercatore (1) Per la costruzione di un modello del 

mondo esterno sulla base delle 

Features trovate. 

Sistema di Usa Comunicatore Per comunicare le Features trovate. 

visione (1) 

(1) 

Ricercatore (1) Elabora ImmagineRGB 

(0..2) 

Ricercatore (1) Elabora ImmagineRGB 

Ricostruita 

(0..*) 

Ricercatore (1) Elabora ImmagineGrey 

(0..2) 

Ricercatore (1) Elabora ImmagineGrey 

Ricostruite 

(0..*) 

Ricercatore (1) Elabora Immagine 

Segmentata 

(0..*) 

113

Comunicatore Prepara Messaggio (0..*) 

(1) 

Messaggio (1) Composto Da Feature (0..*) 

Comunicatore 

(1) 

Comunica 

con 

Agente Esterno 

(1..*) 

Per informare su ciò che si conosce 

del mondo esterno 

Agente Esterno 

(1) 

Riceve Messaggio (1..*) Con la descrizione del mondo 

esterno 

Ricercatore (1) Trova Feature (0..*) Il Ricercatore cerca le features di 

interesse nelle immagini a 

disposizione 

Sistema di Aggiorna Mondo Esterno Ad ogni nuova scoperta fatta 

visione (1) 

(1) 

Mondo Esterno Contiene Feature (1..*) 

(1) 

Sistema Composto Da Telecamera (2) 

Binoculare (1) 

Telecamera (1) Gestisce ImmagineRGB 

(2) 

Gestisce l’immagine acquisista e 

quella ricostruita 

Telecamera (1) Gestisce ImmagineRGB Gestisce l’immagine ricostruita 

Ricostruita (1) 

Telecamera (1) Usa Frame Grabber 

(1) 

Allo scopo di analizzare le dinamiche interne è utile suddividere i concetti in quattro 

diverse aree tematiche: 

− Sistema ed Ambiente, l’insieme delle parti, i componenti fondamentali, e la 

conoscenza acquisita. 

− Ricerca, tutto ciò che ha a che fare con l’analisi delle immagini e la 

rappresentazione del mondo. 

− Sistema binoculare, le parti del sistema visivo e le immagini da esso generate. 

− Comunicazione, i messaggi e l’interfaccia con l’esterno. 

114

Suddividiamo i concetti tra queste aree tematiche. 

Sistema ed Comunicazione Ricerca Sistema Binoculare 

Ambiente 

Sistema di visione Comunicatore Ricercatore Sistema Binoculare 

Mondo Esterno Messaggio Feature Telecamera 

Agenti Esterni 

Immagine 

Frame Grabber 

Segmentata 

Ostacolo 

ImmagineRGB 

Robot 

ImmagineRGB 

Ricostruita 

Area Camminabile ImmagineGrey 

ImmagineGrey 

Ricostruita 

Le diverse aree tematiche corrispondono alle funzionalità che il sistema deve gestire. In 

particolare le funzionalità: R1.1-R1.5 sono legate all’area tematica Sistema Binoculare; 

le funzionalità R1.6-R1.8 all’area della Ricerca; R1.11, R1.12 all’area Comunicazione; 

R1.9, R1.10, R1.13 all’area Sistema ed Ambiente. 

Nel primo ciclo di sviluppo del software è stato ristretto il numero di funzionalità da 

supportare e il relativo modello concettuale. In particolare ci si occupa ora del progetto 

delle aree tematiche Sistema Binoculare e Ricerca (fatta eccezione per il solo concetto 

di Robot). In questo modo l’insieme dei concetti di interesse si restringe a quello 

presentato nella tabella seguente. Le relazioni tra concetti rimangono le stesse per il 

sottoinsieme considerato. 

115

Ricercatore 

(frequenza 

desiderata, 

frequenza 

reale) 

Sistema 

Binoculare 

(posizionament 

o reciproco dei 

sistemi di 

riferimento) 

Telecamera 

(corrispondenze 

punti-pixel, 

Ximmagine, 

Yimmagine) 

Frame Grabber 

(parametri di 

acquisizione) 

Feature 

(tempo della 

osservazione) 

ImmagineRGB 

(Ximmagine, 

Yimmagine, 

matrice 

intensità RGB) 

ImmagineRGB 

Ricostruita 

(Ximmagine, 

Yimmagine, 

matrice 


sensibilita) 

ImmagineGrey 

(Ximmagine, 

Yimmagine, 

matrice 

intensità grey) 

ImmagineGrey 

Ricostruita 

(Ximmagine, 

Yimmagine, 

matrice 

intensità grey, 

sensibilita) 

Immagine 

Segmentata 

(Ximmagine, 

Yimmagine, 

matrice 


matrice 

segmenti, 

sensibilita) 

Ostacolo 

(posizione, 

velocità) 

Area 

Camminabile 

(matrice 

camminabilità) 

116

5.4. Progetto del modulo visivo 

Come visto, più che le dinamiche di interazione del modulo di visione con l’esterno, 

risulta utile studiare le dinamiche interne al modulo stesso, cioè gli eventi interni e gli 

eventi temporali. Allo scopo di analizzare queste dinamiche il sistema è stato suddiviso 

in quattro sottosistemi (o packages) che rispecchiano la suddivisione in aree tematiche 

dei concetti analizzati nella fase precedente e ne realizzano le funzionalità connesse: 

− Coordinamento generale (da Sistema ed ambiente), che coordina le operazioni del 

modulo: una sorta di controller ciclico che richiede elaborazioni, comunicazioni, 

aggiorna la conoscenza del mondo esterno. 

− Comunicazione (da Comunicazione), genera, spedisce e riceve i messaggi sullo stato 

mondo esterno. 

− Ricerca features (da Ricerca), che appunto si occupa dell’analisi e interpretazione 

delle immagini. 

− Sistema binoculare (da Sistema Binoculare), gestisce le due telecamere e il loro 

accoppiamento. 

Nella tabella seguente vengono rappresentate le dipendenze e la visibilità tra diversi 

packages. 

Package Relazione Package visto e usato 

Coordinamento generale Usa Ricerca features 

Coordinamento generale Usa Comunicazione 

Ricerca features Usa Sistema Binoculare 

Il modello concettuale creato è stato concretizzato in classi associate a specifici 

packages. Tra parentesi sono indicati (se diversi) i nomi dei concetti di origine. 

117

Coordinamento Comunicazione Ricerca Features Sistema Binoculare 

Gen. 

Modulo Visivo Comunicatore Gestore Di Ricerca Sistema Binoculare 

(Sistema di visione) Visivo 

(Comunicatore) 

(Ricercatore) 

Mondo Esterno Messaggio Feature Telecamera 

Immagine Frame Grabber 

Segmentata 

Ostacolo 

ImmagineRGB 

Robot 

ImmagineRGB 

Ricostruita 

Area Camminabile ImmagineGrey 

ImmagineGrey 

Ricostruita 

Il concetto Agente Esterno è rimasto escluso da questa suddivisione perché è 

considerato agente esterno al sistema: riceve i risultati dell’elaborazione e segue i suoi 

processi specifici. 

Inoltre, tutto ciò che è legato ad una specifica applicazione del sistema appartiene al 

package di Ricerca Features. Questo permette di ottenere alta coesione e, isolando tra 

loro le differenti funzionalità del sistema, indipendenza di molti packages dal dominio 

specifico. 

Conviene inoltre che per ogni package si definisca un “facade controller“ che svolga 

anche compiti di interfaccia verso gli altri packages (per ridurne l’accoppiamento). In 

particolare avremo: 

118

Package 

Coordinamento Generale 

Comunicazione 

Ricerca Features 

Sistema Binoculare 

Facade Controller 

Modulo Visivo 

Comunicatore Visivo 

Gestore Di Ricerca 

Sistema Binoculare 

In fase di progetto ci si è quindi limitati a prendere in considerazione solo i packages 

Sistema Binoculare e Ricerca Features (con l’esclusione della classe Robot). 

Vediamone il diagramma delle classi (senza attributi né metodi) in figura 5.1. 

feature 

1 uses 

1 

gestoreDiRicerca 

sistemaBinoculare frameGrabber 

1 

1 

genera 

0..* uses 

0..* 

1 

1 

uses 

1..* 

immagineGRAY immagineSegmentata 

1 

1 

uses 

uses 

1 

2 

uses 

telecamera 

1 

acquisisce 

1 

gestisce 

1 

1..* 

2 

immagineRGB 

1 

1 

uses 

immagineGRAYRicostruita 

immagineRGBRicostruita 

uses 

vettore 

1..* 

uses 

11 

1 

matrice 

1 

Figura 5.1 

Sono state aggiunte, rispetto alle classi derivate dal modello concettuale due nuove 

classi parametriche (Matrice e Vettore) utilizzate per la gestione appunto di matrici e 

vettori di dati (si veda a riguardo il paragrafo 2.4.2.). 

119

Analizziamo ora i ruoli nel sistema da sviluppare delle varie classi, attribuendo ad 

ognuna di esse dei compiti specifici e delle responsabilità. Per far questo conviene 

descrivere i processi elaborativi dettagliando sulla distribuzione delle azioni ai diversi 

packages (tramite tabelle che descrivono le loro interazioni e i processi che in essi 

hanno luogo) prima, e tra le singole classi (tramite collaboration diagrams) poi. 

Possiamo identificare sostanzialmente due processi elaborativi: 

− un processo ciclico di acquisizione ed elaborazione delle immagini, nel quale si 

svolgono tutte le principali funzionalità della parte di interesse del sistema; 

− un processo di start up, nel quale viene inizializzato il sistema e create tutte le classi 

necessarie. 

Vediamo una tabella delle interazioni per il processo ciclico. 

Ambiente Esterno Ricerca Features Sistema Binoculare 

Ciclicamente: viene 

richiesto dall’esterno 

l’inizio del processo. 

1) Chiede a SB di acquisire 

nuove immagini. 

Acquisisce nuove immagini 

(R1.2) 

2) Chiede a SB di generare le 

relative immaginiRGB con 

Inversione prospettica delle 

immagini (R1.4) 

inversione prospettica. 

Riceve informazioni 

sugli degli ostacoli 

3) Opera le routines di analisi 

delle immagini definite e 

restituisce il risultato (R1.6, 

R1.7, R1.8) 

120

Vediamo poi il processo di start up. 

Ambiente Esterno Ricerca Features Sistema Binoculare 

Utente: avvia il sistema 

creando una classe 

Gestore di Ricerca 

1) Crea e inizializza le classi 

di SB 

3) Richiede a SB di fornire 

l’accesso alle strutture dati 

per la visione stereo e alle 

immagini acquisite e 

rettificate 

2) Crea gli oggetti Telecamera 

e li inizializza (R1.3). Questi 

creano e inizializzano i relativi 

Frame Grabbers (R1.1) e le 

relative immagini infine 

inizializza le strutture per la 

visione stereo (R1.5) 

Fornisce i parametri richiesti 

In un caso specifico si è rotto il principio di Facade Controller (introdotto per mantenere 

le classi di diversi packages disaccoppiate): Gestore Di Ricerca “vede” le Immagini 

RGB e le Immagini RGB Ricostruite generate da Sistema Binoculare, nonché le sue 

strutture dati per la visione stereo. Questo risulta essere necessario allo scopo di 

velocizzare l’accesso alle immagini, e la loro elaborazione (dato l’elevato numero di 

accessi alle immagini richiesto). 

Passiamo ora ad una più precisa definizione delle classi implementate in una tabella 

rappresentante i loro principali attributi e i loro principali metodi (sostitutiva del system 

class diagram completo per maggiore visibilità). 

121

Classe Attributi Metodi 

Gestore Di 

Ricercatore 

− ost:=ricercaOstacoli(): 

Vettore; 

− serie di metodi specifici per 

l’elaborazione delle immagini 

Feature Pos: Posizione; − st:=serializzaFeature(): String; 

SistemaBinoculare 

Telecamera 

FrameGrabber 

SpazioVisivoComune: 

Matrice 

- che indica gli 

accoppiamenti dei pixel 

delle due immagini per il 

confronto. 

Ximmagine, Yimmagine: 

Intero; 

matrice_inversione: 

Matrice 


Intero; 

“Parametri di 

− imm:=sistemaBinoculare(): 

”riferimento spazio visivo comune e 

immagini”; 

− individuaSpettroVisivoComune(); 

− AcquisisciRettificando(); 

− Acquisisci(); 

− rettifica(); 

− imma:=telecamera(nome_invers: 

String):”riferimento immagini”; 

− cancellaImmagini(); 

− im:=acquisizioneVeloce(): “vettore 

immagine”; 

− leggiImmagineAcquisita(im:”vettore 

immagine”); 

− leggiImmagineAcquisita 

Rettificando(im:”vettore 

immagine”); 

− rettifica(); 

− leggiImmagineDaFile(); 

− salvaImmaginiSuFile(); 

− frameGrabber(Ximmagine, 

Yimmagine: Floating,”parametri ci 

acquisizione”); 

122

ImmagineRGB 

ImmagineRGB 

Ricostruita 

acquisizione” 


Intero; 

matrice_intensita: 

Matrice 

Sensibilità: Floating; 

− im:=acquisisci(): ”vettore 

immagine”; 

− immagineRGB(Ximmagine, 

Yimmagine: Intero); 

− cancella(); 

− ricrea(); 

− riempi(im: ”vettore immagine”); 

− leggiImmagineDaFile(); 

− salvaImmagineSuFile(); 

− una serie di metodi di analisi delle 

immagini (filtri, soglie, 

trasformazioni istogramma, edge 

detection, eccetera) 

− overloding dell’operatore “()” per 

l’accesso alla matrice_intensità 

− immagineRicostruita(Ximmagine, 

Yimmagine: Intero; sensibilita: 

Floating); 

ImmagineGrey 

ImmagineGrey 

Ricostruita 


Intero; 

matrice_intensita: 

Matrice 

Sensibilità: Floating; 

− immagineRGB(Ximmagine, 

Yimmagine: Intero); 

− cancella(); 

− ricrea(); 

− riempi(im: ”vettore immagine”); 

− overloding dell’operatore “()” per 

l’accesso alla matrice_intensità 

− serie di metodi di analisi delle 

immagini in scala di grigio 

− immagineRicostruita(Ximmagine, 

Yimmagine: Intero; sensibilita: 

123

Immagine 

Segmentata 

Ostacolo 

Area Camminabile 

Matrice_segmenti: 

Matrice 

PosizioneOstacolo: 

Posizione; 

Matrice_camminabilità: 

Matrice 

Floating); 

− implementazione della 

serializzazione di Feature 

− implementazione della 

serializzazione di Feature 

124

5.5. Sviluppi futuri 

Nello svolgimento della tesi è stata sviluppata solo una parte delle funzionalità 

progettate. Prossimi passi del progetto saranno quindi il completamento del modulo 

visivo e la sua integrazione in un sistema più ampio per la gestione di un completo robot 

mobile autonomo. Si dovranno affrontare tematiche di diversa natura, a partire da 

funzionalità di decisione, per giungere a funzionalità di basso livello per il controllo dei 

motori del robot. Infine saranno centrali le funzionalità di comunicazione tra tutte 

queste componenti del sistema. Il passo finale sarà l’installazione di HOPS e del 

software realizzato su un robot mobile. Una delle prime applicazioni nelle quali si 

prevede di impiegare il sistema è la competizione RoboCup. 

Riguardo al sistema di comunicazione, nel progetto sviluppato, si è proposto un modello 

basato sull’impiego dell’interfaccia messaggio: ogni informazione che può essere 

comunicata tra modulo e modulo viene descritta da una classe che implementa questa 

interfaccia e propone dei metodi di serializzazione e spedizione dell’oggetto stesso 

impiegati dal modulo sorgente e di rigenerazione dal modulo destinatario. Centrale 

risulterà essere qui la possibilità di rappresentare in maniera schematica l’informazione 

da comunicare e alleggerire quindi il carico del sistema di comunicazione. 

125

Conclusioni 

In questa tesi è stato presentato il lavoro svolto nella realizzazione e nell’impiego di un 

sensore visivo denominato HOPS (Hybrid Omnidirectional/Pin-hole Sensor), composto 

da un catadiottro per la visione omnidirezionale e una telecamera CCD tradizionale, per 

associare ai vantaggi di una visione foveale sulla regione frontale al sistema, quelli di 

un’ampia visione periferica fornita dal catadiottro. I catadiottri sono un tipo di sensore 

attualmente impiegato proficuamente nei settori più diversi: si pensi all’acquisizione di 

modelli per la realtà virtuale, alla teleconferenza, alla sorveglianza o all’autolocalizzazione. 

Il sensore è stato pensato per l’impiego in robot mobili autonomi: HOPS è applicabile a 

problemi di auto-localizzazione in ambienti semistrutturati, nella ricerca ad ampio 

raggio di oggetti di interesse, nell’analisi di percorsi, e in tutte quelle applicazioni che 

richiedono un’analisi congiunta periferica e foveale. 

Il lavoro svolto nell’ambito dell’analisi delle immagini si è concentrato nella 

calibrazione del sensore visivo e nella realizzazione, tramite il modello della prospettiva 

inversa, della funzionalità di individuazione di ostacoli presenti nel campo visivo 

comune alle due telecamere. Questo lavoro ha dato dei buoni risultati sia in termini di 

affidabilità che di flessibilità al cambiamento dell’ambiente di lavoro: il test del sistema 

è stato effettuato in diversi ambienti indoor, tra i quali in particolare quello del campo 

utilizzato per la competizione Robocup (per la quale si prevede una futura applicazione 

del sistema in sviluppo). Parte integrante del lavoro svolto è anche quella di progetto e 

realizzazione di un modulo di gestione della visione che si adatti facilmente all’impiego 

in un sistema più ampio per il controllo di robot mobili autonomi. 

126

Gli sviluppi futuri si concentreranno prevalentemente in due direzioni: quella della 

realizzazione di un set di funzionalità visive completo che sfrutti tutte le potenzialità di 

HOPS e prenda le sue basi da quelle già sviluppate, e la realizzazione di un sistema di 

più alto livello per la gestione di robot mobili autonomi che utilizzi il modulo visivo 

realizzato come sorgente sensoriale. 

127

Bibliografia 

Adorni G., Cagnoni S., Mordonini M. An efficient perspective effect removal technique 

for scene interpretation. Proc. Asian Conference on Computer Vision, pagg. 601-605. 

2000a. 

Adorni G., Cagnoni S., Mordonini M. Cellular automata based inverse perspective 

transform as a tool for indoor robot navigation. LNCS. AI*IA99:Advances in Artificial 

Intelligence, n.1792, pagg. 345-355. Springer. 2000b. 

Adorni G., Massone L., Sandini G. Reasoning about iconic data in artificial vision. 

Proc. SPIE Computer Vision for Robot, vol.595. 1985. 

Adorni G., Massone L., Sandini G., Immovilli M. From early processing to conceptual 

reasoning: an attempt to fill the gap. Proc. Of the Tenth International Joint Conference 

on Artificial Intelligence IJCAI87, vol.2, pagg. 775-778. 1987. 

Arkin R.C. Behaviour Based Robotics. MIT Press.1998. 

Asada M., Suzuki S., Takahashi-Y Y., Uchibe E., Nakamura M., Mishima C., Ishizuka 

H., Kato T. TRACKIES: RoboCup-97 Middle-Size League World Cochampion. AI- 

Magazine, vol.19, no.3, pagg. 71-78, 1998. 

Bajcsy R. Active Perception. Proc. IEEE, vol. 76, no. 8, pagg. 996-1005.Agosto 1988. 

Baker S., Nayar S.K. A theory of catadioptric image formation. Proc. Sesta Conferenza 

Internazionale sulla Computer Vision, pagg.35-42. Bombay, Gennaio 1998. 

Ballard D.H., Brown C.M. Computer Vision. Prentice-Hall, Englewood Cliffs,1982. 

Bertozzi M., Broggi A., Fascioli A. Stereo inverse perspective mapping: theory and 

application. Image and Vision Computing, vol.16, no.8, pagg.585-590. Giugno 1998. 

128

Bertozzi M., Broggi A. Real Time Lane and Obstacle Detection on the GOLD system. 

Proc. IEEE Intelligent Vehicles ’96, pagg. 213-218. Tokyo, Japan. 1996. 

Bohrer S., Lutgendorf A., Mempel M. Using inverse perspective mapping as a basis for 

two concurrent obstacle avoidance schemes. Artificial Neural Networks, Proceedings of 

the 1991 International Conference, ICANN-91, pagg. 1233-1236. Amsterdam, 

Netherlands. 1991. 

Bohrer S., Zielke T., Freiburg V. An integrated obstacle detection framework for 

intelligent cruise control on motorways. Proc. Intelligent Vehicles ’95 Sym, pagg. 276- 

281. New York, 1995. 

Bonarini A.,Aliverti P.,Lucioni M. An omnidirectional vision system for fast tracking for 

mobile robots. IEEE Transactions on Instrumentation and Measurement, 49(3), 509- 

512. 2000. 

Brady M. Artificial Intelligence and Robotics. Artificial Intelligence and Robotics, vol. 

26, pagg. 79-121. 1985. 

Brauckmann M.E., Goerick C., Gross J., Zielke T. Towards all around automatic visual 

obstacle sensing for cars. Proc. Intelligent Vehicles ’94 Symp, pagg. 79-84.New York, 

NY, USA. 1994. 

Brooks R. New Approaches to Robotics. Science, vol. 253, pagg. 1227-1232. September 

1991. 

Christensen H.I., Kirkeby N.O., Kristensen N., Knudsen L., Granum E. Model-driven 

vision for indoor navigation. Robotics and Autonomous Systems, vol.12, no.3-4, pagg. 

199-207. Aprile 1994. 

Clérentin A., Delahoche L., Pegard C., Brassart-Gracsy E. A localization method based 

on two omnidirectional perception systems cooperation. Proc. 2000 ICRA. Millennium 

Conference. Vol.2, pagg. 1219-1224. 2000. 

129

Cornell S., Porrill J., Mayhew J.E.W. Ground plane obstacle detection under variable 

camera geometry using a predictive stereo matcher. BMVC92, Proc. British Machine 

Vision Conference, pagg. 549-559. Springer-Verlag, Berlin. 1992. 

Drocourt C., Delahoche L., Pegard C., Cauchois C. Localization method based on 

omnidirectional stereoscopic vision and dead-reckoning. Proc. IEEE/RSJ Int. Conf. on 

Intelligent Robots and Systems, pagg. 960-965. 1999. 

Faugeras O. Three Dimensional Computer Vision: A Geometric Viewpoint. The MIT 

Press, Cambridge, MA. 1993. 

Gang-Yi-Jiant, Tae Y.C. Lane and obstacle detection based on fast inverse perspective 

mapping algorithm. Proc. IEEE International Conference on Systems, Man and 

Cybernetics, vol.5, pagg. 2969-2974. 2000. 

Gonzalez R.C., Woods R.E. Digital Image processing. Addison Westley. 1992. 

Hicks R.A., Bajcsy R. Reflective Surfaces as Computational Sensors. Proc. 2nd 

Workshop on Perception for Mobile Agents, pagg. 82-86. 1999. 

Jacobs D.W. The use of grouping in visual object recognition. MIT Artificial 

Intelligence Laboratory, Technical Report 1023. 1988. 

Klaus B., Horn P. Robot Vision. The MIT Press. Cambridge, Massachusetts. 1986. 

Larman C. Applying UML and Patterns. An introduction to Object-Oriented Analysis 

and Design. Prentice Hall. 1998. 

Lee C. W., Beom H. R., Choe H. S. An obstacle detection method for mobile robots 

using axial stereo. Automatic control, World Congress 1993, Proc. 12 TH Triennial World 

Congress of the International Federation of Automatic Control, vol.3, applications I. 

Pergamon, Oxford, UK, pagg. 897-902. 1994. 

Mallot H.A., Bulthoff H.H., Little J.J., Bohrer S. Inverse Perspective mapping simplifies 

optical flow computation and obstacle detection. Biological Cybernetics, 64:177-185. 

1991a. 

130

Mallot H.A., Zielke T., Storjohann K., von Seelen W. Topographic mapping for stereo 

and motion processing. The International Society for Optical Engineering, vol.1382, 

pagg. 397-408. 1991b. 

Mansouri A., Malowany A., Levine M. Line Detection in Digital Pictures: A Hypothesis 

Prediction / Verification Paradigm, vol.40, pagg.95-114. 1987. 

Marchese, Sorrenti D. Omni-directional vision with a multi-part mirror. 4th Int. 

Workshop on RoboCup, pagg. 289-298. 2000. 

Marques C., Lima P. A localization method for a soccer robot using a vision-based 

omni-directional sensor. Proc. of EuroRoboCup Workshop, Amsterdam, The 

Netherlands, June 2000, disponibile solo in formato elettronico in 

http://lci.isr.ist.utl.pt/projects/mrob/socrob 

Marr D. Vision: A computational Investigation into the Human Representation and 

Processing of Visual Information. W. H. Freeman, New York. 1982. 

Morgenthaler D.G., Hennessy S., DeMenthon D. Range-video fusion and comparision 

of inverse perspective algorithms in static images. IEEE Transactions on Systems, Man 

and Cybernetics, vol.20, n.6, pagg. 1301-1312. Dicembre 1990. 

Nayar S.K. Omnidirectional Vision. In Robotics Research. 8 th International Symposium, 

pagp. 195-202. 1998. 

Onoguchi K., Takeda N., Watanabe M. Planar projection stereopsis for road extraction. 

IEICE Trans. on Information and Systems, vol.E81-D, no.9. pagg. 1006-1018. 1998. 

Santos V. J., Sandini G. Uncalibrated obstacle detection using normal flow. Machine 

Vision and Applications, vol.9, no.3, pagg. 130-137. 1996. 

Shimasaki M. The inverse of perspective projection. Trans. of the Institute of 

Electronics and Communication Engineers of Japan, Section E, English, vol.E64, no.6, 

pagg. 406-413. Giugno 1991 

131

Storjohann K., Mallot H.A., Zielke T., von Seelen W. Visual obstacle detection for 

automatically guided vehicles. Proc. 1990 IEEE International Conference on Robotics 

and Automation, IEEE Comput. Soc. Press, Los Alamitos. 1993. 

Svoboda T., Pajdla T. Panoramic cameras for 3D computation. Proc. Czech Pattern 

Recognition Workshop, pagg. 63-70. 2000. 

Tenenbaum J.M., Barrow H.G. Experiments in Interpretation-Guided Segmentation. 

Artificial Intelligence, vol.8, n.3, pagg. 241-274. 1977. 

Tsai R.Y. A Versatile Camera Calibration Technique for High-Accuracy 3D Machine 

Vision Metrology Using Off-the-Shelf TV Cameras and Lenses. IEEE Journal of 

Robotics and Automation, vol. RA-3, No.4, pagg. 323-344. Agosto 1997. 

Tzai R.Y. An efficient and accurate camera calibration technique for 3-D machine 

vision. Computer Vision and Pattern Recongnition, pagg. . 1996. 

Ullman S. Visual Cognition. Ed. S. Pinker, MIT Press, Cambridge, MA. 1985. 

Yachida M. Omnidirectional sensing and combined sensing. Proc. 1998 IEEE and ATR 

Workshop on Computer Vision for Virtual Reality Based Human Communications, 

IEEE Computer Soc. Press, Los Alamitos. 1998 

Zhang J., Knoll A., Schwert V. Situated neuro-fuzzy control for vision-based robot 

localisation. Robotics and Autonomous Systems, vol. 28, pagg. 71-82. 1999. 

Zielke T., Storjohann K., Mallot H.A., von Seelen W. Adapting computer vision systems 

to the visual environment: topographic mapping. Computer Vision – Proc. ECCV90, 

First European Conference on Computer Vision, pagg. 613-615. Springer-Verlag, 

Berlin, West Germany. 1990. 

132

Progetto e Realizzazione di un Sensore Ibrido Omnidirezionale/pin ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?