Progetto, realizzazione e calibrazione di un sistema di visione ...

UNIVERSITÀ DEGLI STUDI DI ROMA“TOR VERGATA”FACOLTÀ DI INGEGNERIACorso di Laurea in Ingegneria dell'AutomazioneTesi di Laurea di Primo LivelloProgetto, realizzazione e calibrazione di unsistema di visione stereoscopicaRelatoreIng. F. MartinelliLaureandoPaolo PazzianiAnno Accademico 2010/2011

RingraziamentiUna tesi è sempre frutto di un intenso lavoro, durante il quale sipossono presentare imprevisti e momenti di scoraggiamento che hopotuto superare soltanto grazie al sostegno delle persone che mi sonostate accanto.Per tale motivo desidero ringraziare i miei genitori che hannocreduto in me anche nei momenti più difficili, senza i cui sacrificinon avrei potuto portare a termine il mio progetto.Un particolare ringraziamento va a Gabriella con la quale ho avutola fortuna di dividere momenti importanti della mia vita. Le saròsempre grato perché mi è sempre stata vicino ogni qualvolta si siapresentata una difficoltà, dandomi la forza di completare questolavoro.Vorrei esprimere tutta la mia gratitudine a Fabio il cui supporto èstato indispensabile.Desidero ringraziare il prof. Martinelli, che mi ha offertol'opportunità di conoscere il mondo della visione artificiale.Ringrazio inoltre tutti coloro che mi hanno sostenuto durante ilpercorso dei miei studi.

IndiceIntroduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Nozioni Preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.1Visione computazionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2 La percezione visiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3 Formazione dell'immagine . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4 Foto sensori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4.1 Semiconduttori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.2 Il Dispositivo MOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4.3 La Giunzione P-N. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.4.4 Charged Coupled Devices . . . . . . . . . . . . . . . . . . . . . . 191.4.5 Complementary metal-oxide semiconductor . . . . . . . . 221.4.6 Confronto fra CCD e CMOS . . . . . . . . . . . . . . . . . . . . 241.5 Image Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.5.1 Rumore nelle immagini . . . . . . . . . . . . . . . . . . . . . . . . 261.5.2 Riduzione del rumore . . . . . . . . . . . . . . . . . . . . . . . . . 261.6 Estrazione di feature da immagini . . . . . . . . . . . . . . . . . . . . 281.6.1 Edge detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.6.1.1 Rilevazione dei bordi mediante derivata prima . . 301.6.1.2 Rilevazione dei bordi mediante derivata delsecondo ordine . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.6.1.3 Canny edge detector . . . . . . . . . . . . . . . . . . . . . . 341.6.2 Corner detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351.6.2.1 Classificazione degli algoritmi di edge detection 361.6.2.2 Algoritmo di Moravec . . . . . . . . . . . . . . . . . . . . . 381.7 Trasformata di Hough . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

1.7.1 La trasformata di Hough per le linee . . . . . . . . . . . . . . 431.7.2 La trasformata di Hough per i cerchi (CHT) . . . . . . . . 452 Modello della telecamera e calibrazione . . . . . . . . . . . . . . . . . . . 482.1 Modello della telecamera . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.1.1 Proiezione prospettica . . . . . . . . . . . . . . . . . . . . . . . . . 482.1.2 Parametri intrinseci ed estrinseci . . . . . . . . . . . . . . . . 502.1.3 Il nucleo di . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522.1.4 Distorsioni delle lenti . . . . . . . . . . . . . . . . . . . . . . . . . 532.2 Calibrazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.2.1 Metodi di calibrazione . . . . . . . . . . . . . . . . . . . . . . . . . 562.2.2 Metodo di Zhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582.2.3 Omografia tra l'oggetto panare e la sua immagine . . . 592.2.3.1 Stima dell'omografia H . . . . . . . . . . . . . . . . . . . . . 602.2.3.2 Soluzione sovra-determinata . . . . . . . . . . . . . . . . . 612.2.3.3 Scelta della funzione di costo . . . . . . . . . . . . . . . . 612.2.3.4 Least median of Squares . . . . . . . . . . . . . . . . . . . . 632.2.3.5 RANSAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642.2.4 Stima della matrice dei parametri intrinseci . . . . . . . . 662.2.5 Stima dei parametri estrinseci . . . . . . . . . . . . . . . . . . . 683 Visione stereoscopica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.1 Triangolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.2 Geometria epipolare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.2.1 La matrice fondamentale . . . . . . . . . . . . . . . . . . . . . . . 743.2.2 Le matrici L e R in un sistema stereoscopico 753.2.3 Proprietà della matrice fondamentale . . . . . . . . . . . . . 763.2.4 La matrice Essenziale . . . . . . . . . . . . . . . . . . . . . . . . . 773.2.5 La matrice F in un sistema stereoscopico canonico . . . 784

3.3 Calcolo della matrice fondamentale . . . . . . . . . . . . . . . . . . . 793.3.1 Decomposizione ai valori singolari . . . . . . . . . . . . . . . 813.3.2 Soluzione esatta con sette punti . . . . . . . . . . . . . . . . . . 813.3.3 Metodo degli otto punti . . . . . . . . . . . . . . . . . . . . . . . . 823.3.4 Normalizzazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.3.5 Soluzione ai minimi quadrati . . . . . . . . . . . . . . . . . . . . 843.3.6 Vincolo di singolarità . . . . . . . . . . . . . . . . . . . . . . . . . 853.3.7 Metodi robusti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 853.4 Rettificazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.4.1 Algoritmo di Hartley . . . . . . . . . . . . . . . . . . . . . . . . . . 893.4.2 Algoritmo di Bouguet . . . . . . . . . . . . . . . . . . . . . . . . . 933.4.3 Mappa di rettificazione . . . . . . . . . . . . . . . . . . . . . . . . 954 Hardware e software impiegati . . . . . . . . . . . . . . . . . . . . . . . . . . 1004.1 L'Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1004.1.1 Sistema di elaborazione . . . . . . . . . . . . . . . . . . . . . . . . 1004.1.2 Telecamere e loro collocazione . . . . . . . . . . . . . . . . . . 1014.2 Software utilizzato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.2.1 Il linguaggio di programmazione . . . . . . . . . . . . . . . . . 1034.2.2 OpenCV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1044.2.3 L'ambiente di sviluppo e il Sistema Operativo . . . . . . 1055 Distribuzione dei processi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1075.1 Moltiplicare i processi per gestire più telecamere . . . . . . . . 1075.1.1 Puntare sul parallelismo . . . . . . . . . . . . . . . . . . . . . . . 1075.1.2 Interazione utente/processi . . . . . . . . . . . . . . . . . . . . . 1085.2 Scelta del metodo di comunicazione tra processi . . . . . . . . . 1095.3 Strutture di base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125.4 Acquisizione delle immagini . . . . . . . . . . . . . . . . . . . . . . . . 1135

5.4.1 Algoritmo relativo al tasto “Avvia”. . . . . . . . . . . . . . . 1155.4.2 Algoritmo associato al tasto “ Scatta” . . . . . . . . . . . . 1175.4.3 Algoritmo relativo al pulsante “Termina” . . . . . . . . . 1186 Sincronizzazione dei processi . . . . . . . . . . . . . . . . . . . . . . . . . . . 1196.1 Funzionamento del processo di acquisizione . . . . . . . . . . . . 1216.2 Funzionamento della GUI . . . . . . . . . . . . . . . . . . . . . . . . . . 1226.3 Diagramma di funzionamento . . . . . . . . . . . . . . . . . . . . . . . 1236.3.1 Processo di acquisizione . . . . . . . . . . . . . . . . . . . . . . . 1236.3.1.1 Stato 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1246.3.1.2 Stato 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1256.3.1.3 Stato 51. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1256.3.1.4 Stato 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1266.3.1.5 Stato 53 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1266.3.1.6 Stato 54 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1276.3.2 GUI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1286.3.2.1 Stato 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1296.3.2.2 Stato 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1296.3.2.3 Stato 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1306.3.2.4 Stato 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1307 Interfaccia grafica e tutorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1317.1 Approccio iniziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1317.1.1 Esecuzione del programma . . . . . . . . . . . . . . . . . . . . . 1317.1.2 IDD_BOUTBOX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1327.1.3 Impostazione dei processi di acquisizione . . . . . . . . . 1337.1.4 Avviare i processi di acquisizione . . . . . . . . . . . . . . . . 1347.2 Avviare le operazioni inerenti una calibrazione . . . . . . . . . . 1377.3 Implementazione del tab control . . . . . . . . . . . . . . . . . . . . . 1386

7.4 Primo sotto-dialogo e raccolta delle immagini . . . . . . . . . . . 1397.4.1 Inserimento dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . 1407.4.2 Scatto manuale o automatico . . . . . . . . . . . . . . . . . . . 1427.4.3 Benefici apportati all'applicazione del sistema dimemorizzazione dei fotogrammi . . . . . . . . . . . . . . . . 1447.5 Secondo sotto-dialogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1457.5.1 Visualizzazione della lista di coppie di filename . . . . 1467.5.2 Conferma delle singole coppie di immagini . . . . . . . . 1477.5.3 Selezione delle opzioni . . . . . . . . . . . . . . . . . . . . . . . . 1497.6 Stereo-calibrazione e visualizzazione dei risultati . . . . . . . . 1507.6.1 Pressione del tasto “ Calibrazione” . . . . . . . . . . . . . . . 1507.6.2 Conferma dei Risultati . . . . . . . . . . . . . . . . . . . . . . . . 1528 Sviluppo di un'applicazione per il tracciamento di un oggettosferico nello spazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1568.1 Parametri della Circle Hough Transform . . . . . . . . . . . . . . 1568.2 Oggetto in movimento in una scena reale . . . . . . . . . . . . . . 1588.3 Utilizzo di filtri di tonalità . . . . . . . . . . . . . . . . . . . . . . . . . . 1598.4 Estrazione delle coordinate 3 D . . . . . . . . . . . . . . . . . . . . . . 1638.5 Verifica dell'accuratezza dei risultati . . . . . . . . . . . . . . . . . . 1639 Conclusioni e sviluppi futuri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1689.1 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1689.2 Sviluppi futuri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1707

IntroduzioneNegli ultimi decenni si è assistito ad un rapido sviluppo della visionecomputazionale che ha reso verosimile il tentativo di imitare la capacitàdelle specie animali più evolute di ricostruire l'ambiente tridimensionale.Nuovi metodi ed algoritmi nel riconoscimento di oggetti e nellaricostruzione di scene e modelli 3D stanno aprendo la strada a nuoveapplicazioni.In campo industriale si sta affermando l'utilizzo di sistemi di visionecomputazionale [Scaramuzza 2003] [Trucco-98] per:• controllo di qualità, allo scopo di identificare difetti e garantire ilrispetto delle tolleranze;• navigazione e coordinazione di robot mediante asservimentovisuale;• riconoscimento di oggetti per classificazione.Impieghi altrettanto importanti si trovano nella video-sorveglianza, graziealla possibilità di riconoscere volti, in ambiente militare e spaziale, nellarobotica chirurgica nonché nello sviluppo di intelligenze artificiali e realtàvirtuali.Questa ampia varietà di applicazioni che sta emergendo conta sul fatto chela cattura dell'informazione dall'ambiente è sempre più veloce, efficienteed a basso costo.La crescente capacità di elaborazione dei processori e la diminuzione delcosto delle webcam rende accessibile sia ai ricercatori che agli studenti la8

strumentazione che in passato era prerogativa soltanto di coloro che eranospecializzati nel settore. Lo studente che non è ancora esperto in questetecniche non ha difficoltà nell'allestire la strumentazione per lo sviluppo diun sistema di visione stereoscopico perciò i suoi sforzi saranno rivolti allacomprensione degli aspetti matematici e all'implementazione deglialgoritmi alla base della computer vision.Per rendere ancor più alla portata di tutti la visione artificiale, si è spostatal'attenzione verso la facilità di utilizzo del software e la sua immediatacomprensione. In tale direzione vanno lo sviluppo delle librerie OpenCV edi altri software come l'Image Processing Toolbox di Matlab che facilitanol'approccio ad una materia che può risultare ostica per la complessità deglialgoritmi e per le profonde basi geometriche.Questi software, trattando alcuni aspetti come black box, celano all'utentegli aspetti più difficili e spostano l'impegno verso lo sviluppo di nuoveapplicazioni.In questa tesi viene illustrata la progettazione di un sistema di visionestereoscopico e la realizzazione di un software user friendly per ilprocessamento delle scene, la calibrazione di una coppia di telecamere el'analisi stereo. Come esempio applicativo viene proposto ilriconoscimento di un oggetto sferico nello spazio e il calcolo delle suecoordinate spaziali, nonché della dimensione del suo raggio attraverso larettificazione delle immagini e la triangolazione.9

Capitolo 1Nozioni Preliminari1.1 Visione computazionaleLa visione computazionale è la scienza che si occupa dell'analisi delleimmagini attraverso un calcolatore allo scopo di determinare le proprietàgeometriche, fisiche e dinamiche del mondo che ci circonda.Lo scopo ultimo della Computer vision è quello di creare un modello delmondo reale, riconoscere e classificare gli oggetti che ne fanno parte edestrarre le relazioni spaziali e logiche esistenti tra di essi. La comprensionedello spazio tridimensionale può essere considerata un problema di altolivello a cui si può giungere soltanto una volta affrontati problemi di piùbasso livello ovvero l'estrazione delle proprietà geometriche e fisichedell’ambiente visibile, come i contorni degli oggetti, la loro forma eposizione.L'inizio delle ricerche sull'intelligenza artificiale si fa spesso risalire al1950 con la formulazione del test di Turing. In questo senso la visioneartificiale può essere considerata come una branca dell'intelligenzaartificiale in quanto si potrebbe formulare un test che giudichi“intelligente” una macchina in grado di rendersi consapevole del mondoche la circonda in modo indistinguibile da un essere umano.I cosiddetti chatterbot, seppur non a lungo, riescono talvolta ad ingannare iloro interlocutori, dimostrando una capacità di utilizzo del linguaggio10

naturale molto vicina a quella umana. La vista è il senso che ci permette diconoscere meglio il mondo [Aristotele, incipit della Metafisica]; lecapacità dei calcolatori sono tuttavia molto distanti da quelle umane perquanto riguarda la comprensione del mondo esterno. Un computer cheanalizzi un'immagine in modo da essere consapevole dello spazio da essarappresentato e delle interazioni oggetto-oggetto e oggetto-scena habisogno di una quantità di elaborazione assai maggiore di quella necessariaper l'interrogazione linguistica di un database [Koch-Tononi-2008].La distanza tra le capacità umane e quelle delle macchine non sta nelnumero di informazioni elaborate, ma nella capacità di integrarle. Unsistema di visione artificiale moderno è oggi in grado di distinguere unamolteplicità di oggetti in una scena con un discreto grado di complessità,ma non è in grado di metterli in relazione tra di loro e di confrontarli conaltre immagini viste in precedenza. Il cervello umano mette in relazione leinformazioni a molteplici livelli; non solo distingue colore, posizione eforma di un singolo oggetto, ma unisce tutte le informazioni in un'unicascena dalla quale estrae le informazioni che ritiene più importanti in quelmomento.1.2 La percezione visivaLa visione è l'insieme dei processi di registrazione, elaborazione,trasmissione ed interpretazione degli stimoli luminosi, che portano allapercezione delle immagini ed all'analisi delle loro caratteristiche. Talistimoli luminosi derivano dalla percezione della radiazione11

elettromagnetica appartenente al visibile di lunghezza d'onda compresa tra350 nm e 780 nm emessi da una sorgente luminosa oppure derivante daluce riflessa. [UTET-91].Illustrazione 1: Sezione trasversale di un occhio umanoNegli animali il principale organo deputato alla visione è l'occhio. Inparticolare la luce entra nell'occhio umano attraverso la cornea, unamembrana trasparente che ha la funzione di imprimere alle radiazioniluminose che raggiungono l’occhio la convergenza necessaria a esseredeviate sul cristallino, il quale costituisce la lente biologica che faconvergere le immagini su un'altra sottile membrana trasparente cheriveste la superficie interna del globo oculare, la retina.La retina è composta da coni e bastoncelli, due tipi di fotorecettori chetrasformano gli stimoli luminosi in segnali nervosi e li inviano attraverso ilnervo ottico. I coni sono presenti maggiormente nella zona centrale della12

etina, detta macula, risultano sensibili solo a luci piuttosto intense e sonoresponsabili della visione dei colori. I bastoncelli sono più numerosi nellezone periferiche, aiutano la visione notturna essendo particolarmentesensibili a basse intensità di luce e allargano il campo visivo. Pertanto, iconi operano soprattutto in condizione di luce piena, mentre i bastoncellipermettono la visione anche quando la luce è scarsa. La luce percepita dalsistema visivo umano provoca tre sensazioni principali: luminosità,tonalità e saturazione.La luminosità (brightness) è di solito fisicamente correlata alla intensità diradiazione luminosa, mentre la tonalità (hue) con la lunghezza d'onda.Questa corrispondenza tuttavia non è esatta in quanto oggetti con lamedesima intensità possono apparire all'occhio umano di differenteluminosità. Inoltre con tonalità noi intendiamo la distinzione tra i varicolori derivante dalla interazione delle tre differenti tipologie di coni,responsabili rispettivamente della visione dei tre colori primari (rosso,verde e blu).In realtà non esiste una corrispondenza biunivoca tra colore e lunghezzad'onda, infatti raggi luminosi di differente lunghezza d'onda possonorisultare alla vista con la stessa tonalità e, allo stesso tempo, è necessariocombinare fasci di luce di differente lunghezza d'onda per produrre alcunetonalità.Alla saturazione solitamente non è associata alcuna grandezza fisicaquantitativa in quanto essa indica il candore della sorgente luminosa.13

1.3 Formazione dell’immagineSi può facilmente constatare come la progettazione delle telecamere si siaispirata alla fisiologia dell'occhio umano, infatti esso è composto da unsistema di lenti, da un diaframma (iride) e un'area fotosensibile.Illustrazione 2: Struttura di una telecameraIn uscita dall'occhio partono attraverso le fibre del nervo ottico una serie disegnali bioelettrici che vengono trasmessi al calcolatore neuralerappresentato dal nostro cervello. Inoltre, l'occhio può percepire i trecolori primari (rosso, verde e blu).Una telecamera è un dispositivo che memorizza l'intensità di radiazioneluminosa in funzione della posizione grazie all'utilizzo di un sistema di14

acquisizione dell’immagine (imaging). Questo complesso sistema puòschematicamente considerarsi costituito da una lente, un diaframma, undivisore di luce, un sensore fotosensibile e dei dispositivi elettronici. Lalente fa convergere la radiazione nel centro ottico della lente detto fuoco ocentro di proiezione, che verrà in seguito indicato con Oc.1.4 Foto sensoriIl cuore di ogni telecamera digitale è il sensore, cioè il dispositivo che converte le lucein cariche elettriche, per trasformarle poi in informazioni digitali. La superficie, chepossiamo approssimativamente considerare piana, del dispositivo foto-rilevatore vienedetta piano immagine. La maggior parte delle telecamere oggi in commerciosi basano su sensori allo stato solido, realizzati con chip di silicio, mentre idispositivi basati sulla tecnologia a tubo catodico sono divenuti obsoletidagli anni '90 e hanno oramai un interesse soltanto storico [Di Stefano].Tra i sensori allo stato solido le tecnologie più diffuse sono la tecnologiaCCD (Charge-Coupled Devices) e CMOS (Complementary Metal-Oxide-Semiconductor). Entrambi i sensori sfruttano l'effetto fotoelettrico, vale adire il fenomeno fisico per cui quando dei raggi di luce colpiscono gliatomi sulla superficie di un materiale, questi salgono ad un livelloenergetico superiore. Per alcuni materiali gli elettroni orbitanti possonoanche oltrepassare l'orbita stabile più grande divenendo liberi di muoversiall'interno del materiale. Questo fenomeno permette ad ogni elementofotosensibile di convertire l'energia luminosa in energia elettrica che a suavolta viene codificata in informazione digitale anche attraverso un15

processore numerico.1.4.1 SemiconduttoriAlla base dei circuiti elettronici, e quindi anche dei sensori CMOS e CCD,stanno le proprietà dei semiconduttori, in particolare quella di comportarsia basse temperature come isolanti, ma se forniti di energia come quellatermica o luminosa si comportano in maniera prossima ad un metallo, convalori di conducibilità elettrica non nulli.Nei semiconduttori intrinseci, come germanio e silicio puri, che hanno unastruttura regolare direzionale a reticolo e legami covalenti i cui livelli sonocompleti, basta il contributo di energia termica dovuto alla temperaturaambiente per spezzare il legame covalente e far saltare un elettrone versoun livello energetico libero. Ciò corrisponde al fatto che quell’elettrone è16

passato dalla banda con energia più bassa (banda di valenza) alla bandalibera, superando la banda di conduzione, cioè quella più alta in energia fraquelle non occupate da elettroni. Nella banda di valenza viene così amancare un elettrone, la lacuna che si genera corrisponde in quella zona aduna area sostanzialmente a polarità positiva, che facilmente attrarrà unaltro elettrone. Lacune ed elettroni si generano continuamente a coppie inseguito alla rottura di legami covalenti per effetto della agitazione termicae scompaiono a coppie, quando una lacuna ed un elettrone si ricombinanoa riformare un legame covalente. Se un reticolo di materialesemiconduttore tetravalente viene drogato con un altro materialesemiconduttore pentavalente (Fosforo, Arsenico) o trivalente (Boro,Alluminio, Gallio, Indio) si ottiene un semiconduttore estrinseco e puòavvenire nel primo caso che venga rilasciato un elettrone dall'atomo delmateriale dopante pentavalente avendo il quinto elettrone spaiato che devecompiere un basso salto energetico per passare al di sopra del livello diconduzione del materiale principale, mentre nel secondo caso incorrispondenza della lacuna introdotta dal trivalente è basso il saltoenergetico che un elettrone del materiale principale deve fare perraggiungere il livello energetico vuoto corrispondente al suo livello diconduzione. Nel primo caso si hanno semiconduttori di tipo n il cui livellodi partenza dell’elettrone si dice livello donatore. Nel secondo caso sihanno semiconduttori di tipo p in cui il livello della lacuna si dice livelloaccettore.In presenza di un campo elettrico si stabilisce una corrente di deriva (drift17

current), analogamente a quanto avviene nei metalli, a cui si aggiunge unsecondo meccanismo legato alla diffusione, il quale invece è irrilevante neimetalli, per cui anche in assenza di un campo elettrico il gradiente diconcentrazione dei portatori di carica dà origine a densità di corrente.Modificando il drogaggio si può modificare la conduttività deisemiconduttori e questo è il principale motivo per cui sono così utili.1.4.2 Il Dispositivo MOSIl nucleo dei sensori CCD e CMOS è costituito dal condensatore MOS(Metal-Oxid-Semiconductor) formato da un substrato di semiconduttoredrogato e da un'armatura, consistente in uno strato metallico, detta gate,separate tra loro da un ossido isolante.Illustrazione 3: Struttura di un condensatore MOS18

Il substrato di silicio presenta una distribuzione uniforme di lacune che, seviene applicato un potenziale esterno ai capi dell'elettrodo metallico e delsubstrato, tendono ad allontanarsi dall'elettrodo. Si crea così una zona disvuotamento associata ad una buca di potenziale che va sempre più inprofondità con l'aumentare del valore della differenza di potenziale.Il processo di svuotamento termina quando la buca di potenziale è tantoprofonda da attirare nella zona in cui il potenziale è minimo, vale a dire incorrispondenza della giunzione tra semiconduttore e ossido, uno strato dielettroni detto strato di inversione.1.4.3 La Giunzione P-NUn altro aspetto in comune è l'utilizzo della giunzione P-N, formata dalcontatto di una regione di tipo P con una di tipo N in modo che si passirapidamente dalla regione con atomi accettori, e quindi ricca di portatori dicarica positivi (lacune), alla regione con donatori e ricca di portatori dicarica negativi (elettroni). Nella giunzione si vengono quindi ad averefortissimi gradienti di concentrazione che attivano un flusso elettronicodalla zona N alla zona P che, raggiunto il punto di equilibrio elettrostatico,determina un eccesso di carica positiva nella zona n creando inoltre unaregione intermedia detta zona di svuotamento o di carica spaziale. Ilrisultato è un campo elettrico interno al dispositivo.1.4.4 Charged Coupled DevicesUn rilevatore di fotoni CCD è costituito da una matrice di condensatori19

MOS foto-sensibili che catturano e immagazzinano l'informazione nellaforma di carica elettrica localizzata la quale varia con l'intensità luminosaincidente. La matrice di sottili strati di silicio (wafer) è ripartita da unagriglia ortogonale di strette strisce di elettrodi sotto carico, o Gate,depositata sul chip la quale definisce i singoli elementi dell'immagine dettipixel [K. R. Spring].Per non adibire dell'elettronica di misura per ogni condensatore, la quantitàdi carica non viene misurata sul singolo MOS, ma viene trasferitaattraverso più condensatori contigui fino ad unico nodo di lettura.Illustrazione 4: Flusso di carica mediante modulazione del potenzialePer trasferire il pacchetto di carica immagazzinato nel condensatore apotenziale più basso in un condensatore adiacente occorre applicare al suo20

Gate una tensione più positiva in modo che le cariche migrino verso diesso. Dopo che il trasferimento di carica da un elettrodo all'altro èavvenuto si può riportare entrambe le tensioni a valori inferiori, in mododa consentire con le stesse tensioni un successivo trasferimento. Quindi,terminato l’intervallo di esposizione, ogni condensatore trasferisce lacarica al suo vicino operando come un registro a scorrimento. L'ultimocondensatore svuota il carico in un amplificatore di carica che lo convertein voltaggio. Per evitare che la carica si disperda in direzione ortogonalealla linea di elettrodi vengono disposti degli impianti di lacune ad altaconcentrazione che formano due “barriere” dette channel stops. Mentre glielementi fotosensibili accumulano la carica relativa al nuovo ciclo, ilcontenuto del CCD shift-register viene trasferito all’esterno generando unsegnale che rispetta uno degli standard video.Nel CCD così descritto, chiamato surface channel, la differenza tra ireticoli del semiconduttore e dell'isolante creano delle imperfezioni cheproducono una notevole perdita di carica e rumore. Nel CCD di tipo buriedchannel si è suddiviso il substrato del semiconduttore creando unagiunzione P-N che trasporta la carica con minore rumore e maggiorefficienza.La matrice di acquisizione immagini funziona nel seguente modo:• Fase 1: scarica tutti i pixel del CCD.• Fase 2: esposizione alla luce dei pixel• Fase 3: Trasferimento di carica orizzontale• Fase 4: Trasferimento di carica verticale21

• Fase 5: Amplificazione delle cariche elettriche• Fase 6: Conversione dei segnali elettrici in una immagine.1.4.5 Complementary metal-oxide semiconductorI sensori per l'acquisizione di immagini CMOS sono così chiamati poichésfruttano la tecnologia Complementary Metal Oxide Semiconductorutilizzata per la progettazione di circuiti integrati. Il suo più importantevantaggio è quello del basso costo grazie alla possibilità di utilizzareun'unica linea di produzione con altri dispositivi digitali essendo analogo ilprocesso di fabbricazione di microprocessori, memorie e altri chip.Illustrazione 5: Architettura di un sensore CMOS22

Mentre in un sensore CCD il fotodiodo si comporta come un condensatore,nel CMOS si comporta come un generatore di corrente [Xie-2003].Un sensore CMOS generalmente è costituito da un'area di acquisizioneimmagine che consiste in una matrice di active pixel sensors (APS) nellaquale sono incorporati in ogni pixel sia il fotodiodo che dei transistor ingrado di resettare il fotodiodo, convertire la carica elettrica in una tensionemisurabile, amplificare il segnale (source follower) e ridurre il rumore. Aquesti si aggiungono anche dei circuiti ad accesso orizzontale e verticale edei circuiti di lettura che servono per accedere a un pixel e a leggerne ilvalore del segnale oltre a dei circuiti di digitalizzazione [Otha 2007].Questo tipo di architettura consente un indirizzamento più semplice adogni pixel rispetto ai CCD, tuttavia questi transistor di supporto nonpossono essere utilizzati per la rilevazione di fotoni, perciò la percentualedell'area di un fotosito che risulta utile per raccogliere la luce, detta "fillfactor" (fattore di riempimento), è soltanto il 30% dell'area totale.La conseguenza è una perdita significativa di sensibilità, unacorrispondente riduzione del rapporto segnale-rumore ed una limitatagamma dinamica. Un sensore CCD ha un fill factor del 100%, un sensoreCMOS molto meno. In ogni caso, se ben progettati, sia i sensori CCD cheCMOS possono offrire un'eccellente qualità dell'immagine.Nel funzionamento di un CMOS il primo passo è quello di inizializzare iltransistor di reset al fine di smaltire la carica della regione fotosensibile.Successivamente per effetto fotoelettrico vengono prodotti elettroni chevengono immagazzinati nella buca di potenziale sotto la superficie.23

Terminato il tempo di esposizione, che dipende dall'intensità di luce, lecariche su ogni colonna vengono convertite in una voltaggio dal sourcefollower dedicato.1.4.6 Confronto fra CCD e CMOSOgnuna delle due tecnologie mostra vantaggi e svantaggi che la rendonopiù adatta per certe applicazioni e non altre.Le differenze principali sonno schematizzate nella seguente tabella:CARATTERISTICA CCD CMOSOUTPUTFOTODIODOcarica elettricavoltaggioOUTPUT DEL CHIP voltaggio (analogico) bit (digitale)RUMORE basso moderatoCOMPLESSITàCOSTRUTTIVAPRECISIONECROMATICAFATTORE DIRIEMPIMENTOCONSUMO DIENERGIAbassaaltaaltoaltoaltamediamoderatobassoCOSTO RELATIVO medio - alto medio - bassoDIMENSIONEOCCUPATAmedio - bassabassa24

1.5 Image ProcessingLa percezione visuale artificiale consiste in un processo di informazioneche prende immagini digitali come input e produce descrizioni deglioggetti in una scena come output [Xie-2003].Illustrazione 6: Flusso di informazioni in un sistema di percezione visualeEssa sfrutta in prima istanza le proprietà d'aspetto come crominanza,luminanza e tessitura (texture), contenute esplicitamente nelle immaginidigitali a colori, per poter effettuare una elaborazione dell'immagine inmodo da rilevare la continuità, la discontinuità e l'uniformità nelle25

proprietà d'aspetto stesse.Una volta terminato l'image processing è possibile estrarre i punti salienti,chiamati in letteratura in vari modi: features, keypoints o con i corrispettiviin lingua madre. Attraverso le features si ricavano le proprietà geometrichedella scena, in termini di posizione, forma e moto.1.5.1 Rumore nelle immaginiNella computer vision, come in molte altre attività scientifiche, èimportante attenuare quelle entità nei dati e nei risultati che ne possonodegradare la qualità e che non sono di interesse.In genere, in assenza di informazioni, si ipotizza che il rumoredell'immagine n(i,j) sia additivo e casuale così che l'immagine risultantesia data dalla somma dell'immagine “vera” più il contributo del rumore perogni pixel in posizione (i,j). Inoltre si assume che n(i,j) sia caratterizzatodall'assenza di periodicità nel tempo e da ampiezza costante su tutto lospettro di frequenze, cioè si tratti di rumore bianco e che segua unafunzione di distribuzione Gaussiana a media zero di deviazione standardfissa. Questo garantisce bassi livelli di rumore ed è ciò che ci si aspetta daun buon sistema di acquisizione [Trucco-98].1.5.2 Riduzione del rumoreNel caso specifico si vuole cercare un filtro che attenui il più possibile ilrumore in un'immagine senza alterarla. Il metodo più comune è losmoothing che consiste nell'utilizzare un filtro lineare che si ottiene dalla26

convoluzione tra l'immagine ed una matrice costante detta maschera ofinestra, allo scopo di produrre una sfocatura in grado di celare le repentinevariazioni di rapidità. Se sono esatte le ipotesi fatte sul tipo di rumore,questo può essere ridotto attraverso una media sul vicinato (neighborhoodaveraging) che si può ottenere semplicemente utilizzando una maschera divalori non negativi. Con questo metodo in genere si ha perdita diinformazione, in quanto vengono perse le frequenze condivise con ilrumore rendendo l'immagine sfocata e diffondendo allo stesso tempo ilrumore impulsivo.Illustrazione 7: Distribuzione gaussiana bidimensionale27

Se i valori della maschera sono calcolati a partire dalla distribuzioneGaussiana 2D si parla di Gaussian smoothing.La distribuzione Gaussiana bidimensionale si può ottenere dal prodotto disingole distribuzioni monodimensionali:G x , y= 1e − 1 2 x− x x 2 x2⋅12e −1 y− y y 2 y21= e2 x y− 1 2[ x− x x2 y− y y2 ](1.1)Se poniamo entrambi i valori medi a zero e ipotizziamo che le deviazionistandard lungo le due dimensioni siano identiche otteniamo la funzionesemplificata.G x , y= 11 x 2 y 22 2 e− 2 2 (1.2)Una Gaussiana non è mai nulla, ma è prossima a zero a partire da tredeviazioni standard dalla media, perciò troncando adeguatamente i valorisi può ottenere una finestra di dimensioni opportune.1.6 Estrazione di feature da immaginiLe immagini digitali acquisite dai sistemi di visione dipendono dallaprospettiva e dalla illuminazione perciò le cause comuni per ladiscontinuità in una immagine sono dovute ai contorni delle superfici, alleombre e alle occlusioni.Possiamo definire formalmente una feature come qualsiasi discontinuità ouniformità che sia significativa e utile [Xie-2003].Uno dei più grandi vantaggi dell'estrazione di feature sta nella significativa28

iduzione dell'informazione (comparata all'immagine originale) nellarappresentazione di una immagine allo scopo di capirne il contenuto. Lamolteplicità di feature contenute in una immagine, sommate alla presenzadi rumore, rendono arduo il compito di progettare un filtro che sia in gradodi isolare una specifica caratteristica dalla scena. In genere se la qualitàdell'immagine non è buona è necessario ridurre il rumore esuccessivamente esaltare la caratteristica di interesse attraverso un filtrospecifico chiamato feature (o keypoint) detector che risponde in mododiverso a caratteristiche diverse. A questo punto è possibile avviare unprocesso decisionale per la selezione delle caratteristiche desiderate.Una possibile distinzione tra tipi di features estratte è quella tra GeneralFeatures e Domain Features [Lei-99]. Le prime sono dette descrittori dibasso livello e sono indipendenti dal contesto dell'immagine.Le Domain Features dipendono dal contesto dell'immagine e sonoutilizzate prevalentemente per il riconoscimento di volti (face recognition)e per l'analisi delle impronte digitali (fingerprint identification). Qualora sivoglia identificare questo tipo di descrittori è necessaria l'analisi dellefeatures di basso livello, per tale motivo le Domain Features sono dette dialto livello.I descrittori di basso livello possono essere in generale classificati in 3 tipi:• Blob. Descrittori di livello zero, costituito da regioni uniformi,caratterizzate da ridotte variazioni dell’intensità.• Edge (spigolo). Descrittore di primo livello che si ha incorrispondenza di discontinuità del gradiente monodirezionali.29

• Point features, o corner, sono punti distinti dell’immaginelocalizzati in corrispondenza di discontinuità bidirezionali del gradientedell’intensità luminosa. A seconda della forma assunta dal corner sidistinguono giunzioni a T, Y, X o L.1.6.1 Edge detectionPer la rilevazione di feature di alto livello è fondamentale lasegmentazione dell'immagine per la quale l'edge detection gioca un ruolomolto importante. Un edge può essere considerato come un confine tra dueregioni dissimili ed essenzialmente il contorno di un oggetto corrispondead un brusco cambiamento nei livelli di intensità. L'output dell'edgedetection dovrebbe essere una mappa dei bordi nella quale il valore di ognipixel riflette quanto sono verificati i requisiti per essere parte di un bordoda parte del pixel corrispondente nell'immagine originale.1.6.1.1 Rilevazione dei bordi mediante derivata primaPer rilevare la posizione di un bordo spesso è utilizzata la derivata delprimo ordine, che è nulla in presenza di un segnale costante, mentredovrebbe presentare il massimo in presenza di un edge.La funzione di magnitudine del gradiente in un'immagine digitalizzata puòessere così formulata:d x , y = x 2 y 2 (1.3)con30

x=I x1, y−I x , y y=I x , y1−I x , y(1.4)Spesso nell'image processing la derivata prima di un'immagine digitaleviene effettuata attraverso la convoluzione con una maschera chiamataedge operator.Per rilevare un edge in una immagine reale è opportuno effettuare unapreliminare riduzione del rumore, dopodiché si effettua la convoluzionecon l'edge operator e infine dall'output si eliminano i valori noncorrispondenti ai massimi.Illustrazione 8: Robert's Cross OperatorLe maschere più semplici per effettuare una derivata del primo ordine sonocostituite da un vettore [1,0,-1] per rilevare bordi orizzontali e dal suotrasposto per bordi verticali.Uno dei primi operatori utilizzati fu il Robert's Cross Operator che utilizzauna maschera 2×2 , ma poiché la derivata prima esalta il rumore,analogamente ad un filtro passa-alto, i successivi edge operator sonocostituiti da matrici 3×3 in modo da includere all'interno anche ilneighborhood averaging.Seguendo tale principio è stato ideato il filtro di Prewitt e il filtro di Sobel;31

quest'ultimo però pesa in modo differente i pixel in base alla distanza dalpixel centrale.Illustrazione 9: Operatore di PrewittI filtri di Prewitt e Sobel mostrano degli output frammentati seppur benvisibili.Illustrazione 10: Operatore di Sobel1.6.1.2 Rilevazione dei bordi mediante derivata del secondoordineUn'alternativa alla ricerca dei massimi della derivata del primo ordine èquella di trovare l'attraversamento dello zero nella derivata delsecond'ordine. La derivata seconda può essere approssimata con ladifferenza tra le derivate del primo ordine di due pixel adiacenti:32

f ' ' x≃ x− x1 (1.5)considerando la (1.4) si haf ' ' x≃− x2 x1− x2 (1.6)Illustrazione 11: Operatore LaplacianoUn operatore che utilizza la derivata del secondo ordine è quelloLaplaciano che sfrutta le maschere, rappresentate nell'illustrazione 11,ottenute dalla combinazione del vettore [-1, 2, -1] in orizzontale, verticalee diagonale.Il laplaciano, non essendo utile per stabilire la direzione di un edge, vieneutilizzato in genere per stabilire la posizione di uno spigolo che si facoincidere con lo zero crossing. Inoltre questo filtro non viene utilizzatoper il rilevamento dei bordi nella sua forma originale, sia perchéeccessivamente sensibile al rumore, sia per il fatto che produce dei doppibordi che complicano la segmentazione.In genere si effettua il Laplaciano della Gaussiana (LoG) (illustrazione 12)ottenuto facendo, preliminarmente al Laplaciano, uno smoothingGaussiano per ridurre il rumore e neutralizzare l'effetto di amplificazionedel rumore causato dalla derivata seconda.33

Illustrazione 12: Laplaciano della Gaussiana e maschera che ne approssima la forma1.6.1.3 Canny edge detectorCanny ha cercato di ottenere un rilevatore di bordi che fosse in grado diverificare i seguenti requisiti [Canny-83]:1. Buon riconoscimento: rilevare il maggior numero possibile dispigoli nell'immagine2. Buona localizzazione: i contorni rilevati devono essere il più vicinopossibile ai contorni reali dell'immagine.3. Singola risposta: Per ogni edge reale c'è solo una risposta, vale a direche non è permessa la rilevazione di “falsi” edge.4. Massimizzare il rapporto segnale-rumore.34

5. Minimizzare la distanza della radice della media dei quadratidell'edge rilevato dal centro del vero edge.6. Minimizzare la distanza media tra i massimi locali causati dalrumoreL'algoritmo inizia con uno smoothing Gaussiano, di cui la dimensionedella maschera è uno dei parametri arbitrari, per ridurre il rumore seguitodall'applicazione di quattro filtri per individuare gli spigoli nelle direzioniprincipali. Il filtro che ottiene il valore più grande corrisponde al massimogradiente di luminosità e quindi stabilisce la direzione dell'edge per unospecifico pixel.A questo punto vanno selezionati i massimi locali che in generecorrispondono ai bordi, ma a differenza degli algoritmi precedenti inquesto caso si utilizza un thresholding con due soglie. La soglia inferioreserve ad eliminare tutti i valori troppo piccoli, quella superiore invecedivide i pixel tra quelli maggiori della soglia che fanno sicuramente partedi un contorno e quelli compresi tra le due soglie che vengono selezionatisoltanto se contigui ad un pixel precedentemente scelto. È importanteimpostare opportunamente i valori delle soglie per non incorrere in perditadi informazione o al contrario in eccesso di elementi non significativi.1.6.2 Corner detectionGli angoli sono features più abbondanti rispetto ai contorni rettilinei nelmondo naturale, cosa che li rende ideali da tracciare; sono inoltre invariantirispetto ai cambiamenti di illuminazione. Questa caratteristica li rende35

privilegiati rispetto ad altri descrittori nel motion tracking in quanto sonoesplicitamente inseguibili perchè meno soggetti ad ambiguità e perciò piùfacilmente identificabili in immagini successive.Queste caratteristiche sono estraibili anche da immagini in toni di grigio,riducendo a un terzo il carico computazionale e facendo risultare l'utilizzodi tali features adatto al real time processing.Fino ad oggi sono stati sviluppati numerosi algoritmi per la rilevazione difeature, che sostanzialmente si differenziano per la replicabilità dei cornerestratti dall'immagine e per il carico computazionale utilizzato. Alcunipossiedono anche le caratteristiche di essere invarianti alle rotazioni e/o aicambiamenti di scala. La capacità dell'estrattore di rilevare le stesse featurein immagini che mostrano lo stesso contenuto da un punto di vista pocodifferente è fondamentale per la ricerca delle corrispondenze. In assenza ditale proprietà, feature estratte possono diventare inutili per i passisuccessivi dell'algoritmo o rappresentare una sorgente d'errore,conducendo a corrispondenze errate e rendendo meno robusta la stima delmoto.1.6.2.1 Classificazione degli algoritmi di edge detectionNegli ultimi anni sono stati pubblicati vari algoritmi per il rilevamento deicorner, che possiamo dividere secondo due approcci:• Edge Based: Algoritmi che si basano sull'estrazione dei contorni e lasuccessiva identificazione dei punti a massima curvatura, o ai punti diintersezione tra gli edge. Questo approccio risente tuttavia della qualità36

della segmentazione dell'immagine acquisita.• Raw Based: Approccio che si basa sull'analisi diretta delle variazionidi intensità in immagini in scala di grigio. I corner sono indipendenti dallevariazioni di luminosità, quindi si può giungere all'identificazioneattraverso una semplice analisi dell'intensità del gradiente dell'immagineacquisita. I metodi raw based sono i più numerosi, ma di solito necessitanodi un ulteriore analisi degli intorni degli angoli in quanto tendono a rilevarefalsi corner.Gli algoritmi di corner detection sono più frequentemente divisi in:• Rilevatori a scala fissa (fixed scale detector)• Rilevatori multi scala (multi scale detector).Tra i primi i principali algoritmi sono:• Moravec• Harris• SUSAN• FASTI fixed scale detector calcolano la risposta a partire da maschere didimensioni prefissate. Poiché gli oggetti in genere hanno significatosoltanto in un certo intervallo di scale, l'operatore applicato ha successosoltanto se la grandezza della finestra è proporzionata a quella dellastruttura di cui si vogliono identificare i punti caratteristici. Questialgoritmi in genere mostrano problemi nella ripetibilità dei risultati sudiverse scale della stessa immagine. Per risolvere questo genere diinconveniente sono stati sviluppati algoritmi invarianti alla scala che37

iescono ad individuare sulla stessa immagine, ingrandita o rimpicciolita,gli stessi punti salienti con un discreto margine di errore.Tra i multi scale detector i più noti sono:• SIFT• Harris-Laplace• SURF1.6.2.2 Algoritmo di MoravecTra gli algoritmi di rilevamento raw based troviamo il metodo di Moravec[Moravec-79].L'operatore di Moravec considera punti di interesse quei punti che sonocaratterizzati da una considerevole variazione di intensità in verticale,orizzontale o diagonale. È considerato un corner detector pur rilevandoanche punti isolati.La variazione di intensità viene misurata a partire dal pixel I x , y su cuiviene centrata una piccola finestra quadrata W dalle misure in pixel 3×3 ,5×5 , o 7×7 . Spostando la finestra nelle direzioni suddette di unaquantità discreta x , y viene calcolata la variazione di intensitàattraverso il criterio SSD (Sum of Squared Differences) che ha il dupliceeffetto di eliminare il segno e di amplificare la differenza tra piccole egrosse variazioni:SSD x , y=∑∀ x k, y k∈W[ I x k, y k−I x k x , y k y] 2 (1.7)Il passo successivo è quello di costruire una mappa che indichi per ognipixel dell'immagine il minimo tra le variazioni di intensità calcolate sulle38

otto direzioni principali.Questo coefficiente, detto cornerness, sara dato da:C x , y=minSSD x , y (1.8)Il passo finale è quello di fissare una soglia al di sotto della quale i valoridi C(x,y) siano posti a zero in modo da sopprimere i non massimi alloscopo di trovare i massimi locali. I punti rimanenti diversi da zero nellamappa sono corner.Illustrazione 13: Risposta anisotropa dell'operatore di Moravechttp://kiwi.cs.dal.ca/~dparks/CornerDetection/moravec.htmUno dei difetti più evidenti di questo approccio è che, poiché la finestra simuove soltanto lungo le direzioni principali, gli edge aventi direzionediversa hanno valori di cornerness molto elevati pur non essendo né cornerné punti isolati. Questo significa che la risposta è anisotropa, essendo39

calcolata su un insieme finito di spostamenti, e, di conseguenza, l'operatoreha un basso tasso di ripetitività non essendo invariante alla rotazione.Lafinestra usata da Moravec è quadrata, perciò per i pixel lungo i bordi dellafinestra la distanza Euclidea dal centro è maggiore ed è ulteriormenteaccentuata per quelli ai quattro angoli. Inoltre, tutti i pixel della finestrahanno lo stesso peso, ma intuitivamente i pixel vicini al centro danno unaindicazione migliore della variazione di intensità locale.L'uso di una finestra gaussiana risolve entrambi i problemi, infatti i valorilontani dal centro sono molto piccoli e crescono avvicinandosi al centro,approssimando una finestra circolare. La deviazione standard dellagaussiana fissa la scala spaziale alla quale si vogliono determinare gliangoli.Illustrazione 14:Gaussian windowLa variazione di intensità allora viene calcolata come:V x , y=∑∀ x k, y k∈Ww k [ I x k, y k− I x k x , y k y] 2 (1.9)Per evitare di calcolare la funzione nelle varie direzioni si considera lo40

sviluppo in serie di Taylor troncato al primo ordine.In cuiI xh≃I x∇ I x T h=I x[ ∂ I x∂ xx= x ky k eh= [ x y] è un piccolo vettore spostamento.T∂ I x∂ y ]h (1.10)La (1.10) può essere riscritta in modo più intuitivo considerando chel'immagine è descritta su un dominio discretoI x x ky k y ≃ I x ky k [ I x x ky k −I x ky kxIky k y − I x kDalla (1.10) con dei semplici passaggi algebrici si ottiene:y k][ x y] (1.11) I xh− I x 2 = ∇ I x T h 2 =h T ∇ I x ∇ I x T h (1.12)Che può essere sostituita nella (1.9)V x , y= ∑ w x h T ∇ I x∇ I x T h=∀ x∈W=h T ∑∀ x∈Ww x ∇ I x∇ I x T h (1.13)Sviluppando il prodotto all'interno della sommatoriaconM =[∑∀ x∈W∑∀ x∈WV x , y=h T M h (1.14)w x ∂ I x2∂ x w x ∂ I x∂ x∂ I x∂ y∑ w x ∂ I x ∂ I x∀ x ∈W ∂ x ∂ y∑∀ x∈Ww x ∂ I x∂ y]2(1.15)Questa relazione è strettamente connessa con la funzione diautocorrelazione locale.M è semi-definita positiva, perciò i suoi autovalori saranno non negativi,inoltre M è simmetrica, pertanto può essere scomposta tramite41

Diagonalizzazione di Schur attraverso una matrice ortogonale S le cuicolonne sono gli autovettori di M.S T M S==diag 1, 2 (1.16)Gli autovalori sono un indice della variazione di intensità dell'immagineessendo proporzionali alle curvature principali dell'autocorrelazione localee formano un descrittore invariante per rotazione della matrice M, infatti:• Se gli autovalori sono entrambi nulli o molto vicini a zero nel puntoconsiderato, l'immagine sarà uniforme e quindi è presente un blob.• Se soltanto uno è prossimo a zero, mentre l'altro è molto più grandesi ha un edge. L'autovettore associato all'autovalore più grande èperpendicolare all'edge• Se entrambi gli autovalori sono grandi si ha un corner.Essendo M =[ A BB C] una matrice 2×2 , gli autovalori sono facilmentecalcolabili in forma chiusa dal calcolo del polinomio caratteristico 1,2= 1 2 AC ± A−C 2 4 B 2 (1.17)1.7 Trasformata di HoughUn metodo di feature extraction di cui si è fatto un importante uso nelprogetto in discussione è la trasformata di Hough. Questa proceduraconsente di trovare linee, cerchi, o altre semplici forme in un immagine. Latrasformata di Hough classica [Hough59] concerneva l'identificazione dilinee per uso in esperimenti fisici, mentre l'attuale uso della trasformata,42

detta standard (SHT) o generalizzata, è dovuto a R. Duda e P. Hart[Duda72] e può essere esteso ad altri casi rispetto alle semplici linee.1.7.1 La trasformata di Hough per le lineeIl caso più semplice è quello in cui si vogliono rilevare gruppi di punticollineari in una immagine in bianco e nero. Dati n punti verificare ognicoppia di punti è computazionalmente proibitivo risultando On 2 .Il metodo di Hough prevede la trasformazione di tutti i punti della figurasu una linea retta in uno spazio dei parametri. La descrizione in formaesplicita della retta consente di parametrizzare ogni linea con inclinazionem e intercetta q , trasformando ogni punto nell'immagine nel luogo deipunti nel piano m ,q corrispondente a tutte le linee passanti attraversoquel punto. Se preso ogni pixel diverso da 0 nell'immagine in input loconvertiamo in tale insieme di punti e sommiamo tutti tali contributi, alloraalle linee che appaiono nell'immagine corrisponderanno dei massimi localinel piano m ,q in output, detto piano accumulatore. In altre paroleciascun punto nello spazio dei parametri fornisce il proprio contributo, ovoto, alla ricerca della soluzione.Purtroppo il dominio in cui sono definite pendenza e intercetta non sonolimitati e quindi difficilmente rappresentabili computazionalmente.L'insieme delle linee rette nel piano costituisce una famiglia a dueparametri, se uno di questi due parametri viene fissato possiamorappresentare una linea retta attraverso un singolo punto. Laparametrizzazione proposta da Duda e Hart consiste nel rappresentare ogni43

linea come un punto in coordinate polari , , in cui indica ladistanza dall'origine, mentre è l'angolo che la normale alla retta formacon il semiasse positivo delle ascisse. In altre parole la linea passanteattraverso il punto indicato è perpendicolare al raggio dall'origine a quelpunto. L'equazione per tale linea è= x cos y sin Se restringiamo il dominio di theta all'intervallo [ 0,] allora il parametrorelativo all'angolo è unico. Con questa restrizione ogni linea nel pianox , y corrisponde ad un unico punto nel piano , .Dato un insieme di n punti dell'immagine possiamo trovare un insieme dilinee rette passanti tra loro trasformando i punti in curve sinusoidali nelpiano , ; infatti le curve corrispondenti a punti collineari hanno unpunto in comune di intersezione in questo piano. Il problema dellarilevazione di punti collineari viene così convertito nel problema di trovarele curve concorrenti. Essendo valida anche la proprietà duale possiamoriassumere queste interessanti proprietà della trasformazione punto-curvacome segue1. Un punto nel piano immagine corrisponde ad una curva sinusoidalenel piano dei parametri.2. Un punto nel piano dei parametri corrisponde ad una linea retta nelpiano immagine.3. Punti giacenti sulla stessa linea retta nel piano immaginecorrispondono a curve attraverso un punto comune nel piano deiparametri.44

4. Punti giacenti sulla stessa curva nel piano dei parametricorrispondono a linee attraverso lo stesso punto nel pianoimmagine.I punti di accumulazione rappresentano le candidate rette presentinell'immagine. Il costo computazionale di questo algoritmo èproporzionale al numero di punti che costituiscono la regione di interesse.Per ridurre ulteriormente la complessità si può far uso della trasformata diHough progressiva probabilistica (PPHT), la quale piuttosto cheaccumulare ogni possibile punto nel piano accumulatore, lo fa solo per unaloro frazione. Si congettura che in questo modo il picco possa esserecomunque abbastanza alto, quindi è possibile trovare una soluzioneriducendo considerevolmente il tempo computazionale. La PPHT permetteoltre al calcolo dell'orientazione delle linee anche quello della loroestensione.1.7.2 La trasformata di Hough per i cerchi (CHT)L'approccio generale della trasformata di Hough può essere esteso ad altrigeneri di curve. Ad esempio per rilevare configurazioni circolari di punti sipuò scegliere una rappresentazione parametrica per la famiglia di tutti icerchi. Una rappresentazione può essere data da x−a 2 y−b 2 =R 2In questo modo possiamo trasformare un arbitrario punto della figura nellospazio tridimensionale dei parametri a ,b , R . Se il punto giace su uncerchio il luogo nello spazio dei parametri è dato da un cono circolare45

etto. Se un insieme di punti sono disposti sul perimetro di un cerchio conparametri a 0,b 0, R 0 allora i luoghi dei parametri risultanti da ognuno ditali punti passeranno attraverso lo stesso punto a 0,b 0, R 0 nello spazio deiparametri. Quindi tutti i rispettivi coni circolari retti si intersecheranno inun punto comune.Per rappresentare le triplette che descrivono ogni cerchio si dovrebbe fareuso di un array a tre dimensioni rimpiazzando il piano accumulatore conun volume accumulatore e di conseguenza con maggiore lentezza rispettoal caso delle linee e grande richiesta di memoria. L'uso del metodo delgradiente di Hough [Ballard-79] permette di evitare tali problemi. Seconosciamo l'informazione associata al gradiente di un punto su un edgepossiamo ridurre il luogo da un cono ad una linea, poiché il centro delcerchio per quel punto dovrà giacere ad una distanza R lungo la direzionedel gradiente. Prima l'immagine passa attraverso una fase di edgedetection, ad esempio attraverso l'algoritmo di Canny. In tal modo si puòpassare da una immagine a colori ad una immagine in bianco e nero nellaquale per i pixel diversi da zero deve essere considerato il gradiente locale.Fortunatamente questo può essere fatto semplicemente applicandol'operatore di Sobel in grado di stimare l'orientazione di un edge. Una voltaapplicata la convoluzione con la maschera di Sobel sono disponibili lecomponenti locali del gradiente g x, g y da cui possiamo calcolare lagrandezza del vettore del gradiente dell'intensità locale [Davies-2005]:e la sua orientazioneg= g 2 2xg y 46

=arctan g y/ g xScrivendo l'equazione parametrica del cerchio finora considerato comeEssendo poix=aR cosy=bR sin cos=g x/ g esin =g y/ gpossiamo stimare le coordinate del luogo dei centri cona= x−R gx/ g b= y−R gy /g (1.18)Se la direzione dell'egde è precisa e si conosce il valore di R alloranell'accumulatore vengono aumentati i punti per i valori (a,b) chesoddisfano la (1.18). Tenendo però conto che è improbabile che sia precisala stima della direzione di un edge possiamo aggiunge una tolleranzadovuta all'errore. In questo accumulatore bidimensionale vengono poiselezionati i centri candidati, i quali devono superare una certa soglia edessere maggiori dei punti a loro più vicini. I candidati sono poi ordinati inbase ai valori dell'accumulatore in ordine decrescente, in modo daindividuare prima i centri con più voti. In molti casi non si conosce concertezza il valore del raggio e perciò è opportuno imporre per questo unadistanza massima e minima. I pixel non nulli vengono quindi ordinati inbase alla loro distanza dal centro e selezionati in modo da lavorarenell'intervallo scelto. Il singolo raggio maggiormente supportato da questipixel viene infine selezionato se tale supporto è sufficientemente elevato ese ha una distanza sufficiente da qualsiasi altro centro selezionato inprecedenza.47

Capitolo 2Modello della telecamera e calibrazione2.1 Modello della telecameraIl modello geometrico più semplice che descrive il processo diacquisizione dell'immagine da parte di un sistema di visione artificiale èquello della proiezione centrale di un punto dello spazio su un piano.Illustrazione 15: Trasformazione prospettica2.1.1 Proiezione prospetticaLa proiezione della scena tridimensionale sul piano immagine effettuata daogni telecamera può essere rappresentata da una matrice che mappa i puntida R 3 in R 2 . Si consideri a tal proposito una terna O c− X cY cZ c solidalealla telecamera con l'origine nel centro di proiezione e Z c perpendicolare48

al piano immagine e detto asse principale o asse ottico. Il piano paralleloal piano visivo e passante per il centro ottico viene chiamato piano focale.Il punto di intersezione tra l'asse principale e il piano immagine è dettopunto principale. Tale punto nella fotocamera stenopeica che rappresenta ilmodello ideale più semplice, anche detta stenoscopio ( o pinhole camera),coincide con l'origine della griglia di pixel del sensore visivo.Sfruttando la similitudine tra triangoli si può ricavare la trasformazioneprospettica frontale che lega le coordinate P c =[ P x c P y c P zc ] di un punto nellospazio 3D in un punto nel piano immagine (il piano visivo 2dell'illustrazione 15) distante f (lunghezza focale) da O c , cioè:xccfR 3 R :P cx2 ccPPzyP z f P cycP z= X fY f (2.1)La divisione per la componente lungo l'asse principale causa l'effetto discorcio per cui la dimensione di un oggetto risulta inversamenteproporzionale alla distanza dello stesso dall'osservatore. Tale divisionerende inoltre non lineare questa trasformazione detta proiezioneprospettica.Le coordinate nel piano immagine sono solitamente campionate in pixel.L'espressione che lega le coordinate relative alla terna solidale allatelecamera (camera reference frame) a quelle della griglia di pixel delsensore visivo, si può ottenere attraverso una trasformazione affine cheintroduce duefattori di scala diversi lungo x e y che legano le unità49

metriche al pixel e aggiungendo l'offset tra l'origine della griglia di pixel eil punto principale:xfPc P xP X c 0zz y f P cyc 0= X IP Y Y I (2.2)zPcxcP yc2.1.2 Parametri intrinseci ed estrinseciQuesta relazione non lineare si può esprimere in coordinate omogeneeottenendo:cPcX Ix f 0 X 0 0 xz Y =P c cI z p=[ 0 yf Y 00P y1 0 0 1 0]P = P cc(2.3)P z1La matrice =[ xf 0 X 000 yf Y 000 0 1 0]=[M 0] è detta matrice di proiezioneprospettica, mentre la matrice M costituita dalle prime tre colonne dellamatrice codifica i parametri intrinseci della telecamera ed è dettamatrice di prospezione [Scaramuzza 2003].Per passare dalle coordinate telecamera a quelle spaziali (world referenceframe), relative alla terna base, si deve effettuare il seguente cambio dicoordinate:PcxcP ysxsP yPc=RP zPsTz50

che in coordinate omogenee diventa:La matriceP c =P xcP ycP zc1=[ R T0 1]PsxsP ysP z1=GP xsP ysP zs1(2.4)G codifica i parametri estrinseci della telecamera.Sostituendo la (2.4) nella (2.3) si ottiene:PcX Iz Y =P c I z p= G1con = G=[ M 0][ R T =M [R T ]0 1]PsxsP ysP z1=P xsP ysP zs1(2.5)PonendoR=[r 1Tr 2Tr 3T ]T e T =[t 1 t 2 t 3 ] T si ottiene=[f x r 1 T X 0 r 3Tf yr 2 T Y 0r 3Tr 3Tf x t 1 X 0 t 3]f yt 2Y 0t 3(2.6)t 3La matrice è una matrice 3×4 , perciò ha 12 elementi, ma ha solo 11gradi di libertà perdendone uno a causa del fattore di scalaEsprimendo con p i , j gli elementi della matrice si ottiene:=[PcX Ip 11 p 12 p 13 p 14z Y Ip 21p 22p 23p 241 p 31 p 32 p 33 p 34]PsxsP ys(2.7)P z1Per eliminare il fattore di scala imposto le seguenti due equazioni nonlineariP zc.51

{X I= p P s 11 x p 12P s y p 13P s z p 14p 31P s x p 32P s y p 33P s z p 34Y I = p P (2.8)s21 x p 22P s y p 23P s z p 24p 31P s x p 32P s y p 33P s z p 34Ponendo=[ p 1Tp 2Tp 3T ] T, avendo messo in evidenza le righe checompongono , possiamo riscrivere la relazione (2.8) in modo sintetico:2.1.3 Il nucleo di T P s{X I= p 1p T 3P sY I = p (2.9)T2P sp T 3P sIl centro ottico può essere pensato come l'intersezione tra i tre piani definitidagli assi del sistema di riferimento telecamera. I punti dello spazioappartenenti al piano passante per X c e l'asse principale, sono proiettatilungo l'asse X c pertanto hanno equazione p 2 T P s =0 , analogamente ipunti che si proiettano lungo Y c hanno equazione p 1 T P s =0 . I puntiappartenenti al piano focale invece vengono proiettati all'infinito perciòsarà il denominatore delle equazioni (2.9) ad annullarsi p 3 T P s =0 . Indefinitiva il centro ottico si può ottenere dal seguente sistema di equazioni:{p 1T[ O c1 ] =0p 2T[ O c1 ] =0p 3T[O c1 ] =0 ⇒ C =M [ R T ] [O c1 ] =M R O c M T =0 (2.10)Da questa si deduce che si può esprimere T in funzione del centro ottico:52

T =−R O c (2.11)Quindi la matrice di proiezione prospettica può essere espressa così:=M [ R −R O c ]La retta passante per il centro ottico e per un puntoX I,Y I è dettaraggio ottico e tutti i punti appartenenti a tale retta sono proiettati su talepunto.Indicando con + la pseudoinversa della matrice di proiezioneprospettica, tutti i puntiP s = + p=[M R −1[ X IY I1]0]appartengono al raggio ottico, infatti sostituendo tali punti nella (2.5) siottengono le coordinate nel piano immagine.Considerando che l'equazione (2.5) dipende da uno scalare e che per la(2.10) il centro ottico è il nucleo di possiamo ricavare l'equazioneparametrica del raggio ottico:P S = C p=[ + O c1 ] −1[ X I][M R Y I ],10∈ R∪{∞ } (2.12)2.1.4 Distorsioni delle lentiIl modello finora trattato non è ancora sufficiente per descrivere con unmargine di errore trascurabile il sistema ottico di una telecamera reale53

poiché approssima l'obiettivo usato per la proiezione dell'immagineluminosa ad una lente di spessore infinitesimo.Le imperfezioni delle lenti oppure l'esigenza di ampliare il campo visivoutilizzando una telecamera con distanza focale corta causanoun'aberrazione, detta distorsione, che non permette una perfetta proiezionerettilinea.La mappatura tra punti 3D e punti 2D della immagine può esserescomposta in una proiezione prospettica e una funzione che modella ledifferenze rispetto alla macchina stenopeica ideale.La funzione di distorsione delle immagini può essere scomposta in duecomponenti. Nella prima componente, chiamata distorsione radiale, i puntidell'immagine sono distorti simmetricamente lungo direzioni radiali dalcentro di distorsione. Questo tipo di distorsione è causato dalla formaimperfetta delle lenti e dipende soltanto dalla distanza dal centro del puntoconsiderato = X I 2 Y I2.La seconda è detta distorsione tangenziale o decentrante ed è causata da unassemblaggio improprio della lente. Questa dipende sia dadall'angolo da esso formato con l'asse delle ascisseA questo punto si deve introdurre una funzione=arctan Y IX I . chef D X I,Y I,, che cipermetta di passare dalle coordinate non distorte a quelle distorte eviceversa.La distorsione può essere modellata come la somma del contributo radialee quello tangenziale [Brown-66]:54

X DY D = X DrY Dr X DtY Dt(2.13)I due addendi della (2.13) possono essere espressi come una serie dipotenze di : X Y Dr = 1K Dr1 2 K Dr2 4 K Dr3 6 X IY I (2.14) X Y Dt = [ 2 K X Y K Dt1 I I Dt2 2 2 X 2 I]2 K Dt2X IY I K Dt1 2 2Y 2 I(2.15)Si noti che nelle precedenti equazioni è stato utilizzato il pedice“Dr” per indicare gli elementi associati al contributo delladistorsione radiale e il pedice “Dt” per quelli relativi alladistorsione tangenziale.La funzione f D è dominata dalla componente radiale [Brown-71], della quale il coefficiente più influente è K Dr1 . Gli altri addendi sonovia via sempre meno influenti, perciò un modello più complicato introduceelementi trascurabili oltre a portare instabilità numerica [Tsai-87].2.2 CalibrazionePer conoscere la matrice di proiezione prospettica è necessariovalutare i parametri intrinseci che costituiscono la matrice M e quelliestrinseci relativi alla matrice G. I parametri intrinseci rappresentano lageometria interna della telecamera e le caratteristiche ottiche, mentre iparametri estrinseci si riferiscono a posizione e orientazione del sistema diriferimento telecamera rispetto al sistema di riferimento mondo.55

Il processo di misurazione di tali parametri è detto calibrazione e si basasul presupposto che si conoscano le proiezioni di alcuni punti 3D, dettipunti di calibrazione (o punti di controllo, mire, punti fiduciali) le cuicoordinate sono note.Sono stati sviluppati diversi metodi di calibrazione la maggior parte deiquali utilizzano un oggetto (target di calibrazione) sul quale sono tracciatii punti di calibrazione costituiti da N elementi che nella immagine devonoessere riconoscibili senza ambiguità ed avere coordinate note conaccuratezza. Gli N elementi in genere sono quadrati disposti a scacchiera odischi circolari, solitamente di colore nero su sfondo bianco.Illustrazione 16: Schemi di punti tracciati sui target di calibrazione2.2.1 Metodi di calibrazioneTra questi metodi uno dei più diffusi è quello di [Tsai-87] il quale assumeche i parametri X 0 , Y 0 , x e y siano forniti dal costruttore della56

telecamera o almeno possano essere desunti dai dati a disposizione. Essorichiede la conoscenza delle coordinate spaziali di n punti per immagine erisolve il problema di calibrazione con un insieme di n equazioni linearibasate sul vincolo di allineamento radiale.Il metodo descritto in [Caprile-90] non necessita delle coordinate assolutedi punti della scena, ma sfrutta le proprietà dei punti di fuga (vanishingpoint) di un target di calibrazione, avente almeno tre piani ortogonali traloro. La calibrazione mediante vanishing point è meno utilizzata poichésperimentalmente si è dimostrato non essere particolarmente accurata.In [Faugeras-93] è descritta una procedura che consente di otteneredirettamente la matrice di proiezione prospettica, potendo ricavare in unsecondo momento i parametri intrinseci ed estrinseci sulla base di .Questo metodo che sfrutta la Direct Linear Trasform (DLT) necessita dialmeno sei punti non complanari, ma per minimizzare l'errore di misura ènecessario un numero maggiore di punti in modo da poter risolvere ilsistema ai minimi quadrati.Questi punti vengono prelevati su un oggetto costituito da almeno duepiani ortogonali tra loro in modo che il sistema di riferimento mondo possacoincidere con i suoi spigoli. Questo accorgimento rende particolarmenteagevole la determinazione delle coordinate dei punti di calibrazione che ingenere vengono prese attraverso griglie spaziate in maniera uniforme,appositamente disegnate sulle facciate dell'oggetto.57

2.2.2 Metodo di ZhangNonostante il metodo di Faugeras sia particolarmente accurato, in alcunicasi si preferisce il metodo illustrato in [Zhang-98] che risparmia larealizzazione dell'oggetto suddetto sostituendolo con un semplice oggettoplanare. In particolare nel presente progetto è stato scelto questo metodo incui l'oggetto planare consiste in una scacchiera i cui vertici delle casellecostituiscono i punti di calibrazione. Nel caso in questione i punti dicalibrazione giacciono su un piano Π, perciò esiste una corrispondenzabiunivoca tra questi e i punti sul piano immagine.Illustrazione 17: Mosaico con varie orientazioni della scacchieraLe corrispondenze, pertanto, sono codificate da una omografia che riduce iparametri incogniti ad 8, vale a dire una mappatura invertibile da P 2a se58

stesso, tale che tre punti giacciono sulla stessa linea se e solo se anche iloro punti mappati sono collineari.2.2.3 Omografia tra l'oggetto planare e la sua immagineUna mappatura P 2 → P 2 è una proiettività se e solo se esiste una matrice3×3 non singolare H tale che per ogni punto in P 2 è vero che il suo puntomappato valeH x [Hartley-2003].Infatti se si sceglie il sistema di riferimento mondo O s− X sY sZ s tale chegli assi X S e Y S siano giacenti sul piano, vale a dire in modo chel'equazione del piano sia Z S=0 , l'espressione (2.7) per un punto P appartenente al piano diventa:=[PcX Ip 11p 12p 13p 14z Y Ip 21 p 22 p 23 p 241 p 31p 32p 33p 34](2.16)1PsxsP y0Pertanto il piano Π induce una omografia rappresentata da una matrice3×3 la quale permette di scrivere la precedente relazione come:=[XsIp 11p 12p 14 xY Ip 21p 22ps24 P y1 p 31p 32p 34]P ⇒ p=H P (2.17)1La matrice H possiede 9 elementi, ma considerato lo scalare incognito λ,che fa variare la matrice senza alterare la trasformazione, i gradi di libertàsi riducono a 8.Il primo passo consiste nel trovare gli elementi della omografia H59

2.2.3.1 Stima dell'omografia HLa prima domanda da porsi è quanti punti corrispondentisono richiesti per calcolare la trasformazione proiettiva. X IY I P ssxP yNell'equazione (2.16) per le ipotesi fatte abbiamo posto P z s =0 per cuipossiamo semplificare anche l'espressione (2.8) ottenendo:{X I= p 11P s x p 12P s y p 14p 31P s x p 32P s y p 34Y I = p (2.18)21P s x p 22P s y p 24p 31P s x p 32P s y p 34che po' essere riscritta come p 31 P x s p 32 P y s p 34 X I − p 11 P x s − p 12 P y s − p 14 =0 p 31P x s p 32P y s p 34 Y I− p 21P x s − p 22P y s − p 24=0Portando in forma matriciale si ha:(2.19)A i h= −P s sx−P y−1 0 0 0 P s xX IP s yX IX Is s0 0 0 −P x−P y−1 P x s Y IP y s Y IY Ip11p12p14p21p22 (2.20)p24p31p32p34=0Ogni punto fornisce due equazioni corrispondenti alle sue componentiperciò impilando quattro matrici 2×9 si ottiene una matrice A didimensione 8×9 il cui spazio nullo è la soluzione per h. Se non sonopresenti triplette allineate, sono sufficienti quattro punti per vincolare Hpienamente e calcolare una soluzione esatta.60

2.2.3.2 Soluzione sovra-determinataIn genere i dati sono sporcati da rumore, perciò quattro punti costituisconosoltanto la dimensione del sottoinsieme più piccolo per ottenere unasoluzione minima. La stima ai minimi quadrati è la tecnica migliore inpresenza di rumore con distribuzione Gaussiana, ma tra i punti si possonotrovare degli outliers, vale a dire un insieme di valori anomali e aberrantiche possono essere dovuti a errori di localizzazione o a falsi accoppiamentie che non possono essere trattati come rumore Gaussiano dal momento cheanche solo uno di essi può essere in grado di alterare drasticamente lastima del modello. Gli errori di localizzazione sono previsti nelcomportamento gaussiano e per la maggior parte dei punti di interessesono di piccole dimensioni (uno o due pixel). Alcuni punti però a causa dirumore impulsivo, si collocano nella coda della gaussiana, ed essendolontani dalla tendenza generale dei dati, riducono notevolmente laprecisione della stima. Per fronteggiare la presenza di campioni perifericiche danneggiano la precisione di H, sono pertanto necessari metodi distima robusti che adattano un modello alla maggioranza dei dati e inseguito individuano come outliers quei dati che presentano un residuoelevato.2.2.3.3 Scelta della funzione di costoCon un numero maggiore di corrispondenze non si può ottenere unasoluzione esatta che non sia il vettore nullo. In questo caso è necessarioimporre un'appropriata funzione di costo da minimizzare in modo che la61

soluzione per il vettore h sia unica e non nulla.La funzione di costo più semplice è quella che minimizza la norma ∥A h∥ovvero quella che rende minimo il vettore di errore algebrico. Per esserecerti che la soluzione non sia il vettore nullo, si aggiunge il vincolo che lanorma di h sia unitaria. La soluzione a questo problema può essere trovatacon la DLT e la decomposizione ai valori singolari (SVD) preceduti peròda un processo di normalizzazione [Hartley-2003] descritto in maggioredettaglio nel capitolo 3. Sebbene questa funzione di costo sia lineare ecomputazionalmente poco onerosa ha lo svantaggio che la quantitàminimizzata non ha significativo geometrico né statistico.Illustrazione 18: Sistema di riferimento mondo sul modello dicalibrazioneCome detto in precedenza abbiamo posto il sistema di riferimento mondocon l'asse Z S giacente sul piano rappresentato dal modello dicalibrazione. Se tale modello è una scacchiera risulta agevole porre gli altridue assi coincidenti con i due bordi più esterni della scacchiera come62

nell'illustrazione 18 1 . Se si conosce la dimensione di una casella in questosistema di riferimento si possono determinare immediatamente lecoordinate di tutti i vertici della scacchiera. Una funzione di costo quindi sipuò basare sulla minimizzazione della distanza euclidea tra i punti deicorner nell'immagine p j e quelli generati dalla stima mediante il prodottodi H per le coordinate della scacchiera nel world reference frame P j .Possiamo quindi scrivere:in cuiminH ir j =minH i è il numero di corner rilevati.∑∥p j −H i P j ∥, j=1,... , (2.21)jQuesto errore geometrico può essere minimizzato ai minimi quadrati, se siprevede che l'errore non sia perfettamente gaussiano e quindi sianopresenti degli outlier il risultato ottenuto può essere raffinato utilizzandometodi robusti tra i quali i più utilizzati sono il metodo LmedS e ilRANSAC.2.2.3.4 Least median of SquaresIl metodo della minima mediana dei quadrati (LmedS) [Rousseeuw-87] èuna delle tecniche di stima robusta più utilizzate. Questa tecnica stima iparametri attraverso il problema di ottimizzazione non lineare:minH i{ medjr j2} (2.22)cioè si cercano i valori che minimizzano la mediana del quadrato deiresidui, e non la loro somma come si fa con il metodo dei minimi quadrati.1 In realtà, come si vedrà in seguito, gli angoli non sono rilevati a partire dal margine più esterno, madalla prima fila in cui si distinguono le intersezioni lungo le due direzioni e quindi anche il sistemadi riferimento risulta più spostato verso l'interno.63

Rousseeuw congettura che non sia possibile formulare una soluzione informa chiusa per la (2.22), né impiegare algoritmi iterativi, ma deve essererisolto attraverso una ricerca su un campione casuale (random resampling)nello spazio delle stime possibili generate dai dati, esplorandotale insieme in maniera casuale. Senecessario a determinare un vettore di parametri em volteq è il minimo numero di dati è la percentuale dioutlier, la probabilità di scegliere almeno un insieme privo di outlier èP=1−1−1− q m (2.23)Ponendo P=0.99 e risolvendo rispetto a m , si determina quanto devevalerem per ottenere una stima corretta con buona approssimazione:log 1−P m=log 1− 1− q (2.24)In genere l'algoritmo non è molto efficiente in presenza di rumoreGaussiano, perciò la soluzione viene raffinata attraverso unaminimizzazione ai minimi quadrati sui residui pesati2min∑ w ir iiconse∣rw i ={1 i ∣≤3.7065 1 m−s 5 medi0 altrimentiI dati a cui viene associato 0 sono considerati outliers.r i22.2.3.5 RANSACL’algoritmo RANSAC (RANdom SAmple Consensus) adotta la stessa64

tecnica di campionamento random del metodo LmedS. In questo caso però sulsottoinsieme di q elementi si determina quanti dati hanno uno scostamento dallastima inferiore ad una certa soglia . In una distribuzione Gaussiana con media zeroe deviazione standard , per avere una probabilità del 95% che un puntodell'insieme sia un inlier si deve avere =1.96 .Successivamente si determina l'insieme di consenso C maggiore, vale adire quello la cui cardinalità delle osservazioni che concordano con lastima è più numerosa.La percentuale di outlier che si prevede nell'insieme di osservazionimoltiplicata per il numero complessivo di dati ci fornisce una stima per ilvalore atteso per il consenso C .Se il consenso è inferiore a tale valore vengono ripetuti i primi passi per unaltro sottoinsieme casuale, finché non viene trovato un insieme di consensosuperiore sul quale viene effettuata la regressione.In caso di conoscenza a priori e C sono determinate, ma nei casisperimentali difficilmente sono noti i valori di e , perciò si deveprocedere per tentativi.Nel caso in cui l'algoritmo non termina dopo un certo numero di iterazionisignifica che potrei aver scelto un valore di soglia per C troppo elevato ein tal caso si può decidere di far fallire l'algoritmo oppure aggiornare ilnumero di tentativi m durante l’esecuzione in base alla (2.24) edeffettuare la regressione sull'insieme di consenso maggiore.65

2.2.4 Stima della matrice dei parametri intrinseciConsiderando che =M [R T ] ed R=[ r 1r 2r 3 ] , si ha:Da cui si ottiene:H = M [ r 1r 2T ]=[ h 1h 2h 3 ] (2.25)r 1 = M −1 h 1r 2 = M −1 h 2(2.26)Grazie al fatto che le colonne di R sono ortonormali, ovvero che r 1 T r 2=0 er 1 T r 1 =r 2 T r 2si hah 1 T M −T M −1 h 2 =0h 1 T M −T M −1 h 1 =h 2 T M −T M −1 h 2(2.27)Zhang dimostra che, indicando comee con B la matrice simmetricah i=[h i1h i2h i3]la i-esima colonna di HB=M −T M −1 =[1 xf 2 0è possibile effettuare la decomposizioneposto− X 0 xf 2]1−Y*0 y f 2 y f 2* * 1 X 20 xf Y 202 yf 2(2.28)h i T M −T M −1 h j =v ij T b (2.29)66

11B 12b=[B B 22B 13B 23B 33]e v ij =[avendo indicato con B ij il generico elemento di B.h i1h j1h i1h j2h i2h j1]h i2h j2h i3h j1h i1h(2.30)j3h i3 h j2 h i2 h j3h i3 h j3di cui soltanto sei dei nove elementi non sono duplicati.Le (2.27) possono pertanto essere riscritte comeTv T] 12v 11 −v b=V b=0 (2.31)22dove V è una matrice 2×6 .[Se sono osservate n immagini del piano, impilando le equazioni ottenute,V diventa 2n×6 e per n≥3 si ottiene un'unica soluzione definita a menodi un fattore di scala. Tenendo in considerazione che la (2.28) è nota ameno di un fattore di scala , cioè B=M −T M −1 ; una volta noti glielementi di B si possono ricavare i parametri intrinseci:X 0= −B 13B 11Y 0= −B 23B 22=B 33 X 0 B 13 B 23 Y 0(2.32) xf = B 11 y f = B 2267

2.2.5 Stima dei parametri estrinseciPer quanto riguarda i parametri estrinseci, nota M possiamo ricavare glielementi della matrice=M [R T ] sfruttando le relazioni:r 1 = M −1 h 1r 2 = M −1 h 2(2.33)r 3 =r 1 ×r 2t=M −1 h 3In cui il fattore di scala è determinato dalla condizione di ortonormalità1=∥M −1 h 1 ∥ = 1∥M −1 h 2 ∥ .Successivamente in genere è opportuno applicare una decomposizione aivalori singolari della matrice R=[ r 1 r 2 r 3 ] ottenuta, per aggirare ilproblema che, a causa del rumore, questa non soddisfa le proprietà di unamatrice di rotazione.68

Capitolo 3Visione stereoscopicaL'uomo e molte altre specie animali sono dotati di visione binoculare,ovvero l'unica percezione visiva della realtà è il risultato del contributo deidue occhi che da posizioni differenti, attraverso il cristallino e la cornea,mettono a fuoco la luce catturata dall'esterno e mediante il nervo otticoinviano impulsi elettrici al cervello per l'elaborazione e l'interpretazione.Poiché i due occhi hanno una certa distanza tra loro (per l'uomo circa 6cm) le due viste presentano una certa disparità. La stereopsi è la capacitàdel cervello di unire le due immagini sfruttando tale disparità per assegnareun senso di maggiore o minore profondità agli oggetti dello spazio visivoche consente la visione tridimensionale.3.1 TriangolazioneLa possibilità di individuare la distanza a cui si trova un oggetto è difondamentale importanza non solo nel mondo animale, ma anche inambito tecnologico. Problemi tipici che possono avere tale necessità sonol'Object recognition, la ricostruzione di modelli 3D di una scena e lamanipolazione di robot mediante asservimento visuale ( visual servoing).Il caso più semplice si ha in presenza di un impianto stereo canonico, valea dire quando si hanno immagini corrispondenti senza distorsioni,perfettamente complanari e allineate per riga di pixel, con assi principali69

perfettamente paralleli, lunghezze focali coincidenti e i punti principalic L e c R sono stati calibrati in modo da trovarsi alle stesse coordinate inpixel nelle due immagini. Tale disposizione è detta frontale-parallela ed èsintetizzata con una vista aerea nell'illustrazione 19.Illustrazione 19: Vista aerea di un impianto stereo canonicoLa retta che congiunge i centri ottici O L e O R delle due telecamere èdetta linea di base o baseline. Con il termine baseline si può indicare ancheil segmento O LO R nel qual caso si può anche parlare di lunghezza dellabaseline.Per ogni punto P nello spazio, individuato da entrambe le telecamere, ladisparità sarà data dalla differenza tra le ascisse X L e X R dei sistemi di70

coordinate sul piano immagine che hanno origine in alto a sinistra nelleimmagini in pixel come mostrato nell'illustrazione 20.Illustrazione 20: Assonometria di un impianto stereo in disposizionefrontale-parallelaConsideriamo ora i due triangoli simili aventi come vertice in comune ilpunto dello spazio P. Il lato opposto al vertice di uno dei due triangoli èrappresentato dal segmento p Lp R , mentre per l'altro triangolo è labaseline O LO R . Dall'analisi dei due triangoli si desume che la profonditàZ è inversamente proporzionale alla disparità X L− X R tra le due viste:O LO R− X L− X R = O O L RZ− f Z⇒Z = f⋅O L O RX L − X R(3.1)Quando la distanza Z è piccola si ha una disparità molto grande e quindi71

una risoluzione rispetto alla profondità elevata, vale il contrario perdistanze grandi.Nel mondo reale le telecamere non saranno mai esattamente allineate nellaconfigurazione frontale-parallela, perciò è necessario capire come si puòmappare coppie di immagini prelevate dal mondo reale in coppie cherispettino la geometria ideale.3.2 Geometria epipolarePer ottenere informazioni sulla profondità da una coppia di immaginiprovenienti da telecamere è necessaria una stereopsi computazionale cheindividui i punti corrispondenti nelle due immagini ovvero che sonoproiezione di uno stesso punto 3D (problema della corrispondenza o dimatching). Questi punti, detti punti coniugati [Fusiello-2010], possonoessere computazionalmente onerosi da calcolare se ci si basa solo suvincoli di similarità. Per ogni punto di una immagine sarebbe necessarioverificare la similarità su tutte le righe e tutte le colonne dell'altraimmagine generando inoltre numerosi falsi accoppiamenti. Fortunatamenteil punto coniugato sull'altra immagine può trovarsi soltanto lungo una retta,detta retta epipolare. Tale vincolo deriva dallo studio della geometriadell'intersezione dei piani immagine con il fascio di piani passanti per labaseline.Questa geometria, chiamata geometria epipolare, dipende solo daiparametri intrinseci ed estrinseci delle due telecamere e non dallageometria tridimensionale della scena.72

Una qualsiasi retta nel piano ha come equazione in forma implicitaaxbyc=0, quindi una generica retta epipolare sull’immagine puòessere rappresentata dal vettore:il i =[a bi] . icIllustrazione 21: Intersezione dei piani immagine con il piano epipolareConsideriamo tra tutti i piani passanti per la baseline quello passante per ilpunto P, il piano epipolare. L'intersezione del piano epipolare con i duepiani immagine genera due rette l L e l R dette linee epipolari passanti perle proiezioni p L e p R di P sui due piani immagine. Da ciò si deduce cheil punto corrispondente di uno dei due punti dovrà giacere sulla linea73

epipolare corrispondente sull'altro piano immagine.Da questa geometria si individuano anche i punti e L ed e R derivantidalla intersezione della baseline con i piani immagine detti epipoli.3.2.1 La matrice fondamentaleUn epipolo corrisponde anche alla proiezione sul piano immagine delcentro ottico dell'altra telecamera, perciò, espressa con L la matrice diproiezione prospettica riferita al piano immagine sinistro, si ha:e R= R[ O L1 ] =M R [ R RT R ] [O L1 ] =M R R R O L M R T R (3.2)Dalla (11) si ricava che O L =−R L −1 T L quindie R= R[ O L1 ] =M T −M R R −1 R R R R LT L (3.3)È semplice notare che la retta epipolare è la proiezione di un raggio otticosull'altro piano immagine per cui dalla (3.4)da cui si ottiene l'equazione parametrica:oppure in forma di prodotto vettoriale R[ M L R L −1 p L0 ] =M R R R M L R L −1 p L= R L + p L (3.5)l R : p R =e R R L + p L (3.6)l R = R C × R L + p L =e R ×M R R R M L R L −1 p L (3.7)La (3.7) può essere riscritta, con l'ausilio della matrice antisimmetrica,comel R =S e R R L + p L =F p L (3.8)avendo definito la matrice fondamentale 3×3 di rango 274

F =S e R R + L =S e R M R R R M L R L −1 (3.9)+La matrice A= R L rappresenta una omografia che mappa i punti da unpiano immagine all'altro [Hartley-2003].3.2.2 Le matrici L e R in un sistema stereoscopicoSe nell'impianto stereo canonico dell'illustrazione 20 poniamo il sistema diriferimento spaziale in modo da far coincidere l'origine O S con il centrodi proiezione della telecamera sinistra O L otteniamo una semplificazionedell'equazione (2.5). La matrice dei parametri estrinseci relativi allatelecamera sinistra G L è data quindi dalla matrice identità per cui siottiene L=M L[ I 0 ] . Nella configurazione mostrata nell'illustrazione 21per passare da un sistema di riferimento sinistro al destro si deve fareancora ricorso alla (2.5). L'origine della telecamera destra si trova ad unadistanza T =O LO R per cui si ha R=M R[ R T ] . Da quanto affermato siricava che L + =[M −1]L0 e C = 0 1(3.10)LLa proprietà (3.2) diventa con l'attuale impostazione delle coordinate esfruttando la proprietà R T =R −1 :e L= LC R=M L[ I(3.11)e R= RC L=M R[ R T ] [01] =M T R0 ][ −RT T1 ] =M L RT75

3.2.3 Proprietà della matrice fondamentalePremoltiplicando la (3.6) a sinistra e a destra perp R T S e R si ottiene:p R T S e R p R = p R T S e R A p L p R T S e R e RPoiché il prodotto vettoriale di vettori linearmente dipendenti è nulloS e Re R=0ed è nullo anche il prodotto scalare di vettori ortogonalip T R S e R p R =0 si ricava l'equazione di Longuet-Higgins:p T R F p L =0 (3.12)Con questa equazione è possibile caratterizzare la matrice fondamentalesolo in termini di punti corrispondenti senza conoscere la matrice .Le più importanti proprietà della matrice fondamentale [Hartley-2003]sono:1. Se F è la matrice fondamentale di una coppia ditelecamere, la matrice F T lo è della coppia nell'ordine opposto;quindi dalla (3.9) si haF =S e R A=A −T S e L (3.13)2. La (3.8) fornisce la linea epipolare sull'immaginesinistra. La linea epipolare sull'altra immagine sarà l L =F T p R3. Ad ogni punto p R e p L nel piano immagine destrocorrispondono rispettivamente la linea epipolare sinistracontenente l'epipolo e L e la linea epipolare destra contenentel'epipolo e R . Per questo si ha e T R F p L =0 e dalla primaproprietà e T L F T p R =0 . Questo ci conduce alla seguenteproprietà:76

e R T F =0 ⇒ F T e R =0e L T F T =0⇒ F e L =0(3.14)4. F ha sette gradi di libertà. I due gradi di libertà rimossidipendono dal solito fattore di scala e dal vincolo det F =0 . Lamatrice F infatti non avendo rango pieno non è invertibile.Questo può essere spiegato sottolineando il fatto che la matricefondamentale mappa, attraverso la relazione (3.7), un punto sulprimo piano immagine in una linea nel secondo, perciò non èpossibile ricostruire il punto corrispondente sull'altro pianoimmagine soltanto dalla conoscenza di F e della linea epipolare.Possiamo dimostrare la prima uguaglianza della proprietà (3.13)sostituendo le (3.10) e (3.11) nella (3.9) ottenendoF =S RC L M R[ RT ][ M −1L0 ] =S M T M R M −1 −1R R L=S e R M RR M L(3.15)Grazie alla proprietà delle matrici antisimmetriche per cuiSa M =M −T S M −1 a (3.16)si ricava la seconda uguaglianza nella proprietà (3.13)F =M R R M L−1 −T S M R R M L −1 −1 M R T =M R −T R M LTS M L R T =M R −T R M L T S e L 3.2.4 La matrice EssenzialeSfruttando ancora la (3.16) nella (3.15) possiamo ricavare un'altra formaper F:F =M R −T S M R −1 e R R M L −1 =M R −T S M R −1 M R T R M L−1(3.17)Andando a definire la matrice Essenziale77

E=S T R (3.18)l'equazione (3.17) può essere ridotta inDalla (2.9) è semplice dedurre cheF =M R −T E M L−1(3.19)p T R M −T R E M −1 L p L =M −1 R p R T E M −1 L p L =0 (3.20)la quale introdotte le coordinate normalizzate p=M −1 p assume la formap T R E p L =0 (3.21)3.2.5 La matrice F in un sistema stereoscopico canonicoIn un impianto stereo canonico, come quello nelle illustrazioni 19 e 20, ipiani focali contengono la baseline O LO R e sono complanari, gli epipoligiacciono all'infinito e le linee epipolari sono parallele, orizzontali epresentano la proprietà di collinearità, cioè la retta epipolare destra risultaessere la prosecuzione di quella sinistra. La collinearità comporta che unpunto abbia il suo coniugato sulla stessa scanline, ovvero sulla stessa rigadi pixel, favorendo il calcolo delle corrispondenze.In questo caso la matrice fondamentale assume la forma [Cyganek-09]=[ 0 0 00]F C 0 0 c (3.22)0 −cdove c è un valore costante diverso da 0. Sostituendo F C nella (3.12)otteniamop R T F Cp L=[ X RY R1][0 0 00 0 c0 −c 0][XLY L1]=078

che equivale a Y R=Y L , ovvero conferma che in un impianto stereocanonico due punti corrispondenti si trovano sulla medesimaordinata,mentre hanno differente ascissa che genera la disparità necessaria allatriangolazione.Dalla (3.8) si ricava anche la formula che ribadisce l'orizzontalità dellalinea epipolare in una disposizione frontale-parallela:=[ 0 0 0 L]=[0l R =F C p L 0 0 c Y Lc0 −c 0][X L]1 −cY3.3 Calcolo della matrice fondamentaleLa matrice F dipende dai parametri intrinseci ed estrinseci dellatelecamera, questo si può facilmente constatare osservando la relazione(3.13). Il calcolo di F è possibile anche senza tali informazioni, èsufficiente infatti un sufficiente numero di punti coniugati. La matricefondamentale che si ricava contiene tutta l'informazione sulla geometriadel sistema, ma se F è calcolata da un sistema stereoscopico non èpossibile estrarre e G, bensì è necessario avere almeno una terna diimmagini prese da posizioni diverse mediante la stessa telecamera (peresempio nel caso di telecamera in movimento). Questo problema è dettoauto-calibrazione, ma non verrà trattato.La determinazione della matrice fondamentale in genere serve per ottenereuna nuova configurazione del sistema di visione stereoscopica in modo dapoter considerare le immagini come acquisite da un impianto stereo79

canonico. Per poter sfruttare anche nel caso generale le proprietà diquest'ultimo si ricorre alla rettificazione epipolare, cioè una trasformazioneche lascia inalterata la baseline e attraverso una rotazione attorno ai centriottici rende i piani focali paralleli tra loro e alla baseline.La matrice fondamentale ha rango pari a 2 ed è definita a meno di unfattore di scala, perciò avendo nove elementi ha 7 gradi di libertà.Il vincolo epipolare p R T F p L =0 valido per ogni coppia di punticorrispondenti può essere usato per stimare la matrice fondamentalequalora si conoscano un numero sufficiente di punti. Questa idea fu usatainizialmente da Longuet-Higgins per trovare i coefficienti della matriceEssenziale [LonguetHiggins-81].Ogni corrispondenza fornisce la seguente equazioneDenotando con11F 12F 13 L X RY R1[F F 21F 22F 23 Y LF 31 F 32 F 33]X 1=0 (3.23)f il vettore costituito dagli elementi di F ordinati per rigapossiamo esprimere questa equazione come X RX L, X RY L, X R,Y RX L, Y RY L, Y R, X L, Y L, 1 f =0Da un insieme di n coppie di punti si ottengono un insieme di equazionilineari nei coefficienti della matrice fondamentale F che definiscono unsistema lineare omogeneo Q f =0 , conX R1X L1X R1Y L1X R1Y R1X L1Y R1Y L1Y R1X L1Y L11XQ=[R2X L2X R2Y L2X R2Y R2X L2Y R2Y L2Y R2X L2Y L21⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮X RnX lnX RnY lnX RnY RnX lnY RnY lnY RnX lnY ln1]80

la cui soluzione è il nucleo di Q.Analogamente a quanto visto nel capitolo 2, numerosi algoritmipermettono di calcolare la soluzione cercata.Conoscere il funzionamento di tali metodi consente la scelta della tecnicapiù opportuna in base al numero di corrispondenze richieste, allacomplessità computazionale e alla possibilità che siano presenti valorianomali.3.3.1 Decomposizione ai valori singolariGli algoritmi che prevedono la conoscenza del minor numero dicorrispondenze sono l'algoritmo dei sette punti e quello degli otto punti.Questi algoritmi si basano su una applicazione comune per la risoluzionedi sistemi di equazioni sovradeterminati chiamata Singular ValueDecomposition (SVD).La matrice Q viene decomposta come Q=U D V T , dove U e V sonomatrici ortogonali e D è una matrice diagonale i cui elementi diagonalisono detti valori singolari e corrispondono alle radici quadrate degliautovalori della matrice Q T Q . Essendo Q T Q simmetrica e semidefinitapositiva allora i valori singolari sono reali e non negativi.Le colonne di V corrispondenti ai valori singolari nulli sono una base perKer Q perciò possono fornire una soluzione per Q f =0 .3.3.2 Soluzione esatta con sette puntiI sette gradi di libertà di F comportano un numero minimo di coppie per81

avere una soluzione riguardo alla geometria epipolare pari a 7.La matrice Q con n=7 ha un nucleo di dimensione 2 dato dallacombinazione lineare F 1 1− F 2 , in cui le matrici F 1 e F 2 sonoottenute dai vettori corrispondenti f 1 e f 2 , che si possono ottenereattraverso la SVD. La matrice fondamentale deve avere determinante nulloperciò si ha det F 1 1− F 2 =0 da cui si ottiene un polinomio cubicoin che ha al massimo 3 soluzioni reali [Zhang-96].Questo algoritmo non genera sempre un unica soluzione, la qualecomunque non fornisce valori attendibili per il basso numero di punti usati.Comunque questo algoritmo viene ripreso nei metodi robusti come passodi algoritmi iterativi.3.3.3 Metodo degli otto puntiIn assenza di rumore, con n pari a otto, il nucleo di Q è uno spaziovettoriale di dimensione 1, poiché i parametri dif sono definiti a meno diuna costante moltiplicativa. La soluzione può essere calcolata con ilcosiddetto algoritmo degli 8 punti, variante del DLT, il quale però puòrisultare instabile a causa del rumore, degli errori dovuti ad arrotondamentinumerici, ma soprattutto a causa del malcondizionamento dovutoall'utilizzo di coordinate pixel omogenee che rendono la terza dimensionemolto diversa dalle altre due [Hartley-97].3.3.4 NormalizzazioneGli elementi della matrice Q in cui compaiono le singole coordinate pixel82

sono dell'ordine di 10 2 , mentre si ha un ordine di 10 4 per quelli in cuisono presenti i prodotti delle coordinate e valori unitari per l'ultimacolonna. Per ridurre tale sproporzione viene applicata una trasformazioneche rende molto più stabile l'algoritmo in modo che i risultati possanoessere confrontati con gli algoritmi iterativi che saranno analizzati inseguito. Tale trasformazione, chiamata normalizzazione da Hartley, è unatrasformazione affine che deve essere applicata indipendentemente alle dueimmagini e consiste in due passi principali. Il primo consiste in unatraslazione tale da far coincidere l'origine [ 0 0 1] T con il centroidedell'insieme di punti. Il secondo passo è quello di scalare gli stessi puntiaffinché la distanza media dall'origine sia pari a 2 in modo che il puntomedio sia pari a [1 1 1] T .Data una matrice di normalizzazione N si avrà [Cyganek-09]:x 0 −X m s x Xp=N P=[s][0 s y−Y ms y0 0 1iY i1]=[s x X i− X m ]s y Y i−Y m (3.24)1in cui compaiono le coordinate omogenee del punto medio calcolatorispetto ai punti non ancora normalizzati]=[1∑ nXm n i]i=1p m=[X Y m 11 ∑ nYn ii =11e i fattori di scala s x= 1 ∑ n i =1n X i− X m − 1 2e s y=1 ∑ nn i=1Y i−Y m − 1 2Nel dominio delle coordinate normalizzate si avrà83

p RTF p L= N Rp R T F N Lp L = p R T N RTF N Lp Lda cui si deduce cheF =N RTF N L (3.25)Questa relazione è determinante per la denormalizzazione finale.3.3.5 Soluzione ai minimi quadratiNel caso in cui a causa del rumore o di errori di misura Q possegga rangopieno, risultando non singolare si può cercare una soluzione approssimataai minimi quadrati.Questa soluzione può essere trovata a meno di un fattore di scala, perquesto è necessario porre un ulteriore vincolo; in questo modo si escludeanche la soluzione banale f =0 . Per tale vincolo esistono varie opzionitra le quali la più utilizzata è quella di porre ∥ f ∥=1 .La robustezza dell'algoritmo può essere aumentata con n8 . In questomodo si hanno più equazioni lineari che incognite e si può cercare diminimizzare il criterio di errore [Faugeras-01]:che equivale a trovare il minimo dinC F =∑i =1 p T RiF p Li 2 (3.26)C F =∥Q f ∥ 2 (3.27)Il vantaggio del metodo degli otto punti è che porta ad un algoritmo noniterativo e quindi è più semplice da implementare, ma oltre alla sensibilitàal rumore presenta due problemi rilevanti:• Non è rispettato il vincolo det F =0 .84

• La (4.4) non ha alcuna interpretazione geometrica3.3.6 Vincolo di singolaritàLa proprietà che gli epipoli siano autovettori della matrice F sottolinea ilfatto che la matrice F sia singolare e in particolare abbia rango pari a 2.Per forzare la singolarità della matrice fondamentale normalizzata in modoche le linee epipolari passino tutte per l'epipolo comune, F vienerimpiazzata dalla matrice F più vicina in norma di Frobenius che soddisfii requisiti, vale a dire dalla matrice che, sotto la condizione det F =0 ,minimizzi la norma ∥F −F∥ .La SVD permette di porre in ordine decrescente i valori singolari di D,perciò si può far corrispondere all'ultima colonna della matrice V il valoresingolare più piccolo. Applicando la SVD a F , per avere una F che siala matrice singolare più vicina in norma di Frobenius si pone a zero ilvalore singolare minore e si calcola la matrice cercata comeF =U DV T =U diag r , s ,0V Tin cui U e V sono le matrici ortogonali ottenute dalla SVD di F .In questo modo si può ottenere, dopo la denormalizzazione (3.25), unamatrice fondamentale singolare, la quale però è stata ottenutaminimizzando una funzione che non possiede una interpretazionegeometrica.3.3.7 Metodi robustiAbbiamo detto in precedenza di voler minimizzare una quantità85

geometricamente significativa, perciò potremmo utilizzare una funzione dierrore che tenga conto delle distanze dalle linee epipolari.In questo modo si può ottenere un residuo r i per cui vale [Faugeras-01]r i 2 =d 2 p Ri , F p Lid 2 p Li , F T p Ri (3.28)La struttura per gli algoritmi RANSAC e LmedS, descritti nel capitolo 2,per la stima della matrice fondamentale è la seguente:Date N corrispondenze{ p Li , p Ri ∣i=1,... , N } si seguono i seguenti passi:1. Vengono generati m sotto-campioni casuali attraverso una tecnicaMonte Carlo estraendo per ogni sotto-campione q=7 corrispondenze.2. Attraverso il metodo dei 7 punti vengono calcolate al più 3 soluzioniF J per ogni sotto-campione J .3. Se utilizzo LmedS calcolo m volteM J = {medi=1,... , N [ d 2 p Ri , F J p Li d 2 p Li , F J T p Ri ]}La F J che presenta il minor M J sarà la nostra stima finale per la matricefondamentale. Se utilizzo RANSAC calcolo il numero di inlier chepresentano una distanza minore di2 e prendo la F J con maggior consenso. per ogni soluzione generata al passo3.4 RettificazioneRiassumendo quanto detto in precedenza, lo scopo finale della visionestereo è quello di fornire una stima della profondità degli oggetti attraversola triangolazione.Il calcolo della (3.1) non può essere determinato se non si è risolto in86

precedenza il problema della corrispondenza, infatti per sapere il valore diX L e X R si deve conoscere quali parti delle due immagini sonoproiezione dello stesso elemento della scena.Una mappa delle corrispondenze in grado di fornire per ogni puntodell'immagine di partenza la posizione del pixel corrispondente potrebberisolvere questo problema.Se si conosce la geometria epipolare, codificata nella matricefondamentale, è possibile ridurre il problema ad una ricerca 1D grazie alfatto che punti coniugati si trovano sulla stessa linea epipolare.Naturalmente la ricerca dei punti corrispondenti risulta semplificata se ledue immagini possono essere distorte in modo che qualsiasi coppia dipunti coniugati si trovi sulla stessa scanline nelle due immagini. In altreparole si vuole trovare una trasformazione geometrica che alteril'arrangiamento spaziale dei pixel (image warping) [Fusiello-2010] inmodo che le linee epipolari coincidano nelle due immagini e sianoparallele all'asse orizzontale.La rettificazione epipolare è una omografia che porta l'impianto stereo inuna disposizione frontale-parallela riducendoforma canonica.la geometria epipolare inLe matrici generali delle telecamere in configurazione canonica sono datada [Hartley-2003] L=[I 0] e R=[ M Re R ] (3.29)e più nel dettaglioM R =S e R F e R v T (3.30)87

in cuiv è un vettore di tre elementi.La seguente tabella riassume le proprietà fondamentali di un sistemastereoscopico qualsiasi e di quello canonico.Configurazione non rettificata R=M R[ R T ] R=[ Sistema con epipoli ad ∞M Re R ] L=M L[ I 0 ] L=[ I 0]A= R L + =M R R M L−1F =S e R A= A −T Se Le L= LC R=M LRTe R= RC L=M RT A = M RF =S e R M R = M R −T S e L e L=Te R= RC L= M Re LTabella 1: Sommario delle proprietà delle matrici delle telecamereSi noti che la maggior parte degli algoritmi di visione stereoscopicapresentati nella letteratura della computer vision assumono immaginirettificate[Isgrò-99].Per ottenere delle linee epipolari orizzontali l'omografia rettificante devemappare gli epipoli ad infinito, perciòeL= eR=[ 1 0]0(3.31)In questo modo l'immagine del centro di proiezione in una immagine èparallela all'altro piano immagine. L'esecuzione degli algoritmi direttificazione di un immagine in genere ha scarso successo quando gliepipoli si trovano all'interno dell'immagine, vale a dire quando l'impiantostereo è caratterizzato da una baseline troppo ampia o con assi ottici troppoconvergenti. La trasformazione proiettiva H che mappa gli epipoliall'infinito sfrutta 3 gradi di libertà, quindi rimangono 4 gradi di libertà dai88

7 totali di un'omografia qualsiasi. Se i restanti vincoli non vengono sceltiopportunamente si rischia di scegliere un'omografia che causa severedistorsioni all'immagini. Poiché ci sono un infinito numero di possibilipiani frontali-paralleli da scegliere, si devono introdurre ulteriori vincolicome minimizzare la distorsione o massimizzare la sovrapposizione delleviste.Esistono algoritmi che necessitano di una completa calibrazionedell'impianto ed altri che invece sono indipendenti dalla calibrazione. Inquesto senso possiamo distinguere due categorie di algoritmi direttificazione:• Uncalibrated stereo rectification• Calibrated stereo rectification3.4.1 Algoritmo di HartleyQuesto metodo non utilizza i parametri intrinseci e estrinseci delletelecamere, ma sfrutta il fatto che tale informazione è contenuta nellamatrice fondamentale. La rettificazione quindi può essere effettuatasemplicemente individuando almeno 7 punti necessari per il calcolo di F.Questo algoritmo tenta di minimizzare le disparità esistenti tra le due viste,ma in genere produce immagini più distorte di quelli che prevedonol'utilizzo dei parametri della calibrazione. Un ulteriore svantaggio è chenon essendo a conoscenza dei parametri intrinseci e in particolare dellalunghezza focale, non si ha alcuna sensibilità alla scala. Ciò comporta cheoggetti nello spazio aventi differente scala e, di conseguenza, punti89

caratteristici con differenti coordinate 3D, possano avere medesimaproiezione [Bradski-2008].Il procedimento presentato in [Hartley-98] inizia applicando all'immaginedestra l'omografia H R che mappa all'infinito l'epipolo destro e in unsecondo tempo calcola l'omografia corrispondente H L da applicaresull'immagine di sinistra in modo che sia minimizzata la disparità e quindila quantità∑id H Lp Li, H Rp Ri 2 (3.32)L'algoritmo per il calcolo della prima omografia può essere schematizzatonel seguente modo:1. Si sceglie un punto p O nel cui vicinato può essere desiderabileavere una distorsione minima. Nei successivi passi verrà applicatauna trasformazione che nell'origine può essere approssimata ad unatrasformazione rigida. L'applicazione di una traslazione (prima diapplicare la trasformazione rigida) in grado di portare il punto p Onell'origine permette di rendere quello scelto il punto a distorsioneminima. È ragionevole scegliere come punto da mappare nell'origineil centro dell'immagine p O= X OY O1 T , in tal caso la traslazioneha la forma:0 − X OT =[1 ]0 1 −Y O(3.33)0 0 12. Il secondo passo è quello di trovare una rotazione che porti l'epipolodestro sull'asse X. Per la (3.14) possiamo calcolare l'epipolo destro90

trovando il nucleo di F T . Da notare che l'epipolo ha già subito latraslazione al passo 1. Quindi avremo:=( e ) ( e −X R1xe =T e = Rx OR1 R e Ry−Y O1e R1y1)(3.34)da cui possiamo ricavare l'angolo che allinea e R1 con l'ascissa eR1=−atan2e R1y,e R1x (3.35)e infine la matrice di rotazione cercata attorno all'asse ZeR1 ) −sin (ϕ eR1 ) 0R=[cos(ϕ1]sin(ϕ eR1) cos(ϕ eR1) 0(3.36)0 03. L'ultimo passo è quello di trovare una trasformazione che mappaall'infinito l'epipolo e R2=R e R1 che ora giace sull'asse X e quindi hala forma e R2=( f 0 1) T a meno di un fattore di scala che puòessere eliminato dividendo per la terza componente. Hartley proponela seguente omografia:=[1K0 00 1 0− 1 f0 1](3.37)4. Infine si calcola l'omografia finale dalla composizione delle tretrasformazioni:H R=K R T (3.38)Dalla (3.30) possiamo ora calcolare M R e le matrici delle telecamere in(2.29).Hartley dimostra che se la matrice fondamentale è data daF =Se R M R91

allora la trasformazione proiettiva H L dell'immagine I L corrisponde adH Rse e solo seH L = IH R e R a T H R M (3.39)per qualche vettore a . Nel nostro caso la (3.39) si può semplificarepoiché H R mappa l'epipolo destro all'infinito:H L= I H Re Ra T H R M R=I [ 1 0]0 aTH R M R=H AH R M Rin cui H A è una trasformazione affine della forma=[ a b c1]H A 0 1 0(3.40)0 0A questo punto trovare una matrice H L che minimizzi la disparitàsecondo la (3.32) può essere così riformulataIn particolare siano∑id H AH R M Rp Li, H Rp Ri 2 =∑id H A p Li, p Ri 2 (3.41)=X Lip Li Y Lie1=X Rip Ri Y Ri1allora la (3.41) diventa∑id [a X Li b Y Li c , Y Li , 1] T ,[ X Ri , Y Ri , 1] T 2e ancora, considerando che con la rettificazione i punti coniugati devonogiacere sulla stessa scanline, la disparità dipende soltanto dalla distanza trale ascisse92

∑ a X Lib Y Lic− X Ri 2 (3.42)iChe è un semplice problema di minimizzazione ai minimi quadrati lineare.3.4.2 Algoritmo di BouguetBasandosi sulla conoscenza dei parametri della calibrazione Bouguetspartisce la rotazione determinata dalla matrice R, calcolata a partire dalla(2.33), tra le due telecamere in modo da renderle complanari. In questomodo minimizza la distorsione prodotta dalla riproiezione e rende massimal'area sovrapponibile tra le due immagini[Bouguet]. In particolare dato ilvettore di rotazione v LR le cui componenti descrivono l'asse di rotazionetra i due piani immagine e la cui norma∥v LR∥ fornisce il valoredell'angolo di tale rotazione, possiamo trovare le due matrici di rotazioner R= f ROD −v LR2 e r =r TL Rrispettivamente per la telecamera destra e sinistra.Si noti che per la rotazione di destra si è indicato con(3.43)f ROD la formula diRodrigues che converte un vettore di rotazione nella corrispettiva matricedi rotazione, mentre per la rotazione di sinistra è stata utilizzata laproprietà di ortogonalità. Le due “mezze rotazioni” rendono gli assiprincipali paralleli tra loro e alla somma degli assi ottici originali. Dopotali trasformazioni i due piani sono complanari, ma non ancora allineati perriga, ciò significa che l'asse di riferimento X S non è parallelo allabaseline la cui direzione è data dal nuovo vettore traslazionedeve quindi fare in modo che il vettoret=r RT . Sit abbia la stessa direzione del93

vettore 1 0 0 T . Per determinare il vettore di rotazione si devecalcolare il vettore che descrive l'asse della rotazione cercata e l'angolo. Ilprimo si può calcolare attraverso il prodotto vettoriale=t× 1 00(3.44)mentre si può risalire all'angolo di rotazione sfruttando la proprietà delprodotto scalare nel piano definito dagli stessi vettorit⋅1 0 0=arccosT∥(3.45)∥t∥ ∥ 1 0 0 TÈ possibile stabilire il vettore di rotazione moltiplicando il risultato della(3.44) con quello della (3.45) perciò le rotazioni globali da applicare adentrambe le viste saranno:R R= f RODr RR L = f ROD r L(3.46)Per soddisfare la richiesta di collinearità le due nuove matrici dei parametriintrinseci devono avere lo stesso valore yf . Per semplicità i fattori discala x e y presenti nella (2.3) vengono resi uguali ponendof new= xf = yf , in modo che i pixel risultino quadrati. Il valore dif newviene scelto cercando di trovare una lunghezza focale in grado dimantenere il maggior numero di informazioni contenute nelle dueimmagini originali distorte. I nuovi punti principali Y 0L e Y 0R sonoinizialmente calcolati in modo da massimizzare l'area nelle immaginirettificate; poi per la componente verticale viene posto un valore comunefacendo la media tra le coordinate verticali dei due punti principali, vale a94

dire in formule Y 0 = Y 0L Y 0R2.Le nuove matrici di prospezione avranno quindi la forma:=[f new 0 X 0LM L 0 f new Y] =[f new 0 X 0R 0M R 0 f new Y]0(3.47)0 0 1 0 0 1Le nuove matrici di proiezione prospettica non avranno quindi la forma(3.29), ma avranno matrici dei parametri intrinseci quasi identiche edifferiranno tra loro anche per il vettore di traslazione T = R RT : L= M L[ I 0] R= M L[I T ](3.48)3.4.3 Mappa di rettificazioneUna volta calcolate le trasformazioni di rettificazione con uno dei duemetodi si costruisce una mappa in grado di indicare dove deve esserecollocato ogni pixel originario nell'immagine destinazione. Tuttavia allecoordinate intere dell'immagine originale corrispondono coordinate realinell'immagine finale perciò si procede al contrario:1. Per ogni posizione intera dell'immagine destinazione pcalcoliamo da quale coordinata in virgola mobile dell'immaginesorgente dovrebbe provenire.2. Il valore di quel pixel destinazione viene poi calcolato attraversouna interpolazione bilineare dall'immagine sorgente dei valoriinteri dei pixel più prossimi a quello calcolato al passo 1.95

Vediamo ora come determinare la mappa nel caso in cui si è utilizzato ilmetodo di Bouguet.La trasformazione (3.48) produce due nuove equazioni corrispondenti alla(2.5) in cui si ha un nuovo punto nel piano immaginep L = L P sp R = R P s (3.50)Dalla equazione (2.12) possiamo trovare i punti del raggio otticocorrispondenti ad ogni pixel intero delle immagini riproiettate per laconfigurazione (3.48)P =[ s M −1Lp L0 ]P =[ s O R1 ] [ M −1 Rp R0 ](3.51)Applicando una rotazione inversa a quella applicata in (3.46) ricaviamo ipunti rispetto al sistema di riferimento telecamera:P =[ c R −1L M −1 Lp L0 ]P =[ c R −1RM −1 Rp R0 ](3.51)Dividendo le prime due componenti per la terza si elimina il fattore discala e si determina la corrispondenza tra le nuove coordinate e i rapporti X u =P x c / P zce Y u=P y c / P zcoriginali non distorte.Ènelle vecchie coordinate delle immagininecessario aggiungere il contributo della distorsione radiale etangenziale che abbiamo calcolato durante la calibrazione.Tradizionalmente i coefficienti di distorsione in (2.14) e (2.15) vengono96

posti in un vettore 5×1 e ordinati nel seguente modo:DC=[ K Dr1 K Dr2 K Dt1 K Dt2 K Dr3 ]Come si può notare il terzo elemento della componente radiale è posto perultimo, questo per il fatto che è stato inserito solo in un secondo tempo alfine di rendere più accurata la stima della distorsione per le telecameregrandangolari. Le espressioni (2.14) (2.15) possono essere quindi espressenella forma:X DDY =[1 DC 1DC 2DC 5][1 2 46] X uuY [ DC 3DC 40DC 40 DC 3][Utilizzando la (2.3) si può passare alle coordinate immagineu L,v L, 1 T =M L X DL, Y DL, 1 T2 X uY u2] 2 22 X u 2 2Y uu R,v R, 1 T =M R X DR, Y DR,1 T (3.52)97

Questa relazione sta ad indicare che il valore assunto dall'immaginedestinazione nel punto X , Y a coordinate intere dovrebbe essere lostesso del punto u , v a coordinate reali nell'immagine originale. In realtàtale punto non corrisponde ad alcun punto X ,Y a coordinate interedell'immagine originale perciò si utilizza un processo di interpolazione.Più precisamente dalle coordinate u ,v calcolate nella (3.52) sidetermina il punto X i,Y i le cui coordinate sono il risultatodell'approssimazione di u e v al valore intero minore uguale più vicino.A partire da tali coordinate si valutano i seguenti parametri:dx=u−X idy=v−Y i(3.53)che servono poi per determinare i coefficienti a i dell'interpolazionebilineare:a 1= 1−dx ⋅1−dy a 2=dx⋅1−dy a 3 = 1−dx ⋅dya 4=dx⋅dyIl valore finale del pixel dell'immagine rettificata allora sarà(3.54)I X , Y =a 1I X i,Y ia 2I X i 1,Y ia 3I X i,Y i1a 4I X i1,Y i 1 (3.54)I parametri (3.54) devono essere calcolati per ogni pixel dell'immaginedestinazione, ma per ridurre i tempi di calcolo possono essere determinatisoltanto una volta.Se si è utilizzato il metodo di Hartley non sarebbe necessario utilizzare iparametri intrinseci, ma nel caso in cui siano comunque disponibili iparametri da una calibrazione, per praticità si può riutilizzare la stessaprocedura che sfrutta il calcolo della mappa di rettificazione utilizzata con98

il primo metodo. In tal caso le matrici utilizzate in (3.51) possono esseresostituite nel seguente modo [Bradski-2008]:−1RL M −1 L M −1 L H L M L−1RR M (3.55)−1R M −1 R H R M R99

Capitolo 4Hardware e software impiegati4.1 L'HardwareIl software sviluppato necessita di una parte fisica costituita, oltre che dalcalcolatore senza il quale non potrebbe essere eseguito, anche da unsistema con delle caratteristiche specifiche senza le quali non è in grado disvolgere i compiti per i quali è stato progettato. Questo sistema è costituitoda una coppia di telecamere poste su un supporto in grado di predisporlenella maniera più simile possibile a quella di un sistema visivo binoculare.4.1.1 Sistema di elaborazioneUn ambiente di elaborazione live deve fornire prestazioni elevate in modotale che le scene acquisite presentino meno scarti possibile.Un primo punto fondamentale è costituito dalla potenza del processore edal numero di core in esso contenuti. Un secondo punto è costituito dallamemoria di sistema: entrano in gioco sia la memoria primaria (RAM) chequella della scheda grafica del sistema su cui verranno eseguiti iprogrammi.È stato possibile testare il software con risultati soddisfacenti sui seguenticalcolatori:• AMD Phenom(tm) II Quad-Core 3.30GHz con una100

RAM istallata di 4.00 GB, scheda video ATI Radeon X1950 GTcon 256MB di memoria dedicata.• AMD Athlon(tm) Dual-Core 2.00GHz con una RAMistallata di 4.00 GB• Intel centrino duo (T7200) 2.00 Ghz, RAM 2.00 GB,scheda video Invidia GeForce 7600 con 256 di Ram internadedicataQuesto dimostra come, nonostante i tempi di risposta giochino un ruolocentrale e quindi siano auspicabili elevate prestazioni, sistemi dielaborazione di fascia media forniscano prestazioni sufficienti.4.1.2 Telecamere e loro collocazioneL'applicazione è stata sviluppata sfruttando principalmente due webcamHercules Dualpix Exchange con collegamento al calcolatore medianteUSB. Queste telecamere possiedono un sensore VGA CMOS, fornisconouna risoluzione in modalità video con interpolazione di 1280×960 e unframe rate fino a 30 fps.Poter utilizzare il programma con vari tipi di telecamere è un aspettoconsiderato rilevante; pertanto il software è stato testato anche con unatelecamera integrata Sony Visual Communication VGP-VCC2 con pixeleffettivi 640×480 dotata di un sensore VGA CMOS.La coppia di telecamere deve essere fissata in modo da risultare disposta inmodo analogo al sistema visivo degli animali dotati di visione binoculare.Per far questo si è usato un supporto in legno, intagliato in modo da far101

incastrare il sistema di fissaggio proprio delle webcam Hercules DualpixExchange.Illustrazione 22: Posizionamento delle webcam con supporto in legno per il fissaggio (a destra)e senza ( a sinistra )Questa struttura elementare si è dimostrata spesso non necessaria, ciò sta adimostrare che l'applicazione è facilmente utilizzabile senza un grandesforzo nel progettare un telaio complesso. Può essere sufficienteposizionare con cura le webcam su qualsiasi supporto facendo attenzioneche siano sufficientemente rigide, parallele e non troppo distanti. Unaccidentale (o volontario) spostamento delle telecamere costringe l'utente aricalibrarle, ma il software permette di farlo in pochi minuti.La maggior parte delle webcam non è stata creata per questo genere diapplicazioni in cui la rigidità è una prerogativa centrale. Le Hercules, adesempio, hanno rotazione orizzontale fino a 360 gradi e rotazione verticalefino a 30 gradi che nel contesto per le quali sono state progettate è unimportante pregio.Sistemi di visione stereoscopica progettati per l'elaborazione delle scene102

eali attualmente hanno costi relativamente elevati che difficilmente lostudente o il ricercatore, che voglia acquistare personalmente lastrumentazione, vorrà affrontare. Allo stesso tempo per poter riutilizzare lewebcam anche in altre attività è necessario un sistema che permetta dipassare dalla configurazione stereoscopica ad una all'occorrenza piùflessibile che permetta di sfruttarle anche per attività lavorative, comevideoconferenze, o ludiche. Un sistema semplice come quelli mostratinell'illustrazione 22 permette tutto questo semplicemente sganciando letelecamere dal supporto e rimuovendo gli elastici utilizzati per impedirnela rotazione. L'utente è libero di creare il proprio supporto senza eccessivosforzo.4.2 Software utilizzato4.2.1 Il linguaggio di programmazioneLa prima scelta fondamentale per l'applicazione sviluppata è stata quelladel linguaggio di programmazione. Nell'ambito della computer vision sonostati utilizzati molti linguaggi di programmazione e naturalmente èpossibile dire quale sia il migliore solo in relazione agli scopi del progettoche si vuole sviluppare. Storicamente si è ricorso con maggior frequenza,tra le varie possibilità esistenti, alle librerie di computer vision OpenCV oall'ambiente di sviluppo Matlab. In questo progetto la scelta è ricaduta sulprimo sebbene Matlab abbia degli innegabili vantaggi. Infatti anche se perun programmatore poco esperto Matlab può risultare più intuitivo,103

l'utilizzo di librerie sviluppate in linguaggio C/C++ permette di guadagnarevelocità di esecuzione, fattore che nell'elaborazione delle immagini intempo reale è di fondamentale importanza.Questo aspetto è a volte messo in secondo piano per il fatto che l'ImageProcessing Toolbox di Matlab consente di trattare le immagini comematrici, che sono un tipo di dato universale in questo ambiente, riducendole perdite in velocità di esecuzione. La “lentezza” in realtà è dovutasoprattutto al fatto che uno script Matlab viene prima convertito in unlinguaggio intermedio detto p–code e poi ogni istruzione del p–code vieneeseguita in sequenza dall’interprete, generando un certo overhead.L'incremento di efficienza delle prestazioni si traduce in un aumento anchedi 5 volte in termini di frame elaborati al secondo.4.2.2 OpenCVOpenCV è una libreria open source sotto licenza BSD, originariamentesviluppata da Intel.104

Questa libreria è stata progettata per l'efficienza computazionale,soprattutto in considerazione di applicazioni in tempo reale, con lapossibilità di trarre vantaggio dall'utilizzo di processori multicore; inoltre èmultipiattaforma e può essere utilizzata con vari linguaggi diprogrammazione come il Python oltre che con il C/C++.Le librerie sono inoltre corredate da numerosi esempi nonché di manualiche illustrano dettagliatamente tutte le funzioni a disposizione.L'utilizzo della libreria OpenCV consente, con poco sforzo, di ottenererisultati apprezzabili sia dal punto di vista prestazionale che da quellofornito dagli stessi esempi.4.2.3 L'ambiente di sviluppo e il Sistema OperativoUn buon ambiente di sviluppo è fondamentale nel creare un'applicazionecon un grado accettabile di usabilità e determina inoltre specifiche scelteper quanto riguarda il S.O. su cui si può eseguire il programma.Il progetto in analisi è stato interamente sviluppato mediante l'ambiente disviluppo Microsoft Visual Studio e pertanto il software è eseguibilesoltanto su S.O. Microsoft, ma si è cercato di tenere conto anche dellaportabilità delle funzionalità di base. Queste non dipendono dal sistemaoperativo e perciò senza dover ritoccare il codice potranno essere riscrittein qualsiasi altra piattaforma, adeguando però quelle parti inerentiall'interfaccia grafica proprie di VS.Per quanto riguarda le versioni dei sistemi operativi Microsoft sono statieffettuati test sulle versioni Windows: XP Media Center 2005, Windows105

Vista e Windows 7.L'applicazione ha dimostrato di funzionare su tutte queste con buonirisultati; in particolare la prima delle versioni citate, nonostante sia ormaiconsiderata obsoleta, regge la complessità delle operazioni real time nelsenso che:• Non mostra interruzioni nella fase di visualizzazioneed identificazione durante l'acquisizione delle immagini (sia consingola che con doppia telecamera).• Non perde fotogrammi nella fase di scrittura del datoacquisito sul disco di sistema• Procede senza scarti di fotogramma nella fase disincronizzazione dei processi che recuperano il dato.Durante la fase di elaborazione lo sforzo di CPU e la memoria dinamicautilizzate restano sempre, indipendentemente dalla complessità delleimmagini, al di sotto delle soglie limite previste. Il consumo in MB durantela fase di esecuzione dei processi di acquisizione immagine con 2telecamere in funzione, è di circa 40 MByte mentre le due CPU viste dalsistema operativo, presentano rari picchi comunque al di sotto del 40%.106

Capitolo 5Distribuzione dei Processi5.1 Moltiplicare i processi per gestire più telecamereLe librerie OpenCV utilizzate non consentono di gestire facilmente,attraverso un singolo programma o processo, un sistema costituito da piùtelecamere. Al contrario, la scissione del generico programma diacquisizione in più processi distinti, associati, ognuno, ad una singolatelecamera, risolve semplicemente il problema.Illustrazione 23: Schema della gestione di più telecamere mediante scissione inpiù processi5.1.1 Puntare sul parallelismoAl di fuori della semplificazione del problema, pensando ai moderniprocessori multi-core o ad ambienti multi-processore, la scelta di scindere107

il problema in più sotto-problemi risulta un ottimo approccio per ladistribuzione dei compiti a livello di singolo core o singolo processore.In altre parole questa scelta permette di attribuire l'elaborazione di uncompito specifico ad un singolo processore e di lasciare gli altri adisposizione del sistema o di altri compiti.Considerando, ad esempio, un sistema di acquisizione stereo ed unprocessore quad-core si potrebbe attribuire due core alla gestione delletelecamere (acquisizione, elaborazione di base delle immagini ecc.) e glialtri due core per la gestione del sistema e di un terzo processo chepermetterà all'utente di interagire con i processi in questione passando loroi parametri ed acquisendone dei risultati.5.1.2 Interazione utente/processiIn una situazione di questo tipo l'interazione diretta dell'utente con iprocessi dedicati deve essere ridotta al minimo e, se possibile, addiritturanon esservi. Il tipo di interazione desiderata dovrà essere puramenteindiretta.In altre parole l'utente dovrà disporre di una interfaccia grafica che glipermetta di interagire indirettamente con i processi (eseguendone - adesempio - startup, shutdown, ripristino e l'insieme di tutte le operazioni acui gli stessi sono dedicati).L'introduzione di questo strato di software che si frappone fra l'utente ed ilcore dell'applicazione deve risolvere i problemi di comunicazione fra i vari108

processi che si verranno a creare.Ci sono differenti modi per risolvere questo problema e, in funzionedell'ambiente (Microsoft, Unix ecc) in cui si presenta, le soluzioni sono piùo meno performanti.L'idea di base è quella di fare in modo che il sistema possa mantenere lapropria logica di base nel miglior modo possibile e che possa esserecompilato ed eseguito sulla maggior parte degli ambienti in commercio.5.2 Scelta del metodo di comunicazione tra processiFra i metodi che permettono a due o più processi di comunicare, la sharedmemory presenta una filosofia comune in ambienti Microsoft e Unix.In generale possiamo dire che la shared memory è un'area di memoriaprimaria le cui dimensioni vengono stabilite a priori dal programmatore, ilquale deve fare in modo che non si verifichino conflitti durante la fase dilettura e di scrittura che possano compromettere il funzionamentodell'intero sistema che i processi stanno gestendo. È possibile fare questomediante timer o altre azioni particolari in modo da avere una opportunasincronizzazione.In ambienti Microsoft la shared memory è implementata come “filemapping” per condividere un'area di memoria tra processi o threads. Ilprimo processo crea l'oggetto di file mapping chiamando la funzioneCreateFileMapping con permessi di lettura e scrittura in memoria.Questa funzione associa un nome all'oggetto di file mapping e ritorna un109

handle allo stesso oggetto che viene poi passato alla funzioneMapViewOfFile per mappare una regione selezionata del file in memoria.Questa funzione restituisce un puntatore pBuf al primo byte della regionedel file mappato. Il processo utilizza quindi la funzione CopyMemory perscrivere nella regione puntata da pBuf. Quando il processo non deve piùaccedere alla memoria condivisa è opportuno chiamare la funzioneCloseHandle a cui verrà passato l'handle da chiudere associatoall'oggetto di file mapping.Un secondo processo può accedere alla regione scritta nella memoriacondivisa dal primo processo, chiamando la funzione OpenFileMappingspecificando lo stesso nome per l'oggetto di file mapping. Ora si puòutilizzare la funzione MapViewOfFile passandole l'handle all'oggetto difile mapping per ottenere l'indirizzo iniziale dell'area mappata.Nel codice sviluppato è stata definita ed implementata una opportunaclasse atta alla gestione della shared memory le cui funzioni membropermettono di:• Allocare uno spazio di RAM e di associarlo ad un identificativounivoco che tutti i processi interessati potranno utilizzare perraggiungere i contenuti dell'area in condivisione.• Accedere all'area in modalità di scrittura per imporvi dati• Accedere all'area in modalità di lettura per recuperane i dati• Chiudere l'area al termine del suo utilizzoQueste funzionalità di base potranno essere riscritte in qualsiasi altrapiattaforma senza dover ritoccare il codice che è stato scritto durante110

l'implementazione dei processi dedicati alle funzionalità di basedell'applicazione.Lo scambio dati, avviene, per questi motivi, utilizzando un'area dimemoria condivisa, come riportato nella figura sotto:SWUSB InterfaceProcess 1shmemGUIProcess 2shmemIllustrazione 24: Schema dell'interazione Processo - Shared MemoryOgni differente processo è caratterizzato da una propria struttura datiattraverso la quale può interscambiare dati con la GUI.Si è scelto, per evitare problemi di sincronizzazione, che sia la stessa GUI,al momento opportuno, a generare l'area di interscambio e che solo dopoquesta operazione sia attivato il processo. Essendo la proprietaria dell'area,sarà ancora la GUI a terminare il processo imponendo nella sharedmemory uno stato opportuno, ad attendere alcuni istanti e a distruggeredefinitivamente l'area di memoria in condivisione. Il processo,riconosciuto il segnale di richiesta di terminazione, esce dal proprio loopprincipale e termina la propria esecuzione.111

5.3 Strutture di baseA titolo di esempio si riportano le strutture ed i dati 2 utilizzati dai processidi acquisizione e calibrazione. La struttura di base è stata definitaattraverso i seguenti due tipi di dato strutturato:• ScacchieraType• CalibrazioneTypeQuesti vengono sotto riportati per questioni di praticità:typedef struct _scacchiera{CvSize DimScacchiera;float FormatoQuadrato;} ScacchieraType;typedef struct _calibrazione{int tipo;char baseOutputFile[512];unsigned char sincro;ScacchieraType sc;} CalibrazioneType;ScacchieraType contiene:• DimScacchiera, di tipo CVSize (definito all'interno della libreria OpenCV),costituito da due campi interi che definiscono, in quadrati, le dimensioni dellascacchiera che verrà utilizzata.• FormatoQuadrato, un float che definisce la dimensione del singoloquadretto della scacchiera nell'unità di misura scelta dall'utente.CalibrazioneType contiene, invece, tutti i dati di controllo che verrannopassati dalla GUI al processo di calibrazione. In particolare:• tipo, un intero che definisce il tipo di calibrazione che il processo dovrà2 Presenti nel file commons/commons.h112

applicare, valorizzato a:1 - nel caso l'operatore richieda una acquisizione live delle immagini.2 - nel caso in cui l'operatore richieda di effettuare una calibrazione stereo daimmagini acquisite3 - nel caso in cui l'operatore richieda una calibrazione da video 3• baseOutputFile, una stringa di 512 byte all'interno della quale viene passatoil path completo del file xml di output• sincro, un byte che viene utilizzato nel solo caso di acquisizione live per:- richiedere la chiusura del programma se valorizzato a FF- richiedere lo scatto di una fotografia se valorizzato a 01- porre in stato di attesa la GUI se valorizzato a 00• sc, dato di tipo ScacchieraType, attraverso il quale vengono passate lecaratteristiche che l'operatore impone a livello di interfaccia grafica.5.4 Acquisizione delle immaginiSi introdurranno ora gli aspetti implementativi riguardanti l'acquisizionedelle immagini, dando spazio alla logica dietro la comunicazione tra iprocessi e all'algoritmo impiegato. In questa sezione saranno soltantoaccennate le operazioni che l'utente dovrà effettuare per eseguire unacalibrazione, le quali saranno approfondite nei capitoli successivi.Per questo genere di operazioni le librerie OpenCV mettono a disposizionela classe VideoCapture. L'associazione di un oggetto di questo tipo adun dispositivo per l'acquisizione video permette di effettuare su di esso ungran numero di operazioni come aprirlo e prelevarne i fotogrammi.3 La funzionalità “calibrazione da video” non è ancora operativa allo stato attuale, ma è statapredisposta per eventuali sviluppi futuri113

La Graphical User Interface consente all'utente di attivare (o disattivare)l'apertura di una o entrambe le telecamere (si veda a tal proposito ilparagrafo 7.1.3) in modo da poter decidere, quanti processi sarannoeseguiti in parallelo, purché le telecamere siano effettivamente collegate alcalcolatore. Una volta imposta tale scelta, una maniera per avviare unprocesso di acquisizione è quello di accedere al dialogo predisposto allarealizzazione di una nuova calibrazione. L'operatore, nel primo pannellodedicato all'acquisizione live delle immagini, con caratteristiche simili aquelle riportate nell'illustrazione 25, impone l'esecuzione dei processi.Illustrazione 25: Pannello per l'acquisizione delle immagini114

5.4.1 Algoritmo relativo al tasto “Avvia”Illustrazione 26: Inserimento dei dati e attivazione dello scatto automaticoAlla pressione del tasto Avvia il codice associato al dialogo:1) Recupera i parametri inseriti.2) Verifica la validità dei dati.3) Recupera il path completo del file xml in cui memorizzare i risultati everifica la possibilità di aprire il file in questione.4) Recupera il path della directory in cui scaricare le immagini5) A seguito di tali verifiche, impone, i suddetti parametri, in una variabile115

locale del programma GUI, di tipo CalibrazioneType.6) Disabilita il pulsante Avvia così da non essere cliccato un'altra volta7) Impone, al parametro sincro di tale area, il valore esadecimale 00 , adindicare che non vi è alcuna richiesta di interruzione o di scatto da partedell'operatore.8) Genera tante aree di shared memory di dimensione 256 byte quante sono letelecamere attivabili. Il numero di telecamere e quali (destra o sinistra)dipende dalle impostazioni del programma stesso.9) Verifica che le aree siano state correttamente allocate e, per ognuna di esse,impone il dato presente nella variabile di tipo CalibrazioneType (la cuidimensione complessiva è minore dei 256 byte predisposti)10) Attiva i processi di acquisizione per tutte le telecamere definite nel propriofile di configurazione.11) I processi associati hanno il tempo per predisporre e riconoscere la propriatelecamera, acquisendo il dato di input dalla periferica USB a cui la stessarisulta collegata, e ad attivarla raggiungendo lo stato di acquisizione, vale adire un ciclo while infinito terminabile soltanto da comando provenientedalla GUI, nel quale si limitano a visualizzare le immagini che stannoscorrendo davanti all'obiettivo. In questo stato permangono fino a quandol'operatore non esegue una scelta a livello di interfaccia grafica.12) Ultima operazione in questa parte di codice è l'attivazione di un timer (concodice identificativo 12345) che impone, nella coda dei segnali associati allaGUI, un evento ad ogni secondo.13) Il codice della funzione OnTimer() della GUI, tratta questo eventoaccedendo alla shared memory condivisa con i/il processo di acquisizioneattivi/o e sulla base dello stato riportato in sincro. Se sincro vale 00 intutte le aree interessate dal processo, allora nessun processo di acquisizionerisulta impegnato ed è quindi possibile “scattare una foto”; quindi la GUI116

abilita il tasto “Scatta”. In caso contrario si ha, in qualche area utilizzata,almeno un valore di sincro diverso da 00, quindi esiste almeno unprocesso che sta impegnando la CPU; di conseguenza la GUI inibisce iltasto Scatta.In altre parole, ad ogni secondo, la GUI verifica lo stato disincronizzazione di tutte le telecamere attivate solo per abilitare odisattivare la possibilità di premere il tasto di scatto.Al primo passaggio, ovvero subito dopo l'attivazione dei processi diacquisizione, la GUI troverà tutti i byte di sincronizzazione a 00 (avendoliimpostati lei stessa come descritto nel precedente punto 7) e renderàimmediatamente disponibile i tasti “Scatta” e “Termina”.5.4.2 Algoritmo associato al tasto “Scatta”Alla pressione, da parte dell'operatore, del pulsante di scatto:a) La GUI accede alla shared memory di ogni processo di calibrazione attivo edimpone il valore esadecimale 01.b) disabilita, immediatamente, la possibilità di premere una seconda volta il tastoScatta e riprende il suo ciclo di polling.c) A questo punto i compiti sono demandati ai processi di acquisizione (descritti inseguito) che, trovando il byte a 01 verificano lo stato di ritorno della funzione dirilevazione angoli. Al termine di tale ciclo il byte di sincronizzazione ritornerà a00.117

5.4.3 Algoritmo relativo al pulsante “Termina”Alla pressione di questo tasto:1. La GUI esegue la chiusura del timer, allocato a seguito della pressione deltasto Avvia, attraverso la funzione KillTimer(12345) ed impone ilvalore FF a tutti i sincro dell'area condivisa.2. Ogni processo di acquisizione, ricevendo questo “segnale”, termineràqualsiasi interazione con la shared memory ed uscirà dal proprio cicloinfinito. Attenderà, quindi, alcuni secondi, prima di terminare la propriaesecuzione.3. La GUI, trascorsi alcuni millesimi di secondo, chiuderà, definitivamente, learee di memoria allocate per la pressione del tasto Avvia.118

Capitolo 6Sincronizzazione dei processiI due processi di acquisizione e la GUI interagiscono fra di loro secondoun ordine ben preciso che evita conflitti durante la fase di elaborazione.Si consideri “buona” una immagine risultante da una acquisizione chepermetta di riconoscere i punti di intersezione della griglia utilizzata e“non buona” una immagine che non consente la rilevazione di tali punti,questo senza tener conto delle condizioni ambientali, in cui avvienel'acquisizione, che influenzano tale rilevazione.Una immagine, in considerazione dello scopo del suo salvataggio, vale adire il suo utilizzo per una calibrazione stereo, non deve essere consideratacome una entità indipendente, ma come una metà delle due immagini checostituiscono una visione binoculare.Una coppia di immagini è utilizzabile solo se entrambe sono “buone” e intal caso vanno registrate in una directory prescelta e passate in una fasesuccessiva al processo di calibrazione stereo.Al contrario nel caso in cui entrambe le telecamere acquisiscano risultati“non buoni” entrambe le immagini sono da scartare.Quando soltanto una sola delle due immagini acquisite risulta accettabile,come nell'illustrazione 27, si deve considerare il problema dellasincronizzazione.119

Illustrazione 27: Coppia di immagini in cui soltanto quella di destra permette la rilevazione degliangoliL'eliminazione di una soltanto delle immagini porta ad una cattivasincronizzazione che produce un disallineamento negli indici delleimmagini acquisite. In questo modo la corrispondenza fra immagine destraed immagine sinistra verrebbe perduta e non potrebbe essere utilizzata daautomatismi che siano in grado di riconoscerla a meno di interventimanuali sui filename prodotti dai processi. Un altro aspetto riguarda lacorretta sincronizzazione fra la macchina ed il suo utilizzatore per impedirel'introduzione di possibili problemi a livello di coerenza di dati acquisiti.Questo porta ad una semplice considerazione: uno scatto non può essereeffettuato fino a quando non si è completato, da parte delle due telecamere,l'elaborazione associata allo scatto precedente. Per semplificare ilproblema si è ipotizzato che, indipendentemente dal fatto che una delle duetelecamere abbia acquisito una immagine buona, se l'altra non ha raggiuntolo stesso obiettivo, la coppia di immagini deve essere scartata. In tal caso120

cioè nessuna delle due immagini dovrà essere salvata sul disco del PC inutilizzo. Questo vincolo permette, fra l'altro, di attribuire sequenzenumeriche complete nelle quali non si formano salti come nella tabellaseguente:Imma_sx_001 Imma_sx_002 Imma_sx_005 ...Imma_dx_002 Imma_dx_003 Imma_dx_005 ...Tabella 2: Sequenze di filename con salti indesideratima si hanno sequenze:Imma_sx_Imma_dx_nelle quali gli indici sono associati ad acquisizioni avvenute nellostesso istante.6.1 Funzionamento del processo di acquisizioneIl generico processo di acquisizione associato ad una delle due telecamerefunziona secondo il seguente schema:1. Start e recupero dei parametri fondamentali per il funzionamento dall'area dimemoria che condivide con il programma GUI2. Ingresso in un loop infinito nel quale recupera, dalla struttura passata nellashared memory dalla GUI, un byte (valori compresi fra 00 e FF) utilizzato per lasincronizzazione dei processi,3. In base al valore recuperato:• FF : Termina la propria esecuzione121

• 00 : Procede nella propria esecuzione recuperando una immagine evisualizzandola• 01 : Verifica che il recupero dei corner nell'immagine correntementeacquisita sia andato a buon fineNei primi due casi non ci sono operazioni da compiere mentre nel terzo ilprogramma deve verificare lo stato di ritorno del processo di rilevazioneangoli:• se negativo: l'immagine non deve essere salvata• se positivo: l'immagine deve essere salvata se anche il processoassociato all'altra telecamera, ha dato lo stesso esito6.2 Funzionamento della GUILa GUI impone, sotto richiesta dell'utente o tramite timer, lo scatto di unaimmagine nelle aree di memoria che vengono condivise con i processiassociati alle due telecamere e si pone in attesa dei risultati di questi ultimi.Se il valore assunto dal byte di sincronizzazione, interno alle aree dimemoria condivise con i processi dedicati, comunica che i risultati sonoentrambi positivi, la GUI informa l'utente di una acquisizione di coppiacorretta. Al contrario, se almeno uno dei due valori è negativo, informal'utente dell'errore e su quale delle due telecamere. Al termine di questaverifica, la GUI riporta il valore del byte di sincronizzazione a 00attendendo lo scoccare del prossimo timer o della prossima richiesta discatto da parte dell'utente.122

6.3 Diagramma di funzionamento6.3.1 Processo di acquisizioneProcesso di acquisizione0M=FFM=01x=99CORNERS50 51NOT FOUNDA=0BCORNERSFOUND52 53 54A=0AIllustrazione 28: Diagramma di funzionamento dei processi di acquisizioneLa figura precedente esplicita il diagramma a stati del processo diacquisizione e mostra il valore dei vari stati all'interno di figuregeometriche aventi il seguente significato:• Cerchio: transizione gestita direttamente dal programma. Latransizione verso il prossimo stato, è regolata da un evento che lostato corrente può determinare autonomamente 4 .• Quadrato: transizione verso uno stato successivo regolata anche da4 E' il caso dello stato 50: il passaggio agli stati 51 o 52 è vincolato dal risultato assunto da unafunzione invocata internamente al processo.123

eventi esterni, ad esempio recuperati dalle aree di shared memoryche il processo condivide con altri processi 5 .Le tipologie di transizione fra stati sono indicate con delle frecce daiseguenti tratti:➢ Transizione di colore nero: indica un percorso che viene eseguitonel caso in cui siano in funzione entrambe le telecamere➢ Transizione di colore rosso: indica un percorso che il processointraprende sia nel caso sia in funzione una sola telecamera che nelcaso in cui siano in funzione entrambe➢ Transizione di colore rosso tratteggiata: indica che il processointraprende quella strada nel solo caso in cui sia in funzione una solatelecamera6.3.1.1 Stato 01. In questo stato il processo attende richieste provenienti dalla GUIcontrollando il valore del byte di sincronizzazione.2. Se arriva un segnale di acquisizione da parte della GUI passa allostato 50.3. Se non arriva alcun segnale (sincro==00) si limita ad acquisire5 Ad esempio, considerando lo stato 0, il processo permane in questo stato fino a quando dallamemoria condivisa con la GUI non viene un valore differente da FF o da 01. La lettera M (mio)indica che l'informazione è letta dall'area di memoria che la GUI utilizza per comunicare con ilprocesso medesimo.124

una nuova immagine e a visualizzarla nella propria interfaccia dioutput (questa interazione non è esplicitata in figura).4. Se arriva una richiesta di chiusura da parte della GUI(sincro==FF) termina la propria esecuzione (x)6.3.1.2 Stato 50In questo stato, raggiungibile sia che il processo venga eseguito per una oper due telecamere, viene effettuato un controllo al valore booleano diritorno della funzione cvFindChessboardCorners(). In relazione alvalore restituito si ha:• FALSE: il processo passa allo stato 51.• TRUE: il processo, salva temporaneamente l'immagine su disco epassa allo stato 52.6.3.1.3 Stato 51A questo stato si giunge per esecuzioni sia con coppie di telecamere checon singola telecamera. Si tratta di uno stato di passaggio, a cui si arrivanel caso di fallimento nella rilevazione degli angoli, all'interno del quale ilprocesso impone, nell'area di memoria che condivide con la GUI, il valore0A a sincro per segnalare che non sono stati trovati angolinell'elaborazione precedente.125

6.3.1.4 Stato 52In questo stato, a cui si giunge se ha dato esito positivo la rilevazione diangoli, il processo d'acquisizione impone a sincro un valore pari a 0B.L'immagine, temporaneamente salvata nello stato 50, ha due alternative:• nel caso di esecuzione singola viene direttamente confermata• nel caso di esecuzione doppia può essere definitivamenteconvalidata se anche l'altro processo abbia raggiunto lo stessorisultatoNel primo caso non sono necessarie altre operazioni ed il controllo puòtornare alla GUI. Il processo continua la propria esecuzione acquisendo evisualizzando nuove immagini nell'intervallo prefissato.Nel secondo caso deve avvenire la verifica dei risultati otteniti dall'altroprocesso e vanno intraprese le conseguenti azioni, per fare ciò si passa allostato 53.6.3.1.5 Stato 53A questo stato si giunge solo per esecuzioni con coppia di telecamere.Qui il processo controlla sia il byte di sincronizzazione nell'area dimemoria che condivide con la GUI sia il valore dello stesso byte delprocesso gemello.126

Se non giungono segnali di interruzione da parte della GUI si hanno questealternative:• Se il processo gemello segnala una acquisizione positiva(sincro==0B) il processo corrente si sblocca e ritorna allo stato dipartenza.• Al contrario, se il processo gemello da un segnale negativo(sincro==0A) passa allo stato 54, dove eseguirà la pulizia dellearee temporaneamente impegnate.6.3.1.6 Stato 54A questo stato si giunge solo per esecuzioni con coppia di telecamere esolo nel caso in cui l'esito della cvFindChessboardCorners() sia:a) Positivo per la telecamera correnteb) Negativo per l'altra.Rappresenta, quindi, solo uno stato di transizione all'interno del quale:1. Viene cancellata l'immagine temporaneamente salvata.2. Il contatore di immagini salvate viene resettato al valore precedente.3. Viene dichiarato il fallimento anche per questa acquisizione. Questopunto permette alla GUI di determinare che l'acquisizione correntenon è andata a buon fine per entrambe le telecamere.4. Si torna allo stato 0.127

6.3.2 GUIIllustrazione 29: Diagramma di funzionamento della GUIAlla GUI sono affidate tutte le operazioni di interazione diretta conl'utente. Dall'illustrazione 26 si può vedere che l'interfaccia relativa ad unanuova acquisizione è divisa in schede attraverso un TabControl. La GUI èin grado di distinguere in quale scheda è avvenuta la pressione di undeterminato tasto. In funzione delle scelte dell'operatore, la GUI si limitaad ordinare, se l'utente si trova nel primo di questi pannelli, l'acquisizionedi una coppia di immagini dalle due telecamere e ad analizzarne i risultatifinali proponendo un messaggio di esito sull'acquisizione corrente allostesso operatore. Essa ha due modalità di funzionamento: quellaautomatica e quella manuale. Nel primo caso gli scatti sono gestiti da unevento timer, nel secondo da una scelta dello stesso utente. Anche se glistati proposti nello schema precedente sono molto simili nelle operazioni128

compiute è conveniente distinguerli in base al funzionamento: questo evital'utilizzo di troppi statement if che compromettono la facile lettura delcodice e danno adito a cattive interpretazioni. La prima operazioneassociata alla pressione del pulsante Avvia è il recupero dei parametriinseriti che impone alla GUI il passaggio per lo stato 0 prossimo descritto.6.3.2.1 Stato 0In questo stato la GUI determina, in relazione a quali parametri l'utente hainserito, se la modalità di esecuzione debba essere manuale o automatica.Sulla base di questo impone uno tra i seguenti stati:• Stato 10: modalità di esecuzione manuale.• Stato 20: modalità di esecuzione automatica.A questo punto la GUI, come descritto nel paragrafo 5.4, sulla base delfatto che siano collegate una o due telecamere, genera le aree di memorianecessarie per il corretto funzionamento del programma e attiva il/iprocessi di acquisizione. Attiva, quindi il timer per il controllo dei processie delle richieste utente6.3.2.2 Stato 10In questo stato il programma verifica che vi sia un comando utenteattraverso la pressione dei tasti Scatta o Termina e, in base al fatto che visia una o più telecamere, interroga ciclicamente (polling) il contenuto delle129

shared memory alla ricerca di stati di processo comunicati dai programmidi acquisizione. Permane nello stato 10 fino a quando non rileva larichiesta da parte dell'utente di terminare i processi di acquisizionemediante la pressione del tasto Termina oppure siano rilevati:• i valori 0A o 0B nel caso di una singola telecamera,• la coppia di valori (0A, 0A) o (0B,0B) nel caso di doppie telecamere.I valori riportati comunicano se si ha avuto un insuccesso o menodell'operazione richiesta. Si hanno i seguenti casi:• fallimento: passa allo stato 11,• successo: passa allo stato 12.6.3.2.3 Stato 11Visualizza un messaggio sull'interfaccia grafica nel quale esplicita l'erroresulla tentata acquisizione e riattiva il tasto scatta6.3.2.4 Stato 12Visualizza un messaggio sull'interfaccia grafica nel quale esplicita lariuscita dell'operazione e riattiva il tasto scatta.130

Capitolo 7Interfaccia grafica e tutorialQuesto capitolo descriverà i dialoghi che costituisco la Graphical UserInterface e allo stesso tempo mostrerà tutte le funzionalità del programmaallo scopo di guidare passo passo anche l'utente più inesperto.Illustrazione 30: Interfaccia grafica all'avvio del programma7.1 Approccio iniziale7.1.1 Esecuzione del programmaIl programma oggetto della presente tesi ha effetto soltanto su S.O.Microsoft. Per la sua esecuzione sono necessarie le Dynamic-link library:• opencv_calib3d220.dll• opencv_core220.dll• opencv_highgui220.dll• opencv_imgproc220.dll131

Nonché i file eseguibili:• AcqImg.exe• calibrazione.exe• GUI.exeIl lancio del programma, che deve avvenire mediante l'ultimo eseguibile,provoca la visualizzazione della finestra principale dotata di barra deglistrumenti e del menù mostrata nell'illustrazione 30.È da tenere presente durante la lettura dei documenti visualizzati dalla GUIche il tratto rosso con cui sono presentati alcuni valori o comunicazioni haun significato negativo. In altre parole quel dato potrebbe indicarel'impossibilita di attivare una determinata operazione oppure cheverosimilmente quel valore si discosta dalla grandezza attesa.7.1.2 IDD_ABOUTBOXIllustrazione 31: Dialogo per la visualizzazione di informazioniIl dialogo che visualizza le informazioni relative all'autore del programma132

non permette interazioni dirette fra utente e sistema se non la sua chiusura(attraverso la pressione del tasto OK). La classe di controllo CaboutDlg èdefinita ed implementata direttamente nel file GUI.cpp7.1.3 Impostazione dei processi di acquisizioneÈ possibile notare la tabella “Modalità di esecuzione impostate” che, incorrispondenza della telecamera riportata nella prima colonna, indica nellaseconda colonna:• Non Attivabile se non è possibile aprire la corrispondentetelecamera• Attivabile in caso contrarioE nella terza colonna:• Visualizzazione OFF se è disattivata la cattura dei fotogrammi• Visualizzazione ON in caso contrarioÈ possibile modificare tali parametri selezionando “Impostazioni” ➪“ProcessiAcquisizione” in modo da aprire il dialogo “Controllo deiprocessi di acquisizione” visibile nell'illustrazione 32.Questo dialogo ha come identificatore IDD_IMPOSTAZIONE_PROCESSI ela sua classe di controllo (CimpostazioneProcessi) è implementata nelfile ImpostazioneProcessi.cpp e definita in ImpostazioneProcessi.h. Esso,attraverso i check box, controlla il numero di processi associati a qualsiasifase di acquisizione imponendo nella shared memory utilizzata i comandidi controllo del processo e, se non ancora attivi, permette di impostarli perla prossima esecuzione provocando l'aggiornamento della tabella133

nell'interfaccia iniziale. Il tasto “Reimposta On Line”, se la telecamerarelativa è stata attivata in precedenza, forza temporaneamente i nuovivalori nella shared memory ad essa associata.Illustrazione 32: Dialogo per l'impostazione dei processi di acquisizione7.1.4 Avviare i processi di acquisizioneLa pressione della prima icona della toolbar o, in modo equivalente, laselezione di “Controllo”➪ “Avviare processi acquisizione” permettel'esecuzione dei processi di cattura di flussi video precedentementeimpostati. Ogni abilitazione dell'apertura di una telecamera provocal'esecuzione del processo associato, la visualizzazione di una finestra per lacomunicazione delle operazioni eseguite e un dialogo, fornito dalla classe134

VideoCapture e rappresentato nell'illustrazione 33, che permette laselezione del dispositivo desiderato. Se non si riscontra l'avvio di alcunprocesso video, nonostante si sia verificato che le telecamere siano statecompletamente attivate, significa che l'applicazione non riesce a rilevarenessun dispositivo; questo può avvenire per incompatibilità o perchéeffettivamente nessuna telecamera è collegata correttamente al PC.Questa prima modalità di esecuzione dei processi di acquisizione ha loscopo di testare la capacità dell'hardware e del software di supportarequesto tipo di applicazione. Nel caso in cui la visualizzazione delleimmagini vada a buon fine, senza rallentamenti da parte del sistema nelsuo complesso, si ha una indicazione positiva sull'efficaciadell'applicazione in quel particolare contesto.Illustrazione 33: Scelta del dispositivo da cui acquisire ilvideo135

Un altro utilizzo può essere quello di ausilio alla sistemazione delletelecamere. Il progetto presuppone l'utilizzo di un sistema di visionestereoscopico, perciò le due telecamere devono essere parallele. Se lostudente o il ricercatore non è in possesso di una telecamera giàpredisposta per la stereoscopia, le sue telecamere non saranno rigide fraloro e saranno facilmente rotabili, così inquadrando un oggetto conentrambe le telecamere si potrà aumentare il parallelismo tra gli assi otticicercando di far sì che l'oggetto si trovi sulle stesse scanline in entrambe leinquadrature. Allo stesso modo il flusso video permette di sistemare lamessa a fuoco manuale.Illustrazione 34: Immagine originale e sua trasformata di CannyQuando una telecamera è selezionata e confermata si avvia un flusso videoper quello specifico dispositivo in una finestra di nome “Camera Sinistra”o “Camera Destra” e associata ad ognuna di queste immagini se ne apreun'altra finestra che visualizza la relativa trasformata di Canny 6 . In questo6 Eseguita con una specifica funzione OpenCV da un esempio inhttp://opencv.willowgarage.com/documentation/cpp/reading_and_writing_images_and_video.html136

contesto la trasformata di Canny non ha un impatto diretto sui risultatidell'applicazione, sebbene questo tipo di trasformazione abbia importantiapplicazioni nell'Image Processing, ma ha il duplice scopo di sollecitarel'utilizzo di memoria volatile (per mettere alla prova l'hardware e lagestione della RAM da parte del sistema operativo) e mostrare come siapossibile riutilizzare il programma per sviluppi futuri che prevedanoquesto genere di elaborazioni.7.2 Avviare le operazioni inerenti una calibrazioneUna volta sistemate le telecamere è possibile procedere con la calibrazionecliccando sull'icona a scacchiera o, in modo equivalente, su “Controllo” ➪“Calibrazione”.Illustrazione 35: Finestra di dialogo con radio-buttonLa classe Calibrazione, definita nel file Calibrazione.h ed implementata nelfile Calibrazione.cpp, controlla il dialogo IDD_CALIBRAZIONE il qualepresenta tre radio-button (illustrazione 35) di cui i primi due permettono lascelta dei parametri di calibrazione, caricando insiemi di datiprecedentemente definiti, che verranno applicati durante le fasi successive,137

mentre la terza opzione consente di acquisirne di nuovi.Se è la prima volta che si esegue una calibrazione è necessario selezionarel'ultimo radio-button il quale, una volta premuto il tasto di conferma, avviail dialogo IDD_NUOVA_CALIBRAZIONE nell'illustrazione 3.7.3 Implementazione del tab controlLa struttura di base del controllo a schede, implementata mediante lalibreria Microsoft Foundation Classes, è presentata nell'illustrazione 36.All'apertura del dialogo vengono inizializzati i campi (Tab 1, Tab 2, ...),mentre alla pressione del singolo elemento la tab si ridimensionaopportunamente e consente la visualizzazione al suo interno di un sottodialogo.Illustrazione 36: Struttura del Tab control inserito inIDD_NUOVA_CALIBRAZIONEI sotto-dialoghi permettono di scegliere tra le seguenti operazioni:138

1. IDD_CALIBRAZIONE_LIVE: Acquisizione e salvataggio delleimmagini per la calibrazione2. IDD_CALIBRAZIONE_LISTA_IMMAGINI: Calibrazione dalleimmagini salvate3. IDD_CALIBRAZIONE_VIDEOAd ogni sotto-dialogo è associata una classe inglobata all'interno dellaclasse CmyTabCtrl, implementata e definita in CmyTabCtrl.cpp eCmyTabCtrl.h, che deriva dalla CTabCtrl di MFC ereditandone tutti imetodi e sovrascrivendo quelli per il controllo dei Tab in modo tale chevengano visualizzati i sotto-dialoghi alla pressione del tab corrispondente.7.4 Primo sotto-dialogo e raccolta delle immaginiIllustrazione 37: Sotto-dialogo IDD_CALIBRAZIONE_LIVELa classe di controllo SubDlgCalibrazioneLive, relativa al primo sottodialogo,implementata e definita, rispettivamente, nei fileSubDlgCalibrazoneLive.cpp e SubDlgCalibrazioneLive.h, è presentata139

nell'illustrazione 37 e permette l'inserimento dei parametri di base in modoche la calibrazione possa essere correttamente eseguita.7.4.1 Inserimento dei datiNei primi due spazi di IDD_CALIBRAZIONE_LIVE, partendo dall'alto,vanno inseriti gli angoli interni (in orizzontale e in verticale) presenti nellascacchiera; ad esempio per la scacchiera dell'illustrazione 27 va inserito 6 e8 in qualsiasi ordine. Tali valori ovviamente devono essere maggiori di 2altrimenti nella relativa direzione si hanno meno di 2 quadrati.È consigliabile imporre il numero massimo di angoli rilevabili in ognidirezione in quanto valori inferiori, nella maggior parte dei casi, neimpediscono l'estrazione o, ancor peggio, possono portare alla rilevazionedi corner differenti nelle due immagini, come può essere notato osservandogli angoli illuminati nella prossima figura.Illustrazione 38: Rilevazione errata dovuta ad un inserimento non corretto dei parametriA fianco di “dimensione della casella” va inserita la lunghezza di un lato diuna casa degli scacchi in qualsiasi unità di misura, tuttavia l'immissione di140

dati in centimetri porta a risultati finali di più facile lettura. In questo casoil controllo sul dato impone valori maggiori di zero.In “Rapporto di aspetto” si deve inserire il rapporto tra lunghezza e altezzadell'immagine che assume valori compresi tra 1 e 2; se ad esempio sihanno immagini 640x480 il valore dovrà essere 1.33, vale a dire che sihanno immagini in 4/3.Come si può costatare dalle illustrazioni 25 e 26, nella parte inferiore deldialogo principale sono presenti altri campi di input:a) Path file delle acquisizionib) Path file mycc) Nome base delle immaginiLe prime due aree accolgono il percorso, rispettivamente, delle directory incui andranno salvate le immagini e quello del file myc 7contenente irisultati finali della calibrazione.Questi due campi possono essere inseriti in due modi differenti:• manualmente, nel qual caso è preferibile verificare la correttezza deldato.• attraverso la pressione del tasto contrassegnato da “*” che apre unafinestra di dialogo per la selezione della directory.Dalle finestra per la selezione della directory è possibile navigare sudifferenti dischi presenti sul PC in utilizzo o navigare all'interno di unsingolo disco. La directory per la raccolta di immagini, per default,all'apertura del dialogo viene presentata come quella di esecuzione della7 Il nome dell'estensione myc è stato scelto in quanto abbreviazione di “my calibration”141

GUI ed il relativo disco in cui la stessa è stata definita. Il file myc alcontrario viene impostato nella cartella documenti e il suo nome di defaultderiva da data e orario in cui è stato premuto il tasto “*”. Per cambiaredirectory è necessario imporre il disco, selezionare la directory e allapressione del tasto imposta, preferibilmente dopo aver verificato il campo“Directory correntemente selezionata”, il nome della directory presceltaverrà sovrascritto nel campo associato al tasto premuto.Per l'area inerente a “Nome Base Immagine” va inserita la radice dei nomidei file, con estensione jpg, da salvare.Questi parametri sono sufficienti per effettuare una raccolta di immagininella modalità con scatto manuale (illustrazione 25), mentre i prossimi duesono necessari se si vuole effettuare una calibrazione con scatto automatico(illustrazione 26).Lo spazio relativo a “Numero fotogrammi” permette di stabilire il numerodi scatti da effettuare, mentre “Ritardo in secondi” imposta il tempo cheintercorre tra uno scatto e il successivo.7.4.2 Scatto manuale o automaticoLo scatto manuale conferisce una maggiore consapevolezza a priori delleimmagini che saranno salvate e successivamente utilizzate per lacalibrazione. È possibile infatti posizionare la scacchiera nel modo ritenutopiù opportuno e cliccare sul pulsante scatta. In questo caso però l'utentesarà costretto a cliccare sul pulsante “Scatta” per ogni immagine da142

catturare e, allo stesso tempo, muovere in maniera idonea la scacchiera.Nel caso di scatto automatico, dovrà preoccuparsi solo del posizionamentodella scacchiera perdendo però il controllo del momento esatto delloscatto. L'indubbia comodità di questa modalità si riflette quindi in unaserie di immagini collocate in posizioni non predeterminate e, in talunicasi, se l'operatore non è sufficientemente tempestivo nel sistemare lascacchiera in zone di inquadratura comune tra le due telecamere, si rischiadi diminuire il numero di fotogrammi preventivati in fase di inserimentodati. Se tali problemi dovessero risultare considerevoli, un modo perridurre questi rischi è quello di aumentare il “ritardo in secondi”effettuando una dilazione tra gli scatti e avere così più tempo per collocareopportunamente il pattern di calibrazione.Una volta catturate le immagini queste vengono salvate nella directoryscelta al cui interno, al termine, saranno presenti tre sequenze di immaginii cui filename, supponendo che il nome di base sia “Im”, sono mostratinella seguente tabella:ImDestra0001.jpg ImDestra0002.jpg ImDestra0003.jpg ...ImDestra0001_ImDestra0002_ImDestra0003_...CORNERS.jpgCORNERS.jpgCORNERS.jpgImSinistra0001.jpg ImSinistra0002.jpg ImSinistra0003.jpg ...ImSinistra0001_ImSinistra0002_ImSinistra0003_...CORNERS.jpgCORNERS.jpgCORNERS.jpgTabella 3: Esempio di sequenza di filename salvata su discoLe immagini che presentano il suffisso “CORNERS” evidenziano i puntisalienti della scacchiera.143

Nella modalità automatica il programma si arresterà al termine del numerodi fotogrammi inseriti, mentre nel caso manuale sarà necessario premere“Termina”. A questo punto è possibile passare alla seconda sessione per lacalibrazione vera e propria selezionando la seconda scheda del TABcontrol.7.4.3 Benefici apportati all'applicazione dal sistema dimemorizzazione dei fotogrammiNon tutte le altre applicazioni per la calibrazione di telecamere prevedonol'acquisizione e il salvataggio delle immagini. Alcune di queste, sfruttandotemporaneamente le immagini acquisite in tempo reale (senza il lorosalvataggio) eseguono calibrazioni che forniscono dati non ripetibiliessendo impossibile acquisire immagini identiche nelle esecuzionisuccessive. Altri software prevedono l'utilizzo di immagini salvate su discosenza prevedere al loro interno un modo per la memorizzazioneobbligando l'utente a ricorrere ad applicazioni esterne per la cattura disequenze video da telecamere. Le applicazioni che supportano ilsalvataggio delle immagini, solitamente, non prevedono una preselezionedi queste in base alla capacità dei fotogrammi di permettere la rilevazionedei corner. Fotogrammi che presentano un contrasto esageratamenteaccentuato, o catturati in ambienti dalla illuminazione scarsa oppure in cuisono presenti altri difetti (elevata sfocatura, rumore, etc.) checompromettono la corner detection, in genere vengono persi in fase di144

calibrazione riducendo il numero delle immagini utilizzabili.In altre parole il presente progetto sfrutta la funzionecvFindChessboardCorners()per salvare su disco soltantofotogrammi in cui gli angoli della scacchiera vengono effettivamenterilevati spostando a monte dell'algoritmo di calibrazione lo scarto delleimmagini non buone.Un ulteriore vantaggio è quello di poter revisionare ogni immagine seguitadal suffisso “CORNERS” allo scopo di determinare quali immagini dianorisultati poco accurati. In fase di test si è riscontrato che alcune sequenze diimmagini che davano luogo a errori elevati, a valle di una discriminazionein base all'accuratezza degli angoli evidenziati, portavano a risultatiaccettabili.7.5 Secondo sotto-dialogoIl sotto-dialogo IDD_CALIBRAZIONE_LISTA_IMMAGINI, incluso allapressione del tab “2-Calibrazione da Immagini” all'interno del dialogoIDD_NUOVA_CALIBRAZIONE, può essere concettualmente suddiviso in treparti.Nella parte superiore compaiono filename e path da cui sono prelevate leimmagini; nella parte centrale è presente un “list view control" chevisualizza un elenco di elementi con icone, mentre nella parte inferiorefigurano due check box.La classe di riferimento SubDlgCalibrazioneListaImmagini, subitoprima di visualizzare la dialog box, carica due icone consistenti in due145

piccoli cerchi di colore verde e rosso e produce i campi della lista dielementi che si possono osservare nell'illustrazione 39.Illustrazione 39: Seconda scheda del tab control7.5.1 Visualizzazione della lista di coppie di filenameSe l'operatore accede al secondo pannello subito dopo aver acquisito leimmagini ha già inserito i dati necessari, al contrario deve inserire iparametri nel caso in cui voglia effettuare una calibrazione da immaginisalvate non recentemente.Alla pressione del tasto “Avvia” viene abilitato il pulsante “Calibrazione”,146

sono poi visualizzati nomi e percorsi dei file nella parte superiore prima dichiamare la funzione ResetContentDialog(). Questa funzione eliminai vecchi elementi della lista e cerca i file nella directory di base specificatache rispettano i criteri imposti, riempie i campi predisposti e fornisce trepossibili risultati:1. Le coppie corrispondono perfettamente, quindi viene restituito ilnumero di coppie individuate.2. Le immagini di sinistra e quelle di destra sono differenti3. Non sono presenti immagini nella directory specificata cherispettano i criteri immessi.Nei primi due casi apparirà una lista in cui figurano i nomi delle immaginidisposte in coppie. Ogni coppia corrisponde ad immagini catturatecontemporaneamente a cui è associato uno stesso numero più la parola“Sinistra” o “Destra” per specificare la telecamera con la quale è statacatturata. Al lato di ogni coppia è presente il numero nella lista con unaicona precedentemente caricata, vale a dire un pallino colorato che puòessere:• Verde se esistono sia l'immagine sinistra che destra• Rossa se l'immagine destra non è presente ed è quindi etichettata dauna “X”.7.5.2 Conferma delle singole coppie di immaginiFacendo un doppio click sul pallino si apre un nuovo dialogo per lavisualizzazione della relativa coppia di immagini in un formato compresso147

come nell'illustrazione 40. Non ci si deve preoccupare se la compressioneriduce considerevolmente la qualità delle immagini poiché nella directoryin cui verranno prelevate permangono nella loro forma originaria. Questodialogo rende l'utente consapevole di qualche errore nel salvataggio delleimmagini dovuto ad una memorizzazione esterna al programma 8 oppure daparte del software in fase di acquisizione, permettendo di cancellaremediante la pressione del tasto “Elimina coppia dalla calibrazione” tutte lecoppie associate ad un pallino rosso.Illustrazione 40: Dialogo con identificativo IDD_VIS_IMGRisultati poco soddisfacenti di alcune calibrazioni possono essere dovutiad immagini di scarsa qualità che evidenziano gli angoli della scacchieranonostante tale deficienza. In certi casi, anche se la cattura delle immaginiè un'operazione abbastanza rapida, l'utente può preferire eliminare quelleche non ritiene accettabili senza doverne acquisire di ulteriori.8 Ad esempio attraverso un copia-incolla di immagini precedentemente acquisite e spostate da un'altradirectory.148

Sebbene in questo dialogo potrà rimuovere le coppie non ritenuteaccettabili, nel caso in cui, a fronte di un esito poco soddisfacente dellacalibrazione, non sia sufficiente il dialogo IDD_VIS_IMG per riconoscerequali immagini siano di scarsa qualità può aprire la directory in cui sonostate salvate le immagini ed esaminare quelle a cui corrisponde il suffisso“CORNERS” in cui sono distinguibili gli angoli colorati. Qualora l'utentevoglia scartare i file in cui siano evidenziati angoli che non corrispondonoperfettamente a quelli presenti sulla scacchiera, oppure nei quali vi sia unailluminazione non idonea, dovrà eliminare tutti i file che presentanonumero di immagine e nome di base medesimi. Bisogna però tenere inconsiderazione il numero dei fotogrammi utilizzabili per la calibrazione altermine di questa operazione perché calibrazioni effettuate su pocheimmagini portano a risultati poco accurati.7.5.3 Selezione delle opzioniUna volta cancellate o confermate le immagini l'utente può scegliere seselezionare i due check-box nella parte inferiore del secondo sotto-dialogo.Il primo consente di visualizzare, una volta ultimata la calibrazione, latrasformazione di rettificazione applicata sulle immagini immesse, inmodo da verificare preliminarmente la qualità della calibrazione.La selezione del secondo check-box permette di adottare il metodo diBouguet 9 per la rettificazione, altrimenti per default viene utilizzato ilmetodo di Hartley.9 Vedi capitolo 3149

L'ultima opzione concessa all'utente è il metodo con cui effettuare ilcalcolo della matrice fondamentale, ma è importante rendere noto che taleopzione non ha alcun effetto se è selezionato il metodo di Bouguet inquanto soltanto il metodo di Hartley sfrutta la matrice fondamentale per ilcalcolo della trasformazione di rettificazione.I metodi che si possono scegliere sono 10 :• Metodo dei sette punti indicato con “FM_7POINT”.• Metodo degli otto punti indicato con “FM_8POINT”• Metodo RANSAC indicato con “FM_RANSAC” e impostato perdefault• Metodo LmedS e indicato con “FM_LMEDS”7.6 Stereo-calibrazione e visualizzazione dei risultati7.6.1 Pressione del tasto “Calibrazione”Le prime operazioni alla pressione del tasto per l'avvio della calibrazionevera e propria concernono la verifica dei parametri inseriti e delle coppiepresenti nella directory, dopodiché viene creato un vettore di stringhe con ipath delle immagini e vengono inizializzate le variabili booleane associateai check-box descritti nel paragrafo precedente.A questo punto vengono passati i parametri, il vettore di pathfile e levariabili booleane alla funzione StereoCalib() che è stata prelevata da uno10 Nel capitolo 3 è presente una più accurata descrizione delle differenze fra i vari metodi150

degli esempi campione 11modifiche per adattarla al software qui presentato.di OpenCV a cui sono state apportate delleIllustrazione 41: Coppia di immagini rettificateNel caso in cui sia stata spuntata la voce per la visualizzazione delleimmagini rettificate appariranno, come nell'illustrazione 41, coppie diimmagini distorte rispetto alle originali per il processo di rettificazione, ilquale fa in modo che i punti corrispondenti possano giacere su una stessascanline.Una verifica preliminare della bontà della calibrazione può essereeffettuata notando che i punti corrispondenti giacciono sulla stessa rigaorizzontale di pixel contrassegnata in verde. Una seconda verifica puòessere applicata alla distorsione delle immagini; una leggera se purevidente compensazione solitamente è indice di una buona calibrazione,mentre immagini eccessivamente distorte dovrebbero suggerire di catturare11 Si tratta in particolare di stereo_calib.cpp151

nuove immagini e effettuare nuovamente la calibrazione.7.6.2 Conferma dei RisultatiPer visualizzare i risultati numerici della calibrazione si devono chiudere lefinestre di dialogo sino a tornare alla finestra con i radio button“Calibrazione”.Selezionando “Ottieni i parametri da precedenti calibrazioni” è possibileaprire il dialogo “Recupero dei parametri di precedenti calibrazioni” conidentificativo IDD_SELEZIONE_CALIBRAZIONE che si riferisce allaclasse SelezioneCalibrazione implementata e definita negli omonimifile .cpp e .h.Illustrazione 42: Dialogo per la scelta dei risultati da visualizzareQuesto dialogo accede alla cartella in cui è stato effettuato l'ultimosalvataggio del file myc in cui sono riportati i risultati numerici evisualizza la lista di tutti i file di questo tipo presenti al suo interno152

corredata dalle relative informazioni poste di seguito:• Data e ora del salvataggio• Radice dell'errore quadratico medio• Path del file yml dei parametri intrinseci• Path del file yml dei parametri estrinseciI file di testo con estensione yml sono utilizzati per la raccolta dei risultatinegli esempi campione OpenCV; tra questi quelli che verranno selezionatisaranno poi rielaborati per essere visualizzati nella finestra di dialogoIDD_CONFERMA_CALIBRAZIONE, mostrata nell'illustrazione 43, daltitolo “Richiesta conferma scelta parametri di calibrazione” la qualefornisce una distinzione tra i vari elementi delle matrici.Illustrazione 43: Finestra di dialogo per la visualizzazione e l'approvazione dei parametriLa classe ConfermaCalibrazione gestisce questa finestra di dialogo einoltre memorizza i dati selezionati prima di mostrarli.Alla pressione del tasto “annulla” si torna al dialogo precedente, mentrealla conferma si aprirà il documento dell'illustrazione 44 caratterizzato da153

una formattazione di più facile lettura, grazie al quale l'utente puòvisualizzare i dati.Illustrazione 44: Risultati numerici relativi alla calibrazione selezionataLe matrici M1 e M2 sono le matrici dei parametri intrinseci delle duetelecamere nelle quali lungo la diagonale principale appare il valore dellalunghezza focale, mentre nell'ultima colonna sono riportate le coordinatedel punto principale rispetto all'origine dei pixel. Il primo elemento diquesto vettore colonna è la coordinata orizzontale del punto principale,invece il secondo indica la coordinata verticale; questi due valoridovrebbero risultare prossimi alla metà dell'ampiezza e altezza di unaimmagine.154

I vettori dei coefficienti di distorsione chiudono la parte proposta relativaai parametri intrinseci al di sotto dei quali con la matrice di rotazione R trale due telecamere iniziano quelli estrinseci. Questa matrice, come qualsiasimatrice di rotazione, fornisce un'informazione ridondante circal'orientamento delle due terne in quanto i nove elementi sono legati tra lorodai sei vincoli di ortogonalità. Una rappresentazione minima per ladescrizione di un orientamento è costituita da tre parametri che possonoessere, come imposto nel software, i tre angoli di Eulero rollio, beccheggioe imbardata. L'utente può verificare la corrispondenza tra i tre angoli e larotazione reale tra le due telecamere nonché l'equivalenza tra la distanzatra le stesse e il vettore di traslazione T. Subito sotto vengono mostrate lematrici di rettificazione R1 e R2, le matrici di proiezione P1 e P2 risultantida tale trasformazione e la matrice di riproiezione Q che, permette diottenere i punti 3D se si conoscono le coordinate sullo schermo deicorrispondenti punti bidimensionali.155

Capitolo 8Sviluppo di un'applicazione per il tracciamentodi un oggetto sferico nello spazioUna volta ultimata l'implementazione del software per la calibrazione si èdeciso di testare i parametri ottenuti mediante la rilevazione di un oggettosferico nello spazio.8.1 Parametri della Circle Hough TransformLa tecnica utilizzata per l'estrazione delle feature è stata la trasformata diHough con il metodo del gradiente, che è stata descritta nel capitolo 2.Questo metodo è molto utilizzato per la sua efficacia e per la complessitàcomputazionale relativamente bassa. I parametri da scegliere con la CHTsono:• Risoluzione dell'accumulatore• Distanza minima tra i cerchi per essere considerati differenti• Parametri dell'operatore di Canny• Numero minimo di voti per un cerchio candidato• Raggio massimo e minimoLa risoluzione dell'accumulatore è una sorta di fattore di scala rispetto allarisoluzione dell'immagine. Impostata a 1 si ha la stessa risoluzione156

dell'immagine in ingresso, per valori maggiori si hanno risoluzioni perl'accumulatore inversamente proporzionali a quella dell'immagine. Unascelta di tale parametro pari a due si è dimostrata efficace, anche se nonl'unica possibile per avere buoni risultati. In definitiva è stata impostaaltezza e larghezza dell'accumulatore due volte più piccola rispettoall'immagine acquisita dalle telecamere.La distanza minima tra i cerchi consente di decidere con quale “densità”vogliamo che siano scelti. In altre parole un valore troppo basso provoca ilriconoscimento di cerchi multipli in un piccolo intorno di pixel, mentre unvalore elevato può far perdere la rilevazione di due cerchi distinti se questisi trovano ad una distanza inferiore, come mostrato nell'illustrazione 45.Illustrazione 45: Scelta della distanza minima tra cerchi distinti: 1) Un parametro basso porta acerchi multipli indesiderati 2) Un parametro elevato provoca la perdita di possibili rilevazioniNel caso in esame si vuole rilevare una singola sfera per cui valori che inmolte circostanze potrebbero risultare troppo elevati, risultano idonei inquesto contesto, mentre è necessario evitare valori bassi che possonoportare risultati insoddisfacenti. Si è riscontrato che valori superiori ad un157

quinto dell'altezza in pixel dell'immagine danno risultati accettabili.Un altro parametro rilevante è quello relativo alla soglia dell'accumulatoreche elimina i centri candidati i cui voti non la superano. Anche in questocaso un valore troppo basso potrebbe dar luogo a false rilevazioni, maqueste possono considerarsi considerevolmente ridotte dalle restrizioni sulprecedente parametro. Una soglia troppo alta può invece eliminare tutti icandidati non rilevando alcun cerchio, infatti sperimentalmente è risultatoche, posti i precedenti parametri, per valori superiori a 100 si riduconoconsiderevolmente il numero delle rilevazioni fino ad annullarsi quasicompletamente oltre i 200.Gli ultimi due parametri riguardano l'intervallo in cui facciamo cadere lepossibili dimensioni del raggio. Se si considerano immagini conrisoluzione 640×480 la proiezione di una sfera completamente all'internodel piano immagine non può avere un raggio superiore a 240. Valoriprossimi a metà della risoluzione in altezza si verificano soltanto sel'oggetto è estremamente vicino alla telecamera, perciò si è scelto diescludere circonferenze con raggio superiore a 160. Il limite inferiore èstato posto a 20 perché valori inferiori danno luogo a false rilevazioni.8.2 Oggetto in movimento in una scena realeÈ piuttosto semplice effettuare la rilevazione in una scena a sfondouniforme in cui sia presente un singolo oggetto statico circolare, se si ha adisposizione una funzione che utilizzi la CHT. In genere in un ambientecomune sono però presenti oggetti e forme di vario tipo, pertanto in una158

scena reale raramente l'unico oggetto tondeggiante sarà il nostro target. Sela sfera è statica certamente il suo contorno costituirà un cerchio candidatocon un numero di voti tra i più alti, ma non possiamo avere la stessacertezza che sia quello selezionato. La probabilità di essere scelto, sel'oggetto è in movimento, diminuisce all'aumentare della velocità. Infunzione della sua dinamicità l'oggetto si presenta esteso e sfocato lungo ladirezione del movimento, con una evidente diminuzione della nitidezza. Lascelta del range del raggio tra 20 e 160 comporta una distanza del soggettoinferiore ai due metri; la vicinanza al centro ottico comporta maggiorivelocità angolari e quindi un maggiore effetto di mosso. Nell'illustrazione46 è evidente la perdita di nitidezza della sfera in movimento; come si puònotare, la rilevazione è avvenuta comunque con successo grazieall'impiego di filtri che saranno descritti in seguito.8.3 Utilizzo di filtri di tonalitàGarantire la rilevazione dello stesso oggetto per entrambe le immagini inun sistema stereoscopico non è un problema banale. Per tale motivo si èdeciso di utilizzare oggetti (sfere) facilmente rilevabili con semplici featuredetector (CHT). Per agevolare l'object detection anche nel caso di soggettoin movimento sono state utilizzare delle sfere di colore uniforme chepermettono l'utilizzo di appositi filtri [Chen-2010].Nelle immagini in scala di grigi l’unico attributo necessario a caratterizzarein ogni punto l’immagine è l’intensità, che si traduce nel valore di grigiodel corrispondente pixel, mentre la rappresentazione delle immagini a159

colori prevede l’impiego di tre matrici di intensità, una di rosso, una diverde, una di blu. In altre parole l’intensità da sola non è sufficiente acaratterizzare l’immagine, in quanto occorre anche esprimere lacrominanza costituita dalla tonalità (o tinta, hue in inglese) e dallasaturazione. Per poter discriminare oggetti di differente colore, bisognaagire su questi due attributi dei quali il primo fornisce un indice dellapurezza del colore mentre il secondo può essere associato alla lunghezzad'onda.In questa applicazione sono state utilizzate sfere di colore rosso, verde , blue giallo cercando di sviluppare dei filtri che consentissero di rilevaresoltanto la palla del colore scelto. Poiché i quattro colori sono caratterizzatida saturazioni abbastanza elevate, si è scelto di applicare delle soglieunicamente sulla tonalità.Nel modello RGB ogni colore è definito mediante le intensità dei treprimari che lo compongono, ma la modifica indipendente delle trecomponenti RGB cambia la crominanza di ogni pixel, introducendo unadistorsione cromatica. Nella classificazione basata sul colore risulta quindipiù efficace utilizzare un modello del colore in cui la luminanza è separatadalla crominanza.Il modello utilizzato è quello HSV (tonalità-saturazione-valore), mostratonell'illustrazione 46 mediante la sua rappresentazione cilindrica. Talemodello in OpenCV è caratterizzato da una componente di tonalitàmemorizzata come un valore intero a 8 bit tra 0 e 179, con una certaperdita di risoluzione sul colore. La saturazione e il valore dell'intensità160

sono invece compresi tra 0 e 255. In particolare mentre in altri softwareuna saturazione massima equivale a puro bianco, in OpenCV corrispondesempre a colori brillanti [Emami-2010].Illustrazione 46: Rappresentazione cilindrica del modello HSV ( a sinistra );Rilevazione del target a dispetto dell'evidente effetto di mosso ( a destra ).Illustrazione 47: La finestra centrale è quella originale. A destra la conversione nel modello HSV.A sinistra il risultato dopo le operazioni di sogliatura, erosione, dilazione e smoothing Gaussiano.Nell'immagine di destra dell'illustrazione 47 si può vedere come appareuna immagine convertita in HSV a partire dal modello RGB.161

Per selezionare la singola tonalità è stata apportata una scissione nelle trecomponenti e successivamente sono state applicate una soglia minima euna soglia massima sulla singola componente H; ad esempio per isolare ilcolore blu la soglia minima è stata scelta pari a 150 e la massima pari a 200in modo che 150H200 .Se il valore della componente Hue per lo sfondo originale non si trova nelrange selezionato, si avrà uno sfondo nero nell'immagine in output, mentrei pixel aventi tinta in quell'intervallo rimarranno in scala di grigi, perciòsolitamente il filtro sulla tonalità non isola completamente l'oggettodesiderato, ma tutti i pixel della medesima tinta.A questo punto la singola componente viene convertita in scala di grigi epoi passata alla trasformata di Hough per i cerchi, la quale, se non ci sonomacchie di quel colore o altri oggetti sferici della tonalità desiderata,dovrebbe catturare il target, tuttavia non è infrequente riscontrarerilevazioni di pixel nell'intervallo isolato anche nella posizione di oggettidi altra tonalità. In altre parole in corrispondenza di un oggetto a tintauniforme differente dal colore scelto possono comparire pixel di quellatonalità a causa del rumore e delle condizioni di luminosità.La sogliatura produce quindi delle zone simili a macchie che possonofacilmente essere identificate come cerchi di piccolo raggio.Per eliminare questi gruppi di pixel è stato applicato all'immagine unosmoothing Gaussiano e una operazione di apertura, vale a dire unaerosione seguita da una dilazione [Gonzalez-2002].Queste operazioni oltre a diminuire i pixel indesiderati rendono anche di162

forma più tondeggiante l'immagine mossa, quando l'oggetto sferico è inmovimento. L'immagine di sinistra nell'illustrazione 47 mostra l'effetto diquesta procedura effettuata sulla tonalità del rosso, mentre al centro èpresentata l'immagine originale su cui è stato applicato il cerchio rossorisultante dalla CHT.8.4 Estrazione delle coordinate 3DIl centro del cerchio rilevato con la CHT ci fornisce le coordinate dellaproiezione dell'oggetto sferico sui due piani immagine. La conoscenza diquesti due valori unita a quella dei parametri ricavati dalla calibrazione cipermette di estrarre le coordinate del target nello spazio.Siano ad esempio x 1,y 1 e x 2,y 2 le due coordinate estratte dalla CHT,il primo passo da effettuare è quello di portarle in coordinate omogenee:1p 1=x =xy e 21p 2 y 21 1È possibile normalizzare questi vettori rispetto alle matrici dei parametriintrinseci calcolate con la calibrazione:p 1norm =M−1x 1x1 y e 21p 2norm =M 2 y1−1 21Per le coordinate ottenute vanno compensati gli effetti della distorsione(2.13) ottenendo i vettori p 1undist e p 2undist . Applicando le rotazioniinverse rispetto ad R 1 ed R 2 si rendono complanari i due piani immagineed infine si moltiplicano le nuove matrici dei parametri intrinseci che si163

possono recuperare dalle prime tre colonne delle matrici P 1 e P 2 per ivettori appena ricavati. Dopo tali operazioni abbiamo ottenuto lecoordinate 2D dei centri nelle immagini rettificate che quindi avrannostessa ordinata h:p 1rect=x' 1hSfruttando ora la matrice di riproiezione x' e p = 22rect h10 0 −X Q=[1 010 1 0 − Y 0]0 0 0 f new0 0 −1/ T X 01−X 02Tnella quale sono presenti i parametri proposti nella (3.47) e nella (3.48), èpossibile ricavare le coordinate 3D X , Y , Z dell'oggetto dal risultatodella seguente espressione[ XY Z]=Q[x ' 1]hx' 1−x' 21normalizzando per il fattore di scala .18.5 Verifica dell'accuratezza dei risultatiLe otto matrici e i quattro vettori ottenuti con la calibrazione hanno loscopo di mettere in relazione l'ambiente tridimensionale con quellobidimensionale delle immagini. Verificare empiricamente la veridicità164

delle stime dello spazio 3D, effettuate nell'applicazione, assicuraindirettamente l'attendibilità dei valori forniti dalla calibrazione.Se si conosce la grandezza del raggio della circonferenza la stima dellaprofondità risulta calcolabile anche con una singola telecamera applicandodelle proporzioni tra le dimensioni del raggio in due e in tre dimensioni. Senon si conosce la misura del raggio il discorso cambia completamente,infatti soltanto nel caso di visione stereoscopica non c'è bisogno di questainformazione preventiva per stimare la profondità; inoltre si può addiritturacalcolare la misura del raggio nello spazio a meno di un piccolo margine dierrore.Una volta appreso l'algoritmo per la triangolazione il metodo per estrarre ladimensione reale del raggio è piuttosto banale. La conoscenza sulle dueimmagini delle dimensioni del cerchio e del suo centro permette il calcolodi un secondo punto che arbitrariamente poniamo a destra lungo lascanline a una distanza pari al raggio. Con un procedimento analogo aquello dei centri calcoliamo la posizione nello spazio di questi due nuovipunti e calcoliamo la distanza euclidea con le coordinate 3D dei centri. Laverifica manuale, con uno strumento di misura per lunghezze delledimensioni reali della sfera, consente di quantificare l'errore.Sebbene il sistema permetta la rilevazione della sfera anche a velocitàelevate, una posizione statica facilita l'accertamento della fedeltà dellecoordinate spaziali non essendo necessario conoscere l'istante in cui unaspecifica posizione è stata occupata. Ponendo l'oggetto in una posizioneconosciuta si effettuano tutti i passi descritti fino alla triangolazione e poi165

si constata se le coordinate estratte sono prossime a quelle attese. In realtàè da far presente che seppure l'oggetto è fermo ogni fotogramma non saràesattamente identico al precedente, soprattutto a causa del rumore e dellecondizioni di illuminazione che non sono costanti. Questo aspettodetermina un cambiamento della sua posizione ad ogni istante, seppure dipochi pixel, come si può vedere dall'illustrazione 48.Illustrazione 48: Confronto tra posizione misurata (in rosso) e posizioni stimate (in blu)Questo movimento apparente genera un errore anche qualora lacalibrazione fosse estremamente accurata. Se l'oggetto è fermo laposizione stimata permane comunque entro un certo intervallo, perciò sipuò aggirare il problema facendo la media delle posizioni occupate.166

Nell'esempio in figura la posizione conosciuta in cm è X=-5, Y=-2 e Z=30in modo che la sfera si trovi rispetto all'asse X al centro tra le duetelecamere distanti tra loro circa 10 cm. Il raggio calcolato vale 3.52cmapprossimativamente pari al valore reale, mentre la radice dell'errorequadratico medio calcolata sui tre assi è (0.23, 0.18, 1.11) cm.I vari test hanno mostrato una proporzionalità tra la profondità e il RMSEcalcolato su di essa, ad esempio ad una profondità di 44cm l'RMSE èrisultato pari a 2.477, mentre è arrivato a 5.91 ad una profondità di 85 cm.L'algoritmo riesce a rilevare la sfera con successo fino a distanze di circaun metro, al di là del quale il raggio della sfera arriva al di sotto dellasoglia fissata con la trasformata Hough. Una soglia più bassaaumenterebbe in maniera non trascurabile la probabilità di falserilevazioni.167

Capitolo 9Conclusioni e sviluppi futuri9.1 ConclusioniIn questa tesi è stato descritto il progetto e la realizzazione di un sistema divisione stereoscopica. In particolare è stato sviluppato un software dicalibrazione che prevede un'interfaccia grafica orientata all'utente conl'esecuzione automatica della maggioranza dei passi da effettuare.È stata inoltre implementata una applicazione per il riconoscimentoautomatico di oggetti sferici in movimento. L'object detection permette diestrarre le coordinate bidimensionali dell'oggetto e in seguito calcolarne laposizione nello spazio mediante rettificazione e triangolazione.La tesi fornisce inoltre un'accurata descrizione degli algoritmi di imageprocessing, di calibrazione e di ricostruzione della geometria epipolare perla rettificazione.Il primo obiettivo raggiunto in questo progetto è stato l'ideazione el'implementazione di un algoritmo che permettesse la memorizzazioneautomatica di fotogrammi acquisiti simultaneamente mediante l'utilizzodella programmazione parallela.Inoltre questo algoritmo è stato completato con un sistema che consente lamemorizzazione automatica di coppie di immagini che rispettano ilrequisito di permettere l'estrazione, anch'essa automatica, degli angoli nelpattern di calibrazione.168

Il software di calibrazione sviluppato facilita l'utente non solo nella misuradei parametri intrinseci ed estrinseci, ma anche nella sistemazione delsistema stereoscopico, sottolineando quali parametri non sono adatti ad unimpianto funzionale.Una volta conclusa la parte relativa alla calibrazione si è rivolto l'interesseal riconoscimento di un oggetto sferico nello spazio di dimensioni ignote enell'estrazione delle sue coordinate spaziali, nonché del suo raggio.9.2 Sviluppi futuriIl software di calibrazione potrebbe essere utilizzato in tutte quelleapplicazioni che ne utilizzano i parametri per la ricostruzionedell'ambiente, soprattutto in quelle applicazioni in cui è desiderabilemodificare la posizione relativa tra le telecamere.L'intero apparato potrebbe essere montato su un robot mobile perl'inseguimento di oggetti oppure potrebbe essere ulteriormente sviluppatoper portare un manipolatore in una opportuna configurazione di presa. Latraiettoria pianificata potrebbe essere eseguita utilizzando le misure visualia ciclo aperto utilizzando un approccio look-and-move oppure inretroazione mediante un controllo visuale, calcolando il vettore di erroretra le pose dell'organo terminale e quello dell'oggetto. Per come è statoprogettato il sistema, quest'ultimo approccio potrebbe essere più facilmenteeseguito nella modalità eye-in-hand in modo che non sia necessarioidentificare anche l'organo terminale del manipolatore. Inoltre, facendomuovere il sistema stereoscopico in maniera solidale all'organo terminale,169

si avrebbe un notevole incremento nell'accuratezza della misura inprossimità del target.Le lacune del sistema si possono trovare soprattutto nel sistema diriconoscimento degli oggetti che permette di rilevare soltanto oggettisferici e che è molto influenzato dal rumore e dai cambiamenti diluminosità e per questo presenta problemi di falsi accoppiamenti.170

Bibliografia[Ballard-79] D. H. Ballard, Generalizing the Houghtransform to detect arbitrary shapes. Computer Sciencedepartment, University of Rochester, Ottobre 1979[Bouguet] J. Y. Bouguet, Camera Calibration Toolbox forMatlab,http://www.vision.caltech.edu/bouguetj/calib_doc/index.html.[Bradski-2008] G. Bradski, A. Kaehler. Learning OpenCV:Computer Vision with the OpenCV Library, O'Reilly Media,2008.[Brown-66] D. C. Brown. Decentering Distortion of Lenses.Photometric Engineering 32(3) : 444–462, 1966.[Brown-71] D. C. Brown. Close-range camera calibration.Photogrammetric Engineering, 37(8):855–866, 1971.[Canny-83] J. F. Canny. Finding edges and lines in images.Master's thesis, MIT. AI Lab. TR-720, 1983.[Caprile-90] B. Caprile and V. Torre. Using vanishing pointsfor camera calibration. International Journal of ComputerVision, 4:127--140, 1990.[Chen-2010] Lior Chen. Fast object tracking using theOpenCV library. http://www.lirtex.com/robotics/fast-objecttracking-robot-computer-vision[Cyganek-09] B. Cyganek, P. Siebert. An Introduction to 3DComputer Vision Techniques and Algorithms. Wiley 2009171

[Davies-2005] Davies, E. Roy (2005). Machine Vision: Theory,Algorithms, Practicalities (3rd ed.)[Di Stefano] L. Di Stefano,http://didattica.arces.unibo.it/file.php/59/Elaborazione_dellImmagine_L-S/Manuali/tecnologie_3.pdf, Università di Bologna,Didattica Arces, Corso di Elaborazione dell'Immagine L-S,materiale didattico[Duda-72] R. O. Duda and P. E. Hart. Use of the Houghtransformation to detect lines and curves in pictures.Communications of the Association for Computing Machinery15 (1972): 11–15.[Emami-2010] Shervin Emami.http://www.shervinemami.co.cc/colorConversion.html[Euclide] Euclide, Elementi, IV - III secolo a.C.[Faugeras-01] O. Faugeras, Q. Luong. The Geometry ofMultiple Images. MIT Press (Marzo 2001).[Faugeras-93] Olivier Faugeras. Three-dimensional computervision: a geometric viewpoint. MIT Press, Cambridge, 1993.[Fusiello-2010] A. Fusiello, Visione Computazionale. Appuntidelle lezioni, 2010.[Gonzalez-2002] R. C. Gonzalez, R. E. Woods, Digital ImageProcessing, Prentice Hall, 2002.[Hartley-97] R. I. Hartley. In defense of the eight-pointalgorithm. IEEE Transactions on Pattern Analysis andMachine Intelligence, 19(6): 580-593, Ottobre 1997.172

[Hartley-98] R. I. Hartley. Theory and practice of projectiverectification. International Journal of Computer Vision, toappear, 1998.[Hartley-2003] R. Hartley and A. Zisserman. Multiple ViewGeomerty in Computer Vision. Cambridge University Press,second edition, 2003.[Hough-59] P. V. C. Hough. Machine analysis of bubblechamber pictures. Proceedings of the International Conferenceon High Energy Accelerators and Instrumentation. (pp. 554–556), 1959.[Isgrò-99] F. Isgro, E. Trucco. Projective rectificationwithout epipolar geometry. In Proceedings of IEEEComputer Society Conference on Computer Vision and PatternRecognition, pp.94-99, 1999.[Koch-Tononi-2008] C. Koch, G. Tononi, Can Machines BeConscious? Yes - and a new Turing test might prove it.IEEE Spectrum, Vol., n. 6, pp. 54-59, giugno 2008.[Lei-99 ] B. J. Lei, E. A. Hendriks, M. J. T. Reinders. OnFeature Extraction from images. Technical report on“inventory properties” for MCCWS, 1999.[LonguetHiggins-81] H. C. Longuet-Higgins. A computeralgorithm for reconstructing a scene from twoprojections. Nature 293: 133-135 (10 Settembre 1981)[Lowe-2004] David G. Lowe. Distinctive Image Features173

from Scale-Invariant Keypoints. International Journal ofComputer Vision, Gennaio 2004.[Moravec-79] Moravec, H. (1979). Visual mapping by a robotrover. In Proceedings of the 6th International Joint Conferenceon Articial Intelligence, pp. 599-601, Agosto 1979.[Otha-2007] Smart CMOS image sensors and applications,CRC Press, Taylor & Francis Group, New York 2007[Rousseeuw-87] P. J. Rousseeuw. Robust Regression andOutlier Detection. Wiley, New York, 1987.[Scaramuzza-2003] D. Scaramuzza. Progetto e realizzazionedi un sistema di visione stereoscopica per la robotica, conapplicazione all’inseguimento di corpi in moto eall’autolocalizzazione. Tesi di laurea in ingegneria elettronicapresso l'università degli studi di Perugia. A.A. 2003 2004[Siciliano-2008] B. Siciliano, L. Sciavicco, L. Villani, G. Oriolo.Robotica, Modellistica, pianificazione e controllo.McGraw-Hill Companies. 2008[K. R. Spring] K. R. Spring, T. J. Fellers, M. W. Davidson.Introduction to Charge-Coupled Devices (CCDs).http://www.microscopyu.com/articles/digitalimaging/ccdintro.html[Trucco-98] E. Trucco, A. Verri, Introductory Techniques To3d Computer Vision, Prentice Hall, 1998[Tsai-87] Roger Y. Tsai. A Versatile Camera CalibrationTechnique for High-Accuracy 3D Machine Vision174

Metrology Using Off-the-shelf TV Cameras and Lenses.IEEE journal of robotics and automation, vol. ra-3, no. 4, Agosto1987[UTET-91] Grande Dizionario Enciclopedico, UnioneTipografico Editrice Torinese, 1991[Xie-2003] Ming Xie. Fundamentals of Robotics, LinkingPerception to Action. Series in Machine Perception andArtificial Intelligence - Vol. 54. Singapore-MIT Alliance &Nanyang Technological University, Singapore 2003[Zhang-96] Z. Zhang. Determining the Epipolar Geometryand its Uncertainty: A Review. Institut national de rechercheen informatique et en automatique. N° 2927. Luglio 1996[Zhang-98] Z. Zhang. A Flexible New Technique for CameraCalibration. Technical Report, MSR-TR-98-71, MicrosoftResearch, December 2, 1998.ALTRI SITI WEB:• http://opencv.willowgarage.com• http://sourceforge.net/projects/opencvlibrary/• http://en.wikipedia.org• http://opencvlibrary.sourceforge.net/• http://tech.groups.yahoo.com/group/OpenCV/• http://pr.willowgarage.com/wiki/OpenCV175

Progetto, realizzazione e calibrazione di un sistema di visione ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?