30.04.2013 Views

Recalage non-rigide multimodal des images radiologiques ... - Limsi

Recalage non-rigide multimodal des images radiologiques ... - Limsi

Recalage non-rigide multimodal des images radiologiques ... - Limsi

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> <strong>des</strong> <strong>images</strong><br />

<strong>radiologiques</strong><br />

par information mutuelle quadratique normalisée<br />

Jamaleddine Atif<br />

LIMSI-CNRS<br />

Université de Paris XI - Orsay<br />

Soutenue le 29 Octobre 2004 devant le jury composé de 1 :<br />

Alain MERIGOT Professeur Paris-XI Président<br />

Angel OSORIO DR-CNRS Directeur<br />

Habib ZAIDI Professeur UniGe Rapporteurs<br />

Christian RONSE Professeur ULP-Starsbourg<br />

Olivier HELENON PUPH Paris-V Examinateur<br />

1 Mention : Très honorable<br />

2004/11/08


Table <strong>des</strong> matières<br />

1 Introduction 1<br />

1.1 Analyse <strong>des</strong> <strong>images</strong> médicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.1.1 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.1.2 <strong>Recalage</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.2 Sur les applications cliniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.2.1 Diagnostic et décision thérapeutique . . . . . . . . . . . . . . . . . . . . . 12<br />

1.2.2 Planification et simulation <strong>des</strong> interventions chirurgicales . . . . . . . . . . 13<br />

1.2.3 De la navigation chirurgicale per-opératoire . . . . . . . . . . . . . . . . . 15<br />

1.3 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

1.3.1 Organisation du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques 21<br />

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.2 Approche géométrique du recalage . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.2.1 Mise en correspondance <strong>des</strong> points . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.2.2 Mise en correspondance de surfaces . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.3 Approche iconique du recalage- modélisation par inférence statistique . . . . . . . 31<br />

2.3.1 Conservation d’intensité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

2.3.2 Dépendance affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

2.3.3 Dépendance fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

2.3.4 Dépendance statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

2.4 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />

i


ii Table <strong>des</strong> matières<br />

3 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> 59<br />

3.1 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche linéaire . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

3.1.1 Transformation 3D globale <strong>rigide</strong> . . . . . . . . . . . . . . . . . . . . . . . 59<br />

3.1.2 Transformation affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

3.1.3 Transformation projective . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire . . . . . . . . . . . . . . . . . . . . . 63<br />

3.2.1 Transformation élastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

3.2.2 Transformation fluide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

3.2.3 Métho<strong>des</strong> d’éléments finis et modèles mécaniques . . . . . . . . . . . . . . 65<br />

3.2.4 Flot optique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />

3.2.5 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

3.2.6 Déformations de formes libres . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

3.3 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche hybride . . . . . . . . . . . . . . . . . . . . . . . 71<br />

3.4 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72<br />

4 De la théorie de l’information et <strong>des</strong> mesures de similarités 73<br />

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

4.2 Image, Incertain, Information... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

4.2.1 Entropie généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />

4.2.2 Divergence Généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />

4.2.3 Information mutuelle généralisée . . . . . . . . . . . . . . . . . . . . . . . 84<br />

4.2.4 Information mutuelle généralisée : normalisation . . . . . . . . . . . . . . 88<br />

4.2.5 Choix du degré r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />

4.2.6 Choix de α . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />

4.3 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92


Table <strong>des</strong> matières iii<br />

5 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité 95<br />

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

5.2 Estimateurs <strong>non</strong>-paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98<br />

5.2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98<br />

5.2.2 Modèle de Parzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99<br />

5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />

5.3.1 Sélection automatique <strong>des</strong> fenêtres . . . . . . . . . . . . . . . . . . . . . . 105<br />

5.3.2 Noyaux adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif . . . . . . . . 107<br />

5.4.1 Hypothèses fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />

5.4.2 Choix du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109<br />

5.4.3 Calcul <strong>des</strong> fonctions de filtrage . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

5.4.4 Simulations et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

5.5 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

6 L’algorithme MIAMI 119<br />

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119<br />

6.2 Formulation hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119<br />

6.3 Modèle d’image . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120<br />

6.3.1 Schéma multi-résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />

6.3.2 Degré du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />

6.4 <strong>Recalage</strong> affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

6.4.1 Modèle de déformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

6.4.2 Critère de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

6.4.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />

6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125<br />

6.5.1 Modèle de déformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125<br />

6.5.2 Critère de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br />

6.5.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128<br />

6.6 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129


iv Table <strong>des</strong> matières<br />

7 Simulations et validations 131<br />

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131<br />

7.2 Validation visuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132<br />

7.2.1 Mélange <strong>des</strong> <strong>images</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132<br />

7.3 Validation à l’aide marqueurs : le projet RIRE . . . . . . . . . . . . . . . . . . . 136<br />

7.3.1 Principe d’évaluation et de comparaison . . . . . . . . . . . . . . . . . . . 136<br />

7.3.2 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />

7.3.3 Protocole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />

7.3.4 Présentation <strong>des</strong> résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />

7.3.5 Analyse <strong>des</strong> résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142<br />

7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . 144<br />

7.4.1 Expérience 1 : précision et temps de calcul . . . . . . . . . . . . . . . . . . 147<br />

7.4.2 Expérience 2 : utilité <strong>des</strong> noyaux adaptatifs, impact sur la précision . . . . 148<br />

7.5 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />

8 Applications Cliniques 151<br />

8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM . . . . . . . . . 151<br />

8.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151<br />

8.1.2 Evolution du cancer de la prostate . . . . . . . . . . . . . . . . . . . . . . 152<br />

8.1.3 Détection Précoce et diagnostic du cancer de la prostate . . . . . . . . . . 153<br />

8.1.4 Traitement par radiothérapie . . . . . . . . . . . . . . . . . . . . . . . . . 153<br />

8.1.5 Le projet PTM3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158<br />

8.2 Planification de biopsies et fusion <strong>multimodal</strong>e . . . . . . . . . . . . . . . . . . . 161<br />

8.2.1 Description du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />

8.2.2 Validation sur <strong>des</strong> données Synthétiques . . . . . . . . . . . . . . . . . . . 162<br />

8.2.3 Utilisation en routine clinique . . . . . . . . . . . . . . . . . . . . . . . . . 165


Table <strong>des</strong> matières v<br />

9 Conclusion 169<br />

9.1 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169<br />

9.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />

9.2.1 Information Mutuelle Généralisée . . . . . . . . . . . . . . . . . . . . . . . 172<br />

9.2.2 <strong>Recalage</strong> inter-patients et morphométrie . . . . . . . . . . . . . . . . . . . 172<br />

9.2.3 Imagerie fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />

A Caractéristique asymptotiques de l’estimateur réduit 175<br />

Bibliographie 179


Table <strong>des</strong> figures<br />

1.1 Evolution de la pratique chirurgicale : de la trépanation à la chirurgie microscopique. 1<br />

1.2 Illustration de la <strong>multimodal</strong>ité fonctionnelle et structurelle pour la compréhension<br />

du cerveau humain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />

1.3 Planche photographique de visualisation <strong>des</strong> données (négatoscope). . . . . . . . 3<br />

1.4 Estimation <strong>des</strong> seuils séparant deux distributions. . . . . . . . . . . . . . . . . . . 5<br />

1.5 Résultats d’un multiseuillage avec étiquetage <strong>des</strong> régions. . . . . . . . . . . . . . . 6<br />

1.6 Étapes de la segmentation par contours actifs. . . . . . . . . . . . . . . . . . . . . 7<br />

1.7 Segmentation par modèles déformables 3D. . . . . . . . . . . . . . . . . . . . . . 8<br />

1.8 Illustration du recalage Multimodal Structurel : alignement d’une image TDM sur<br />

une image IRM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

1.9 Illustration du recalage Multimodal Structurel-Fonctionnel : alignement d’une<br />

image TEP (fonctionnelle) sur une image IRM-T2(structurelle). . . . . . . . . . . 10<br />

1.10 Illustration du recalage <strong>multimodal</strong> données/atlas : alignement d’un volume TDM<br />

sur l’atlas anatomique de Talairach-Tournoux. . . . . . . . . . . . . . . . . . . . . 11<br />

1.11 Intérêt de l’imagerie et de l’analyse quantitative <strong>des</strong> données pour l’établissement<br />

du diagnostic : cas <strong>des</strong> nodules pulmonaires. . . . . . . . . . . . . . . . . . . . . . 12<br />

1.12 Collaboration segmentation-recalage pour la planification <strong>des</strong> interventions chi-<br />

rurgicales du poumon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

1.13 Segmentation hépatique pré-opératoire pour la planification <strong>des</strong> interventions sur<br />

le foie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

1.14 Utilisation de la Réalité Augmentée dans la planification chirurgicale de nephro-<br />

lithotomies percutanées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

vii


viii Table <strong>des</strong> figures<br />

1.15 <strong>Recalage</strong> dans un environnement stéréotaxique pour le contrôle de biopsies. . . . 17<br />

2.1 Illustration simplifiée du problème de recalage . . . . . . . . . . . . . . . . . . . . 21<br />

2.2 Suivi d’un patient traité par chimiothérapie. . . . . . . . . . . . . . . . . . . . . . 23<br />

2.3 Extraction de points homologues . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

2.4 Acquisition TDM avec cadre stéréotaxique . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.5 Segmentation de surfaces homologues (contours du crâne) avant l’étape de mise<br />

en correspondance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.6 Contours représentant les objets homologues extraits à partir de deux modalités. 27<br />

2.7 Acquisition TDM du crâne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.8 Acquisition IRM du crâne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.9 Combinaison IRM/TDM recalée du crâne . . . . . . . . . . . . . . . . . . . . . . 29<br />

2.10 Acquisitions IRM et TEP du cerveau d’un même patient . . . . . . . . . . . . . . 30<br />

2.11 Illustration de la dépendance linéaire T=rotation de 45˚, F=I (identité) . . . . . 34<br />

2.12 Illustration de la dépendance linéaire T=rotation de 45˚, F(x)=0.5*x+20 . . . . 36<br />

(1−cos 2πn(T (x)))<br />

2<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

2.13 Illustration de la dépendance fonctionnelle T=rotation de 45˚, m(x) =<br />

2.14 Illustration de la dépendance statistique entre les intensités d’une image IRM et<br />

une image TDM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

2.15 Illustration <strong>des</strong> étapes de recalage par minimisation de l’entropie conjointe . . . . 44<br />

2.16 Illustration de la nécessité de normaliser l’entropie conjointe. Ici, du fait de la<br />

prédominance du niveau de gris du fond, la minimisation de l’entropie conjointe<br />

conduit à la déconnection <strong>des</strong> structures homologues dans les deux <strong>images</strong>. . . . . 45<br />

2.17 Diagramme de Venn représentant la relation entre les entropies marginales, les<br />

entropies conditionnelles et l’information mutuelle . . . . . . . . . . . . . . . . . . 47<br />

2.18 Dans ce diagramme I2 > I1, la solution du recalage est celle correspondant alors<br />

à T2, même si l’information partagée par les deux <strong>images</strong> est plus faible que celle<br />

donnée par T1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

3.1 Espace FFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70


Table <strong>des</strong> figures ix<br />

5.1 Coupe axiale IRM et son histogramme. Plusieurs mo<strong>des</strong> sont présents dans cet<br />

histogramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />

5.2 Estimation à noyau à fenêtre fixe . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

5.3 Noyaux fixes d’estimation de tailles 0.2 (a) et 0.8 (b). . . . . . . . . . . . . . . . . 101<br />

5.4 Estimations de la densité d’étude sur le suicide (Silverman), à droite h= 60 et à<br />

gauche h=20. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />

5.5 Résultat de l’estimateur «sample point estimaor» de la densité d’étude sur le<br />

suicide (Silverman). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

5.6 Le rendement (efficacité) en fonction de la variable pour l’expérience 1. À mesure<br />

que la variance s’éloigne de 1, l’estimateur à noyau fixe (KE) devient de plus en<br />

plus inadéquat pour l’estimation de la densité d’étude. L’estimateur réduit «FKE»<br />

permet, quant à lui, de prendre en compte les deux variances, ce qui améliore le<br />

résultat de l’estimation quant les variances <strong>des</strong> gaussiennes sont significativement<br />

éloignées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />

5.7 Les largeurs de fenêtres utilisées par l’estimateur réduit à noyau adaptatif «FKE».<br />

Le paramètre de lissage associé au deuxième terme du mélange de gaussiennes (la<br />

ligne continue), pour lequel la variance change, varie en fonction de σ, ce qui<br />

permet à l’estimateur de mieux représenter les variances locales de la densité réelle.113<br />

5.8 Illustration du résultat de l’estimation sur les données d’une IRM de l’abdomen. . 114<br />

5.9 Illustration du résultat de l’estimation sur les données d’une IRM du cerveau. . . 115<br />

5.10 Illustration du résultat de l’estimation sur les données TDM bruitées de l’abdomen.116<br />

5.11 Illustration du résultat de l’estimation sur les données TDM bruitées (cadre sté-<br />

réotaxique) du cerveau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />

5.12 Illustration du résultat de l’estimation sur les données TDM du poumon. . . . . . 118<br />

6.1 Différentes étapes de l’approche hybride du recalage. . . . . . . . . . . . . . . . . 121<br />

6.2 Application d’une déformation libre à une image source . . . . . . . . . . . . . . 126<br />

7.1 Validation visuelle par affichage en damier. . . . . . . . . . . . . . . . . . . . . . . 133<br />

7.2 Validation visuelle par surimposition <strong>des</strong> <strong>images</strong>. . . . . . . . . . . . . . . . . . . 134<br />

7.3 Validation visuelle par différence centrée <strong>des</strong> intensités. . . . . . . . . . . . . . . . 135


x Table <strong>des</strong> figures<br />

7.4 Spécification <strong>des</strong> positions d’origine et transformées dans les volumes source et<br />

cible : huit coins <strong>des</strong> deux volumes . . . . . . . . . . . . . . . . . . . . . . . . . . 137<br />

7.5 Calcul de l’erreur de recalage pour un VOI donné . . . . . . . . . . . . . . . . . . 139<br />

7.6 Différentes expériences de recalage effectuées . . . . . . . . . . . . . . . . . . . . . 140<br />

7.7 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents recalages<br />

TDM/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec). . . . . . . . . . . . . . . . . . 145<br />

7.8 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents recalages<br />

TEP/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec). . . . . . . . . . . . . . . . . . 146<br />

8.1 Implantation <strong>des</strong> grains radioactifs dans la prostate . . . . . . . . . . . . . . . . . 155<br />

8.2 Données TDM de la prostate d’un patient implanté. . . . . . . . . . . . . . . . . 157<br />

8.3 Données IRM de la prostate d’un patient implanté. . . . . . . . . . . . . . . . . . 157<br />

8.4 Exemple de segmentation volumique de la prostate après fusion TDM-IRM. . . . 158<br />

8.5 Résultats <strong>des</strong> recalages pour les données TDM-IRM prostatiques. . . . . . . . . . 160<br />

8.6 Résultats dosimétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />

8.7 Validation expérimental : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />

8.8 Validation expérimental : étape 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 163<br />

8.9 Validation expérimental : étape 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 164<br />

8.10 Cas réel : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165<br />

8.11 Cas réel : étape 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166<br />

8.12 Cas réel : étape 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167<br />

8.13 Contrôle global : point d’entrée, cible, chemin traversé, . . . . . . . . . . . . . . . . 168<br />

8.14 Cas réel : étape 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168


Liste <strong>des</strong> tableaux<br />

7.1 Exemple de la spécification de la transformation <strong>rigide</strong> selon la norme «Vanderbilt»138<br />

7.2 Protocole expérimental du recalage <strong>rigide</strong> utilisé dans le cadre de l’évaluation RIRE.141<br />

7.3 Résultat de l’évaluation RIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />

7.4 Comparaison <strong>des</strong> résultats de recalage pour diverses métho<strong>des</strong>. (Les métho<strong>des</strong><br />

marquées d’une étoile sont celles utilisant l’information mutuelle ou ses variantes) 143<br />

7.5 Protocole expérimental de l’expérience 1. . . . . . . . . . . . . . . . . . . . . . . . 147<br />

7.6 Résultat de l’expérience 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148<br />

7.7 Protocole de l’expérience 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />

7.8 Résultats de l’expérience 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />

xi


xii


Chapitre 1<br />

Introduction<br />

(a) Une trépanation exercée au XVI ième. siècle (b) Un chirurgien opérant à l’aide d’un microscope.<br />

Fig. 1.1 Evolution de la pratique chirurgicale : de la trépanation à la chirurgie<br />

microscopique.<br />

De la trépanation à la robotique chirurgicale, la pratique médicale a connu une véritable<br />

révolution (Fig. 1.1). De nos jours, grâce aux nouvelles techniques d’imagerie, les procédés de<br />

traitement se sont modernisés, le diagnostic est devenu plus précis et la qualité <strong>des</strong> soins est<br />

désormais meilleure. Loin <strong>des</strong> pratiques traditionnelles, où «voir» passait par «ouvrir», aujour-<br />

d’hui, les radiologues, à l’aide <strong>des</strong> techniques tomographiques, peuvent diagnostiquer et traiter<br />

de façon quasiment <strong>non</strong>-invasive. Le recours à la chirurgie invasive est devenu la solution de<br />

dernier recours. De ces modalités d’acquisition, on distingue celles qui fournissent <strong>des</strong> propriétés<br />

structurelles (morphologiques) de la zone étudiée (IRM, TDM, X-Ray...), de celles qui restituent<br />

<strong>des</strong> aspects fonctionnels (TEP, TEMP, IRMf, MEG,...) (voir Fig. 1.2).<br />

1


2 Introduction<br />

TDM<br />

TEP<br />

IRM<br />

TEMP<br />

X-Ray<br />

IRMf<br />

Fig. 1.2 Illustration de la <strong>multimodal</strong>ité fonctionnelle et structurelle pour la compréhension<br />

du cerveau humain.


Plusieurs modalités sont parfois utilisées pour effectuer un seul diagnostic. Pour certaines ano-<br />

malies, le radiologue doit, à la fois, étudier l’aspect structurel et fonctionnel d’une zone d’intérêt.<br />

Or, ces modalités sont, en général, utilisées avec un décalage dans le temps. Les informations<br />

recueillies doivent être alors fusionnées dans un même repère pour permettre d’effectuer les dif-<br />

férentes analyses et comparaisons, nécessaires à l’établissent d’un diagnostic précis et efficace.<br />

Bien que la nouvelle génération d’imageurs fournisse <strong>des</strong> informations tridimensionnelles du<br />

corps, présentant ainsi une avancée considérable, les techniques d’analyse dédiées au traitement<br />

de ces données souffrent d’un retard conséquent. Pour visualiser un examen, la plupart <strong>des</strong> ra-<br />

diologues se contentent, encore aujourd’hui, de l’utilisation du «négatoscope» (Fig 1.3) qui ne<br />

prend pas en compte toute l’information tridimensionnelle. De plus, l’analyse d’imagerie d’un<br />

Fig. 1.3 Planche photographique de visualisation <strong>des</strong> données (négatoscope).<br />

examen se fait de façon qualitative : seule l’expérience d’un radiologue est décisive pour la de-<br />

tection d’une anomalie. L’intérêt pour les techniques d’analyse de données, pourtant largement<br />

3


4 Introduction<br />

répandues dans d’autres domaines, n’est apparu, puis accru que lors <strong>des</strong> vingt dernières années.<br />

Au début, l’utilisation de ces techniques d’analyse n’a consisté qu’en une simple application <strong>des</strong><br />

techniques existantes aux <strong>images</strong> médicales, aboutissant dans la plupart <strong>des</strong> cas à <strong>des</strong> résultats<br />

peu convaincants. Le besoin de concevoir <strong>des</strong> métho<strong>des</strong> automatiques ou semi-automatiques pour<br />

traiter plus spécifiquement les <strong>images</strong> médicales s’est donc fait ressentir. Une nouvelle commu-<br />

nauté de recherche spécialisée en traitement <strong>des</strong> <strong>images</strong> médicales est née. Ces chercheurs issus<br />

principalement de la communauté «traitement d’<strong>images</strong>», tentent de répondre aux nombreuses<br />

questions <strong>des</strong> radiologues. Parmi ces questions nous citons les plus importantes :<br />

– Où se situe la lésion ?<br />

– Quel est son volume ?<br />

– Quelle est la variation du volume depuis les dernières mesures ?<br />

– Quel est le chemin le moins invasif pour y accéder ?<br />

L’ensemble <strong>des</strong> solutions apportées font appel à <strong>des</strong> paradigmes souvent présents dans d’autres<br />

domaines, où l’analyse <strong>des</strong> <strong>images</strong> constitue la condition sine qua <strong>non</strong> de prise de décision. Ces<br />

paradigmes sont la restauration d’<strong>images</strong>, la morphométrie, la segmentation, le recalage, la<br />

classification, la réalité augmentée, la simulation et la robotique.<br />

1.1 Analyse <strong>des</strong> <strong>images</strong> médicales<br />

Dans le cadre de nos travaux au LIMSI-CNRS, nous nous intéressons essentiellement à la<br />

segmentation, le recalage, la classification 1 et à leurs applications médicales.<br />

1.1.1 Segmentation<br />

Certainement la méthode d’analyse la plus utilisée en imagerie médicale. La segmentation est<br />

le processus qui consiste à répartir (partitionner) une image (en niveaux de gris ou en couleur)<br />

en un ensemble de régions compactes et homogènes.<br />

Dès la première numérisation d’un examen radiologique, on a été tenté d’effectuer <strong>des</strong> mesures<br />

sur les différents organes présents dans une image. Les premières métho<strong>des</strong> utilisées, empruntées<br />

au domaine d’imagerie satellitaire, opéraient dans un espace bidimensionnel. Elles interviennent<br />

dans plusieurs étapes du processus de prise de décision pour calculer le volume d’une tumeur,<br />

localiser la position d’une lésion ou d’un organe dans le repère anatomique lié à un patient,<br />

planifier une intervention chirurgicale ou encore pour guider le chirurgien lors d’une intervention...<br />

1 La classification n’a pu être intégrée dans cette introduction faute de temps. Néanmoins le lecteur peut<br />

consulter l’article ([Tarault et al., 2004]).


1.1 Analyse <strong>des</strong> <strong>images</strong> médicales 5<br />

Une <strong>des</strong> classifications possibles <strong>des</strong> métho<strong>des</strong> de segmentation consiste à les catégoriser<br />

fonctionnellement en métho<strong>des</strong> déterministes et métho<strong>des</strong> itératives.<br />

Les métho<strong>des</strong> déterministes consistent à «convoluer» une image I avec un filtre pre-défini F<br />

(I ∗ F ). Le résultat d’une telle opération est une image binaire représentant généralement <strong>des</strong><br />

contours plus ou moins fermés. La littérature nous offre un grand nombre de filtres présentant<br />

<strong>des</strong> propriétés intrinsèques différentes et une robustesse au bruit variable [Kunt et al., 1993].<br />

Parmi les métho<strong>des</strong> déterministes on peut citer une partie <strong>des</strong> métho<strong>des</strong> fondées sur le<br />

seuillage et les métho<strong>des</strong> fondées sur la morphologie mathématique.<br />

Le seuillage consiste à trouver les paramètres pour caractériser une région ([Sahoo et al.,<br />

1988]). Ces valeurs qui correspondent à un niveau de gris serviront à partitionner une image en<br />

deux régions. Les métho<strong>des</strong> déterministes utilisées pour calculer ce seuil font appel à l’analyse<br />

de l’histogramme <strong>des</strong> intensités de l’image à segmenter (Fig. 1.4). Si l’on veut traiter plus d’une<br />

région dans une image, plusieurs seuils peuvent être utilisés. On parle alors de multi-seuillage (Fig.<br />

1.5). Généralement, ces seuils sont choisis de façon interactive à l’aide d’une interface graphique<br />

Homme-Machine. Les Systèmes d’Aide au Diagnostic, dits en anglais CAR, CAD et CAS, pour<br />

Computed Aided Radiology, Decision, Surgery fournissent l’environnement logiciel adéquat.<br />

Fig. 1.4 Estimation <strong>des</strong> seuils séparant deux distributions.<br />

La morphologie mathématique propose une théorie et <strong>des</strong> opérateurs que l’on peut appliquer<br />

localement dans les <strong>images</strong> pour extraire et modifier <strong>des</strong> formes. Un exemple d’application à


6 Introduction<br />

<strong>des</strong> <strong>images</strong> médicales pour segmenter <strong>des</strong> structures anatomiques est présenté par [Höhne and<br />

Hanson, 1992]. Une illustration de techniques combinant la restauration d’<strong>images</strong>, la morphologie<br />

mathématique et les modèles déformables est présentée dans [Grimson et al., 1997].<br />

: [-1500, +350]<br />

: [+350, +940]<br />

: [+940, +980]<br />

: [+980, +1100]<br />

: [+1100, +2200]<br />

Intervalles de seuillage<br />

: [-2500, -870]<br />

: [-870, -250]<br />

: [-250, -200]<br />

: [-200, +200]<br />

: [+200, +2200]<br />

Intervalles de seuillage<br />

Coupe Axiale<br />

Coupe Axiale<br />

Multiseuillage<br />

Multiseuillage<br />

Fig. 1.5 Résultats d’un multiseuillage avec étiquetage <strong>des</strong> régions.<br />

Les métho<strong>des</strong> déterministes souffrent d’une faible robustesse en présence de bruit dans les<br />

<strong>images</strong>. De plus, la plupart <strong>des</strong> métho<strong>des</strong> de filtrage traite la totalité d’une image, alors que le<br />

radiologue ne s’intéresse souvent qu’à une seule portion de celle-ci.<br />

Nombre de métho<strong>des</strong> dites itératives ont été proposées pour résoudre le problème de la<br />

segmentation. Cette classe de métho<strong>des</strong> respecte un schéma fixe : partir d’une solution initiale,<br />

puis à l’aide d’un critère précis faire évoluer l’algorithme jusqu’à ce qu’une condition prédéfinie<br />

soit satisfaite. Dans cette classe on peut intégrer la croissance de région, les modèles déformables<br />

2D (contours actifs) (Fig. 1.6) et 3D (Fig. 1.7). La particularité de ce type de métho<strong>des</strong> se situe<br />

dans le critère d’évolution de l’algorithme. Ce critère, dit d’appartenance dans le cas de croissance<br />

de région et d’évolution dans le cas <strong>des</strong> modèles déformables, fait appel à <strong>des</strong> techniques soit<br />

statistiques (entropie,..) soit stochastiques (modèles markoviens). Un autre avantage apporté par<br />

l’utilisation de critères itératifs est la possibilité d’intégrer <strong>des</strong> informations a priori comme <strong>des</strong><br />

contraintes topologiques ou iconiques.<br />

Une autre classification <strong>des</strong> métho<strong>des</strong> de segmentation consiste à distinguer les approches


1.1 Analyse <strong>des</strong> <strong>images</strong> médicales 7<br />

Fig. 1.6 Étapes de la segmentation par contours actifs.


8 Introduction<br />

«données» <strong>des</strong> approches «modèles». Le seuillage et l’approche région feront alors partie de la<br />

première catégorie et les modèles déformables appartiendront à la deuxième.<br />

Fig. 1.7 Segmentation par modèles déformables 3D.<br />

Bien sûr, il est toujours possible de considérer d’autres critères de classification, mais nous<br />

avons préféré nous contenter d’évoquer, de façon <strong>non</strong>-exhaustive, les métho<strong>des</strong> les plus utilisées<br />

pour donner une idée précise de l’utilité <strong>des</strong> métho<strong>des</strong> de segmentation appliquées à l’analyse <strong>des</strong><br />

<strong>images</strong> médicales. On ne dispose toujours pas dans ce domaine d’une méthode générique. Les<br />

<strong>images</strong> médicales sont, sans aucun doute, les plus riches en information et les organes présentent<br />

<strong>des</strong> variations considérables avec <strong>des</strong> problèmes spécifiques. Les seules solutions qui donnent <strong>des</strong><br />

résultats convaincants aujourd’hui sont <strong>des</strong> métho<strong>des</strong> dédiées. Cependant les solutions proposées<br />

pour traiter un type d’organes ne sont généralement pas applicables aux autres. Pour s’en per-<br />

suader, il suffit au lecteur d’imaginer la différence structurelle et iconique qui existe entre le foie<br />

et le cerveau par exemple.<br />

1.1.2 <strong>Recalage</strong><br />

En imagerie médicale, le mot recalage est apparu dans le courant <strong>des</strong> années soixante-dix.<br />

Le recalage est le processus qui vise à apparier <strong>des</strong> données provenant de sources différentes. Au


1.1 Analyse <strong>des</strong> <strong>images</strong> médicales 9<br />

début, son utilisation se limitait à la seule comparaison <strong>des</strong> examens acquis avec un décalage<br />

temporel. Ces examens provenaient d’une même modalité, en l’occurrence la tomodensitométrie.<br />

Ce type de recalage dit monomodal avait pour but une évaluation post-traitement. Les cliniciens<br />

peuvent ainsi évaluer la pertinence d’un traitement en comparant les variations du volume <strong>des</strong><br />

lésions traitées. Par contre, le besoin de représenter conjointement <strong>des</strong> informations provenant<br />

de plusieurs modalités d’acquisition n’est apparu que vers la fin <strong>des</strong> années 70, avec l’arrivée<br />

de l’IRM. Ce sont à la fois les propriétés physiques et le rendu de ces types de modalités qui<br />

ont poussé les chercheurs à combiner les informations fournies par ces techniques, pour pallier le<br />

manque d’imageur couvrant tous les aspects d’une forme étudiée. Ce recalage est dit structurel<br />

<strong>multimodal</strong>, puisque les modalités sollicitées ne mettent en exergue que la structure anatomique<br />

<strong>des</strong> zones étudiées (Fig. 1.8). Il intervient davantage dans l’évaluation pré et post-opératoire que<br />

dans les comparaisons diachroniques.<br />

Fig. 1.8 Illustration du recalage Multimodal Structurel : alignement d’une image<br />

TDM sur une image IRM.<br />

Récemment les chercheurs se sont intéressés à un nouveau type de recalage dit structu-<br />

rel/fonctionnel, qui fait appel à la fois à <strong>des</strong> modalités structurelles et fonctionnelles comme son<br />

nom l’indique (Fig. 1.9). L’imagerie cérébrale a été et reste le domaine le plus consommateur de<br />

ce type de recalage. Par exemple, pour traiter un patient épileptique, aussi bien le CT-scanner<br />

l’IRMf où la scintigraphie sont utilisés.<br />

La compréhension <strong>des</strong> processus physiologiques cérébraux passe aussi par le recalage struc-<br />

turel/fonctionnel. On peut alors associer une activation cérébrale à une structure.


10 Introduction<br />

Fig. 1.9 Illustration du recalage Multimodal Structurel-Fonctionnel : alignement<br />

d’une image TEP (fonctionnelle) sur une image IRM-T2(structurelle).<br />

Il existe aussi la classe de recalage dite recalage données/atlas. Pour <strong>des</strong> besoins plus liés à la<br />

détection d’anomalies, les données provenant soit d’un seul imageur, soit d’une fusion multimo-<br />

dale, sont recalées avec un atlas numérique préalablement établi. L’utilisation de l’atlas peut aussi<br />

servir de critère de recalage comme c’est le cas pour l’atlas de Talairach/Tournoux ([Talairach<br />

and Tournoux, 1988])(Fig. 1.10).<br />

Finalement, on peut évoquer le recalage multi-sujets. La fusion de données provenant de<br />

sujets différents est utile pour la construction d’atlas anatomiques et pour d’éventuelles étu<strong>des</strong><br />

statistiques sur une population. Ce type de recalage est d’autant plus intéressant qu’il constitue<br />

la brique de base de la detection automatique <strong>des</strong> anomalies.<br />

Notre travail porte sur le recalage <strong>multimodal</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> médicales, nous aborde-<br />

rons plus en détail ce problème dans les chapitres qui suivent.<br />

1.2 Sur les applications cliniques<br />

Les différentes métho<strong>des</strong> d’analyse évoquées précédemment présentent une aide précieuse<br />

pour l’établissement d’un traitement efficace. La segmentation et le recalage sont deux concepts<br />

étroitement liés car la solution de l’un participe à mieux résoudre l’autre. La segmentation peut<br />

être vue comme une application particulière du recalage. Mettre en correspondance un atlas


1.2 Sur les applications cliniques 11<br />

Fig. 1.10 Illustration du recalage <strong>multimodal</strong> données/atlas : alignement d’un<br />

volume TDM sur l’atlas anatomique de Talairach-Tournoux.


12 Introduction<br />

anatomique avec <strong>des</strong> données du patient produit une segmentation globale. Dans un autre sens,<br />

à supposer que l’on puisse segmenter toutes les structures anatomiques présentes dans les <strong>images</strong><br />

à recaler, le recalage serait alors réduit à un alignement direct : la mise en correspondance<br />

d’amers 2 géométriques étant une tâche assez simple.<br />

Dans ce paragraphe nous citerons quelques applications cliniques où ces métho<strong>des</strong> d’analyses<br />

sont utilisées.<br />

1.2.1 Diagnostic et décision thérapeutique<br />

Le diagnostic est l’acte médical qui permet de déceler l’origine de la souffrance d’un malade<br />

avant de lui prescrire un traitement thérapeutique approprié. Aujourd’hui, les modalités d’acqui-<br />

sition sont largement utilisées pour aider à cette tâche de diagnostic. Les techniques d’analyse<br />

d’<strong>images</strong> telles que la segmentation ou le recalage sont alors utilisées pour quantifier l’information<br />

fournie par ces imageurs. Pour illustrer notre propos, pre<strong>non</strong>s l’exemple <strong>des</strong> nodules pulmonaires<br />

(Fig. 1.11). Dans un premier temps, un ensemble d’acquisitions sont effectuées pour localiser le<br />

nodule, repérer sa nature et quantifier son volume. Une fois ces trois paramètres connus, une<br />

décision thérapeutique est alors envisageable. Selon la nature du nodule (vascularisé ou <strong>non</strong>), sa<br />

position et son volume, on décide de procéder à une intervention chirurgicale ou à un traitement<br />

par radiothérapie.<br />

(a) Localisation du nodule pulmonaire, reconstruction<br />

3D de son volume et du poumon gauche<br />

(b) Calcul du volume du nodule pulmonaire<br />

Fig. 1.11 Intérêt de l’imagerie et de l’analyse quantitative <strong>des</strong> données pour l’établissement<br />

du diagnostic : cas <strong>des</strong> nodules pulmonaires.<br />

2 un amer est un objet identifiable dans une image : point, ligne, surface...


1.2 Sur les applications cliniques 13<br />

1.2.2 Planification et simulation <strong>des</strong> interventions chirurgicales<br />

Toute intervention chirurgicale requiert la localisation précise <strong>des</strong> organes où lésions à traiter,<br />

et ce afin de permettre au chirurgien d’opérer sans altérer les structures adjacentes saines. Dans<br />

un stade pré-opératoire toutes les données requises pour identifier et étudier une anomalie sont<br />

réunies. Une fusion de ces informations est indispensable pour rendre aisée la localisation de<br />

la zone d’intérêt. La visualisation tridimensionnelle <strong>des</strong> données recalées permet au praticien<br />

de mieux définir par la suite sa stratégie thérapeutique. La segmentation intervient comme un<br />

moyen de représenter les organes et les lésions dans leur forme réelle en 3D, et permet alors<br />

au praticien de disposer de toutes les informations topologiques sur une forme anatomique. Si<br />

(a) Atlas pulmonaire (b) <strong>Recalage</strong> atlas pulmonaire/poumon segmenté<br />

Fig. 1.12 Collaboration segmentation-recalage pour la planification <strong>des</strong> interventions<br />

chirurgicales du poumon<br />

l’on reprend l’exemple donné dans la section précédente, la décision prise était de procéder à<br />

une extraction du nodule pulmonaire par chirurgie. Étant donné que le poumon est constitué<br />

de plusieurs lobes, il est d’une grande importance de savoir dans quel lobe loge le nodule, et de<br />

savoir si ce dernier se chevauche sur deux lobes adjacents (Fig. 1.12). Une fois ces informations<br />

réunies, le chirurgien peut alors décider comment exécuter son geste.<br />

Une autre application illustrative du besoin d’analyse d’<strong>images</strong> en planification chirurgicale<br />

est l’hépatectomie virtuelle. Comme c’est le cas pour le poumon, le foie se compose de différents<br />

segments, qui sont au nombre de huit. Lorsqu’un patient souffre d’un cancer du foie, avant<br />

de décider de l’acte thérapeutique approprié, une hépatectomie virtuelle permet d’étudier les<br />

différents aspects de la pathologie. La figure 1.13 montre un étiquetage ainsi que les différents<br />

volumes <strong>des</strong> segments hépatiques.


14 Introduction<br />

Fig. 1.13 Segmentation hépatique pré-opératoire pour la planification <strong>des</strong> interventions<br />

sur le foie


1.3 Contribution 15<br />

1.2.3 De la navigation chirurgicale per-opératoire<br />

La navigation chirurgicale per-opératoire est un champ de recherche nouveau et prometteur<br />

de la pratique médicale moderne. Elle fait appel en plus <strong>des</strong> métho<strong>des</strong> d’analyse d’<strong>images</strong> clas-<br />

siques à la robotique chirurgicale et aux métho<strong>des</strong> de réalité augmentée. Lors d’une intervention<br />

chirurgicale, le praticien peut désormais disposer d’informations ajoutées sur le corps du pa-<br />

tient ; informations auxquelles il ne peut accéder sauf à procéder à <strong>des</strong> techniques de chirurgie<br />

très invasives.<br />

Dans le cadre de nos travaux sur les nephrolithotomies percutanées, nous avons développé un<br />

module de réalité augmentée per-opéraoire, où <strong>des</strong> segmentations volumiques <strong>des</strong> calculs rénaux,<br />

du rein, <strong>des</strong> crêtes iliaques, <strong>des</strong> son<strong>des</strong> et de la 12 ième cote sont projetés sur le corps du patient<br />

afin de guider le chirurgien lors de son intervention (Fig. 1.14). La procédure est accessible sur<br />

le site : (http://www.france5.fr/fetescience/W00118/9/97451.cfm).<br />

Un autre exemple illustratif de l’importance <strong>des</strong> métho<strong>des</strong> d’analyse d’<strong>images</strong> dans la na-<br />

vigation per-opératoire concerne les biopsies crâniennes (Fig. 1.15). Dans une salle d’opération<br />

équipée d’un système de stéréotaxie, on peut désormais acquérir <strong>des</strong> données temps-réel du pa-<br />

tient par radiographie à courte distance (fluoroscopy). Ces <strong>images</strong> sont alors fusionnées avec <strong>des</strong><br />

<strong>images</strong> pré-opératoires (angiographie, TDM. . .) pour détecter la position de la lésion ainsi que<br />

son volume. Dans ce cadre, on fait aussi bien appel aux fusions 3D/2D et 3D/3D qu’aux modèles<br />

de segmentation volumique et de réalité augmentée.<br />

1.3 Contribution<br />

Mes efforts de recherche en imagerie 3D médicale ont concerné aussi bien la segmentation que<br />

la classification ou le recalage. Cependant, le problème du recalage d’<strong>images</strong> constitue le «centre<br />

de gravité» de mes travaux. Ce document s’intéresse en particulier à ce problème.<br />

Pourquoi une thèse de plus sur le recalage <strong>des</strong> <strong>images</strong> médicales ?<br />

Le problème du recalage, bien qu’il ait bénéficié d’une attention particulière de la part <strong>des</strong><br />

chercheurs, n’est hélas pas complètement résolu [Pluim et al., 2003]. Avant d’expliquer notre<br />

démarche méthodologique, donnant les limitations <strong>des</strong> algorithmes actuels :<br />

1. Les métho<strong>des</strong> de recalage fondées sur une approche iconique (i.e les métho<strong>des</strong> automa-<br />

tiques qui utilisent la seule intensité comme primitive de recalage) se limitent encore au<br />

cadre <strong>rigide</strong>.<br />

2. Les métho<strong>des</strong> iconiques nécessitent un temps de calcul conséquent dû à l’évaluation de<br />

l’histogramme conjoint <strong>des</strong> <strong>images</strong> à recaler.


16 Introduction<br />

(a) Segmentation 3D-NLPC : Corps, rein, son<strong>des</strong>,<br />

lithiases, crêtes iliaques, 12ème cote.<br />

(c) Segmentation 3D-NLPC : calibration.<br />

(b) Segmentation 3D-NLPC : position au bloc -<br />

Sonde, projection du corps, du rein, de la lithiase,<br />

<strong>des</strong> repères<br />

(d) Segmentation 3D-NLPC : position au bloc.<br />

Projection 3D et gaine du néphroscope.<br />

Fig. 1.14 Utilisation de la Réalité Augmentée dans la planification chirurgicale<br />

de nephrolithotomies percutanées


1.3 Contribution 17<br />

(a) Coupe de Radiographie à courte distance<br />

(fluoroscopie) acquise en temps réel lors de la<br />

biopsie<br />

(c) Calcul de la position dans le volume IRM recalé<br />

préalablement.<br />

(b) <strong>Recalage</strong> 2D/3D fluoroscopie-TDM.<br />

(d) Calcul de la trajectoire de la biopsie.<br />

Fig. 1.15 <strong>Recalage</strong> dans un environnement stéréotaxique pour le contrôle de biopsies.


18 Introduction<br />

3. Les algorithmes proposés dans la littérature, dédiés au recalage <strong>non</strong> <strong>rigide</strong>, se fondent, dans<br />

leur majorité, sur une approche géométrique qui nécessite une étape de segmentation <strong>des</strong><br />

structures homologues avant l’appariement de ces structures (i.e le recalage proprement<br />

dit). Ceci rend le résultat du recalage dépendant du résultat de segmentation et limite son<br />

application au recalage <strong>multimodal</strong> structurel puisque la segmentation <strong>des</strong> <strong>images</strong> fonction-<br />

nelles n’est souvent pas réalisable. Les algorithmes automatiques fondés sur une approche<br />

iconique sont encore rares et souffrent d’un temps de calcul conséquent.<br />

Le but de cette thèse est d’étendre l’approche iconique du recalage, qui se fonde sur l’analyse<br />

de l’histogramme conjoint <strong>des</strong> <strong>images</strong>, au recalage <strong>non</strong>-<strong>rigide</strong>. Le problème qui se pose alors est<br />

le temps de calcul conséquent que nécessite le calcul <strong>des</strong> critères iconiques et <strong>des</strong> histogrammes<br />

conjoints.<br />

Pour pallier ce problème nous avons procéder de la manière suivante :<br />

1. Définir le cadre théorique du recalage <strong>des</strong> <strong>images</strong> médicales.<br />

2. Explorer les mesures de similarité existantes dans la littérature et étudier plus spécifique-<br />

ment les critères iconiques.<br />

3. Entreprendre une étude théorique sur la notion de similarité en théorie de l’information et<br />

proposer un nouveau critère approprié au recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong>.<br />

4. Présenter le cadre théorique de l’estimation <strong>des</strong> densités de probabilité et proposer un<br />

estimateur <strong>non</strong>-paramétrique dédié au calcul de l’histogramme conjoint <strong>des</strong> <strong>images</strong>.<br />

5. Concevoir et mettre en œuvre un algorithme générique automatique de recalage <strong>non</strong>-<strong>rigide</strong><br />

<strong>multimodal</strong> <strong>des</strong> <strong>images</strong> médicales.<br />

6. Valider le critère de similarité en participant à une campagne d’évaluation retrospective<br />

afin d’identifier les limitations de l’approche dans un cadre clinique.<br />

7. Valider dans un cadre clinique l’algorithme développé.<br />

1.3.1 Organisation du document<br />

Étant donnés les sept thèmes principaux constituant le travail de ce mémoire, ce dernier<br />

s’organise naturellement de la manière suivante :<br />

– Le chapitre 2 dresse les fondements théoriques du recalage <strong>des</strong> <strong>images</strong> médicales. Deux<br />

approches principales seront abordées : l’approche géométrique et l’approche iconique. Un<br />

accent particulier sera mis sur les mesures de similarité qui se fonde sur la théorie de<br />

l’information. Nous finirons ce chapitre en identifiant les limitations de ces métho<strong>des</strong>.


1.3 Contribution 19<br />

– Le chapitre 3 aborde le problème du recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> médicales. Nous pré-<br />

senterons alors une courte bibliographie <strong>des</strong> méthode utilisées dans la littérature, et iden-<br />

tifierons le cadre théorique de ce type de recalage.<br />

– Le chapitre 4 est sans doute le plus important de ce mémoire. Notre objectif est de donner<br />

le cadre théorique de la notion de mesure de similarité afin de proposer un nouveau critère<br />

adapté au problème du recalage <strong>non</strong>-<strong>rigide</strong>. Dans ce chapitre nous définirons une classe de<br />

mesures de similarité dont nous retiendrons un critère qui s’applique de façon appropriée<br />

au recalage <strong>multimodal</strong> <strong>non</strong>-<strong>rigide</strong>.<br />

– Le chapitre 5 étudie les métho<strong>des</strong> d’estimation <strong>des</strong> densités de probabilité en vue de l’accélé-<br />

ration du calcul de l’histogramme conjoint, et présente notre choix du modèle d’estimation.<br />

– Le chapitre 6 présente de façon détaillée notre algorithme de recalage. Une spécification<br />

complète sera alors donnée. Elle concernera les différents développements théoriques abor-<br />

dés dans les chapitres précédents qui trouveront alors une traduction algorithmique.<br />

– Le chapitre 7 propose différentes évaluations de notre algorithme. La première est une éva-<br />

luation objective de notre critère de similarité à partir de la base de données «Vanderbilt».<br />

Cette évaluation concerne le cadre <strong>rigide</strong> du recalage. La deuxième évaluation concerne le<br />

cadre <strong>non</strong>-<strong>rigide</strong> du recalage.<br />

– Enfin, dans le chapitre 8 nous présenterons quelques applications cliniques de notre algo-<br />

rithme.


Chapitre 2<br />

<strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements<br />

théoriques<br />

2.1 Introduction<br />

Pour mieux comprendre le problème du recalage <strong>des</strong> <strong>images</strong>, en général, et médicales en<br />

particulier, nous nous proposons de commencer par un petit exemple :<br />

Fig. 2.1 Illustration simplifiée du problème de recalage<br />

Soient M et N, deux <strong>images</strong> d’une même scène, acquises par un capteur C (Fig. 2.1). Sup-<br />

posons que les deux acquisitions aient été effectuées à <strong>des</strong> instants différents, et qu’entre-temps<br />

la position du capteur ait changé.<br />

L’opération du recalage consiste à trouver la transformation géométrique T(.) qui relie les<br />

coordonnées x, évoluant dans l’espace VM, aux coordonnées y, appartenant à VN, tel que :<br />

21


22 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

x = T(y)<br />

Un exemple de transformation T est la transformation <strong>rigide</strong> qui a largement été utilisée en<br />

recalage d’<strong>images</strong> cérébrales. Elle s’écrit :<br />

T(x, y, z) = T (x, y, z) t + R(x, y, z) t , (2.1)<br />

où T est un vecteur de translation et R est une matrice (3 × 3) de rotation.<br />

L’espace ainsi que la nature de la transformation géométrique sont deux paramètres impor-<br />

tants dans le recalage <strong>des</strong> <strong>images</strong>. Ils dépendent généralement de l’application médicale et de<br />

la méthode d’acquisition. Ici, nous n’émettons aucune hypothèse sur ces deux paramètres, nous<br />

traitons le recalage dans son cadre général. Le chapitre 3 concerne les déformations géométriques<br />

<strong>des</strong> <strong>images</strong> médicales ; cet aspect y est étudié plus en détail.<br />

Pour mieux illustrer notre exemple, considérons le cas réel où pour suivre l’évolution d’une<br />

pathologie, le radiologue effectue <strong>des</strong> acquisitions TDM différées dans le temps (Fig. 2.2). Dans<br />

le cas étudié, le recalage est utilisé pour le suivi de l’évolution d’une métastase hépatique traitée<br />

par chimiothérapie [Osorio et al., 2001].<br />

2.2 Approche géométrique du recalage<br />

La méthode de recalage la plus intuitive consiste à identifier, dans les deux <strong>images</strong>, les struc-<br />

tures communes, puis à les mettre en correspondance. Ces structures peuvent être <strong>des</strong> primitives<br />

géométriques quelconques comme les points, les surfaces, les volumes, les hypersurfaces. . .. Dans<br />

ce qui suit nous exposons le cadre théorique régissant les deux premières primitives.<br />

2.2.1 Mise en correspondance <strong>des</strong> points<br />

Soient X = {xi} et Y = {yi} où i = 1 . . . K, K paires de points de correspondance extraites<br />

<strong>des</strong> deux <strong>images</strong> (Fig. 2.3). Les paramètres de la transformation géométrique sont trouvés en<br />

minimisant une distance quadratique entre chaque couple de points dans le sens <strong>des</strong> moindres<br />

carrés :<br />

Dp(T) =<br />

K<br />

||xi − T(yi)|| 2<br />

i=1<br />

La littérature nous offre un grand nombre de métho<strong>des</strong> fondées sur cette approche. La plus<br />

populaire est celle utilisant la décomposition <strong>des</strong> valeurs singulières ([Fitzpatrick and West, Feb.<br />

2000]).


2.2 Approche géométrique du recalage 23<br />

(a) Acquisition-1- TDM du foie et<br />

mesure du volume initial de la<br />

métastase, date d’acquisition 21-<br />

Février-2001<br />

(a) Acquisition-2- TDM du foie et<br />

mesure du volume de la métastase,<br />

date d’acquisition 14-Mai-2001<br />

(b) Acquisition-3- TDM du foie et<br />

mesure du volume de la métastase,<br />

date d’acquisition 2-Avril-2001<br />

Fig. 2.2 Suivi d’un patient traité par chimiothérapie.


24 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

Fig. 2.3 Extraction de points homologues<br />

La difficulté posée dans le cadre de ce type de recalage est l’identification <strong>des</strong> paires de points<br />

correspondants. Deux approches se distinguent : approches manuelles et approches automatiques.<br />

L’identification manuelle <strong>des</strong> primitives géométriques est la méthode la plus utilisée en image-<br />

rie médicale. Se basant sur l’expertise du radiologue, ces primitives sont extraites puis labelisées.<br />

Un grand nombre de Systèmes d’Aide au Diagnostic proposent <strong>des</strong> interfaces graphiques pour<br />

identifier ces primitives. Une preuve de leur succès est l’intégration dans la boite à outils «trai-<br />

tement d’<strong>images</strong>» MATLAB d’une interface pour le recalage par identification interactive <strong>des</strong><br />

points d’intérêt.<br />

Ces points d’intérêt peuvent être de nature intrinsèque ou extrinsèque. Les repères intrin-<br />

sèques sont <strong>des</strong> zones propres à l’anatomie du patient ; ils sont dans ce sens assujettis aux défor-<br />

mations locales <strong>des</strong> organes. Les repères extrinsèques sont <strong>des</strong> objets étrangers au corps humain,<br />

utilisés lors de l’acquisition pour fournir une invariance topologique. Le cadre stéréotaxique uti-<br />

lisé en neurochirurgie présente un exemple concret de ce type de repère (Fig. 2.4). Dans le cadre<br />

d’une étude d’évaluation retrospective <strong>des</strong> algorithmes de recalage, présentée au chapitre 7, le<br />

cadre stéréotaxique est utilisé pour déterminer la transformation de référence du recalage (gold<br />

standard) à laquelle on compare les résultats <strong>des</strong> différentes approches automatiques du recalage<br />

([West et al., 1996] ;[West et al., 1997a] ;[West et al., 1997b]).<br />

La qualité du recalage dépend du nombre de points utilisés. Plus on dispose de points plus la<br />

transformation géométrique est fine. Cependant l’identification manuelle de ces points d’intérêt<br />

est un exercice fastidieux. Naturellement, <strong>des</strong> recherches ont été orientées vers l’identification<br />

automatique de ces points d’intérêt. Ceci permet de s’affranchir de l’expertise anatomique et de<br />

disposer d’un grand nombre de points. Des modèles de déformation assez évolués peuvent alors<br />

être utilisés.


2.2 Approche géométrique du recalage 25<br />

Fig. 2.4 Acquisition TDM avec cadre stéréotaxique<br />

Plusieurs approches théoriques ont été proposées pour l’extraction et l’identification automa-<br />

tiques <strong>des</strong> points d’intérêt. Les premiers travaux remontent au début <strong>des</strong> années 80. Ils se fondent<br />

sur la notion d’invariance géométrique. Cependant, reproduire le processus humain, consistant à<br />

identifier les points communs à deux <strong>images</strong>, reste un exercice très compliqué dés que l’on veut<br />

l’automatiser. De plus, les erreurs d’extraction peuvent être très pénalisantes pour l’étape de<br />

mise en correspondance.<br />

2.2.2 Mise en correspondance de surfaces<br />

L’extraction de surfaces communes fait appel aux algorithmes de segmentation. A l’instar de<br />

l’approche fondée sur la mise en correspondance de points, le recalage s’effectue en deux étapes :<br />

la désignation dans chaque image, d’une zone d’intérêt et l’extraction de sa surface (Fig. 2.5),<br />

puis leurs mise en correspondance. Mais, une difficulté nouvelle s’ajoute : l’appariement. Les<br />

points <strong>des</strong> surfaces ne sont pas labelisés ce qui requiert l’utilisation d’une fonctionnelle nécessaire<br />

à l’identification <strong>des</strong> points homologues.<br />

Soit X = {xi}, avec i = 1 . . . K la surface extraite de l’image M.<br />

Soit Y = {yj}, avec j = 1 . . . L la surface correspondante à X extraite de l’image N.<br />

En désignant par ℘ la fonctionnelle d’appariement, la mise en correspondance revient à mi-<br />

nimiser une «distance» comme celle qui suit :


26 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

(a) Extraction du contour du crâne dans l’image cible<br />

TDM<br />

(b) Extraction du contour du crâne dans l’image source<br />

(déformée) TDM<br />

Fig. 2.5 Segmentation de surfaces homologues (contours du crâne) avant l’étape<br />

de mise en correspondance


2.2 Approche géométrique du recalage 27<br />

<br />

<br />

<br />

Ds(T) = K <br />

||xi − ℘(T(Y ), xi)|| 2<br />

i=1<br />

La fonctionnelle d’appariement ℘(T(Y ), xi) détermine le plus proche voisin yj, appartenant<br />

à la surface Y , de xi (Fig. 2.6). Contrairement à la distance Dp qui peut être calculée de façon<br />

déterministe, la fonctionnelle Ds nécessite un traitement itératif. En outre, Ds ne correspond<br />

pas à une «distance directe de recalage», à l’image de Dp, mais exprime une «mesure» qui<br />

rend compte de la transformation géométrique qui relie «au mieux» les deux surfaces, et par<br />

conséquent les deux <strong>images</strong>.<br />

Fig. 2.6 Contours représentant les objets homologues extraits à partir de deux<br />

modalités.<br />

L’aspect itératif de la fonctionnelle de recalage Ds nous astreint à utiliser une stratégie de<br />

recherche. On parle alors de procédure d’optimisation. Elle consiste à trouver le plus rapidement,<br />

dans l’ensemble Y le point yj le plus proche de xi. La méthode du plus proche voisin (ICP) est<br />

la plus utilisée dans ce cadre ([Besl and McKay, 1992]).<br />

Pour mieux comprendre les difficultés liées au recalage par mise en correspondance de surfaces,<br />

et <strong>des</strong> primitives géométriques en général, repre<strong>non</strong>s l’exemple cité précédemment. Admettons<br />

maintenant que les <strong>images</strong> M et N sont acquises par deux capteurs C1 et C2 (Figs. 2.7, 2.8).<br />

Contrairement au cas étudié jusque là, qui concernait le recalage monomodal, nous essayons ici<br />

d’illustrer la spécificité du recalage <strong>multimodal</strong> structurel.<br />

Dans ce cas, les <strong>images</strong> M et N présentent <strong>des</strong> structures communes, mais disposent chacune<br />

d’informations exclusives. De par la nature <strong>des</strong> objets de la scène et de leurs dispositions spa-<br />

tiales, l’ensemble <strong>des</strong> informations ne peut pas être mis en exergue par une seule modalité. Le<br />

problème du recalage ne se résume plus donc à une simple mise en correspondance de primitives<br />

géométriques communes, mais assure la complémentarité <strong>des</strong> <strong>images</strong>. Les surfaces résultantes


28 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

Fig. 2.7 Acquisition TDM du crâne<br />

Fig. 2.8 Acquisition IRM du crâne<br />

correspondent alors à l’intersection <strong>des</strong> surfaces extraites <strong>des</strong> <strong>images</strong> augmentée <strong>des</strong> surfaces<br />

exclusives à chaque image (Fig. 2.9).<br />

La qualité du recalage dépend de l’étape de segmentation nécessaire à l’identification <strong>des</strong>


2.2 Approche géométrique du recalage 29<br />

Fig. 2.9 Combinaison IRM/TDM recalée du crâne


30 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

structures homologues. Puisque la segmentation <strong>des</strong> <strong>images</strong> médicales présente un sujet de re-<br />

cherche difficile où il reste beaucoup à faire, il est courant qu’une étape d’ajustement manuelle<br />

soit opérée sur les points extraits afin d’éliminer les points aberrants (outliers).<br />

Le problème du recalage par mise en correspondance de surfaces se résume alors aux questions<br />

suivantes :<br />

– Comment extraire les surfaces communes ?<br />

– Quelle hypothèse doit-on émettre sur la nature de la transformation T ?<br />

– Comment apparier les points de ces surfaces ?<br />

– Quelles portions de ces surfaces faut-il utiliser pour évaluer la mesure de recalage ?(Points<br />

aberrants, erreurs de segmentation...)<br />

Plusieurs métho<strong>des</strong> ont été proposées pour répondre à chacune de ces questions. L’état de l’art<br />

publié par [Brown, 1992] regroupe, entre autre,l’ensemble <strong>des</strong> métho<strong>des</strong> utilisées pour le recalage<br />

de tous types d’<strong>images</strong>. Les états de l’art publiés ensuite par [Maintz and Viergever, 1996] [Maintz<br />

and Viergever, 1997] et [Pluim et al., 2003], concernent quant à eux, les <strong>images</strong> médicales. Ici,<br />

nous nous contentons de mettre en exergue la problématique du recalage et d’expliciter son cadre<br />

théorique.<br />

Il est à noter que d’autres primitives ont été utilisées pour le recalage <strong>des</strong> <strong>images</strong> médicales.<br />

Thirion et al. [Thirion, 1991] proposent, par exemple, la mise en correspondance de «lignes de<br />

crête» extraites de deux <strong>images</strong>.<br />

Illustrons à présent le problème du recalage <strong>multimodal</strong> fonctionnel/structurel (Fig. 2.10).<br />

Ce type de recalage, propre au domaine médical, fait appel à <strong>des</strong> modalités dont les principes de<br />

fonctionnement sont très différents.<br />

(a) IRM-T2 corrigée (b) TEP<br />

Fig. 2.10 Acquisitions IRM et TEP du cerveau d’un même patient


2.3 Approche iconique du recalage- modélisation par inférence statistique 31<br />

Dans ce problème, les <strong>images</strong> M et N représentent la même zone du cerveau, mais leurs<br />

rendus sont très différents. En effet, l’image M rend compte de l’aspect structurel du cerveau,<br />

alors que l’image N nous informe <strong>des</strong> activations cérébrales (i.e. son fonctionnement). L’image<br />

M a été acquise par IRM-T2 et l’image N par TEP.<br />

L’utilisation de modalités d’acquisition fonctionnelles introduit une difficulté de taille : l’infor-<br />

mation morphologique dans l’image N étant très pauvre, l’extraction de primitives géométriques<br />

devient alors un exercice très difficile, voire impossible dans certains cas. L’approche géométrique<br />

du recalage développée plus haut trouve alors ses limites et de nouvelles approches ont dû être<br />

inventées.<br />

2.3 Approche iconique du recalage- modélisation par inférence statistique<br />

L’approche iconique du recalage se fonde sur la comparaison locale <strong>des</strong> intensités. Les primi-<br />

tives utilisées ne sont pas, contrairement aux métho<strong>des</strong> étudiées plus haut, de nature géométrique,<br />

mais correspondent à <strong>des</strong> vecteurs 4D contenant la position et l’intensité. Elles ne nécessitent<br />

aucune extraction d’amers géométriques (i.e : aucune compréhension de la structure géométrique<br />

de l’image), ce qui leur vaut l’appellation de «métho<strong>des</strong> de bas niveau». Aucune segmentation <strong>des</strong><br />

<strong>images</strong> n’est alors nécessaire. Cette particularité les rend plus adaptées au recalage <strong>multimodal</strong><br />

<strong>des</strong> <strong>images</strong> médicales.<br />

Notons par m(x) l’intensité liée à la position x = (x, y, z) dans M, et par n(T(x)) son<br />

correspondant dans N. La relation générique entre ces voxels s’exprime :<br />

n(T(x)) = F(m(x), q) + η (2.2)<br />

Le terme F désigne la dépendance fonctionnelle entre les deux <strong>images</strong>. Elle correspond à<br />

la fonction de transfert entre les deux modalités utilisées. La variable q représente les facteurs<br />

exogènes liés à l’environnement d’acquisition (bruit de mesure, bruit de quantification, bruit<br />

biologique). La variable η correspond au bruit.<br />

Le recalage : un problème d’inférence statistique Le problème du recalage peut être<br />

vu comme un problème de maximum de vraisemblance ou de minimisation de variance [Costa<br />

et al., 1993], [Viola, 1995], [Leventon and Grimson, 1998] et [Roche et al., 2000]. La probabilité<br />

d’un voxel n d’une image N dite image «source», sachant M l’image «cible», T la transformation<br />

géométrique, q les facteurs exogènes, η le bruit, et la fonction d’imagerie F s’écrit ([Viola, 1995]) :


32 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

p(n|m, T, η, q, F ) = <br />

p [η = (n(T(x)) − F (m(x), q))] (2.3)<br />

x∈V<br />

L’hypothèse émise ici stipule que les voxels n de l’image N sont conditionnellement indépen-<br />

dants. Si les paramètres F , M, T, η et q sont connus, les voxels dans N sont indépendants. Pour<br />

un bruit gaussien, la transformation géométrique du recalage correspond au maximum de son<br />

log-vraisemblance qui s’écrit :<br />

log(l(T)) = log p(n|m, T, η, q, F ) (2.4)<br />

= <br />

log p(η = n(T(x)) − F (m(x), q)) (2.5)<br />

x∈V<br />

<br />

= −k1 (n(T(x)) − F (m(x), q)) 2<br />

x∈V<br />

(2.6)<br />

≈ −k2E[(n(T(X)) − F (n(X), q)) 2 ] (2.7)<br />

≈ −k2E[n(T(X)) 2 ] − 2E[n(T(X))F (m(X), q)] + E[F (m(X), q) 2 ] (2.8)<br />

E[.] désigne l’espérance mathématique.<br />

Les constantes k1 et k2 sont calculées à partir de la variance du bruit, supposé gaussien, et la<br />

taille du volume V . Elles n’interviennent pas dans le processus de maximisation. Dans l’expression<br />

2.7, la log-vraisemblance de la transformation T est fonction de la variance de l’image source N,<br />

de la corrélation entre l’image cible et l’image source, et de la variance de l’image cible. Pour les<br />

cas où les variances <strong>des</strong> <strong>images</strong> source et cible sont constantes, la meilleure transformation est<br />

celle qui maximise la correlation entre les deux <strong>images</strong> : E[n(T(X))F (m(X), q)].<br />

Le problème du recalage revient donc à trouver la transformation de coût minimum. Au-<br />

trement dit, la transformation au plus faible coût est celle qui exprime «au mieux» la relation<br />

géométrique entre l’image source N, et l’image cible M. Cette fonction peut s’écrire :<br />

C(T) = E[(n(T(X)) − F (m(X), q)) 2 ] (2.9)<br />

∝ − log l(T) (2.10)<br />

En réalité, le volume V dans lequel sont tirées les variables aléatoires x, correspond au volume<br />

de l’image «cible». L’espérance mathématique revient donc au calcul d’une moyenne empirique


2.3 Approche iconique du recalage- modélisation par inférence statistique 33<br />

faisant intervenir tous les points du volume Vm. La fonctionnelle de recalage s’écrit alors :<br />

S(T) = 1<br />

Vm<br />

Vm<br />

S(m(xi), n(T(xi))) (2.11)<br />

i=1<br />

La recherche de la relation spatiale entre les structures communes dans les <strong>images</strong> passe<br />

d’abord par l’évaluation de la dépendance entre les intensités de ces structures. La fonctionnelle<br />

S exprime la ressemblance <strong>des</strong> deux <strong>images</strong> et revient à une mesure de similarité -dissimilarité- qui<br />

tend à évaluer la fonction F soit directement, en utilisant <strong>des</strong> modèles linéaires ou <strong>non</strong>-linéaires,<br />

soit indirectement via <strong>des</strong> modèles statistiques.<br />

2.3.1 Conservation d’intensité<br />

La conservation d’intensité repose sur l’hypothèse que les intensités <strong>des</strong> <strong>images</strong> sont appa-<br />

rentées par une fonction identité : m = n. La mesure de similarité est donnée par la différence<br />

absolue <strong>des</strong> voxels <strong>des</strong> <strong>images</strong>.<br />

SDA(T) = 1<br />

Vm<br />

Vm<br />

||m(xi) − n(T(xi))|| (2.12)<br />

i=1<br />

L’utilisation de cette mesure de similarité suppose que les deux <strong>images</strong> sont exprimées dans<br />

la même échelle d’intensité et que les régions (organes) ont la même réponse impulsionnelle aux<br />

signaux <strong>des</strong> capteurs. Ceci ne peut être vrai que si l’on utilise la même modalité (Fig. 2.11) et<br />

en l’absence <strong>des</strong> facteurs exogènes évoqués précédemment.<br />

Une autre mesure de similarité peut être dérivée de l’hypothèse de conservation d’intensité<br />

qui est la somme <strong>des</strong> différences d’intensités au carré :<br />

SDC(T) = 1<br />

Vm<br />

Vm<br />

(m(xi) − n(T(xi))) 2 . (2.13)<br />

Cette mesure de similarité est dérivée directement de l’équation 2.8.<br />

i=1<br />

Les deux mesures de similarité détaillées ci-<strong>des</strong>sus peuvent être exprimées en fonction de<br />

l’histogramme conjoint <strong>des</strong> <strong>images</strong> cible et source.<br />

Notons pm,n les probabilités conjointes et pm et pn les probabilités marginales calculées à<br />

partir de l’histogramme conjoint.


34 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

(a) Image cible (b) Image source<br />

(c) Histogramme conjoint <strong>des</strong> <strong>images</strong> <strong>non</strong> recalées (d) Histogramme conjoint <strong>des</strong> <strong>images</strong> recalées<br />

Fig. 2.11 Illustration de la dépendance linéaire T=rotation de 45˚, F=I (identité)


2.3 Approche iconique du recalage- modélisation par inférence statistique 35<br />

Les deux formules s’expriment alors :<br />

Et pour la somme <strong>des</strong> différences au carré :<br />

SDA(T) = <br />

pm,n||(m − n)||. (2.14)<br />

m,n<br />

SDC(T) = <br />

pm,n(m − n) 2 . (2.15)<br />

m,n<br />

Le calcul de ces deux mesures de similarité ne nécessite pas le calcul de l’histogramme. Leur<br />

expression en fonction <strong>des</strong> probabilités conjointes est donnée ici pour illustrer la dépendance<br />

entre les <strong>images</strong>.<br />

L’hypothèse forte de conservation d’intensité astreint l’utilisation de ces mesures de simila-<br />

rité au cas monomodal du recalage. Leur utilisation a été souvent utilisée pour la comparaison<br />

d’<strong>images</strong> monomodales dans l’étude d’évolution de pathologies.<br />

2.3.2 Dépendance affine<br />

Même dans le cas le plus simple de recalage consistant à aligner <strong>des</strong> <strong>images</strong> IRM d’une même<br />

séquence, l’hypothèse de conservation d’intensité n’est pas satisfaite. Les pixels <strong>des</strong> <strong>images</strong> sont<br />

liés, dans ce cas, par une fonction linéaire. Plus généralement les voxels m et n sont reliés par la<br />

fonction affine :<br />

n(T(x)) = α.m(x) + β (2.16)<br />

Le cas linéaire correspond à β = 0. Une mesure de similarité adaptée à ce cas de figure est la<br />

corrélation.<br />

Définition :<br />

– La corrélation mesure le degré de relation (liaison) qui unit deux (ou plusieurs) variables.<br />

– Elle se calcule sur une série statistique double (ou multiple).<br />

– Elle n’implique pas de relation causale (dépendance directe -conservation d’intensité-).<br />

Dans la littérature, nous relevons deux classes de corrélation :<br />

– Corrélation linéaire de Pearson (ρ)<br />

– Corrélation de rang de Kendall (τ)<br />

Celle qui correspond à notre problématique est la corrélation linéaire de Pearson. Elle<br />

mesure le degré de liaison linéaire entre deux variables quantitatives aléatoires de distribution<br />

normale. Elle correspond à la covariance calculée sur les données centrées-réduites.


36 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

(a) Image cible (b) Image source<br />

(c) Histogramme conjoint <strong>des</strong> <strong>images</strong> <strong>non</strong> recalées (d) Histogramme conjoint <strong>des</strong> <strong>images</strong> recalées<br />

Fig. 2.12 Illustration de la dépendance linéaire T=rotation de 45˚,<br />

F(x)=0.5*x+20


2.3 Approche iconique du recalage- modélisation par inférence statistique 37<br />

Si on note par SM,N la matrice de covariance <strong>des</strong> <strong>images</strong> M et N, la corrélation de Pearson<br />

s’écrit :<br />

N.<br />

ρ(T) = SM,N<br />

SMSN<br />

=<br />

Q i=1 (m(xi) − m).(n(T(xi )) − n)<br />

<br />

Q<br />

i=1 (m(xi) − m) 2 . Q i=1 (n(T(xi )) − n)2<br />

(2.17)<br />

ou m et n désignent respectivement les moyennes <strong>des</strong> niveaux de gris dans les <strong>images</strong> M et<br />

En réalité, la corrélation de Pearson, ρ(T), est la version normalisée de la fonction coût<br />

C(T) exposée plus haut, sous hypothèse de dépendance affine :<br />

NC(T) = E[(n(T(X)) − m(X)) 2 ] (2.18)<br />

Ici, du fait de la relation affine entre les signaux, ce sont leurs versions normalisées qui sont<br />

utilisées :<br />

m(x) =<br />

m(x) − E(m(X))<br />

σ(m(X))<br />

(2.19)<br />

La version normalisée d’un signal est invariante au changement d’additivité et de multiplica-<br />

tivité. La fonction de coût normalisée s’écrit :<br />

NC(T) = 1 − EV [m(X)n(T(X))] − EV [m(X)]EV [n(T(X))]<br />

σV (m(X))σV (n(T(X)))<br />

(2.20)<br />

E[.] correspond à la moyenne empirique du signal, σ(.) est son écart type. La notation .V signifie<br />

que les positions sont tirés du volume V , en l’occurrence le volume de référence Vm.<br />

Un grand nombre d’algorithmes de recalage utilisent la corrélation de Pearson, appelée<br />

communément Coefficient de corrélation.<br />

En outre, l’indicateur statistique le plus répandu est sans aucun doute la fonction de corréla-<br />

tion (voir [Peebles, 1980]). Son expression en fonction de l’histogramme conjoint <strong>des</strong> <strong>images</strong> M<br />

et N s’écrit :<br />

ρ(T) = <br />

m,n<br />

(m − m)(n − n)<br />

pm,n<br />

σmσn<br />

(2.21)<br />

Cependant, l’utilisation du coefficient de corrélation ne présente <strong>des</strong> résultats optimaux que<br />

dans le cadre monomodal. L’hypothèse de dépendance affine entre modalités différentes est sou-<br />

vent grossièrement fausse.<br />

Toutefois, il est possible d’utiliser le coefficient de corrélation dans un cadre <strong>multimodal</strong>. Il<br />

s’agit de forcer la dépendance linéaire entre les <strong>images</strong>. Ceci peut être assuré en effectuant <strong>des</strong><br />

pré-traitements aux <strong>images</strong>. Cette idée a été avancée par [Van den Elsen et al., 1994] pour le


38 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

recalage TDM/IRM. Les prétraitements opérés principalement aux <strong>images</strong> TDM consistaient<br />

en un seuillage <strong>des</strong> structures osseuses dans les deux <strong>images</strong>, suivi d’une mise en échelle <strong>des</strong><br />

intensités. Ceci étant fait, la fonctionnelle S peut être exprimée par une simple somme <strong>des</strong><br />

différences au carré, ce qui correspond à l’hypothèse de conservation d’intensité développée plus<br />

haut.<br />

2.3.3 Dépendance fonctionnelle<br />

La dépendance fonctionnelle entre les <strong>images</strong> est une hypothèse mieux adaptée à l’aspect<br />

<strong>multimodal</strong> du recalage. Les intensités <strong>des</strong> deux <strong>images</strong> sont alors <strong>images</strong> les unes <strong>des</strong> autres<br />

par une fonction g <strong>non</strong>-linéaire (monotone ou <strong>non</strong>) : m = g(n). Où g(.) = F (., q). Dans ce cas,<br />

l’opération du recalage revient à chercher, conjointement, la fonction d’imagerie, les paramètres<br />

exogènes et la transformation géométrique. La probabilité p(n|m, T, N, q, F ), quand F et q sont<br />

inconnus, peut être calculée en intégrant sur tous les paramètres :<br />

<br />

<br />

p(n|m, T, η) = p(η = n(T(x)) − F (m(x), q))p(F )p(q)dF dq (2.22)<br />

x∈V<br />

Le calcul de cette double intégrale n’est pas réalisable. En revanche, une approximation empirique<br />

peut approcher le résultat souhaitable :<br />

p(n|m, T, η) ≈ max<br />

F,q<br />

<br />

p(η = n(T(x)) − F (m(x), q))p(F )p(q) (2.23)<br />

x∈V<br />

La fonction de coût dépend alors de deux variables : T et F (., q), sa formule globale s’écrit :<br />

C(T, g) = E[(n(T(X)) − g(m(X))) 2 ] (2.24)<br />

Rappelons que la fonction g englobe les paramètres de la fonction d’imagerie F et les facteurs<br />

exogènes. Le processus de recalage s’effectue alors alternativement :<br />

1. Partant d’une estimation de la transformation géométrique T, trouver les paramètres F et<br />

q (g(.)) pour lesquels les <strong>images</strong> sont les plus proches.<br />

2. Utiliser les paramètres trouvés en 1, les fixer, et chercher la nouvelle transformation géo-<br />

métrique qui minimise la différence entre les <strong>images</strong>.<br />

L’étape 1 peut être vue comme une procédure de régression : étant donné un échantillon de<br />

co-occurrences <strong>des</strong> intensités a = {. . . {ma, na} . . .} comment peut-on estimer les paramètres de<br />

la fonction g ? Un élément de réponse consiste à minimiser la variance entre les valeurs prédites


2.3 Approche iconique du recalage- modélisation par inférence statistique 39<br />

(a) Image cible (b) Image source<br />

(c) Histogramme conjoint <strong>des</strong> <strong>images</strong> <strong>non</strong>-recalées (d) Histogramme conjoint<br />

<strong>des</strong> <strong>images</strong> recalées<br />

Fig. 2.13 Illustration de la dépendance fonctionnelle T=rotation de 45˚, m(x) =<br />

(1−cos 2πn(T (x)))<br />

2


40 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

ma = g(na) et les valeurs courantes :<br />

g ∗ = argmin<br />

g C(T = cte, g) (2.25)<br />

= argmin E[(N − g(M))<br />

g 2 ] (2.26)<br />

= argmin Var[N − g(M)]<br />

g<br />

(2.27)<br />

La variable g(M) qui minimise la fonction du coût, C(T = cte, g), correspond à l’espérance<br />

conditionnelle de M sachant N : E[N|M].<br />

avec<br />

E[N|M] = g ∗ (M)<br />

g ∗ <br />

(m) =<br />

np(n|m)dn<br />

La valeur correspondante du coût est appelée variance conditionnelle et est notée Var(N|M).<br />

Une fois que la dépendance fonctionnelle g entre les <strong>images</strong> est établie, nous nous en servons<br />

pour établir la relation géométrique. Ceci peut être effectué par l’utilisation du théorème de<br />

variance totale [Roche et al., 1998] :<br />

V ar(N) = V ar[E(N|M)] + V ar[N − E(N|M)] (2.28)<br />

La variance de l’image N est composée de la somme de deux termes : V ar[E(N|M)] qui quantifie<br />

la part de N prédite par M, et V ar[N − E(N|M)] qui mesure la part de N qui ne dépend pas<br />

(fonctionnellement) de M. Ce dernier terme est minimal si la variance de l’image N, V ar(N), est<br />

très petite, ce qui signifie que l’image contient peu d’information, ou bien si le terme V ar[N −<br />

E(N|M)] est très grand, ce qui signifie que l’image N est bien prédite par M. La variance<br />

de l’image N est calculée dans la zone de recouvrement <strong>des</strong> deux <strong>images</strong>. Minimiser le terme<br />

V ar[N − E(N|M) peut conduire à déconnecter les deux <strong>images</strong> (problème du recouvrement<br />

partiel).<br />

Il semble donc raisonnable de comparer la part de N prédite par M avec la variance de N,<br />

ce qui donne le rapport de corrélation :<br />

C(N/M) =<br />

V ar[E(N|M)]<br />

V ar(N)<br />

V ar[N − E(N|M)<br />

⇔ C(N|M) = 1 −<br />

V ar(N)<br />

(2.29)<br />

Le rapport de corrélation mesure la dépendance fonctionnelle entre les image M et N. Plu-<br />

sieurs mesures de similarité fondées sur l’heuristique de dépendance fonctionnelle s’interprètent


2.3 Approche iconique du recalage- modélisation par inférence statistique 41<br />

comme un rapport de corrélation. Nous commençons par examiner la plus connue : le critère de<br />

Woods.<br />

Critère de Woods<br />

Les travaux de Woods sont les pionniers en recalage <strong>multimodal</strong> ([Woods et al., 1991], [Woods<br />

et al., 1993]). Pour recaler <strong>des</strong> <strong>images</strong> TEP et IRM du cerveau, Woods part de l’hypothèse que si<br />

les deux <strong>images</strong> sont parfaitement alignées, alors pour tous les points x dans une image M ayant<br />

une même intensité m, la variance d’intensité de leurs homologues dans l’image N est minimale.<br />

Notons par nm la moyenne <strong>des</strong> intensités n(T(x)) correspondant à l’intensité m(x) = m dans<br />

l’image cible M. De la même façon, leur écart type est noté : σn(m). Pour une intensité m<br />

donnée, la définition de la déviation standard normalisée s’écrit :<br />

σ ′ n(m) = σn(m)/nm<br />

(2.30)<br />

L’écart type de la distribution <strong>des</strong> valeurs n correspondant à chaque intensité m doit être minimisé<br />

au recalage. La mesure de similarité correspond à la somme <strong>des</strong> écart-types, pondérée par la<br />

probabilité de présence <strong>des</strong> valeurs m dans M, p(m) :<br />

σ(N) = <br />

m∈M<br />

p(m)σ ′ n(m) (2.31)<br />

La pondération fait en sorte que le processus de recalage est plus influencé par les variations<br />

d’intensité dans l’image source N que par les changements dans l’image cible M. Le choix de<br />

l’image source et de l’image cible est alors d’une grande importance. Généralement, pour un reca-<br />

lage fonctionnel/structurel, les modalités structurelles sont utilisées comme modèle de référence<br />

(<strong>images</strong> cibles).<br />

Le critère de Woods opère sous l’hypothèse que lorsque les <strong>images</strong> sont recalées, leurs régions<br />

uniformes se correspondent. Ceci tient pour valable qu’une intensité m dans M correspond à<br />

une et une seule intensité n dans N. Si, pour deux <strong>images</strong> recalées, une valeur m correspond<br />

à deux intensités n1 et n2 significativement différentes, alors la mesure d’accumulation autour<br />

de la moyenne donnera peu d’informations sur le recalage. Le degré de correspondance entre<br />

les intensités joue un grand rôle dans l’applicabilité du critère de Woods. Pour surmonter cette<br />

difficulté, Woods applique une segmentation sur les <strong>images</strong> IRM afin d’exclure les régions qui<br />

n’appartiennent pas au cerveau, et de ne garder que <strong>des</strong> régions uniformes assurant ainsi l’unicité<br />

d’appartenance <strong>des</strong> intensités [Woods et al., 1993].<br />

Le critère de Woods est à l’origine de beaucoup de travaux en recalage iconique, notamment


42 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

<strong>des</strong> métho<strong>des</strong> statistiques. Plusieurs variantes ont été proposées, nous en citons [Ardekani et al.,<br />

1995], [Alpert et al., 1996] et [Nikou et al., 1998].<br />

Le critère de Woods peut être apparenté au rapport de corrélation. Ils sont tous deux asy-<br />

métriques et évaluent le recalage comme un problème de minimisation de variance. Néanmoins,<br />

deux différences sont à relever : le rapport de corrélation somme <strong>des</strong> variances, alors que le critère<br />

de Woods somme <strong>des</strong> écarts type normalisés. L’invariance à la multiplication est assurée dans le<br />

critère de corrélation par division globale par rapport à la variance de l’image cible, alors que<br />

dans le critère de Woods chaque terme de la somme est divisé par une moyenne correspondante.<br />

Rapport de corrélation généralisée<br />

Plus récemment, Roche a introduit une mesure de similarité fondée sur l’hypothèse «heu-<br />

ristique» de dépendance fonctionnelle entre les <strong>images</strong> à recaler [Roche, 2001]. Cette mesure<br />

appelée rapport de corrélation généralisé a été conçu pour le recalage <strong>multimodal</strong> ultrason/IRM,<br />

pour lequel les mesures existantes n’étaient pas adaptées. Le rapport de corrélation généralisé est<br />

fondé sur une distance asymétrique normalisée entre les intensités (un M-estimateur d’échelle).<br />

La normalisation est introduite de façon à tenir compte <strong>des</strong> effets de recouvrement partiel.<br />

Son expression en fonction de l’histogramme conjoint s’écrit :<br />

2.3.4 Dépendance statistique<br />

Cr(T) = 1 − 1<br />

σ 2 M<br />

<br />

n<br />

p(m, n)σ 2 n<br />

(2.32)<br />

Si l’on examine de près l’histogramme conjoint <strong>des</strong> <strong>images</strong> TDM et IRM recalées (Fig. 2.14),<br />

on se rend compte que l’hypothèse fonctionnelle de dépendance <strong>des</strong> intensités, aussi générale<br />

soit-elle, ne suffit pas pour exprimer la relation entre les intensités de ces <strong>images</strong>.<br />

Une façon alternative d’aborder la relation fonctionnelle entre les intensités <strong>des</strong> <strong>images</strong><br />

consiste à considérer leur dépendance statistique. Ceci permet de s’affranchir <strong>des</strong> hypothèses<br />

de linéarité ou de <strong>non</strong>-linéarité. Le concept de l’histogramme conjoint trouve alors tout son sens.<br />

La dépendance statistique repose sur l’idée que si l’on dispose d’un voxel m et de son homologue<br />

n, le nombre d’occurrences conjointes (co-occurrences) de ces voxels est maximal quand les <strong>images</strong><br />

sont parfaitement recalées. Autrement dit, plus l’histogramme conjoint est disparate, moins les<br />

<strong>images</strong> sont similaires. À mesure que les <strong>images</strong> approchent du recalage, les pics de l’histogramme<br />

conjoint augmentent, et les régions qui contiennent les faibles occurrences diminuent.


2.3 Approche iconique du recalage- modélisation par inférence statistique 43<br />

(a) Histogramme conjoint d’un couple d’<strong>images</strong> IRM-<br />

TDM recalées.<br />

(b) Histogramme conjoint d’un couple d’<strong>images</strong> IRM-<br />

TDM <strong>non</strong> recalées.<br />

Fig. 2.14 Illustration de la dépendance statistique entre les intensités d’une image<br />

IRM et une image TDM.<br />

La théorie de l’information nous offre un panel important de métho<strong>des</strong> pour évaluer la dis-<br />

parité et la quantité d’information dans un ensemble de données. La plus usuelle est l’entropie.<br />

Les travaux précurseurs dans ce domaine sont ceux entrepris par [Hill et al., 1994]. Il pro-<br />

pose, pour quantifier le décalage entre les faibles probabilités et les plus gran<strong>des</strong>, de mesurer<br />

l’«obliquité» dans la distribution <strong>des</strong> probabilités conjointes p(m, n). Les moments d’ordre su-<br />

périeur ont été choisis pour évaluer cette obliquité. La probabilité conjointe <strong>des</strong> voxels, p(m, n),<br />

<strong>des</strong> <strong>images</strong> M, N, est considérée comme variable aléatoire. Le moment d’ordre i s’écrit :<br />

υi(p(m, n)) = υi(M, N) =<br />

1<br />

0<br />

o(p(m, n)).p(m, n) i dp, (2.33)<br />

où o(p) correspond au nombre d’occurrences d’une probabilité p particulière.<br />

Pour le recalage d’<strong>images</strong> IRM/TDM, Hill a proposé l’utilisation de moments d’ordre 3 nor-<br />

malisés par le moment d’ordre 0 :<br />

S(T ) = υ3(M, N)<br />

υ0(M, N)<br />

(2.34)<br />

Une autre caractérisation importante d’une densité de probabilité est son entropie dont le<br />

rôle est fondamental en théorie de l’information.


44 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

Entropie Conjointe<br />

L’utilisation de l’entropie conjointe pour évaluer la disparité dans l’histogramme conjoint a<br />

été introduite par [Collig<strong>non</strong> et al., 1995] et [Studholme et al., 1995].<br />

H(M, N) = − <br />

p(m, n) log p(m, n) (2.35)<br />

m,n<br />

En théorie de l’information, l’entropie est définie comme une mesure de quantité d’informa-<br />

tion, de désordre et d’incertitude. Dans ce sens, l’entropie conjointe quantifie la disparité dans<br />

l’histogramme conjoint. Le recalage est assuré en minimisant son expression.<br />

Fig. 2.15 Illustration <strong>des</strong> étapes de recalage par minimisation de l’entropie<br />

conjointe<br />

Pre<strong>non</strong>s l’exemple <strong>des</strong> <strong>images</strong> M et N et de leurs combinaisons C 1 MN et C2 MN<br />

(Fig. 2.15).<br />

Tant que les deux <strong>images</strong> ne sont pas recalées, les structures communes seront dupliquées dans les<br />

<strong>images</strong> fusionnées. Au fur et à mesure de la correction géométrique, la duplication <strong>des</strong> structures<br />

est réduite. Nous pouvons considérer l’image «combinée», où les couples de valeurs <strong>des</strong> <strong>images</strong><br />

sources interviennent comme une valeur d’une seule image. Chaque valeur correspond à une<br />

paire particulière de valeurs provenant <strong>des</strong> <strong>images</strong> sources. Nous pouvons alors exprimer la dis-<br />

tribution de probabilité conjointe comme un vecteur 1D, l’opération du recalage est réduite ainsi<br />

à minimiser le «désordre» (entropie) dans l’image fusionnée en appliquant une transformation<br />

géométrique sur l’une <strong>des</strong> <strong>images</strong> sources.<br />

L’utilisation de l’entropie conjointe repose sur une forte hypothèse : les régions homologues<br />

sont, initialement, partiellement recalées. Leur zone de recouvrement augmente alors au fur et


2.3 Approche iconique du recalage- modélisation par inférence statistique 45<br />

à mesure que la correction géométrique a lieu. Si les deux <strong>images</strong> contiennent peu d’informa-<br />

tions, et que les régions homologues ne s’intersectent pas (ou peu) initialement, leur probabilité<br />

conjointe est alors minimale, et la probabilité conjointe <strong>des</strong> niveaux de gris du fond sera maxi-<br />

male. L’entropie conjointe est alors minimale lorsque les régions se déconnectent complètement<br />

(Fig. 2.16).<br />

Fig. 2.16 Illustration de la nécessité de normaliser l’entropie conjointe. Ici, du fait<br />

de la prédominance du niveau de gris du fond, la minimisation de l’entropie conjointe<br />

conduit à la déconnection <strong>des</strong> structures homologues dans les deux <strong>images</strong>.<br />

Information mutuelle<br />

Pour remédier à ce problème, il faudrait prendre en compte à la fois les informations com-<br />

munes aux <strong>images</strong> ainsi que les informations apportées par chacune <strong>des</strong> modalités. Pour ce faire,<br />

il suffit de minimiser l’entropie conjointe en fonction <strong>des</strong> entropies marginales <strong>des</strong> <strong>images</strong> M et


46 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

N. Ce qui revient à calculer l’information mutuelle entre les deux <strong>images</strong> :<br />

I(M, N) = H(M) + H(N) − H(M, N) (2.36)<br />

Proposée séparément par [Viola and Wells III, 1995] et [Collig<strong>non</strong> et al., 1995], l’information<br />

mutuelle évalue la corrélation statistique entre différents jeux de données. Dans un contexte<br />

d’imagerie, elle quantifie l’information que contient une image sur une autre image.<br />

Récemment, une étude comparative <strong>des</strong> métho<strong>des</strong> de recalage en imagerie médicale a dé-<br />

montré la supériorité d’information mutuelle sur les autres mesures de similarités [West et al.,<br />

1996] ;[West et al., 1997a] ;[West et al., 1997b]. Devenue depuis la mesure universelle de simi-<br />

larité en imagerie médicale, nombre de variantes ont été proposées, traitant de son application<br />

au recalage <strong>non</strong>-<strong>rigide</strong> ou à la <strong>multimodal</strong>ité fonctionnelle. Dans ce qui suit nous exposons ses<br />

fondements théoriques.<br />

Dorénavant, en évoquant le terme «entropie», nous entendons l’entropie de Shan<strong>non</strong> [Shan-<br />

<strong>non</strong>, 1948]. Les développements théoriques qui vont suivre seront évoqués dans un cadre plus<br />

large de la théorie de l’inférence statistique et de l’information que nous exposerons dans le cha-<br />

pitre 4. Le but ici est de présenter l’information mutuelle telle qu’elle a été utilisée par Collignion<br />

et Viola.<br />

Définition<br />

Dans la littérature, plusieurs définitions existent pour la notion de l’information mutuelle<br />

([Cover and Thomas, 1991]). En s’appuyant sur le diagramme de Venn, nous en donnerons les<br />

plus importantes :<br />

Dans le diagramme, chaque cercle représente l’entropie marginale d’une image. Les zones<br />

de recouvrement représentent l’information partagée par les deux <strong>images</strong>, dite aussi entropie<br />

relative, H(M||N), ou information mutuelle.<br />

En utilisant l’entropie de Shan<strong>non</strong> nous pouvons écrire :<br />

H(M) = − <br />

m∈M<br />

p(m) log(p(m)) (2.37)<br />

H(N) = − <br />

p(n) log(p(n)) (2.38)<br />

H(M, N) = − <br />

n∈N<br />

m∈M n∈N<br />

<br />

p(m, n) log(p(m, n)) (2.39)


2.3 Approche iconique du recalage- modélisation par inférence statistique 47<br />

Fig. 2.17 Diagramme de Venn représentant la relation entre les entropies marginales,<br />

les entropies conditionnelles et l’information mutuelle


48 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

p(m), p(n) et p(m, n) désignent, respectivement, la probabilité d’obtenir un voxel m, la<br />

probabilité d’obtenir un voxel n, et la probabilité d’obtenir conjointement les voxels m et n.<br />

Du diagramme, nous pouvons relever les relations suivantes :<br />

H(M, N) = H(M) + H(N/M) (2.40)<br />

= H(N) + H(M/N) (2.41)<br />

Ces relations peuvent être prouvées en utilisant la formule de Bayes :<br />

La probabilité conjointe s’écrit :<br />

L’entropie conjointe s’écrit alors :<br />

H(M, N) = − <br />

p(m/n) =<br />

p(n/m) =<br />

p(m, n)<br />

p(n)<br />

p(m, n)<br />

p(m)<br />

p(m, n) = p(m)p(n/m) = p(n)p(m/n)<br />

= − <br />

m∈M n∈N<br />

m∈M n∈N<br />

n∈N<br />

(2.42)<br />

(2.43)<br />

<br />

p(m, n) log (p(m, n)) (2.44)<br />

<br />

p(m/n)p(n) log (p(m/n)p(n)) (2.45)<br />

= − <br />

p(n) log (p(n)) − <br />

p(m/n) log (p(m/n)) (2.46)<br />

m∈M n∈N<br />

= H(N) + H(M/N) (2.47)<br />

= H(M) + H(N/M) (2.48)<br />

En remplaçant, dans l’équation 2.7, l’entropie conjointe par son expression en fonction <strong>des</strong><br />

probabilités marginales et conditionnelles, nous don<strong>non</strong>s deux <strong>des</strong> principales définitions de l’in-<br />

formation mutuelle qui peuvent être déduites aussi du diagramme de Venn.<br />

I(M, N) = H(M) + H(N) − H(M, N) (2.49)<br />

= H(M) − H(N/N) (2.50)<br />

= H(N) − H(N/M) (2.51)<br />

En interprétant l’entropie comme une mesure d’information et de l’incertain, l’information mu-<br />

tuelle traduit «la quantité d’information contenue dans une image N moins la quantité d’informa-


2.3 Approche iconique du recalage- modélisation par inférence statistique 49<br />

tion dans N sachant M». En d’autres termes, elle représente de combien l’incertain concernant<br />

M diminue quant N est connue. La réciproque est aussi valide. Maximiser l’information mu-<br />

tuelle revient alors à minimiser la quantité d’information que contient une image sur une autre,<br />

tout en maximisant l’information contenue dans une image. Ce qui correspond à maximiser la<br />

dépendance conditionnelle entre les <strong>images</strong>.<br />

Une autre définition de l’information mutuelle est donnée par la divergence de Kullback-<br />

Leibler [Kullback and Leibler, 1951], qui est définie pour deux distributions de densités de probabilité<br />

p et q, comme suit : <br />

. Partant toujours de l’équation 2.7, nous avons :<br />

i pi log pi<br />

qi<br />

I(M, N) = H(M) + H(N) − H(M, N) (2.52)<br />

= − <br />

p(n) log (p(n))) (2.53)<br />

n∈N<br />

− <br />

m∈M<br />

+ <br />

m∈M n∈N<br />

p(m) log (p(m))) (2.54)<br />

<br />

p(m, n) log (p(m, n)) (2.55)<br />

Par simple factorisation, nous obte<strong>non</strong>s une nouvelle définition de l’information mutuelle :<br />

I(M, N) = − <br />

m∈M n∈N<br />

<br />

p(m, n)<br />

p(m, n) log<br />

p(m)p(n)<br />

(2.56)<br />

qui correspond à la distance de Kullback-leibler entre la probabilité conjointe et le produit <strong>des</strong><br />

probabilités marginales :<br />

I(M, N) = DKL(p(m, n)||p(m)p(n)) (2.57)<br />

Cette formulation de l’information mutuelle est très riche en information. Si les deux <strong>images</strong><br />

sont indépendantes, la probabilité conjointe est égale au produit <strong>des</strong> probabilités marginales, ce<br />

qui annule la distance de Kullback-leibler :<br />

Si M et N sont indépendantes<br />

p(m, n) = p(m)p(n) ⇒<br />

p(m, n)<br />

log ( ) = 0<br />

p(m)p(n)<br />

(2.58)<br />

⇒ DKL(p(m, n)||p(m)p(n)) = 0 (2.59)<br />

⇔ I(M, N) = 0 (2.60)


50 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

Dans le cas où les deux <strong>images</strong> s’expriment parfaitement ; cas du recalage absolu, les proba-<br />

bilités marginales sont égales à la probabilité conjointe :<br />

p(m, n) = p(m) = p(n) ⇒ DKL(p(m)||p(m) 2 ) = DKL(p(n)||p(n) 2 ) (2.61)<br />

⇔ H(M) = H(N) = I(M, N) (2.62)<br />

Dans ce sens, l’information mutuelle est une mesure de dépendance entre les <strong>images</strong>. Elle<br />

s’annule quand celles ci sont complètement indépendantes, et est maximale lorsque les deux<br />

<strong>images</strong> s’expriment mutuellement. Dans le cas de dépendance parfaite elle est égale aux entropies<br />

marginale <strong>des</strong> <strong>images</strong>. Le processus du recalage revient donc à maximiser la dépendance entre<br />

les <strong>images</strong> source et cible.<br />

Propriétés<br />

Des définitions précédentes, nous pouvons déduire les propriétés principales de l’information<br />

mutuelle :<br />

– I(M, N) = I(N, M)<br />

Cette propriété de symétrie n’a qu’un sens théorique. En pratique, elle n’est pas toujours<br />

vraie, notamment pour le recalage <strong>des</strong> <strong>images</strong> médicales. Plusieurs considérations font que<br />

le choix de l’image source et de l’image cible influence le calcul de l’information mutuelle.<br />

– I(M, M) = H(M)<br />

L’information que contient l’image M sur elle même est égale à son entropie.<br />

– I(M, N) = 0 si et seulement si M et N sont indépendantes.<br />

D’autres propriétés intéressantes de l’information mutuelle peuvent être dérivées à partir de<br />

l’inégalité de Jensen. Pour toute fonction F concave l’inégalité :<br />

est satisfaite.<br />

E[F (M)] ≤ F (E[M]) (2.63)<br />

Une fonction est dite concave quand sa dérivée seconde est négative partout sur son domaine<br />

de définition. Cette condition étant satisfaite pour la fonction log, l’inégalité de Jensen nous<br />

permet de prouver les inégalités suivantes :<br />

– H(M) ≥ 0<br />

– H(N) ≥ H(N/M)<br />

– I(M, N) ≥ 0<br />

– I(M, N) ≤ H(M)<br />

– I(M, N) ≤ H(N)


2.3 Approche iconique du recalage- modélisation par inférence statistique 51<br />

Information mutuelle : normalisation<br />

Entropies<br />

Recouvrement<br />

d'<strong>images</strong><br />

I1 I2<br />

Solution: T1 Solution: T2<br />

Fig. 2.18 Dans ce diagramme I2 > I1, la solution du recalage est celle correspondant<br />

alors à T2, même si l’information partagée par les deux <strong>images</strong> est plus faible<br />

que celle donnée par T1<br />

L’information mutuelle a été développée initialement en théorie de la communication pour<br />

quantifier l’information échangée entre un émetteur et un récepteur. Dans le cadre du recalage<br />

d’<strong>images</strong>, en plus de dépendre <strong>des</strong> informations partagées par les <strong>images</strong> source et cible, elle<br />

dépend du volume de recouvrement <strong>des</strong> deux <strong>images</strong> qui change en fonction de la transformation<br />

géométrique appliquée à l’image source à un instant t. Dans la figure 2.18 par exemple, même<br />

si l’information partagée par les deux <strong>images</strong> est faible dans la solution donnée par la trans-<br />

formation T2, l’information mutuelle y est plus grande par rapport à la solution donnée par la<br />

transformation T1, qui correspond à la solution correcte du recalage. Afin de prendre en compte<br />

les changements de l’information mutuelle en fonction de la zone de recouvrement <strong>des</strong> <strong>images</strong>, il<br />

faudrait calculer cette dernière en fonction <strong>des</strong> informations contenues dans chacune <strong>des</strong> <strong>images</strong><br />

à recaler. Pour ce faire [Studholme, 1997] a proposé une version normalisée de l’information


52 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

mutuelle qui correspond au rapport de l’entropie conjointe et <strong>des</strong> entropies marginales :<br />

Y (M, N) =<br />

H(M) + H(N)<br />

. (2.64)<br />

H(M, N)<br />

Des approches alternatives ont été proposées pour réaliser le même objectif. Elles incluent le<br />

rapport de corrélation entropique :<br />

et l’information exclusive :<br />

introduites par [Maes et al., 1997].<br />

Ce(M, N) =<br />

2I(M, N)<br />

, (2.65)<br />

H(M) + H(N)<br />

ρ(M, N) = H(M, N) − I(M, N), (2.66)<br />

L’information mutuelle (et ses versions normalisées) étant définie en fonction <strong>des</strong> densités<br />

de probabilités conjointes et marginales, sa robustesse ainsi que sa précision dépendent alors<br />

<strong>des</strong> métho<strong>des</strong> choisies pour déterminer les éléments de l’histogramme. Dans le paragraphe qui<br />

suit, nous exposerons les métho<strong>des</strong> proposées dans la littérature, leurs avantages et leurs limites.<br />

Une partie de nos travaux portant sur les modèles d’estimation de densités de probabilité, nous<br />

reviendrons sur les principes théoriques de l’estimation dans le chapitre 5.<br />

Estimation <strong>des</strong> densités de probabilités<br />

Quand Collig<strong>non</strong> et Viola, chacun de leur côté, travaillaient sur ce qui allait devenir la mesure<br />

de similarité universelle en recalage <strong>des</strong> <strong>images</strong>, une seule chose différenciait leurs travaux : la<br />

méthode de calcul <strong>des</strong> densités de probabilités conjointes et marginales.<br />

De la méthode d’estimation dépend le temps de calcul et la précision de l’information mu-<br />

tuelle. Collig<strong>non</strong>, pour <strong>des</strong> raisons de précision, a négligé le facteur temps, et a préféré une<br />

méthode lente mais précise. Pour calculer les probabilités conjointes et marginales il a utilisé la<br />

méthode la plus directe : l’histogramme conjoint normalisé.<br />

Pour ce faire, il a restreint le nombre <strong>des</strong> niveaux de gris dans les deux <strong>images</strong> à 256. La taille<br />

de l’histogramme conjoint est alors de (256 2 ). Soit h(m, n) les entrées de l’histogramme conjoint,<br />

correspondant aux contingences <strong>des</strong> niveaux de gris m et n dans les deux <strong>images</strong>. h(m, n) dénote<br />

le nombre de fois que l’intensité m dans l’image M a coïncidé avec l’intensité n dans l’image N.


2.3 Approche iconique du recalage- modélisation par inférence statistique 53<br />

La probabilité conjointe est calculée par :<br />

pM,N(m, n) =<br />

h(m, n)<br />

h(m, n).<br />

<br />

m,n<br />

Les probabilités marginales peuvent être déduites directement :<br />

et<br />

pM(m) = <br />

pM,N(m, n),<br />

n<br />

pN(n) = <br />

pM,N(m, n).<br />

m<br />

Ce calcul de densités de probabilités présente deux principales limitations :<br />

– Le temps de calcul <strong>des</strong> densités de probabilités est conséquent, d’autant plus que que ce cal-<br />

cul s’effectue à chaque transformation géométrique (<strong>non</strong>-linéaires en général) intermédiaire<br />

de recalage, lors <strong>des</strong> itérations de l’algorithme.<br />

– La méthode de recalage est alors principalement discrète. En effet la formulation du pro-<br />

blème du recalage ne trouve pas de solution dans le domaine continu. Le fait que la fonction<br />

de recalage n’est pas dérivable, impose que la recherche de la transformation géométrique<br />

fasse appel aux métho<strong>des</strong> d’optimisation stochastiques. Des métho<strong>des</strong> quadratiques fondées<br />

sur le gradient ne sont donc pas exploitables.<br />

La méthode de recalage introduite par Collig<strong>non</strong>, représentait une avancée significative dans le<br />

domaine du recalage, et en particulier en recalage médical <strong>multimodal</strong>, mais elle tient peu compte<br />

du facteur temps qui est d’une importance <strong>non</strong> négligeable dans les phases d’interprétation<br />

d’<strong>images</strong> et de prise de décision. Ceci limite son application au cadre <strong>rigide</strong> du recalage.<br />

En revanche Viola a présenté une méthode de calcul <strong>des</strong> densités de probabilité, souvent<br />

qualifiée d’«élégante». Il a proposé d’utiliser une méthode d’estimation <strong>non</strong>-paramétrique dite<br />

«fenêtres de Parzen» :<br />

Soit A un échantillon de taille Na, la densité de probabilité d’une variable aléatoire z<br />

p(z) ≈ P ∗ (z, A) = 1<br />

<br />

R(z − zj) (2.67)<br />

NA<br />

zj∈A<br />

est la somme <strong>des</strong> contributions de chaque élément zj ∈ A ; contributions qui dépendent de la<br />

distance entre zj et z.<br />

La fonction R, dite noyau de Parzen détermine le poids de la contribution de chaque échan-<br />

tillon dans l’estimation de p(z). Plus l’échantillon est «loin» de z, moins il contribue dans le<br />

calcul de p(z). R est souvent appelée fonction de lissage ou fenêtre. La qualité de l’estimation


54 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

dépend à la fois de la nature de la fonction R de ses paramètres, notamment sa «largeur», et<br />

bien évidemment de la taille de l’échantillon d’estimation Na.<br />

Viola a choisi comme noyau R, une fonction gaussienne :<br />

R(z) ≡ Gψ(z − µ) =<br />

1<br />

(2π) n<br />

2 |ψ| 1<br />

2<br />

exp(− 1<br />

2 (z − µ)t ψ −1 (z − µ)). (2.68)<br />

Dans un espace de dimension n, la moyenne µ est un vecteur de taille d. La variance est remplacée<br />

par la matrice d × d de covariance ψ (|ψ| est le déterminant de ψ). Rappelons que la covariance<br />

est définie comme :<br />

ψij = E[(Zi − E[Zi])(Zj − E[Zj])],<br />

où Zi correspond au i ème composant de la variable aléatoire Z. Les éléments diagonaux de ψ ne<br />

sont rien d’autre que les variances.<br />

Dans le cadre de l’estimation, la fonction gaussienne évolue dans un espace bidimensionnel,<br />

elle est centrée sur les échantillons zj, µ est un vecteur nul, et la matrice de covariance est une<br />

matrice identité diagonale.<br />

P ∗ (z, a) = 1<br />

<br />

Gψ(z − zj) (2.69)<br />

NA<br />

z∈A<br />

= 1<br />

NA<br />

<br />

(2π) −1 |ψ|<br />

z∈A<br />

− 1<br />

2 exp (− 1<br />

2 (z − zj) T ψ −1 (z − zj)) (2.70)<br />

Le problème majeur posé par l’utilisation d’une méthode d’estimation telle que la méthode<br />

de Parzen est l’estimation <strong>des</strong> paramètres de la matrice de covariance. Dans une situation où<br />

l’on ne dispose d’aucune information sur la nature de l’évolution <strong>des</strong> données dans les <strong>images</strong>, et<br />

encore moins de leur évolution mutuelle (co-occurrence), ces paramètres ne peuvent être calculés<br />

correctement qu’au détriment d’un temps de calcul très élevé, ou de suppositions heuristiques<br />

sur le comportement <strong>des</strong> données <strong>des</strong> <strong>images</strong>. Ce point étant déterminant pour le système de pré-<br />

diction et par conséquent pour le recalage selon le schéma de Viola, nous nous sommes intéressés<br />

au métho<strong>des</strong> d’estimation de densités de probabilités et plus particulièrement aux métho<strong>des</strong> de<br />

prédiction <strong>des</strong> meta-paramètres (co-variance dans le cas d’une fonction à noyau gaussien) dans<br />

les métho<strong>des</strong> d’estimation <strong>non</strong>-paramétriques. Une <strong>des</strong> contributions majeures de cette thèse<br />

est la proposition d’une méthode d’estimation <strong>non</strong>-paramétrique où le choix <strong>des</strong> paramètres est<br />

déterminé automatiquement avec une complexité et un temps de calcul acceptables.<br />

Pour mieux illustrer cette difficulté nous allons développer la méthode proposée par Viola :


2.3 Approche iconique du recalage- modélisation par inférence statistique 55<br />

L’entropie d’une image exprimée par :<br />

H(z) ≈ −Ez[log P ∗ ∞<br />

(z)] = − log P<br />

−∞<br />

∗ (z)dz (2.71)<br />

est difficile à évaluer voire impossible. Cette intégrale peut néanmoins être approximée par une<br />

moyenne empirique :<br />

H(z) ≈ − 1<br />

<br />

log P ∗ (zi) (2.72)<br />

NB<br />

zi∈B<br />

où NB est la taille d’un second échantillon B. L’approximation de l’entropie s’écrit alors :<br />

H(z) ≈ − 1<br />

<br />

NB<br />

zi∈B<br />

log 1<br />

NA<br />

<br />

Gψ(zi − zj). (2.73)<br />

Deux échantillons sont alors nécessaires pour l’approximation de l’entropie. Le premier intervient<br />

dans l’estimation de la densité de probabilités, le deuxième dans le calcul de l’entropie proprement<br />

dite. En appliquant cette formule pour calculer les entropies marginales et conjointe intervenant<br />

dans le calcul de l’information mutuelle on obtient :<br />

H(m(x)) = − 1<br />

H(n(T(x))) = − 1<br />

H(m(x), n(T(x))) = − 1<br />

où w = [m(xi), n(T(x i ))] t .<br />

<br />

NB<br />

xi∈B<br />

<br />

NB<br />

xi∈B<br />

<br />

NB<br />

xi∈B<br />

log 1<br />

NA<br />

log 1<br />

NA<br />

log 1<br />

NA<br />

zj∈A<br />

<br />

xj∈A<br />

<br />

xj∈A<br />

<br />

xj∈A<br />

Gψm (m(xi) − m(xj)). (2.74)<br />

Gψn (n(T(xi )) − n(T(xj ))). (2.75)<br />

Gψmn (w(T(xi )) − w(T(xj ))). (2.76)<br />

Les paramètres de la matrice de covariance ψ doivent être choisis de façon à ce que P ∗ (z)<br />

soit la meilleure estimation de p(z). En d’autres termes, ψ est choisie pour que l’échantillon<br />

B ait la meilleure vraisemblance. Supposant que les épreuves dans B sont indépendantes, la<br />

log-vraisemblance de ψ s’écrit :<br />

log <br />

zi∈B<br />

P ∗ (zi) = <br />

log P ∗ (zi) (2.77)<br />

zi∈B<br />

Cette équation ressemble à l’équation 2.72. En fait, la log-vraisemblance de ψ est maximale<br />

quand l’estimateur de l’entropie h ∗ (z) est minimal. Pour <strong>des</strong> considérations de simplifications


56 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />

calculatoires, Viola suppose que la matrice de covariance est diagonale :<br />

ψ = DIAG(σ 2 1, σ 2 2, . . . ).<br />

Les paramètres σk sont calculés en utilisant un schéma d’optimisation type gradient conjugué<br />

([Press et al., 1988]) :<br />

où λ est le coût d’apprentissage.<br />

σk = σk + λ d<br />

H<br />

dσk<br />

∗ (z), (2.78)<br />

La recherche <strong>des</strong> coefficients de la matrice de covariance s’effectue avant la recherche de la<br />

transformation géométrique, ce qui induit une complexité algorithmique supplémentaire et de<br />

surcroît un temps de calcul significativement plus élevé.<br />

Cette contrainte a motivé Viola et d’autres chercheurs s’inspirant de son schéma à fixer<br />

les paramètres d’estimation. Ceci nécessite une certaine connaissance de la nature <strong>des</strong> <strong>images</strong> à<br />

traiter. Ces paramètres doivent être changés ou modulés chaque fois que l’on change de modalités<br />

ou tout simplement de zone anatomique. D’autres travaux par la suite ont concerné le pré-<br />

traitement <strong>des</strong> <strong>images</strong> à <strong>des</strong> fins de recalage par information mutuelle selon le schéma de Viola.<br />

Ce sont justement ces difficultés qui nous ont poussées à explorer dans un premier temps de<br />

nouvelles mesures de similarités fondées sur la notion d’entropie généralisée introduite par Rényi<br />

[Rényi, 1959], et par la suite à proposer une nouvelle méthode <strong>non</strong>-paramétrique d’estimation de<br />

densités.<br />

2.4 Synthèse du chapitre<br />

Ce chapitre a présenté la problématique du recalage d’<strong>images</strong> médicales, et a couvert les<br />

deux approches principales proposées pour sa résolution : l’approche géométrique et l’approche<br />

iconique.<br />

Ce chapitre a commencé par un exemple simplifié du recalage, et ce afin d’en définir le for-<br />

malisme mathématique. Se basant sur cet exemple, et en augmentant au fur et à mesure sa<br />

complexité <strong>des</strong> schémas de résolution ont été proposés. Le premier schéma a concerné l’approche<br />

géométrique. Deux exemples d’algorithmes appartenant à cette classe ont été donnés : l’apparie-<br />

ment de points, et l’appariement de surfaces. Les limites de cette approche ont été illustrées en<br />

démontrant son inadéquation au cadre <strong>multimodal</strong> du recalage et a fortiori au cadre <strong>multimodal</strong><br />

structurel-fonctionnel.


2.4 Synthèse du chapitre 57<br />

Par la suite, l’approche iconique a été introduite. Dans la suite <strong>des</strong> travaux de [Costa et<br />

al., 1993], [Viola, 1995], [Leventon and Grimson, 1998] et [Roche et al., 2000], le problème du<br />

recalage a été formulé comme un problème d’inférence statistique. Cette approche se fonde en<br />

premier lieu sur un modèle probabiliste de dépendance entre les <strong>images</strong> et en second lieu sur un<br />

estimateur <strong>des</strong>tiné à identifier ce modèle. Selon les différentes hypothèses émises sur la nature<br />

de dépendance entre les intensités, différentes métho<strong>des</strong> ont introduites. Les quatre hypothèses<br />

sont : la conservation d’intensité, la dépendance affine, la dépendance fonctionnelle et la dépen-<br />

dance statistique. Concernant cette dernière hypothèse, un accent particulier a été mis sur les<br />

métho<strong>des</strong> utilisant l’information mutuelle. Par la suite, la limite de l’entropie conjointe, et la<br />

nécessité d’intégrer les entropies marginales, due au problème du recouvrement partiel, ce qui<br />

aboutit à l’information mutuelle ont été illustrés. En outre, a été mis en exergue la nécessité<br />

de normalisation de l’information et ont été présentées les différentes variantes normalisées de<br />

l’information mutuelle.<br />

Enfin, ce chapitre se termine par une discussion sur le temps de calcul que requiert l’infor-<br />

mation mutuelle dans un cadre de recalage. Pour illustrer ce fait, une comparaison <strong>des</strong> deux<br />

algorithmes pionniers proposés par Collig<strong>non</strong> d’un côté et Viola de l’autre a été effectuée. Un<br />

aspect particulier a été étudié : l’évaluation de l’histogramme conjoint. Ceci a permis de mettre<br />

en évidence la nécessité de faire appel à une méthode d’estimation pour calculer l’histogramme<br />

conjoint. Ainsi, <strong>des</strong> modèles de déformation <strong>non</strong>-linéaires peuvent être envisagés.


Chapitre 3<br />

<strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

Dans le chapitre précédent, nous avons présenté le cadre théorique du recalage <strong>des</strong> <strong>images</strong><br />

médicales. Deux approches principales ont été étudiées : l’approche géométrique et l’approche<br />

iconique. En revanche, un point crucial du recalage <strong>des</strong> <strong>images</strong> n’a toujours pas été abordé : le<br />

modèle de déformation.<br />

Dans ce chapitre, nous présenterons brièvement les différentes classes de transformations<br />

ainsi que leur implication dans le recalage <strong>des</strong> <strong>images</strong> médicales. Nous introduirons les modèles<br />

linéaires, puis les modèles <strong>non</strong>-linéaires et nous nous attarderons sur les modèles fondées sur les<br />

déformations «splines».<br />

3.1 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche linéaire<br />

Une transformation linéaire se définie de la sorte : x ↦→ Anx + bn , où n est la dimension, An<br />

est une application linéaire de dimension n × n, et bn est un vecteur de translation de dimension<br />

n × 1. Ces transformations linéaires peuvent être <strong>rigide</strong>s, affines, ou projectives :<br />

3.1.1 Transformation 3D globale <strong>rigide</strong><br />

La transformation 3D globale la plus simple à envisager est la transformation <strong>rigide</strong>. Cette<br />

transformation est a priori appropriée au recalage d’<strong>images</strong> cérébrales monomodalité et mono-<br />

patient (le crâne étant considéré comme un objet 3D <strong>rigide</strong>).<br />

Une transformation <strong>rigide</strong> 3D est une isométrie de R 3 conservant l’orientation (transforma-<br />

tion directe par opposition aux symétries qui sont <strong>des</strong> isométries indirectes). Une transformation<br />

59


60 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

<strong>rigide</strong> est donc tout simplement la composée d’une rotation et d’une translation. Dans la littéra-<br />

ture du recalage, certains auteurs considèrent que les transformations composées d’une rotation,<br />

d’une translation et d’un ou plusieurs facteurs de mise à l’échelle (donc isotrope ou anisotrope)<br />

sont aussi <strong>des</strong> transformations <strong>rigide</strong>s. Cependant si l’on s’appuie sur la définition exacte d’une<br />

transformation <strong>rigide</strong> ce n’est pas vrai.<br />

Pour les transformations globales, on considère comme <strong>rigide</strong>s, toutes les isométries du plan<br />

ou de l’espace qui conservent l’orientation. Pour les transformations locales, on considère comme<br />

<strong>rigide</strong>s, toutes les compositions de transformations <strong>rigide</strong>s au sens de la rigidité globale. Si T<br />

est une transformation <strong>rigide</strong>, alors T est une fonction de R 3 dans R 3 , qui à tout point (x, y, z)<br />

d’une image associe le point transformé (x ′ , y ′ , z ′ ), et est définie par :<br />

T(x, y, z) = (x ′ , y ′ , z ′ ) t = T + R(x, y, z) t , (3.1)<br />

où T est un vecteur de translation et R est une matrice (3 × 3) de rotation, donc orthogonale et<br />

de déterminant unitaire (i.e. orthonormale) pour satisfaire la conservation de l’orientation (pas<br />

de facteur d’échelle <strong>non</strong> plus).<br />

Dans ce cas, An est une matrice de rotation (An = R), elle a les propriétés suivantes :<br />

AA t = A t A = I et det A = +1. Dans le cas d’une symétrie nous avons det A = −1.<br />

Une telle transformation présente l’avantage d’être globale. Non seulement, c’est une trans-<br />

formation continue certes à support discret, puisque l’image d’une courbe est une courbe, mais<br />

en plus cette transformation conserve les angles et les formes (l’image d’un tétraèdre est un<br />

tétraèdre de même nature).<br />

Cette transformation <strong>rigide</strong> peut donc être utilisée uniquement pour recaler deux <strong>images</strong> ne<br />

présentant pas d’évolution de structures (croissance du crâne, ou modification de la position ou<br />

du volume d’une sous-structure) et dont les imageurs n’ont pas induit de distorsions. Néanmoins,<br />

on peut se servir d’une telle transformation comme bonne approximation d’une transformation<br />

faiblement élastique.<br />

3.1.2 Transformation affine<br />

C’est une similitude, c’est à dire une transformation <strong>rigide</strong> à laquelle on ajoute une affinité<br />

Sn(An) = SRn; sij = 0 pour i = j. Dans le cas particulier où les coefficients sii, i = 1 . . . n sont<br />

identiques, Sn est appelée homothétie. Sn porte alors les facteurs d’échelle selon les différentes<br />

directions de l’espace d’évolution. Cette transformation est employée à la fois pour <strong>des</strong> recalages<br />

de données <strong>multimodal</strong>es (cas où le facteur d’échelle est mal connu), et pour <strong>des</strong> recalages inter-<br />

sujets (dans la phase initiale).


3.1 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche linéaire 61<br />

Une transformation affine 3D est définie par douze coefficients aij. La relation entre les<br />

coordonnées dans une image et les coordonnées dans l’autre image est donnée par le système<br />

d’équations :<br />

⎛<br />

x<br />

⎜<br />

T(x, y, z) = ⎜<br />

⎝<br />

′<br />

y ′<br />

z ′<br />

⎞<br />

⎟<br />

⎠<br />

1<br />

=<br />

⎛<br />

⎜<br />

⎝<br />

a00 a01 a02 a03<br />

a10 a11 a12 a13<br />

a20 a21 a22 a23<br />

0 0 0 1<br />

⎞ ⎛ ⎞<br />

x<br />

⎟ ⎜ ⎟<br />

⎟ ⎜<br />

⎟ ⎜<br />

y ⎟<br />

⎟ ⎜<br />

⎠ ⎝ z<br />

⎟<br />

⎠<br />

1<br />

On peut décomposer la matrice de transformation affine en la matrice B =<br />

et le vecteur T = (a03, a13, a23) t qui est un vecteur de translation.<br />

⎛<br />

⎜<br />

⎝<br />

a00 a01 a02<br />

a10 a11 a12<br />

a20 a21 a22<br />

(3.2)<br />

– Si B = I (matrice identité), la transformation se réduit évidemment à une translation. Dans<br />

le cas particulier où B est une matrice de rotation, nous retrouvons une transformation<br />

<strong>rigide</strong>.<br />

– Si B = Diag(Sx, Sy, Sz), la transformation est une mise à l’échelle (avec les facteurs Sx<br />

selon x, Sy selon y et Sz selon z).<br />

L’écriture de cette transformation est généralement simplifiée par l’utilisation <strong>des</strong> transfor-<br />

mations homogènes [Newman and Sproull, 1979], qui permet de rassembler ces différentes trans-<br />

formations dans la même matrice M, où dans le cas 3D (n = 3) M se forme de la manière<br />

suivante :<br />

p ′ c = M.p ′ s ; M = M1.S ; M1 =<br />

⎛<br />

⎞<br />

s0<br />

⎜<br />

S = ⎜<br />

0<br />

⎜<br />

⎝ 0<br />

0<br />

s1<br />

0<br />

0<br />

0<br />

s2<br />

0<br />

⎟<br />

0 ⎟<br />

0<br />

⎟<br />

0 0 0 1<br />

⎛<br />

⎜<br />

⎝<br />

⎛<br />

⎜<br />

⎝<br />

⎠ ; p′ • =<br />

r00 r01 r02<br />

r10 r11 r12<br />

r20 r21 r22<br />

⎞<br />

⎟<br />

⎠<br />

t1<br />

t2<br />

t3<br />

0 0 0 1<br />

⎛ ⎞<br />

⎜<br />

⎝<br />

p ′ •1<br />

p ′ •2<br />

p ′ •3<br />

w•<br />

⎟ ; • ∈ {c, s}<br />

⎠<br />

avec ws = 1, pi = p′ i<br />

w , (dans le cas <strong>rigide</strong> et affine, on prend w = 1) et où rij, ti et si sont<br />

respectivement les coefficients de rotation, de translation et de facteur d’échelle. De cette manière<br />

la transformation T : ps ↦→ pc s’exprime :<br />

pci<br />

= <br />

j<br />

mijpsj .<br />

⎞<br />

⎟<br />

⎠ ;<br />

⎞<br />

⎟<br />


62 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

Une extension de cette transformation concerne l’utilisation de transformations affines par mor-<br />

ceaux, utilisées dans le cas de recalage inter-sujets. La méthode du Quadrillage Proportionnel de<br />

Talairach en est l’exemple le plus connu [Talairach and Tournoux, 1988].<br />

3.1.3 Transformation projective<br />

L’extension la plus directe <strong>des</strong> transformations affines sont les transformations inférant une<br />

perspective (ou une projection).<br />

C’est une transformation <strong>rigide</strong> (ou affine) qui permet de transformer un amer géométrique<br />

dans R n vers un espace de dimension inférieure R n−m (pour plus de détails sur cette classe<br />

de transformation, le lecteur peut se référer à [Faugeras, 1993]). Le cadre général d’utilisation<br />

de cette transformation est principalement pour <strong>des</strong> recalages 3D/2D, comme par exemple le<br />

recalage de radiographies sur <strong>des</strong> données Scanner X ou IRM [Bainville et al. 1995 ; [Betting et<br />

al., 1995] ; [Brown and Boult, 2002] ; [Fleute et al., 2002] ; [Zollei et al., 2001], [Atif et al., 2004]].<br />

Dans le cas d’une transformation projective recalant par exemple une structure 3D sur une<br />

structure 2D, on définit une matrice M2 dont les coefficients m2ij sont constants et dépendent<br />

<strong>des</strong> équations reliant ps à pc. Dans ce cas le coefficient wc est différent de 1. Ainsi pour une<br />

projection perspective sur le plan (z = αc + b), M2 prend la valeur suivante :<br />

p ′ c = M ′ p ′ s; M ′ = M2M; M2 =<br />

⎛<br />

⎞<br />

c<br />

⎜<br />

0<br />

⎜<br />

⎝ 0<br />

0<br />

c<br />

0<br />

0<br />

0<br />

α<br />

0<br />

⎟<br />

0 ⎟<br />

α c + b<br />

⎟<br />

⎠<br />

1 c<br />

où c est un coefficient de projection (distance focale par exemple). Ainsi nous avons :<br />

p ′ <br />

ci =<br />

j<br />

m ′ ijp ′ sj ; pcj = p′ ci<br />

w<br />

Pour les transformations projectives, l’alignement n’est conservé que pour les horizontales et<br />

les verticales, donc l’image d’une droite n’est une droite que si elle est verticale ou horizontale.<br />

Dans un cadre général, l’image d’une droite est une conique. Notons enfin que la transformation<br />

projective conserve tout de même les rapports de longueurs sur une courbe.


3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 63<br />

3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire<br />

Étant donné que <strong>des</strong> transformations locales sont à prendre en compte, un critère de régu-<br />

larisation doit être alors utilisé pour que le problème du recalage ne se transforme pas en une<br />

procédure de «morphing». En recalage d’<strong>images</strong>, à cause de certains facteurs tel que le bruit<br />

qui corrompt les mesures ou un résidu <strong>non</strong> corrigé, deux primitives homologues ne doivent pas<br />

nécessairement être parfaitement alignées. L’estimation du mouvement nécessite donc une régu-<br />

larisation de l’estimation [Neumaier, 1998], c’est à dire une contrainte sur la forme de la solution<br />

par une connaissance a priori de celle-ci.<br />

Le critère global du recalage est alors une association de deux énergies : le critère de similarité<br />

entre les deux <strong>images</strong> et une énergie de régularisation de la déformation :<br />

Sg(M, N) = − E<br />

sim(M,<br />

N) + Ereg(T) (3.3)<br />

<br />

T<br />

Lors de la procédure d’optimisation, l’énergie de régularisation est mise en compétition avec<br />

l’énergie de similarité, la similarité <strong>des</strong> <strong>images</strong> et la régularité de la transformation étant anta-<br />

gonistes.<br />

3.2.1 Transformation élastique<br />

Les techniques de recalage élastique ont été proposées dans un premier temps par [Bajcsy<br />

et al., 1983] pour la mise en correspondance entre un atlas du cerveau et les données tomoden-<br />

sitométriques d’un sujet humain. L’idée est de modéliser la déformation de l’image source dans<br />

l’image cible comme un processus physique qui ressemble à l’étirage d’un matériau élastique. Ce<br />

processus physique est régi par deux forces : une force interne provoquée par la déformation du<br />

matériau élastique (c.-à-d. effort) qui contrecarre toute force externe qui déforme le corps élas-<br />

tique de son état d’équilibre. Une force externe qui agit sur le corps élastique. Par conséquent la<br />

déformation du corps élastique s’arrête si les deux forces agissant sur le corps élastique forment<br />

un état d’équilibre. Le comportement du corps élastique est décrit par l’équation de dérivées<br />

partielles élastique linéaire de Navier (EDP) :<br />

µ∇ 2 u(x, y, z) + (λ + µ)∇(∇ . u(x, y, z)) + g(x, y, z) = 0. (3.4)<br />

Ici u décrit le champ de déplacement, g est la force externe agissant sur le corps élastique, ∇<br />

dénote l’opérateur de gradient et ∇ 2 dénote l’opérateur de Laplace. Les paramètres µ et λ<br />

sont les constantes d’élasticité de Lamé qui décrivent le comportement du corps élastique. Ces


64 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

constantes sont souvent interprétées en termes du module E1 de Young, qui relie la «tension»<br />

(strain) à la «contrainte» (stress) d’un objet, et du rapport E2 de Poisson, qui est le rapport<br />

entre la contraction latérale et la dilatation longitudinale :<br />

E1 =<br />

µ(3λ + 2µ)<br />

λ + µ<br />

E2 =<br />

λ<br />

2(µ + λ)<br />

La force externe g est la force qui agit sur le corps élastique et qui guide le procédé de recalage.<br />

Un choix commun pour la force externe est le gradient d’une mesure de similarité comme par<br />

exemple une mesure locale de corrélation basée sur les intensités.<br />

(3.5)<br />

L’équation EDP 3.4 peut être résolue par les métho<strong>des</strong> de différences finies et de sur-<br />

relaxations successives (SOR) (Successive Over-Relaxation) [Press et al., 1988]. Ce faisant, un<br />

champ discret de déplacement est produit pour chaque voxel. Alternativement, l’EDP peut être<br />

résolue pour seulement un sous-ensemble de voxels qui correspondent aux nœuds d’un modèle<br />

d’éléments finies [Gee et al., 1997], [Haynor et al., 1998]. Ces nœuds forment un ensemble de<br />

points pour lesquels les forces externes sont connues. Les déplacements <strong>des</strong> autres voxels sont<br />

obtenus par interpolation <strong>des</strong> éléments finis. Davatzikos [Davatzikos, 1997] a proposé une exten-<br />

sion du cadre élastique du recalage pour tenir compte <strong>des</strong> paramètres variables dans l’espace<br />

d’élasticité. Ceci permet à certaines structures anatomiques de se déformer plus librement que<br />

d’autres.<br />

3.2.2 Transformation fluide<br />

Le recalage fondé sur les transformations élastiques est limité par le fait que <strong>des</strong> déformations<br />

fortement locales ne peuvent être considérées puisque l’énergie de déformation liée à l’effort in-<br />

terne augmente proportionnellement avec la force de déformation. Dans le cadre du recalage<br />

fluide ces contraintes sont affaiblies avec le temps ce qui permet de modéliser <strong>des</strong> déformations<br />

fortement locales comprenant <strong>des</strong> coins. Ceci rend le recalage fluide particulièrement attrayant<br />

pour le recalage inter-sujets (recalage d’atlas compris) qui doivent considérer de fortes déforma-<br />

tions avec de grands degrés de variabilité.<br />

Les déformations élastiques sont souvent décrites dans un référentiel lagrangien, c.-à-d. par<br />

rapport à leur position initiale. Contrairement à cela, les déformations élastiques sont plus com-<br />

modément décrites dans un référentiel Eulerien, c.-à-d. par rapport à un volume de contrôle. Dans<br />

le référentiel Eulerien, les déformations du recalage élastique sont caractérisées par l’équation de<br />

dérivées partielles de Navier-Stokes,<br />

µ∇ 2 v(x, y, z) + (λ + µ)∇(∇ . v(x, y, z)) + g(x, y, z) = 0. (3.6)


3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 65<br />

qui ne diffère de l’équation 3.4 que par le fait que la dérivée est effectuée selon le champ v de<br />

vélocité plutôt que selon le champ u de déplacement. Le rapport entre la vélocité Eulerienne et<br />

le champ de déplacement est donné par :<br />

v(x, y, z, t) =<br />

∂u(x, y, z, t)<br />

∂t<br />

+ v(x, y, z, t) . ∇u(x, y, z, t).<br />

Pour résoudre l’equation 3.6, Christensen [Christensen et al., 1996] a suggéré l’utilisation de la<br />

méthode de «sur-relaxation successive» (SOR). Cependant, l’algorithme résultant requiert un<br />

temps de calcul conséquent. [Bro-Nielsen and Gramkow, 1996] ont proposé une variante plus<br />

rapide. Ici, l’equation 3.6 est résolue en dérivant un filtre de convolution à partir <strong>des</strong> fonctions<br />

propres de l’opérateur linéaire d’élasticité. [Bro-Nielsen and Gramkow, 1996] ont également fait<br />

remarquer que ceci revient à une régularisation par convolution avec un filtre gaussien comme<br />

proposé dans la méthode de recalage <strong>non</strong>-<strong>rigide</strong> proposée par Thirion [Thirion, 1998], où la<br />

déformation est modélisée par un processus de diffusion. Cependant, résoudre l’équation 3.6 par<br />

convolution n’est possible que si la viscosité est supposée constante ce qui n’est pas toujours le<br />

cas. Pour remédier à cela, Lester [Lester et al., 1999] a proposé un modèle dans lequel on permet<br />

à la viscosité du fluide de varier, et tient compte donc de différents degrés de déformabilité pour<br />

différentes parties de l’image. L’équation 3.6 doit alors être résolue en utilisant <strong>des</strong> schémas<br />

numériques conventionnels tels que SOR.<br />

3.2.3 Métho<strong>des</strong> d’éléments finis et modèles mécaniques<br />

Comme mentionné précédemment, l’EDP <strong>des</strong> déformations élastiques peut être résolue par<br />

les métho<strong>des</strong> d’éléments finis (MEF). [Edwards et al., 1998] ont proposé une version simplifiée <strong>des</strong><br />

MEF afin de modéliser les déformations <strong>des</strong> tissus mous dans un cadre de chirurgie assistée par<br />

ordinateur. Pour simuler les propriétés <strong>des</strong> structures <strong>rigide</strong>s, élastiques et flui<strong>des</strong> ils proposent un<br />

modèle à trois phases . L’image est divisée en maille triangulaire à n nœuds connectés φi. Chaque<br />

nœud est marqué selon les propriétés physiques <strong>des</strong> structures anatomiques fondamentales : Par<br />

exemple, l’os est marqué comme <strong>rigide</strong>, les tissus mous comme élastiques et le FCS (Fluide<br />

Cérébro-Spinal) comme fluide. Tandis que <strong>des</strong> nœuds marqués en tant que <strong>rigide</strong>s sont maintenus<br />

fixes, <strong>des</strong> nœuds marqués comme élastiques ou flui<strong>des</strong> sont déformés en réduisant au minimum une<br />

fonction d’énergie. [Edwards et al., 1998] ont proposé différents termes d’énergie pour contraindre<br />

les déformations : par exemple, <strong>des</strong> nœuds marqués comme élastique peuvent être contraints par<br />

une énergie de tension :<br />

E tension (φi, φj) = |φj − φi − φ 0 i,j| 2 ,


66 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

où φ 0 i,j<br />

correspond à la relaxation entre deux nœuds. Un choix alternatif pour les nœuds marqués<br />

comme élastiques est de considérer une énergie de rigidité (stiffness) :<br />

E rigidité (φi, φj, φk) = |φj − φk − 2φi| 2 .<br />

Les nœuds marqués comme flui<strong>des</strong> ne sont associés ni à l’énergie de tension ni à l’énergie de<br />

rigidité. En revanche ils ont une énergie d’élasticité (folding) :<br />

E élasticité/folding (φi, φj, φk) =<br />

A 2<br />

γ 2 A 2 0<br />

+ γ2 A 2 0<br />

A 2<br />

si A<br />

A0<br />

2 ailleurs<br />

où A0 est l’aire du triangle <strong>non</strong>-déformé, A est l’aire du triangle déformé et γ est un seuil de<br />

l’aire triangulaire au-<strong>des</strong>sus duquel la contribution d’énergie est constante. Cette énergie empêche<br />

le développement <strong>des</strong> singularités dans la transformation, c.-à-d. ou repliement <strong>des</strong> triangles<br />

(collapsing). Dans la variante proposée par [Edwards et al., 1998] le recalage est guidé par une<br />

mesure de similarité qui réduit au minimum la distance entre <strong>des</strong> points repères correspondants.<br />

3.2.4 Flot optique<br />

Une technique de recalage bien connue est la méthode fondée sur le flot optique. Par analogie,<br />

le flot optique est équivalent à l’équation de mouvement <strong>des</strong> écoulements incompressibles en<br />

mécanique <strong>des</strong> flui<strong>des</strong> [Horn and Schunck, 1980]. À l’origine, le concept du flot optique a été<br />

introduit en vision par ordinateur afin de recouvrer le mouvement d’un objet relativement à une<br />

visionneuse entre deux trames successives, dans une séquence temporelle d’<strong>images</strong>. Il repose sur<br />

l’hypothèse fondamentale que la luminosité (brightness) d’un point particulier d’une image reste<br />

constante entre deux trames successives, c.-à-d.<br />

≤ γ<br />

I(x, y, z, t) = I(x + δx, y + δy, z + δz, t + δt). (3.7)<br />

En utilisant le développement de Taylor et en ignorant les termes d’ordre supérieur, l’équation<br />

de flot optique 3.7 peut être réécrite comme :<br />

Qui peut s’écrire :<br />

∂I dx ∂I dy ∂I dz ∂I<br />

+ + +<br />

∂x dt ∂y dt ∂z dt ∂t<br />

= 0. (3.8)<br />

∆I + ∇I.u = 0, (3.9)


3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 67<br />

où ∆I est la différence temporelle <strong>des</strong> <strong>images</strong>, ∇I est le gradient spatial de l’image et u est la<br />

quantité de mouvement entre les deux <strong>images</strong>. En général, <strong>des</strong> contraintes de régularité supplé-<br />

mentaires sont imposées au champ de mouvement u afin d’obtenir une estimation plausible du<br />

flot optique.<br />

3.2.5 Splines<br />

Le terme «splines» se rapporte à l’origine à de longues ban<strong>des</strong> flexibles de bois ou de métal<br />

auxquelles on attachait <strong>des</strong> poids pour modeler les surfaces <strong>des</strong> bateaux et <strong>des</strong> avions. Un concept<br />

très semblable est employé pour exprimer <strong>des</strong> transformations spatiales. Par exemple, une trans-<br />

formation 2D peut être représentée par deux surfaces séparées dont les hauteurs au-<strong>des</strong>sus d’un<br />

plan correspondent au déplacements dans les directions horizontales ou verticales.<br />

Un grand nombre de techniques de recalage utilisant les splines sont fondées sur l’hypothèse<br />

qu’un ensemble de points homologues peuvent être identifiés dans les <strong>images</strong> source et cible.<br />

Ceci est analogue à l’approche géométrique du recalage <strong>rigide</strong> ou affine. Ces points homologues<br />

sont appelés points de contrôle. À ces points de contrôle, les transformations splines interpolent<br />

ou approximent les déplacements qui sont nécessaires à mettre en correspondance la position<br />

d’un point de contrôle dans l’image cible à son homologue dans l’image source. Les points de<br />

contrôle forment entre eux un champ de déplacement qui varie de façon régulière. La condition<br />

d’interpolation s’écrit :<br />

T(φi) = φ ′ i i = 1, . . . , n, (3.10)<br />

où φi dénote la position du point de contrôle dans l’image source et φ ′ i<br />

la position de son ho-<br />

mologue dans l’image cible. Il est une multitude de façons de déterminer les points de contrôle.<br />

Par exemple, les repères anatomiques ou géométriques qui figurent dans les deux <strong>images</strong> peuvent<br />

être utilisés pour définir la correspondance fondée sur les splines qui peut aligner les positions<br />

<strong>des</strong> repères dans l’image source avec leurs homologues dans l’image cible.<br />

Les plaques minces, splines généralisées<br />

L’idée de base de cette théorie de l’interpolation <strong>des</strong> fonctions à deux variables est due à<br />

Duchon [Duchon, 1976], et la formalisation a été mise en place par Meinguet [Meinguet, 1979]. La<br />

théorie <strong>des</strong> plaques minces fait partie d’une famille plus large de splines fondés sur les fonctions<br />

à base radiale. Ces dernières années, ils ont été largement utilisés en recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong><br />

<strong>images</strong>. Les fonctions spline à base radiale sont obtenues par une combinaison linéaire de n


68 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

fonctions θ(s) :<br />

t(x, y, z) = a1 + a2x + a3y + a4z +<br />

n<br />

bjθ(|φj − (x, y, z)|). (3.11)<br />

En définissant la transformation comme trois fonctions plaques minces séparées : T = (t1, t2, t3) t ,<br />

on obtient une correspondance géométrique entre les <strong>images</strong> dans laquelle les coefficients a ca-<br />

ractérisent la partie affine de la transformation spline et les coefficients b caractérisent la partie<br />

<strong>non</strong>-affine de la transformation. La condition d’interpolation définie dans l’équation 3.10 forme<br />

un ensemble de 3n équations linéaires. Pour déterminer les 3(n + 4) coefficients, douze équations<br />

supplémentaires sont nécéssaires. Ces douze équations assurent que la somme <strong>des</strong> coefficients<br />

<strong>non</strong>-affines b est égale à 0 et que leur produit avec les coordonnées x, y et z est nul. Sous une<br />

forme matricielle ceci peut se traduire par :<br />

<br />

Θ Φ<br />

Φ T 0<br />

<br />

b<br />

a<br />

<br />

=<br />

j=1<br />

<br />

Φ ′<br />

0<br />

<br />

. (3.12)<br />

Ici a est un vecteur 4×3 regroupant les coefficients affines a, b est un vecteur n×3 regroupant les<br />

coefficients <strong>non</strong>-affines b, et Θ est la matrice noyau avec Θij = θ(|φi − φj|). Résoudre ce système<br />

d’équations pour a et b en utilisant <strong>des</strong> métho<strong>des</strong> algébriques conduit à une transformation<br />

spline plaque-mince.<br />

La fonction radiale <strong>des</strong> splines plaque-mince est définie par :<br />

θ(s) =<br />

<br />

|s| 2 log (|s|) en 2D<br />

|s| en 3D<br />

. (3.13)<br />

D’autres fonctions radiales peuvent être utilisées, le choix le plus commun porte sur les mul-<br />

tiquadriques et les fonctions gaussiennes [Arad et al., 1994] [Davis et al., 1997]. Modéliser les<br />

déformations <strong>des</strong> <strong>images</strong> par le biais <strong>des</strong> splines plaque-mince présente nombre d’avantages. Elles<br />

peuvent par exemple être utilisées pour incorporer <strong>des</strong> contraintes supplémentaires comme la<br />

rigidité <strong>des</strong> corps [Little et al., 1997] ou <strong>des</strong> contraintes directionnelles dans la transformation de<br />

l’image cible [Bookstein and Green, 1993] .<br />

B-splines<br />

Généralement les fonctions radiales ont un support fini. Par conséquent chaque fonction<br />

contribue à la transformation et chaque point de contrôle a une influence globale sur la transfor-<br />

mation.


3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 69<br />

Les fonctions B-spline β n (x) présentent d’intéressantes propriétés. Elles sont, entre autres<br />

[Unser et al., 1993a] [Unser et al., 1993b] , <strong>des</strong> fonctions régulières et leurs dérivées sont explicites.<br />

Ce sont <strong>des</strong> fonctions polynomiales par morceaux de degré n ≥ 0 qui peuvent être définies par<br />

une convolution récursive :<br />

où β 0 est l’impulsion carrée unité :<br />

β n (x) = (β n−1 ∗ β 0 )(x)<br />

=<br />

+∞<br />

et où la fonction «sign» est définie par :<br />

−∞<br />

β n−1 (x)β 0 (x − t)dt, n > 0<br />

β 0 (x) = 1<br />

<br />

sign(x +<br />

2<br />

1 1<br />

) sign(x −<br />

2 2 )<br />

<br />

⎧<br />

⎪⎨ −1, x < 0<br />

sign(x) = 0,<br />

⎪⎩<br />

1,<br />

x = 0<br />

x > 0<br />

Dans plusieurs cas de figure, l’influence globale <strong>des</strong> points de contrôle est indésirable puisqu’il<br />

devient difficile de modéliser <strong>des</strong> déformations locales. En outre, pour un grand nombre de points<br />

de contrôle la complexité calculatoire <strong>des</strong> splines fonctions radiales devient prohibitive. Une<br />

alternative est d’employer les déformations de formes libres (FFDs) qui sont largement répandues<br />

en infographie.<br />

3.2.6 Déformations de formes libres<br />

En premier lieu, notons que les déformations libres sont <strong>des</strong> déformations de l’espace. En<br />

effet, l’idée de base derrière les déformations libres est très simple ; elle consiste à plonger l’objet à<br />

déformer dans un espace et à déformer cet espace. Les déformations faites sur l’espace sont ensuite<br />

appliquées à l’objet plongé et le déforment. Il faut aussi noter que cette forme de déformations<br />

libres est une déformation dite indirecte : on ne déforme pas directement l’objet, on se sert plutôt<br />

d’un outil de déformation intermédiaire (les points de contrôle) afin de parvenir à nos fins.<br />

Inspirés en partie par les déformations <strong>non</strong>-linéaires de [Barr, 1984], [Sederberg and Parry,<br />

1986] proposent une façon simple et conviviale de déformer de modèles, qu’ils ont baptisé les<br />

déformations libres. Le procédé se résume en trois étapes principales :


70 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

1. Créer un volume ayant la forme d’un parallélépipède autour de l’objet et imposer <strong>des</strong><br />

coordonnées locales à chaque point de l’objet à déformer<br />

2. Imposer une grille de points de contrôle sur le parallélépipède<br />

3. Déformer l’objet en bougeant les points de contrôle<br />

La première étape est simple à réaliser. Il s’agit simplement de paramétriser l’objet selon les trois<br />

vecteurs de base S, T et U selon l’equation 3.14 (voir figure 3.1).<br />

X = X0 + sS + tT + uU, (3.14)<br />

où u, v et t sont <strong>des</strong> variables paramétriques qui varient entre 0 et 1. X0 est la coordonnée<br />

cartésienne du point de départ (origine) du système paramétrique.<br />

Fig. 3.1 Espace FFD<br />

Lors de la deuxième étape, il s’agit de positionner les points de contrôle sur le parallélépipède<br />

selon l’équation :<br />

Pijk = X0 + j i k<br />

S + T + U, (3.15)<br />

l m n<br />

où l + 1, m + 1 et n + 1 sont les nombres de points de contrôle selon chaque axe tel que spécifié<br />

par l’opérateur. La variable X0 est la coordonnée cartésienne du point de départ (origine) du<br />

système paramétrique. Les variables i, j et k sont les indices (entre 0 et le nombre de points de<br />

contrôle selon chaque axe) du point de contrôle concerné.


3.3 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche hybride 71<br />

Enfin, lors de la troisième étape, la déformation est appliquée sur l’objet à l’aide du poly-<br />

nôme de Bernstein trivarié dont le degré dépend du nombre de points de contrôle demandés par<br />

l’opérateur.<br />

La transformation est illustrée par l’équation suivante :<br />

Xffd =<br />

l<br />

<br />

l<br />

(1 − s)<br />

i<br />

(l−i) s i<br />

⎡<br />

m<br />

<br />

⎣<br />

m<br />

(1 − t)<br />

j<br />

(m−j) t j<br />

<br />

n<br />

<br />

k<br />

n<br />

i=0<br />

j=0<br />

k=0<br />

(1 − u) (n−k) u k Pijk<br />

⎤<br />

⎦<br />

(3.16)<br />

où Xffd est la coordonnée cartésienne du point transformé. l + 1, m + 1 et n + 1 sont les nombres<br />

de points de contrôle selon chaque axe. Pijk est le i, j,k ième point de contrôle selon chaque axe.<br />

s, t et u sont les coordonnées paramétriques du point de l’objet à transformer.<br />

Comme dans le cas <strong>des</strong> surfaces paramétriques, les transformations libres ont les mêmes<br />

avantages et inconvénients que les courbes de Bézier, à savoir :<br />

1. Les déformations sont globales.<br />

2. Les points déformés se trouvent toujours à l’intérieur de l’espace défini par les points de<br />

contrôle.<br />

3. La déformation est indirecte (on ne peut manipuler directement les points de l’objet).<br />

4. Il est possible de choisir une autre base de fonction de mélange et ainsi bénéficier <strong>des</strong><br />

avantages et inconvénients de la base choisie.<br />

Notons qu’il est possible d’utiliser <strong>des</strong> fonctions de déformation autre que le polynôme de<br />

Bernstein. Dans notre modèle, pour modéliser les déformations locales <strong>des</strong> organes, nous utilisons<br />

un modèle de déformations de formes libres où l’on se sert de fonctions B-splines.<br />

3.3 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche hybride<br />

Après ce bref tour d’horizon, nous allons à présent introduire notre modèle de déformation<br />

qui correspond à une combinaison d’une déformation globale et de déformations locales :<br />

T(x, y, z) = T globale (x, y, z) + T locale (x, y, z) (3.17)<br />

Ce choix est motivé par deux considérations : la première concerne la précision. Comme nous<br />

l’avons expliqué dans les sections précédentes, de plus en plus d’applications médicales néces-<br />

sitent la prise en compte <strong>des</strong> déformations locales dans les <strong>images</strong>. En se restreignant à une<br />

transformation globale ces déformations sont alors ignorées et l’«approximation» du recalage<br />

n’est que peu plausible. La deuxième considération est d’ordre calculatoire. En effet, formuler


72 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />

le modèle de déformation par le biais de deux transformations disjointes permet d’accélérer le<br />

temps de calcul. En pratique, au lieu de ne considérer que le modèle <strong>non</strong>-linéaire (y compris les<br />

déformations libres) pour retrouver les correspondances géométriques globales (affines et <strong>rigide</strong>s),<br />

il est judicieux de procéder dans un premier temps par une approximation globale en utilisant<br />

<strong>des</strong> modèles globaux directs (transformation affine globale). Ainsi, les degrés de liberté ne sont<br />

que de l’ordre de douze au lieu de |3000| dans le cas d’une déformation libre avec une grille de<br />

|10 × 10 × 10| points de contrôle.<br />

3.4 Synthèse du chapitre<br />

Ce chapitre vient de traiter du problème <strong>des</strong> déformations lié au recalage d’<strong>images</strong> médi-<br />

cales. Il a commencé par une présentation <strong>des</strong> déformations linéaires globales. Ces déformations<br />

englobent la transformation <strong>rigide</strong>, la transformation affine et la transformation projective.<br />

Par la suite, une présentation <strong>des</strong> recalages <strong>non</strong>-linéaires a été donnée. Le problème du re-<br />

calage a été formulé pour le cadre <strong>non</strong>-linéaire. Cette formulation intègre un nouveau terme dit<br />

énergie de régularisation. Le critère globale du recalage prend alors la forme d’une somme de<br />

deux énergies : l’énergie de similarité et l’énergie de régularisation.<br />

En outre, les différentes approches du recalage <strong>non</strong>-linéaire ont été exposées. Elles concernent<br />

les approches élastiques, flui<strong>des</strong>, par métho<strong>des</strong> d’éléments finis, splines, et par déformations<br />

libres. Un accent particulier a été mis sur les deux dernières approches. Les différentes métho<strong>des</strong><br />

appartenant à ces classes ont été présentées.<br />

Enfin, ce chapitre a présenté, brièvement, l’approche de recalage adoptée dans ce mémoire.<br />

Cette approche, «hybride», associe deux types de déformations : une déformation globale assurée<br />

par une transformation affine et un ensemble de déformations locales représentées par un modèle<br />

de déformations de formes libres.


Chapitre 4<br />

De la théorie de l’information et <strong>des</strong><br />

mesures de similarités<br />

4.1 Introduction<br />

Dans les chapitres précédents nous avons mis en lumière les fondements théoriques du pro-<br />

blème de recalage médical. Un accent particulier a été mis sur les métho<strong>des</strong> fondées sur la théorie<br />

de l’information et plus principalement sur celles utilisant l’information mutuelle. Notre travail<br />

comme nous avons eu l’occasion de l’expliquer s’inscrit dans ce schéma, qui se veut générique<br />

puisqu’il ne nécessite aucune connaissance a priori sur la dépendance fonctionnelle entre les<br />

modalités à recaler. Nous avons, de plus, mis en exergue la principale difficulté et limitation de<br />

l’information mutuelle : le temps de calcul conséquent qu’elle nécessite. Notre travail s’inscrit dans<br />

la continuité du schéma proposé par ([Viola, 1995]), schéma qui consiste à évaluer l’information<br />

mutuelle en utilisant une méthode d’estimation <strong>non</strong>-paramétrique à noyau continu (gaussien),<br />

n’utilisant ainsi qu’un échantillon <strong>des</strong> voxels <strong>des</strong> <strong>images</strong> et disposant d’un critère continu per-<br />

mettant l’utilisation de stratégies d’optimisation quadratiques fondées sur le gradient.<br />

Le chapitre que nous abordons représente le travail central de cette thèse, puisqu’une nouvelle<br />

mesure de similarité y sera exposée. L’idée originale que nous allons défendre consiste en la défini-<br />

tion d’une nouvelle mesure de similarité fondée sur l’entropie de Rényi. Cette idée qui commence<br />

à se généraliser en analyse et traitement d’<strong>images</strong> [He et al., 2001] a été introduite initialement<br />

par [Principe and Xu, 1999]. Dans le cadre de la classification <strong>non</strong>-supervisée, Principe propose<br />

le schéma original d’utiliser l’entropie de Rényi en association avec un noyau gaussien afin de<br />

réduire considérablement le temps de calcul. Cependant dans ses travaux, Principe ne définit<br />

pas une mesure de similarité qui pourrait s’appliquer au recalage <strong>des</strong> <strong>images</strong>. Nous avons donc<br />

73


74 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

entrepris une étude théorique sur l’entropie généralisée, la divergence généralisée et l’information<br />

mutuelle généralisée dans le sens de Rényi, afin d’en dégager une mesure de similarité applicable<br />

au problème du recalage en particulier, et au problème de comparaison d’<strong>images</strong> en général.<br />

Ce chapitre commence par une définition de la notion d’information, de l’incertain dans un<br />

contexte d’imagerie. Nous allons ensuite introduire les différentes entropies dans l’ordre de leur<br />

apparition chronologique. Nous établirons les motivations qui ont poussé les différents auteurs à<br />

introduire de nouvelles mesures d’entropies. Après définition de la notion d’entropie généralisée<br />

nous introduirons la divergence généralisée puis l’information mutuelle généralisée, pour ensuite<br />

arriver à la définition du critère que nous avons baptisé : Information Mutuelle Quadratique<br />

Normalisée.<br />

4.2 Image, Incertain, Information...<br />

Considérons le niveaux de gris associé à une position d’une image comme un événement<br />

aléatoire. Puisque dans une image certaines intensités sont plus fréquentes que d’autres, leurs<br />

probabilités sont différentes. Chaque valeur a un score différent. En prédisant la valeur d’un<br />

voxel, on doit disposer d’une estimation de l’incertitude sur notre pronostic. Cette estimation<br />

ne peut être calculée qu’en fonction <strong>des</strong> distributions de probabilités observées. Deux cas limites<br />

sont à relever :<br />

1. Toutes les probabilités sont égales, l’incertitude liée à la prédiction de la valeur d’un voxel<br />

donné est alors très grande.<br />

2. L’image ne contient qu’un seul niveau de gris, l’incertitude liée à la prédiction de la valeur<br />

d’un voxel donné est alors nulle.<br />

Si l’on apprend la valeur d’une mesure dont on était incertain, la quantité d’information acquise<br />

est alors grande. À l’opposé, si l’on apprend une valeur dont la probabilité d’occurrence était<br />

assez élevée, la quantité d’information que l’on acquiert est alors moindre. En s’intéressant à la<br />

prédiction d’un ensemble de valeurs, nous pouvons calculer une moyenne de la quantité d’infor-<br />

mation donnée par cet ensemble de valeurs. Pour une image contenant un ensemble de voxels<br />

équiprobables, sa quantité d’information est plus élevée qu’une image où la majorité de voxels<br />

ont la même valeur. Afin d’exprimer ceci de façon mathématique, un ensemble d’axiomes ont été<br />

proposés pour décrire comment doit se comporter une possible mesure d’information. Soit H(M)<br />

une mesure d’information calculée à partir <strong>des</strong> probabilités d’occurrences de i valeurs possibles,<br />

les contraintes définies pour une mesure H(p(m1), p(m2) . . . , p(mi)) d’information incluent :<br />

– La continuité :<br />

Les petits changements <strong>des</strong> probabilités devraient donner seulement de petits change-<br />

ments dans la mesure globale de l’information.


4.2 Image, Incertain, Information... 75<br />

– La symétrie :<br />

La mesure d’information ne doit pas dépendre de l’ordre <strong>des</strong> probabilités :<br />

– La propriété externe :<br />

H(p1, p2, . . . , pi) = H(p2, p1, . . . , pi).<br />

Quand toutes les probabilités sont égales, l’incertitude moyenne et par conséquent<br />

l’information doivent être maximales :<br />

– l’additivité :<br />

Maximum de H(p1, p2, . . . , pi) = H( 1 1 1<br />

i , i , . . . , i ).<br />

Combinaison d’informations de sous-ensembles : Soit les probabilités d’un ensemble de<br />

valeurs, avec une mesure d’information :<br />

HA = H(p1, p2, . . . , pi),<br />

et admettons que l’une de ces valeurs, pi par exemple, puisse être divisée en un second<br />

ensemble B avec <strong>des</strong> probabilités d’occurrence {q1, q2, . . . , qj} et une quantité d’information<br />

spécifique :<br />

HB = H( q1<br />

pi<br />

, q2<br />

pi<br />

, . . . , qj<br />

).<br />

pi<br />

La quantité d’information fournie par l’ensemble <strong>des</strong> valeurs doit être exprimée de la sorte :<br />

HO = H(p1, . . . , pi−1, q1, . . . , qj) = HA + piHB.<br />

Plusieurs fonctions ont été proposées pour exprimer H(.). Nous devons les premières mesures<br />

d’information à la théorie de communication, discipline émergeante au début du siècle dernier.<br />

Le but était alors de quantifier l’information transmise, via un canal, d’un émetteur vers un<br />

récepteur. Pour ce faire, Hartley a définit en 1928, une mesure d’information qui fonde la base de<br />

beaucoup de mesures actuelles [Hartley, 1928]. Il a considéré un message comme une chaîne de<br />

symboles, chacun avec s possibilités d’occurrence. Si le message est composé de n symboles, et si<br />

aucune règle syntaxique n’est fixée, il y aurait s n messages possibles différents. Hartley a défini<br />

alors une mesure d’information qui croît avec la longueur du message. La mesure s n convient,<br />

mais la quantité d’information augmenterait exponentiellement avec la longueur du message. Ce<br />

qui n’est pas réaliste. Il a donc défini une mesure H qui accroît de façon linéaire en fonction de<br />

n :<br />

H = Kn<br />

avec K une constante qui dépend du nombre de symboles s. Il a ensuite admis que, pour deux<br />

messages de tailles n1 et n2 avec s1 et s2 nombres de symboles, respectivement, si s n1<br />

1<br />

= sn2 2 , ie :


76 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

les nombres de messages possibles sont égaux, les quantités d’information par message sont aussi<br />

égales. Il en déduit ainsi une mesure d’information :<br />

On a<br />

et puisque<br />

alors<br />

s n1<br />

1<br />

= sn2<br />

2 ⇒ n1 =<br />

s n1<br />

1<br />

K1<br />

= sn2<br />

2<br />

K1n1 = K2n2<br />

log s n2<br />

2<br />

log s1<br />

log sn2<br />

2<br />

log s1<br />

= K2<br />

⇒ log sn2<br />

2<br />

⇒ n2 =<br />

log s n1<br />

1<br />

log s2<br />

= log sn1<br />

1 ,<br />

K1/ log s1 = K2/ log s2.<br />

log sn1<br />

1<br />

log s2<br />

Cette dernière égalité n’est satisfaite que lorsque Kx = c log sx, avec c une constante arbitraire<br />

qui doit être la même pour tous les Kx. Elle pourrait donc être occultée, K s’écrirait alors :<br />

K = log s.<br />

La mesure d’information proposée par Hartley s’écrit :<br />

H = n log s = log s n<br />

(4.1)<br />

La mesure d’information de Hartley dépend du nombre de messages possibles s n : plus le<br />

nombre de messages possibles est grand, plus la quantité d’information fournie par un certain<br />

message est grande. S’il n’y a qu’un seul message possible, aucun gain d’information n’est obtenu<br />

(log 1 = 0). Le message étant connu. À cet égard, la mesure d’Hartley peut également être vue<br />

comme une mesure d’incertitude. Quand plusieurs messages différents sont possibles, on est moins<br />

sûr de celui que l’on va recevoir. L’incertitude est alors plus grande.<br />

Un inconvénient majeur de la mesure d’Hartley est qu’elle suppose que tous les symboles sont<br />

équiprobables. Ceci représente une hypothèse forte qui est souvent grossièrement fausse. Dans la<br />

plupart <strong>des</strong> <strong>images</strong>, le niveaux de gris du fond est plus fréquent que les autres niveaux de gris. Sa<br />

probabilité est alors largement plus élevée. Si l’on reste dans le domaine de la Communication,<br />

dans un message écrit ou parlé, <strong>des</strong> lettres sont plus fréquentes que d’autres. En français par<br />

exemple, la lettre ’e’ est généralement beaucoup plus utilisée que la lettre ’z’.<br />

Pour surmonter cet inconvénient, [Shan<strong>non</strong>, 1948] a adapté la mesure de Hartley, en pondérant<br />

l’information par symbole par son nombre d’occurrences. Soient les événements e1, . . . , em se


4.2 Image, Incertain, Information... 77<br />

produisant avec les probabilités p1, . . . , pm, l’entropie de Shan<strong>non</strong> est définie par :<br />

H = <br />

pi log 1<br />

= − <br />

pi log pi. (4.2)<br />

i<br />

pi<br />

Si on applique à l’entropie de Shan<strong>non</strong> l’hypothèse que tous les événements sont équiprobables<br />

: pi = 1<br />

s n , on obtient :<br />

Ce qui correspond à l’entropie d’Hartley.<br />

H = − 1 1<br />

log<br />

sn sn = 1<br />

sn log sn = log s n .<br />

En réalité, la forme la plus générique de l’entropie de Shan<strong>non</strong> est donnée par l’espérance<br />

mathématique de la quantité d’information par événement :<br />

i<br />

H(X) = −EX[log(P (X))]. (4.3)<br />

Cette formulation plus régulière révèle l’aspect paramétrique de l’entropie de Shan<strong>non</strong>.<br />

La forme continue de l’entropie de Shan<strong>non</strong> est appelée Entropie différentielle, et est<br />

définie comme :<br />

∞<br />

H(X) ≡ −EX[log(p(X))] = − p(x) log(p(x))dx. (4.4)<br />

−∞<br />

Sous cette forme, l’entropie de Shan<strong>non</strong> présente <strong>des</strong> difficultés de manipulation quand une va-<br />

riable aléatoire est incomplète. Une variable aléatoire est dite incomplète quand <strong>des</strong> observations<br />

la concernant ne peuvent pas être effectuées.<br />

Plusieurs travaux ont suivi ceux de Shan<strong>non</strong>, notamment pour définir <strong>des</strong> formes <strong>non</strong>-<br />

paramétriques généralisées de l’entropie. Les plus connus sont ceux entrepris par [Rényi, 1959].<br />

4.2.1 Entropie généralisée<br />

L’entropie de Rényi serait peut être mieux introduite en faisant appel aux concepts de distri-<br />

butions de probabilités généralisées et de variables aléatoires généralisées, qui sont <strong>des</strong> extensions<br />

<strong>des</strong> notions classiques d’événements aléatoires qui ne peuvent pas être observés. Ce que nous<br />

développons ici traduit le travail original de Rényi ([Rényi, 1961], [Rényi, 1971]).<br />

Considérons un espace de probabilité discret défini sur Ω : Ω1 ∈ 2 Ω avec P [Ω1] > 0. Ω1 et<br />

P définissent un espace de probabilité discret généralisé qui sont différents <strong>des</strong> espaces de pro-<br />

babilités classiques par le seul fait que P [Ω1] < 1 soit possible. Une variable aléatoire X1 définie<br />

dans un espace de probabilité discret généralisé est dite variable aléatoire discrète généralisée. Si


78 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

P [Ω1] = 1, X1 est alors dite variable aléatoire complète (ou ordinaire) ; Si 0 < P [Ω1] < 1, X1 est<br />

une variable aléatoire incomplète. X1 peut être interprétée comme une quantité calculée à partir<br />

d’expériences qui ne sont pas toujours observées, mais qui ne peuvent être observées qu’avec une<br />

probabilité P [Ω1] < 1.<br />

La distribution de probabilité PX d’une variable aléatoire généralisée X est dite distribution<br />

de probabilité généralisée. Le poids W (X) de X est défini par :<br />

W (X) = <br />

PX(x)<br />

avec 0 < W (X) ≤ 1. W (X) = 1 si et seulement si X est une variable aléatoire complète.<br />

x∈X<br />

Les caractéristiques axiomatiques <strong>des</strong> mesures d’information d’expériences aléatoires ont lar-<br />

gement été étudiées en mathématiques. Rényi démontre que les cinq postulats suivants définissent<br />

la seule entropie de Shan<strong>non</strong> [Rényi, 1961].<br />

Postulat 1 : H(X) est invariant aux changements dans l’ordre <strong>des</strong> valeurs x ∈ X et <strong>des</strong> proba-<br />

bilités PX(x).<br />

Postulat 2 : Si X dénote la variable aléatoire généralisée singleton, avec X = {x} et PX(x) = p.<br />

H(X) est alors une fonction continue de p de p, avec 0 < p < 1.<br />

Postulat 3 : Si B définie une variable aléatoire binaire avec B = {0, 1} et PB(0) = PB(1) = 1<br />

2 ,<br />

on a H(B) = 1.<br />

Postulat 4 : Soient X et Y deux variables aléatoires généralisées et soit X × Y une variable<br />

aléatoire généralisée définie dans l’espace X × Y avec la distribution PX×Y = PX(x).PY (y)<br />

pour tout x ∈ X et y ∈ Y. Alors :<br />

H(X × Y ) = H(X) + H(Y )<br />

Postulat 5 : Soient X et Y deux variables aléatoires généralisées avec W (X) + W (Y ) ≤ 1<br />

et X ∩ Y = ∅ et soit X ∪ Y les variables aléatoires définies dans l’espace X ∪ Y tel que<br />

PX∪Y (x) = PX(x) pour tout x ∈ X et PX∪Y (y) = PY (y) pour tout y ∈ Y. Alors :<br />

H(X ∪ Y ) =<br />

W (X)H(X) + W (Y )H(Y )<br />

W (X) + W (Y )<br />

Proposition 3.1. Soit H une mesure d’information de toute variable aléatoire généralisée X<br />

qui satisfait les Postulats 1-5. H est alors définie seulement par :<br />

<br />

− x∈X<br />

H(X) = PX(x) log PX(x)<br />

<br />

x∈X PX(x)<br />

.


4.2 Image, Incertain, Information... 79<br />

Le postulat 5 donne une valeur moyenne arithmétique de la mesure d’information. La forme<br />

globale d’une valeur moyenne <strong>des</strong> nombres {a1, . . . , an} avec <strong>des</strong> poids positifs {w1, . . . , wn} dont<br />

la somme est égale à 1 s’écrit :<br />

µg(A) = g −1 (<br />

n<br />

wig(ai)).<br />

Où g est une fonction continue monotone. Si la valeur moyenne dans le postulat 5 est remplacée<br />

par la valeur moyenne généralisée, on obtient :<br />

i=1<br />

H(X ∪ Y ) = g −1<br />

<br />

W (X)g(H(X)) + W (Y )g(H(Y ))<br />

,<br />

W (X) + W (Y )<br />

Il peut être prouvé facilement que les seules fonctions g admissibles dans ce contexte sont les<br />

fonctions affines g(x) = ax + b, qui débouchent sur l’entropie de Shan<strong>non</strong> par la Proposition<br />

3.1, et les fonctions exponentielles g(x) = 2 (1−α)x qui débouchent sur l’entropie de Rényi [Rényi,<br />

1961] [Rényi, 1971] sur la Proposition 3.2 développée dans la suite de ce paragraphe.<br />

Postulat 5bis : Soient X et Y <strong>des</strong> variables aléatoires généralisées avec W (X) + W (Y ) ≤ 1<br />

et X ∩ Y = ∅ et soit X ∪ Y les variables aléatoires définies dans l’espace X ∪ Y tel que<br />

PX∪Y (x) = PX(x) pour tout x ∈ X et PX∪Y (y) = PY (y) pour tout y ∈ Y. Pour tout α > 0<br />

, soit :<br />

Alors<br />

H(X ∪ Y ) = g −1<br />

α<br />

gα(x) = 2 (1−α)x<br />

W (X)gα(H(X)) + W (Y )gα(H(Y ))<br />

W (X) + W (Y )<br />

Pour α > 0 et α = 0, l’entropie de Rényi d’ordre α d’une variable aléatoire généralisée<br />

X est définie comme suit :<br />

Hα(X) = 1<br />

1 − α log<br />

<br />

x∈X <br />

x∈X<br />

PX(x) α<br />

<br />

.<br />

PX(x) . (4.5)<br />

Proposition 3.2 [Rényi, 1961]. Soit H une mesure d’information pour n’importe quelle va-<br />

riable aléatoire X qui satisfait les Postulats 1-4 et le Postulat 5bis. H est alors unique et est égale<br />

à l’entropie de Rényi Hα.<br />

Dans la suite de ce manuscrit, les propriétés de l’entropie de Rényi sont données seulement<br />

pour les variables aléatoires complètes. Il est facile de démontrer que : limα→1 Hα = H(X). Ceci<br />

explique pourquoi l’entropie de Shan<strong>non</strong> H(X) est parfois appelée entropie de Rényi d’ordre 1


80 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

et est notée H1(X). De même, l’entropie minimum de X : min-entropy, définie par :<br />

est déduite de limα→∞ H∞ = H(X).<br />

H∞ = − log max<br />

x∈X PX(x),<br />

Pour la borne inférieure de α, l’entropie de Rényi d’ordre 0 peut être définie comme le<br />

logarithme de la taille de l’espace probabiliste X :<br />

H0(X) = log |X |<br />

en utilisant la convention 0 0 = 1. Une propriété importante de l’entropie de Rényi est montrée<br />

dans la proposition suivante :<br />

Proposition 3.3 L’entropie de Rényi Hα(X) où α ≥ 0 est une fonction positive décroissante<br />

de α. Pour tout 0 ≤ α < β<br />

Hα(X) ≥ Hβ(X) (4.6)<br />

L’égalité n’est valable que si et seulement si X est distribuée uniformément dans X quand<br />

α = 0 ou X est uniformément distribuée dans un sous-ensemble de X quand α > 0.<br />

Preuve. Pour 0 ≤ α < β avec α = 1 et β = 1,<br />

Hα(X) =<br />

1 <br />

log PX(x)<br />

1 − α<br />

x∈X<br />

α<br />

(4.7)<br />

= − log E[PX(X) α−1 ] 1<br />

α−1 (4.8)<br />

= − log E[PX(X) α−1 ] β−1 1<br />

α−1 β−1 (4.9)<br />

β−1<br />

(α−1)<br />

≥ − log E[PX(X) α−1 ] 1<br />

β−1 (4.10)<br />

= − log E[PX(X) (β−1) ] 1<br />

=<br />

β−1<br />

1 <br />

log PX(x)<br />

β − 1<br />

x∈X<br />

(4.11)<br />

β<br />

(4.12)<br />

= Hβ(X) (4.13)<br />

Il est à noter que la fonction x c est convexe (convex-∪) pour tout c ≥ 0, et concave (convex-<br />

∩) pour tout 0 ≤ c ≤ 1. L’inégalité dans le développement ci-<strong>des</strong>sous ne peut être déduite de<br />

l’inégalité de Jensen 2.63 que dans les cas suivants :<br />

β > α > 1 : c = β−1<br />

α−1 > 1, xc 1<br />

est convexe et β−1 > 0 ;<br />

β > 1 > α ≥ 0 : c = β−1<br />

α−1 < 0, xc 1<br />

est convexe et β−1 > 0 ;


4.2 Image, Incertain, Information... 81<br />

1 > β > α ≥ 0 : 1 > c = β−1<br />

α−1 > 0, xc 1<br />

est concave et β−1 < 0 ;<br />

Pour α = 1 ou β = 1, l’inégalité de Jensen peut être appliquée directement.<br />

Pour α = 2, l’entropie de Rényi est dite entropie quadratique. Elle peut être dérivée de la<br />

probabilité de collision d’une variable aléatoire :<br />

par :<br />

Définition<br />

La probabilité de collision d’une variable aléatoire X distribuée selon PX est donnée par :<br />

Pc(X) = <br />

PX(x) 2<br />

x<br />

L’entropie quadratique de Rényi d’une variable aléatoire X distribuée selon PX est donnée<br />

H2(X) = − log Pc(X) (4.14)<br />

= − log <br />

PX(x) 2<br />

(4.15)<br />

Fondée sur la même idée de la généralisation de la formule moyenne g, et pour <strong>des</strong> considéra-<br />

tions calculatoires, [Havrda and Charvát, 1967] ont proposé une nouvelle mesure d’information,<br />

dépourvue de l’expression logarithmique de l’entropie de Rényi. Notée entropie d’ordre s, la<br />

mesure d’Havrda Charvát s’écrit :<br />

x<br />

H s (X) = (2 1−s − 1) −1 [ <br />

pX(x) s − 1], s = 1, s > 0, (4.16)<br />

x∈X<br />

Dans ce cas, nous pouvons aussi facilement montrer que : lims→1 H s (X) = H(X), l’entropie<br />

de Shan<strong>non</strong>.<br />

par :<br />

De leur côté, Sharma et Mittal [Mittal, 1975] ont introduit une mesure d’entropie donnée<br />

H s r (X) = (2 (1−s) − 1) −1<br />

⎡<br />

<br />

⎣ pX(x) r<br />

x∈X<br />

s−1<br />

r−1<br />

⎤<br />

− 1⎦<br />

, r = 1, s = 1, r > 0, s > 0. (4.17)<br />

Les principales motivations de Sharma et Mittal étaient de généraliser les différentes entropies<br />

proposées depuis 1961 par Rényi. Parmi ces entropies figurent celles que l’on vient d’exposer, et<br />

d’autres que l’on a préféré de ne pas mentionner puisqu’elles n’apportent que peu d’informations


82 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

pour la compréhension de notre critère de similarité. Ainsi l’entropie d’ordre r et de degré s<br />

correspond à l’entropie de Rényi (entropie d’ordre r) quand s → 1, et elle exprime l’entropie de<br />

degré s quand r → 1, et n’est d’autre que l’entropie de Shan<strong>non</strong> quant r → 1 et s → 1.<br />

Soit :<br />

gs(x) = (2 1−s <br />

−1<br />

− 1) 2 (1−s)x <br />

− 1 , s = 1 (4.18)<br />

une fonction définie pour tout x ≥ 0, nous pouvons alors écrire :<br />

4.2.2 Divergence Généralisée<br />

H s r (X) = gs[H 1 r (P )]. (4.19)<br />

H s 1(X) = gs[H(P )]. (4.20)<br />

Nous allons maintenant étudier les principales propriétés de la formule généralisée de l’entro-<br />

pie. Nous essayons d’en dégager la notion de divergence entre deux distributions de probabilités 1 .<br />

A présent, nous allons noter l’entropie généralisée comme :<br />

Inégalité de Shan<strong>non</strong>-Gibbs généralisée :<br />

∆n, où<br />

E s ⎧<br />

H<br />

⎪⎨<br />

r (X) =<br />

⎪⎩<br />

s r (X), r = 1, s = 1, r > 0<br />

Hs 1 (X), r = 1, s = 1<br />

H1 r (X), r = 1, s = 1, r > 0<br />

H(X), r = 1, s = 1<br />

(4.21)<br />

Pour deux variables aléatoires P et U, avec P = (p1, p2, . . . , pn) ∈ ∆n et U = (u1, u2, ˙,un) ∈<br />

On a :<br />

∆n = {Q = (q1, q2, . . . , qn) : qi > 0, i = 1, 2, . . . , n,<br />

n<br />

qi = 1}<br />

E s r (P ) ≤ α E s r(P ||U), α = 1 et 2, (4.22)<br />

1 Pour de plus amples explications nous conseillons aux lecteurs intéressés de consulter le livre de Taneja<br />

disponible en ligne à l’adresse http://mtm.ufsc.br/~taneja/book/book.html.<br />

i=1


4.2 Image, Incertain, Information... 83<br />

où<br />

et<br />

⎧<br />

(2<br />

⎪⎨<br />

α s<br />

Er (P ||U) =<br />

⎪⎩<br />

1−s − 1) −1 [ αMr(P ||U) r−1<br />

s−1 − 1], r = 1, s = 1, r > 0<br />

(21−s − 1) −1 [2 (s−1)H(P ||Q) − 1], r = 1, s = 1<br />

(1 − r) −1 log [ αMr(P ||U)], r = 1, s = 1, r > 0<br />

H(P ||U), r = 1, s = 1<br />

Pour α = 1 et 2, avec :<br />

1 Mr(P ||U) =<br />

2 Mr(P ||U) =<br />

n i=1 pri n i=1 pr i u1−r<br />

i<br />

r 1<br />

r− r piui i=1<br />

n<br />

H(P ||U) = −<br />

n<br />

i=1<br />

, r > 0,<br />

, r > 0,<br />

pi log ui<br />

(4.23)<br />

(4.24)<br />

Preuve : Nath [Nath, 1975] et Van der Lubbe [Van der Lubbe, 1978], ont prouvé les inégalités<br />

suivantes :<br />

et<br />

Pour tout P , U ∈ ∆n, α = 1 et 2, où<br />

Dans les cas limites nous avons<br />

H 1 r (P ) ≤ α Hr(P ||U), r = 1, r > 0, (4.25)<br />

1<br />

Hr(P ||U) = (1 − r) −1 n i=1 log<br />

pri n<br />

i=1 pr i u1−r<br />

i<br />

2<br />

Hr(P ||U) = r<br />

r − 1 log<br />

<br />

n<br />

piu<br />

i=1<br />

1<br />

r− r<br />

i<br />

1 2<br />

lim Hr(P ||U) = lim Hr(P ||U) = H(P ||U)<br />

r→1<br />

r→1<br />

<br />

<br />

, r = 1, r > 0, (4.26)<br />

, r = 1, r > 0, (4.27)<br />

où H(P ||U) donnée dans l’équation (3.21) est la fameuse mesure d’infidélité, dite aussi perplexité,<br />

introduite par [Kerridge, 1961]. Dans ce cas nous pouvons écrire que<br />

H(P ) ≤ H(P ||U) (4.28)<br />

pour tout P , U ∈ ∆n est l’inégalité de Shan<strong>non</strong>-Gibb bien connue en théorie d’information.<br />

De ce raisonnement, nous pouvons définir la divergence de Rényi :


84 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

D’après les équations 3.23 et 3.24 on a :<br />

où :<br />

1 Hr(P ||U) ≤ 2 Hr(P ||U) + D 1 r(P ||U), r = 1, r > 0 (4.29)<br />

D 1 r(P ||U) = (r − 1) −1 log<br />

n<br />

i=1<br />

p r i u 1−r<br />

i<br />

<br />

, r = 1, r > 0 (4.30)<br />

est la divergence directe d’ordre r [Rényi, 1961], dite Divergence de Rényi ou Divergence<br />

Généralisée.<br />

Pour r → 1 la divergence de Rényi n’est rien d’autre que la divergence de Kullback-Leibler :<br />

D(P ||U) =<br />

n<br />

i=1<br />

pi log pi<br />

ui<br />

(4.31)<br />

Dans la littérature, elle est aussi mentionnée comme une fonction de discrimination, d’information<br />

relative ou de divergence directe entre deux distributions.<br />

4.2.3 Information mutuelle généralisée<br />

Comme nous l’avons développé à la fin du chapitre 2, le recalage peut être vu comme un<br />

problème d’inférence statistique où la transformation géométrique est atteinte par maximisation<br />

d’un critère de similarité entre deux <strong>images</strong>. Ces <strong>images</strong> sont alors considérées comme <strong>des</strong> espaces<br />

de réalisations probabilistes où le niveau de gris associé à un voxel constitue la valeur aléatoire.<br />

La quantification de la similarité passe alors par le calcul de l’entropie conjointe et <strong>des</strong> entropies<br />

marginales.<br />

Pour généraliser le concept de l’information mutuelle, il est nécessaire de considérer à présent,<br />

<strong>non</strong> pas <strong>des</strong> valeurs aléatoires dans un cadre marginal, mais le comportement conjoint de deux<br />

ensembles de données.<br />

Considérons deux variables aléatoires discrètes X = {1, 2, . . . , n} et Y = {1, 2, . . . , m} ou une<br />

expérience conjointe (X, Y ) avec les probabilités marginales et conjointes suivantes :<br />

– aij = P r{X = i, Y = j}, A = {a11, a12, . . . , a1m, an1 . . . , anm} ∈ ∆nm,<br />

– pi = P r{X = i}, P = {p1, p2, . . . , pn} ∈ ∆n, et<br />

– qj = P r{Y = j}, Q = {q1, q2, . . . , qm} ∈ ∆m,<br />

pour tout i = 1, 2, . . . , n ; j = 1, 2, . . . , m.<br />

La probabilité conditionnelle de Y = j sachant X = i s’écrit :


4.2 Image, Incertain, Information... 85<br />

– b j/i = P r{Y = j/X = i}, Bi = {b 1/i, b 2/i, . . . , b m/i} ∈ ∆m, pour tout i = 1, 2, . . . , n ;<br />

j = 1, 2, . . . , m.<br />

De même, la probabilité conditionnelle de X = i sachant Y = j s’écrit :<br />

– b i/j = P r{X = i/Y = j}, Bj = {b 1/j, b 2/j, . . . , b n/j} ∈ ∆n, pour tout i = 1, 2, . . . , n.<br />

Notons également,<br />

P.Q = {p1q1, p1q2, . . . , p1qm, . . . , pnq1, . . . , pnqm} ∈ ∆nm.<br />

Les relations suivantes sont connues dans la littérature :<br />

aij = pi.b j/i = qj.b i/j, pi =<br />

pour tout i = 1, 2, . . . , n ; j = 1, 2, . . . , m.<br />

m<br />

aij, et qj =<br />

En utilisant les notations de l’entropie généralisée introduites dans le précédent paragraphe,<br />

nous pouvons écrire :<br />

et<br />

j=1<br />

E s r (X, Y ) = E s r (A),<br />

E s r (X) = E s r (P ),<br />

E s r (Y ) = E s r (Q).<br />

Où E s r est l’entropie généralisée d’ordre r et de degré s introduite dans la section précédente.<br />

et<br />

De même, nous pouvons écrire les entropies conditionnelles généralisées comme :<br />

E s r (Y |X = i) = E s r (Bi), i = 1, 2, . . . , n<br />

E s r (X|Y = j) = E s r (Bj), j = 1, 2, . . . , m.<br />

Les premiers travaux concernant la généralisation de l’analyse multivariée dans le sens de<br />

Shan<strong>non</strong> ont été effectués par [Aczél and Daróczy, 1975]. Dans cette section nous introduirons<br />

l’entropie conditionnelle d’ordre s qui présente une généralisation de l’entropie conditionnelle de<br />

Shan<strong>non</strong> :<br />

C s (P ) =<br />

pour tout P = (p1, p2, . . . , pn) ∈ ∆n.<br />

<br />

n<br />

i=1<br />

(21−s − 1) −1 [ n i=1 psi − 1] , s = 1, s > 0<br />

− n i=1 pi log pi, s = 1<br />

aij<br />

(4.32)


86 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

où<br />

et<br />

Soit :<br />

C s (X|Y = j) =<br />

C s (X|Y ) =<br />

m<br />

j=1<br />

q s j C s (X|Y = j), s > 0, (4.33)<br />

n (21−s − 1) −1<br />

i=1 bs <br />

i|j − 1 , s = 1, s > 0<br />

− n i=1 bi|j log bi|j, s = 1<br />

(4.34)<br />

C s (X, Y ) = C s (Y ) + C s (X|Y ), s > 0 (4.35)<br />

Nous pouvons aussi définir l’information mutuelle d’ordre s :<br />

= C s (X) + C s (Y |X), s > 0 (4.36)<br />

I s (X ∧ Y ) = C s (X) − C s (X|Y ), s > 0.<br />

Elle satisfait l’ensemble <strong>des</strong> propriétés de l’information mutuelle fondée sur l’entropie de Shan<strong>non</strong><br />

définies dans la section 2.2.3 du chapitre 2.<br />

Quelques auteurs (Sahoo, 1983 ; [Van der Lubbe et al., 1987]) ont étendu les équations 3.36<br />

et 3.37 pour d’autres entropies, mais ils n’ont pu aboutir à <strong>des</strong> expressions simples comme c’est<br />

le cas pour C s (X|Y ) dans l’équation 4.33. Dans cette sous-section nous donnerons quelques<br />

définitions simples introduites par Taneja en relation avec le concept de l’entropie généralisée<br />

d’ordre r et de degré s [Taneja, 1990].<br />

où<br />

Si l’on remplace s par 1 dans l’équation 4.33, nous obte<strong>non</strong>s :<br />

H(X|Y ) =<br />

H(X|Y = j) = −<br />

n<br />

i=1<br />

m<br />

qjH(X|Y = j), (4.37)<br />

j=1<br />

b i|j log b i|j, j = 1, 2, . . . , m. (4.38)<br />

En remplaçant H(X|Y = j) par l’entropie généralisée E s r (X|Y = j), nous pouvons écrire :<br />

pour tout r > 0 et tout s.<br />

1 E s<br />

r(X|Y ) =<br />

m<br />

j=1<br />

qjE s r (X|Y = j), (4.39)


4.2 Image, Incertain, Information... 87<br />

Nous pouvons alors en déduire les expressions suivantes :<br />

1 s<br />

Hr (X|Y ) = (2 1−s − 1) −1<br />

⎡<br />

m<br />

⎣<br />

1 H 1 r (X|Y ) = (1 − r) −1<br />

m<br />

j=1<br />

j=1<br />

qj log<br />

qj<br />

n<br />

i=1<br />

n<br />

i=1<br />

b r i|j<br />

b r i|j<br />

<br />

s−1<br />

r−1<br />

⎤<br />

− 1⎦<br />

, s = 1, r = 1, r > 0, (4.40)<br />

, r = 1, r > 0, (4.41)<br />

En extension de l’expression 3.40 [Taneja, 1990] a introduit deux nouvelles définitions de l’entro-<br />

pie conditionnelle d’ordre r :<br />

et<br />

2 1<br />

Hr (X|Y ) = (1 − r) −1 ⎧<br />

⎨ m<br />

log<br />

⎩<br />

3 H 1 r (X|Y ) = r<br />

1 − r log<br />

⎧<br />

⎨ m<br />

⎩<br />

j=1<br />

n<br />

qj b<br />

j=1 i=1<br />

r i|j<br />

qj<br />

n<br />

i=1<br />

b r i|j<br />

⎫<br />

⎬<br />

, (4.42)<br />

⎭<br />

⎫ 1<br />

r ⎬<br />

. (4.43)<br />

⎭<br />

Les expressions <strong>des</strong> entropies conditionnelles d’ordre r et de degré s, peuvent être déduites<br />

<strong>des</strong> deux équations ci-<strong>des</strong>sous, en utilisant la relation de composition 4.18. Ces expressions sont :<br />

et<br />

2 H s r (X|Y ) = gs( 2 H 1 r (X|Y )) (4.44)<br />

= (2 1−s − 1) −1<br />

⎧⎛<br />

⎪⎨ m<br />

⎝<br />

⎪⎩<br />

n<br />

j=1 i=1<br />

qjb r i|j<br />

⎞<br />

⎠<br />

s−1<br />

r−1<br />

⎫<br />

⎪⎬<br />

− 1 ,<br />

⎪⎭<br />

s = 1, r = 1, r > 0, (4.45)<br />

3 H s r (X|Y ) = gs( 3 H 1 r (X|Y )) (4.46)<br />

= (2 1−s − 1) −1<br />

⎧⎡<br />

⎪⎨ m<br />

⎣<br />

⎪⎩<br />

j=1<br />

qj<br />

n<br />

i=1<br />

b r i|j<br />

1<br />

r<br />

⎤<br />

⎦<br />

r s−1<br />

r−1<br />

⎫<br />

⎪⎬<br />

− 1 , s = 1, r = 1, r > 0,(4.47)<br />

⎪⎭<br />

La généralisation de l’information mutuelle de shan<strong>non</strong>, peut alors être effectuée en se servant<br />

<strong>des</strong> formules de l’entropie conditionnelle généralisée :<br />

α N s r (X ∧ Y ) = E s r (X) − α E s r(X|Y ), (4.48)


88 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

pour α = 1, 2, et 3. Par simple calcul ont peut écrire :<br />

où<br />

I(X ∧ Y ) = D(A||P.Q),<br />

D(A||P.Q) =<br />

n<br />

n<br />

i=1 j=1<br />

est la divergence directe entre les distributions A et P.Q.<br />

où<br />

aij log aij<br />

piqj<br />

De la même façon on peut définir l’Information Mutuelle d’ordre r (de Rényi) par :<br />

On peut alors écrire :<br />

pour α = 1, 2, 3 et 4.<br />

4 Hr(X|Y ) = Hr(X) − 4 N r(X ∧ Y ), (4.49)<br />

4 Nr(X ∧ Y ) = Dr(A||P.Q). (4.50)<br />

α Nr(X ∧ Y ) = Hr(X) − α Hr(X|Y ), (4.51)<br />

En récapitulant, on compte quatre définitions différentes de l’information mutuelle généralisée<br />

d’ordre r :<br />

⎧<br />

⎪⎩<br />

Hr(X) − 1 Hr(X|Y ) = Hr(X) − (1 − r) −1 m<br />

⎪⎨ Hr(X) −<br />

Nr(X ∧ Y ) =<br />

2Hr(X|Y ) = Hr(X) − (1 − r) −1 log<br />

Hr(X) − 3Hr(X|Y ) = Hr(X) − r<br />

1−r log<br />

Dr(A||P.Q) = (r − 1) −1 log n<br />

i=1<br />

4.2.4 Information mutuelle généralisée : normalisation<br />

<br />

j=1 qj<br />

n log i=1 br i|j<br />

m<br />

j=1 qj<br />

n i=1 br i|j<br />

<br />

m<br />

j=1 qj<br />

n i=1 br 1 <br />

r<br />

i|j<br />

m j=1 arij (piqj) 1−r<br />

<br />

(4.52)<br />

Dans le chapitre 2, nous avons présenté les différentes formules proposées pour normaliser<br />

l’information mutuelle afin de surmonter le problème du recouvrement partiel. Dans cette sous-<br />

section nous don<strong>non</strong>s leur généralisation dans le sens de Rényi.<br />

Dans le cadre de Shan<strong>non</strong>, l’information mutuelle entre une variable X et elle même se réduit<br />

à l’entropie de Shan<strong>non</strong> marginale de X, c’est à dire que le gain d’information n’est autre que


4.2 Image, Incertain, Information... 89<br />

l’information contenu dans la variable :<br />

I(X, X) = H(X)<br />

Cette égalité n’est pas respectée par l’information mutuelle généralisée. Dans le cadre de Rényi<br />

on peut facilement vérifier que :<br />

α Nr(X ∧ X) = α Hr(X)<br />

Les différentes formules de normalisation s’écrivent alors :<br />

Coefficient de corrélation entropique généralisée<br />

Critère introduit par [Maes et al., 1997] et qui s’écrit :<br />

prend la forme généralisée suivante :<br />

ECC(X, Y ) =<br />

α ECCr(X, Y ) = 2<br />

Information Mutuelle généralisée normalisée<br />

2I(X, Y )<br />

H(X) + H(Y ) .<br />

α Nr(X, Y )<br />

α Nr(X, X) + α Nr(Y, Y ) .<br />

Introduit par Studholme, ce critère dont la forme initiale est :<br />

prend la forme :<br />

α Yr(X, Y ) =<br />

Information exclusive généralisée<br />

forme<br />

Y (X, Y ) =<br />

H(X) + H(Y )<br />

,<br />

H(X, Y )<br />

α Nr(X, X) + α Nr(Y, Y )<br />

α Nr(X, X) + α Nr(Y, Y ) − 2 α Nr(X, Y ) ,<br />

De même que pour l’information exclusive introduite par [Maes et al., 1997], qui prend la<br />

Z(X, Y ) = H(X) − I(X, Y ),


90 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

on définit l’information exclusive généralisée par :<br />

4.2.5 Choix du degré r<br />

α Zr(X, Y ) = α N r(X, X) + α N r(Y, Y ) − 2 α N r(X, Y )<br />

Notre motivation d’entreprendre une étude sur les différentes mesures de similarité dérivées<br />

de l’entropie de Renyi, vient du comportement particulier de cette dernière quand on utilise une<br />

densité de probabilité à noyau gaussien pour calculer sa forme quadratique. Cette idée a été<br />

avancée par Principe et al. dans un cadre de classification <strong>non</strong>-supervisée. Pour r = 2 l’entropie<br />

quadratique s’écrit :<br />

<br />

H2(X) = − log<br />

p(x) 2 dx<br />

Admettons maintenant que la densité de probabilité est estimée en utilisant la méthode de Parzen<br />

à noyaux gaussiens présentée dans le chapitre précédent :<br />

Dans ce cas :<br />

<br />

H2(X) = − log<br />

p(x) = 1<br />

N<br />

<br />

1<br />

= − log<br />

N<br />

= − log 1<br />

N<br />

N<br />

Gh(x − Xi).<br />

i=1<br />

p(x) 2 dx<br />

N<br />

N<br />

i=1 j=1<br />

N<br />

<br />

i=1 j=1<br />

N<br />

Gh(x − Xi)Gh(x − Xj)dx<br />

Gh(x − Xi)Gh(x − Xj)dx.<br />

Sachant que le résultat de la convolution de deux gaussiennes centrées respectivement à ai et aj<br />

est la gaussienne de (ai − aj) avec une covariance égale à la somme <strong>des</strong> covariances initiales :<br />

<br />

x<br />

l’entropie quadratique s’écrit alors :<br />

G(x − ai, Σ1)G(x − aj, Σ2)dx = G(ai − aj, Σ1 + Σ2),<br />

H2(X) = − log 1<br />

N<br />

N<br />

i=1 j=1<br />

N<br />

G2h(Xi − Xj). (4.53)


4.2 Image, Incertain, Information... 91<br />

Le coût de calcul est réduit drastiquement à O(N 2 ), car l’entropie s’exprime alors par une<br />

simple somme d’interactions mutuelles entre tous les échantillons.<br />

Pour ces raisons, notre choix s’est porté sur la forme quadratique (r=2) de l’entropie de Rényi<br />

et par conséquent sur l’information mutuelle généralisée.<br />

4.2.6 Choix de α<br />

Nous avons présenté dans la section précédente quatre définitions différentes de l’informa-<br />

tion mutuelle de Rényi données dans l’équation 4.52. Mais laquelle de de ces définitions est la<br />

plus appropriée comme critère de recalage ? Encore une fois notre choix va être motivé par les<br />

propriétés calculatoires de ces quatre définitions.<br />

Pour les quatre définitions données dans l’équation 4.52, la complexité est de O(m × N 2 )<br />

où m correspond au domaine de réalisations <strong>des</strong> probabilités, i.e le nombre de niveaux de gris<br />

maximal dans le cas du recalage. En outre le calcul de l’entropie conditionnelle n’est pas trivial<br />

puisque il nécessite une méthode d’estimation de probabilité conditionnelle particulière. 2<br />

Le critère que nous visons à exploiter doit de plus présenter un comportement robuste face<br />

au problème du recouvrement partiel.<br />

Proposition<br />

soit<br />

Y2(X, Y ) = H2(X) + H2(Y )<br />

H2(X, Y )<br />

− 1. (4.54)<br />

Ce critère présente les mêmes propriétés que l’information mutuelle normalisée proposée par<br />

Studholme :<br />

– Y2(X, Y ) = Y2(Y, X). Cette égalité vient du fait que H2(X, Y ) = H2(Y, X).<br />

– Y2 est minimale et est égale à 0 quand les deux variables X et Y sont complètement<br />

indépendantes.<br />

Preuve :<br />

<br />

H2(X, Y ) = − log p<br />

X Y<br />

2 (x, y)dxdy.<br />

2 Quoique, il serait intéressant d’évaluer les comportements de ces différentes mesures. Une <strong>des</strong> perspectives de<br />

cette thèse est de proposer une méthode d’estimation de l’entropie conditionnelle et d’entreprendre une étude sur<br />

le comportement de ces différentes mesures


92 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />

Pour X et Y deux V.A indépendantes on a : p(x, y) = p(x)p(y), et on peut alors écrire :<br />

<br />

H2(X, Y ) = − log<br />

<br />

= − log<br />

X<br />

X<br />

= H2(X) + H2(Y )<br />

L’information quadratique normalisée est alors nulle :<br />

Y2(X, Y ) = H2(X) + H2(Y )<br />

H2(X, Y )<br />

p 2 <br />

(x)dx p<br />

Y<br />

2 (y)dy<br />

p 2 <br />

(x)dx − log p 2 (y)dy<br />

Y<br />

− 1<br />

= H2(X) + H2(Y )<br />

− 1 = 0<br />

H2(X) + H2(Y )<br />

– Y2 est maximale et est égale à 1 quand les deux variables sont complètement dépendantes<br />

ie. p(x, y) = p(x) = p(y).<br />

preuve :<br />

Pour deux V.A complètement dépendantes :<br />

<br />

H2(X, Y ) = − log<br />

<br />

= − log<br />

X<br />

X<br />

<br />

Y<br />

p 2 (x, y)dxdy<br />

p 2 (x)dx<br />

= H2(X) = H2(Y )<br />

L’information mutuelle quadratique normalisée dans ce cas s’écrit :<br />

4.3 Synthèse du chapitre<br />

Y2(X, Y ) = H2(X) + H2(Y )<br />

− 1<br />

H2(X, Y )<br />

=<br />

H2(X)<br />

2<br />

− 1 = 1.<br />

H2(X) + H2(X)<br />

Le but de ce chapitre était d’entreprendre une étude théorique sur la notion de quantification<br />

d’information afin de définir une nouvelle classe de mesures de similarité.<br />

Ce chapitre a commencé par une définition de la notion d’information et de l’incertitude dans<br />

un contexte d’imagerie. Par la suite, différentes entropies ont été introduites dans l’ordre de leur<br />

apparition chronologique. Les motivations qui ont poussées les différents auteurs à introduire de<br />

nouvelles mesures d’entropies ont été établies.


4.3 Synthèse du chapitre 93<br />

Après définition de la notion de variable aléatoire incomplète, ce chapitre a introduit l’entropie<br />

généralisée dans le sens de Rényi. La divergence de Rényi, quant à elle, a été définit en généralisant<br />

l’inégalité de Shan<strong>non</strong>-Gibbs.<br />

Par la suite, le cadre d’étude a été étendu à l’analyse multivariée pour généraliser la notion<br />

d’information mutuelle. Une classe de mesures d’information fondées sur l’information mutuelle<br />

généralisée a alors été définie.<br />

Enfin, après une discussion de l’applicabilité <strong>des</strong> mesures définies, ce chapitre se termine par<br />

la proposition d’un critère de recalage prenant en compte le problème du recouvrement partiel.<br />

Ce critère a été baptisé «Information Mutuelle Quadratique Normalisée».


Chapitre 5<br />

De l’estimation <strong>non</strong>-paramétrique <strong>des</strong><br />

densités de probabilité<br />

5.1 Introduction<br />

Estimer la fonction de densités de probabilité (PDF) d’une distribution continue à partir<br />

d’un échantillon représentatif tiré de sa représentation initiale est un problème d’une importance<br />

fondamentale en apprentissage automatique (Machine Learning) et en reconnaissance de formes.<br />

Dans le cadre de notre problématique les densités de probabilité sont nécessaires au calcul du<br />

critère de similarité ; celui-ci étant de nature entropique. Dans la dernière section du chapitre 2<br />

nous avons développé les deux métho<strong>des</strong> principales utilisées dans le cadre du recalage : le noyau<br />

de Parzen et la méthode de l’histogramme. Nous avons exposé sommairement leurs principes ainsi<br />

que leurs limitations. Dans ce chapitre nous allons revenir sur les principes théoriques de l’esti-<br />

mation <strong>des</strong> densités de probabilités. L’accent sera mis sur les métho<strong>des</strong> dites <strong>non</strong>-paramétriques à<br />

noyau adaptatif. Nous présenterons par la suite la méthode d’estimation que nous avons choisie,<br />

son cadre théorique ainsi que ses comportements asymptotiques.<br />

Nous nous intéressons dans cette thèse au problème du recalage d’<strong>images</strong> ; le lecteur doit<br />

comprendre ici par densité de probabilité une fonction continue régissant la distribution <strong>des</strong><br />

niveaux de gris dans une image. Dans ce cadre, le paradoxe de l’estimation réside dans le fait que<br />

la fonction de densité peut être calculée par un simple balayage de l’image. Toutefois, les <strong>images</strong><br />

sont sujettes à <strong>des</strong> déformations géométriques pendant le déroulement de l’algorithme de recalage<br />

et leur densité doit être évaluée à chaque itération, ce qui peut s’avérer pénalisant en temps de<br />

calcul. Pour remédier à cet inconvénient, il est préférable de ne considérer qu’un échantillon de<br />

95


96 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

voxels représentatif et de trouver une fonction d’interpolation qui, à partir de celui-ci, rendrait<br />

compte le plus fidèlement de la distribution réelle de ses niveaux de gris.<br />

Quand on peut assigner une forme particulière à la densité de probabilités, en raison de<br />

connaissances a priori du processus la régissant, le problème de l’estimation se réduit à l’évalua-<br />

tion <strong>des</strong> paramètres définissant cette fonction de densité. L’estimation est alors dite paramé-<br />

trique.<br />

La plus répandue <strong>des</strong> fonctions de densités est la densité normale. La raison de sa popularité<br />

provient du «théorème de la limite centrale», qui prouve que la densité de la somme d’un très<br />

grand nombre de variables aléatoires indépendantes tend vers une gaussienne. En outre, du fait<br />

de leur nature exponentielle, les manipulations mathématiques <strong>des</strong> densités gaussiennes sont tout<br />

à fait simples à réaliser. Du reste, puisque toute fonction linéaire d’une densité gaussienne est<br />

elle-même gaussienne, elles sont largement répandues en théorie <strong>des</strong> systèmes linéaires. Ainsi,<br />

la majorité <strong>des</strong> processus aléatoires continus sont représentés par <strong>des</strong> gaussiennes. Une densité<br />

gaussienne est définie par :<br />

Gψ(x − µ) = 1<br />

√ 2πψ e<br />

1<br />

− 2<br />

(x−µ) 2<br />

ψ . (5.1)<br />

Les paramètres à évaluer sont alors la variance ψ et la moyenne µ. Autrement dit, les carac-<br />

téristiques globales de la distribution <strong>des</strong> données peuvent être résumées à un vecteur moyenne<br />

et une matrice de covariance dans le cas d’une analyse multivariée.<br />

La densité gaussienne présente nombre d’avantages. Cependant on ne peut l’utiliser pour<br />

exprimer tout processus aléatoire. En effet, la densité de probabilité associée à certains processus<br />

réels ne peut s’apparenter à une gaussienne, et en particulier, c’est le cas <strong>des</strong> niveaux de gris dans<br />

une image médicale 1 . Une forte limitation <strong>des</strong> densités gaussiennes, et <strong>des</strong> densités exponentielles<br />

en général, réside dans le fait qu’elles sont unimodales ( i.e. elles ont une seule crête).<br />

Cependant, en observant l’histogramme de l’IRM dans la figure 5.1, il est facile de remarquer<br />

que la distribution <strong>des</strong> niveaux de gris peut être modélisée par un mélange (mixture) de fonctions<br />

de densités paramétriques. La seule contrainte est que ce mélange doit définir et satisfaire les<br />

conditions de base d’une fonction de densités de probabilités, à savoir que son intégrale sur<br />

son domaine doit être égale à 1. Les modèles finis de mélange, également connus sous le nom<br />

d’estimateurs Semi-Paramétriques de densité, présentent une approche puissante d’estimation de<br />

fonctions arbitraires de densité et le cas spécifique de «Mélange de Gaussiennes» [Bishop, 1995]<br />

est une illustration parfaite de leur succès. Entre autres applications, ils ont été par exemple<br />

utilisés avec succès pour la définition <strong>des</strong> probabilités d’émission d’un modèle de Markov caché<br />

1 Cependant on peut forcer les niveaux de gris d’une image à suivre une distribution gaussienne aux prix de<br />

pré-traitements telle que l’égalisation de l’histogramme


5.1 Introduction 97<br />

(a) Coupe IRM d’un patient souffrant d’une polykystose<br />

rénale<br />

0.05<br />

0.045<br />

0.04<br />

0.035<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

0<br />

0 100 200 300 400 500 600<br />

(b) Histogramme de la coupe IRM.<br />

Fig. 5.1 Coupe axiale IRM et son histogramme. Plusieurs mo<strong>des</strong> sont présents<br />

dans cet histogramme.


98 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

pour la reconnaissance de la parole [Rabiner, 1990]. Le modèle de mélange de gaussiennes s’écrit :<br />

M(x, θ) =<br />

N<br />

i=1<br />

ciGψi (x − µi), (5.2)<br />

où θ représente la collection <strong>des</strong> paramètres (N, {µi}, {ψi}, {ci}). L’intégration de ce modèle à 1<br />

est assurée quand ci = 1. Une densité de mélange n’a pas besoin d’être uni-modale ; elle peut<br />

avoir autant de crêtes que nécessaire.<br />

Étant donné un grand nombre de gaussiennes, toute densité peut être modélisée presque<br />

exactement. Comme évoqué dans les chapitres précédents, le maximum de vraisemblance peut<br />

être employé pour choisir le meilleur ensemble de paramètres pour un échantillon donné a. Tou-<br />

tefois, il est aussi possible de rechercher le vecteur de paramètres en utilisant la montée du<br />

gradient. Pour les modèles de mélanges gaussiens une technique plus efficace connue sous le nom<br />

de Expectation-Maximisation ([Dempster et al., 1977]) est généralement utilisée. Dans un cas<br />

comme dans l’autre, trouver le meilleur vecteur de paramètres peut impliquer un processus de<br />

recherche assez long.<br />

5.2 Estimateurs <strong>non</strong>-paramétriques<br />

L’approche semi-paramétrique de l’estimation réduit le nombre d’hypothèses de départ concer-<br />

nant la nature de la densité réelle. Toutefois c’est l’approche <strong>non</strong>-paramétrique de l’estimation<br />

<strong>des</strong> densités qui é<strong>non</strong>ce le moins d’hypothèses sur la nature de la densité réelle. Les estimateurs<br />

<strong>non</strong>-paramétriques <strong>des</strong> densités de probabilités ont la particularité, très avantageuse, de ne faire<br />

aucune hypothèse quant à la structure fonctionnelle de la densité réelle.<br />

5.2.1 Histogramme<br />

Formellement, le problème de l’estimation consiste à approcher une fonction de densité de<br />

probabilité inconnue f à partir d’un échantillon {X1, X2, . . . , Xn} de variables aléatoires indé-<br />

pendantes et de même loi de densité f. L’idée la plus naturelle consiste à évaluer la densité f au<br />

point x en comptant le nombre d’observations «tombées» dans un certain voisinage cubique de<br />

x = (x1, . . . , xd) de la forme :<br />

<br />

x1 − h<br />

2 , x1 + h<br />

<br />

× · · · × xd −<br />

2<br />

h<br />

2 , xd + h<br />

<br />

= x1 −<br />

2<br />

h<br />

2 , x1 + h<br />

d ,<br />

2


5.2 Estimateurs <strong>non</strong>-paramétriques 99<br />

où h est un nombre strictement positif dépendant de n, ce qui conduit à l’estimateur :<br />

ˆfh(x) =<br />

<br />

# i ∈ 1, . . . , n : Xi ∈ x1 − h<br />

2 , x1 + h<br />

<br />

d<br />

2<br />

nhd . (5.3)<br />

Le symbole #A désigne le cardinal de l’ensemble fini A. Cette dernière expression peut encore<br />

s’écrire :<br />

ˆfh(x) = 1<br />

nh d<br />

n<br />

i=1<br />

où la fonction 1 1<br />

[− , 2<br />

introduit en 1951 par [Fix and Hodges, 1951].<br />

5.2.2 Modèle de Parzen<br />

1 1<br />

[− , 2 2] d<br />

x − Xi<br />

2] d est la densité de probabilité uniforme sur − 1<br />

2<br />

h<br />

<br />

, (5.4)<br />

<br />

1 d.<br />

, 2 Ce modèle a été<br />

En s’inspirant de la formule 5.4, et en définissant K comme étant une fonction réelle bornée<br />

d’intégrale 1 sur R d , on définit l’estimateur ˆ fh associé au noyau K par<br />

ˆfh(x) = 1<br />

nh d<br />

n<br />

<br />

x − Xi<br />

K<br />

. (5.5)<br />

h<br />

i=1<br />

Lorsque le noyau K est choisi positif, l’estimateur ˆ fh est une densité de probabilité et on parle<br />

alors parfois de la densité de probabilité empirique de noyau K. Parmi les multiples estimateurs<br />

<strong>non</strong>-paramétriques de la densité aujourd’hui à la disposition <strong>des</strong> utilisateurs, l’estimateur à noyau<br />

est, de loin, le plus populaire ([Akaike, 1954], [Rosenblatt, 1956], [Parzen, 1962], [Silverman,<br />

1986], [Devroye, 1987] et [Scott, 1985]). Le succès rencontré par l’estimateur à noyau auprès de<br />

la communauté <strong>des</strong> utilisateurs peut essentiellement s’expliquer en trois points :<br />

– D’abord, l’expression théorique 5.5 de ˆ fh(x) est extrêmement simple, puisque ˆ fh(x) est la<br />

somme de n variables aléatoires indépendantes et identiquement distribuées.<br />

– Ensuite, ˆ fh converge vers f en de nombreux sens, et en particulier au sens L1 pour toute<br />

densité f dès que 1/h et nh d tendent tous les deux vers l’infini (la dépendance de h en n<br />

sera toujours sous-entendue). D’autre part, si l’estimateur est convergent, il est convergent<br />

dans tous les mo<strong>des</strong>, i.e. en probabilité, en moyenne, «presque sûrement» et «presque<br />

complètement» [Devroye and Györfi, 1985] ;<br />

– Enfin, l’estimateur à noyau est flexible, dans la mesure où il laisse à l’utilisateur une grande<br />

latitude <strong>non</strong> seulement dans le choix du noyau K, mais dans le choix du paramètre réel h.<br />

Lorsqu’on se limite aux noyaux K positifs, les vitesses de convergence varient peu en fonction<br />

de K et les critères du choix du noyau sont alors : la simplicité et la vitesse de calcul d’une part,


100 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

la régularité de la courbe à obtenir d’autre part. En revanche, le choix du paramètre de lissage h<br />

se révèle crucial aussi bien pour la précision locale que pour la précision globale de l’estimateur<br />

ˆfh. Il est facile de vérifier que, pour les noyaux usuels et pour un ensemble de données fixé, la loi<br />

de densité ˆ fh converge (étroitement) vers la mesure empirique lorsque h tend vers 0 et que ˆ fh<br />

tend uniformément vers la fonction nulle lorsque h tend vers l’infini. En jouant sur la largeur de<br />

fenêtre, on peut donc faire décrire à ˆ fh un ensemble de lois dont les extrêmes seront «proches»<br />

de lois discrètes d’un côté, et de lois uniformes de l’autre.<br />

Fig. 5.2 Estimation à noyau à fenêtre fixe<br />

La procédure de Parzen à fenêtre fixe tend à estimer la densité à chaque point x en calculant la<br />

moyenne <strong>des</strong> noyaux normalisés (mis à la même échelle) centrés à chacun <strong>des</strong> points de données.<br />

Une <strong>des</strong>cription équivalente consiste à placer une masse de probabilité de 1/n sous forme d’une<br />

cloche à chaque point. La figure 5.2 montre la construction d’un tel processus. Les lignes verticales<br />

au-<strong>des</strong>sous de l’axe x <strong>des</strong> ordonnées dénotent la position <strong>des</strong> points de données, les lignes en<br />

pointillés représentent les différents noyaux utilisés pendant le processus de l’estimation, et la<br />

ligne pleine correspond à la courbe résultat. La valeur du paramètre de lissage est indiquée par<br />

la flèche.<br />

Le paramètre de lissage h contrôle donc le degré de régularité (Fig. 5.3). Une petite valeur<br />

de h mènerait à <strong>des</strong> estimations sous-lissées qui montrent de fausses crêtes tandis qu’une grande<br />

valeur de h causerait l’élimination d’une grande partie du détail. C’est un fait bien établi [Scott,<br />

1992] que les performances d’un estimateur à noyau (en termes d’erreur et d’évaluation visuelle)<br />

dépendent fortement du choix du paramètre de lissage. La structure fonctionnelle du noyau est


5.2 Estimateurs <strong>non</strong>-paramétriques 101<br />

Fig. 5.3 Noyaux fixes d’estimation de tailles 0.2 (a) et 0.8 (b).<br />

d’une importance relative 2 , excepté dans le cas où la contrainte de <strong>non</strong>-négativité est relâchée.<br />

Dans ce cas, la fonction noyau sera choisie de façon à réduire le biais.<br />

Afin d’apprécier la qualité d’une estimation, un critère d’erreur doit être utilisé. L’idée d’op-<br />

timalité est alors directement liée à celui-ci. L’erreur quadratique moyenne qui correspond à la<br />

somme de la variance et du biais au carré est l’un <strong>des</strong> critères les plus répandus. Formellement,<br />

la MSE 3 s’écrit en fonction de la densité réelle f et de l’estimée ˆ f :<br />

MSE( ˆ 2 f) = E ˆf(x) − f(x) = Var( ˆ <br />

f(x)) + Biais( ˆ 2 f(x)) .<br />

Comme critère global d’erreur, soit l’Erreur Quadratique Moyenne Intégrée, MISE 4<br />

MISE( ˆ 2 f) = E ˆf(x) − f(x) dx,<br />

2 Ici l’importance du noyau concerne le cadre général de l’estimation. Dans l’algorithme que nous développons<br />

le choix du noyau a une importance autre, liée à la contrainte calculatoire.<br />

3 Au lieu d’utiliser la notation française EQM (Erreur Quadratique Moyenne), nous préférons utiliser l’abbréviation<br />

anglaise puisque d’autres critères d’erreur seront introduits et leur traduction française n’est pas si<br />

évidente)<br />

4 MISE pour Mean Integrated Squared Error


102 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

et l’Erreur Quadratique Intégrée Moyenne IMSE (Integrated Mean Squared Error) :<br />

IMSE( ˆ <br />

f) =<br />

2 E ˆf(x) − f(x) dx.<br />

L’IMSE, MISE et MSE sont équivalentes par le Théorème de Fubini. Quand ces erreurs tendent<br />

vers zéro on dit que l’estimateur est L2 consistant.<br />

Une autre mesure aussi utilisée est l’Erreur Quadratique Intégrée (ISE 5 ) :<br />

ISE( ˆ f) =<br />

2 ˆf(x) − f(x) dx.<br />

Souvent la MSE ou la MISE ne peuvent être calculées exactement et <strong>des</strong> techniques asympto-<br />

tiques sont utilisées pour dériver <strong>des</strong> approximations utiles. Ces approximations seront notées<br />

respectivement AMSE 6 ou AMISE 7 .<br />

Lorsque le noyau est considéré fixe univarié, l’expression de AMISE est obtenue par un simple<br />

développement en série de Taylor :<br />

E ˆ f(x) =<br />

=<br />

EKh(x − X)<br />

<br />

1 − t<br />

K(x<br />

h h )f(t)dt<br />

<br />

= K(w)f(x − hw)dw<br />

<br />

= f(x) K(w) − hf ′ <br />

(x)<br />

wK(w) + 1<br />

2 h2f ′′ <br />

(x)<br />

w 2 K(w) + . . . ,<br />

En supposant que f ′′ est continue en x. Puisque le noyau K est supposé définir une densité<br />

continue de probabilité satisfaisant les conditions du moment :<br />

<br />

K(w)dw = 1;<br />

le biais est donné par :<br />

<br />

wK(w)dw = 0; et σ 2 K =<br />

Biais(x) = 1<br />

2 h2 σ 2 Kf ′′ (x) + O(h 4 ).<br />

<br />

w 2 K(w)dw > 0, (5.6)<br />

Ce qui donne la formule (asymptotique) du Biais Quadratique Intégré (En supposant que f ′′ est<br />

absolument continue) :<br />

5 Integrated Squared Error<br />

6 Asymptotic Mean Squared Error<br />

7 Asymptotic Mean Integrated Squared Error<br />

ISB(h) = 1<br />

4 h4 σ 4 R(f ′′ ), (5.7)


5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ? 103<br />

où la fonction R est définie par R(φ) = φ 2 (z)dz. Via un développement similaire on obtient :<br />

qui donne la Variance Intégrée (asymptotique)<br />

Var(x) = f(x)R(K)<br />

,<br />

nh<br />

À partir <strong>des</strong> équation 5.7 et 5.8, l’AMISE est donnée par :<br />

AMISE(h) = R(K)<br />

nh<br />

L’expression du AMISE est minimisée quand h est égal à :<br />

h ∗ =<br />

VI = R(K)<br />

. (5.8)<br />

nh<br />

+ 1<br />

4 h4 σ 4 R(f ′′ ). (5.9)<br />

<br />

R(K)<br />

σ4 KR(f ′′ 1/5 . (5.10)<br />

)<br />

En remplaçant h dans l’équation 5.9 par l’expression de h ∗ donnée par l’équation 5.10, on obtient<br />

le meilleur critère d’erreur AMISE, qui diminue à un taux de O(n −4/5 ). Scott [Scott, 1992] a<br />

démontré que la méthode de l’histogramme a le taux le plus faible O(n −2/3 ), alors que le meilleur<br />

taux de convergence est donné par l’erreur Quadratique Integrée Moyenne MISE, qui est de<br />

O(n −1 ).<br />

5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ?<br />

Il existe plusieurs situations où le fait de fixer le paramètre de lissage conduit à <strong>des</strong> résultats<br />

aberrants, ou du moins à <strong>des</strong> estimations insuffisantes. La qualité du recalage dépend fortement<br />

de la qualité de l’estimation de l’histogramme conjoint et par conséquent du choix du paramètre<br />

de lissage h.<br />

Pour illustrer la nécessité de faire varier la taille <strong>des</strong> fenêtres lors d’une procédure d’estimation,<br />

[Silverman, 1986] s’est appuyé sur <strong>des</strong> données relevées d’une étude sur le suicide (Fig. 5.4).<br />

Ces données présentent plusieurs mo<strong>des</strong> 8 et posent ainsi le même problème que les données<br />

<strong>des</strong> <strong>images</strong> médicales : les données exploitées par Silverman sont caractérisées par «une longue<br />

extrémité droite» comme c’est le cas pour la plupart <strong>des</strong> histogrammes <strong>des</strong> <strong>images</strong> médicales<br />

(voir Figs. 5.8, 5.9, 5.10, 5.8 et 5.12).<br />

8 Le mode est la valeur la plus souvent observée dans un ensemble de données.


104 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

Fig. 5.4 Estimations de la densité d’étude sur le suicide (Silverman), à droite h=<br />

60 et à gauche h=20.<br />

Dans le cas <strong>des</strong> <strong>images</strong> médicales, une simple égalisation ne suffit pas pour atténuer la pré-<br />

pondérance du niveaux de gris du fond. Choisir le paramètre h qui lisse autour du mode de<br />

la distribution sous-lisserait la sous-distribution de droite. En revanche, une valeur de h assez<br />

grande lisserait suffisamment cette courbe, mais éliminerait plusieurs niveaux de détails concer-<br />

nant le mode. Dans la figure 5.4 la première courbe correspond à une estimation à noyau normal<br />

fixe avec h = 20, alors que la seconde courbe correspond à h = 60 . Silverman observe que dans<br />

les zones où f est grande en magnitude, h doit être petit alors que dans les zones où f est petite<br />

en magnitude, h devrait être grand.<br />

L’estimation à noyau fixe trouve alors ses limites pour les données multimo<strong>des</strong> [Minnotte and<br />

Scott, 1993]. Il est difficile de trouver un seul paramètre de lissage qui différencierait adéquate-<br />

ment deux crêtes distinctes et les vallées entre ces crêtes. Un paramètre de lissage très grand peut<br />

sur-lisser et éliminer ainsi <strong>des</strong> mo<strong>des</strong> significatifs. Par contre un paramètre trop petit introduirait<br />

de fausses crêtes en sous-lissant la courbe.<br />

Pour <strong>des</strong> dimensions supérieures, l’estimation à noyau fixe est vouée à l’échec, à moins que<br />

la taille de l’échantillon ne soit suffisamment grande. Pour <strong>des</strong> échantillons de tailles moyennes,<br />

le paramètre de lissage doit être grand de façon à éliminer tous les détails locaux et à ne garder<br />

ainsi qu’un degré de variation raisonnable.


5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ? 105<br />

En général, l’estimation à noyau fixe trouve ses limites dans le cas de densités présentant <strong>des</strong><br />

changements en magnitude. Cependant, [Cacoullos, 1966] a montré que doivent être prises en<br />

compte <strong>non</strong> seulement les changements en magnitude mais aussi les courbures. Terell et Scott<br />

[Terrell and Scott, 1992] ont fait remarquer qu’en prenant en compte les courbures locales d’une<br />

densité multivariée, <strong>des</strong> réductions significatives du biais et par conséquent du MISE, peuvent<br />

être atteintes en utilisant un noyau adaptatif.<br />

Enfin, Terell et Scott ont entrepris une grande étude sur l’estimation adaptative. Faite opti-<br />

malement, l’estimation adaptative conduit à <strong>des</strong> améliorations importantes <strong>des</strong> métho<strong>des</strong> <strong>non</strong>-<br />

adaptatives. Cependant, mal construits, les noyaux adaptatifs produiraient une sous-optimalité<br />

et conduiraient à <strong>des</strong> estimations dont la qualité est inférieure à celle <strong>des</strong> noyaux fixes.<br />

5.3.1 Sélection automatique <strong>des</strong> fenêtres<br />

Sélectionner automatiquement le paramètre de lissage en se fondant seulement sur les infor-<br />

mations extraites <strong>des</strong> données a été pendant longtemps au centre <strong>des</strong> travaux en estimation de<br />

densités de probabilités. [Rudemo, 1982] et [Bowman, 1984] ont développé une approche fondée<br />

sur la recherche du paramètre de lissage qui minimise une estimation <strong>non</strong>-biaisée du risque 9 .<br />

L’approche proposée étant générale on peut donc la développer en utilisant l’erreur quadratique<br />

intégrée ISE donnée par :<br />

<br />

ISE(h) = ( ˆ f(x) − f(x)) 2 dx<br />

= R( ˆ <br />

f) − 2 ˆf(x)f(x)dx + R(f).<br />

ˆf correspond à l’estimateur <strong>non</strong>-paramétrique de densité (histogramme ou estimateur à noyau<br />

fixe). Le dernier terme étant fonction de la densité inconnue et <strong>non</strong> de l’estimateur, il peut donc<br />

être ignoré. Le premier terme est une fonction de l’estimateur et peut être calculé directement.<br />

En revanche, le terme intermédiaire ne peut être calculé directement et doit être estimé.<br />

Rudemo et Browman notent que<br />

<br />

ˆf(x)f(x)dx = E[ ˆ f(X)], (5.11)<br />

En utilisant un estimateur leave-one-out (i.e. un estimateur construit en enlevant un point de<br />

9 le risque ici se réfère au ISE présenté dans la section précédente


106 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

données), l’espérance peut être approchée de façon <strong>non</strong>-biaisée par :<br />

1<br />

n<br />

<br />

n ˆ fi(xi),<br />

i=1<br />

ce qui conduit au critère de validation croisée<br />

UCV = R( ˆ f) − 2<br />

n<br />

n<br />

ˆf n −i(xi). (5.12)<br />

Rodemo et Bowman montrent que le critère de validation croisée <strong>non</strong>-biaisée est une estimation<br />

<strong>non</strong>-biaisée du risque dans le sens où E[UCV] + R(f) = MISE.<br />

5.3.2 Noyaux adaptatifs<br />

Les travaux en estimation de densité à noyau adaptatif peuvent être groupés en deux caté-<br />

gories : les estimateurs ballons «balloon» et les «sample point estimator». La distinction entre<br />

ces deux approches réside dans la façon de faire varier la fenêtre. Pour l’estimateur ballon, une<br />

fenêtre différente mais fixe est sélectionnée pour chaque point d’estimation x. L’estimation de<br />

f au point x correspond alors à la moyenne de noyaux identiquement normalisés centrés sur<br />

chaque donnée. Afin de calculer l’estimation à un autre point, une nouvelle valeur du paramètre<br />

de lissage doit être utilisée. L’estimateur adaptatif s’écrit :<br />

ˆf1(x) =<br />

1<br />

nh(x) d<br />

i=1<br />

n<br />

K<br />

i=1<br />

<br />

x − Xi<br />

. (5.13)<br />

h(x)<br />

L’estimateur «sample point estimator» fait appel à un paramètre de lissage différent pour chaque<br />

donnée de l’échantillon et est donné par :<br />

ˆf2(x) = 1<br />

n<br />

n<br />

i=1<br />

1<br />

K<br />

h(Xi) d<br />

<br />

x − Xi<br />

. (5.14)<br />

h(Xi)<br />

L’estimation de f à chaque point x correspond alors à la moyenne de noyaux différemment<br />

normalisés centrés sur chaque donnée de l’échantillon. La figure 5.5 donne le résultat d’un tel<br />

estimateur sur les données de l’étude sur le suicide (Silverman).


5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif 107<br />

Fig. 5.5 Résultat de l’estimateur «sample point estimaor» de la densité d’étude<br />

sur le suicide (Silverman).<br />

5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif<br />

Le problème posé à la fois par le «balloon estimator» et le «sample point estimator» est le<br />

coût de calcul élevé dû à la selection d’un paramètre de lissage à chaque estimation d’un point<br />

de données. Dans un cas de figure comme le nôtre où l’estimation n’est pas une fin en soi, mais<br />

constitue une étape d’un algorithme plus large faisant évoluer d’autres critères dont la complexité<br />

est aussi élevée, il est judicieux de chercher une méthode d’estimation dont le comportement est<br />

similaire à celui <strong>des</strong> métho<strong>des</strong> utilisant <strong>des</strong> noyaux adaptatifs, à la différence près que la charge<br />

calculatoire induite par les fonctions coût (ISE, AMISE) est significativement réduite.<br />

Pour apporter un élément de réponse à ce problème, nous nous sommes intéressés aux modèles<br />

d’estimation compétitifs qui alternent estimation paramétrique et estimation <strong>non</strong>-paramétrique<br />

([Hjort and Glad, 1995], [Rudzkis, 1992], [Cao et al., 1995], [Cao and Devroye, 1996] et [Susko<br />

et al., 1998] et [Priebe and Marchette, 2000]). L’approche qui nous a séduite et qui convenait le<br />

plus à notre problème est celle développée par [Priebe and Marchette, 2000] qui proposent une<br />

variante de l’estimateur à noyau qui incorpore <strong>des</strong> informations locales sur la régularité de la<br />

densité. L’estimateur utilise un petit ensemble de paramètres de lissage au lieu d’un paramètre<br />

de lissage global, comme c’est le cas pour les estimateurs à noyau fixe. Le choix de cet ensemble<br />

de paramètres est guidé par <strong>des</strong> fonctions de filtrage qui déterminent la portée de l’influence<br />

d’un paramètre de lissage et de sa valeur. Ainsi à chaque fonction de filtrage correspond un<br />

paramètre de lissage et inversement. L’estimateur revient à une approche compétitive entre un


108 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

estimateur semi-paramétrique (mélange de gaussiennes) et un estimateur <strong>non</strong>-paramétrique à<br />

noyau. Dans un sens, le mélange de gaussiennes définit les fonctions de filtrage et, dans l’autre<br />

sens, l’estimateur <strong>non</strong>-paramétrique corrige l’estimateur par mélange de noyaux, en mettant<br />

à jour le nombre de gaussiennes. L’estimateur dit «FKE», pour «Filtered Kernel Estimator»,<br />

présente <strong>des</strong> propriétés de convergence intéressantes dans le cas où la densité réelle comporte<br />

plusieurs mo<strong>des</strong> et <strong>des</strong> variances différentes. Dans les sections qui suivent nous résumons les<br />

développements théoriques présentés dans [Marchette et al., 1995] et [Priebe and Marchette,<br />

2000]. Nous avons pris la liberté de changer quelques notations afin de mieux les adapter à notre<br />

problématique.<br />

5.4.1 Hypothèses fondamentales<br />

Supposons que l’on cherche à définir un ensemble réduit de paramètres de lissage où chacun<br />

de ces derniers est associé à une partition du support de la densité. A chaque paramètre de lissage<br />

(fenêtre), on associe une fonction qui filtre les données. Un filtre ainsi défini agira comme une<br />

fonction de contrainte qui contrôle l’étendue du paramètre de lissage qui lui est associé. Soit un<br />

ensemble de fonctions {Wj} m j=1 , où 0 ≤ Wj(x) ≤ 1 et pour tout x on a :<br />

m<br />

Wj(x) = 1<br />

j=1<br />

Les noyaux de filtrage W expriment en fait <strong>des</strong> probabilités a posteriori et sont utilisés pour<br />

introduire <strong>des</strong> informations a priori sur la structure et surtout la régularité de la densité que<br />

l’on cherche à estimer. Formellement l’estimateur s’exprime par :<br />

ˆf(x) = 1<br />

n<br />

n<br />

m<br />

i=1 j=1<br />

Wj(Xi)<br />

hd K<br />

j<br />

<br />

x − Xi<br />

hj<br />

(5.15)<br />

où à chaque fonction de filtrage Wj est associé un paramètre de lissage hj tel que hj > 0, hj → 0<br />

et nhj → ∞ quand n → ∞.<br />

La fonction globale de filtrage n’est autre qu’un mélange de noyaux qui s’exprime de la sorte :<br />

M(x) =<br />

La probabilité a posteriori s’exprime alors par :<br />

m<br />

cjϕj(x)<br />

j=1<br />

Wj(x) = cjϕj(x)<br />

M(x)


5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif 109<br />

L’idée est d’utiliser une valeur de h pour chaque composante de M. Cette valeur doit être<br />

optimale pour cette composante comme si l’on travaillait dans le cadre d’une estimation semi-<br />

paramétrique par mélange de noyaux. Pratiquement, si l’on travaille avec un mélange de gaus-<br />

siennes, le paramètre de lissage est une fonction de la variance de la gaussienne à laquelle il est<br />

associé. Il est attrayant de se servir de la probabilité a posteriori de l’adhésion d’une compo-<br />

sante ϕ pour déterminer la contribution locale d’un paramètre de lissage donné. La procédure<br />

d’estimation revient donc à chercher dans un premier temps une approximation sous forme de<br />

mélange de noyaux (gaussiennes), et à utiliser ce résultat pour déterminer les paramètres de<br />

lissage (largeurs de fenêtres), tout en intégrant <strong>des</strong> informations sur les régularités locales de la<br />

densité réelle.<br />

La condition nécessaire et suffisante pour que l’estimateur réponde aux conditions de la<br />

théorie d’estimation et <strong>des</strong> probabilités et exprime ainsi une densité est :<br />

5.4.2 Choix du noyau<br />

1<br />

n<br />

n<br />

m<br />

1<br />

h<br />

i=1 j=1<br />

d j<br />

<br />

<br />

x − Xi<br />

Wj(xi)K<br />

dx = 1.<br />

Comme expliqué dans le chapitre précédent, l’utilisation d’un noyau gaussien réduit consi-<br />

dérablement le temps de calcul de l’entropie quadratique de Rényi et par conséquent celui du<br />

critère de similarité. Dorénavant le noyau K correspondra à une distribution normale de moyenne<br />

nulle (µ = 0) et de variance égale à 1 (σ 2 = 1). L’estimateur «FKE» prend alors la forme :<br />

ˆfh(x) = 1<br />

n<br />

n<br />

m<br />

i=1 j=1<br />

hj<br />

cjGψj (Xi − µ d j )<br />

h ∗ ψjM(Xi, θj) G1<br />

<br />

x − Xi<br />

h ∗ ψj<br />

(5.16)<br />

Le paramètre optimal h opt peut être choisi en minimisant l’erreur MISE de ˆ fh(x) sous l’hy-<br />

pothèse que le mélange de filtrage M(Xi, θ) correspond à la densité réelle :<br />

<br />

hopt = argmin MISE(<br />

h<br />

ˆ <br />

fh(x))|f0 = M(Xi, θ) .<br />

De plus, l’utilisation d’un noyau gaussien profite au calcul de l’erreur MISE qui s’écrit (pour


110 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

les détails voir annexe A) :<br />

avec<br />

MISE(h) ≈ σ2 K<br />

4<br />

m<br />

j=1 k=1<br />

m<br />

h 2 jh 2 <br />

d2 k<br />

1<br />

n<br />

g(hj, hk) =<br />

d2<br />

(f(x)Wj(x))<br />

dx2 dx2 (f(x)Wk(x)) dx + (5.17)<br />

m<br />

j=1 k=1<br />

=<br />

<br />

m<br />

<br />

g(hj, hk)<br />

1<br />

√ 2π<br />

hjhk<br />

K( 1<br />

)K(<br />

hj<br />

1<br />

)dw<br />

hk<br />

hjhk<br />

<br />

h2 j + h2 .<br />

k<br />

Wj(y)Wk(y)f(y)dy (5.18)<br />

L’estimateur repose sur l’hypothèse fondamentale que la densité réelle correspond à un mé-<br />

lange de gaussiennes, et que par conséquent les fonctions de filtrage s’expriment sous la forme<br />

d’un mélange de gaussiennes. Cette hypothèse est valide dans le cadre du traitement d’<strong>images</strong>,<br />

mais ne l’est pas forcément dans le cadre de processus stochastique <strong>non</strong>-linéaires plus complexes.<br />

En remplaçant dans l’équation 5.18 l’expression <strong>des</strong> fonctions de filtrage M, on écrit :<br />

MISE(h) ≈ σ2 K<br />

4<br />

En utilisant les notations :<br />

Le risque MISE s’écrit :<br />

1<br />

n √ 2π<br />

MISE ≈ σ2 K<br />

4<br />

m<br />

m<br />

cjckh 2 jh 2 <br />

k<br />

G<br />

j=1 k=1<br />

′′<br />

ψj (x)G′′ ψk (x)dx +<br />

m m cjck<br />

<br />

j=1 k=1 h2 j + h2 <br />

Gψj (y)Gψk (y)<br />

dy.<br />

f(y)<br />

k<br />

Ajk = cjck<br />

Bjk = cjck<br />

m<br />

m<br />

j=1 k=1<br />

<br />

G ” ψj (x)G” ψk (x)dx,<br />

Gψj<br />

Ajkh 2 jh 2 k<br />

(x)Gψk (x)<br />

dy.<br />

f(y)<br />

+ 1<br />

n √ 2π<br />

m<br />

m<br />

Bjk<br />

<br />

j=1 k=1 h2 j + h2 k<br />

. (5.19)<br />

De cette équation on peut déterminer les paramètres de lissage par une méthode d’optimisation


5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif 111<br />

itérative fondée sur le gradient. Les dérivées partielles s’écrivent :<br />

∂<br />

∂hr<br />

<br />

MISE = σ 2 KArrh 3 r + 1<br />

2 σ2 Khr Akrh<br />

k=r<br />

2 k<br />

5.4.3 Calcul <strong>des</strong> fonctions de filtrage<br />

− Brr<br />

2n √ πh 2 r<br />

− hr<br />

n √ <br />

2π<br />

k=r<br />

Bkr<br />

<br />

h 2 r + h 2 k<br />

3 . (5.20)<br />

En pratique, le mélange de gaussiennes exprimant la densité réelle est inconnu. Dans ce cas,<br />

les formules précédentes nécessaires à la détermination de l’ensemble <strong>des</strong> paramètres de lissage<br />

ne sont pas applicables. En effet les calculs de Ajk et de Bjk font appel à la densité réelle f<br />

qui est inconnue. Pour pallier ce problème la densité réelle est approchée et est formulée, dans<br />

un premier temps, sous la forme d’un mélange de gaussiennes. L’expression obtenue est alors<br />

utilisée pour calculer l’ensemble <strong>des</strong> paramètres de lissage en minimisant l’équation 5.19. Cette<br />

démarche est analogue à celle utilisée en estimation par noyau fixe où l’on suppose que la densité<br />

réelle prend la forme d’une gaussienne pour calculer le paramètre de lissage.<br />

5.4.4 Simulations et résultats<br />

Le but de cette section est de donner quelques résultats de l’estimateur «FKE» dans un<br />

cadre d’analyse d’<strong>images</strong>. Nous allons commencer dans un premier temps par <strong>des</strong> simulations<br />

où la densité réelle est générée par un mélange de gaussiennes. Le but est d’estimer au mieux<br />

cette densité et de prouver la supériorité de l’estimateur «FKE» face aux estimateurs à noyau<br />

fixe «KE». La deuxième partie donne <strong>des</strong> résultats d’estimation d’<strong>images</strong> provenant de diverses<br />

modalités et concernant <strong>des</strong> zones anatomiques différentes. La partie consistant à prouver nu-<br />

mériquement l’utilité de l’estimateur «FKE» dans le cadre du recalage et plus particulièrement<br />

l’impact de la précision dans le calcul <strong>des</strong> mesures de similarité est traitée dans le chapitre 7.<br />

L’erreur MISE est calculée pour l’estimateur réduit «FKE» et l’estimateur de Parzen à noyau<br />

fixe où le paramètre de lissage h a été calculé automatiquement par validation croisée. Les<br />

paramètres de lissage utilisés par l’estimateur sont calculés en minimisant l’équation 5.19. Le<br />

rendement (efficacité) de l’estimateur est calculé par le rapport MISE FKE /MISE KE [Wand et<br />

al., 1991].<br />

1 er cas : Variance variable<br />

Soit :<br />

f(x) = 1<br />

2 G0,1(x) + 1<br />

2 G 0,σ 2(x),


112 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

avec 0.1 ≤ σ 2 ≤ 10 . La figure 5.6 montre la courbe de rendement (efficacité) en fonction de<br />

la variance. Il est à noter que pour σ 2 = 1, l’estimateur «FKE» donne <strong>des</strong> résultats meilleurs<br />

que l’estimateur à noyau fixe «KE» comme il est attendu. La figure 5.7 montre les largeurs de<br />

fenêtres utilisées par l’estimateur «FKE». La largeur de fenêtre associée au deuxième terme du<br />

mélange de gaussiennes, le terme pour qui la variance change, varie en fonction de σ 2 .<br />

Cette expérience représente le problème principal pour lequel l’estimateur a été conçu : on<br />

dispose d’une densité qui correspond à un mélange de deux gaussiennes avec <strong>des</strong> variances dif-<br />

férentes. Au fur et à mesure que la variance de la deuxième gaussienne s’éloigne de la variance<br />

de la première gaussienne, l’estimateur à noyau fixe perd en efficacité et devient inadéquat pour<br />

représenter la densité réelle. L’estimateur à noyau adaptatif présente <strong>des</strong> résultats plus cohérent<br />

dans ce cas de figure.<br />

Fig. 5.6 Le rendement (efficacité) en fonction de la variable pour l’expérience 1.<br />

À mesure que la variance s’éloigne de 1, l’estimateur à noyau fixe (KE) devient de<br />

plus en plus inadéquat pour l’estimation de la densité d’étude. L’estimateur réduit<br />

«FKE» permet, quant à lui, de prendre en compte les deux variances, ce qui améliore<br />

le résultat de l’estimation quant les variances <strong>des</strong> gaussiennes sont significativement<br />

éloignées.<br />

2 ème Cas : Données Image<br />

Dans cette section , nous présentons plusieurs résultats d’estimation sur <strong>des</strong> données d’<strong>images</strong><br />

provenant de plusieurs modalités et concernant différentes zones anatomiques.


5.5 Synthèse du chapitre 113<br />

Largeur de fenêtre<br />

Fig. 5.7 Les largeurs de fenêtres utilisées par l’estimateur réduit à noyau adaptatif<br />

«FKE». Le paramètre de lissage associé au deuxième terme du mélange de<br />

gaussiennes (la ligne continue), pour lequel la variance change, varie en fonction<br />

de σ, ce qui permet à l’estimateur de mieux représenter les variances locales de la<br />

densité réelle.<br />

5.5 Synthèse du chapitre<br />

Ce chapitre a couvert les métho<strong>des</strong> d’estimation <strong>des</strong> densités de probabilités. Cette étude a<br />

été entreprise pour accélérer le temps de calcul nécessaire au critère de similarité qui requiert<br />

l’évaluation de l’histogramme conjoint <strong>des</strong> <strong>images</strong> à recaler, ce qui permet d’utiliser <strong>des</strong> modèles<br />

de déformations <strong>non</strong>-linéaires.<br />

Ce chapitre a commencé par une présentation du cadre théorique de l’estimation <strong>des</strong> densités<br />

de probabilité. Il s’est consacré, par la suite, aux métho<strong>des</strong> <strong>non</strong>-paramétriques à noyau. Le<br />

cadre théorique de cette classe d’estimateurs a été introduit et la nécessité de varier les noyaux<br />

d’estimation dans le cadre d’analyse d’<strong>images</strong> a été discutée. Les métho<strong>des</strong> classiques à noyau<br />

adaptatif types «balloon estimator» et «sample point estimator» ont alors été introduites. Leurs<br />

limitations, qui concernent principalement le temps de calcul conséquent qu’elles nécessitent, ont<br />

été mis en évidence.<br />

Dans sa deuxième partie, ce chapitre a introduit notre choix du modèle d’estimation. Cet<br />

estimateur réduit à noyau adaptatif est une combinaison de deux approches : l’approche semi-<br />

paramétrique et l’approche <strong>non</strong>-paramétrique.<br />

Enfin, ce chapitre se termine par une présentation <strong>des</strong> quelques résultats empiriques de l’es-<br />

timateur dans un cadre d’estimation <strong>des</strong> histogrammes <strong>des</strong> <strong>images</strong> médicales.


114 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

0.05<br />

0.045<br />

0.04<br />

0.035<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

(a) Coupe IRM de l’abdomen.<br />

0<br />

-100 0 100 200 300 400 500 600<br />

(b) En bleu la densité réelle de la coupe IRM. En rouge<br />

son estimation par l’estimateur «FKE».<br />

Fig. 5.8 Illustration du résultat de l’estimation sur les données d’une IRM de<br />

l’abdomen.


5.5 Synthèse du chapitre 115<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

(a) Coupe IRM du crâne.<br />

0<br />

-50 0 50 100 150 200 250 300 350<br />

(b) En bleu la densité réelle et en rouge la densité estimé.<br />

Fig. 5.9 Illustration du résultat de l’estimation sur les données d’une IRM du<br />

cerveau.


116 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

x 10-3<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

Dupont<br />

(a) Coupe TDM de l’abdomen avec artefacts.<br />

-4 -3 -2 -1 0 1 2 3 4<br />

x 10 4<br />

0<br />

(b) En bleu la densité réelle et en rouge la densité estimé.<br />

Fig. 5.10 Illustration du résultat de l’estimation sur les données TDM bruitées<br />

de l’abdomen.


5.5 Synthèse du chapitre 117<br />

0.035<br />

0.005<br />

(a) Coupe TDM du crâne avec cadre stéréotaxique.<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0<br />

-3000 -2000 -1000 0 1000 2000 3000 4000<br />

(b) En bleu la densité réelle et en rouge la densité estimé.<br />

Fig. 5.11 Illustration du résultat de l’estimation sur les données TDM bruitées<br />

(cadre stéréotaxique) du cerveau.


118 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />

0.05<br />

0.045<br />

0.04<br />

0.035<br />

0.03<br />

0.025<br />

0.02<br />

0.015<br />

0.01<br />

0.005<br />

(a) Coupe TDM du poumon<br />

0<br />

-100 0 100 200 300 400 500 600 700 800 900<br />

(b) Résultats de l’estimation sur les données TDM du<br />

poumon<br />

Fig. 5.12 Illustration du résultat de l’estimation sur les données TDM du poumon.


Chapitre 6<br />

L’algorithme MIAMI<br />

6.1 Introduction<br />

Dans les chapitres précédents, nous avons présenté les différents apports théoriques de ce<br />

mémoire. Cependant, le cadre de mise en oeuvre algorithmique n’a pas encore été exposé. Ce<br />

chapitre récapitule ces différents développements théoriques et décrit nos différents choix de mise<br />

en oeuvre algorithmique du recalage <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> d’<strong>images</strong>.<br />

sont :<br />

Un algorithme de recalage peut être schématisé de façon modulaire. Les différents modules<br />

– Le modèle de déformation.<br />

– La fonctionnelle de recalage.<br />

– Le modèle d’interpolation.<br />

– La stratégie d’optimisation.<br />

Ces différents modules seront détaillés pour les différentes parties de la procédure globale du<br />

recalage.<br />

6.2 Formulation hybride<br />

Comme nous avons eu l’occasion de l’expliquer plus tôt, notre choix de déformation porte sur<br />

un modèle hybride qui associe une déformation globale et un ensemble de déformations locales :<br />

T(x, y, z) = T globale (x, y, z) + T locale (x, y, z) (6.1)<br />

Ce choix est motivé par <strong>des</strong> considérations calculatoires. En effet, formuler le modèle de défor-<br />

mation par le biais de deux transformations disjointes permet d’accélérer le temps de calcul.<br />

119


120 L’algorithme MIAMI<br />

La procédure du recalage est la suivante : on commence par calculer un modèle continu <strong>des</strong><br />

<strong>images</strong> ; ce modèle servira à la fois à l’interpolation <strong>des</strong> points qui ne «tombent» pas dans une<br />

grille discrète et à la construction de la pyramide multi-résolution. Par la suite, on procède à un<br />

recalage linéaire affine pour aboutir à une bonne approximation et une initialisation optimale du<br />

recalage <strong>non</strong>-<strong>rigide</strong>. Partant <strong>des</strong> résultats du recalage affine, on procède à un recalage <strong>non</strong>-<strong>rigide</strong><br />

fondé sur les déformations de formes libres. Ce schéma permet, en plus d’accélérer le temps<br />

de calcul, de résoudre le problème d’initialisation dont souffrent les approches <strong>non</strong>-<strong>rigide</strong>s du<br />

recalage. Ce schéma est illustré dans la figure 6.1. Notre algorithme a été baptisé MIAMI pour<br />

«Medical Image Alignment by quadratic Mutual Information».<br />

6.3 Modèle d’image<br />

Soit n(x) un modèle continu d’une image pouvant être obtenu à partir d’échantillons Ni =<br />

f(xi) régulièrement espacés dans une grille Cartésienne. Pour être fonctionnel, un modèle d’image<br />

doit satisfaire les contraintes suivantes :<br />

– En premier lieu, il doit permettre l’interpolation dans l’image c-à-d pouvoir associer les<br />

échantillons Ni et leur position xi à la forme continue de l’image n(x). Cette propriété est<br />

généralement nécessaire dans le cas de transformations géométriques n → n(T(xi)).<br />

– En second lieu, étant donné une certaine fonction continue y(x), il doit exister un procédé<br />

pour récupérer un ensemble d’échantillons Yi aux positions xi tel que le modèle basé sur<br />

cet ensemble reconstruirait une approximation acceptable de y(x). Une application typique<br />

de cette contrainte est le calcul d’une pyramide de résolution. Dans ce cas-ci le procédé<br />

peut être schématisé par :<br />

(Ni, xi) → n(x) → n(2x) = y(x) → (Yi, xi)<br />

Le modèle proposé par [Unser et al., 1993c] est fondé sur <strong>des</strong> fonctions B-splines de degré n.<br />

Spécifiquement, on a :<br />

n(x) = <br />

c(xi)β n (x − xi), (6.2)<br />

xi∈V<br />

où β(x) est un noyau de convolution séparable donné par le produit β n (x1).β n (x2)..., et où<br />

les coefficients d’expansion ci = c(xi) sont calculés à partir <strong>des</strong> valeurs de l’échantillon Ni par<br />

filtrage récursif. Ce modèle est continu et différentiable pour tout n ≥ 0, et différentiable pour<br />

tout n > 1.<br />

L’intérêt de ce modèle est triple. D’abord, sa version multi-échelle fournit la pyramide d’<strong>images</strong><br />

que nous utilisons dans notre approche multi-résolutions. En second lieu, il permet le ré-échantillo-


6.3 Modèle d’image 121<br />

Images M-N<br />

combinées<br />

Image N recalée<br />

Validation visuelle<br />

Image Cible M Image Source N<br />

Pyramide Cible<br />

Construction <strong>des</strong><br />

pyrami<strong>des</strong><br />

Pyramide Source<br />

<strong>Recalage</strong> affine<br />

<strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong><br />

Résultat du recalage<br />

<strong>non</strong>-<strong>rigide</strong><br />

Fig. 6.1 Différentes étapes de l’approche hybride du recalage.<br />

Résultat du recalage<br />

affine


122 L’algorithme MIAMI<br />

nnage de l’image source n(T(xi)). Finalement, il est utilisé pour le calcul du gradient de l’image<br />

requis lors de la phase d’optimisation.<br />

6.3.1 Schéma multi-résolution<br />

Au niveau algorithmique, une stratégie multi-résolution participe à réduire les charges de<br />

calcul. Elle consiste à utiliser la solution obtenue à une résolution donnée comme initialisation<br />

à la résolution plus fine suivante. Cela permet d’un côté une réduction drastique du coût global<br />

de calcul et d’un autre côté une amélioration de la robustesse de l’algorithme.<br />

Pour ce faire, une pyramide d’<strong>images</strong> est alors construite à plusieurs résolutions. Dans notre<br />

algorithme nous avons intégré le code de [Unser et al., 1993c] disponible à l’adresse notée en bas<br />

de page 1 .<br />

6.3.2 Degré du modèle<br />

Du degré du modèle dépend la qualité de l’approche. Le degré le plus faible n = 0 correspond<br />

à l’interpolation par le plus proche voisin. Utilisé pour construire la pyramide de résolution,<br />

il conduit au crénelage (aliasing). Utilisé pour calculer n(T(x)), il a comme conséquence <strong>des</strong><br />

dégradations de l’image qui se traduisent par <strong>des</strong> effets de blocs «blocking artifacts». Utilisé<br />

pour calculer le critère de similarité S, il en résulte un critère discret difficile à optimiser sauf à<br />

utiliser <strong>des</strong> modèles stochastiques, généralement coûteux en temps de calcul et en espace mémoire.<br />

Le degré suivant n = 1 correspond à l’interpolation linéaire. Elle produit moins de crénelage<br />

«aliasing», et les effets de blocs sont remplacés par <strong>des</strong> effets de sur-lissage «oversmoothing».<br />

Dans ces deux cas, le calcul <strong>des</strong> coefficients <strong>des</strong> B-splines c est trivial. Pour <strong>des</strong> degrés plus<br />

élevés, ce calcul est légèrement plus compliqué, mais le crénelage est réduit sensiblement. Les<br />

effets de blocs et de lissage sont remplacés par <strong>des</strong> effets d’oscillation «ringing artifacts».<br />

Dans le cas limite : n → ∞, les effets de crénelage disparaissent complètement mais les effets<br />

d’oscillation restent fortement présents (sinc, ou interpolation de Shan<strong>non</strong>). Un bon compromis<br />

est de choisir un noyau B-spline cubique.<br />

Il est trois raisons principales pour lesquelles le choix d’un degré élevé est essentiel à un<br />

comportement approprié d’une stratégie multirésolution de recalage. Considérons d’abord que<br />

l’on exécute l’optimisation à un niveau élevé de la pyramide. Les étapes faites par l’optimiseur<br />

correspondent à ce niveau à de grands pas au niveau le plus fin. Il s’en suit que la précision<br />

est d’une grande importance à ce niveau car l’interpolation «subpixel» doit être la plus fidèle<br />

1 http://bigwww.epfl.ch/sage/pyramids/index.html


6.4 <strong>Recalage</strong> affine 123<br />

possible. Ceci nécessite un degré plus élevé que ce qui est traditionnellement choisi. Ensuite,<br />

admettons disposer <strong>des</strong> paramètres optimaux du recalage à un certain niveau, les paramètres<br />

optimaux au niveau plus fin suivant ne sont pas identiques parce que le niveau de détail dans les<br />

données a augmenté, et ces détails supplémentaires requièrent <strong>des</strong> ajustements <strong>des</strong> paramètres<br />

du recalage. Ces ajustements doivent cependant être aussi rares que possible, ce qui est réalisé en<br />

réduisant au maximum la quantité de détail distinguant le niveau l du niveau l + 1. Ainsi, il est<br />

préférable de limiter le crénelage inhérent à l’opération de réduction de taille, d’où la nécessité<br />

d’un degré du modèle plus élevé.<br />

En plus de rechercher les paramètres de la transformation géométrique dans les niveaux les<br />

moins fins, la stratégie de multirésolution n’exclut pas de recommencer l’optimisation pour <strong>des</strong><br />

niveaux plus fins. Afin que cette stratégie soit efficace en termes de temps de calcul, le nombre<br />

d’itérations requis par l’algorithme d’optimisation pour trouver les paramètres optimaux au<br />

degré le plus élevé (i.e sans stratégie multi-résolution) doit être inférieur si celle-ci est utilisée.<br />

De cette considération découle le fait qu’il est primordial de choisir un schéma d’optimisation<br />

qui tire partie <strong>des</strong> conditions de départ (initialisation). L’algorithme de Marquardt-Levenberg<br />

([Marquardt, 1963]) est particulièrement adapté à une stratégie multi-résolution.<br />

Les différentes étapes de l’algorithme sont présentées dans les sections qui suivent.<br />

6.4 <strong>Recalage</strong> affine<br />

6.4.1 Modèle de déformation<br />

Une première approximation de la déformation géométrique est obtenue à l’aide d’un recalage<br />

affine <strong>des</strong> <strong>images</strong>. Vu que cette approximation correspond elle même à un a priori très fort sur la<br />

solution, le critère de régularisation n’est pas considéré. Cette initialisation du recalage <strong>non</strong>-<strong>rigide</strong><br />

est obtenue alors à l’aide d’un schéma classique de recalage affine.<br />

6.4.2 Critère de similarité<br />

Le critère de similarité utilisé lors de cette étape du recalage est l’Information Mutuelle<br />

Quadratique Normalisée :<br />

S(M, N) = H2(M) + H2(N)<br />

H2(M, N)<br />

− 1.


124 L’algorithme MIAMI<br />

6.4.3 Optimisation<br />

Les paramètres de la transformation affine sont recherchés en utilisant une stratégie de re-<br />

cherche dont le cœur est l’algorithme de Marquardt-Levenberg combiné avec une approche multi-<br />

résolution.<br />

La méthode de <strong>des</strong>cente de gradient<br />

L’algorithme itératif de <strong>des</strong>cente de gradient est une procédure de minimisation qui peut<br />

succintement être décrite comme :<br />

T (k+1) = T (k) − λ∇S(T (k) ). (6.3)<br />

Sa convergence vers un minimum local est garantie, bien qu’elle nécessite un temps de calcul<br />

conséquent. Un problème principal est la détermination du facteur d’apprentissage λ qui prend<br />

ici la forme d’une matrice diagonale d’échelle.<br />

La méthode de Newton<br />

L’opimiseur de Newton s’écrit :<br />

T (k+1) = T (k) − (∇ 2 S(T (k) )) −1 ∇S(T (k) ). (6.4)<br />

Sa convergence à un optimum n’est pas garantie : il peut converger à un point «selle» (en<br />

même temps un maximum pour un certain paramètre θ1 et un minimum pour un autre paramètre<br />

θ2). Pire encore, il diverge de la solution quand le problème n’est pas convexe. En revanche, il<br />

est extrêmement efficace quand le critère est localement convexe quadratique, parce que dans ce<br />

cas-ci l’optimum désiré est obtenu après une seule évaluation du critère.<br />

La méthode de Marquardt-Levenberg<br />

La stratégie de Marquardt-Levenberg est une manière commode de combiner les avantages<br />

de la méthode de gradient avec ceux de la méthode de Newton, préservant l’efficacité du dernier<br />

quand les conditions sont presque optimales, et la robustesse du premier quand elles ne le sont<br />

pas.<br />

Soit HS l’Hessien modifié qui correspond à ∇S dont les éléments diagonaux ont été multipliés<br />

par un certain facteur :<br />

[HS(T)]i,j = [∇ 2 S(T)]i,j(1 + δi,jλ),


6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> 125<br />

où δi,j est le symbole de Kronecker, et λ est le facteur de réglage qui mesure le compromis entre<br />

la méthode de gradient et la méthode de Newton. La méthode d’optimisation s’écrit :<br />

T (k+1) = T (k) − (HS(T (k) )) −1 ∇S(T (k) ). (6.5)<br />

Selon la valeur de λ, on peut distinguer deux cas extrêmes : λ → 0, les équations 6.5 et 6.4 sont<br />

alors identiques. λ → +∞, les termes diagonaux du Hessien modifié dominent, et nous sommes<br />

alors dans la situation de l’équation 6.3. Le facteur λ doit être choisi entre ces deux cas extrêmes<br />

afin de réaliser un bon compromis entre l’efficacité (mais le manque de robustesse) de l’approche<br />

de Newton, et le nombre d’itérations mais le manque d’efficacité en général de l’approche de<br />

robuste gradient.<br />

6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong><br />

6.5.1 Modèle de déformation<br />

Pour retrouver les déformations locales, l’image source est immergée dans une grille de points<br />

de contrôle. La transformation géométrique est alors opérée indirectement sur l’image en dépla-<br />

çant ces points de contrôle. Le déplacement −→ u (x, y, z) d’un voxel (x, y, z) de l’image est défini<br />

par le déplacement <strong>des</strong> points de contrôle de son voisinage en utilisant <strong>des</strong> fonctions B-splines.<br />

La figure 6.2 illustre une coupe axiale immergée dans une grille 2D régulière où l’espace-<br />

ment δ entre les points de contrôle est constant. Chaque point de contrôle est représenté par<br />

un couple ⌊i, j⌋ correspondant aux indices de la grille. L’origine (0.0, 0.0) <strong>des</strong> coordonnées de<br />

l’image coïncide avec le point de contrôle initial ⌊i = 0, j = 0⌋. Dans cet exemple, les points de<br />

contrôle (⌊3, 2⌋ et ⌊4, 3⌋) ont été déplacés (petites flèches). En utilisant l’interpolation B-spline le<br />

déplacement d’un voxel de l’image dépend du déplacement <strong>des</strong> deux points de contrôle les plus<br />

proches dans chaque direction. Dans cet exemple le voxel (x, y), marqué par le petit rectangle<br />

plein dans l’image, a été affecté par les déplacements <strong>des</strong> points de contrôle (⌊3, 2⌋ et ⌊4, 3⌋)<br />

notés φ3,2 et φ4,3.<br />

Formellement, les déformations libres fondées sur les B-splines sont définies par le produit<br />

tensoriel de trois B-splines cubiques dans la base nx × ny × nz de la grille <strong>des</strong> points de contrôle<br />

φi,j,k :<br />

où i = ⌊ x<br />

δ<br />

⌋−1, j = ⌊ y<br />

δ<br />

u(x, y, z) =<br />

3<br />

3<br />

l=0 m=0 n=0<br />

3<br />

βl(u)βm(v)βn(w) φi+l,j+m,k+n, (6.6)<br />

z<br />

⌋−1 et k = ⌊ δ ⌋−1 sont les indices du premier point de contrôle de la grille<br />

qui intervient dans le calcul du déplacement du voxel (x, y, z). u = x<br />

δ<br />

⌊ x<br />

δ<br />

⌋, v = y<br />

δ<br />

⌊ y<br />

δ<br />

z z<br />

⌋ et w = δ ⌊ δ ⌋


126 L’algorithme MIAMI<br />

Fig. 6.2 Application d’une déformation libre à une image source


6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> 127<br />

représentent la distance entre le voxel (x, u, z) et les points de contrôle les plus proches. βl sont<br />

<strong>des</strong> fonctions B-splines d’ordre l :<br />

6.5.2 Critère de similarité<br />

β0(x) =<br />

(1 − x)3<br />

6<br />

β1(x) = (3x3 − 6x 2 + 4)<br />

6<br />

β2(x) = (−3x3 + 3x 2 + 3x + 1)<br />

6<br />

β3(x) = x3<br />

6<br />

Le critère de similarité intègre dans le cadre <strong>des</strong> transformations locales un énergie de ré-<br />

gularisation. Pour contrôler le poids de cette dernière par rapport à la similarité, un facteur<br />

ζ, dit force de la régularisation est alors utilisé comme un facteur multiplicatif de l’énergie de<br />

régularisation :<br />

Énergie de similarité<br />

Sg(T) = −E sim (M, N) + ζEreg(T). (6.7)<br />

Comme pour le recalage <strong>rigide</strong>, le critère de similarité utilisé lors de cette étape est l’Infor-<br />

mation Mutuelle Quadratique Normalisée :<br />

Énergie de régularisation<br />

E sim (M, N) ≡ S(M, N) = H2(M) + H2(N)<br />

H2(M, N)<br />

Afin de contraindre la solution finale, le coût de régularisation doit être pris en compte lors<br />

de cette étape de l’algorithme de recalage.<br />

Puisque dans le cadre <strong>des</strong> déformations libres 2 aucune <strong>des</strong> fonctions en dehors de l’espace<br />

de transformations envisagé n’est permise, et toutes les fonctions à l’intérieur de cet espace<br />

sont équiprobables, l’approche compétitive pénalise de façon continue les transformations en<br />

fonction de leur régularité. L’énergie de régularisation peut être vue comme étant reliée à une<br />

densité de probabilité a priori sur l’ensemble <strong>des</strong> champs de vecteurs [Szeliski, 1989]. Selon<br />

2 ceci est valable pour toute approche paramétrique<br />

− 1.


128 L’algorithme MIAMI<br />

cette interprétation, en utilisant une énergie quadratique classique, nous faisons implicitement<br />

l’hypothèse que la solution suit la loi de probabilité d’un certain bruit gaussien corrélé. Par<br />

exemple, l’énergie de membrane d’une fonctionnelle f, E mbr (f) = ||df|| 2 , très utilisée en<br />

recalage, est la (log) densité de probabilité associée aux bruits gaussiens corrélés de distribution<br />

spectrale S(w) = |2πw| −2 .<br />

Une autre énergie très utilisée en recalage élastique <strong>des</strong> <strong>images</strong> est l’énergie d’élasticité linéaire<br />

λ<br />

2 [div(f)]2 + µ||df|| 2 − µ<br />

2 ||rot(f)|| qui est très liée à l’énergie de membrane.<br />

Notre choix a porté sur le modèle de membrane dit aussi Laplacien. Cette énergie s’écrit aussi<br />

sous la forme :<br />

∞ ∞ ∞<br />

−∞<br />

−∞<br />

−∞<br />

∂T<br />

∂x<br />

2<br />

+<br />

2 ∂T<br />

+<br />

∂y<br />

<br />

2<br />

∂T<br />

dxdydz. (6.8)<br />

∂z<br />

Restreinte au domaine de l’image cette intégrale est approchée en utilisant la théorie <strong>des</strong><br />

grands nombres par :<br />

Ereg = 1<br />

X Y Z<br />

V 0 0 0<br />

∂T<br />

∂x<br />

2<br />

+<br />

2 ∂T<br />

+<br />

∂y<br />

<br />

2<br />

∂T<br />

dxdydz, (6.9)<br />

∂z<br />

où V est le volume du domaine de l’image (domaine de déformation), X, Y et Z correspondent<br />

à sa résolution.<br />

Ce modèle a une interprétation physique intuitive : il tend à approcher l’énergie d’une mem-<br />

brane (comme une feuille en caoutchouc) qui est assujettie à <strong>des</strong> déformations élastiques.<br />

6.5.3 Optimisation<br />

Contrairement au recalage affine, qui utilise la méthode de Marquardt-Levenberg pour retrou-<br />

ver les paramètres de la transformation géométrique, l’optimisation de l’algorithme <strong>non</strong>-<strong>rigide</strong><br />

utilise une méthode de <strong>des</strong>cente de gradient conjugué :<br />

T (k+1) = T (k) − λ∇Sg(T (k) ).<br />

Ce choix est motivé par le fait que la matrice Hessienne utilisée dans l’optimisation ML prend<br />

<strong>des</strong> dimensions très élevées dans le cadre <strong>non</strong>-<strong>rigide</strong> du recalage. Ce qui nécessite un temps de<br />

calcul conséquent et un espace mémoire très élevé.


6.6 Synthèse du chapitre 129<br />

6.6 Synthèse du chapitre<br />

Ce chapitre a présenté l’algorithme de recalage <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> proposé dans le cadre<br />

de cette thèse. L’algorithme se fonde sur une approche hybride compétitive. L’appellation hybride<br />

vient du fait que deux modèles de déformations sont associés pour définir la transformation du<br />

recalage. Le premier modèle de déformation est une transformation globale affine alors que le<br />

deuxième modèle est une déformation de formes libres. L’aspect compétitif est dû à l’introduction<br />

d’une force de régularisation qui se met en concurrence avec la force de similarité pour aboutir au<br />

résultat du recalage. Par la suite, ce chapitre définit les différentes solutions techniques choisies<br />

pour résoudre <strong>des</strong> problèmes tels que l’interpolation ou l’accélération du calcul et l’amélioration<br />

de la robustesse par utilisation d’un schéma multirésolution.


130


Chapitre 7<br />

Simulations et validations<br />

7.1 Introduction<br />

Une fois que l’on dispose d’une transformation 3D optimale vis-à-vis d’un certain critère de<br />

recalage, il nous reste encore à estimer la validité, ou la qualité extrinsèque, d’une telle trans-<br />

formation. Cette section est consacrée à la présentation de quelques métho<strong>des</strong> de validation <strong>des</strong><br />

résultats d’un algorithme de recalage. Certaines métho<strong>des</strong> permettent d’obtenir un résultat chif-<br />

fré, d’autres sont basées sur une validation visuelle du recalage. Étant donné la grande diversité<br />

<strong>des</strong> algorithmes de recalage, il est souvent difficile de les comparer quantitativement. Certains sont<br />

rapi<strong>des</strong>, d’autres extrêmement lents. Certains effectuent <strong>des</strong> recalages <strong>rigide</strong>s d’autres élastiques.<br />

Les rares cas où l’on peut comparer quantitativement deux algorithmes de recalage différents se<br />

limitent à l’usage d’une même fonction de coût. Mis à part ce cas précis, toutes les autres com-<br />

paraisons sont souvent biaisées. La robustesse <strong>des</strong> algorithmes est également difficile à comparer<br />

d’une méthode à une autre car elle est issue d’une prise de décision (résultat correct ou résultat<br />

incorrect) intrinsèque à chaque algorithme de recalage. Un projet de validation de différentes<br />

métho<strong>des</strong> a été mis en place pour évaluer rétrospectivement la précision de métho<strong>des</strong> de recalage<br />

(i.e. directement à partir <strong>des</strong> <strong>images</strong> brutes) en se référant à un recalage <strong>rigide</strong> considéré optimal<br />

et obtenu à l’aide de marqueurs préalablement fixés sur le patient avec un casque stéréotaxique<br />

(méthode prospective). Enfin notons bien sûr que le meilleur moyen de comparer deux techniques<br />

de recalage est de faire estimer visuellement par un expert les résultats obtenus. La suite de cette<br />

section sera divisée en deux parties : une première présentant quelques métho<strong>des</strong> de validations<br />

visuelles, puis une deuxième partie traitant de la validation à l’aide de marqueurs.<br />

131


132 Simulations et validations<br />

7.2 Validation visuelle<br />

On affiche <strong>non</strong> pas le volume entier mais une série de vues en coupe 2D du volume. Les figures<br />

qui vont suivre représentent <strong>des</strong> exemples de vues en coupe d’une image scanner de référence et<br />

d’une image IRM recalée sur la référence. Les niveaux de gris de ces <strong>images</strong> ont été normalisés<br />

pour utiliser la pleine échelle.<br />

7.2.1 Mélange <strong>des</strong> <strong>images</strong><br />

La valeur d’un pixel d’une coupe est dépendante de la valeur du pixel de même coordonnées<br />

sur les deux <strong>images</strong>. Soient M et N les deux <strong>images</strong> de même dimension à mixer pour obtenir C.<br />

Pour chaque pixel (x, y) de C, C(x, y) = f(M(x, y), N(x, y)).<br />

Affichage en damier<br />

f(M(x, y), N(x, y)) =<br />

<br />

M(x, y) x y<br />

si⌊ δx⌋ + ⌊ δy ⌋ est pair,<br />

N(x, y) si<strong>non</strong><br />

L’image résultante est similaire à un damier où les cases blanches contiendraient les pixels de<br />

l’image M et les cases noires les pixels de l’image N (Fig. 7.1). La notation ⌊.⌋ signifie partie<br />

entière inférieure, et les quantités δx et δy mesurent la taille <strong>des</strong> cases du damier. Un tel procédé<br />

d’affichage permet d’une manière statique (sur une seule image de la série de coupes) d’estimer<br />

la continuité entre les structures de l’image M et celles de l’image N au niveau <strong>des</strong> frontières <strong>des</strong><br />

cases.<br />

Notons que si nous affichons rapidement <strong>des</strong> coupes en damier en inversant une image sur<br />

2 le rôle <strong>des</strong> cases noires et le rôle <strong>des</strong> cases blanches, alors la persistance rétinienne permet<br />

dynamiquement de superposer le contenu de l’image M avec celui de l’image N.<br />

Surimposition <strong>des</strong> structures<br />

Soit VR un volume de recouvrement définit par l’opérateur. L’image résultante est un mélange<br />

<strong>des</strong> deux <strong>images</strong> cible et source (Fig. 7.2). L’image source sera par exemple affichée dans le volume<br />

de recouvrement, et le reste de la scène sera alors occupé par l’image cible. Ce mode d’affichage<br />

met en évidence la discontinuité d’un organe en cas d’échec du recalage, et sa continuité en cas<br />

de réussite. Les zones de recouvrement peuvent être définies verticalement ou horizontalement


7.2 Validation visuelle 133<br />

Fig. 7.1 Validation visuelle par affichage en damier.


134 Simulations et validations<br />

(a) Surimposition verticale <strong>des</strong> <strong>images</strong>.<br />

(b) Surimposition horizontale <strong>des</strong> <strong>images</strong>.<br />

Fig. 7.2 Validation visuelle par surimposition <strong>des</strong> <strong>images</strong>.


7.2 Validation visuelle 135<br />

(Fig. 7.2) et peuvent varier interactivement en fonction <strong>des</strong> <strong>des</strong>iderata de l’utilisateur.<br />

Différence centrée<br />

f2(M(x, y), N(x, y)) =<br />

f3(M, N) =<br />

<br />

M(x, y) si[x, y] ∈ VR<br />

N(x, y) si<strong>non</strong><br />

nv_gris_max + M − N<br />

2<br />

Cette fonction est surtout utile pour les <strong>images</strong> de mêmes modalité ayant une intensité moyenne<br />

comparable. Ainsi un même niveau de gris dans les deux <strong>images</strong> représente la même réalité<br />

physique. De plus ce mode permet de savoir lorsque le fond de l’image est de niveaux de gris<br />

constant, quel est précisément le volume qui excède l’autre (Fig. 7.3).<br />

Fig. 7.3 Validation visuelle par différence centrée <strong>des</strong> intensités.


136 Simulations et validations<br />

7.3 Validation à l’aide marqueurs : le projet RIRE<br />

Une première façon d’obtenir une estimation chiffrée est d’utiliser deux ensembles de mar-<br />

queurs anatomiques se correspondant mutuellement d’une modalité à une autre. Ces marqueurs<br />

ne doivent pas être utilisés par l’algorithme de recalage mais servent juste d’estimation, en terme<br />

de distance euclidienne entre deux ensembles de points, de la qualité du recalage. Un exemple<br />

de ce type de validation est le projet RIRE.<br />

Le but du projet RIRE 1 (initialement RREP) est de fournir une évaluation clinique de la pré-<br />

cision <strong>des</strong> techniques rétrospectives 2 de recalage d’<strong>images</strong> volumiques <strong>multimodal</strong>es du cerveau<br />

humain. Ce projet est articulé autour de trois modalités le TEP (Positon Emission Tomography,<br />

utilisé en imagerie fonctionnelle), l’IRM et le TDM. Les recalages à effectuer sont le TEP sur<br />

l’IRM pour la visualisation de l’activité neuronale sur un contexte anatomique (IRM), et le re-<br />

calage IRM sur TDM pour la visualisation <strong>des</strong> tissus mous dans un contexte de structure <strong>rigide</strong><br />

(os extrait <strong>des</strong> <strong>images</strong> TDM). La qualification objective <strong>des</strong> différentes techniques de recalage<br />

par le biais du projet RREP devrait permettre d’établir un degré de confiance auquel peuvent<br />

s’attacher les neurologistes et les neurochirurgiens en matière de recalage rétrospectif d’<strong>images</strong><br />

cérébrales.<br />

7.3.1 Principe d’évaluation et de comparaison<br />

La base de données est constituée d’<strong>images</strong> de dix-huit patients. Le principe de RIRE consiste<br />

à comparer <strong>des</strong> métho<strong>des</strong> de recalage <strong>rigide</strong>. La qualité et la précision du recalage sont déter-<br />

minées par comparaison avec un recalage <strong>rigide</strong> prospectif. Ce recalage <strong>rigide</strong> est déterminé à<br />

l’aide d’un ensemble d’amers fixés sur le crâne avant l’acquisition <strong>des</strong> <strong>images</strong> avec un casque<br />

stéréotaxique. La localisation de ces points étant aisée sur les <strong>images</strong> TDM, TEP et IRM, un al-<br />

gorithme déterministe peut facilement, et avec une bonne précision, calculer les paramètres de la<br />

transformation <strong>rigide</strong> correspondante. Les <strong>images</strong> mises dans la base de données ont été traitées<br />

de manière à supprimer l’information donnée par ces marqueurs. Par ailleurs, pour déterminer<br />

l’impact <strong>des</strong> distorsions <strong>des</strong> <strong>images</strong> IRM sur la précision du recalage, chaque image IRM est dis-<br />

ponible en deux versions : une version ayant subi une correction géométrique (calibration), et une<br />

version n’ayant subi aucune correction. La comparaison avec les résultats <strong>des</strong> autres techniques<br />

(rétrospectives) peut donc se faire soit sur les valeurs <strong>des</strong> paramètres de la transformation <strong>rigide</strong><br />

(translation 3D et angles de rotation), soit sur la position transformée d’un ensemble de points.<br />

1<br />

The Retrospective Image Registration Evaluation Project http://www.vuse.vanderbilt.edu/~image/<br />

registration/<br />

2<br />

Le terme rétrospectif s’entend dans le sens ou <strong>des</strong> <strong>images</strong> (de diverses modalités) sont acquises à différents<br />

moments, et ultérieurement, plusieurs techniques de recalage peuvent être employées et comparées.


7.3 Validation à l’aide marqueurs : le projet RIRE 137<br />

Parce qu’il existe plusieurs façons de définir une transformation <strong>rigide</strong> (a- trois angles d’Euler<br />

plus un vecteur de translation, b- une matrice orthogonale 3 × 3 plus un vecteur de translation,<br />

c- un quaternion plus un vecteur translation, d- trois vecteurs de translation pour chacun de<br />

trois points colinéaires), et parce que chacune d’elles nécessite la spécification de paramètres<br />

additionnels (la position du centre de la rotation pour les métho<strong>des</strong> a, b et c, les positions <strong>des</strong><br />

trois points colinéaires pour la méthode d), et pour éviter les erreurs de transfert <strong>des</strong> résultats,<br />

l’équipe de «Vanderbilt» a proposé une nouvelle méthode de spécification <strong>des</strong> paramètres de la<br />

transformation <strong>rigide</strong>. Fondée sur l’hypothèse <strong>des</strong> corps <strong>rigide</strong>s, cette méthode consiste à repré-<br />

senter une transformation <strong>rigide</strong>, pour chacun <strong>des</strong> voxels situés aux huit coins du volume source,<br />

un ensemble de positions d’origine et de positions transformées (figure 7.4). Chaque position est<br />

spécifiée par ses trois coordonnées dans l’espace x, y et z en millimètre. Les paramètres d’une<br />

transformation sont au nombre de 48 : à chacun <strong>des</strong> huit coins sont associés trois positions<br />

d’origine et trois positions transformées. Un exemple est donnée dans le tableau 7.1.<br />

Fig. 7.4 Spécification <strong>des</strong> positions d’origine et transformées dans les volumes<br />

source et cible : huit coins <strong>des</strong> deux volumes<br />

Après réception <strong>des</strong> paramètres de la transformation <strong>rigide</strong>, l’équipe de «Vanderbilt» procède<br />

à la comparaison entre ceux-ci et les paramètres calculés à partir du cadre stéréotaxique (FRE 3 ).<br />

Avec le concours d’un neurochirurgien et d’un neurologiste, un ensemble de Volumes d’Intérêt<br />

(VOI), au nombre de huit, représentant <strong>des</strong> repères anatomiques sont choisis pour chaque patient.<br />

Par la suite, ces VOIs sont segmentés manuellement dans chaque IRM et leurs coordonnées x, y<br />

et z sont stockés. La précision du recalage retrospectif à chacun de ces derniers est alors estimée<br />

3 Fiducial Registration Error


138 Simulations et validations<br />

Transformation Parameters<br />

Investigator(s) : J. Atif, X. Ripoche, A. Osorio<br />

Site : LIMSI-CNRS, Orsay, France<br />

Method : Normalized Quadratic Mutual Information<br />

Date : 22th June 2004<br />

Patient number :pt_001<br />

From :CT<br />

To :MR-PD<br />

Point x y z new_x new_y new_z<br />

1 0.0000 0.0000 0.0000 -1.8180 -20.3027 -5.6817<br />

2 333.9870 0.0000 0.0000 332.0700 -23.7055 -13.0825<br />

3 0.0000 333.9870 0.0000 1.8242 313.4880 5.1659<br />

4 333.9870 333.9870 0.0000 335.7120 310.0850 -2.2347<br />

5 0.0000 0.0000 112.0000 0.5380 -23.8355 102.2350<br />

6 333.9870 0.0000 112.0000 334.4260 -27.2383 94.8340<br />

7 0.0000 333.9870 112.0000 4.1803 309.9550 113.0820<br />

8 333.9870 333.9870 112.0000 338.0680 306.5530 105.6820<br />

Tab. 7.1 Exemple de la spécification de la transformation <strong>rigide</strong> selon la norme<br />

«Vanderbilt»<br />

en suivant la procédure suivante (voir aussi la figure 7.5) :<br />

1. Dans l’image cible, la position du barycentre du VOI est calculée et est convertie en un<br />

point C en millimètre.<br />

2. Au point C, on applique l’inverse de la transformation prospective «gold standard» G −1 ,<br />

obtenant ainsi sa position homologue dans l’image «source» : C ′ = G −1 (C).<br />

3. La transformation rétrospective, R, est alors calculée et appliquée à C ′ : C ′′ = R(C ′ ).<br />

4. L’erreur du recalage rétrospectif à un point anatomique déterminé par son VOI correspond<br />

à la distance Euclidéenne entre C et C ′′ .


7.3 Validation à l’aide marqueurs : le projet RIRE 139<br />

sont :<br />

R<br />

C' G -1<br />

Fig. 7.5 Calcul de l’erreur de recalage pour un VOI donné<br />

Les positions anatomiques correspondant aux VOIs utilisées dans le cadre de cette évaluation<br />

1. Le diaphragme maximum du quatrième ventricule<br />

2. La jonction du quatrième ventricule avec l’aqueduc<br />

3. Le globe droit<br />

4. Le globe gauche<br />

5. Le chiasme optique<br />

6. L’apex de la scissure sylvienne gauche<br />

7. L’apex de la scissure sylvienne droite<br />

8. Le sulcus central<br />

9. Le lobe occipital gauche<br />

10. Le lobe occipital droit<br />

La base contient un ensemble de modalités acquises pour dix-huit patients différents :<br />

– Des <strong>images</strong> scanner (pour 16 patients sur 18 patients) : elles consistent en une trentaine<br />

de coupes de dimensions 512 2 . La taille de voxel est 0.65 × 0.65 × 4 mm 3 .<br />

– Des <strong>images</strong> TEP (pour 8 patients) :une quinzaine de coupes de dimension 128 2 (2.59 ×<br />

2.59 × 8mm 3 ).<br />

– Des <strong>images</strong> IRM correspondant aux protocoles d’acquisition T1, T2, DP (densité de proton)<br />

C<br />

et MP-RAGE. Les <strong>images</strong> contiennent 20 à 26 coupes de dimension 256 2 , avec une taille<br />

de voxel de 1.25 × 1.25 × 4mm 3 .<br />

C''<br />

C<br />

d<br />

C''


140 Simulations et validations<br />

7.3.2 Expériences<br />

Le projet RIRE visait à une évaluation <strong>des</strong> techniques rétrospectives de recalages <strong>rigide</strong>s. C’est<br />

lors de la première campagne d’évaluation que les métho<strong>des</strong> iconiques, et plus particulièrement<br />

celles utilisant de l’information mutuelle ont dépassé les métho<strong>des</strong> classiques donnant lieu ainsi<br />

à de nombreux travaux sur les mesures de similarité fondées sur la théorie de l’information.<br />

Grâce à la multiplicité <strong>des</strong> <strong>images</strong> de la base, nous pouvons apprécier à la fois la robustesse et<br />

la précision de notre approche. Il faut garder à l’esprit en analysant nos résultats (Tabs : 7.3 et<br />

7.4), que nous nous basons essentiellement sur une méthode d’estimation pour calculer la mesure<br />

de similarité, contrairement aux autres métho<strong>des</strong> iconiques, qui utilisent toute les données <strong>des</strong><br />

<strong>images</strong>. Malgré cet aspect, notre méthode présente <strong>des</strong> résultats satisfaisants et comparables en<br />

précision à ceux de l’information mutuelle normalisée ([Studholme et al., 1997]). Les différentes<br />

expériences entreprises dans cette étude sont montrées dans le schéma 7.6 4 .<br />

7.3.3 Protocole<br />

Fig. 7.6 Différentes expériences de recalage effectuées<br />

Pour appuyer l’aspect générique de notre approche, nous avons utilisé le même protocole<br />

pour tous les types de recalage. Malgré le fait que les <strong>images</strong> TEP aient une résolution spatiale<br />

très faible affectant ainsi le résultat du recalage, nous avons là aussi fait le choix de ne pas pré-<br />

traiter les <strong>images</strong>, contrairement à certaines équipes ayant participé à l’évaluation initiale qui<br />

4 Les expériences impliquant les <strong>images</strong> MP-RAGE n’ont pas été intégrées dans le manuscrit à cause d’une<br />

erreur d’orientation du patient qui n’a pas été rectifiée par les administrateurs de la base. Elles sont cependant<br />

accessibles sur le site de la base.


7.3 Validation à l’aide marqueurs : le projet RIRE 141<br />

ont conçu <strong>des</strong> métho<strong>des</strong> spécifiques pour le recalage TEP-IRM. Cela explique en partie pourquoi<br />

notre approche présente <strong>des</strong> erreurs de recalage relativement élevés dans le cadre du recalage<br />

TEP-IRM (Tab. 7.3). Le protocole expérimental est décrit dans le tableau 7.2.<br />

Prétraitement <strong>des</strong> <strong>images</strong> Aucun<br />

Transformation Rigide<br />

Histogramme Conjoint Estimation par noyaux adaptatifs<br />

Mesure de Similarité Information Mutuelle Quadratique Normalisée - NQMI<br />

Optimisation Marquardt-Levenberg<br />

Interpolation B-Spline<br />

Degré multirésolution 3<br />

Tab. 7.2 Protocole expérimental du recalage <strong>rigide</strong> utilisé dans le cadre de l’évaluation<br />

RIRE.<br />

7.3.4 Présentation <strong>des</strong> résultats<br />

Les résultats <strong>des</strong> différentes séries d’expériences sont résumés dans les tableaux 7.3 et 7.4.<br />

Dans le tableau 7.3, nous reportons pour chaque couple de modalités la moyenne, la médiane et la<br />

valeur maximale <strong>des</strong> erreurs de recalage. Ces calculs sont effectués pour l’ensemble <strong>des</strong> patients,<br />

et ne mettent pas en évidence les situations où le recalage a échoué. Pour mieux déceler ces<br />

situations nous reportons pour chaque couple de modalité et pour chaque patient, la moyenne et<br />

l’écart type <strong>des</strong> erreurs de recalage calculées à partir <strong>des</strong> huit Volumes d’intérêt. Les figures 7.7<br />

et 7.8 rendent compte de ces situations.<br />

Modalité source Modalité cible Moyenne (mm) Médiane(mm) Maximum (mm)<br />

TDM IRM-DP 2.24 2.16 4.01<br />

TDM IRM-T1 1.55 1.48 3.12<br />

TDM IRM-T2 2.16 2.06 4.55<br />

TDM IRM-DP-corrigé 0.95 0.96 2.38<br />

TDM IRM-T1-corrigé 1.00 0.95 1.92<br />

TDM IRM-T2-corrigé 1.04 0.73 3.87<br />

TEP IRM-DP 8.25 3.80 38.11<br />

TEP IRM-T1 7.82 3.25 55.79<br />

TEP IRM-T2 12.84 2.88 62.55<br />

TEP IRM-DP-corrigé 3.72 3.06 12.14<br />

TEP IRM-T1-corrigé 2.28 2.47 4.41<br />

TEP IRM-T2-corrigé 4.49 2.59 20.10<br />

Tab. 7.3 Résultat de l’évaluation RIRE


142 Simulations et validations<br />

Enfin, pour comparer nos résultats avec les résultats obtenues à l’aide d’approches similaires<br />

(iconiques) où différentes (géométriques), nous avons intégrer nos erreurs de recalage dans le<br />

tableau 7.4 qui présente les résultats de plusieurs équipes. Tous ces résultats sont accessibles<br />

à l’adresse : http://www.vuse.vanderbilt.edu/~image/registration/results.html. Dans le<br />

tableau 7.4, les métho<strong>des</strong> marquées par une étoile, sont celles utilisant l’information mutuelle où<br />

ses variantes.<br />

7.3.5 Analyse <strong>des</strong> résultats<br />

À l’issue de l’analyse <strong>des</strong> résultats du tableau 7.3, il en sort que les expériences IRM-TDM<br />

aboutissent à <strong>des</strong> erreurs de recalage proches du recalage prospectif. De plus, l’impact <strong>des</strong> dis-<br />

torsions <strong>des</strong> <strong>images</strong> IRM sur la précision du recalage est mis en évidence, puisque les erreurs de<br />

recalage sont sensiblement diminuées quand on utilise les versions calibrées de l’IRM (voir Fig.<br />

7.7).<br />

En outre, en analysant le tableau 7.4, on peut remarquer que nos résultats sont proches de<br />

ceux obtenus par l’équipe de Hill (Tab. 7.4) qui utilisent l’information mutuelle normalisée, et<br />

ce malgré le fait que l’on utilise <strong>des</strong> modèles d’estimation pour calculer notre critère. Ce qui<br />

d’un côté montre que notre méthode d’estimation donne <strong>des</strong> résultats meilleurs en précision par<br />

rapport aux métho<strong>des</strong> d’estimation à noyau fixe, et prouve d’un autre côté que l’information<br />

mutuelle quadratique normalisée est un critère tout à fait approprié pour le recalage <strong>des</strong> <strong>images</strong>.<br />

Quant au recalage TEP-IRM, les erreurs du recalage sont légèrement plus élevées. La faible<br />

résolution TEP ainsi que la forte présence du bruit dans les <strong>images</strong> TEP peuvent expliquer ces<br />

résultats. De plus, il apparaît dans le tableau 7.3 qu’un recalage TEP-IRM pour un patient ait<br />

échoué (valeur maximale dans le tableau 7.3). En s’appuyant sur les figures (7.7 et 7.8, il apparaît<br />

clairement que le patient en question est le patient 6.<br />

Deux hypothèses en ce qui concerne l’échec du recalage TEP-IRM pour le patient 6 peuvent<br />

être émises. La première est d’ordre extrinsèque ; l’échec du recalage est probablement dû à la<br />

forte présence du bruit dans les <strong>images</strong> TEP. La deuxième hypothèse est d’ordre intrinsèque ; le<br />

mauvais recalage serait dû à la convergence du critère de similarité à un maximum local.<br />

Il est intéressant de relever l’échec systématique <strong>des</strong> mesures de similarité fondées sur l’infor-<br />

mation mutuelle pour le recalage TEP-IRM de ce patient. [Roche, 2001] a noté que l’hypothèse<br />

de dépendance statistique, sur laquelle se base les critères par information mutuelle, ne corres-<br />

pond pas au cas spécifique du recalage TEP-IRM. Les intensités <strong>des</strong> <strong>images</strong> dans ce cas sont liées<br />

par une relation fonctionnelle. Ceci explique le mauvais résultat donné par les métho<strong>des</strong> qui se<br />

fondent sur <strong>des</strong> modèles statistiques et la raison du succès <strong>des</strong> métho<strong>des</strong> fondées sur la corréla-<br />

tion. Ceci nous amène à conclure dans un premier temps que l’on ne peut imputer cet échec ni


7.3 Validation à l’aide marqueurs : le projet RIRE 143<br />

Auteur TDM vers IRM-DP TDM vers IRM-DPR TDM vers IRM-T1 TDM vers IRM-T1R<br />

méthode moy. med. max. moy. med. max. moy. med. max. moy. med. max.<br />

Atif 2.24 2.16 4.0 0.95 0.96 2.38 1.55 1.48 3.12 1.00 0.95 1.92<br />

Barillot 2,38 1,92 6,93 2,28 1,71 5,95 2,13 1,62 6,35 1,91 1,41 5,86<br />

Collig<strong>non</strong>* 2,04 2,09 3,83 0,89 0,81 2,50 1,90 1,53 6,69 1,03 0,72 3,81<br />

Elsen 2,54 2,01 6,55 1,69 1,11 5,32 2,12 1,63 6,05 1,22 0,93 2,61<br />

Harkness 10,86 3,12 49,60 9,99 3,06 45,86 10,46 3,39 51,81 11,68 3,38 48,26<br />

Hemler 3,14 2,37 10,45 1,78 1,66 3,69 2,68 1,37 10,97 1,08 1,00 2,12<br />

Hill* 2,00 1,94 4,05 0,89 0,73 2,36 1,36 1,17 2,78 0,87 0,71 2,35<br />

Hsu 1,86 1,67 5,07 1,47 1,46 2,72 2,73 2,51 7,05 2,43 2,38 5,78<br />

Huang 2,16 2,01 5,03 1,13 1,01 2,93 1,81 1,64 4,87 1,66 1,52 3,26<br />

Luo 1,76 1,71 3,56 1,08 0,97 2,66 1,22 1,10 2,99 1,15 1,03 2,81<br />

Maintz 5,41 4,15 18,97 3,78 2,97 10,15 5,68 5,05 12,85 5,05 4,94 14,33<br />

Malandain 10,41 4,00 59,00 10,22 4,04 62,66 10,08 4,32 61,43 11,43 5,42 60,64<br />

Nikou 1 3,06 2,60 5,80 3,00 2,95 5,35 2,72 2,56 6,43 2,45 2,75 4,59<br />

Nikou 2 2,67 2,31 6,18 2,01 1,86 5,07 1,93 1,50 4,36 1,75 1,43 4,54<br />

Noz 6,89 7,80 13,86 5,93 4,61 11,57 4,58 3,32 10,39 4,71 3,40 9,61<br />

Rouet 4,36 3,88 15,25 4,27 4,18 9,97 3,39 2,75 12,48 5,60 4,52 20,34<br />

Thevenaz 1* 2,01 2,04 4,56 0,85 0,83 1,71 1,69 1,40 4,67 1,04 0,95 4,02<br />

Thevenaz 2* 1,94 1,69 5,19 1,15 1,07 4,62 1,72 1,56 5,98 1,07 0,84 4,15<br />

Thevenaz 3* 2,15 1,93 4,18 0,99 1,01 1,64 1,61 1,53 4,17 1,05 0,89 3,11<br />

Tab. 7.4 Comparaison <strong>des</strong> résultats de recalage pour diverses métho<strong>des</strong>. (Les<br />

métho<strong>des</strong> marquées d’une étoile sont celles utilisant l’information mutuelle ou ses<br />

variantes)


144 Simulations et validations<br />

à notre méthode d’estimation ni au modèle d’interpolation. En outre, l’inspection visuelle de ce<br />

recalage montre que les <strong>images</strong> TEP de ce patient sont davantage corrompues par <strong>des</strong> artefacts<br />

que les autres <strong>images</strong> de la base.<br />

7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong><br />

Le projet RIRE est certainement le meilleur moyen d’évaluer les comportements en terme de<br />

robustesse et de précision d’un critère de similarité. Cependant, l’étude de précision se limite au<br />

cadre <strong>rigide</strong> du recalage et l’aspect temps de calcul n’est pas pris en compte. Aujourd’hui, certes<br />

la puissance <strong>des</strong> calculateurs ne cessent d’augmenter, mais cette évolution incite les chercheurs<br />

à envisager de nouvelles applications au recalage d’<strong>images</strong> et par conséquent à considérer <strong>des</strong><br />

modèles de déformations plus évolués. Or, qui dit modèles de déformations évoluées dit degré<br />

d’élasticité plus élevé et un nombre de paramètres de la transformation beaucoup plus grand que<br />

pour une déformation <strong>rigide</strong>. Dans le cadre de cette thèse nous avons utilisé les déformations de<br />

formes libres. Le nombre élevé de degrés de liberté <strong>des</strong> déformations libres impose que le critère<br />

de similarité soit le moins coûteux en temps de calcul que possible. Nous avons alors proposé<br />

dans cette thèse un critère de similarité fondée sur l’entropie de Rényi dont le calcul se réduit<br />

drastiquement avec l’utilisation d’une densité de probabilité de nature gaussienne.<br />

Le but de cette section est de présenter quelques résultats chiffrés du comportement de notre<br />

algorithme dans un cadre <strong>non</strong>-<strong>rigide</strong> en ce qui concerne la précision et le temps de calcul. Pour<br />

ce faire, nous avons mis en concurrence notre critère de similarité avec l’Information Mutuelle<br />

Normalisée (IMN).<br />

La difficulté à laquelle nous nous sommes confrontés est l’appréciation de l’erreur du recalage<br />

<strong>non</strong>-<strong>rigide</strong>. Contrairement à l’évaluation RIRE, nous ne disposons pas d’un recalage prospectif<br />

auquel nous pouvons comparer nos résultats. De plus, la validation du recalage <strong>non</strong>-<strong>rigide</strong> est un<br />

sujet de recherche à part entière qui commence à peine à être exploré ([Schnabel et al., 2001]),<br />

et nous ne disposons toujours pas d’une méthode de validation générique qui nous permette<br />

d’apprécier les résultats obtenus par telle ou telle méthode. Pour surmonter cette difficulté, nous<br />

avons alors eu recours à un moyen simple mais efficace d’évaluation du résultat d’un algorithme de<br />

recalage donné. Notre méthode consiste à appliquer à une image une transformation géométrique<br />

T donnée, obtenant ainsi une image transformée que nous noterons image cible. Le but de<br />

l’algorithme de recalage est de retrouver cette transformation. L’erreur de recalage est calculée<br />

dans un volume d’intérêt donné par une simple différence quadratique entre la transformation<br />

initiale T et la transformation retrouvée par l’algorithme de recalage ˆ T. Soit VR un volume


7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong> 145<br />

mm<br />

3,5<br />

3<br />

2,5<br />

2<br />

1,5<br />

1<br />

0,5<br />

0<br />

pt_001<br />

pt_002<br />

pt_003<br />

pt_004<br />

pt_005<br />

<strong>Recalage</strong> CT/PD<br />

pt_006<br />

Patients<br />

pt_007<br />

pt_101<br />

pt_102<br />

pt_103<br />

pt_104<br />

Moyenne<br />

Ecart-type<br />

(a) Résultats du recalage CT/IRM-DP pour 12 patients.<br />

mm<br />

3<br />

2,5<br />

2<br />

1,5<br />

1<br />

0,5<br />

0<br />

pt_001<br />

pt_002<br />

pt_003<br />

pt_004<br />

pt_005<br />

pt_006<br />

<strong>Recalage</strong> CT/T1<br />

pt_007<br />

pt_101<br />

pt_102<br />

pt_103<br />

Patients<br />

pt_104<br />

pt_105<br />

pt_106<br />

pt_107<br />

pt_108<br />

pt_109<br />

Moyenne<br />

Ecart-type<br />

(c) Résultats du recalage CT/IRM-T1 pour 16 patients.<br />

mm<br />

3,5<br />

3<br />

2,5<br />

2<br />

1,5<br />

1<br />

0,5<br />

0<br />

pt_001<br />

pt_002<br />

pt_003<br />

pt_004<br />

pt_005<br />

pt_006<br />

<strong>Recalage</strong> CT/T2<br />

pt_007<br />

pt_101<br />

pt_102<br />

Patients<br />

pt_104<br />

pt_105<br />

pt_106<br />

pt_107<br />

pt_108<br />

pt_109<br />

Moyenne<br />

Ecart-type<br />

(e) Résultats du recalage CT/IRM-T2 pour 15 patients.<br />

mm<br />

1,6<br />

1,4<br />

1,2<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

pt_001<br />

pt_002<br />

<strong>Recalage</strong> CT/PD_rectified<br />

pt_003<br />

pt_004<br />

Patients<br />

pt_005<br />

pt_006<br />

pt_007<br />

Moyenne<br />

Ecart-type<br />

(b) Résultats du recalage CT/IRM-DP-Corrigée pour 7<br />

patients. Il est intéressant de noter les gains en précision<br />

par rapport à la figure (a).<br />

mm<br />

1,8<br />

1,6<br />

1,4<br />

1,2<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

pt_001<br />

pt_002<br />

<strong>Recalage</strong> CT/T1_rectified<br />

pt_003<br />

Patients<br />

pt_004<br />

pt_005<br />

pt_007<br />

Moyenne<br />

Ecart-type<br />

(d) Résultats du recalage CT/IRM-T1-Corrigée pour 6<br />

patients. Des gains significatifs en précision sont atteints<br />

en utilisant les versions calibrées de l’IRM-T1.<br />

mm<br />

2,5<br />

2<br />

1,5<br />

1<br />

0,5<br />

0<br />

pt_001<br />

pt_002<br />

<strong>Recalage</strong> CT/T2_rectified<br />

pt_003<br />

pt_004<br />

Patients<br />

pt_005<br />

pt_006<br />

pt_007<br />

Moyenne<br />

Ecart-type<br />

(f) Résultats du recalage CT/IRM-T2-Corrigée pour 7<br />

patients. Des gains significatifs en précision sont atteints<br />

en utilisant les versions calibrées de l’IRM-T2.<br />

Fig. 7.7 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents<br />

recalages TDM/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec).


146 Simulations et validations<br />

mm<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

pt_001<br />

pt_002<br />

pt_005<br />

<strong>Recalage</strong> PET/PD<br />

pt_006<br />

Patients<br />

pt_007<br />

pt_008<br />

pt_009<br />

Moyenne<br />

Ecart-type<br />

(a) Résultats du recalage TEP/DP. On remarque les erreurs<br />

très élevées pour les patients pt_002 et pt_006.<br />

mm<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

pt_001<br />

pt_002<br />

pt_005<br />

<strong>Recalage</strong> PET/T1<br />

pt_006<br />

Patients<br />

pt_007<br />

pt_008<br />

pt_009<br />

Moyenne<br />

Ecart-type<br />

(c) Résultats du recalage TEP/T1. À noter l’échec du<br />

recalage du patient pt_006.<br />

mm<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

pt_001<br />

pt_002<br />

pt_005<br />

<strong>Recalage</strong> PET/T2<br />

pt_006<br />

Patients<br />

pt_007<br />

pt_008<br />

pt_009<br />

Moyenne<br />

Ecart-type<br />

(e) Résultats du recalage TEP/T2. Échec systématique<br />

du recalage du patient 6, de plus dans cette expérience<br />

l’erreur du recalage du patient 8 est trop élevée.<br />

mm<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

pt_001<br />

pt_002<br />

PET/PD_rectified<br />

pt_005<br />

Patients<br />

pt_006<br />

pt_007<br />

Moyenne<br />

Ecart-type<br />

(b) Résultats du recalage TEP/DP-corrigée. Les erreurs<br />

du recalage baissent considérablement en utilisant une<br />

version calibrée de l’IRM. Le recalage concernant le patient<br />

pt_002 est proche du «gold standard». Cependant<br />

les erreurs du recalage du patient pt_006 persistent.<br />

mm<br />

mm<br />

3,5<br />

3<br />

2,5<br />

2<br />

1,5<br />

1<br />

0,5<br />

0<br />

16<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

0<br />

pt_001<br />

pt_002<br />

PET/T1_rectified<br />

Patients<br />

(d) Résultats du recalage TEP/T1-Corrigée.<br />

pt_001<br />

pt_002<br />

pt_005<br />

PET/T2_rectified<br />

pt_005<br />

Patients<br />

pt_006<br />

pt_007<br />

pt_007<br />

Moyenne<br />

Ecart-type<br />

Moyenne<br />

Ecart-type<br />

(f) Résultats du recalage TEP/T2-Corrigée. Échec du recalage<br />

du patient 6<br />

Fig. 7.8 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents<br />

recalages TEP/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec).


7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong> 147<br />

d’intérêt donné, l’erreur du recalage s’écrit :<br />

ɛ =<br />

1<br />

||VR||<br />

<br />

x∈VR<br />

||T(x) − ˆ T(x)|| 2 (7.1)<br />

Le volume d’intérêt VR est choisi manuellement dans l’image de référence et doit correspondre<br />

à une zone anatomique assujettie aux déformations.<br />

Deux expériences ont été conçues dans le cadre de la validation du recalage <strong>non</strong>-<strong>rigide</strong>. La<br />

première concerne à la fois la précision et le temps de calcul et la deuxième évalue l’impact de<br />

l’utilisation <strong>des</strong> noyaux adaptatifs sur la précision du recalage. Dans tous les cas, nous avons<br />

utilisés les données d’une même modalité provenant de la base «Vanderbilt», à savoir les <strong>images</strong><br />

IRM-T2 <strong>des</strong> huit premiers patients. L’aspect <strong>multimodal</strong> ayant été validé lors de l’évaluation<br />

RIRE, il n’a pas été pris en compte dans ce cadre.<br />

7.4.1 Expérience 1 : précision et temps de calcul<br />

Dans le cadre de la première expérience, un ensemble de déformations géométriques ont été<br />

appliquées aux <strong>images</strong> <strong>des</strong> patients retenus pour l’étude. Deux critères de similarité bénéficiant<br />

d’une implémentation commune ont été évalués : l’information mutuelle normalisée (IMN) et<br />

l’Information Mutuelle Quadratique Normalisée (IMNQ). L’implémentation commune consiste à<br />

utiliser, pour les deux critères, le même modèle d’interpolation, la même stratégie d’optimisation<br />

et la même méthode d’estimation <strong>des</strong> éléments de l’histogramme conjoint. Le tableau suivant<br />

décrit le protocole expérimental :<br />

fonctionnelle de similarité −NMI + ζEmbr −IMQN + ζEmbr<br />

Degré de régularisation ζ=0.01 ζ=0.01<br />

Modèle de déformation FFD FFD<br />

Espace FFD 20 mm, 10 mm, 5 mm 20 mm, 10 mm, 5 mm<br />

Optimisation Descente de gradient conjugué Descente de gradient conjugué<br />

Interpolation Bspline Bspline<br />

Histogramme conjoint Noyaux de Parzen fixes Noyaux de Parzen fixes<br />

Tab. 7.5 Protocole expérimental de l’expérience 1.<br />

Les résultats obtenus (Tab. 7.6) dans le cadre de cette expérience montrent que l’informa-<br />

tion mutuelle quadratique normalisée donne de meilleurs résultats que l’information mutuelle de<br />

Shan<strong>non</strong>, ce qui la situe au niveau <strong>des</strong> meilleures métho<strong>des</strong> existantes ([West et al., 1997b]). Ceci<br />

est tout simplement dû au fait que l’entropie de Rényi soit plus lisse que l’entropie de Shan-<br />

<strong>non</strong> (l’entropie de Rényi est aussi appelée entropie lisse «smooth entropy»). Elle présente moins


148 Simulations et validations<br />

de maxima locaux que l’information mutuelle de Shan<strong>non</strong> donnant ainsi de meilleurs résultats<br />

lorsque la méthode d’optimisation est une méthode fondée sur le gradient. De plus, le temps de<br />

calcul est considérablement réduit. Ceci est dû à la différence du calcul <strong>des</strong> entropies de Rényi<br />

et de Shan<strong>non</strong>. La complexité de calcul d’une entropie de Rényi en utilisant un estimateur de<br />

Parzen est de l’ordre O(N 2 ) avec N la taille de l’échantillon, alors que la complexité de l’entropie<br />

de Shan<strong>non</strong> est de l’ordre de O(VM×N) où VM est la taille de l’image. Dans nos expériences<br />

N = 50, ce qui veut dire que «VM >> N».<br />

Rappelons les entropies utilisées. L’entropie quadratique de Rényi s’écrit :<br />

H2(M) = − log 1<br />

N<br />

N<br />

i=1 j=1<br />

L’entropie de Shan<strong>non</strong>, quant à elle, s’écrit :<br />

VM<br />

H2(M) = − ( 1<br />

N<br />

j=1<br />

N<br />

i=1<br />

N<br />

G2h(m(xi) − m(xj)).<br />

Gh(m(xj) − m(xi)) log( 1<br />

N<br />

N<br />

Gh(m(xj) − m(xi)))<br />

Les temps de calcul donnés ci-<strong>des</strong>sous correspondent à une moyenne. Les différentes expé-<br />

riences ont été exécutées sur une machine Pentium IV, 2.5 GHz, 1 GO de RAM.<br />

Critère de similarité Espace FFD Médiane Moyenne Maximum temps CPU (moyenne)<br />

−NMI + ζEmbr 20 mm 1.57 1.62 1.93 5400s<br />

−NMI + ζEmbr 15 mm 0.88 1.05 1.54 7100s<br />

−NMI + ζEmbr 10 mm 0.57 0.65 0.73 10500s<br />

−NQMI + ζEmbr 20 mm 0.85 0.91 1.14 1400s<br />

−NQMI + ζEmbr 15 mm 0.58 0.61 0.63 2200s<br />

−NQMI + ζEmbr 10 mm 0.30 0.33 0.38 3600s<br />

i=1<br />

Tab. 7.6 Résultat de l’expérience 1.<br />

7.4.2 Expérience 2 : utilité <strong>des</strong> noyaux adaptatifs, impact sur la précision<br />

Le but de cette expérience est de valider dans un cadre de recalage le choix d’utiliser un noyau<br />

adaptatif pour la méthode d’estimation afin de recaler <strong>des</strong> <strong>images</strong> médicales. À cette fin nous<br />

avons évalué l’erreur du recalage pour deux implémentations différentes du critère de similarité<br />

dans un cadre <strong>non</strong>-<strong>rigide</strong>. La différence d’implémentation réside dans la méthode d’estimation de<br />

l’histogramme conjoint. Les deux métho<strong>des</strong> utilisées sont l’estimateur réduit «FKE» et l’estima-<br />

teur de Parzen à noyau fixe. En outre, pour ne pas biaiser nos résultats le paramètre de lissage<br />

optimal du noyau fixe a été choisi manuellement. Le protocole est décrit dans le tableau 7.7.


7.5 Synthèse du chapitre 149<br />

fonctionnelle de similarité −IMQN + ζEmbr −IMQN + ζEmbr<br />

Degré de régularisation ζ=0.01 ζ=0.01<br />

Modèle de déformation FFD FFD<br />

Espace FFD 20 mm, 10 mm, 5 mm 20 mm, 10 mm, 5 mm<br />

Optimisation Descente de gradient conjugué Descente de gradient conjugué<br />

Interpolation Bspline Bspline<br />

Histogramme conjoint Estimation par Noyau fixe Estimation par Noyaux adaptatifs<br />

Tab. 7.7 Protocole de l’expérience 3.<br />

Les résultats obtenus sont réunis dans le tableau 7.8, et montrent un gain en précision lorsque<br />

la méthode d’estimation utilise un noyau adaptatif. Ceci s’explique par le fait que l’histogramme<br />

conjoint comporte plusieurs mo<strong>des</strong>, et comme nous l’avons expliqué dans le chapitre 5, les mé-<br />

tho<strong>des</strong> à noyau fixe (même si ce dernier est choisi manuellement) ne modélisent pas exactement<br />

la densité réelle.<br />

Estimateur Espace FFD Médiane Moyenne Maximum<br />

Estimation par Noyaux adaptatifs 20 mm 0.57 0.62 0.93<br />

Estimation par Noyaux adaptatifs 15 mm 0.34 0.41 0.54<br />

Estimation par Noyaux adaptatifs 10 mm 0.12 0.15 0.2<br />

Estimation par Noyau fixe 20 mm 0.87 0.98 1.12<br />

Estimation par Noyau fixe 15 mm 0.54 0.52 0.61<br />

Estimation par Noyau fixe 10 mm 0.35 0.36 0.40<br />

7.5 Synthèse du chapitre<br />

Tab. 7.8 Résultats de l’expérience 3.<br />

Ce chapitre a concerné l’évaluation de l’algorithme du recalage proposé dans cette thèse. Il a<br />

commencé par présenter les outils nécessaires à la validation d’un résultat de recalage donné. Les<br />

premiers outils exposés sont <strong>des</strong> métho<strong>des</strong> de validation visuelle qui se fondent sur un mélange<br />

d’<strong>images</strong>. Par la suite, ce chapitre a présenté les résultats d’une évaluation rétrospective du<br />

recalage <strong>rigide</strong>. Cette évaluation a permis d’apprécier à la fois la robustesse et la précision de<br />

l’approche défendue dans cette thèse. Les résultats obtenus sont très convainquants et présentent<br />

une avancée <strong>des</strong> travaux du recalage <strong>des</strong> <strong>images</strong>.<br />

Enfin, la dernière section de ce chapitre a concerné différentes expériences de validation du<br />

recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> médicales. Ces expériences, au nombre de deux, ont concerné<br />

une évaluation de la précision versus temps de calcul et la l’évaluation du modèle d’estimation<br />

proposé dans la chapitre 5 dans un cadre de recalage.


150


Chapitre 8<br />

Applications Cliniques<br />

Le chapitre que nous abordons à présent est le dernier avant la conclusion générale. Notre<br />

algorithme de recalage fait désormais partie d’un Système d’Aide à la Radiologie et à la Chirurgie<br />

appelé PTM3D, et il est utilisé en ligne dans nombre d’hôpitaux parisiens et de provence (CH<br />

Saint Anne, Institut Curie, Hôpital Necker, HCL de Lyon). Le but de ce chapitre est de donner une<br />

idée de l’utilisation en routine faite de notre système. Les deux applications choisies concernent<br />

la Curiethérapie prostatique et la planification de biopsies.<br />

8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM<br />

Cette section a fait l’objet d’une publication à InfoRad-RSNA’2002 ([Servois et al., 2002]).<br />

8.1.1 Introduction<br />

Le cancer de la prostate est très fréquent. En fait, c’est le cancer le plus fréquent chez<br />

l’homme en dehors <strong>des</strong> cancers cutanés. Un accroissement considérable de l’incidence (fréquence<br />

<strong>des</strong> nouveaux cas dans la population) du cancer de la prostate a été constaté au cours <strong>des</strong><br />

dernières années. C’est la première cause de mortalité par cancer chez l’homme. L’augmentation<br />

de 23 % de la mortalité liée au cancer prostatique, dans les vingt dernières années, reflète aussi<br />

l’augmentation de l’espérance de vie et la reconnaissance plus fréquente du cancer de la prostate<br />

comme cause principale du décès.<br />

La plupart <strong>des</strong> cancers de la prostate se développent chez <strong>des</strong> hommes âgés et évoluent<br />

très lentement. Cependant, certains cancers de la prostate peuvent se développer rapidement et<br />

151


152 Applications Cliniques<br />

s’étendre à d’autres organes (métastases), causant <strong>des</strong> symptômes et entraînant parfois le décès.<br />

Le traitement peut améliorer la survie et prévenir ou soulager les symptômes liés à la maladie.<br />

On sait que 30 % <strong>des</strong> hommes âgés de 60 ans ont <strong>des</strong> foyers microscopiques de cancer dans<br />

la prostate, comme l’indiquent les séries autopsiques (faites chez <strong>des</strong> hommes décédés d’autres<br />

causes), mais ces petits foyers ne sont pas forcément évolutifs.<br />

Le cancer de la prostate pose souvent un problème complexe aux médecins et aux patients<br />

car il est parfois difficile de distinguer, compte tenu de l’âge du patient et de l’évolution variable<br />

du cancer, les patients qui vont bénéficier du traitement de ceux chez qui les effets secondaires du<br />

traitement vont surpasser les bénéfices. Le cancer de la prostate est une maladie très sérieuse mais<br />

tous les patients ne doivent pas être traités de la même façon et parfois l’abstention thérapeutique<br />

peut être le meilleur choix.<br />

8.1.2 Evolution du cancer de la prostate<br />

Le cancer de la prostate se développe à partir de cellules de la prostate. Il se développe souvent<br />

très lentement, et reste localisé au début (il ne dépasse pas la capsule qui entoure la prostate).<br />

Quand le cancer évolue, il peut s’étendre en dehors de la prostate, au-delà de la capsule de la<br />

prostate, par envahissement direct <strong>des</strong> tissus et <strong>des</strong> organes situés près de la prostate, et il peut<br />

essaimer dans d’autres organes à distance de la prostate (os, ganglions...).<br />

La lymphe est un liquide de couleur claire qui contient les cellules responsables de la défense<br />

immunitaire de l’organisme et les vaisseaux lymphatiques sont les canaux qui transportent cette<br />

lymphe jusqu’aux ganglions (de petites glan<strong>des</strong> de la forme d’un haricot qui sont réparties dans<br />

tout le corps et qui ont un rôle important dans la défense contre les infections). La plupart <strong>des</strong><br />

vaisseaux lymphatiques de la prostate vont vers les ganglions du petit bassin. Si <strong>des</strong> cellules<br />

cancéreuses pénètrent dans les vaisseaux lymphatiques, elles sont transportées vers les ganglions<br />

où elles continuent à se développer en formant <strong>des</strong> métastases ganglionnaires (adénopathies).<br />

L’atteinte <strong>des</strong> ganglions prouve que le cancer a essaimé en dehors de la prostate. Il est important<br />

de savoir que les cellules qui ont essaimé à distance (cellules métastatiques dans les os, par<br />

exemple) restent <strong>des</strong> cellules prostatiques et répondent donc au traitement du cancer de la<br />

prostate.<br />

Les nerfs responsables de l’érection passent juste à côté de la prostate et les traitements qui<br />

enlèvent ou laissent ces nerfs peuvent causer <strong>des</strong> troubles de l’érection (impuissance).<br />

Le meilleur gage de guérison est de détecter le cancer à un stade précoce, quand il est encore<br />

localisé à la prostate, sans extension en dehors d’elle.


8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 153<br />

8.1.3 Détection Précoce et diagnostic du cancer de la prostate<br />

La détection précoce et le traitement du cancer de la prostate continuent à poser de multiples<br />

questions. Les cancers découverts par le toucher rectal et/ou le dosage du PSA sont en général<br />

plus limités que ceux découverts à l’occasion de symptômes. Contrairement à d’autres cancers,<br />

le cancer de la prostate se développe très lentement et la nécessité d’un diagnostic précoce se<br />

pose donc moins chez les gens âgés, ayant une espérance de vie de moins de 10 ans.<br />

L’accroissement considérable de l’incidence clinique du cancer de la prostate parait être sur-<br />

tout la conséquence d’une amélioration de la détection <strong>des</strong> petits cancers débutants, due à l’aug-<br />

mentation du nombre <strong>des</strong> dosages de l’antigène prostatique spécifique (PSA), et <strong>des</strong> biopsies<br />

prostatiques.<br />

La détection précoce du cancer de la prostate a permis ces dernières années, aux Etats<br />

Unis, de diminuer la mortalité spécifique par cancer de la prostate, mais la mise en place d’un<br />

dépistage systématique du cancer de la prostate chez tous les hommes de plus de 50 ans reste<br />

encore controversée, par crainte de détecter de petits cancers <strong>non</strong> évolutifs, qui ne nécessiteraient<br />

pas de traitement agressif, en particulier chez les sujets âgés.<br />

Plusieurs associations professionnelles médicales recommandent cependant de commencer la<br />

détection du cancer de la prostate, à partir de 50 ans, chez tous les hommes ayant plus de 10 ans<br />

d’espérance de vie, et à partir de 45 ans chez les hommes ayant un facteur de risque particulier<br />

(frère ou père ayant eu un cancer de la prostate en particulier). La détection repose sur le toucher<br />

rectal et le dosage de l’antigène spécifique prostatique (PSA), les mêmes examens étant répétés<br />

chaque année. Ces examens permettent de dépister le cancer de la prostate à un stade précoce,<br />

avant qu’il ne cause aucun symptôme.<br />

8.1.4 Traitement par radiothérapie<br />

La radiothérapie utilise <strong>des</strong> rayons à haute énergie et <strong>des</strong> particules (électrons, protons)<br />

pour détruire les cellules cancéreuses. La radiothérapie est utilisée pour traiter les cancers qui<br />

sont localisés à la prostate, ou qui ont atteint les tissus voisins. Si la lésion est plus évoluée<br />

(métastatique) la radiothérapie peut être utilisée pour diminuer le volume de la tumeur ou éviter<br />

<strong>des</strong> complications locales (rétention urinaire, compression . . .). On utilise soit la radiothérapie<br />

externe, soit la curiethérapie (ou brachythérapie ou radiothérapie interstitielle).<br />

Radiothérapie EXTERNE<br />

le rayonnement produit par une source externe est focalisé sur la prostate après avoir préci-<br />

sément repéré celle-ci.


154 Applications Cliniques<br />

La prostate est un organe profond, entouré de structures fragiles : en arrière, le rectum,<br />

en avant la vessie, au-<strong>des</strong>sus l’intestin grêle. Cela souligne l’importance de disposer de moyens<br />

techniques ménageant au mieux les organes voisins.<br />

Selon les cas, le volume à irradier peut être soit limité à la prostate, soit étendu aux ganglions<br />

régionaux, soit étendu aux ganglions lombo-aortiques. La nécessité de délivrer <strong>des</strong> doses impor-<br />

tantes pour stériliser la tumeur impose <strong>des</strong> techniques d’irradiation extrêmement minutieuses.<br />

L’association d’une hormonothérapie, avant et quelques mois après la radiothérapie, parait<br />

améliorer les résultats.<br />

La fréquence <strong>des</strong> effets secondaires précoces et <strong>des</strong> complications de l’irradiation dépend<br />

de la technique et de la qualité de l’irradiation. Les complications rectales vont d’une banale<br />

fragilité capillaire avec parfois <strong>des</strong> selles sanglantes à <strong>des</strong> ulcérations rectales parfois graves. Les<br />

complications urinaires éventuelles se résument surtout à <strong>des</strong> envies d’uriner fréquentes liées à<br />

une cystite «radique». Le taux d’impuissance après radiothérapie externe varie de 10 à 50 %.<br />

Le traitement est indolore et ressemble un peu à une radiographie banale. Le traitement<br />

nécessite une séance par jour 5 jours par semaine pendant 7 à 8 semaines, chaque séance durant<br />

quelques minutes. C’est parce qu’on ne donne chaque jour qu’une petite partie de la dose de<br />

radiation, de façon à diminuer les effets secondaires, que le traitement dure aussi longtemps. Un<br />

perfectionnement récent de la radiothérapie externe, la radiothérapie conformationnelle, permet<br />

d’améliorer l’efficacité du traitement tout en diminuant les effets secondaires grâce à un système<br />

sophistiqué qui permet d’adapter la forme du rayon à la forme de la prostate quelque soit l’in-<br />

cidence du rayon lors du traitement. Utilisée seulement dans quelques centres en France, cette<br />

technique représente un progrès indéniable de la radiothérapie.<br />

La Curiethérapie<br />

Les effets secondaires <strong>des</strong> traitements ont suscité un intérêt croissant pour <strong>des</strong> alternatives à<br />

la morbidité réduite. Parmi celles-ci, la plus prometteuse est la curiethérapie (ou brachythérapie)<br />

qui consiste à placer <strong>des</strong> sources radio-actives directement dans le tissu prostatique. Des doses<br />

élevées peuvent ainsi être délivrées au cancer, tout en évitant une irradiation excessive de la vessie<br />

et du rectum. La curiethérapie utilise le plus souvent <strong>des</strong> implants permanents sous la forme de<br />

grains d’iode 125 ou de palladium 103. Le cancer de la prostate étant par nature multifocal<br />

dans plus de 50 % <strong>des</strong> cas, tout le volume de la glande doit être traité de façon efficace, et la<br />

curiethérapie réalise cet objectif.<br />

L’implantation se fait avec de simples aiguilles, sous rachi-anesthésie ou anesthésie générale,<br />

sous contrôle échographique transrectal. La sonde endorectale permet la visualisation directe de


8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 155<br />

la position <strong>des</strong> aiguilles par rapport à la prostate. La position <strong>des</strong> aiguilles et de chaque grain est<br />

déterminée par la dosimétrie (Fig. 8.1).<br />

Fig. 8.1 Implantation <strong>des</strong> grains radioactifs dans la prostate<br />

Il y a différentes techniques d’implantation <strong>des</strong> sources. La technique d’implantation interac-<br />

tive en 3D repose sur un logiciel qui calcule la dosimétrie en temps réel, au cours même de la mise<br />

en place <strong>des</strong> sources radioactives, ce qui permet un traitement optimal. Grâce à cette technique,<br />

le traitement peut se faire en une seule séance, avec une grande précision de placement <strong>des</strong> grains<br />

et donc une meilleure efficacité.<br />

La mise en place <strong>des</strong> grains sous contrôle échographique a permis une véritable révolution<br />

de la curiethérapie de la prostate par implants permanents. En effet cette technique est peu<br />

onéreuse, facile à utiliser au bloc opératoire et présente le grand avantage de fournir <strong>des</strong> <strong>images</strong><br />

temps réel dynamique. Cependant, un seul inconvenient doit tout de même être noté : l’inter-<br />

prétation délicate <strong>des</strong> <strong>images</strong> qui fait appel à l’expérience du radiologue. Toutefois, l’échographie<br />

endorectale présente une méthode de choix pour guider l’implantation mais elle est inutilisable<br />

pour l’évaluation post-implantation.<br />

Volumétrie et Dosimétrie Déterminer le volume de la prostate avant et après implantation<br />

est primordial pour déterminer la dose radioactive et pour évaluer la qualité du traitement. Le<br />

groupe de travail AAPM 43 (AAPM Task Group 43) a établi un protocole (TG-43) de calcul<br />

<strong>des</strong> doses <strong>des</strong> éléments radioactifs utilisés dans le cadre de la curiethérapie ( 125 I, 125 Pd et 192 Ir).<br />

D’après les recommandations du TG-43, le taux de dose D(r, θ), à un point (r, θ) s’écrit :<br />

˙D(r,<br />

G(r, θ)<br />

θ) = SKΛ g(r)F (r, θ), (8.1)<br />

G(r0, θ0)


156 Applications Cliniques<br />

où SK est le débit de source (dit débit de Kerma), Λ est la constante de taux de dosage, G(r, θ)<br />

est le facteur de géométrie, g(r) est la fonction radiale de dosage, et F (r, θ) est la fonction<br />

d’anisotropie. Le point (r0 = 1.0 cm, θ0 = π/2) est défini à une distance radiale de 1.0 cm du<br />

bisecteur transversal de la source.<br />

Ainsi, la quantité <strong>des</strong> grains est évaluée en fonction du volume de la prostate. Pour 40cm 3 ,<br />

1500 MBq ou 40 mCurie sont préconisés, soit 100 à 150 grains d’iode environ. Ce calcul est désor-<br />

mais automatisé à l’aide d’un logiciel de dosimétrie dédié, qui de plus repère automatiquement<br />

les grains.<br />

Après l’implantation, <strong>des</strong> examens <strong>radiologiques</strong> sont pratiqués pour s’assurer du bon fonc-<br />

tionnement <strong>des</strong> grains. L’évaluation post-implantation s’effectue par un contrôle dosimétrique<br />

après l’application de la curiethérapie, et ce pour anticiper <strong>des</strong> problèmes cliniques éventuels<br />

(complications urinaires). Le contrôle dosimétrique exige la capacité de déterminer la position<br />

<strong>des</strong> grains par rapport à la vessie, à l’urètre, au rectum, et les contours prostatiques avec un<br />

degré élevé.<br />

Actuellement l’approche standard d’évaluation se fonde sur l’utilisation de l’imagerie TDM.<br />

Cette technique est utilisée pour visualiser aussi bien les grains radioactifs implantés que les<br />

tissus mous (urètre, rectum, contours prostatiques). Or la spécificité de l’imagerie TDM fait que<br />

celle-ci ne permet pas une acquisition précise de matières molles ou hautement vascularisées. Les<br />

contours de la prostate ainsi que les organes sensibles limitrophes sont difficiles à visualiser en<br />

utilisant l’imagerie TDM, mais le sont moins par imagerie par résonance magnétique. En effet,<br />

l’IRM, de par ses principes physiques fait qu’elle capte mieux les tissus mous ou les matières<br />

hautement vascularisées (quantité d’eau très élevée). En revanche, les grains radioactifs sont<br />

moins visibles dans les coupes IRM, d’où la nécessité de combiner celles-ci avec <strong>des</strong> coupes TDM<br />

assurant une bonne visualisation <strong>des</strong> grains et <strong>des</strong> matières osseuses.<br />

En résumé, Le recalage d’<strong>images</strong> TDM-IRM peut permettre de combiner :<br />

– la visibilité <strong>des</strong> grains radioactifs (repérage automatique par le logiciel de dosimétrie) et<br />

<strong>des</strong> structures osseuses en TDM (Fig. 8.2).<br />

– la meilleure visibilité <strong>des</strong> contours prostatiques et <strong>des</strong> organes sensibles (urètre, vessie,<br />

rectum) en IRM (Fig. 8.3).<br />

Dans ce qui suit, nous présentons les résultats d’une étude de faisabilité du recalage d’<strong>images</strong><br />

TDM-IRM sur une base de données de 14 patients implantés. Cette étude a eu lieu avant l’achè-<br />

vement de la validation de l’algorithme MIAMI. Notre but ici est de présenter un cadre applicatif<br />

à notre système.


8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 157<br />

Fig. 8.2 Données TDM de la prostate d’un patient implanté.<br />

Fig. 8.3 Données IRM de la prostate d’un patient implanté.


158 Applications Cliniques<br />

8.1.5 Le projet PTM3D<br />

Dans le but d’améliorer la qualité de l’évaluation du traitement, une technique de recalage<br />

d’<strong>images</strong> TDM - IRM fondée sur la mise en correspondance <strong>des</strong> grains radioactifs a été développée.<br />

Par la suite, l’étape consistant initialement à délimiter manuellement les contours prostatiques<br />

a été remplacée par une délimitation semi-automatique (contours actifs) moins dépendante de<br />

l’opérateur et moins consommatrice de temps. Un exemple de résultats de segmentation sur <strong>des</strong><br />

données fusionnées est donné dans la figure 8.4.<br />

Données<br />

Fig. 8.4 Exemple de segmentation volumique de la prostate après fusion TDM-<br />

IRM.<br />

La base de données est constituées d’<strong>images</strong> TDM et IRM-T2 FSE de 14 patients implantés :<br />

– Les acquisitions TDM et IRM sont réalisées le même jour, 2 mois après l’application.<br />

– Les <strong>images</strong> TDM sont en coupes de 5mm jointives


8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 159<br />

– Les <strong>images</strong> IRM sont en séquence FSE T2, coupes de 3mm jointives, en antenne de surface<br />

pelvis.<br />

– La vessie est vide avant les acquisitions TDM et IRM.<br />

– L’acquisition est effectuée avec centrage laser sur les repères osseux externes du bassin.<br />

Métho<strong>des</strong> de recalage<br />

Initialement, deux métho<strong>des</strong> de recalage d’<strong>images</strong> ont été appliquées pour chaque patient.<br />

Ces métho<strong>des</strong> exécutées par <strong>des</strong> radiologues (juniors) sont fondées sur une approche géométrique<br />

de mise en correspondance <strong>des</strong> points d’intérêt :<br />

– recalage sur les structures osseuses du pelvis (3 points) et<br />

– recalage sur les grains radioactifs intra-prostatiques ( 6 à 8 points).<br />

Mesure de la qualité du recalage<br />

Deux métho<strong>des</strong> de validation du résultats du recalage ont été adoptées.<br />

– La première est une validation semi-quantitative qui se fonde sur une appréciation subjec-<br />

tive de la superposition <strong>des</strong> grains radioactifs (blanc en TDM, noir en IRM)<br />

– La deuxième est une évaluation quantitative (30 grains par patients) qui consiste à mesurer<br />

la distance séparant de centre à centre les grains visibles sur les <strong>images</strong> fusionnées TDM<br />

et IRM.<br />

Le recalage est «réussi» lorsque l’ensemble <strong>des</strong> grains intra-prostatiques sont totalement super-<br />

posés (Fig. 8.5).<br />

Indices de qualité du traitement<br />

Les paramètres dosimétriques retenus pour évaluer la qualité du traitement sont :<br />

– La D90 : dose délivrée à 90 % du volume de la prostate<br />

– Le V100 et V150 : pourcentage du volume prostatique recevant respectivement 100 et 150 %<br />

de la dose prescrite égale systématiquement à 145 Gy<br />

Ces paramètres sont dépendants de la détermination du volume de la prostate et de la position<br />

<strong>des</strong> grains radioactifs dans le volume ainsi défini.<br />

On constate que sur quatorze patients traités, trois ont une D90 inférieure à la dose de<br />

prescription de 145 Gy lorsque l’évaluation est effectuée sur les coupes tomodensitométriques.<br />

Deux de ces trois patients présentent par contre une D90 supérieure à 145 Gy lorsque la<br />

dosimétrie est effectuée sur l’une ou l’autre <strong>des</strong> métho<strong>des</strong> de recalage IRM utilisées.


160 Applications Cliniques<br />

<strong>Recalage</strong> sur repères osseux<br />

(symphyse pubienne + épines sciatiques<br />

3 couples de points)<br />

Fusion os<br />

Fusion grain<br />

<strong>Recalage</strong> sur grains<br />

(6 à 8 couples de points)<br />

Fig. 8.5 Résultats <strong>des</strong> recalages pour les données TDM-IRM prostatiques.<br />

Fig. 8.6 Résultats dosimétriques


8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 161<br />

Grâce au projet RIRE nous avons pu valider objectivement l’algorithme MIAMI<br />

ce qui a permis son application en routine clinique remplaçant ainsi les métho<strong>des</strong><br />

manuelles présentées ci-<strong>des</strong>sous.<br />

8.2 Planification de biopsies et fusion <strong>multimodal</strong>e<br />

Cette section a fait l’objet d’une publication à CARS’2004 ([Atif et al., 2004]).<br />

8.2.1 Description du projet<br />

Le projet, qui nous associe à l’unité de Neurochirurgie de l’hôpital Sainte Anne à Paris<br />

s’articule autour de quatre points qui ne sont pas tous complètement achevés. Ces points illustrent<br />

le besoin particulier en fusion de données que nécessitent les applications neurochirurgicales.<br />

La première partie de ce projet consiste en :<br />

– l’intégration d’<strong>images</strong> <strong>multimodal</strong>es <strong>radiologiques</strong> crâniennes acquises en conditions stéréo-<br />

taxiques (radiographies standard, angiographie conventionnelle ou digitalisée, ventriculo-<br />

graphie, scanner, IRM (morphololgique, fonctionnelle, spectroscopie), TEP-scanner) dans<br />

un volume appelé «espace individuel stéréotaxique», orienté autour du système géomé-<br />

trique individuel de TALAIRACH (lignes de base et quadrillage proportionnel du système<br />

Ca-Cp) ;<br />

– la fusion de ces <strong>images</strong> dans cet espace ;<br />

– la définition et le calcul de volumes anatomiques spécifiques et lésionnels ;<br />

– l’affichage <strong>des</strong> projections axiale, coronale et sagittale de ces <strong>images</strong> sur les faces corres-<br />

pondantes de cet espace ;<br />

– la reconstruction <strong>des</strong> <strong>images</strong> 3-D selon <strong>des</strong> plans obliques ou complexes définis par l’utili-<br />

sateur et affichages <strong>des</strong> <strong>images</strong> dans ces plans ;<br />

– le choix et la simulation de trajectoires intracrâniennes multiples et calculs de distances ;<br />

La deuxième partie du projet consiste en<br />

– l’intégration <strong>des</strong> <strong>images</strong> <strong>radiologiques</strong> à courte distance produites par l’amplificateur de<br />

brillance (Siemens Siremobile) dans l’espace individuel stéréotaxique : création d’<strong>images</strong><br />

de base en incidence de face et de profil centrées par le cadre de stéréotaxie et comparaison<br />

avec le mode transparent du scanner reconstruit dans ces mêmes incidences ;<br />

– intégration et affichage d’instruments chirurgicaux intracrâniens (trocarts à biopsie, élec-<br />

tro<strong>des</strong>, . . .) dans l’espace individuel stéréotaxique à partir de leurs coordonnées déterminées<br />

sur <strong>des</strong> <strong>images</strong> <strong>radiologiques</strong> à courte distance acquises selon n’importe quelle incidence ;<br />

– superposition de trajectoires simulées et image d’un instrument en position réelle ;


162 Applications Cliniques<br />

Ces deux premières parties de ce projet sont achevées. Un exemple applicatif <strong>des</strong> différentes<br />

étapes d’une biopsie récapitulant tous les points notés plus haut sont données dans les sections<br />

qui suivent.<br />

8.2.2 Validation sur <strong>des</strong> données Synthétiques<br />

Une première étape de validation clinique a consisté à utiliser un crâne expérimental et<br />

à simuler un ensemble de fantomes de lésions pour calculer la trajectoire de la biopsie. Les<br />

différentes étapes sont données dans les figures 8.7, 8.8 et 8.9.<br />

(a) Scanner en coupes millimétriques d’un crâne expérimental<br />

(b) Segmentation 3D <strong>des</strong> fantômes <strong>des</strong> lésions<br />

Fig. 8.7 Validation expérimental : étape 1


8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 163<br />

(a) Localisation 3D du fantôme d’une lésion (b) Simulation 3D d’une trajectoire d’intervention<br />

(c) Modification interactive de la trajectoire d’intervention<br />

sur les plans<br />

Fig. 8.8 Validation expérimental : étape 2<br />

(d) Contrôle 3D à l’aide d’un plan tangent à la trajectoire


164 Applications Cliniques<br />

(a) Contrôle 3D à l’aide d’un plan normal à la trajectoire (b) Contrôle 3D à l’aide d’un plan normal à la trajectoire<br />

(c) Sélection interactive d’une scopie à courte distance (d) Fusion temps réel scopie / segments 3D<br />

Fig. 8.9 Validation expérimental : étape 3


8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 165<br />

8.2.3 Utilisation en routine clinique<br />

La deuxième étape de ce projet a consisté à appliquer dans un cadre clinique le protocole<br />

chirurgical alors validé. Les résultats sont données dans les figures 8.10, 8.11, 8.12 et 8.14.<br />

(a) <strong>Recalage</strong> dynamique 2D / 3D à partir de repères anatomiques<br />

(b) Visualisation 3D IRM<br />

(c) Segmentation 3D du crâne (d) Segmentation 3D transparente du crâne<br />

Fig. 8.10 Cas réel : étape 1


166 Applications Cliniques<br />

(a) Segmentation 3D de la lésion (b) Segmentation 3D de la lésion et mesure automatique<br />

du volume<br />

(c) Segmentation 3D crâne / lésion (d) Choix du plan d’intervention<br />

Fig. 8.11 Cas réel : étape 2


8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 167<br />

(a) Choix anatomique d’une trajectoire et contrôle 3D<br />

<strong>des</strong> extrémités<br />

(c) Contrôle anatomique à l’aide d’un plan tangent à la<br />

trajectoire<br />

Fig. 8.12 Cas réel : étape 3<br />

(b) Fusion temps réel trajectoire / crâne / lésion<br />

(d) Contrôle anatomique à l’aide d’un plan perpendiculaire<br />

à la trajectoire


168 Applications Cliniques<br />

Fig. 8.13 Contrôle global : point d’entrée, cible, chemin traversé, . . .<br />

Fig. 8.14 Cas réel : étape 4


Chapitre 9<br />

Conclusion<br />

9.1 Bilan<br />

Les travaux présentés dans ce mémoire portent sur le recalage <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> <strong>des</strong><br />

<strong>images</strong> médicales et plus particulièrement, sur la définition d’un nouveau critère de similarité<br />

inspirée de la théorie de l’information. Nous sommes partis du constat que les métho<strong>des</strong> ico-<br />

niques adaptées au cadre <strong>multimodal</strong> du recalage ne peuvent être utilisées pour corriger <strong>des</strong><br />

déformations locales <strong>des</strong> organes à cause du temps de calcul conséquent qu’elles nécessitent.<br />

Nous avons alors défini dans ce mémoire un ensemble d’outils permettant de prendre en compte<br />

l’aspect <strong>multimodal</strong> tout en ne nécessitant qu’un temps de calcul assez réduit pour pouvoir consi-<br />

dérer la correction de déformations <strong>non</strong>-<strong>rigide</strong>s. Ces outils sont principalement composés d’une<br />

nouvelle méthode de similarité fondée sur l’entropie quadratique de Rényi et et d’une méthode<br />

d’estimation <strong>non</strong>-paramétrique à noyau adaptatif.<br />

Ce mémoire a commencé par définir les fondements théoriques du recalage d’<strong>images</strong>. Après<br />

une brève présentation de l’approche géométrique, le chapitre 2 s’est consacré aux approches<br />

iconiques. Le problème de recalage a été défini comme un problème d’inférence statistique qui<br />

consiste à identifier les paramètres d’un modèle de dépendance inter-<strong>images</strong>. Nous avons alors<br />

classé les différentes mesures de similarités selon l’hypothèse de dépendance inter-<strong>images</strong> ap-<br />

propriée. La dépendance statistique étant la plus générique, nous avons étudié les mesures de<br />

similarité immanentes de cette classe et plus particulièrement celles fondées sur la théorie de<br />

l’information comme l’information mutuelle. À l’issue de ce chapitre nous avons orienté nos re-<br />

cherches la théorie de l’information et les statistiques afin de définir de nouvelles mesures de<br />

similarité et d’étudier les modèles d’estimation <strong>des</strong> densités de probabilité.<br />

Au chapitre 3, nous avons étudié le problème spécifique du recalage <strong>non</strong>-<strong>rigide</strong>. Les différents<br />

modèles de déformation utilisés pour une fin de recalage ont été passés en revue. Ce chapitre se<br />

169


170 Conclusion<br />

clôt par la définition d’une approche hybride consistant à approcher dans un premier temps le<br />

recalage <strong>non</strong>-<strong>rigide</strong> par un recalage affine, ce qui permet à la fois de réduire le temps de calcul<br />

et de résoudre le problème d’initialisation dont souffrent les algorithmes <strong>non</strong>-<strong>rigide</strong>s.<br />

Dans le chapitre 4 nous entrepre<strong>non</strong>s une étude sur la notion de quantification d’information<br />

dans un cadre d’imagerie. Dans ce chapitre nous avons défini une nouvelle classe de mesure de<br />

similarité qui se fonde sur la notion d’entropie généralisée. Les quatre mesures définies dans cette<br />

classe n’ont malheureusement pas toutes été testées ; leur cadre d’application dépasse largement<br />

cette thèse. Cependant, cette étude théorique nous a permis de définir un nouveau critère de<br />

similarité, normalisé de façon à tenir compte <strong>des</strong> effets de recouvrement partiel inhérents à<br />

toute procédure de recalage. Ce critère appartenant à la classe <strong>des</strong> mesures iconiques opère sous<br />

l’hypothèse générique de dépendance statistique. De plus ce critère, du fait qu’il soit fondé sur<br />

l’entropie quadratique de Rényi nécessite beaucoup moins de temps de calcul lorsqu’il est associé<br />

à une densité de probabilité à noyau gaussien.<br />

Le chapitre 5 porte sur les modèles d’estimation <strong>des</strong> densités de probabilité. Le problème au-<br />

quel se consacre ce chapitre est l’estimation <strong>des</strong> histogrammes d’<strong>images</strong> afin d’accélérer le temps<br />

de calcul du critère de similarité. Ce qui nous permet d’utiliser <strong>des</strong> modèles de déformation<br />

<strong>non</strong>-<strong>rigide</strong>s avec <strong>des</strong> degrés de liberté très élevés. De plus, ce chapitre s’attaque à un problème<br />

connu en estimation <strong>non</strong>-paramétrique, à savoir le calcul du paramètre de lissage dans un cadre<br />

adaptatif. En effet, l’utilisation <strong>des</strong> noyaux adaptatifs est nécessaire dès que la densité que l’on<br />

cherche à estimer comporte plusieurs mo<strong>des</strong>, ce qui est le cas pour les <strong>images</strong> médicales. Cepen-<br />

dant, le calcul automatique <strong>des</strong> noyaux adaptatifs nécessite un temps de calcul conséquent, ce<br />

qui astreint les utilisateurs à utiliser un noyau fixe dans le cadre du recalage ([Viola, 1995]). Nous<br />

avons alors apporté une réponse à ce problème en utilisant une méthode à noyau adaptatif qui<br />

nécessite un temps de calcul raisonnable permettant son utilisation dans un cadre de recalage.<br />

La méthode choisie est un modèle hybride qui commence par une méthode d’estimation classique<br />

semi-paramétrique fondée sur un mélange de gaussiennes. Cette première estimation sert d’ap-<br />

proximation à l’estimation <strong>non</strong>-paramétrique qui agit alors comme une procédure de raffinement.<br />

En outre, les gaussiennes calculées à partir de l’estimateur semi-paramétrique servent à définir et<br />

contrôler l’étendu <strong>des</strong> paramètres de lissage variables alors dans l’étape <strong>non</strong>-paramétrique d’es-<br />

timation. Ce schéma nous permet d’utiliser <strong>des</strong> noyaux adaptatifs aboutissant ainsi à <strong>des</strong> gains<br />

en précision.<br />

Le chapitre 6 introduit l’algorithme MIAMI et décrit les différents choix de mise en œuvre.<br />

L’algorithme MIAMI opère en deux étapes. La première étape est un recalage affine qui uti-<br />

lise comme modèle de déformation une transformation affine, comme critère de similarité l’in-<br />

formation mutuelle quadratique normalisée et comme procédure d’optimisation la méthode de<br />

Marquardt-Levenberg. Un schéma multi-résolution est utilisé pour accélérer le temps de calcul


9.1 Bilan 171<br />

et améliorer la robustesse de l’algorithme. La deuxième étape se fonde sur un recalage <strong>non</strong>-<strong>rigide</strong><br />

utilisant les déformations de formes libres. Le critère de similarité associe à l’information mutuelle<br />

quadratique normalisée une force de régularisation qui contrôle le résultat final de la transforma-<br />

tion <strong>non</strong>-<strong>rigide</strong>. L’énergie de régularisation ainsi que le facteur ζ dit de compétition qui associe<br />

les deux énergies n’ont pas été discutés de façon suffisante dans ce mémoire. La raison en est<br />

simple ; nous avons fait le choix de consacrer nos efforts au développement concernant le critère<br />

de similarité et le modèle d’estimation, d’autant que <strong>des</strong> travaux de thèses se sont consacrés<br />

particulièrement à ce point [Cachier, 2002].<br />

Le chapitre 7 présente les différentes métho<strong>des</strong> d’évaluation <strong>des</strong> résultats du recalage. Dans<br />

un premier temps, les métho<strong>des</strong> de validation visuelle sont exposés. Se fondant sur <strong>des</strong> techniques<br />

de mélange d’<strong>images</strong>, ces métho<strong>des</strong> permettent à un utilisateur «expert» d’apprécier le résultat<br />

d’un recalage donné. Dans un second temps, une méthode d’évaluation fondée sur l’utilisation<br />

de marqueurs externes est exposée.<br />

Grâce au projet RIRE et aux efforts de l’équipe de «Vanderbilt», nous avons pu évaluer<br />

«objectivement» le comportement en terme de précision et de robustesse de notre critère de<br />

similarité (NQMI). Les résultats obtenus sont très encourageants et situent notre méthode au<br />

niveau <strong>des</strong> meilleures métho<strong>des</strong> évaluées dans [West et al., 1997a]. Toutefois, il faut retenir que<br />

notre méthode présente, comme c’est le cas pour toutes les approches opérant sous hypothèse<br />

statistique, <strong>des</strong> résultats insuffisants dans le cadre TEP-IRM. Ceci vient, comme l’a expliqué<br />

[Roche, 2001], du fait que la dépendance fonctionnelle est la plus appropriée pour définir la<br />

relation entre les intensités <strong>des</strong> <strong>images</strong> TEP et IRM d’un même patient. L’on en conclut que<br />

notre critère n’a pas vocation à résoudre tous les problèmes de recalage, mais il se situe parmi les<br />

meilleures métho<strong>des</strong> capables de modéliser une dépendance statistique entre deux ou plusieurs<br />

modalités. En outre, ce qu’il faut retenir de cette étude est qu’une mesure de similarité doit<br />

être choisie en fonction de l’hypothèse que l’on émet sur la dépendance entre deux imageurs.<br />

En l’absence de cette hypothèse, le choix d’une mesure de similarité fondée sur l’information<br />

mutuelle généralisée reste convenable. La deuxième partie de ce chapitre a concerné la validation<br />

du recalage <strong>non</strong>-<strong>rigide</strong>. Malheureusement, nous n’avons pas pu participer, comme dans le cas<br />

du cadre <strong>rigide</strong>, à un projet d’évaluation rétrospective, pour la simple raison que les travaux<br />

concernant cet aspect ne sont toujours pas achevés. Néanmoins, nous avons conçu un ensemble<br />

d’expériences pour apprécier les gains en précision et en temps de calcul.<br />

Pour appuyer l’aspect finalisé de notre recherche, nous avons présenté dans le chapitre 8 deux<br />

applications cliniques reflétant l’utilisation en routine qui est faite de notre système. Ces deux<br />

applications sont la Curiethérapie prostatique et la planification de biopsies du crâne.


172 Conclusion<br />

9.2 Perspectives<br />

9.2.1 Information Mutuelle Généralisée<br />

La classe de mesures de similarité définie dans le chapitre 4 présente <strong>des</strong> caractéristiques<br />

calculatoires intéressantes qui n’ont pas pu être mises en évidence dans le cadre de ce manuscrit.<br />

Cependant, il serait intéressant d’évaluer leur comportement dans le cadre d’applications liées<br />

à la segmentation d’<strong>images</strong>, à la classification et à l’indexation par le contenu. Leur applica-<br />

tion à la segmentation par modèles déformables d’<strong>images</strong> médicales a d’ores et déjà commencé<br />

dans le cadre <strong>des</strong> travaux de thèse de Xavier Ripoche [Ripoche et al., 2004]. Les résultats préli-<br />

minaires sont intéressants et ouvrent une voie de recherche nouvelle concernant l’utilisation de<br />

l’information mutuelle comme critère de déformation.<br />

9.2.2 <strong>Recalage</strong> inter-patients et morphométrie<br />

La morphométrie consiste à étudier la géométrie <strong>des</strong> formes, et en particulier le calcul de<br />

formes moyennes et de variations autour de ces formes.<br />

Un prolongement naturel <strong>des</strong> travaux abordés dans ce mémoire concerne l’application du<br />

recalage inter-sujets afin de construire de manière automatique <strong>des</strong> atlas anatomiques morpho-<br />

métriques. Une étape préliminaire doit consister à évaluer rétrospectivement l’algorithme de<br />

recalage <strong>non</strong>-<strong>rigide</strong> dans un cadre multisujets. Les applications concernent le calcul d’atlas ana-<br />

tomiques probabilistes, et la comparaison d’<strong>images</strong> entre patients peuvent alors être abordées.<br />

Dans le cadre de nos travaux avec le CH Sainte Anne, il est envisagé la création d’une<br />

base de données de type Atlas Anatomique Individuel en vue d’une identification automatique<br />

<strong>des</strong> structures anatomiques cérébrales individuelles comportant les contours ventriculaires, les<br />

sillons et scissures, les circonvolutions et zones architectoniques (classification de Brodman), les<br />

principaux faisceaux de la substance blanche, les ganglions de la base et les noyaux <strong>des</strong> nerfs<br />

crâniens, les voies de projection corticales et les gran<strong>des</strong> voies <strong>des</strong>cendantes, . . .<br />

9.2.3 Imagerie fonctionnelle<br />

Étudier <strong>des</strong> aspects liés à la croissance physiologique et tumorale ; appréhender le système<br />

nerveux ; comprendre la pathologie parkinsonienne (stimulation <strong>des</strong> noyaux sous-thalamiques) ;<br />

comprendre <strong>des</strong> fonctions cognitives ou psycho-cognitives comme les structures cérébrales impli-<br />

quées dans la génération de représentations visuo-spatiales... tant de métho<strong>des</strong> qui impliquent di-<br />

rectement l’imagerie fonctionnelle et font appel aux techniques de recalage fonctionnel/structurel.


9.2 Perspectives 173<br />

Mais les métho<strong>des</strong> développées aujourd’hui n’ont que peu été utilisées dans ce contexte. L’in-<br />

tégration par exemple <strong>des</strong> signaux EEG ou MEG pose encore beaucoup de problèmes dans un<br />

cadre de recalage à cause de la spécificité de l’information donnée par ces derniers. Des directions<br />

de recherche doivent concerner cet aspect afin d’aller plus loin dans la compréhension du vivant.


174


Annexe A<br />

Caractéristique asymptotiques de<br />

l’estimateur réduit<br />

Pour établir l’optimalité d’un estimateur, ses caractéristiques asymptotiques doivent être<br />

prouvées. Rappelons qu’en théorie d’estimation les caractéristiques asymptotiques ont été intro-<br />

duites pour s’assurer de la convergence <strong>des</strong> estimateurs quand la taille d’échantillon augmente<br />

avec le temps. Cette appendice concerne les preuves de consistance de l’estimateur «FKE» [Mar-<br />

chette et al., 1995].<br />

La consistance<br />

La consistance de l’estimateur ˆ f est établie lorsque l’on a démontré que le biais et la variance<br />

tendent vers zéro quand le nombre d’échantillon tend vers l’infini, ce qui veut dire que l’estimation<br />

converge vers la densité réelle :<br />

ˆfn→∞ → f<br />

La preuve de consistance revient à démontrer que le biais et la variance tendent vers 0 quand n<br />

tend vers l’infini. Commençons par le biais :<br />

Biais( ˆ f) = E( ˆ f) − f<br />

= 1<br />

n m<br />

<br />

E<br />

n<br />

i=1 j=1<br />

m<br />

<br />

=<br />

<br />

j=1<br />

Wj(y)<br />

hd K<br />

j<br />

Wj(Xi)<br />

hd K<br />

j<br />

<br />

x − Xi<br />

<br />

− f(x)<br />

hj<br />

<br />

x − y<br />

<br />

f(y)dy − f(x)<br />

hj<br />

175


176 Caractéristique asymptotiques de l’estimateur réduit<br />

Il a été noté plus haut que, lorsque la taille d’échantillon augmente et tend vers l’infini le para-<br />

mètre de lissage doit tendre vers l’infini : on a alors l’inférence : n → ∞ =⇒ hj → 0. Par le<br />

lemme de Bochner 1 on a :<br />

m<br />

Wj(y)f(y) − f(y) = 0<br />

j=1<br />

Ce qui revient à une réduction du biais de l’estimateur quand la taille de l’échantillon augmente.<br />

Analysons à présent le comportement de la variance quand la taille de l’échantillon augmente.<br />

De la même façon on écrit :<br />

Var( ˆ f(x)) = 1<br />

n 2<br />

⎛<br />

n m<br />

Var ⎝<br />

i=1<br />

≤ 1<br />

n E<br />

⎛<br />

m m<br />

⎝<br />

= 1<br />

n<br />

≤ 1<br />

n<br />

j=1 k=1<br />

j=1 k=1<br />

j=1<br />

Wj(y)<br />

h d j<br />

h d j<br />

Wj(xi)<br />

hd K<br />

j<br />

Wk(y)<br />

hd K<br />

k<br />

h d k<br />

x − Xi<br />

hj<br />

x − y<br />

hj<br />

hj<br />

⎞<br />

⎠<br />

<br />

K<br />

x − y<br />

hk<br />

hk<br />

⎞<br />

⎠<br />

m m<br />

<br />

Wj(y) Wk(y) x − y x − y<br />

K K f(y)dy<br />

m<br />

m<br />

1<br />

h<br />

j=1 k=1<br />

d j hd k<br />

≤ sup(K(w))<br />

n<br />

→ sup(K(w))<br />

n<br />

→ 0<br />

m<br />

<br />

x − y x − y<br />

K K f(y)dy<br />

m<br />

1<br />

h<br />

j=1 k=1<br />

d j hd k<br />

m<br />

1<br />

hj<br />

<br />

h<br />

j=1<br />

d f(x)σ<br />

j<br />

2 K<br />

hk<br />

hk<br />

<br />

x − y<br />

K f(y)dy<br />

Les dernières inférences viennent du fait que nhj n→∞ → ∞ et que le noyau K satisfait les<br />

conditions du moment 5.6 :<br />

<br />

K(w)dw = 1;<br />

<br />

wK(w)dw = 0; et σ 2 K =<br />

<br />

w 2 K(w)dw > 0,<br />

1 LEMME = Si f est bornée et continue alors E( ˆ f) → f uniformément dans tout espace compact.


La consistance L2<br />

La consistance L2 consiste à prouver la minimisation du risque dans un espace quadratique.<br />

Si l’on prend l’Erreur Quadratique Intégrée Moyenne MISE :<br />

On obtient :<br />

Biais( ˆ f) =<br />

=<br />

≈<br />

j=1<br />

hj<br />

MISE( ˆ <br />

f) =<br />

hj<br />

Biais 2 ( ˆ f) + Var( ˆ f)<br />

m<br />

<br />

1 x − y<br />

K Wj(y)f(y) dy − f(x)<br />

m<br />

<br />

j=1<br />

m<br />

j =1<br />

= σ2 K<br />

2<br />

[K(w)Wj(x − hjw)f(x − hjw)] dw − f(x)<br />

177<br />

<br />

K(w) f(x)Wj(x) − hjw d<br />

dx (f(x)Wj(x)) + h2 d<br />

2<br />

2<br />

<br />

(f(x)Wj(x)) dw − f(x)<br />

d x2 m<br />

j=1<br />

On peut alors écrire :<br />

<br />

h 2 j<br />

Biais 2 ( ˆ f) ≈ σ2 K<br />

4<br />

d 2<br />

(f(x)Wj(x))<br />

d x2 m<br />

j=1 k=1<br />

m<br />

h 2 jh 2 <br />

d2 k<br />

De la même façon la Variance Intégrée s’écrit :<br />

En notant :<br />

j=1<br />

hj<br />

d2<br />

(f(x)Wj(x))<br />

dx2 dx2 (f(x)Wk(x)) dx<br />

Var( ˆ f) = 1<br />

<br />

n<br />

⎛<br />

m<br />

<br />

⎝<br />

Wj(y) x − y<br />

K<br />

⎞2<br />

⎠ M(y)dy + O(n −1 )<br />

≈ 1<br />

n<br />

m<br />

m<br />

1<br />

1<br />

hj hk<br />

j=1 k=1<br />

la Variance Intégrée s’écrit alors :<br />

<br />

Var( ˆ f) ≈ 1<br />

n<br />

hj<br />

<br />

x − y x − y<br />

K K Wj(y)Wk(y)f(y)dy.<br />

<br />

g(hj, hk) =<br />

j=1 k=1<br />

hj<br />

hk<br />

K( 1<br />

)K(<br />

hj<br />

1<br />

)dw (A.1)<br />

hk<br />

m m<br />

<br />

g(hj, hk)<br />

Wj(y)Wk(y)f(y)dy (A.2)<br />

hjhk


178 Caractéristique asymptotiques de l’estimateur réduit<br />

En fin de compte on a :<br />

g(hj, hk) ≤ min(hj, hk)sup(K(w)),<br />

ce qui veut dire que la Variance Intégrée est d’ordre (n min(hk) −1 ). Par conséquent, la complexité<br />

au pire est de l’ordre de O(n −1/2 ).<br />

Le Risque (MISE) s’écrit alors :<br />

MISE(h) ≈ σ2 K<br />

4<br />

m<br />

j=1 k=1<br />

m<br />

h 2 jh 2 <br />

d2 k<br />

1<br />

n<br />

d2<br />

(f(x)Wj(x))<br />

dx2 dx2 (f(x)Wk(x)) dx + (A.3)<br />

m<br />

j=1 k=1<br />

m<br />

<br />

g(hj, hk)<br />

hjhk<br />

Wj(y)Wk(y)f(y)dy. (A.4)<br />

En conclusion Le risque MISE tend vers 0 avec une complexité au pire de l’ordre de O(n −1/2 ),<br />

comme c’est le cas pour les estimateurs à noyau fixe.


Bibliographie<br />

[Aczél and Daróczy, 1975] J. Aczél and Z. Daróczy. On Measures of Information and Their<br />

Characteristics. Academic Press, 1975.<br />

[Akaike, 1954] H. Akaike. An approximation to the density function. Annals of the Institute of<br />

Statistical Mathematics, 6 :127–132, 1954.<br />

[Alpert et al., 1996] N. M. Alpert, D. Berdichevsky, Z. Levin, E. D. Morris, and A. J. Fischman.<br />

Improved methods for image registration. NeuroImage, 3(1) :10–18, February 1996.<br />

[Arad et al., 1994] N. Arad, N. Dyn, Daniel Reisfeld, and Yehezkel Yeshurun. Image warping<br />

by radial basis functions : Application to facial expressions. Computer Vision, Graphics, and<br />

Image Processing. Graphical Models and Image Processing, 56(2) :161–172, 1994.<br />

[Ardekani et al., 1995] B. Ardekani, M. Braun, B. F. Hutton, I. Kanno, and H. Iida. A fully automatic<br />

<strong>multimodal</strong>ity image registration algorithm. Journal of Computer Assisted Tomography,<br />

19(4) :615–623, July-August 1995.<br />

[Atif et al., 2004] J. Atif, X. Ripoche A. Osorio, B. Devaux, and F. Roux. Integration of short distance<br />

radiological <strong>images</strong>, angiography and <strong>multimodal</strong> image fusion in a stereotaxic software<br />

environment for biopsy interventions. In CARS, Computer Assisted Radiology and Surgery,<br />

2004.<br />

[Bajcsy et al., 1983] R. Bajcsy, R. Lieberson, and M. Reivich. A computerized system for the<br />

elastic matching of deformed radiographic <strong>images</strong> to idealized atlas <strong>images</strong>. J. Comput. Assisted<br />

Tomogr., 7 :618–625, August 1983.<br />

[Barr, 1984] A. H. Barr. Global and local deformations of solid primitives. In H. Christiansen,<br />

editor, SIGGRAPH ’84 Conference Proceedings (Minneapolis, MN, July 23-27, 1984), pages<br />

21–31. ACM, July 1984.<br />

[Besl and McKay, 1992] P. J. Besl and N. D. McKay. A method for registration of 3-D shapes.<br />

IEEE Transactions on Pattern Analysis and machine Intelligence, 14(2) :239–258, February<br />

1992.<br />

[Betting et al., 1995] F. Betting, J. Feldmar, N. Ayache, and F. Devernay. A new framework for<br />

fusing stereo <strong>images</strong> with volumetric medical <strong>images</strong>. In Nicholas Ayache, editor, Computer<br />

Vision, Virtual Reality and Robotics in Medicine, Lecture Notes in Computer Science. Springer-<br />

Verlag, April 1995. ISBN 3-540-59120-6.<br />

[Bishop, 1995] Ch. M. Bishop. Neural Networks for Pattern Recognition. Oxford University<br />

Press, Oxford, UK, 1995.<br />

179


180 Bibliographie<br />

[Bookstein and Green, 1993] F. L. Bookstein and W. D. K. Green. A feature space for edges in<br />

<strong>images</strong> with landmarks. J. Math. Imaging and Vision, 3 :231–261, 1993.<br />

[Bowman, 1984] A. W. Bowman. An alternative method of cross-validation for the smoothing<br />

of density estimates. Biometrika, 71(2) :353–360, 1984.<br />

[Bro-Nielsen and Gramkow, 1996] M. Bro-Nielsen and C. Gramkow. Fast fluid registration of<br />

medical <strong>images</strong>. In Proceedings of the 4th International Conference on Visualization in Biomedical<br />

Computing, pages 267–276. Springer-Verlag, 1996.<br />

[Brown and Boult, 2002] L. M. G. Brown and T. E. Boult. Registration of planar film radiographs<br />

with computed tomography. IEEE Workshop on Mathematical Methods Biomedical<br />

Imaging, January 07 2002.<br />

[Brown, 1992] L. G. Brown. A survey of image registration techniques. ACM Comput. Surv.,<br />

24(4) :325–376, 1992.<br />

[Cachier, 2002] P. Cachier. <strong>Recalage</strong> <strong>non</strong> <strong>rigide</strong> d’<strong>images</strong> médicales volumiques - contribution<br />

aux approches iconiques et géométriques. Thèse de sciences, École Centrale <strong>des</strong> Arts et Manufactures,<br />

January 2002.<br />

[Cacoullos, 1966] T. Cacoullos. Estimation of a multivariate density. Annals of the Institute of<br />

Statistical Mathematics, 18 :179–189, 1966.<br />

[Cao and Devroye, 1996] R. Cao and L. Devroye. The consistency of a smoothed minimum<br />

distance estimate. Scandinavian Journal of Statistics, 23 :405–418, 1996.<br />

[Cao et al., 1995] R. Cao, A. Cuevas, and R. Fraiman. Minimum distance density-based estimation.<br />

Computational Statistics and Data Analysis, 20 :611–631, 1995.<br />

[Christensen et al., 1996] G. E. Christensen, R. D. Rabbitt, and M. I. Miller. Deformable<br />

templates using large deformation kinematics. IEEE Transactions On Image Processing,<br />

5(10) :1435–1447, October 1996.<br />

[Collig<strong>non</strong> et al., 1995] A. Collig<strong>non</strong>, F. Maes, D. Delaere, D. Vandermeulen, P. Suethens, and<br />

G. Marchal. Automated multi-modality image registraction based on information theory. In<br />

Y. Bizais and R. Di Paola, editors, Information Processing in Medical Imaging, pages 263–274,<br />

Amsterdam, June 1995. Kluwer Academic.<br />

[Costa et al., 1993] W.L.S. Costa, D.R. Haynor, T.K. Lewellen, and M.M. Graham. A Maximum-<br />

Likelihood Approach to Pet Emission/Attenuation Image Registration. IEEE Nuclear Science<br />

Symposium and Medical Imaging Conference, 1993.<br />

[Cover and Thomas, 1991] T. M. Cover and J. A. Thomas. Elements of Information Theory.<br />

Wiley Series in Telecommunications. John Wiley & Sons, New York, NY, USA, 1991.<br />

[Davatzikos, 1997] C. Davatzikos. Spatial transformation and registration of brain <strong>images</strong> using<br />

elastically deformable models. Computer Vision and Image Understanding, 66(2) :207–222,<br />

May 1997. Special issue on Medical Imaging.<br />

[Davis et al., 1997] M.H. Davis, A. Khotanzad, D.P. Flamig, and S.E. Harms. A physics-based<br />

coordinate transformation for 3-d image matching. IEEE Trans. Med. imaging, 16 (3) :317–<br />

328, 1997.<br />

[Dempster et al., 1977] A.P. Dempster, N.M.Laird, and D.B.Rubin. Maximum likelihood from<br />

incomplete data via the EM algorithm. Journal Royal Stat. Soc., Series B, 39(1) :1–38, 1977.


Bibliographie 181<br />

[Devroye and Györfi, 1985] L. Devroye and L. Györfi. Nonparametric Density Estimation : The<br />

L1 View. John Wiley, New York, 1985.<br />

[Devroye, 1987] L. Devroye. A Course in Density Estimation. Birkhauser, Boston, 1987.<br />

[Duchon, 1976] J. Duchon. Interpolation de functiom de deux variables suivant le principe de<br />

la flexion <strong>des</strong> plaques mince. Rev. Française d’Automatique, d’Informatique et de Recherche<br />

Opérationelle, pages 5–12, December 1976.<br />

[Edwards et al., 1998] P. J. Edwards, D. L. G. Hill, J. A. Little, and D. J. Hawkes. A threecomponent<br />

deformation model for image-guided surgery. Medical Image Analysis, 2(3) :355–<br />

367, 1998.<br />

[Faugeras, 1993] O. Faugeras. Three-Dimensional Computer Vision : A Geometric Viewpoint.<br />

MIT Press, Cambridge, Massachusetts, 1993.<br />

[Fitzpatrick and West, Feb. 2000] J. Michael Fitzpatrick and J. B. West. Point-based rigid registration<br />

: Clinical validation of theory. Medical Imaging, 3979 :353–359, Feb. 2000.<br />

[Fix and Hodges, 1951] E. Fix and J.L Hodges. Discriminatory analysis, <strong>non</strong>-parametric discrimination<br />

: consistency properties. Technical report, USAF Scholl of aviation and medicine,<br />

Randolph Field, 1951. 4.<br />

[Fleute et al., 2002] M. Fleute, S. Lavallée, and L. Desbat. Integrated approach for matching<br />

statistical shape models with intra-operative 2D and 3D data. Lecture Notes in Computer<br />

Science, 2489 :364–380, 2002.<br />

[Gee et al., 1997] J. C. Gee, D. R. Haynor, L. Le Briquer, and R. K. Bajcsy. Advances in elastic<br />

matching theory and its implementation. Lecture Notes in Computer Science, 1205 :63– ? ?,<br />

1997.<br />

[Grimson et al., 1997] L. Grimson, R. Kikinis, T. Kapur, W. Eric, and W. M. Wells III. Segmentation<br />

of brain tissue from magnetic resonance <strong>images</strong>. Medical Image Analysis, 1 :109–127,<br />

1997.<br />

[Hartley, 1928] R.V.L. Hartley. Transmission of information. Bell System Technical Journal,<br />

7(4) :535–563, 1928.<br />

[Havrda and Charvát, 1967] J. Havrda and F. Charvát. Quantification method of classification<br />

processes. Concept of structural a-entropy. Kybernetika, 3 :30–35, 1967. Review by I. Csiszár<br />

in MR, vol. 34, no.8875.<br />

[Haynor et al., 1998] D. R. Haynor, J. C. Gee, M. Reivich, and R. Bajcsy. Finite element approach<br />

to warping of brain <strong>images</strong>. In M.H. Loew, editor, Proc. SPIE Image Processing, volume<br />

2167, pages 327–337. SPIE, february 1998.<br />

[He et al., 2001] Y. He, A. Ben Hamza, and A. Hamid Krim. Information divergence measure<br />

for ISAR image registration. In Firooz A. Sadjadi, editor, Proc. SPIE, volume 4379, pages<br />

199–208. SPIE, 2001.<br />

[Hill et al., 1994] D. L. G. Hill, C. Studholme, and D. J. Hawkes. Voxel similarity measures for<br />

automated image registration. In Proc. SPIE, pages 205–216, Rochester Mn., U.S.A, 1994.<br />

SPIE Press.<br />

[Hjort and Glad, 1995] N. L. Hjort and I. K. Glad. Nonparametric density estimation with a<br />

parametric start. Annals of Statistics, 23 :882–904, 1995.


182 Bibliographie<br />

[Höhne and Hanson, 1992] K. Höhne and W. Hanson. Interactive 3-D segmentation of MRI<br />

and CT volumes using morphological operations. Journal of Computer Assisted Tomography,<br />

16(2) :285–294, 1992.<br />

[Horn and Schunck, 1980] B. K. P. Horn and B. G. Schunck. Determining optical flow. Technical<br />

Report AIM-572, MIT Artificial Intelligence Laboratory, April 6 1980.<br />

[Kerridge, 1961] D. F. Kerridge. Inaccuracy and inference. Journal of the Royal Statistical<br />

Society, B 23 :184–194, 1961.<br />

[Kullback and Leibler, 1951] S. Kullback and R. A. Leibler. On information and sufficiency.<br />

Annals of Math. Stats., 22 :79–86, 1951.<br />

[Kunt et al., 1993] M. Kunt, G. Granlund, and M. Kocher. Traitement numérique <strong>des</strong> <strong>images</strong>.<br />

Traitement de l’information : volume n˚2, 1993.<br />

[Lester et al., 1999] H. Lester, S. R. Arridge, K. M. Jansons, L. Lemieux, J. V. Hajnal, and<br />

A. Oatridge. Non-linear registration with the variable viscosity fluid algorithm. In Proceedings<br />

of the 16th International Conference on Information Processing in Medical Imaging, pages<br />

238–251. Springer-Verlag, 1999.<br />

[Leventon and Grimson, 1998] M. E. Leventon and W. E. L. Grimson. Multi-modal volume<br />

registration using joint intensity distributions. Lecture Notes in Computer Science, 1496 :1057–<br />

1078, 1998.<br />

[Little et al., 1997] J. A. Little, D. L. G. Hill, and D. J. Hawkes. Deformations incorporating<br />

rigid structures. Computer Vision and Image Understanding : CVIU, 66(2) :223–232, May<br />

1997.<br />

[Maes et al., 1997] F. Maes, A. Collig<strong>non</strong>, D. Vandermeulen, G. Marchal, and P. Suetens. Multimodality<br />

image registration by maximization of mutual information. IEEE Transactions of<br />

Medical Imaging, 16(2) :187–198, apr 1997.<br />

[Maintz and Viergever, 1996] J. Maintz and M. Viergever. An overview of medical image registration<br />

methods, 1996.<br />

[Maintz and Viergever, 1997] J. B. Antoine Maintz and M. A. Viergever. An overview of medical<br />

image registration methods. Symposium of the Belgian hospital physicists association<br />

(SBPH/BVZF), 12 :1–22, July 1997.<br />

[Marchette et al., 1995] D. Marchette, C. Priebe, G. Rogers, and J. Solka. Filtered kernel density<br />

estimation. Computational Statistics, 11 :95–112, 1995.<br />

[Marquardt, 1963] D. W. Marquardt. An algorithm for least-squares estimation of <strong>non</strong>-linear<br />

parameters. Journal of the Society of Industrial and Applied Mathematics, 11(2) :431–441,<br />

1963.<br />

[Meinguet, 1979] J. Meinguet. Multivariate interpolation at arbitrary points made simple. Journal<br />

of Applied Mathematics and Physics (ZAMP), 30 :292–304, 1979.<br />

[Minnotte and Scott, 1993] M. C. Minnotte and D. W. Scott. The mode tree : a tool for visualization<br />

of <strong>non</strong>parametric density features. Journal of Computational and Graphical Statistics,<br />

2 :51–68, 1993.<br />

[Mittal, 1975] D. P. Mittal. On some functional equations concerning entropy, directed divergence<br />

and inaccuracy. Metrika, 22 :35–45, 1975.


Bibliographie 183<br />

[Nath, 1975] P. Nath. On a coding theorem connected with Rényi’s entropy. Information and<br />

Control, 29(3) :234–242, November 1975.<br />

[Neumaier, 1998] A. Neumaier. Solving ill-conditioned and singular linear systems : A tutorial on<br />

regularization. Society for Industrial and Applied Mathematics, SIAM Review, 40(3) :636–666,<br />

december 1998.<br />

[Newman and Sproull, 1979] W. M. Newman and R. F. Sproull. Principles of interactive computer<br />

graphics (2nd ed.). McGraw-Hill, Inc., 1979.<br />

[Nikou et al., 1998] C. Nikou, F. Heitz, J-P. Armspach, I. J. Namer, and D. Grucker. Registration<br />

of MR/MR and MR/SPECT brain <strong>images</strong> by fast stochastic optimization of robust voxel<br />

similarity measures. NeuroImage, 8(1) :30–43, July 1998.<br />

[Osorio et al., 2001] A. Osorio, V. Servois, S. Merran, L. Ollivier, J. Atif, C. Boursier, and<br />

S. Neuenschwander. Follow up of 15 patients under chemotherapy for liver metastasis using<br />

a new pc based 3d reconstruction algorithm. In InfoRAD-RSNA’01, Radiological Society of<br />

North America. Radiology, November 2001.<br />

[Parzen, 1962] E. Parzen. On the estimation of a probability density function and mode. Annals<br />

of Mathematical Statistics, 33 :1065–1076, 1962.<br />

[Peebles, 1980] P. Z. Peebles. Probability, Random Variables, and Random Signal Prinziples.<br />

McGraw-Hill Book Company, 1980.<br />

[Pluim et al., 2003] J.P.W. Pluim, J.B.A. Maintz, and M.A. Viergever. Mutual-informationbased<br />

registration of medical <strong>images</strong> : a survey. IEEE Transactions on Medical Imaging,<br />

22(8) :986–1004, 2003.<br />

[Press et al., 1988] W. H. Press, B. P. Flannery, S. A. Teukolsky, and W. T. Vetterling. Numerical<br />

Recipes in C. Cambridge University Press, Cambridge, England, first edition, 1988.<br />

[Priebe and Marchette, 2000] C.E. Priebe and D.J. Marchette. Alternating kernel and mixture<br />

density estimates. Computational Statistics and Data Analysis, 2000.<br />

[Principe and Xu, 1999] J. Principe and D. Xu. Information-theoretic learning using renyi’s<br />

quadratic entropy, 1999.<br />

[Rabiner, 1990] L. R. Rabiner. A tutorial on hidden Markov models and selected applications<br />

in speech recognition. Proceedings of the IEEE, 1990.<br />

[Rényi, 1961] A. Rényi. On measures of entropy and information. In Proc. 4th Berkeley Symp.<br />

Math. Statist. and Prob., volume 1, pages 547–561, Berkely, 1961. Univ. Calif. Press.<br />

[Ripoche et al., 2004] X. Ripoche, J. Atif, and A. Osorio. Three dimensional discrete deformable<br />

model guided by mutual information for medical image segmentation. In Proc. SPIE, volume<br />

5370, pages 362–372, Rochester Mn., U.S.A, 2004. SPIE Press.<br />

[Rényi, 1959] A. Rényi. On the dimension and enropy of probability distributions. Acta Math.<br />

Acad. Sci. Hung., 10 :193–215, 1959.<br />

[Rényi, 1971] A. Rényi. Probability theory. North-Holland, Amsterdam, 1971.<br />

[Roche et al., 1998] A. Roche, G. Malandain, X. Pennec, and N. Ayache. The correlation ratio<br />

as a new similarity measure for <strong>multimodal</strong> image registration. In Proc. of First Int. Conf. on<br />

Medical Image Computing and Computer-Assisted Intervention (MICCAI’98), volume 1496 of<br />

LNCS, pages 1115–1124, Cambridge, USA, October 1998. Springer Verlag.


184 Bibliographie<br />

[Roche et al., 2000] A. Roche, G. Malandain, and N. Ayache. Unifying maximum likelihood approaches<br />

in medical image registration. International Journal of Imaging Systems and Technology<br />

: Special Issue on 3D Imaging, 11(1) :71–80, 2000.<br />

[Roche, 2001] A. Roche. <strong>Recalage</strong> d’<strong>images</strong> médicales par inférence statistique. Thèse de sciences,<br />

Université de Nice Sophia-Antipolis, February 2001.<br />

[Rosenblatt, 1956] M. Rosenblatt. Remarks on some <strong>non</strong>parametric estimates of a density function.<br />

The Annals of Mathematical Statistics, 1956 :832–837, 1956.<br />

[Rudemo, 1982] M. Rudemo. Empirical choice of histograms and kernel density estimatiors.<br />

Scandinavian Journal of Statistics, 9 :65–78, 1982.<br />

[Rudzkis, 1992] R. Rudzkis. On the distribution of supremum-type functionals of <strong>non</strong>parametric<br />

estimates of probability and spectral densities. Theory of Probability and its Applications,<br />

37(2) :236–249, June 1992. Original Russian article in Teor. Veroyatnost. i Primenen., 37(2),<br />

(1992), pp. 254–267.<br />

[Sahoo et al., 1988] P. K. Sahoo, S. Soltani, and A. K. C. Wong. A survey of thresholding<br />

techniques. Computer Vision, Graphics and Image Processing, page 233 260, 1988.<br />

[Schnabel et al., 2001] J. A. Schnabel, Ch. Tanner, A. D. Castellano-Smith, M. O. Leach,<br />

C. Hayes, A. Degenhard, R. Hose, D. L. G. Hill, and D. J. Hawkes. Validation of <strong>non</strong>-rigid<br />

registration using finite element methods. In Proceedings of the 17th International Conference<br />

on Information Processing in Medical Imaging, pages 344–357. Springer-Verlag, 2001.<br />

[Scott, 1985] D. Scott. Averaged shifted histograms : Effective <strong>non</strong>parametric density estimation<br />

in several dimensions. Annals of Statistics, 13 :1024–1040, 1985.<br />

[Scott, 1992] D. Scott. Multivariate density estimation : Theory, practice and visualisation. John<br />

Wiley, 1992.<br />

[Sederberg and Parry, 1986] T. W. Sederberg and S. R. Parry. Free-form deformation of solid<br />

geometric models. Computer Graphics (SIGGRAPH ’86 Proceedings), 20(4) :151–160, aug<br />

1986.<br />

[Servois et al., 2002] V. Servois, A. Osorio, J. Atif, S. Merran, L. Ollivier, C. El Khoury, L. Chauveinc,<br />

J.C. Rosenwald, Ph. Giraud, and S. Neuenschwander. A new pc based software for<br />

prostatic 3d segmentation and volume measurement. application to permanent prostate brachytherapy<br />

(ppb) evaluation using ct and mr image fusion. In InfoRAD-RSNA’02, Radiological<br />

Society of North America. Radiology, December 2002.<br />

[Shan<strong>non</strong>, 1948] C. E. Shan<strong>non</strong>. A mathematical theory of communication. Bell System Technical<br />

Journal, 27 :379–423 and 623–656, Jul and Oct 1948.<br />

[Silverman, 1986] B. W. Silverman. Kernel density estimation technique for statistics and data<br />

analysis. In Monographs on statistics and applied probability, volume 26. Chapman and Hall,<br />

London, 1986.<br />

[Studholme et al., 1995] C. Studholme, D. L. G. Hill, and D. J. Hawkes. Multiresolution voxel<br />

similarity measures for mr-pet registration. In Y. BIZAIS and C. Barillot, editors, Proc. of<br />

the XIVth International Conference on Information Processing in Medical Imaging (IPMI’95),<br />

pages 287–298. Kluewer Academic Publishers, 1995.


Bibliographie 185<br />

[Studholme et al., 1997] C. Studholme, D. L. G. Hill, and D. J. Hawkes. Automated 3D registration<br />

of magnetic resonance and positron emission tomography brain <strong>images</strong> by multiresolution<br />

optimization of voxel similarity measures. Medical Physics, 24 :25–35, 1997.<br />

[Studholme, 1997] C. Studholme. Measures of 3D Medical Image Alignment. Phd, University of<br />

London, August 1997.<br />

[Susko et al., 1998] E. Susko, J. Chen, and J. D. Kalbfleisch. Constrained <strong>non</strong>parametric maximum<br />

likelihood estimation for mixture models. Canadian Journal of Statistics, 28 :601–617,<br />

1998.<br />

[Szeliski, 1989] R. Szeliski. Bayesian Modeling of Uncertainty in Low-Level Vision. Kluwer<br />

Academic Publishers, 1989.<br />

[Talairach and Tournoux, 1988] J. Talairach and P. Tournoux. Co-planar Stereotaxic Atlas of<br />

the Human Brain. Thieme Medical Publisher Inc, New York, January 1988.<br />

[Taneja, 1990] Taneja. On generalized entropies with applications. In Lectures in Applied Mathematics<br />

and Informatics. Luigi M. Ricciardi (Ed.), Manchester, 1990.<br />

[Tarault et al., 2004] A. Tarault, J. Atif, X. Ripoche, and A. Osorio. Classification of radiological<br />

exams and organs by belief theory. In Proc. SPIE, volume 5370, pages 305–315, Rochester<br />

Mn., U.S.A, 2004. SPIE Press.<br />

[Terrell and Scott, 1992] G.R. Terrell and D.W. Scott. Variable kernel density estimation. Annals<br />

of Statistics, 20 :1236–1265, 1992.<br />

[Thirion, 1991] J-Ph. Thirion. A geometric alternative to computed tomography. Technical<br />

Report RR-1463, Inria, Institut National de Recherche en Informatique et en Automatique,<br />

1991.<br />

[Thirion, 1998] J.-P. Thirion. Image matching as a diffusion process : an analogy with maxwell’s<br />

demons. Medical Image Analysis, 2(3) :243–260, 1998.<br />

[Unser et al., 1993a] M. Unser, A. Aldroubi, and M. Eden. B-Spline signal processing : Part I -<br />

Theory. IEEE Trans. Signal Process., 41(2) :821–833, Feb. 1993.<br />

[Unser et al., 1993b] M. Unser, A. Aldroubi, and M. Eden. B-Spline signal processing : Part II—<br />

Efficient <strong>des</strong>ign and applications. IEEE Transactions on Signal Processing, 41(2) :834–848,<br />

February 1993.<br />

[Unser et al., 1993c] M. Unser, A. Aldroubi, and M. Eden. The l/sub 2/-polynomial spline<br />

pyramid. IEEE Trans. Pattern Anal. Mach. Intell., 15(4) :364–379, 1993.<br />

[Van den Elsen et al., 1994] P. A. Van den Elsen, E. J. D. Pol, T. S. Sumanawaeera, P. F. Hemler,<br />

S. Napel, and J. R. Adler. Grey value correlation techniques used for automatic matching of<br />

ct and mr brain and spine <strong>images</strong>. In Proc. SPIE, pages 227–237, Rochester Mn., U.S.A, 1994.<br />

SPIE Press.<br />

[Van der Lubbe et al., 1987] J.C.A. Van der Lubbe, D.E. Boekee, and Y. Boxma. Bivariate<br />

certainty and information measures. Information Sciences, 41 :139–169, 1987.<br />

[Van der Lubbe, 1978] J. C. A. Van der Lubbe. On certain coding theorems for the information<br />

of order α and of type β. In Trans. Eighth Prague Conf. on Inform. Theory, Statist. Decision<br />

Functions, Random Processes, Prague, 1978. Czech. Acad. Science, Academia Publ. Prague,<br />

1979.


186 Bibliographie<br />

[Viola and Wells III, 1995] P. Viola and W. M. Wells III. Alignment by maximization of mutual<br />

information. In Proceedings of the Fifth International Conference on Computer Vision, pages<br />

16–23, 1995.<br />

[Viola, 1995] P. A. Viola. Alignment by maximization of mutual information. IEEE Fifth International<br />

Conference on Computer Vision, pages 16–23, 1995.<br />

[Wand et al., 1991] M. P. Wand, J. S. Marron, and D. Ruppert. Transformations in density<br />

estimation. with discussion and a rejoinder by the authors. Journal of the American Statistical<br />

Association, 86(414) :343–361, June 1991.<br />

[West et al., 1996] J. West, J. Fitzpatrick, M. Wang, B. Dawant, C. Maurer, R. Kessler, and<br />

R. Maciunas. Comparison and evaluation of retrospective intermodality image registration<br />

techniques, 1996.<br />

[West et al., 1997a] J. West, J. M. Fitzpatrick, M. Y. Wang, B. M. Dawant, C. R. Maurer Jr,<br />

R. M. Kessler, R. J. Maciunas, C. Barillot, D. Lemoine, A. Collig<strong>non</strong>, F. Maes, P. Suetens,<br />

Vandermeulen Vandermeulen, P. A. van den Elsen, S. Napel, T. S. Sumanaweera, B. Harkness,<br />

P. F. Hemler, D. L. Hill, D. J. Hawkes, C. Studholme, Maintz Maintz, M. A. Viergever,<br />

G. Malandain, and Woods Woods. Comparison and evaluation of retrospective intermodality<br />

brain image registration techniques. Journal of Computer Assisted Tomography, 21(4) :554–<br />

566, July-August 1997.<br />

[West et al., 1997b] J. West, J. M. Fitzpatrick, M. Y. Wang, and D. Dawant. Retrospective<br />

intermodality registration techniques : surface-based versus volume-based. Lecture Notes in<br />

Computer Science, 1205 :151–162, 1997.<br />

[Woods et al., 1991] R. P. Woods, S. R. Cherry, and J. C. Mazziotta. Rapid automated algoritm<br />

for aligment and reslicing PET <strong>images</strong>. Journal of Computer Assisted Tomography, 15 :634–<br />

639, 1991.<br />

[Woods et al., 1993] R. P. Woods, J. C. Mazziotta, and S. R. Cherry. MRI-PET registration<br />

with automated algorithm. Journal of Computer Assisted Tomography, 17(4) :536–546, 1993.<br />

[Zollei et al., 2001] L Zollei, A. Norbash, W. Grimson, and W. Wells. 2d-3d rigid registration<br />

of fluoroscopy and ct <strong>images</strong> using mutual information and sparsely sampled histograms as<br />

density estimators. IEEE conference on Computer Vision and Pattern Recogntion, 2001.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!