Recalage non-rigide multimodal des images radiologiques ... - Limsi

Recalage non-rigide multimodal des images 

radiologiques 

par information mutuelle quadratique normalisée 

Jamaleddine Atif 

LIMSI-CNRS 

Université de Paris XI - Orsay 

Soutenue le 29 Octobre 2004 devant le jury composé de 1 : 

Alain MERIGOT Professeur Paris-XI Président 

Angel OSORIO DR-CNRS Directeur 

Habib ZAIDI Professeur UniGe Rapporteurs 

Christian RONSE Professeur ULP-Starsbourg 

Olivier HELENON PUPH Paris-V Examinateur 

1 Mention : Très honorable 

2004/11/08

Table des matières 

1 Introduction 1 

1.1 Analyse des images médicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.1.1 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.1.2 Recalage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

1.2 Sur les applications cliniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

1.2.1 Diagnostic et décision thérapeutique . . . . . . . . . . . . . . . . . . . . . 12 

1.2.2 Planification et simulation des interventions chirurgicales . . . . . . . . . . 13 

1.2.3 De la navigation chirurgicale per-opératoire . . . . . . . . . . . . . . . . . 15 

1.3 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

1.3.1 Organisation du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2 Recalage des images : fondements théoriques 21 

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.2 Approche géométrique du recalage . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

2.2.1 Mise en correspondance des points . . . . . . . . . . . . . . . . . . . . . . 22 

2.2.2 Mise en correspondance de surfaces . . . . . . . . . . . . . . . . . . . . . . 25 

2.3 Approche iconique du recalage- modélisation par inférence statistique . . . . . . . 31 

2.3.1 Conservation d’intensité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

2.3.2 Dépendance affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

2.3.3 Dépendance fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

2.3.4 Dépendance statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

2.4 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

i

ii Table des matières 

3 Recalage non-rigide des images 59 

3.1 Recalage des images : approche linéaire . . . . . . . . . . . . . . . . . . . . . . . . 59 

3.1.1 Transformation 3D globale rigide . . . . . . . . . . . . . . . . . . . . . . . 59 

3.1.2 Transformation affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

3.1.3 Transformation projective . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

3.2 Recalage des images : approche non-linéaire . . . . . . . . . . . . . . . . . . . . . 63 

3.2.1 Transformation élastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

3.2.2 Transformation fluide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

3.2.3 Méthodes d’éléments finis et modèles mécaniques . . . . . . . . . . . . . . 65 

3.2.4 Flot optique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 

3.2.5 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

3.2.6 Déformations de formes libres . . . . . . . . . . . . . . . . . . . . . . . . 69 

3.3 Recalage des images : approche hybride . . . . . . . . . . . . . . . . . . . . . . . 71 


4 De la théorie de l’information et des mesures de similarités 73 

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

4.2 Image, Incertain, Information... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 

4.2.1 Entropie généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

4.2.2 Divergence Généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 

4.2.3 Information mutuelle généralisée . . . . . . . . . . . . . . . . . . . . . . . 84 

4.2.4 Information mutuelle généralisée : normalisation . . . . . . . . . . . . . . 88 

4.2.5 Choix du degré r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

4.2.6 Choix de α . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

4.3 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

Table des matières iii 

5 De l’estimation non-paramétrique des densités de probabilité 95 

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 

5.2 Estimateurs non-paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 

5.2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 

5.2.2 Modèle de Parzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 

5.3 Pourquoi des noyaux adaptatifs ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

5.3.1 Sélection automatique des fenêtres . . . . . . . . . . . . . . . . . . . . . . 105 

5.3.2 Noyaux adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

5.4 Un estimateur réduit des densités de probabilités à noyau adaptatif . . . . . . . . 107 

5.4.1 Hypothèses fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 

5.4.2 Choix du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 

5.4.3 Calcul des fonctions de filtrage . . . . . . . . . . . . . . . . . . . . . . . . 111 

5.4.4 Simulations et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 


6 L’algorithme MIAMI 119 

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 

6.2 Formulation hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 

6.3 Modèle d’image . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 

6.3.1 Schéma multi-résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 

6.3.2 Degré du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 

6.4 Recalage affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

6.4.1 Modèle de déformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

6.4.2 Critère de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

6.4.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 

6.5 Recalage non-rigide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 

6.5.1 Modèle de déformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 

6.5.2 Critère de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 

6.5.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 

6.6 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

iv Table des matières 

7 Simulations et validations 131 

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 

7.2 Validation visuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 

7.2.1 Mélange des images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 

7.3 Validation à l’aide marqueurs : le projet RIRE . . . . . . . . . . . . . . . . . . . 136 

7.3.1 Principe d’évaluation et de comparaison . . . . . . . . . . . . . . . . . . . 136 

7.3.2 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 

7.3.3 Protocole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 

7.3.4 Présentation des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 

7.3.5 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 

7.4 Evaluation du recalage non-rigide . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 

7.4.1 Expérience 1 : précision et temps de calcul . . . . . . . . . . . . . . . . . . 147 

7.4.2 Expérience 2 : utilité des noyaux adaptatifs, impact sur la précision . . . . 148 


8 Applications Cliniques 151 

8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM . . . . . . . . . 151 

8.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 

8.1.2 Evolution du cancer de la prostate . . . . . . . . . . . . . . . . . . . . . . 152 

8.1.3 Détection Précoce et diagnostic du cancer de la prostate . . . . . . . . . . 153 

8.1.4 Traitement par radiothérapie . . . . . . . . . . . . . . . . . . . . . . . . . 153 

8.1.5 Le projet PTM3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 

8.2 Planification de biopsies et fusion multimodale . . . . . . . . . . . . . . . . . . . 161 

8.2.1 Description du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 

8.2.2 Validation sur des données Synthétiques . . . . . . . . . . . . . . . . . . . 162 

8.2.3 Utilisation en routine clinique . . . . . . . . . . . . . . . . . . . . . . . . . 165

Table des matières v 

9 Conclusion 169 

9.1 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 

9.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 

9.2.1 Information Mutuelle Généralisée . . . . . . . . . . . . . . . . . . . . . . . 172 

9.2.2 Recalage inter-patients et morphométrie . . . . . . . . . . . . . . . . . . . 172 

9.2.3 Imagerie fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 

A Caractéristique asymptotiques de l’estimateur réduit 175 

Bibliographie 179

Table des figures 

1.1 Evolution de la pratique chirurgicale : de la trépanation à la chirurgie microscopique. 1 

1.2 Illustration de la multimodalité fonctionnelle et structurelle pour la compréhension 

du cerveau humain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

1.3 Planche photographique de visualisation des données (négatoscope). . . . . . . . 3 

1.4 Estimation des seuils séparant deux distributions. . . . . . . . . . . . . . . . . . . 5 

1.5 Résultats d’un multiseuillage avec étiquetage des régions. . . . . . . . . . . . . . . 6 

1.6 Étapes de la segmentation par contours actifs. . . . . . . . . . . . . . . . . . . . . 7 

1.7 Segmentation par modèles déformables 3D. . . . . . . . . . . . . . . . . . . . . . 8 

1.8 Illustration du recalage Multimodal Structurel : alignement d’une image TDM sur 

une image IRM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

1.9 Illustration du recalage Multimodal Structurel-Fonctionnel : alignement d’une 

image TEP (fonctionnelle) sur une image IRM-T2(structurelle). . . . . . . . . . . 10 

1.10 Illustration du recalage multimodal données/atlas : alignement d’un volume TDM 

sur l’atlas anatomique de Talairach-Tournoux. . . . . . . . . . . . . . . . . . . . . 11 

1.11 Intérêt de l’imagerie et de l’analyse quantitative des données pour l’établissement 

du diagnostic : cas des nodules pulmonaires. . . . . . . . . . . . . . . . . . . . . . 12 

1.12 Collaboration segmentation-recalage pour la planification des interventions chi- 

rurgicales du poumon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

1.13 Segmentation hépatique pré-opératoire pour la planification des interventions sur 

le foie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

1.14 Utilisation de la Réalité Augmentée dans la planification chirurgicale de nephro- 

lithotomies percutanées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

vii

viii Table des figures 

1.15 Recalage dans un environnement stéréotaxique pour le contrôle de biopsies. . . . 17 

2.1 Illustration simplifiée du problème de recalage . . . . . . . . . . . . . . . . . . . . 21 

2.2 Suivi d’un patient traité par chimiothérapie. . . . . . . . . . . . . . . . . . . . . . 23 

2.3 Extraction de points homologues . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

2.4 Acquisition TDM avec cadre stéréotaxique . . . . . . . . . . . . . . . . . . . . . . 25 

2.5 Segmentation de surfaces homologues (contours du crâne) avant l’étape de mise 

en correspondance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

2.6 Contours représentant les objets homologues extraits à partir de deux modalités. 27 

2.7 Acquisition TDM du crâne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.8 Acquisition IRM du crâne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.9 Combinaison IRM/TDM recalée du crâne . . . . . . . . . . . . . . . . . . . . . . 29 

2.10 Acquisitions IRM et TEP du cerveau d’un même patient . . . . . . . . . . . . . . 30 

2.11 Illustration de la dépendance linéaire T=rotation de 45˚, F=I (identité) . . . . . 34 

2.12 Illustration de la dépendance linéaire T=rotation de 45˚, F(x)=0.5*x+20 . . . . 36 

(1−cos 2πn(T (x))) 

2 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

2.13 Illustration de la dépendance fonctionnelle T=rotation de 45˚, m(x) = 

2.14 Illustration de la dépendance statistique entre les intensités d’une image IRM et 

une image TDM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

2.15 Illustration des étapes de recalage par minimisation de l’entropie conjointe . . . . 44 

2.16 Illustration de la nécessité de normaliser l’entropie conjointe. Ici, du fait de la 

prédominance du niveau de gris du fond, la minimisation de l’entropie conjointe 

conduit à la déconnection des structures homologues dans les deux images. . . . . 45 

2.17 Diagramme de Venn représentant la relation entre les entropies marginales, les 

entropies conditionnelles et l’information mutuelle . . . . . . . . . . . . . . . . . . 47 

2.18 Dans ce diagramme I2 > I1, la solution du recalage est celle correspondant alors 

à T2, même si l’information partagée par les deux images est plus faible que celle 

donnée par T1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

3.1 Espace FFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Table des figures ix 

5.1 Coupe axiale IRM et son histogramme. Plusieurs modes sont présents dans cet 

histogramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

5.2 Estimation à noyau à fenêtre fixe . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 

5.3 Noyaux fixes d’estimation de tailles 0.2 (a) et 0.8 (b). . . . . . . . . . . . . . . . . 101 

5.4 Estimations de la densité d’étude sur le suicide (Silverman), à droite h= 60 et à 

gauche h=20. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 

5.5 Résultat de l’estimateur «sample point estimaor» de la densité d’étude sur le 

suicide (Silverman). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 

5.6 Le rendement (efficacité) en fonction de la variable pour l’expérience 1. À mesure 

que la variance s’éloigne de 1, l’estimateur à noyau fixe (KE) devient de plus en 

plus inadéquat pour l’estimation de la densité d’étude. L’estimateur réduit «FKE» 

permet, quant à lui, de prendre en compte les deux variances, ce qui améliore le 

résultat de l’estimation quant les variances des gaussiennes sont significativement 

éloignées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 

5.7 Les largeurs de fenêtres utilisées par l’estimateur réduit à noyau adaptatif «FKE». 

Le paramètre de lissage associé au deuxième terme du mélange de gaussiennes (la 

ligne continue), pour lequel la variance change, varie en fonction de σ, ce qui 

permet à l’estimateur de mieux représenter les variances locales de la densité réelle.113 

5.8 Illustration du résultat de l’estimation sur les données d’une IRM de l’abdomen. . 114 

5.9 Illustration du résultat de l’estimation sur les données d’une IRM du cerveau. . . 115 

5.10 Illustration du résultat de l’estimation sur les données TDM bruitées de l’abdomen.116 

5.11 Illustration du résultat de l’estimation sur les données TDM bruitées (cadre sté- 

réotaxique) du cerveau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

5.12 Illustration du résultat de l’estimation sur les données TDM du poumon. . . . . . 118 

6.1 Différentes étapes de l’approche hybride du recalage. . . . . . . . . . . . . . . . . 121 

6.2 Application d’une déformation libre à une image source . . . . . . . . . . . . . . 126 

7.1 Validation visuelle par affichage en damier. . . . . . . . . . . . . . . . . . . . . . . 133 

7.2 Validation visuelle par surimposition des images. . . . . . . . . . . . . . . . . . . 134 

7.3 Validation visuelle par différence centrée des intensités. . . . . . . . . . . . . . . . 135

x Table des figures 

7.4 Spécification des positions d’origine et transformées dans les volumes source et 

cible : huit coins des deux volumes . . . . . . . . . . . . . . . . . . . . . . . . . . 137 

7.5 Calcul de l’erreur de recalage pour un VOI donné . . . . . . . . . . . . . . . . . . 139 

7.6 Différentes expériences de recalage effectuées . . . . . . . . . . . . . . . . . . . . . 140 

7.7 Présentations sous formes de diagrammes des résultats des différents recalages 

TDM/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec). . . . . . . . . . . . . . . . . . 145 

7.8 Présentations sous formes de diagrammes des résultats des différents recalages 

TEP/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec). . . . . . . . . . . . . . . . . . 146 

8.1 Implantation des grains radioactifs dans la prostate . . . . . . . . . . . . . . . . . 155 

8.2 Données TDM de la prostate d’un patient implanté. . . . . . . . . . . . . . . . . 157 

8.3 Données IRM de la prostate d’un patient implanté. . . . . . . . . . . . . . . . . . 157 

8.4 Exemple de segmentation volumique de la prostate après fusion TDM-IRM. . . . 158 

8.5 Résultats des recalages pour les données TDM-IRM prostatiques. . . . . . . . . . 160 

8.6 Résultats dosimétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 

8.7 Validation expérimental : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 



8.10 Cas réel : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 

8.11 Cas réel : étape 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 

8.12 Cas réel : étape 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 

8.13 Contrôle global : point d’entrée, cible, chemin traversé, . . . . . . . . . . . . . . . . 168 

8.14 Cas réel : étape 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

Liste des tableaux 

7.1 Exemple de la spécification de la transformation rigide selon la norme «Vanderbilt»138 

7.2 Protocole expérimental du recalage rigide utilisé dans le cadre de l’évaluation RIRE.141 

7.3 Résultat de l’évaluation RIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 

7.4 Comparaison des résultats de recalage pour diverses méthodes. (Les méthodes 

marquées d’une étoile sont celles utilisant l’information mutuelle ou ses variantes) 143 

7.5 Protocole expérimental de l’expérience 1. . . . . . . . . . . . . . . . . . . . . . . . 147 

7.6 Résultat de l’expérience 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 

7.7 Protocole de l’expérience 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 

7.8 Résultats de l’expérience 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 

xi

xii

Chapitre 1 

Introduction 

(a) Une trépanation exercée au XVI ième. siècle (b) Un chirurgien opérant à l’aide d’un microscope. 

Fig. 1.1 Evolution de la pratique chirurgicale : de la trépanation à la chirurgie 

microscopique. 

De la trépanation à la robotique chirurgicale, la pratique médicale a connu une véritable 

révolution (Fig. 1.1). De nos jours, grâce aux nouvelles techniques d’imagerie, les procédés de 

traitement se sont modernisés, le diagnostic est devenu plus précis et la qualité des soins est 

désormais meilleure. Loin des pratiques traditionnelles, où «voir» passait par «ouvrir», aujour- 

d’hui, les radiologues, à l’aide des techniques tomographiques, peuvent diagnostiquer et traiter 

de façon quasiment non-invasive. Le recours à la chirurgie invasive est devenu la solution de 

dernier recours. De ces modalités d’acquisition, on distingue celles qui fournissent des propriétés 

structurelles (morphologiques) de la zone étudiée (IRM, TDM, X-Ray...), de celles qui restituent 

des aspects fonctionnels (TEP, TEMP, IRMf, MEG,...) (voir Fig. 1.2). 

1

2 Introduction 

TDM 

TEP 

IRM 

TEMP 

X-Ray 

IRMf 

Fig. 1.2 Illustration de la multimodalité fonctionnelle et structurelle pour la compréhension 

du cerveau humain.

Plusieurs modalités sont parfois utilisées pour effectuer un seul diagnostic. Pour certaines ano- 

malies, le radiologue doit, à la fois, étudier l’aspect structurel et fonctionnel d’une zone d’intérêt. 

Or, ces modalités sont, en général, utilisées avec un décalage dans le temps. Les informations 

recueillies doivent être alors fusionnées dans un même repère pour permettre d’effectuer les dif- 

férentes analyses et comparaisons, nécessaires à l’établissent d’un diagnostic précis et efficace. 

Bien que la nouvelle génération d’imageurs fournisse des informations tridimensionnelles du 

corps, présentant ainsi une avancée considérable, les techniques d’analyse dédiées au traitement 

de ces données souffrent d’un retard conséquent. Pour visualiser un examen, la plupart des ra- 

diologues se contentent, encore aujourd’hui, de l’utilisation du «négatoscope» (Fig 1.3) qui ne 

prend pas en compte toute l’information tridimensionnelle. De plus, l’analyse d’imagerie d’un 

Fig. 1.3 Planche photographique de visualisation des données (négatoscope). 

examen se fait de façon qualitative : seule l’expérience d’un radiologue est décisive pour la de- 

tection d’une anomalie. L’intérêt pour les techniques d’analyse de données, pourtant largement 

3


répandues dans d’autres domaines, n’est apparu, puis accru que lors des vingt dernières années. 

Au début, l’utilisation de ces techniques d’analyse n’a consisté qu’en une simple application des 

techniques existantes aux images médicales, aboutissant dans la plupart des cas à des résultats 

peu convaincants. Le besoin de concevoir des méthodes automatiques ou semi-automatiques pour 

traiter plus spécifiquement les images médicales s’est donc fait ressentir. Une nouvelle commu- 

nauté de recherche spécialisée en traitement des images médicales est née. Ces chercheurs issus 

principalement de la communauté «traitement d’images», tentent de répondre aux nombreuses 

questions des radiologues. Parmi ces questions nous citons les plus importantes : 

– Où se situe la lésion ? 

– Quel est son volume ? 

– Quelle est la variation du volume depuis les dernières mesures ? 

– Quel est le chemin le moins invasif pour y accéder ? 

L’ensemble des solutions apportées font appel à des paradigmes souvent présents dans d’autres 

domaines, où l’analyse des images constitue la condition sine qua non de prise de décision. Ces 

paradigmes sont la restauration d’images, la morphométrie, la segmentation, le recalage, la 

classification, la réalité augmentée, la simulation et la robotique. 

1.1 Analyse des images médicales 

Dans le cadre de nos travaux au LIMSI-CNRS, nous nous intéressons essentiellement à la 

segmentation, le recalage, la classification 1 et à leurs applications médicales. 

1.1.1 Segmentation 

Certainement la méthode d’analyse la plus utilisée en imagerie médicale. La segmentation est 

le processus qui consiste à répartir (partitionner) une image (en niveaux de gris ou en couleur) 

en un ensemble de régions compactes et homogènes. 

Dès la première numérisation d’un examen radiologique, on a été tenté d’effectuer des mesures 

sur les différents organes présents dans une image. Les premières méthodes utilisées, empruntées 

au domaine d’imagerie satellitaire, opéraient dans un espace bidimensionnel. Elles interviennent 

dans plusieurs étapes du processus de prise de décision pour calculer le volume d’une tumeur, 

localiser la position d’une lésion ou d’un organe dans le repère anatomique lié à un patient, 

planifier une intervention chirurgicale ou encore pour guider le chirurgien lors d’une intervention... 

1 La classification n’a pu être intégrée dans cette introduction faute de temps. Néanmoins le lecteur peut 

consulter l’article ([Tarault et al., 2004]).

1.1 Analyse des images médicales 5 

Une des classifications possibles des méthodes de segmentation consiste à les catégoriser 

fonctionnellement en méthodes déterministes et méthodes itératives. 

Les méthodes déterministes consistent à «convoluer» une image I avec un filtre pre-défini F 

(I ∗ F ). Le résultat d’une telle opération est une image binaire représentant généralement des 

contours plus ou moins fermés. La littérature nous offre un grand nombre de filtres présentant 

des propriétés intrinsèques différentes et une robustesse au bruit variable [Kunt et al., 1993]. 

Parmi les méthodes déterministes on peut citer une partie des méthodes fondées sur le 

seuillage et les méthodes fondées sur la morphologie mathématique. 

Le seuillage consiste à trouver les paramètres pour caractériser une région ([Sahoo et al., 

1988]). Ces valeurs qui correspondent à un niveau de gris serviront à partitionner une image en 

deux régions. Les méthodes déterministes utilisées pour calculer ce seuil font appel à l’analyse 

de l’histogramme des intensités de l’image à segmenter (Fig. 1.4). Si l’on veut traiter plus d’une 

région dans une image, plusieurs seuils peuvent être utilisés. On parle alors de multi-seuillage (Fig. 

1.5). Généralement, ces seuils sont choisis de façon interactive à l’aide d’une interface graphique 

Homme-Machine. Les Systèmes d’Aide au Diagnostic, dits en anglais CAR, CAD et CAS, pour 

Computed Aided Radiology, Decision, Surgery fournissent l’environnement logiciel adéquat. 

Fig. 1.4 Estimation des seuils séparant deux distributions. 

La morphologie mathématique propose une théorie et des opérateurs que l’on peut appliquer 

localement dans les images pour extraire et modifier des formes. Un exemple d’application à


des images médicales pour segmenter des structures anatomiques est présenté par [Höhne and 

Hanson, 1992]. Une illustration de techniques combinant la restauration d’images, la morphologie 

mathématique et les modèles déformables est présentée dans [Grimson et al., 1997]. 

: [-1500, +350] 

: [+350, +940] 

: [+940, +980] 

: [+980, +1100] 

: [+1100, +2200] 

Intervalles de seuillage 

: [-2500, -870] 

: [-870, -250] 

: [-250, -200] 

: [-200, +200] 

: [+200, +2200] 

Intervalles de seuillage 

Coupe Axiale 

Coupe Axiale 

Multiseuillage 

Multiseuillage 

Fig. 1.5 Résultats d’un multiseuillage avec étiquetage des régions. 

Les méthodes déterministes souffrent d’une faible robustesse en présence de bruit dans les 

images. De plus, la plupart des méthodes de filtrage traite la totalité d’une image, alors que le 

radiologue ne s’intéresse souvent qu’à une seule portion de celle-ci. 

Nombre de méthodes dites itératives ont été proposées pour résoudre le problème de la 

segmentation. Cette classe de méthodes respecte un schéma fixe : partir d’une solution initiale, 

puis à l’aide d’un critère précis faire évoluer l’algorithme jusqu’à ce qu’une condition prédéfinie 

soit satisfaite. Dans cette classe on peut intégrer la croissance de région, les modèles déformables 

2D (contours actifs) (Fig. 1.6) et 3D (Fig. 1.7). La particularité de ce type de méthodes se situe 

dans le critère d’évolution de l’algorithme. Ce critère, dit d’appartenance dans le cas de croissance 

de région et d’évolution dans le cas des modèles déformables, fait appel à des techniques soit 

statistiques (entropie,..) soit stochastiques (modèles markoviens). Un autre avantage apporté par 

l’utilisation de critères itératifs est la possibilité d’intégrer des informations a priori comme des 

contraintes topologiques ou iconiques. 

Une autre classification des méthodes de segmentation consiste à distinguer les approches


Fig. 1.6 Étapes de la segmentation par contours actifs.


«données» des approches «modèles». Le seuillage et l’approche région feront alors partie de la 

première catégorie et les modèles déformables appartiendront à la deuxième. 

Fig. 1.7 Segmentation par modèles déformables 3D. 

Bien sûr, il est toujours possible de considérer d’autres critères de classification, mais nous 

avons préféré nous contenter d’évoquer, de façon non-exhaustive, les méthodes les plus utilisées 

pour donner une idée précise de l’utilité des méthodes de segmentation appliquées à l’analyse des 

images médicales. On ne dispose toujours pas dans ce domaine d’une méthode générique. Les 

images médicales sont, sans aucun doute, les plus riches en information et les organes présentent 

des variations considérables avec des problèmes spécifiques. Les seules solutions qui donnent des 

résultats convaincants aujourd’hui sont des méthodes dédiées. Cependant les solutions proposées 

pour traiter un type d’organes ne sont généralement pas applicables aux autres. Pour s’en per- 

suader, il suffit au lecteur d’imaginer la différence structurelle et iconique qui existe entre le foie 

et le cerveau par exemple. 

1.1.2 Recalage 

En imagerie médicale, le mot recalage est apparu dans le courant des années soixante-dix. 

Le recalage est le processus qui vise à apparier des données provenant de sources différentes. Au


début, son utilisation se limitait à la seule comparaison des examens acquis avec un décalage 

temporel. Ces examens provenaient d’une même modalité, en l’occurrence la tomodensitométrie. 

Ce type de recalage dit monomodal avait pour but une évaluation post-traitement. Les cliniciens 

peuvent ainsi évaluer la pertinence d’un traitement en comparant les variations du volume des 

lésions traitées. Par contre, le besoin de représenter conjointement des informations provenant 

de plusieurs modalités d’acquisition n’est apparu que vers la fin des années 70, avec l’arrivée 

de l’IRM. Ce sont à la fois les propriétés physiques et le rendu de ces types de modalités qui 

ont poussé les chercheurs à combiner les informations fournies par ces techniques, pour pallier le 

manque d’imageur couvrant tous les aspects d’une forme étudiée. Ce recalage est dit structurel 

multimodal, puisque les modalités sollicitées ne mettent en exergue que la structure anatomique 

des zones étudiées (Fig. 1.8). Il intervient davantage dans l’évaluation pré et post-opératoire que 

dans les comparaisons diachroniques. 

Fig. 1.8 Illustration du recalage Multimodal Structurel : alignement d’une image 

TDM sur une image IRM. 

Récemment les chercheurs se sont intéressés à un nouveau type de recalage dit structu- 

rel/fonctionnel, qui fait appel à la fois à des modalités structurelles et fonctionnelles comme son 

nom l’indique (Fig. 1.9). L’imagerie cérébrale a été et reste le domaine le plus consommateur de 

ce type de recalage. Par exemple, pour traiter un patient épileptique, aussi bien le CT-scanner 

l’IRMf où la scintigraphie sont utilisés. 

La compréhension des processus physiologiques cérébraux passe aussi par le recalage struc- 

turel/fonctionnel. On peut alors associer une activation cérébrale à une structure.


Fig. 1.9 Illustration du recalage Multimodal Structurel-Fonctionnel : alignement 

d’une image TEP (fonctionnelle) sur une image IRM-T2(structurelle). 

Il existe aussi la classe de recalage dite recalage données/atlas. Pour des besoins plus liés à la 

détection d’anomalies, les données provenant soit d’un seul imageur, soit d’une fusion multimo- 

dale, sont recalées avec un atlas numérique préalablement établi. L’utilisation de l’atlas peut aussi 

servir de critère de recalage comme c’est le cas pour l’atlas de Talairach/Tournoux ([Talairach 

and Tournoux, 1988])(Fig. 1.10). 

Finalement, on peut évoquer le recalage multi-sujets. La fusion de données provenant de 

sujets différents est utile pour la construction d’atlas anatomiques et pour d’éventuelles études 

statistiques sur une population. Ce type de recalage est d’autant plus intéressant qu’il constitue 

la brique de base de la detection automatique des anomalies. 

Notre travail porte sur le recalage multimodal non-rigide des images médicales, nous aborde- 

rons plus en détail ce problème dans les chapitres qui suivent. 

1.2 Sur les applications cliniques 

Les différentes méthodes d’analyse évoquées précédemment présentent une aide précieuse 

pour l’établissement d’un traitement efficace. La segmentation et le recalage sont deux concepts 

étroitement liés car la solution de l’un participe à mieux résoudre l’autre. La segmentation peut 

être vue comme une application particulière du recalage. Mettre en correspondance un atlas

1.2 Sur les applications cliniques 11 

Fig. 1.10 Illustration du recalage multimodal données/atlas : alignement d’un 

volume TDM sur l’atlas anatomique de Talairach-Tournoux.


anatomique avec des données du patient produit une segmentation globale. Dans un autre sens, 

à supposer que l’on puisse segmenter toutes les structures anatomiques présentes dans les images 

à recaler, le recalage serait alors réduit à un alignement direct : la mise en correspondance 

d’amers 2 géométriques étant une tâche assez simple. 

Dans ce paragraphe nous citerons quelques applications cliniques où ces méthodes d’analyses 

sont utilisées. 

1.2.1 Diagnostic et décision thérapeutique 

Le diagnostic est l’acte médical qui permet de déceler l’origine de la souffrance d’un malade 

avant de lui prescrire un traitement thérapeutique approprié. Aujourd’hui, les modalités d’acqui- 

sition sont largement utilisées pour aider à cette tâche de diagnostic. Les techniques d’analyse 

d’images telles que la segmentation ou le recalage sont alors utilisées pour quantifier l’information 

fournie par ces imageurs. Pour illustrer notre propos, prenons l’exemple des nodules pulmonaires 

(Fig. 1.11). Dans un premier temps, un ensemble d’acquisitions sont effectuées pour localiser le 

nodule, repérer sa nature et quantifier son volume. Une fois ces trois paramètres connus, une 

décision thérapeutique est alors envisageable. Selon la nature du nodule (vascularisé ou non), sa 

position et son volume, on décide de procéder à une intervention chirurgicale ou à un traitement 

par radiothérapie. 

(a) Localisation du nodule pulmonaire, reconstruction 

3D de son volume et du poumon gauche 

(b) Calcul du volume du nodule pulmonaire 

Fig. 1.11 Intérêt de l’imagerie et de l’analyse quantitative des données pour l’établissement 

du diagnostic : cas des nodules pulmonaires. 

2 un amer est un objet identifiable dans une image : point, ligne, surface...

1.2 Sur les applications cliniques 13 

1.2.2 Planification et simulation des interventions chirurgicales 

Toute intervention chirurgicale requiert la localisation précise des organes où lésions à traiter, 

et ce afin de permettre au chirurgien d’opérer sans altérer les structures adjacentes saines. Dans 

un stade pré-opératoire toutes les données requises pour identifier et étudier une anomalie sont 

réunies. Une fusion de ces informations est indispensable pour rendre aisée la localisation de 

la zone d’intérêt. La visualisation tridimensionnelle des données recalées permet au praticien 

de mieux définir par la suite sa stratégie thérapeutique. La segmentation intervient comme un 

moyen de représenter les organes et les lésions dans leur forme réelle en 3D, et permet alors 

au praticien de disposer de toutes les informations topologiques sur une forme anatomique. Si 

(a) Atlas pulmonaire (b) Recalage atlas pulmonaire/poumon segmenté 

Fig. 1.12 Collaboration segmentation-recalage pour la planification des interventions 

chirurgicales du poumon 

l’on reprend l’exemple donné dans la section précédente, la décision prise était de procéder à 

une extraction du nodule pulmonaire par chirurgie. Étant donné que le poumon est constitué 

de plusieurs lobes, il est d’une grande importance de savoir dans quel lobe loge le nodule, et de 

savoir si ce dernier se chevauche sur deux lobes adjacents (Fig. 1.12). Une fois ces informations 

réunies, le chirurgien peut alors décider comment exécuter son geste. 

Une autre application illustrative du besoin d’analyse d’images en planification chirurgicale 

est l’hépatectomie virtuelle. Comme c’est le cas pour le poumon, le foie se compose de différents 

segments, qui sont au nombre de huit. Lorsqu’un patient souffre d’un cancer du foie, avant 

de décider de l’acte thérapeutique approprié, une hépatectomie virtuelle permet d’étudier les 

différents aspects de la pathologie. La figure 1.13 montre un étiquetage ainsi que les différents 

volumes des segments hépatiques.


Fig. 1.13 Segmentation hépatique pré-opératoire pour la planification des interventions 

sur le foie

1.3 Contribution 15 

1.2.3 De la navigation chirurgicale per-opératoire 

La navigation chirurgicale per-opératoire est un champ de recherche nouveau et prometteur 

de la pratique médicale moderne. Elle fait appel en plus des méthodes d’analyse d’images clas- 

siques à la robotique chirurgicale et aux méthodes de réalité augmentée. Lors d’une intervention 

chirurgicale, le praticien peut désormais disposer d’informations ajoutées sur le corps du pa- 

tient ; informations auxquelles il ne peut accéder sauf à procéder à des techniques de chirurgie 

très invasives. 

Dans le cadre de nos travaux sur les nephrolithotomies percutanées, nous avons développé un 

module de réalité augmentée per-opéraoire, où des segmentations volumiques des calculs rénaux, 

du rein, des crêtes iliaques, des sondes et de la 12 ième cote sont projetés sur le corps du patient 

afin de guider le chirurgien lors de son intervention (Fig. 1.14). La procédure est accessible sur 

le site : (http://www.france5.fr/fetescience/W00118/9/97451.cfm). 

Un autre exemple illustratif de l’importance des méthodes d’analyse d’images dans la na- 

vigation per-opératoire concerne les biopsies crâniennes (Fig. 1.15). Dans une salle d’opération 

équipée d’un système de stéréotaxie, on peut désormais acquérir des données temps-réel du pa- 

tient par radiographie à courte distance (fluoroscopy). Ces images sont alors fusionnées avec des 

images pré-opératoires (angiographie, TDM. . .) pour détecter la position de la lésion ainsi que 

son volume. Dans ce cadre, on fait aussi bien appel aux fusions 3D/2D et 3D/3D qu’aux modèles 

de segmentation volumique et de réalité augmentée. 

1.3 Contribution 

Mes efforts de recherche en imagerie 3D médicale ont concerné aussi bien la segmentation que 

la classification ou le recalage. Cependant, le problème du recalage d’images constitue le «centre 

de gravité» de mes travaux. Ce document s’intéresse en particulier à ce problème. 

Pourquoi une thèse de plus sur le recalage des images médicales ? 

Le problème du recalage, bien qu’il ait bénéficié d’une attention particulière de la part des 

chercheurs, n’est hélas pas complètement résolu [Pluim et al., 2003]. Avant d’expliquer notre 

démarche méthodologique, donnant les limitations des algorithmes actuels : 

1. Les méthodes de recalage fondées sur une approche iconique (i.e les méthodes automa- 

tiques qui utilisent la seule intensité comme primitive de recalage) se limitent encore au 

cadre rigide. 

2. Les méthodes iconiques nécessitent un temps de calcul conséquent dû à l’évaluation de 

l’histogramme conjoint des images à recaler.


(a) Segmentation 3D-NLPC : Corps, rein, sondes, 

lithiases, crêtes iliaques, 12ème cote. 

(c) Segmentation 3D-NLPC : calibration. 

(b) Segmentation 3D-NLPC : position au bloc - 

Sonde, projection du corps, du rein, de la lithiase, 

des repères 

(d) Segmentation 3D-NLPC : position au bloc. 

Projection 3D et gaine du néphroscope. 

Fig. 1.14 Utilisation de la Réalité Augmentée dans la planification chirurgicale 

de nephrolithotomies percutanées


(a) Coupe de Radiographie à courte distance 

(fluoroscopie) acquise en temps réel lors de la 

biopsie 

(c) Calcul de la position dans le volume IRM recalé 

préalablement. 

(b) Recalage 2D/3D fluoroscopie-TDM. 

(d) Calcul de la trajectoire de la biopsie. 

Fig. 1.15 Recalage dans un environnement stéréotaxique pour le contrôle de biopsies.


3. Les algorithmes proposés dans la littérature, dédiés au recalage non rigide, se fondent, dans 

leur majorité, sur une approche géométrique qui nécessite une étape de segmentation des 

structures homologues avant l’appariement de ces structures (i.e le recalage proprement 

dit). Ceci rend le résultat du recalage dépendant du résultat de segmentation et limite son 

application au recalage multimodal structurel puisque la segmentation des images fonction- 

nelles n’est souvent pas réalisable. Les algorithmes automatiques fondés sur une approche 

iconique sont encore rares et souffrent d’un temps de calcul conséquent. 

Le but de cette thèse est d’étendre l’approche iconique du recalage, qui se fonde sur l’analyse 

de l’histogramme conjoint des images, au recalage non-rigide. Le problème qui se pose alors est 

le temps de calcul conséquent que nécessite le calcul des critères iconiques et des histogrammes 

conjoints. 

Pour pallier ce problème nous avons procéder de la manière suivante : 

1. Définir le cadre théorique du recalage des images médicales. 

2. Explorer les mesures de similarité existantes dans la littérature et étudier plus spécifique- 

ment les critères iconiques. 

3. Entreprendre une étude théorique sur la notion de similarité en théorie de l’information et 

proposer un nouveau critère approprié au recalage non-rigide des images. 

4. Présenter le cadre théorique de l’estimation des densités de probabilité et proposer un 

estimateur non-paramétrique dédié au calcul de l’histogramme conjoint des images. 

5. Concevoir et mettre en œuvre un algorithme générique automatique de recalage non-rigide 

multimodal des images médicales. 

6. Valider le critère de similarité en participant à une campagne d’évaluation retrospective 

afin d’identifier les limitations de l’approche dans un cadre clinique. 

7. Valider dans un cadre clinique l’algorithme développé. 

1.3.1 Organisation du document 

Étant donnés les sept thèmes principaux constituant le travail de ce mémoire, ce dernier 

s’organise naturellement de la manière suivante : 

– Le chapitre 2 dresse les fondements théoriques du recalage des images médicales. Deux 

approches principales seront abordées : l’approche géométrique et l’approche iconique. Un 

accent particulier sera mis sur les mesures de similarité qui se fonde sur la théorie de 

l’information. Nous finirons ce chapitre en identifiant les limitations de ces méthodes.


– Le chapitre 3 aborde le problème du recalage non-rigide des images médicales. Nous pré- 

senterons alors une courte bibliographie des méthode utilisées dans la littérature, et iden- 

tifierons le cadre théorique de ce type de recalage. 

– Le chapitre 4 est sans doute le plus important de ce mémoire. Notre objectif est de donner 

le cadre théorique de la notion de mesure de similarité afin de proposer un nouveau critère 

adapté au problème du recalage non-rigide. Dans ce chapitre nous définirons une classe de 

mesures de similarité dont nous retiendrons un critère qui s’applique de façon appropriée 

au recalage multimodal non-rigide. 

– Le chapitre 5 étudie les méthodes d’estimation des densités de probabilité en vue de l’accélé- 

ration du calcul de l’histogramme conjoint, et présente notre choix du modèle d’estimation. 

– Le chapitre 6 présente de façon détaillée notre algorithme de recalage. Une spécification 

complète sera alors donnée. Elle concernera les différents développements théoriques abor- 

dés dans les chapitres précédents qui trouveront alors une traduction algorithmique. 

– Le chapitre 7 propose différentes évaluations de notre algorithme. La première est une éva- 

luation objective de notre critère de similarité à partir de la base de données «Vanderbilt». 

Cette évaluation concerne le cadre rigide du recalage. La deuxième évaluation concerne le 

cadre non-rigide du recalage. 

– Enfin, dans le chapitre 8 nous présenterons quelques applications cliniques de notre algo- 

rithme.

Chapitre 2 

Recalage des images : fondements 

théoriques 

2.1 Introduction 

Pour mieux comprendre le problème du recalage des images, en général, et médicales en 

particulier, nous nous proposons de commencer par un petit exemple : 

Fig. 2.1 Illustration simplifiée du problème de recalage 

Soient M et N, deux images d’une même scène, acquises par un capteur C (Fig. 2.1). Sup- 

posons que les deux acquisitions aient été effectuées à des instants différents, et qu’entre-temps 

la position du capteur ait changé. 

L’opération du recalage consiste à trouver la transformation géométrique T(.) qui relie les 

coordonnées x, évoluant dans l’espace VM, aux coordonnées y, appartenant à VN, tel que : 

21

22 Recalage des images : fondements théoriques 

x = T(y) 

Un exemple de transformation T est la transformation rigide qui a largement été utilisée en 

recalage d’images cérébrales. Elle s’écrit : 

T(x, y, z) = T (x, y, z) t + R(x, y, z) t , (2.1) 

où T est un vecteur de translation et R est une matrice (3 × 3) de rotation. 

L’espace ainsi que la nature de la transformation géométrique sont deux paramètres impor- 

tants dans le recalage des images. Ils dépendent généralement de l’application médicale et de 

la méthode d’acquisition. Ici, nous n’émettons aucune hypothèse sur ces deux paramètres, nous 

traitons le recalage dans son cadre général. Le chapitre 3 concerne les déformations géométriques 

des images médicales ; cet aspect y est étudié plus en détail. 

Pour mieux illustrer notre exemple, considérons le cas réel où pour suivre l’évolution d’une 

pathologie, le radiologue effectue des acquisitions TDM différées dans le temps (Fig. 2.2). Dans 

le cas étudié, le recalage est utilisé pour le suivi de l’évolution d’une métastase hépatique traitée 

par chimiothérapie [Osorio et al., 2001]. 

2.2 Approche géométrique du recalage 

La méthode de recalage la plus intuitive consiste à identifier, dans les deux images, les struc- 

tures communes, puis à les mettre en correspondance. Ces structures peuvent être des primitives 

géométriques quelconques comme les points, les surfaces, les volumes, les hypersurfaces. . .. Dans 

ce qui suit nous exposons le cadre théorique régissant les deux premières primitives. 

2.2.1 Mise en correspondance des points 

Soient X = {xi} et Y = {yi} où i = 1 . . . K, K paires de points de correspondance extraites 

des deux images (Fig. 2.3). Les paramètres de la transformation géométrique sont trouvés en 

minimisant une distance quadratique entre chaque couple de points dans le sens des moindres 

carrés : 

Dp(T) = 

K 

||xi − T(yi)|| 2 

i=1 

La littérature nous offre un grand nombre de méthodes fondées sur cette approche. La plus 

populaire est celle utilisant la décomposition des valeurs singulières ([Fitzpatrick and West, Feb. 

2000]).

2.2 Approche géométrique du recalage 23 

(a) Acquisition-1- TDM du foie et 

mesure du volume initial de la 

métastase, date d’acquisition 21- 

Février-2001 

(a) Acquisition-2- TDM du foie et 

mesure du volume de la métastase, 

date d’acquisition 14-Mai-2001 

(b) Acquisition-3- TDM du foie et 

mesure du volume de la métastase, 

date d’acquisition 2-Avril-2001 

Fig. 2.2 Suivi d’un patient traité par chimiothérapie.


Fig. 2.3 Extraction de points homologues 

La difficulté posée dans le cadre de ce type de recalage est l’identification des paires de points 

correspondants. Deux approches se distinguent : approches manuelles et approches automatiques. 

L’identification manuelle des primitives géométriques est la méthode la plus utilisée en image- 

rie médicale. Se basant sur l’expertise du radiologue, ces primitives sont extraites puis labelisées. 

Un grand nombre de Systèmes d’Aide au Diagnostic proposent des interfaces graphiques pour 

identifier ces primitives. Une preuve de leur succès est l’intégration dans la boite à outils «trai- 

tement d’images» MATLAB d’une interface pour le recalage par identification interactive des 

points d’intérêt. 

Ces points d’intérêt peuvent être de nature intrinsèque ou extrinsèque. Les repères intrin- 

sèques sont des zones propres à l’anatomie du patient ; ils sont dans ce sens assujettis aux défor- 

mations locales des organes. Les repères extrinsèques sont des objets étrangers au corps humain, 

utilisés lors de l’acquisition pour fournir une invariance topologique. Le cadre stéréotaxique uti- 

lisé en neurochirurgie présente un exemple concret de ce type de repère (Fig. 2.4). Dans le cadre 

d’une étude d’évaluation retrospective des algorithmes de recalage, présentée au chapitre 7, le 

cadre stéréotaxique est utilisé pour déterminer la transformation de référence du recalage (gold 

standard) à laquelle on compare les résultats des différentes approches automatiques du recalage 

([West et al., 1996] ;[West et al., 1997a] ;[West et al., 1997b]). 

La qualité du recalage dépend du nombre de points utilisés. Plus on dispose de points plus la 

transformation géométrique est fine. Cependant l’identification manuelle de ces points d’intérêt 

est un exercice fastidieux. Naturellement, des recherches ont été orientées vers l’identification 

automatique de ces points d’intérêt. Ceci permet de s’affranchir de l’expertise anatomique et de 

disposer d’un grand nombre de points. Des modèles de déformation assez évolués peuvent alors 

être utilisés.


Fig. 2.4 Acquisition TDM avec cadre stéréotaxique 

Plusieurs approches théoriques ont été proposées pour l’extraction et l’identification automa- 

tiques des points d’intérêt. Les premiers travaux remontent au début des années 80. Ils se fondent 

sur la notion d’invariance géométrique. Cependant, reproduire le processus humain, consistant à 

identifier les points communs à deux images, reste un exercice très compliqué dés que l’on veut 

l’automatiser. De plus, les erreurs d’extraction peuvent être très pénalisantes pour l’étape de 

mise en correspondance. 

2.2.2 Mise en correspondance de surfaces 

L’extraction de surfaces communes fait appel aux algorithmes de segmentation. A l’instar de 

l’approche fondée sur la mise en correspondance de points, le recalage s’effectue en deux étapes : 

la désignation dans chaque image, d’une zone d’intérêt et l’extraction de sa surface (Fig. 2.5), 

puis leurs mise en correspondance. Mais, une difficulté nouvelle s’ajoute : l’appariement. Les 

points des surfaces ne sont pas labelisés ce qui requiert l’utilisation d’une fonctionnelle nécessaire 

à l’identification des points homologues. 

Soit X = {xi}, avec i = 1 . . . K la surface extraite de l’image M. 

Soit Y = {yj}, avec j = 1 . . . L la surface correspondante à X extraite de l’image N. 

En désignant par ℘ la fonctionnelle d’appariement, la mise en correspondance revient à mi- 

nimiser une «distance» comme celle qui suit :


(a) Extraction du contour du crâne dans l’image cible 

TDM 

(b) Extraction du contour du crâne dans l’image source 

(déformée) TDM 

Fig. 2.5 Segmentation de surfaces homologues (contours du crâne) avant l’étape 

de mise en correspondance


 

 

 

Ds(T) = K 

||xi − ℘(T(Y ), xi)|| 2 

i=1 

La fonctionnelle d’appariement ℘(T(Y ), xi) détermine le plus proche voisin yj, appartenant 

à la surface Y , de xi (Fig. 2.6). Contrairement à la distance Dp qui peut être calculée de façon 

déterministe, la fonctionnelle Ds nécessite un traitement itératif. En outre, Ds ne correspond 

pas à une «distance directe de recalage», à l’image de Dp, mais exprime une «mesure» qui 

rend compte de la transformation géométrique qui relie «au mieux» les deux surfaces, et par 

conséquent les deux images. 

Fig. 2.6 Contours représentant les objets homologues extraits à partir de deux 

modalités. 

L’aspect itératif de la fonctionnelle de recalage Ds nous astreint à utiliser une stratégie de 

recherche. On parle alors de procédure d’optimisation. Elle consiste à trouver le plus rapidement, 

dans l’ensemble Y le point yj le plus proche de xi. La méthode du plus proche voisin (ICP) est 

la plus utilisée dans ce cadre ([Besl and McKay, 1992]). 

Pour mieux comprendre les difficultés liées au recalage par mise en correspondance de surfaces, 

et des primitives géométriques en général, reprenons l’exemple cité précédemment. Admettons 

maintenant que les images M et N sont acquises par deux capteurs C1 et C2 (Figs. 2.7, 2.8). 

Contrairement au cas étudié jusque là, qui concernait le recalage monomodal, nous essayons ici 

d’illustrer la spécificité du recalage multimodal structurel. 

Dans ce cas, les images M et N présentent des structures communes, mais disposent chacune 

d’informations exclusives. De par la nature des objets de la scène et de leurs dispositions spa- 

tiales, l’ensemble des informations ne peut pas être mis en exergue par une seule modalité. Le 

problème du recalage ne se résume plus donc à une simple mise en correspondance de primitives 

géométriques communes, mais assure la complémentarité des images. Les surfaces résultantes


Fig. 2.7 Acquisition TDM du crâne 

Fig. 2.8 Acquisition IRM du crâne 

correspondent alors à l’intersection des surfaces extraites des images augmentée des surfaces 

exclusives à chaque image (Fig. 2.9). 

La qualité du recalage dépend de l’étape de segmentation nécessaire à l’identification des


Fig. 2.9 Combinaison IRM/TDM recalée du crâne


structures homologues. Puisque la segmentation des images médicales présente un sujet de re- 

cherche difficile où il reste beaucoup à faire, il est courant qu’une étape d’ajustement manuelle 

soit opérée sur les points extraits afin d’éliminer les points aberrants (outliers). 

Le problème du recalage par mise en correspondance de surfaces se résume alors aux questions 

suivantes : 

– Comment extraire les surfaces communes ? 

– Quelle hypothèse doit-on émettre sur la nature de la transformation T ? 

– Comment apparier les points de ces surfaces ? 

– Quelles portions de ces surfaces faut-il utiliser pour évaluer la mesure de recalage ?(Points 

aberrants, erreurs de segmentation...) 

Plusieurs méthodes ont été proposées pour répondre à chacune de ces questions. L’état de l’art 

publié par [Brown, 1992] regroupe, entre autre,l’ensemble des méthodes utilisées pour le recalage 

de tous types d’images. Les états de l’art publiés ensuite par [Maintz and Viergever, 1996] [Maintz 

and Viergever, 1997] et [Pluim et al., 2003], concernent quant à eux, les images médicales. Ici, 

nous nous contentons de mettre en exergue la problématique du recalage et d’expliciter son cadre 

théorique. 

Il est à noter que d’autres primitives ont été utilisées pour le recalage des images médicales. 

Thirion et al. [Thirion, 1991] proposent, par exemple, la mise en correspondance de «lignes de 

crête» extraites de deux images. 

Illustrons à présent le problème du recalage multimodal fonctionnel/structurel (Fig. 2.10). 

Ce type de recalage, propre au domaine médical, fait appel à des modalités dont les principes de 

fonctionnement sont très différents. 

(a) IRM-T2 corrigée (b) TEP 

Fig. 2.10 Acquisitions IRM et TEP du cerveau d’un même patient

2.3 Approche iconique du recalage- modélisation par inférence statistique 31 

Dans ce problème, les images M et N représentent la même zone du cerveau, mais leurs 

rendus sont très différents. En effet, l’image M rend compte de l’aspect structurel du cerveau, 

alors que l’image N nous informe des activations cérébrales (i.e. son fonctionnement). L’image 

M a été acquise par IRM-T2 et l’image N par TEP. 

L’utilisation de modalités d’acquisition fonctionnelles introduit une difficulté de taille : l’infor- 

mation morphologique dans l’image N étant très pauvre, l’extraction de primitives géométriques 

devient alors un exercice très difficile, voire impossible dans certains cas. L’approche géométrique 

du recalage développée plus haut trouve alors ses limites et de nouvelles approches ont dû être 

inventées. 

2.3 Approche iconique du recalage- modélisation par inférence statistique 

L’approche iconique du recalage se fonde sur la comparaison locale des intensités. Les primi- 

tives utilisées ne sont pas, contrairement aux méthodes étudiées plus haut, de nature géométrique, 

mais correspondent à des vecteurs 4D contenant la position et l’intensité. Elles ne nécessitent 

aucune extraction d’amers géométriques (i.e : aucune compréhension de la structure géométrique 

de l’image), ce qui leur vaut l’appellation de «méthodes de bas niveau». Aucune segmentation des 

images n’est alors nécessaire. Cette particularité les rend plus adaptées au recalage multimodal 

des images médicales. 

Notons par m(x) l’intensité liée à la position x = (x, y, z) dans M, et par n(T(x)) son 

correspondant dans N. La relation générique entre ces voxels s’exprime : 

n(T(x)) = F(m(x), q) + η (2.2) 

Le terme F désigne la dépendance fonctionnelle entre les deux images. Elle correspond à 

la fonction de transfert entre les deux modalités utilisées. La variable q représente les facteurs 

exogènes liés à l’environnement d’acquisition (bruit de mesure, bruit de quantification, bruit 

biologique). La variable η correspond au bruit. 

Le recalage : un problème d’inférence statistique Le problème du recalage peut être 

vu comme un problème de maximum de vraisemblance ou de minimisation de variance [Costa 

et al., 1993], [Viola, 1995], [Leventon and Grimson, 1998] et [Roche et al., 2000]. La probabilité 

d’un voxel n d’une image N dite image «source», sachant M l’image «cible», T la transformation 

géométrique, q les facteurs exogènes, η le bruit, et la fonction d’imagerie F s’écrit ([Viola, 1995]) :


p(n|m, T, η, q, F ) = 

p [η = (n(T(x)) − F (m(x), q))] (2.3) 

x∈V 

L’hypothèse émise ici stipule que les voxels n de l’image N sont conditionnellement indépen- 

dants. Si les paramètres F , M, T, η et q sont connus, les voxels dans N sont indépendants. Pour 

un bruit gaussien, la transformation géométrique du recalage correspond au maximum de son 

log-vraisemblance qui s’écrit : 

log(l(T)) = log p(n|m, T, η, q, F ) (2.4) 

= 

log p(η = n(T(x)) − F (m(x), q)) (2.5) 

x∈V 

 

= −k1 (n(T(x)) − F (m(x), q)) 2 

x∈V 

(2.6) 

≈ −k2E[(n(T(X)) − F (n(X), q)) 2 ] (2.7) 

≈ −k2E[n(T(X)) 2 ] − 2E[n(T(X))F (m(X), q)] + E[F (m(X), q) 2 ] (2.8) 

E[.] désigne l’espérance mathématique. 

Les constantes k1 et k2 sont calculées à partir de la variance du bruit, supposé gaussien, et la 

taille du volume V . Elles n’interviennent pas dans le processus de maximisation. Dans l’expression 

2.7, la log-vraisemblance de la transformation T est fonction de la variance de l’image source N, 

de la corrélation entre l’image cible et l’image source, et de la variance de l’image cible. Pour les 

cas où les variances des images source et cible sont constantes, la meilleure transformation est 

celle qui maximise la correlation entre les deux images : E[n(T(X))F (m(X), q)]. 

Le problème du recalage revient donc à trouver la transformation de coût minimum. Au- 

trement dit, la transformation au plus faible coût est celle qui exprime «au mieux» la relation 

géométrique entre l’image source N, et l’image cible M. Cette fonction peut s’écrire : 

C(T) = E[(n(T(X)) − F (m(X), q)) 2 ] (2.9) 

∝ − log l(T) (2.10) 

En réalité, le volume V dans lequel sont tirées les variables aléatoires x, correspond au volume 

de l’image «cible». L’espérance mathématique revient donc au calcul d’une moyenne empirique


faisant intervenir tous les points du volume Vm. La fonctionnelle de recalage s’écrit alors : 

S(T) = 1 

Vm 

Vm 

S(m(xi), n(T(xi))) (2.11) 

i=1 

La recherche de la relation spatiale entre les structures communes dans les images passe 

d’abord par l’évaluation de la dépendance entre les intensités de ces structures. La fonctionnelle 

S exprime la ressemblance des deux images et revient à une mesure de similarité -dissimilarité- qui 

tend à évaluer la fonction F soit directement, en utilisant des modèles linéaires ou non-linéaires, 

soit indirectement via des modèles statistiques. 

2.3.1 Conservation d’intensité 

La conservation d’intensité repose sur l’hypothèse que les intensités des images sont appa- 

rentées par une fonction identité : m = n. La mesure de similarité est donnée par la différence 

absolue des voxels des images. 

SDA(T) = 1 

Vm 

Vm 

||m(xi) − n(T(xi))|| (2.12) 

i=1 

L’utilisation de cette mesure de similarité suppose que les deux images sont exprimées dans 

la même échelle d’intensité et que les régions (organes) ont la même réponse impulsionnelle aux 

signaux des capteurs. Ceci ne peut être vrai que si l’on utilise la même modalité (Fig. 2.11) et 

en l’absence des facteurs exogènes évoqués précédemment. 

Une autre mesure de similarité peut être dérivée de l’hypothèse de conservation d’intensité 

qui est la somme des différences d’intensités au carré : 

SDC(T) = 1 

Vm 

Vm 

(m(xi) − n(T(xi))) 2 . (2.13) 

Cette mesure de similarité est dérivée directement de l’équation 2.8. 

i=1 

Les deux mesures de similarité détaillées ci-dessus peuvent être exprimées en fonction de 

l’histogramme conjoint des images cible et source. 

Notons pm,n les probabilités conjointes et pm et pn les probabilités marginales calculées à 

partir de l’histogramme conjoint.


(a) Image cible (b) Image source 

(c) Histogramme conjoint des images non recalées (d) Histogramme conjoint des images recalées 

Fig. 2.11 Illustration de la dépendance linéaire T=rotation de 45˚, F=I (identité)


Les deux formules s’expriment alors : 

Et pour la somme des différences au carré : 

SDA(T) = 

pm,n||(m − n)||. (2.14) 

m,n 

SDC(T) = 

pm,n(m − n) 2 . (2.15) 

m,n 

Le calcul de ces deux mesures de similarité ne nécessite pas le calcul de l’histogramme. Leur 

expression en fonction des probabilités conjointes est donnée ici pour illustrer la dépendance 

entre les images. 

L’hypothèse forte de conservation d’intensité astreint l’utilisation de ces mesures de simila- 

rité au cas monomodal du recalage. Leur utilisation a été souvent utilisée pour la comparaison 

d’images monomodales dans l’étude d’évolution de pathologies. 

2.3.2 Dépendance affine 

Même dans le cas le plus simple de recalage consistant à aligner des images IRM d’une même 

séquence, l’hypothèse de conservation d’intensité n’est pas satisfaite. Les pixels des images sont 

liés, dans ce cas, par une fonction linéaire. Plus généralement les voxels m et n sont reliés par la 

fonction affine : 

n(T(x)) = α.m(x) + β (2.16) 

Le cas linéaire correspond à β = 0. Une mesure de similarité adaptée à ce cas de figure est la 

corrélation. 

Définition : 

– La corrélation mesure le degré de relation (liaison) qui unit deux (ou plusieurs) variables. 

– Elle se calcule sur une série statistique double (ou multiple). 

– Elle n’implique pas de relation causale (dépendance directe -conservation d’intensité-). 

Dans la littérature, nous relevons deux classes de corrélation : 

– Corrélation linéaire de Pearson (ρ) 

– Corrélation de rang de Kendall (τ) 

Celle qui correspond à notre problématique est la corrélation linéaire de Pearson. Elle 

mesure le degré de liaison linéaire entre deux variables quantitatives aléatoires de distribution 

normale. Elle correspond à la covariance calculée sur les données centrées-réduites.



(c) Histogramme conjoint des images non recalées (d) Histogramme conjoint des images recalées 

Fig. 2.12 Illustration de la dépendance linéaire T=rotation de 45˚, 

F(x)=0.5*x+20


Si on note par SM,N la matrice de covariance des images M et N, la corrélation de Pearson 

s’écrit : 

N. 

ρ(T) = SM,N 

SMSN 

= 

Q i=1 (m(xi) − m).(n(T(xi )) − n) 

 

Q 

i=1 (m(xi) − m) 2 . Q i=1 (n(T(xi )) − n)2 

(2.17) 

ou m et n désignent respectivement les moyennes des niveaux de gris dans les images M et 

En réalité, la corrélation de Pearson, ρ(T), est la version normalisée de la fonction coût 

C(T) exposée plus haut, sous hypothèse de dépendance affine : 

NC(T) = E[(n(T(X)) − m(X)) 2 ] (2.18) 

Ici, du fait de la relation affine entre les signaux, ce sont leurs versions normalisées qui sont 

utilisées : 

m(x) = 

m(x) − E(m(X)) 

σ(m(X)) 

(2.19) 

La version normalisée d’un signal est invariante au changement d’additivité et de multiplica- 

tivité. La fonction de coût normalisée s’écrit : 

NC(T) = 1 − EV [m(X)n(T(X))] − EV [m(X)]EV [n(T(X))] 

σV (m(X))σV (n(T(X))) 

(2.20) 

E[.] correspond à la moyenne empirique du signal, σ(.) est son écart type. La notation .V signifie 

que les positions sont tirés du volume V , en l’occurrence le volume de référence Vm. 

Un grand nombre d’algorithmes de recalage utilisent la corrélation de Pearson, appelée 

communément Coefficient de corrélation. 

En outre, l’indicateur statistique le plus répandu est sans aucun doute la fonction de corréla- 

tion (voir [Peebles, 1980]). Son expression en fonction de l’histogramme conjoint des images M 

et N s’écrit : 

ρ(T) = 

m,n 

(m − m)(n − n) 

pm,n 

σmσn 

(2.21) 

Cependant, l’utilisation du coefficient de corrélation ne présente des résultats optimaux que 

dans le cadre monomodal. L’hypothèse de dépendance affine entre modalités différentes est sou- 

vent grossièrement fausse. 

Toutefois, il est possible d’utiliser le coefficient de corrélation dans un cadre multimodal. Il 

s’agit de forcer la dépendance linéaire entre les images. Ceci peut être assuré en effectuant des 

pré-traitements aux images. Cette idée a été avancée par [Van den Elsen et al., 1994] pour le


recalage TDM/IRM. Les prétraitements opérés principalement aux images TDM consistaient 

en un seuillage des structures osseuses dans les deux images, suivi d’une mise en échelle des 

intensités. Ceci étant fait, la fonctionnelle S peut être exprimée par une simple somme des 

différences au carré, ce qui correspond à l’hypothèse de conservation d’intensité développée plus 

haut. 

2.3.3 Dépendance fonctionnelle 

La dépendance fonctionnelle entre les images est une hypothèse mieux adaptée à l’aspect 

multimodal du recalage. Les intensités des deux images sont alors images les unes des autres 

par une fonction g non-linéaire (monotone ou non) : m = g(n). Où g(.) = F (., q). Dans ce cas, 

l’opération du recalage revient à chercher, conjointement, la fonction d’imagerie, les paramètres 

exogènes et la transformation géométrique. La probabilité p(n|m, T, N, q, F ), quand F et q sont 

inconnus, peut être calculée en intégrant sur tous les paramètres : 

 

 

p(n|m, T, η) = p(η = n(T(x)) − F (m(x), q))p(F )p(q)dF dq (2.22) 

x∈V 

Le calcul de cette double intégrale n’est pas réalisable. En revanche, une approximation empirique 

peut approcher le résultat souhaitable : 

p(n|m, T, η) ≈ max 

F,q 

 

p(η = n(T(x)) − F (m(x), q))p(F )p(q) (2.23) 

x∈V 

La fonction de coût dépend alors de deux variables : T et F (., q), sa formule globale s’écrit : 

C(T, g) = E[(n(T(X)) − g(m(X))) 2 ] (2.24) 

Rappelons que la fonction g englobe les paramètres de la fonction d’imagerie F et les facteurs 

exogènes. Le processus de recalage s’effectue alors alternativement : 

1. Partant d’une estimation de la transformation géométrique T, trouver les paramètres F et 

q (g(.)) pour lesquels les images sont les plus proches. 

2. Utiliser les paramètres trouvés en 1, les fixer, et chercher la nouvelle transformation géo- 

métrique qui minimise la différence entre les images. 

L’étape 1 peut être vue comme une procédure de régression : étant donné un échantillon de 

co-occurrences des intensités a = {. . . {ma, na} . . .} comment peut-on estimer les paramètres de 

la fonction g ? Un élément de réponse consiste à minimiser la variance entre les valeurs prédites



(c) Histogramme conjoint des images non-recalées (d) Histogramme conjoint 

des images recalées 

Fig. 2.13 Illustration de la dépendance fonctionnelle T=rotation de 45˚, m(x) = 

(1−cos 2πn(T (x))) 

2


ma = g(na) et les valeurs courantes : 

g ∗ = argmin 

g C(T = cte, g) (2.25) 

= argmin E[(N − g(M)) 

g 2 ] (2.26) 

= argmin Var[N − g(M)] 

g 

(2.27) 

La variable g(M) qui minimise la fonction du coût, C(T = cte, g), correspond à l’espérance 

conditionnelle de M sachant N : E[N|M]. 

avec 

E[N|M] = g ∗ (M) 

g ∗ 

(m) = 

np(n|m)dn 

La valeur correspondante du coût est appelée variance conditionnelle et est notée Var(N|M). 

Une fois que la dépendance fonctionnelle g entre les images est établie, nous nous en servons 

pour établir la relation géométrique. Ceci peut être effectué par l’utilisation du théorème de 

variance totale [Roche et al., 1998] : 

V ar(N) = V ar[E(N|M)] + V ar[N − E(N|M)] (2.28) 

La variance de l’image N est composée de la somme de deux termes : V ar[E(N|M)] qui quantifie 

la part de N prédite par M, et V ar[N − E(N|M)] qui mesure la part de N qui ne dépend pas 

(fonctionnellement) de M. Ce dernier terme est minimal si la variance de l’image N, V ar(N), est 

très petite, ce qui signifie que l’image contient peu d’information, ou bien si le terme V ar[N − 

E(N|M)] est très grand, ce qui signifie que l’image N est bien prédite par M. La variance 

de l’image N est calculée dans la zone de recouvrement des deux images. Minimiser le terme 

V ar[N − E(N|M) peut conduire à déconnecter les deux images (problème du recouvrement 

partiel). 

Il semble donc raisonnable de comparer la part de N prédite par M avec la variance de N, 

ce qui donne le rapport de corrélation : 

C(N/M) = 

V ar[E(N|M)] 

V ar(N) 

V ar[N − E(N|M) 

⇔ C(N|M) = 1 − 

V ar(N) 

(2.29) 

Le rapport de corrélation mesure la dépendance fonctionnelle entre les image M et N. Plu- 

sieurs mesures de similarité fondées sur l’heuristique de dépendance fonctionnelle s’interprètent


comme un rapport de corrélation. Nous commençons par examiner la plus connue : le critère de 

Woods. 

Critère de Woods 

Les travaux de Woods sont les pionniers en recalage multimodal ([Woods et al., 1991], [Woods 

et al., 1993]). Pour recaler des images TEP et IRM du cerveau, Woods part de l’hypothèse que si 

les deux images sont parfaitement alignées, alors pour tous les points x dans une image M ayant 

une même intensité m, la variance d’intensité de leurs homologues dans l’image N est minimale. 

Notons par nm la moyenne des intensités n(T(x)) correspondant à l’intensité m(x) = m dans 

l’image cible M. De la même façon, leur écart type est noté : σn(m). Pour une intensité m 

donnée, la définition de la déviation standard normalisée s’écrit : 

σ ′ n(m) = σn(m)/nm 

(2.30) 

L’écart type de la distribution des valeurs n correspondant à chaque intensité m doit être minimisé 

au recalage. La mesure de similarité correspond à la somme des écart-types, pondérée par la 

probabilité de présence des valeurs m dans M, p(m) : 

σ(N) = 

m∈M 

p(m)σ ′ n(m) (2.31) 

La pondération fait en sorte que le processus de recalage est plus influencé par les variations 

d’intensité dans l’image source N que par les changements dans l’image cible M. Le choix de 

l’image source et de l’image cible est alors d’une grande importance. Généralement, pour un reca- 

lage fonctionnel/structurel, les modalités structurelles sont utilisées comme modèle de référence 

(images cibles). 

Le critère de Woods opère sous l’hypothèse que lorsque les images sont recalées, leurs régions 

uniformes se correspondent. Ceci tient pour valable qu’une intensité m dans M correspond à 

une et une seule intensité n dans N. Si, pour deux images recalées, une valeur m correspond 

à deux intensités n1 et n2 significativement différentes, alors la mesure d’accumulation autour 

de la moyenne donnera peu d’informations sur le recalage. Le degré de correspondance entre 

les intensités joue un grand rôle dans l’applicabilité du critère de Woods. Pour surmonter cette 

difficulté, Woods applique une segmentation sur les images IRM afin d’exclure les régions qui 

n’appartiennent pas au cerveau, et de ne garder que des régions uniformes assurant ainsi l’unicité 

d’appartenance des intensités [Woods et al., 1993]. 

Le critère de Woods est à l’origine de beaucoup de travaux en recalage iconique, notamment


des méthodes statistiques. Plusieurs variantes ont été proposées, nous en citons [Ardekani et al., 

1995], [Alpert et al., 1996] et [Nikou et al., 1998]. 

Le critère de Woods peut être apparenté au rapport de corrélation. Ils sont tous deux asy- 

métriques et évaluent le recalage comme un problème de minimisation de variance. Néanmoins, 

deux différences sont à relever : le rapport de corrélation somme des variances, alors que le critère 

de Woods somme des écarts type normalisés. L’invariance à la multiplication est assurée dans le 

critère de corrélation par division globale par rapport à la variance de l’image cible, alors que 

dans le critère de Woods chaque terme de la somme est divisé par une moyenne correspondante. 

Rapport de corrélation généralisée 

Plus récemment, Roche a introduit une mesure de similarité fondée sur l’hypothèse «heu- 

ristique» de dépendance fonctionnelle entre les images à recaler [Roche, 2001]. Cette mesure 

appelée rapport de corrélation généralisé a été conçu pour le recalage multimodal ultrason/IRM, 

pour lequel les mesures existantes n’étaient pas adaptées. Le rapport de corrélation généralisé est 

fondé sur une distance asymétrique normalisée entre les intensités (un M-estimateur d’échelle). 

La normalisation est introduite de façon à tenir compte des effets de recouvrement partiel. 

Son expression en fonction de l’histogramme conjoint s’écrit : 

2.3.4 Dépendance statistique 

Cr(T) = 1 − 1 

σ 2 M 

 

n 

p(m, n)σ 2 n 

(2.32) 

Si l’on examine de près l’histogramme conjoint des images TDM et IRM recalées (Fig. 2.14), 

on se rend compte que l’hypothèse fonctionnelle de dépendance des intensités, aussi générale 

soit-elle, ne suffit pas pour exprimer la relation entre les intensités de ces images. 

Une façon alternative d’aborder la relation fonctionnelle entre les intensités des images 

consiste à considérer leur dépendance statistique. Ceci permet de s’affranchir des hypothèses 

de linéarité ou de non-linéarité. Le concept de l’histogramme conjoint trouve alors tout son sens. 

La dépendance statistique repose sur l’idée que si l’on dispose d’un voxel m et de son homologue 

n, le nombre d’occurrences conjointes (co-occurrences) de ces voxels est maximal quand les images 

sont parfaitement recalées. Autrement dit, plus l’histogramme conjoint est disparate, moins les 

images sont similaires. À mesure que les images approchent du recalage, les pics de l’histogramme 

conjoint augmentent, et les régions qui contiennent les faibles occurrences diminuent.


(a) Histogramme conjoint d’un couple d’images IRM- 

TDM recalées. 

(b) Histogramme conjoint d’un couple d’images IRM- 

TDM non recalées. 

Fig. 2.14 Illustration de la dépendance statistique entre les intensités d’une image 

IRM et une image TDM. 

La théorie de l’information nous offre un panel important de méthodes pour évaluer la dis- 

parité et la quantité d’information dans un ensemble de données. La plus usuelle est l’entropie. 

Les travaux précurseurs dans ce domaine sont ceux entrepris par [Hill et al., 1994]. Il pro- 

pose, pour quantifier le décalage entre les faibles probabilités et les plus grandes, de mesurer 

l’«obliquité» dans la distribution des probabilités conjointes p(m, n). Les moments d’ordre su- 

périeur ont été choisis pour évaluer cette obliquité. La probabilité conjointe des voxels, p(m, n), 

des images M, N, est considérée comme variable aléatoire. Le moment d’ordre i s’écrit : 

υi(p(m, n)) = υi(M, N) = 

1 

0 

o(p(m, n)).p(m, n) i dp, (2.33) 

où o(p) correspond au nombre d’occurrences d’une probabilité p particulière. 

Pour le recalage d’images IRM/TDM, Hill a proposé l’utilisation de moments d’ordre 3 nor- 

malisés par le moment d’ordre 0 : 

S(T ) = υ3(M, N) 

υ0(M, N) 

(2.34) 

Une autre caractérisation importante d’une densité de probabilité est son entropie dont le 

rôle est fondamental en théorie de l’information.


Entropie Conjointe 

L’utilisation de l’entropie conjointe pour évaluer la disparité dans l’histogramme conjoint a 

été introduite par [Collignon et al., 1995] et [Studholme et al., 1995]. 

H(M, N) = − 

p(m, n) log p(m, n) (2.35) 

m,n 

En théorie de l’information, l’entropie est définie comme une mesure de quantité d’informa- 

tion, de désordre et d’incertitude. Dans ce sens, l’entropie conjointe quantifie la disparité dans 

l’histogramme conjoint. Le recalage est assuré en minimisant son expression. 

Fig. 2.15 Illustration des étapes de recalage par minimisation de l’entropie 

conjointe 

Prenons l’exemple des images M et N et de leurs combinaisons C 1 MN et C2 MN 

(Fig. 2.15). 

Tant que les deux images ne sont pas recalées, les structures communes seront dupliquées dans les 

images fusionnées. Au fur et à mesure de la correction géométrique, la duplication des structures 

est réduite. Nous pouvons considérer l’image «combinée», où les couples de valeurs des images 

sources interviennent comme une valeur d’une seule image. Chaque valeur correspond à une 

paire particulière de valeurs provenant des images sources. Nous pouvons alors exprimer la dis- 

tribution de probabilité conjointe comme un vecteur 1D, l’opération du recalage est réduite ainsi 

à minimiser le «désordre» (entropie) dans l’image fusionnée en appliquant une transformation 

géométrique sur l’une des images sources. 

L’utilisation de l’entropie conjointe repose sur une forte hypothèse : les régions homologues 

sont, initialement, partiellement recalées. Leur zone de recouvrement augmente alors au fur et


à mesure que la correction géométrique a lieu. Si les deux images contiennent peu d’informa- 

tions, et que les régions homologues ne s’intersectent pas (ou peu) initialement, leur probabilité 

conjointe est alors minimale, et la probabilité conjointe des niveaux de gris du fond sera maxi- 

male. L’entropie conjointe est alors minimale lorsque les régions se déconnectent complètement 

(Fig. 2.16). 

Fig. 2.16 Illustration de la nécessité de normaliser l’entropie conjointe. Ici, du fait 

de la prédominance du niveau de gris du fond, la minimisation de l’entropie conjointe 

conduit à la déconnection des structures homologues dans les deux images. 

Information mutuelle 

Pour remédier à ce problème, il faudrait prendre en compte à la fois les informations com- 

munes aux images ainsi que les informations apportées par chacune des modalités. Pour ce faire, 

il suffit de minimiser l’entropie conjointe en fonction des entropies marginales des images M et


N. Ce qui revient à calculer l’information mutuelle entre les deux images : 

I(M, N) = H(M) + H(N) − H(M, N) (2.36) 

Proposée séparément par [Viola and Wells III, 1995] et [Collignon et al., 1995], l’information 

mutuelle évalue la corrélation statistique entre différents jeux de données. Dans un contexte 

d’imagerie, elle quantifie l’information que contient une image sur une autre image. 

Récemment, une étude comparative des méthodes de recalage en imagerie médicale a dé- 

montré la supériorité d’information mutuelle sur les autres mesures de similarités [West et al., 

1996] ;[West et al., 1997a] ;[West et al., 1997b]. Devenue depuis la mesure universelle de simi- 

larité en imagerie médicale, nombre de variantes ont été proposées, traitant de son application 

au recalage non-rigide ou à la multimodalité fonctionnelle. Dans ce qui suit nous exposons ses 

fondements théoriques. 

Dorénavant, en évoquant le terme «entropie», nous entendons l’entropie de Shannon [Shan- 

non, 1948]. Les développements théoriques qui vont suivre seront évoqués dans un cadre plus 

large de la théorie de l’inférence statistique et de l’information que nous exposerons dans le cha- 

pitre 4. Le but ici est de présenter l’information mutuelle telle qu’elle a été utilisée par Collignion 

et Viola. 

Définition 

Dans la littérature, plusieurs définitions existent pour la notion de l’information mutuelle 

([Cover and Thomas, 1991]). En s’appuyant sur le diagramme de Venn, nous en donnerons les 

plus importantes : 

Dans le diagramme, chaque cercle représente l’entropie marginale d’une image. Les zones 

de recouvrement représentent l’information partagée par les deux images, dite aussi entropie 

relative, H(M||N), ou information mutuelle. 

En utilisant l’entropie de Shannon nous pouvons écrire : 

H(M) = − 

m∈M 

p(m) log(p(m)) (2.37) 

H(N) = − 

p(n) log(p(n)) (2.38) 

H(M, N) = − 

n∈N 

m∈M n∈N 

 

p(m, n) log(p(m, n)) (2.39)


Fig. 2.17 Diagramme de Venn représentant la relation entre les entropies marginales, 

les entropies conditionnelles et l’information mutuelle


p(m), p(n) et p(m, n) désignent, respectivement, la probabilité d’obtenir un voxel m, la 

probabilité d’obtenir un voxel n, et la probabilité d’obtenir conjointement les voxels m et n. 

Du diagramme, nous pouvons relever les relations suivantes : 

H(M, N) = H(M) + H(N/M) (2.40) 

= H(N) + H(M/N) (2.41) 

Ces relations peuvent être prouvées en utilisant la formule de Bayes : 

La probabilité conjointe s’écrit : 

L’entropie conjointe s’écrit alors : 

H(M, N) = − 

p(m/n) = 

p(n/m) = 

p(m, n) 

p(n) 

p(m, n) 

p(m) 

p(m, n) = p(m)p(n/m) = p(n)p(m/n) 

= − 

m∈M n∈N 

m∈M n∈N 

n∈N 

(2.42) 

(2.43) 

 

p(m, n) log (p(m, n)) (2.44) 

 

p(m/n)p(n) log (p(m/n)p(n)) (2.45) 

= − 

p(n) log (p(n)) − 

p(m/n) log (p(m/n)) (2.46) 

m∈M n∈N 

= H(N) + H(M/N) (2.47) 

= H(M) + H(N/M) (2.48) 

En remplaçant, dans l’équation 2.7, l’entropie conjointe par son expression en fonction des 

probabilités marginales et conditionnelles, nous donnons deux des principales définitions de l’in- 

formation mutuelle qui peuvent être déduites aussi du diagramme de Venn. 

I(M, N) = H(M) + H(N) − H(M, N) (2.49) 

= H(M) − H(N/N) (2.50) 

= H(N) − H(N/M) (2.51) 

En interprétant l’entropie comme une mesure d’information et de l’incertain, l’information mu- 

tuelle traduit «la quantité d’information contenue dans une image N moins la quantité d’informa-


tion dans N sachant M». En d’autres termes, elle représente de combien l’incertain concernant 

M diminue quant N est connue. La réciproque est aussi valide. Maximiser l’information mu- 

tuelle revient alors à minimiser la quantité d’information que contient une image sur une autre, 

tout en maximisant l’information contenue dans une image. Ce qui correspond à maximiser la 

dépendance conditionnelle entre les images. 

Une autre définition de l’information mutuelle est donnée par la divergence de Kullback- 

Leibler [Kullback and Leibler, 1951], qui est définie pour deux distributions de densités de probabilité 

p et q, comme suit : 

. Partant toujours de l’équation 2.7, nous avons : 

i pi log pi 

qi 

I(M, N) = H(M) + H(N) − H(M, N) (2.52) 

= − 

p(n) log (p(n))) (2.53) 

n∈N 

− 

m∈M 

+ 

m∈M n∈N 

p(m) log (p(m))) (2.54) 

 

p(m, n) log (p(m, n)) (2.55) 

Par simple factorisation, nous obtenons une nouvelle définition de l’information mutuelle : 

I(M, N) = − 

m∈M n∈N 

 

p(m, n) 

p(m, n) log 

p(m)p(n) 

(2.56) 

qui correspond à la distance de Kullback-leibler entre la probabilité conjointe et le produit des 

probabilités marginales : 

I(M, N) = DKL(p(m, n)||p(m)p(n)) (2.57) 

Cette formulation de l’information mutuelle est très riche en information. Si les deux images 

sont indépendantes, la probabilité conjointe est égale au produit des probabilités marginales, ce 

qui annule la distance de Kullback-leibler : 

Si M et N sont indépendantes 

p(m, n) = p(m)p(n) ⇒ 

p(m, n) 

log ( ) = 0 

p(m)p(n) 

(2.58) 

⇒ DKL(p(m, n)||p(m)p(n)) = 0 (2.59) 

⇔ I(M, N) = 0 (2.60)


Dans le cas où les deux images s’expriment parfaitement ; cas du recalage absolu, les proba- 

bilités marginales sont égales à la probabilité conjointe : 

p(m, n) = p(m) = p(n) ⇒ DKL(p(m)||p(m) 2 ) = DKL(p(n)||p(n) 2 ) (2.61) 

⇔ H(M) = H(N) = I(M, N) (2.62) 

Dans ce sens, l’information mutuelle est une mesure de dépendance entre les images. Elle 

s’annule quand celles ci sont complètement indépendantes, et est maximale lorsque les deux 

images s’expriment mutuellement. Dans le cas de dépendance parfaite elle est égale aux entropies 

marginale des images. Le processus du recalage revient donc à maximiser la dépendance entre 

les images source et cible. 

Propriétés 

Des définitions précédentes, nous pouvons déduire les propriétés principales de l’information 

mutuelle : 

– I(M, N) = I(N, M) 

Cette propriété de symétrie n’a qu’un sens théorique. En pratique, elle n’est pas toujours 

vraie, notamment pour le recalage des images médicales. Plusieurs considérations font que 

le choix de l’image source et de l’image cible influence le calcul de l’information mutuelle. 

– I(M, M) = H(M) 

L’information que contient l’image M sur elle même est égale à son entropie. 

– I(M, N) = 0 si et seulement si M et N sont indépendantes. 

D’autres propriétés intéressantes de l’information mutuelle peuvent être dérivées à partir de 

l’inégalité de Jensen. Pour toute fonction F concave l’inégalité : 

est satisfaite. 

E[F (M)] ≤ F (E[M]) (2.63) 

Une fonction est dite concave quand sa dérivée seconde est négative partout sur son domaine 

de définition. Cette condition étant satisfaite pour la fonction log, l’inégalité de Jensen nous 

permet de prouver les inégalités suivantes : 

– H(M) ≥ 0 

– H(N) ≥ H(N/M) 

– I(M, N) ≥ 0 

– I(M, N) ≤ H(M) 

– I(M, N) ≤ H(N)


Information mutuelle : normalisation 

Entropies 

Recouvrement 

d'images 

I1 I2 

Solution: T1 Solution: T2 

Fig. 2.18 Dans ce diagramme I2 > I1, la solution du recalage est celle correspondant 

alors à T2, même si l’information partagée par les deux images est plus faible 

que celle donnée par T1 

L’information mutuelle a été développée initialement en théorie de la communication pour 

quantifier l’information échangée entre un émetteur et un récepteur. Dans le cadre du recalage 

d’images, en plus de dépendre des informations partagées par les images source et cible, elle 

dépend du volume de recouvrement des deux images qui change en fonction de la transformation 

géométrique appliquée à l’image source à un instant t. Dans la figure 2.18 par exemple, même 

si l’information partagée par les deux images est faible dans la solution donnée par la trans- 

formation T2, l’information mutuelle y est plus grande par rapport à la solution donnée par la 

transformation T1, qui correspond à la solution correcte du recalage. Afin de prendre en compte 

les changements de l’information mutuelle en fonction de la zone de recouvrement des images, il 

faudrait calculer cette dernière en fonction des informations contenues dans chacune des images 

à recaler. Pour ce faire [Studholme, 1997] a proposé une version normalisée de l’information


mutuelle qui correspond au rapport de l’entropie conjointe et des entropies marginales : 

Y (M, N) = 

H(M) + H(N) 

. (2.64) 

H(M, N) 

Des approches alternatives ont été proposées pour réaliser le même objectif. Elles incluent le 

rapport de corrélation entropique : 

et l’information exclusive : 

introduites par [Maes et al., 1997]. 

Ce(M, N) = 

2I(M, N) 

, (2.65) 

H(M) + H(N) 

ρ(M, N) = H(M, N) − I(M, N), (2.66) 

L’information mutuelle (et ses versions normalisées) étant définie en fonction des densités 

de probabilités conjointes et marginales, sa robustesse ainsi que sa précision dépendent alors 

des méthodes choisies pour déterminer les éléments de l’histogramme. Dans le paragraphe qui 

suit, nous exposerons les méthodes proposées dans la littérature, leurs avantages et leurs limites. 

Une partie de nos travaux portant sur les modèles d’estimation de densités de probabilité, nous 

reviendrons sur les principes théoriques de l’estimation dans le chapitre 5. 

Estimation des densités de probabilités 

Quand Collignon et Viola, chacun de leur côté, travaillaient sur ce qui allait devenir la mesure 

de similarité universelle en recalage des images, une seule chose différenciait leurs travaux : la 

méthode de calcul des densités de probabilités conjointes et marginales. 

De la méthode d’estimation dépend le temps de calcul et la précision de l’information mu- 

tuelle. Collignon, pour des raisons de précision, a négligé le facteur temps, et a préféré une 

méthode lente mais précise. Pour calculer les probabilités conjointes et marginales il a utilisé la 

méthode la plus directe : l’histogramme conjoint normalisé. 

Pour ce faire, il a restreint le nombre des niveaux de gris dans les deux images à 256. La taille 

de l’histogramme conjoint est alors de (256 2 ). Soit h(m, n) les entrées de l’histogramme conjoint, 

correspondant aux contingences des niveaux de gris m et n dans les deux images. h(m, n) dénote 

le nombre de fois que l’intensité m dans l’image M a coïncidé avec l’intensité n dans l’image N.


La probabilité conjointe est calculée par : 

pM,N(m, n) = 

h(m, n) 

h(m, n). 

 

m,n 

Les probabilités marginales peuvent être déduites directement : 

et 

pM(m) = 

pM,N(m, n), 

n 

pN(n) = 

pM,N(m, n). 

m 

Ce calcul de densités de probabilités présente deux principales limitations : 

– Le temps de calcul des densités de probabilités est conséquent, d’autant plus que que ce cal- 

cul s’effectue à chaque transformation géométrique (non-linéaires en général) intermédiaire 

de recalage, lors des itérations de l’algorithme. 

– La méthode de recalage est alors principalement discrète. En effet la formulation du pro- 

blème du recalage ne trouve pas de solution dans le domaine continu. Le fait que la fonction 

de recalage n’est pas dérivable, impose que la recherche de la transformation géométrique 

fasse appel aux méthodes d’optimisation stochastiques. Des méthodes quadratiques fondées 

sur le gradient ne sont donc pas exploitables. 

La méthode de recalage introduite par Collignon, représentait une avancée significative dans le 

domaine du recalage, et en particulier en recalage médical multimodal, mais elle tient peu compte 

du facteur temps qui est d’une importance non négligeable dans les phases d’interprétation 

d’images et de prise de décision. Ceci limite son application au cadre rigide du recalage. 

En revanche Viola a présenté une méthode de calcul des densités de probabilité, souvent 

qualifiée d’«élégante». Il a proposé d’utiliser une méthode d’estimation non-paramétrique dite 

«fenêtres de Parzen» : 

Soit A un échantillon de taille Na, la densité de probabilité d’une variable aléatoire z 

p(z) ≈ P ∗ (z, A) = 1 

 

R(z − zj) (2.67) 

NA 

zj∈A 

est la somme des contributions de chaque élément zj ∈ A ; contributions qui dépendent de la 

distance entre zj et z. 

La fonction R, dite noyau de Parzen détermine le poids de la contribution de chaque échan- 

tillon dans l’estimation de p(z). Plus l’échantillon est «loin» de z, moins il contribue dans le 

calcul de p(z). R est souvent appelée fonction de lissage ou fenêtre. La qualité de l’estimation


dépend à la fois de la nature de la fonction R de ses paramètres, notamment sa «largeur», et 

bien évidemment de la taille de l’échantillon d’estimation Na. 

Viola a choisi comme noyau R, une fonction gaussienne : 

R(z) ≡ Gψ(z − µ) = 

1 

(2π) n 

2 |ψ| 1 

2 

exp(− 1 

2 (z − µ)t ψ −1 (z − µ)). (2.68) 

Dans un espace de dimension n, la moyenne µ est un vecteur de taille d. La variance est remplacée 

par la matrice d × d de covariance ψ (|ψ| est le déterminant de ψ). Rappelons que la covariance 

est définie comme : 

ψij = E[(Zi − E[Zi])(Zj − E[Zj])], 

où Zi correspond au i ème composant de la variable aléatoire Z. Les éléments diagonaux de ψ ne 

sont rien d’autre que les variances. 

Dans le cadre de l’estimation, la fonction gaussienne évolue dans un espace bidimensionnel, 

elle est centrée sur les échantillons zj, µ est un vecteur nul, et la matrice de covariance est une 

matrice identité diagonale. 

P ∗ (z, a) = 1 

 

Gψ(z − zj) (2.69) 

NA 

z∈A 

= 1 

NA 

 

(2π) −1 |ψ| 

z∈A 

− 1 

2 exp (− 1 

2 (z − zj) T ψ −1 (z − zj)) (2.70) 

Le problème majeur posé par l’utilisation d’une méthode d’estimation telle que la méthode 

de Parzen est l’estimation des paramètres de la matrice de covariance. Dans une situation où 

l’on ne dispose d’aucune information sur la nature de l’évolution des données dans les images, et 

encore moins de leur évolution mutuelle (co-occurrence), ces paramètres ne peuvent être calculés 

correctement qu’au détriment d’un temps de calcul très élevé, ou de suppositions heuristiques 

sur le comportement des données des images. Ce point étant déterminant pour le système de pré- 

diction et par conséquent pour le recalage selon le schéma de Viola, nous nous sommes intéressés 

au méthodes d’estimation de densités de probabilités et plus particulièrement aux méthodes de 

prédiction des meta-paramètres (co-variance dans le cas d’une fonction à noyau gaussien) dans 

les méthodes d’estimation non-paramétriques. Une des contributions majeures de cette thèse 

est la proposition d’une méthode d’estimation non-paramétrique où le choix des paramètres est 

déterminé automatiquement avec une complexité et un temps de calcul acceptables. 

Pour mieux illustrer cette difficulté nous allons développer la méthode proposée par Viola :


L’entropie d’une image exprimée par : 

H(z) ≈ −Ez[log P ∗ ∞ 

(z)] = − log P 

−∞ 

∗ (z)dz (2.71) 

est difficile à évaluer voire impossible. Cette intégrale peut néanmoins être approximée par une 

moyenne empirique : 

H(z) ≈ − 1 

 

log P ∗ (zi) (2.72) 

NB 

zi∈B 

où NB est la taille d’un second échantillon B. L’approximation de l’entropie s’écrit alors : 

H(z) ≈ − 1 

 

NB 

zi∈B 

log 1 

NA 

 

Gψ(zi − zj). (2.73) 

Deux échantillons sont alors nécessaires pour l’approximation de l’entropie. Le premier intervient 

dans l’estimation de la densité de probabilités, le deuxième dans le calcul de l’entropie proprement 

dite. En appliquant cette formule pour calculer les entropies marginales et conjointe intervenant 

dans le calcul de l’information mutuelle on obtient : 

H(m(x)) = − 1 

H(n(T(x))) = − 1 

H(m(x), n(T(x))) = − 1 

où w = [m(xi), n(T(x i ))] t . 

 

NB 

xi∈B 

 

NB 

xi∈B 

 

NB 

xi∈B 

log 1 

NA 

log 1 

NA 

log 1 

NA 

zj∈A 

 

xj∈A 

 

xj∈A 

 

xj∈A 

Gψm (m(xi) − m(xj)). (2.74) 

Gψn (n(T(xi )) − n(T(xj ))). (2.75) 

Gψmn (w(T(xi )) − w(T(xj ))). (2.76) 

Les paramètres de la matrice de covariance ψ doivent être choisis de façon à ce que P ∗ (z) 

soit la meilleure estimation de p(z). En d’autres termes, ψ est choisie pour que l’échantillon 

B ait la meilleure vraisemblance. Supposant que les épreuves dans B sont indépendantes, la 

log-vraisemblance de ψ s’écrit : 

log 

zi∈B 

P ∗ (zi) = 

log P ∗ (zi) (2.77) 

zi∈B 

Cette équation ressemble à l’équation 2.72. En fait, la log-vraisemblance de ψ est maximale 

quand l’estimateur de l’entropie h ∗ (z) est minimal. Pour des considérations de simplifications


calculatoires, Viola suppose que la matrice de covariance est diagonale : 

ψ = DIAG(σ 2 1, σ 2 2, . . . ). 

Les paramètres σk sont calculés en utilisant un schéma d’optimisation type gradient conjugué 

([Press et al., 1988]) : 

où λ est le coût d’apprentissage. 

σk = σk + λ d 

H 

dσk 

∗ (z), (2.78) 

La recherche des coefficients de la matrice de covariance s’effectue avant la recherche de la 

transformation géométrique, ce qui induit une complexité algorithmique supplémentaire et de 

surcroît un temps de calcul significativement plus élevé. 

Cette contrainte a motivé Viola et d’autres chercheurs s’inspirant de son schéma à fixer 

les paramètres d’estimation. Ceci nécessite une certaine connaissance de la nature des images à 

traiter. Ces paramètres doivent être changés ou modulés chaque fois que l’on change de modalités 

ou tout simplement de zone anatomique. D’autres travaux par la suite ont concerné le pré- 

traitement des images à des fins de recalage par information mutuelle selon le schéma de Viola. 

Ce sont justement ces difficultés qui nous ont poussées à explorer dans un premier temps de 

nouvelles mesures de similarités fondées sur la notion d’entropie généralisée introduite par Rényi 

[Rényi, 1959], et par la suite à proposer une nouvelle méthode non-paramétrique d’estimation de 

densités. 

2.4 Synthèse du chapitre 

Ce chapitre a présenté la problématique du recalage d’images médicales, et a couvert les 

deux approches principales proposées pour sa résolution : l’approche géométrique et l’approche 

iconique. 

Ce chapitre a commencé par un exemple simplifié du recalage, et ce afin d’en définir le for- 

malisme mathématique. Se basant sur cet exemple, et en augmentant au fur et à mesure sa 

complexité des schémas de résolution ont été proposés. Le premier schéma a concerné l’approche 

géométrique. Deux exemples d’algorithmes appartenant à cette classe ont été donnés : l’apparie- 

ment de points, et l’appariement de surfaces. Les limites de cette approche ont été illustrées en 

démontrant son inadéquation au cadre multimodal du recalage et a fortiori au cadre multimodal 

structurel-fonctionnel.

2.4 Synthèse du chapitre 57 

Par la suite, l’approche iconique a été introduite. Dans la suite des travaux de [Costa et 

al., 1993], [Viola, 1995], [Leventon and Grimson, 1998] et [Roche et al., 2000], le problème du 

recalage a été formulé comme un problème d’inférence statistique. Cette approche se fonde en 

premier lieu sur un modèle probabiliste de dépendance entre les images et en second lieu sur un 

estimateur destiné à identifier ce modèle. Selon les différentes hypothèses émises sur la nature 

de dépendance entre les intensités, différentes méthodes ont introduites. Les quatre hypothèses 

sont : la conservation d’intensité, la dépendance affine, la dépendance fonctionnelle et la dépen- 

dance statistique. Concernant cette dernière hypothèse, un accent particulier a été mis sur les 

méthodes utilisant l’information mutuelle. Par la suite, la limite de l’entropie conjointe, et la 

nécessité d’intégrer les entropies marginales, due au problème du recouvrement partiel, ce qui 

aboutit à l’information mutuelle ont été illustrés. En outre, a été mis en exergue la nécessité 

de normalisation de l’information et ont été présentées les différentes variantes normalisées de 

l’information mutuelle. 

Enfin, ce chapitre se termine par une discussion sur le temps de calcul que requiert l’infor- 

mation mutuelle dans un cadre de recalage. Pour illustrer ce fait, une comparaison des deux 

algorithmes pionniers proposés par Collignon d’un côté et Viola de l’autre a été effectuée. Un 

aspect particulier a été étudié : l’évaluation de l’histogramme conjoint. Ceci a permis de mettre 

en évidence la nécessité de faire appel à une méthode d’estimation pour calculer l’histogramme 

conjoint. Ainsi, des modèles de déformation non-linéaires peuvent être envisagés.

Chapitre 3 

Recalage non-rigide des images 

Dans le chapitre précédent, nous avons présenté le cadre théorique du recalage des images 

médicales. Deux approches principales ont été étudiées : l’approche géométrique et l’approche 

iconique. En revanche, un point crucial du recalage des images n’a toujours pas été abordé : le 

modèle de déformation. 

Dans ce chapitre, nous présenterons brièvement les différentes classes de transformations 

ainsi que leur implication dans le recalage des images médicales. Nous introduirons les modèles 

linéaires, puis les modèles non-linéaires et nous nous attarderons sur les modèles fondées sur les 

déformations «splines». 

3.1 Recalage des images : approche linéaire 

Une transformation linéaire se définie de la sorte : x ↦→ Anx + bn , où n est la dimension, An 

est une application linéaire de dimension n × n, et bn est un vecteur de translation de dimension 

n × 1. Ces transformations linéaires peuvent être rigides, affines, ou projectives : 

3.1.1 Transformation 3D globale rigide 

La transformation 3D globale la plus simple à envisager est la transformation rigide. Cette 

transformation est a priori appropriée au recalage d’images cérébrales monomodalité et mono- 

patient (le crâne étant considéré comme un objet 3D rigide). 

Une transformation rigide 3D est une isométrie de R 3 conservant l’orientation (transforma- 

tion directe par opposition aux symétries qui sont des isométries indirectes). Une transformation 

59

60 Recalage non-rigide des images 

rigide est donc tout simplement la composée d’une rotation et d’une translation. Dans la littéra- 

ture du recalage, certains auteurs considèrent que les transformations composées d’une rotation, 

d’une translation et d’un ou plusieurs facteurs de mise à l’échelle (donc isotrope ou anisotrope) 

sont aussi des transformations rigides. Cependant si l’on s’appuie sur la définition exacte d’une 

transformation rigide ce n’est pas vrai. 

Pour les transformations globales, on considère comme rigides, toutes les isométries du plan 

ou de l’espace qui conservent l’orientation. Pour les transformations locales, on considère comme 

rigides, toutes les compositions de transformations rigides au sens de la rigidité globale. Si T 

est une transformation rigide, alors T est une fonction de R 3 dans R 3 , qui à tout point (x, y, z) 

d’une image associe le point transformé (x ′ , y ′ , z ′ ), et est définie par : 

T(x, y, z) = (x ′ , y ′ , z ′ ) t = T + R(x, y, z) t , (3.1) 

où T est un vecteur de translation et R est une matrice (3 × 3) de rotation, donc orthogonale et 

de déterminant unitaire (i.e. orthonormale) pour satisfaire la conservation de l’orientation (pas 

de facteur d’échelle non plus). 

Dans ce cas, An est une matrice de rotation (An = R), elle a les propriétés suivantes : 

AA t = A t A = I et det A = +1. Dans le cas d’une symétrie nous avons det A = −1. 

Une telle transformation présente l’avantage d’être globale. Non seulement, c’est une trans- 

formation continue certes à support discret, puisque l’image d’une courbe est une courbe, mais 

en plus cette transformation conserve les angles et les formes (l’image d’un tétraèdre est un 

tétraèdre de même nature). 

Cette transformation rigide peut donc être utilisée uniquement pour recaler deux images ne 

présentant pas d’évolution de structures (croissance du crâne, ou modification de la position ou 

du volume d’une sous-structure) et dont les imageurs n’ont pas induit de distorsions. Néanmoins, 

on peut se servir d’une telle transformation comme bonne approximation d’une transformation 

faiblement élastique. 

3.1.2 Transformation affine 

C’est une similitude, c’est à dire une transformation rigide à laquelle on ajoute une affinité 

Sn(An) = SRn; sij = 0 pour i = j. Dans le cas particulier où les coefficients sii, i = 1 . . . n sont 

identiques, Sn est appelée homothétie. Sn porte alors les facteurs d’échelle selon les différentes 

directions de l’espace d’évolution. Cette transformation est employée à la fois pour des recalages 

de données multimodales (cas où le facteur d’échelle est mal connu), et pour des recalages inter- 

sujets (dans la phase initiale).

3.1 Recalage des images : approche linéaire 61 

Une transformation affine 3D est définie par douze coefficients aij. La relation entre les 

coordonnées dans une image et les coordonnées dans l’autre image est donnée par le système 

d’équations : 

⎛ 

x 

⎜ 

T(x, y, z) = ⎜ 

⎝ 

′ 

y ′ 

z ′ 

⎞ 

⎟ 

⎠ 

1 

= 

⎛ 

⎜ 

⎝ 

a00 a01 a02 a03 

a10 a11 a12 a13 

a20 a21 a22 a23 

0 0 0 1 

⎞ ⎛ ⎞ 

x 

⎟ ⎜ ⎟ 

⎟ ⎜ 

⎟ ⎜ 

y ⎟ 

⎟ ⎜ 

⎠ ⎝ z 

⎟ 

⎠ 

1 

On peut décomposer la matrice de transformation affine en la matrice B = 

et le vecteur T = (a03, a13, a23) t qui est un vecteur de translation. 

⎛ 

⎜ 

⎝ 

a00 a01 a02 

a10 a11 a12 

a20 a21 a22 

(3.2) 

– Si B = I (matrice identité), la transformation se réduit évidemment à une translation. Dans 

le cas particulier où B est une matrice de rotation, nous retrouvons une transformation 

rigide. 

– Si B = Diag(Sx, Sy, Sz), la transformation est une mise à l’échelle (avec les facteurs Sx 

selon x, Sy selon y et Sz selon z). 

L’écriture de cette transformation est généralement simplifiée par l’utilisation des transfor- 

mations homogènes [Newman and Sproull, 1979], qui permet de rassembler ces différentes trans- 

formations dans la même matrice M, où dans le cas 3D (n = 3) M se forme de la manière 

suivante : 

p ′ c = M.p ′ s ; M = M1.S ; M1 = 

⎛ 

⎞ 

s0 

⎜ 

S = ⎜ 

0 

⎜ 

⎝ 0 

0 

s1 

0 

0 

0 

s2 

0 

⎟ 

0 ⎟ 

0 

⎟ 

0 0 0 1 

⎛ 

⎜ 

⎝ 

⎛ 

⎜ 

⎝ 

⎠ ; p′ • = 

r00 r01 r02 

r10 r11 r12 

r20 r21 r22 

⎞ 

⎟ 

⎠ 

t1 

t2 

t3 

0 0 0 1 

⎛ ⎞ 

⎜ 

⎝ 

p ′ •1 

p ′ •2 

p ′ •3 

w• 

⎟ ; • ∈ {c, s} 

⎠ 

avec ws = 1, pi = p′ i 

w , (dans le cas rigide et affine, on prend w = 1) et où rij, ti et si sont 

respectivement les coefficients de rotation, de translation et de facteur d’échelle. De cette manière 

la transformation T : ps ↦→ pc s’exprime : 

pci 

= 

j 

mijpsj . 

⎞ 

⎟ 

⎠ ; 

⎞ 

⎟ 

⎠


Une extension de cette transformation concerne l’utilisation de transformations affines par mor- 

ceaux, utilisées dans le cas de recalage inter-sujets. La méthode du Quadrillage Proportionnel de 

Talairach en est l’exemple le plus connu [Talairach and Tournoux, 1988]. 

3.1.3 Transformation projective 

L’extension la plus directe des transformations affines sont les transformations inférant une 

perspective (ou une projection). 

C’est une transformation rigide (ou affine) qui permet de transformer un amer géométrique 

dans R n vers un espace de dimension inférieure R n−m (pour plus de détails sur cette classe 

de transformation, le lecteur peut se référer à [Faugeras, 1993]). Le cadre général d’utilisation 

de cette transformation est principalement pour des recalages 3D/2D, comme par exemple le 

recalage de radiographies sur des données Scanner X ou IRM [Bainville et al. 1995 ; [Betting et 

al., 1995] ; [Brown and Boult, 2002] ; [Fleute et al., 2002] ; [Zollei et al., 2001], [Atif et al., 2004]]. 

Dans le cas d’une transformation projective recalant par exemple une structure 3D sur une 

structure 2D, on définit une matrice M2 dont les coefficients m2ij sont constants et dépendent 

des équations reliant ps à pc. Dans ce cas le coefficient wc est différent de 1. Ainsi pour une 

projection perspective sur le plan (z = αc + b), M2 prend la valeur suivante : 

p ′ c = M ′ p ′ s; M ′ = M2M; M2 = 

⎛ 

⎞ 

c 

⎜ 

0 

⎜ 

⎝ 0 

0 

c 

0 

0 

0 

α 

0 

⎟ 

0 ⎟ 

α c + b 

⎟ 

⎠ 

1 c 

où c est un coefficient de projection (distance focale par exemple). Ainsi nous avons : 

p ′ 

ci = 

j 

m ′ ijp ′ sj ; pcj = p′ ci 

w 

Pour les transformations projectives, l’alignement n’est conservé que pour les horizontales et 

les verticales, donc l’image d’une droite n’est une droite que si elle est verticale ou horizontale. 

Dans un cadre général, l’image d’une droite est une conique. Notons enfin que la transformation 

projective conserve tout de même les rapports de longueurs sur une courbe.

3.2 Recalage des images : approche non-linéaire 63 

3.2 Recalage des images : approche non-linéaire 

Étant donné que des transformations locales sont à prendre en compte, un critère de régu- 

larisation doit être alors utilisé pour que le problème du recalage ne se transforme pas en une 

procédure de «morphing». En recalage d’images, à cause de certains facteurs tel que le bruit 

qui corrompt les mesures ou un résidu non corrigé, deux primitives homologues ne doivent pas 

nécessairement être parfaitement alignées. L’estimation du mouvement nécessite donc une régu- 

larisation de l’estimation [Neumaier, 1998], c’est à dire une contrainte sur la forme de la solution 

par une connaissance a priori de celle-ci. 

Le critère global du recalage est alors une association de deux énergies : le critère de similarité 

entre les deux images et une énergie de régularisation de la déformation : 

Sg(M, N) = − E 

sim(M, 

N) + Ereg(T) (3.3) 

 

T 

Lors de la procédure d’optimisation, l’énergie de régularisation est mise en compétition avec 

l’énergie de similarité, la similarité des images et la régularité de la transformation étant anta- 

gonistes. 

3.2.1 Transformation élastique 

Les techniques de recalage élastique ont été proposées dans un premier temps par [Bajcsy 

et al., 1983] pour la mise en correspondance entre un atlas du cerveau et les données tomoden- 

sitométriques d’un sujet humain. L’idée est de modéliser la déformation de l’image source dans 

l’image cible comme un processus physique qui ressemble à l’étirage d’un matériau élastique. Ce 

processus physique est régi par deux forces : une force interne provoquée par la déformation du 

matériau élastique (c.-à-d. effort) qui contrecarre toute force externe qui déforme le corps élas- 

tique de son état d’équilibre. Une force externe qui agit sur le corps élastique. Par conséquent la 

déformation du corps élastique s’arrête si les deux forces agissant sur le corps élastique forment 

un état d’équilibre. Le comportement du corps élastique est décrit par l’équation de dérivées 

partielles élastique linéaire de Navier (EDP) : 

µ∇ 2 u(x, y, z) + (λ + µ)∇(∇ . u(x, y, z)) + g(x, y, z) = 0. (3.4) 

Ici u décrit le champ de déplacement, g est la force externe agissant sur le corps élastique, ∇ 

dénote l’opérateur de gradient et ∇ 2 dénote l’opérateur de Laplace. Les paramètres µ et λ 

sont les constantes d’élasticité de Lamé qui décrivent le comportement du corps élastique. Ces


constantes sont souvent interprétées en termes du module E1 de Young, qui relie la «tension» 

(strain) à la «contrainte» (stress) d’un objet, et du rapport E2 de Poisson, qui est le rapport 

entre la contraction latérale et la dilatation longitudinale : 

E1 = 

µ(3λ + 2µ) 

λ + µ 

E2 = 

λ 

2(µ + λ) 

La force externe g est la force qui agit sur le corps élastique et qui guide le procédé de recalage. 

Un choix commun pour la force externe est le gradient d’une mesure de similarité comme par 

exemple une mesure locale de corrélation basée sur les intensités. 

(3.5) 

L’équation EDP 3.4 peut être résolue par les méthodes de différences finies et de sur- 

relaxations successives (SOR) (Successive Over-Relaxation) [Press et al., 1988]. Ce faisant, un 

champ discret de déplacement est produit pour chaque voxel. Alternativement, l’EDP peut être 

résolue pour seulement un sous-ensemble de voxels qui correspondent aux nœuds d’un modèle 

d’éléments finies [Gee et al., 1997], [Haynor et al., 1998]. Ces nœuds forment un ensemble de 

points pour lesquels les forces externes sont connues. Les déplacements des autres voxels sont 

obtenus par interpolation des éléments finis. Davatzikos [Davatzikos, 1997] a proposé une exten- 

sion du cadre élastique du recalage pour tenir compte des paramètres variables dans l’espace 

d’élasticité. Ceci permet à certaines structures anatomiques de se déformer plus librement que 

d’autres. 

3.2.2 Transformation fluide 

Le recalage fondé sur les transformations élastiques est limité par le fait que des déformations 

fortement locales ne peuvent être considérées puisque l’énergie de déformation liée à l’effort in- 

terne augmente proportionnellement avec la force de déformation. Dans le cadre du recalage 

fluide ces contraintes sont affaiblies avec le temps ce qui permet de modéliser des déformations 

fortement locales comprenant des coins. Ceci rend le recalage fluide particulièrement attrayant 

pour le recalage inter-sujets (recalage d’atlas compris) qui doivent considérer de fortes déforma- 

tions avec de grands degrés de variabilité. 

Les déformations élastiques sont souvent décrites dans un référentiel lagrangien, c.-à-d. par 

rapport à leur position initiale. Contrairement à cela, les déformations élastiques sont plus com- 

modément décrites dans un référentiel Eulerien, c.-à-d. par rapport à un volume de contrôle. Dans 

le référentiel Eulerien, les déformations du recalage élastique sont caractérisées par l’équation de 

dérivées partielles de Navier-Stokes, 

µ∇ 2 v(x, y, z) + (λ + µ)∇(∇ . v(x, y, z)) + g(x, y, z) = 0. (3.6)


qui ne diffère de l’équation 3.4 que par le fait que la dérivée est effectuée selon le champ v de 

vélocité plutôt que selon le champ u de déplacement. Le rapport entre la vélocité Eulerienne et 

le champ de déplacement est donné par : 

v(x, y, z, t) = 

∂u(x, y, z, t) 

∂t 

+ v(x, y, z, t) . ∇u(x, y, z, t). 

Pour résoudre l’equation 3.6, Christensen [Christensen et al., 1996] a suggéré l’utilisation de la 

méthode de «sur-relaxation successive» (SOR). Cependant, l’algorithme résultant requiert un 

temps de calcul conséquent. [Bro-Nielsen and Gramkow, 1996] ont proposé une variante plus 

rapide. Ici, l’equation 3.6 est résolue en dérivant un filtre de convolution à partir des fonctions 

propres de l’opérateur linéaire d’élasticité. [Bro-Nielsen and Gramkow, 1996] ont également fait 

remarquer que ceci revient à une régularisation par convolution avec un filtre gaussien comme 

proposé dans la méthode de recalage non-rigide proposée par Thirion [Thirion, 1998], où la 

déformation est modélisée par un processus de diffusion. Cependant, résoudre l’équation 3.6 par 

convolution n’est possible que si la viscosité est supposée constante ce qui n’est pas toujours le 

cas. Pour remédier à cela, Lester [Lester et al., 1999] a proposé un modèle dans lequel on permet 

à la viscosité du fluide de varier, et tient compte donc de différents degrés de déformabilité pour 

différentes parties de l’image. L’équation 3.6 doit alors être résolue en utilisant des schémas 

numériques conventionnels tels que SOR. 

3.2.3 Méthodes d’éléments finis et modèles mécaniques 

Comme mentionné précédemment, l’EDP des déformations élastiques peut être résolue par 

les méthodes d’éléments finis (MEF). [Edwards et al., 1998] ont proposé une version simplifiée des 

MEF afin de modéliser les déformations des tissus mous dans un cadre de chirurgie assistée par 

ordinateur. Pour simuler les propriétés des structures rigides, élastiques et fluides ils proposent un 

modèle à trois phases . L’image est divisée en maille triangulaire à n nœuds connectés φi. Chaque 

nœud est marqué selon les propriétés physiques des structures anatomiques fondamentales : Par 

exemple, l’os est marqué comme rigide, les tissus mous comme élastiques et le FCS (Fluide 

Cérébro-Spinal) comme fluide. Tandis que des nœuds marqués en tant que rigides sont maintenus 

fixes, des nœuds marqués comme élastiques ou fluides sont déformés en réduisant au minimum une 

fonction d’énergie. [Edwards et al., 1998] ont proposé différents termes d’énergie pour contraindre 

les déformations : par exemple, des nœuds marqués comme élastique peuvent être contraints par 

une énergie de tension : 

E tension (φi, φj) = |φj − φi − φ 0 i,j| 2 ,


où φ 0 i,j 

correspond à la relaxation entre deux nœuds. Un choix alternatif pour les nœuds marqués 

comme élastiques est de considérer une énergie de rigidité (stiffness) : 

E rigidité (φi, φj, φk) = |φj − φk − 2φi| 2 . 

Les nœuds marqués comme fluides ne sont associés ni à l’énergie de tension ni à l’énergie de 

rigidité. En revanche ils ont une énergie d’élasticité (folding) : 

E élasticité/folding (φi, φj, φk) = 

A 2 

γ 2 A 2 0 

+ γ2 A 2 0 

A 2 

si A 

A0 

2 ailleurs 

où A0 est l’aire du triangle non-déformé, A est l’aire du triangle déformé et γ est un seuil de 

l’aire triangulaire au-dessus duquel la contribution d’énergie est constante. Cette énergie empêche 

le développement des singularités dans la transformation, c.-à-d. ou repliement des triangles 

(collapsing). Dans la variante proposée par [Edwards et al., 1998] le recalage est guidé par une 

mesure de similarité qui réduit au minimum la distance entre des points repères correspondants. 

3.2.4 Flot optique 

Une technique de recalage bien connue est la méthode fondée sur le flot optique. Par analogie, 

le flot optique est équivalent à l’équation de mouvement des écoulements incompressibles en 

mécanique des fluides [Horn and Schunck, 1980]. À l’origine, le concept du flot optique a été 

introduit en vision par ordinateur afin de recouvrer le mouvement d’un objet relativement à une 

visionneuse entre deux trames successives, dans une séquence temporelle d’images. Il repose sur 

l’hypothèse fondamentale que la luminosité (brightness) d’un point particulier d’une image reste 

constante entre deux trames successives, c.-à-d. 

≤ γ 

I(x, y, z, t) = I(x + δx, y + δy, z + δz, t + δt). (3.7) 

En utilisant le développement de Taylor et en ignorant les termes d’ordre supérieur, l’équation 

de flot optique 3.7 peut être réécrite comme : 

Qui peut s’écrire : 

∂I dx ∂I dy ∂I dz ∂I 

+ + + 

∂x dt ∂y dt ∂z dt ∂t 

= 0. (3.8) 

∆I + ∇I.u = 0, (3.9)


où ∆I est la différence temporelle des images, ∇I est le gradient spatial de l’image et u est la 

quantité de mouvement entre les deux images. En général, des contraintes de régularité supplé- 

mentaires sont imposées au champ de mouvement u afin d’obtenir une estimation plausible du 

flot optique. 

3.2.5 Splines 

Le terme «splines» se rapporte à l’origine à de longues bandes flexibles de bois ou de métal 

auxquelles on attachait des poids pour modeler les surfaces des bateaux et des avions. Un concept 

très semblable est employé pour exprimer des transformations spatiales. Par exemple, une trans- 

formation 2D peut être représentée par deux surfaces séparées dont les hauteurs au-dessus d’un 

plan correspondent au déplacements dans les directions horizontales ou verticales. 

Un grand nombre de techniques de recalage utilisant les splines sont fondées sur l’hypothèse 

qu’un ensemble de points homologues peuvent être identifiés dans les images source et cible. 

Ceci est analogue à l’approche géométrique du recalage rigide ou affine. Ces points homologues 

sont appelés points de contrôle. À ces points de contrôle, les transformations splines interpolent 

ou approximent les déplacements qui sont nécessaires à mettre en correspondance la position 

d’un point de contrôle dans l’image cible à son homologue dans l’image source. Les points de 

contrôle forment entre eux un champ de déplacement qui varie de façon régulière. La condition 

d’interpolation s’écrit : 

T(φi) = φ ′ i i = 1, . . . , n, (3.10) 

où φi dénote la position du point de contrôle dans l’image source et φ ′ i 

la position de son ho- 

mologue dans l’image cible. Il est une multitude de façons de déterminer les points de contrôle. 

Par exemple, les repères anatomiques ou géométriques qui figurent dans les deux images peuvent 

être utilisés pour définir la correspondance fondée sur les splines qui peut aligner les positions 

des repères dans l’image source avec leurs homologues dans l’image cible. 

Les plaques minces, splines généralisées 

L’idée de base de cette théorie de l’interpolation des fonctions à deux variables est due à 

Duchon [Duchon, 1976], et la formalisation a été mise en place par Meinguet [Meinguet, 1979]. La 

théorie des plaques minces fait partie d’une famille plus large de splines fondés sur les fonctions 

à base radiale. Ces dernières années, ils ont été largement utilisés en recalage non-rigide des 

images. Les fonctions spline à base radiale sont obtenues par une combinaison linéaire de n


fonctions θ(s) : 

t(x, y, z) = a1 + a2x + a3y + a4z + 

n 

bjθ(|φj − (x, y, z)|). (3.11) 

En définissant la transformation comme trois fonctions plaques minces séparées : T = (t1, t2, t3) t , 

on obtient une correspondance géométrique entre les images dans laquelle les coefficients a ca- 

ractérisent la partie affine de la transformation spline et les coefficients b caractérisent la partie 

non-affine de la transformation. La condition d’interpolation définie dans l’équation 3.10 forme 

un ensemble de 3n équations linéaires. Pour déterminer les 3(n + 4) coefficients, douze équations 

supplémentaires sont nécéssaires. Ces douze équations assurent que la somme des coefficients 

non-affines b est égale à 0 et que leur produit avec les coordonnées x, y et z est nul. Sous une 

forme matricielle ceci peut se traduire par : 

 

Θ Φ 

Φ T 0 

 

b 

a 

 

= 

j=1 

 

Φ ′ 

0 

 

. (3.12) 

Ici a est un vecteur 4×3 regroupant les coefficients affines a, b est un vecteur n×3 regroupant les 

coefficients non-affines b, et Θ est la matrice noyau avec Θij = θ(|φi − φj|). Résoudre ce système 

d’équations pour a et b en utilisant des méthodes algébriques conduit à une transformation 

spline plaque-mince. 

La fonction radiale des splines plaque-mince est définie par : 

θ(s) = 

 

|s| 2 log (|s|) en 2D 

|s| en 3D 

. (3.13) 

D’autres fonctions radiales peuvent être utilisées, le choix le plus commun porte sur les mul- 

tiquadriques et les fonctions gaussiennes [Arad et al., 1994] [Davis et al., 1997]. Modéliser les 

déformations des images par le biais des splines plaque-mince présente nombre d’avantages. Elles 

peuvent par exemple être utilisées pour incorporer des contraintes supplémentaires comme la 

rigidité des corps [Little et al., 1997] ou des contraintes directionnelles dans la transformation de 

l’image cible [Bookstein and Green, 1993] . 

B-splines 

Généralement les fonctions radiales ont un support fini. Par conséquent chaque fonction 

contribue à la transformation et chaque point de contrôle a une influence globale sur la transfor- 

mation.


Les fonctions B-spline β n (x) présentent d’intéressantes propriétés. Elles sont, entre autres 

[Unser et al., 1993a] [Unser et al., 1993b] , des fonctions régulières et leurs dérivées sont explicites. 

Ce sont des fonctions polynomiales par morceaux de degré n ≥ 0 qui peuvent être définies par 

une convolution récursive : 

où β 0 est l’impulsion carrée unité : 

β n (x) = (β n−1 ∗ β 0 )(x) 

= 

+∞ 

et où la fonction «sign» est définie par : 

−∞ 

β n−1 (x)β 0 (x − t)dt, n > 0 

β 0 (x) = 1 

 

sign(x + 

2 

1 1 

) sign(x − 

2 2 ) 

 

⎧ 

⎪⎨ −1, x < 0 

sign(x) = 0, 

⎪⎩ 

1, 

x = 0 

x > 0 

Dans plusieurs cas de figure, l’influence globale des points de contrôle est indésirable puisqu’il 

devient difficile de modéliser des déformations locales. En outre, pour un grand nombre de points 

de contrôle la complexité calculatoire des splines fonctions radiales devient prohibitive. Une 

alternative est d’employer les déformations de formes libres (FFDs) qui sont largement répandues 

en infographie. 

3.2.6 Déformations de formes libres 

En premier lieu, notons que les déformations libres sont des déformations de l’espace. En 

effet, l’idée de base derrière les déformations libres est très simple ; elle consiste à plonger l’objet à 

déformer dans un espace et à déformer cet espace. Les déformations faites sur l’espace sont ensuite 

appliquées à l’objet plongé et le déforment. Il faut aussi noter que cette forme de déformations 

libres est une déformation dite indirecte : on ne déforme pas directement l’objet, on se sert plutôt 

d’un outil de déformation intermédiaire (les points de contrôle) afin de parvenir à nos fins. 

Inspirés en partie par les déformations non-linéaires de [Barr, 1984], [Sederberg and Parry, 

1986] proposent une façon simple et conviviale de déformer de modèles, qu’ils ont baptisé les 

déformations libres. Le procédé se résume en trois étapes principales :


1. Créer un volume ayant la forme d’un parallélépipède autour de l’objet et imposer des 

coordonnées locales à chaque point de l’objet à déformer 

2. Imposer une grille de points de contrôle sur le parallélépipède 

3. Déformer l’objet en bougeant les points de contrôle 

La première étape est simple à réaliser. Il s’agit simplement de paramétriser l’objet selon les trois 

vecteurs de base S, T et U selon l’equation 3.14 (voir figure 3.1). 

X = X0 + sS + tT + uU, (3.14) 

où u, v et t sont des variables paramétriques qui varient entre 0 et 1. X0 est la coordonnée 

cartésienne du point de départ (origine) du système paramétrique. 

Fig. 3.1 Espace FFD 

Lors de la deuxième étape, il s’agit de positionner les points de contrôle sur le parallélépipède 

selon l’équation : 

Pijk = X0 + j i k 

S + T + U, (3.15) 

l m n 

où l + 1, m + 1 et n + 1 sont les nombres de points de contrôle selon chaque axe tel que spécifié 

par l’opérateur. La variable X0 est la coordonnée cartésienne du point de départ (origine) du 

système paramétrique. Les variables i, j et k sont les indices (entre 0 et le nombre de points de 

contrôle selon chaque axe) du point de contrôle concerné.

3.3 Recalage des images : approche hybride 71 

Enfin, lors de la troisième étape, la déformation est appliquée sur l’objet à l’aide du poly- 

nôme de Bernstein trivarié dont le degré dépend du nombre de points de contrôle demandés par 

l’opérateur. 

La transformation est illustrée par l’équation suivante : 

Xffd = 

l 

 

l 

(1 − s) 

i 

(l−i) s i 

⎡ 

m 

 

⎣ 

m 

(1 − t) 

j 

(m−j) t j 

 

n 

 

k 

n 

i=0 

j=0 

k=0 

(1 − u) (n−k) u k Pijk 

⎤ 

⎦ 

(3.16) 

où Xffd est la coordonnée cartésienne du point transformé. l + 1, m + 1 et n + 1 sont les nombres 

de points de contrôle selon chaque axe. Pijk est le i, j,k ième point de contrôle selon chaque axe. 

s, t et u sont les coordonnées paramétriques du point de l’objet à transformer. 

Comme dans le cas des surfaces paramétriques, les transformations libres ont les mêmes 

avantages et inconvénients que les courbes de Bézier, à savoir : 

1. Les déformations sont globales. 

2. Les points déformés se trouvent toujours à l’intérieur de l’espace défini par les points de 

contrôle. 

3. La déformation est indirecte (on ne peut manipuler directement les points de l’objet). 

4. Il est possible de choisir une autre base de fonction de mélange et ainsi bénéficier des 

avantages et inconvénients de la base choisie. 

Notons qu’il est possible d’utiliser des fonctions de déformation autre que le polynôme de 

Bernstein. Dans notre modèle, pour modéliser les déformations locales des organes, nous utilisons 

un modèle de déformations de formes libres où l’on se sert de fonctions B-splines. 

3.3 Recalage des images : approche hybride 

Après ce bref tour d’horizon, nous allons à présent introduire notre modèle de déformation 

qui correspond à une combinaison d’une déformation globale et de déformations locales : 

T(x, y, z) = T globale (x, y, z) + T locale (x, y, z) (3.17) 

Ce choix est motivé par deux considérations : la première concerne la précision. Comme nous 

l’avons expliqué dans les sections précédentes, de plus en plus d’applications médicales néces- 

sitent la prise en compte des déformations locales dans les images. En se restreignant à une 

transformation globale ces déformations sont alors ignorées et l’«approximation» du recalage 

n’est que peu plausible. La deuxième considération est d’ordre calculatoire. En effet, formuler


le modèle de déformation par le biais de deux transformations disjointes permet d’accélérer le 

temps de calcul. En pratique, au lieu de ne considérer que le modèle non-linéaire (y compris les 

déformations libres) pour retrouver les correspondances géométriques globales (affines et rigides), 

il est judicieux de procéder dans un premier temps par une approximation globale en utilisant 

des modèles globaux directs (transformation affine globale). Ainsi, les degrés de liberté ne sont 

que de l’ordre de douze au lieu de |3000| dans le cas d’une déformation libre avec une grille de 

|10 × 10 × 10| points de contrôle. 


Ce chapitre vient de traiter du problème des déformations lié au recalage d’images médi- 

cales. Il a commencé par une présentation des déformations linéaires globales. Ces déformations 

englobent la transformation rigide, la transformation affine et la transformation projective. 

Par la suite, une présentation des recalages non-linéaires a été donnée. Le problème du re- 

calage a été formulé pour le cadre non-linéaire. Cette formulation intègre un nouveau terme dit 

énergie de régularisation. Le critère globale du recalage prend alors la forme d’une somme de 

deux énergies : l’énergie de similarité et l’énergie de régularisation. 

En outre, les différentes approches du recalage non-linéaire ont été exposées. Elles concernent 

les approches élastiques, fluides, par méthodes d’éléments finis, splines, et par déformations 

libres. Un accent particulier a été mis sur les deux dernières approches. Les différentes méthodes 

appartenant à ces classes ont été présentées. 

Enfin, ce chapitre a présenté, brièvement, l’approche de recalage adoptée dans ce mémoire. 

Cette approche, «hybride», associe deux types de déformations : une déformation globale assurée 

par une transformation affine et un ensemble de déformations locales représentées par un modèle 

de déformations de formes libres.

Chapitre 4 

De la théorie de l’information et des 

mesures de similarités 


Dans les chapitres précédents nous avons mis en lumière les fondements théoriques du pro- 

blème de recalage médical. Un accent particulier a été mis sur les méthodes fondées sur la théorie 

de l’information et plus principalement sur celles utilisant l’information mutuelle. Notre travail 

comme nous avons eu l’occasion de l’expliquer s’inscrit dans ce schéma, qui se veut générique 

puisqu’il ne nécessite aucune connaissance a priori sur la dépendance fonctionnelle entre les 

modalités à recaler. Nous avons, de plus, mis en exergue la principale difficulté et limitation de 

l’information mutuelle : le temps de calcul conséquent qu’elle nécessite. Notre travail s’inscrit dans 

la continuité du schéma proposé par ([Viola, 1995]), schéma qui consiste à évaluer l’information 

mutuelle en utilisant une méthode d’estimation non-paramétrique à noyau continu (gaussien), 

n’utilisant ainsi qu’un échantillon des voxels des images et disposant d’un critère continu per- 

mettant l’utilisation de stratégies d’optimisation quadratiques fondées sur le gradient. 

Le chapitre que nous abordons représente le travail central de cette thèse, puisqu’une nouvelle 

mesure de similarité y sera exposée. L’idée originale que nous allons défendre consiste en la défini- 

tion d’une nouvelle mesure de similarité fondée sur l’entropie de Rényi. Cette idée qui commence 

à se généraliser en analyse et traitement d’images [He et al., 2001] a été introduite initialement 

par [Principe and Xu, 1999]. Dans le cadre de la classification non-supervisée, Principe propose 

le schéma original d’utiliser l’entropie de Rényi en association avec un noyau gaussien afin de 

réduire considérablement le temps de calcul. Cependant dans ses travaux, Principe ne définit 

pas une mesure de similarité qui pourrait s’appliquer au recalage des images. Nous avons donc 

73

74 De la théorie de l’information et des mesures de similarités 

entrepris une étude théorique sur l’entropie généralisée, la divergence généralisée et l’information 

mutuelle généralisée dans le sens de Rényi, afin d’en dégager une mesure de similarité applicable 

au problème du recalage en particulier, et au problème de comparaison d’images en général. 

Ce chapitre commence par une définition de la notion d’information, de l’incertain dans un 

contexte d’imagerie. Nous allons ensuite introduire les différentes entropies dans l’ordre de leur 

apparition chronologique. Nous établirons les motivations qui ont poussé les différents auteurs à 

introduire de nouvelles mesures d’entropies. Après définition de la notion d’entropie généralisée 

nous introduirons la divergence généralisée puis l’information mutuelle généralisée, pour ensuite 

arriver à la définition du critère que nous avons baptisé : Information Mutuelle Quadratique 

Normalisée. 

4.2 Image, Incertain, Information... 

Considérons le niveaux de gris associé à une position d’une image comme un événement 

aléatoire. Puisque dans une image certaines intensités sont plus fréquentes que d’autres, leurs 

probabilités sont différentes. Chaque valeur a un score différent. En prédisant la valeur d’un 

voxel, on doit disposer d’une estimation de l’incertitude sur notre pronostic. Cette estimation 

ne peut être calculée qu’en fonction des distributions de probabilités observées. Deux cas limites 

sont à relever : 

1. Toutes les probabilités sont égales, l’incertitude liée à la prédiction de la valeur d’un voxel 

donné est alors très grande. 

2. L’image ne contient qu’un seul niveau de gris, l’incertitude liée à la prédiction de la valeur 

d’un voxel donné est alors nulle. 

Si l’on apprend la valeur d’une mesure dont on était incertain, la quantité d’information acquise 

est alors grande. À l’opposé, si l’on apprend une valeur dont la probabilité d’occurrence était 

assez élevée, la quantité d’information que l’on acquiert est alors moindre. En s’intéressant à la 

prédiction d’un ensemble de valeurs, nous pouvons calculer une moyenne de la quantité d’infor- 

mation donnée par cet ensemble de valeurs. Pour une image contenant un ensemble de voxels 

équiprobables, sa quantité d’information est plus élevée qu’une image où la majorité de voxels 

ont la même valeur. Afin d’exprimer ceci de façon mathématique, un ensemble d’axiomes ont été 

proposés pour décrire comment doit se comporter une possible mesure d’information. Soit H(M) 

une mesure d’information calculée à partir des probabilités d’occurrences de i valeurs possibles, 

les contraintes définies pour une mesure H(p(m1), p(m2) . . . , p(mi)) d’information incluent : 

– La continuité : 

Les petits changements des probabilités devraient donner seulement de petits change- 

ments dans la mesure globale de l’information.

4.2 Image, Incertain, Information... 75 

– La symétrie : 

La mesure d’information ne doit pas dépendre de l’ordre des probabilités : 

– La propriété externe : 

H(p1, p2, . . . , pi) = H(p2, p1, . . . , pi). 

Quand toutes les probabilités sont égales, l’incertitude moyenne et par conséquent 

l’information doivent être maximales : 

– l’additivité : 

Maximum de H(p1, p2, . . . , pi) = H( 1 1 1 

i , i , . . . , i ). 

Combinaison d’informations de sous-ensembles : Soit les probabilités d’un ensemble de 

valeurs, avec une mesure d’information : 

HA = H(p1, p2, . . . , pi), 

et admettons que l’une de ces valeurs, pi par exemple, puisse être divisée en un second 

ensemble B avec des probabilités d’occurrence {q1, q2, . . . , qj} et une quantité d’information 

spécifique : 

HB = H( q1 

pi 

, q2 

pi 

, . . . , qj 

). 

pi 

La quantité d’information fournie par l’ensemble des valeurs doit être exprimée de la sorte : 

HO = H(p1, . . . , pi−1, q1, . . . , qj) = HA + piHB. 

Plusieurs fonctions ont été proposées pour exprimer H(.). Nous devons les premières mesures 

d’information à la théorie de communication, discipline émergeante au début du siècle dernier. 

Le but était alors de quantifier l’information transmise, via un canal, d’un émetteur vers un 

récepteur. Pour ce faire, Hartley a définit en 1928, une mesure d’information qui fonde la base de 

beaucoup de mesures actuelles [Hartley, 1928]. Il a considéré un message comme une chaîne de 

symboles, chacun avec s possibilités d’occurrence. Si le message est composé de n symboles, et si 

aucune règle syntaxique n’est fixée, il y aurait s n messages possibles différents. Hartley a défini 

alors une mesure d’information qui croît avec la longueur du message. La mesure s n convient, 

mais la quantité d’information augmenterait exponentiellement avec la longueur du message. Ce 

qui n’est pas réaliste. Il a donc défini une mesure H qui accroît de façon linéaire en fonction de 

n : 

H = Kn 

avec K une constante qui dépend du nombre de symboles s. Il a ensuite admis que, pour deux 

messages de tailles n1 et n2 avec s1 et s2 nombres de symboles, respectivement, si s n1 

1 

= sn2 2 , ie :


les nombres de messages possibles sont égaux, les quantités d’information par message sont aussi 

égales. Il en déduit ainsi une mesure d’information : 

On a 

et puisque 

alors 

s n1 

1 

= sn2 

2 ⇒ n1 = 

s n1 

1 

K1 

= sn2 

2 

K1n1 = K2n2 

log s n2 

2 

log s1 

log sn2 

2 

log s1 

= K2 

⇒ log sn2 

2 

⇒ n2 = 

log s n1 

1 

log s2 

= log sn1 

1 , 

K1/ log s1 = K2/ log s2. 

log sn1 

1 

log s2 

Cette dernière égalité n’est satisfaite que lorsque Kx = c log sx, avec c une constante arbitraire 

qui doit être la même pour tous les Kx. Elle pourrait donc être occultée, K s’écrirait alors : 

K = log s. 

La mesure d’information proposée par Hartley s’écrit : 

H = n log s = log s n 

(4.1) 

La mesure d’information de Hartley dépend du nombre de messages possibles s n : plus le 

nombre de messages possibles est grand, plus la quantité d’information fournie par un certain 

message est grande. S’il n’y a qu’un seul message possible, aucun gain d’information n’est obtenu 

(log 1 = 0). Le message étant connu. À cet égard, la mesure d’Hartley peut également être vue 

comme une mesure d’incertitude. Quand plusieurs messages différents sont possibles, on est moins 

sûr de celui que l’on va recevoir. L’incertitude est alors plus grande. 

Un inconvénient majeur de la mesure d’Hartley est qu’elle suppose que tous les symboles sont 

équiprobables. Ceci représente une hypothèse forte qui est souvent grossièrement fausse. Dans la 

plupart des images, le niveaux de gris du fond est plus fréquent que les autres niveaux de gris. Sa 

probabilité est alors largement plus élevée. Si l’on reste dans le domaine de la Communication, 

dans un message écrit ou parlé, des lettres sont plus fréquentes que d’autres. En français par 

exemple, la lettre ’e’ est généralement beaucoup plus utilisée que la lettre ’z’. 

Pour surmonter cet inconvénient, [Shannon, 1948] a adapté la mesure de Hartley, en pondérant 

l’information par symbole par son nombre d’occurrences. Soient les événements e1, . . . , em se


produisant avec les probabilités p1, . . . , pm, l’entropie de Shannon est définie par : 

H = 

pi log 1 

= − 

pi log pi. (4.2) 

i 

pi 

Si on applique à l’entropie de Shannon l’hypothèse que tous les événements sont équiprobables 

: pi = 1 

s n , on obtient : 

Ce qui correspond à l’entropie d’Hartley. 

H = − 1 1 

log 

sn sn = 1 

sn log sn = log s n . 

En réalité, la forme la plus générique de l’entropie de Shannon est donnée par l’espérance 

mathématique de la quantité d’information par événement : 

i 

H(X) = −EX[log(P (X))]. (4.3) 

Cette formulation plus régulière révèle l’aspect paramétrique de l’entropie de Shannon. 

La forme continue de l’entropie de Shannon est appelée Entropie différentielle, et est 

définie comme : 

∞ 

H(X) ≡ −EX[log(p(X))] = − p(x) log(p(x))dx. (4.4) 

−∞ 

Sous cette forme, l’entropie de Shannon présente des difficultés de manipulation quand une va- 

riable aléatoire est incomplète. Une variable aléatoire est dite incomplète quand des observations 

la concernant ne peuvent pas être effectuées. 

Plusieurs travaux ont suivi ceux de Shannon, notamment pour définir des formes non- 

paramétriques généralisées de l’entropie. Les plus connus sont ceux entrepris par [Rényi, 1959]. 

4.2.1 Entropie généralisée 

L’entropie de Rényi serait peut être mieux introduite en faisant appel aux concepts de distri- 

butions de probabilités généralisées et de variables aléatoires généralisées, qui sont des extensions 

des notions classiques d’événements aléatoires qui ne peuvent pas être observés. Ce que nous 

développons ici traduit le travail original de Rényi ([Rényi, 1961], [Rényi, 1971]). 

Considérons un espace de probabilité discret défini sur Ω : Ω1 ∈ 2 Ω avec P [Ω1] > 0. Ω1 et 

P définissent un espace de probabilité discret généralisé qui sont différents des espaces de pro- 

babilités classiques par le seul fait que P [Ω1] < 1 soit possible. Une variable aléatoire X1 définie 

dans un espace de probabilité discret généralisé est dite variable aléatoire discrète généralisée. Si


P [Ω1] = 1, X1 est alors dite variable aléatoire complète (ou ordinaire) ; Si 0 

une variable aléatoire incomplète. X1 peut être interprétée comme une quantité calculée à partir 

d’expériences qui ne sont pas toujours observées, mais qui ne peuvent être observées qu’avec une 

probabilité P [Ω1] < 1. 

La distribution de probabilité PX d’une variable aléatoire généralisée X est dite distribution 

de probabilité généralisée. Le poids W (X) de X est défini par : 

W (X) = 

PX(x) 

avec 0 < W (X) ≤ 1. W (X) = 1 si et seulement si X est une variable aléatoire complète. 

x∈X 

Les caractéristiques axiomatiques des mesures d’information d’expériences aléatoires ont lar- 

gement été étudiées en mathématiques. Rényi démontre que les cinq postulats suivants définissent 

la seule entropie de Shannon [Rényi, 1961]. 

Postulat 1 : H(X) est invariant aux changements dans l’ordre des valeurs x ∈ X et des proba- 

bilités PX(x). 

Postulat 2 : Si X dénote la variable aléatoire généralisée singleton, avec X = {x} et PX(x) = p. 

H(X) est alors une fonction continue de p de p, avec 0 

Postulat 3 : Si B définie une variable aléatoire binaire avec B = {0, 1} et PB(0) = PB(1) = 1 

2 , 

on a H(B) = 1. 

Postulat 4 : Soient X et Y deux variables aléatoires généralisées et soit X × Y une variable 

aléatoire généralisée définie dans l’espace X × Y avec la distribution PX×Y = PX(x).PY (y) 

pour tout x ∈ X et y ∈ Y. Alors : 

H(X × Y ) = H(X) + H(Y ) 

Postulat 5 : Soient X et Y deux variables aléatoires généralisées avec W (X) + W (Y ) ≤ 1 

et X ∩ Y = ∅ et soit X ∪ Y les variables aléatoires définies dans l’espace X ∪ Y tel que 

PX∪Y (x) = PX(x) pour tout x ∈ X et PX∪Y (y) = PY (y) pour tout y ∈ Y. Alors : 

H(X ∪ Y ) = 

W (X)H(X) + W (Y )H(Y ) 

W (X) + W (Y ) 

Proposition 3.1. Soit H une mesure d’information de toute variable aléatoire généralisée X 

qui satisfait les Postulats 1-5. H est alors définie seulement par : 

 

− x∈X 

H(X) = PX(x) log PX(x) 

 

x∈X PX(x) 

.


Le postulat 5 donne une valeur moyenne arithmétique de la mesure d’information. La forme 

globale d’une valeur moyenne des nombres {a1, . . . , an} avec des poids positifs {w1, . . . , wn} dont 

la somme est égale à 1 s’écrit : 

µg(A) = g −1 ( 

n 

wig(ai)). 

Où g est une fonction continue monotone. Si la valeur moyenne dans le postulat 5 est remplacée 

par la valeur moyenne généralisée, on obtient : 

i=1 

H(X ∪ Y ) = g −1 

 

W (X)g(H(X)) + W (Y )g(H(Y )) 

, 

W (X) + W (Y ) 

Il peut être prouvé facilement que les seules fonctions g admissibles dans ce contexte sont les 

fonctions affines g(x) = ax + b, qui débouchent sur l’entropie de Shannon par la Proposition 

3.1, et les fonctions exponentielles g(x) = 2 (1−α)x qui débouchent sur l’entropie de Rényi [Rényi, 

1961] [Rényi, 1971] sur la Proposition 3.2 développée dans la suite de ce paragraphe. 

Postulat 5bis : Soient X et Y des variables aléatoires généralisées avec W (X) + W (Y ) ≤ 1 

et X ∩ Y = ∅ et soit X ∪ Y les variables aléatoires définies dans l’espace X ∪ Y tel que 

PX∪Y (x) = PX(x) pour tout x ∈ X et PX∪Y (y) = PY (y) pour tout y ∈ Y. Pour tout α > 0 

, soit : 

Alors 

H(X ∪ Y ) = g −1 

α 

gα(x) = 2 (1−α)x 

W (X)gα(H(X)) + W (Y )gα(H(Y )) 

W (X) + W (Y ) 

Pour α > 0 et α = 0, l’entropie de Rényi d’ordre α d’une variable aléatoire généralisée 

X est définie comme suit : 

Hα(X) = 1 

1 − α log 

 

x∈X 

x∈X 

PX(x) α 

 

. 

PX(x) . (4.5) 

Proposition 3.2 [Rényi, 1961]. Soit H une mesure d’information pour n’importe quelle va- 

riable aléatoire X qui satisfait les Postulats 1-4 et le Postulat 5bis. H est alors unique et est égale 

à l’entropie de Rényi Hα. 

Dans la suite de ce manuscrit, les propriétés de l’entropie de Rényi sont données seulement 

pour les variables aléatoires complètes. Il est facile de démontrer que : limα→1 Hα = H(X). Ceci 

explique pourquoi l’entropie de Shannon H(X) est parfois appelée entropie de Rényi d’ordre 1


et est notée H1(X). De même, l’entropie minimum de X : min-entropy, définie par : 

est déduite de limα→∞ H∞ = H(X). 

H∞ = − log max 

x∈X PX(x), 

Pour la borne inférieure de α, l’entropie de Rényi d’ordre 0 peut être définie comme le 

logarithme de la taille de l’espace probabiliste X : 

H0(X) = log |X | 

en utilisant la convention 0 0 = 1. Une propriété importante de l’entropie de Rényi est montrée 

dans la proposition suivante : 

Proposition 3.3 L’entropie de Rényi Hα(X) où α ≥ 0 est une fonction positive décroissante 

de α. Pour tout 0 ≤ α < β 

Hα(X) ≥ Hβ(X) (4.6) 

L’égalité n’est valable que si et seulement si X est distribuée uniformément dans X quand 

α = 0 ou X est uniformément distribuée dans un sous-ensemble de X quand α > 0. 

Preuve. Pour 0 ≤ α < β avec α = 1 et β = 1, 

Hα(X) = 

1 

log PX(x) 

1 − α 

x∈X 

α 

(4.7) 

= − log E[PX(X) α−1 ] 1 

α−1 (4.8) 

= − log E[PX(X) α−1 ] β−1 1 

α−1 β−1 (4.9) 

β−1 

(α−1) 

≥ − log E[PX(X) α−1 ] 1 

β−1 (4.10) 

= − log E[PX(X) (β−1) ] 1 

= 

β−1 

1 

log PX(x) 

β − 1 

x∈X 

(4.11) 

β 

(4.12) 

= Hβ(X) (4.13) 

Il est à noter que la fonction x c est convexe (convex-∪) pour tout c ≥ 0, et concave (convex- 

∩) pour tout 0 ≤ c ≤ 1. L’inégalité dans le développement ci-dessous ne peut être déduite de 

l’inégalité de Jensen 2.63 que dans les cas suivants : 

β > α > 1 : c = β−1 

α−1 > 1, xc 1 

est convexe et β−1 > 0 ; 

β > 1 > α ≥ 0 : c = β−1 

α−1 < 0, xc 1 

est convexe et β−1 > 0 ;


1 > β > α ≥ 0 : 1 > c = β−1 

α−1 > 0, xc 1 

est concave et β−1 < 0 ; 

Pour α = 1 ou β = 1, l’inégalité de Jensen peut être appliquée directement. 

Pour α = 2, l’entropie de Rényi est dite entropie quadratique. Elle peut être dérivée de la 

probabilité de collision d’une variable aléatoire : 

par : 

Définition 

La probabilité de collision d’une variable aléatoire X distribuée selon PX est donnée par : 

Pc(X) = 

PX(x) 2 

x 

L’entropie quadratique de Rényi d’une variable aléatoire X distribuée selon PX est donnée 

H2(X) = − log Pc(X) (4.14) 

= − log 

PX(x) 2 

(4.15) 

Fondée sur la même idée de la généralisation de la formule moyenne g, et pour des considéra- 

tions calculatoires, [Havrda and Charvát, 1967] ont proposé une nouvelle mesure d’information, 

dépourvue de l’expression logarithmique de l’entropie de Rényi. Notée entropie d’ordre s, la 

mesure d’Havrda Charvát s’écrit : 

x 

H s (X) = (2 1−s − 1) −1 [ 

pX(x) s − 1], s = 1, s > 0, (4.16) 

x∈X 

Dans ce cas, nous pouvons aussi facilement montrer que : lims→1 H s (X) = H(X), l’entropie 

de Shannon. 

par : 

De leur côté, Sharma et Mittal [Mittal, 1975] ont introduit une mesure d’entropie donnée 

H s r (X) = (2 (1−s) − 1) −1 

⎡ 

 

⎣ pX(x) r 

x∈X 

s−1 

r−1 

⎤ 

− 1⎦ 

, r = 1, s = 1, r > 0, s > 0. (4.17) 

Les principales motivations de Sharma et Mittal étaient de généraliser les différentes entropies 

proposées depuis 1961 par Rényi. Parmi ces entropies figurent celles que l’on vient d’exposer, et 

d’autres que l’on a préféré de ne pas mentionner puisqu’elles n’apportent que peu d’informations


pour la compréhension de notre critère de similarité. Ainsi l’entropie d’ordre r et de degré s 

correspond à l’entropie de Rényi (entropie d’ordre r) quand s → 1, et elle exprime l’entropie de 

degré s quand r → 1, et n’est d’autre que l’entropie de Shannon quant r → 1 et s → 1. 

Soit : 

gs(x) = (2 1−s 

−1 

− 1) 2 (1−s)x 

− 1 , s = 1 (4.18) 

une fonction définie pour tout x ≥ 0, nous pouvons alors écrire : 

4.2.2 Divergence Généralisée 

H s r (X) = gs[H 1 r (P )]. (4.19) 

H s 1(X) = gs[H(P )]. (4.20) 

Nous allons maintenant étudier les principales propriétés de la formule généralisée de l’entro- 

pie. Nous essayons d’en dégager la notion de divergence entre deux distributions de probabilités 1 . 

A présent, nous allons noter l’entropie généralisée comme : 

Inégalité de Shannon-Gibbs généralisée : 

∆n, où 

E s ⎧ 

H 

⎪⎨ 

r (X) = 

⎪⎩ 

s r (X), r = 1, s = 1, r > 0 

Hs 1 (X), r = 1, s = 1 

H1 r (X), r = 1, s = 1, r > 0 

H(X), r = 1, s = 1 

(4.21) 

Pour deux variables aléatoires P et U, avec P = (p1, p2, . . . , pn) ∈ ∆n et U = (u1, u2, ˙,un) ∈ 

On a : 

∆n = {Q = (q1, q2, . . . , qn) : qi > 0, i = 1, 2, . . . , n, 

n 

qi = 1} 

E s r (P ) ≤ α E s r(P ||U), α = 1 et 2, (4.22) 

1 Pour de plus amples explications nous conseillons aux lecteurs intéressés de consulter le livre de Taneja 

disponible en ligne à l’adresse http://mtm.ufsc.br/~taneja/book/book.html. 

i=1


où 

et 

⎧ 

(2 

⎪⎨ 

α s 

Er (P ||U) = 

⎪⎩ 

1−s − 1) −1 [ αMr(P ||U) r−1 

s−1 − 1], r = 1, s = 1, r > 0 

(21−s − 1) −1 [2 (s−1)H(P ||Q) − 1], r = 1, s = 1 

(1 − r) −1 log [ αMr(P ||U)], r = 1, s = 1, r > 0 

H(P ||U), r = 1, s = 1 

Pour α = 1 et 2, avec : 

1 Mr(P ||U) = 

2 Mr(P ||U) = 

n i=1 pri n i=1 pr i u1−r 

i 

r 1 

r− r piui i=1 

n 

H(P ||U) = − 

n 

i=1 

, r > 0, 

, r > 0, 

pi log ui 

(4.23) 

(4.24) 

Preuve : Nath [Nath, 1975] et Van der Lubbe [Van der Lubbe, 1978], ont prouvé les inégalités 

suivantes : 

et 

Pour tout P , U ∈ ∆n, α = 1 et 2, où 

Dans les cas limites nous avons 

H 1 r (P ) ≤ α Hr(P ||U), r = 1, r > 0, (4.25) 

1 

Hr(P ||U) = (1 − r) −1 n i=1 log 

pri n 

i=1 pr i u1−r 

i 

2 

Hr(P ||U) = r 

r − 1 log 

 

n 

piu 

i=1 

1 

r− r 

i 

1 2 

lim Hr(P ||U) = lim Hr(P ||U) = H(P ||U) 

r→1 

r→1 

 

 

, r = 1, r > 0, (4.26) 

, r = 1, r > 0, (4.27) 

où H(P ||U) donnée dans l’équation (3.21) est la fameuse mesure d’infidélité, dite aussi perplexité, 

introduite par [Kerridge, 1961]. Dans ce cas nous pouvons écrire que 

H(P ) ≤ H(P ||U) (4.28) 

pour tout P , U ∈ ∆n est l’inégalité de Shannon-Gibb bien connue en théorie d’information. 

De ce raisonnement, nous pouvons définir la divergence de Rényi :


D’après les équations 3.23 et 3.24 on a : 

où : 

1 Hr(P ||U) ≤ 2 Hr(P ||U) + D 1 r(P ||U), r = 1, r > 0 (4.29) 

D 1 r(P ||U) = (r − 1) −1 log 

n 

i=1 

p r i u 1−r 

i 

 

, r = 1, r > 0 (4.30) 

est la divergence directe d’ordre r [Rényi, 1961], dite Divergence de Rényi ou Divergence 

Généralisée. 

Pour r → 1 la divergence de Rényi n’est rien d’autre que la divergence de Kullback-Leibler : 

D(P ||U) = 

n 

i=1 

pi log pi 

ui 

(4.31) 

Dans la littérature, elle est aussi mentionnée comme une fonction de discrimination, d’information 

relative ou de divergence directe entre deux distributions. 

4.2.3 Information mutuelle généralisée 

Comme nous l’avons développé à la fin du chapitre 2, le recalage peut être vu comme un 

problème d’inférence statistique où la transformation géométrique est atteinte par maximisation 

d’un critère de similarité entre deux images. Ces images sont alors considérées comme des espaces 

de réalisations probabilistes où le niveau de gris associé à un voxel constitue la valeur aléatoire. 

La quantification de la similarité passe alors par le calcul de l’entropie conjointe et des entropies 

marginales. 

Pour généraliser le concept de l’information mutuelle, il est nécessaire de considérer à présent, 

non pas des valeurs aléatoires dans un cadre marginal, mais le comportement conjoint de deux 

ensembles de données. 

Considérons deux variables aléatoires discrètes X = {1, 2, . . . , n} et Y = {1, 2, . . . , m} ou une 

expérience conjointe (X, Y ) avec les probabilités marginales et conjointes suivantes : 

– aij = P r{X = i, Y = j}, A = {a11, a12, . . . , a1m, an1 . . . , anm} ∈ ∆nm, 

– pi = P r{X = i}, P = {p1, p2, . . . , pn} ∈ ∆n, et 

– qj = P r{Y = j}, Q = {q1, q2, . . . , qm} ∈ ∆m, 

pour tout i = 1, 2, . . . , n ; j = 1, 2, . . . , m. 

La probabilité conditionnelle de Y = j sachant X = i s’écrit :


– b j/i = P r{Y = j/X = i}, Bi = {b 1/i, b 2/i, . . . , b m/i} ∈ ∆m, pour tout i = 1, 2, . . . , n ; 

j = 1, 2, . . . , m. 

De même, la probabilité conditionnelle de X = i sachant Y = j s’écrit : 

– b i/j = P r{X = i/Y = j}, Bj = {b 1/j, b 2/j, . . . , b n/j} ∈ ∆n, pour tout i = 1, 2, . . . , n. 

Notons également, 

P.Q = {p1q1, p1q2, . . . , p1qm, . . . , pnq1, . . . , pnqm} ∈ ∆nm. 

Les relations suivantes sont connues dans la littérature : 

aij = pi.b j/i = qj.b i/j, pi = 

pour tout i = 1, 2, . . . , n ; j = 1, 2, . . . , m. 

m 

aij, et qj = 

En utilisant les notations de l’entropie généralisée introduites dans le précédent paragraphe, 

nous pouvons écrire : 

et 

j=1 

E s r (X, Y ) = E s r (A), 

E s r (X) = E s r (P ), 

E s r (Y ) = E s r (Q). 

Où E s r est l’entropie généralisée d’ordre r et de degré s introduite dans la section précédente. 

et 

De même, nous pouvons écrire les entropies conditionnelles généralisées comme : 

E s r (Y |X = i) = E s r (Bi), i = 1, 2, . . . , n 

E s r (X|Y = j) = E s r (Bj), j = 1, 2, . . . , m. 

Les premiers travaux concernant la généralisation de l’analyse multivariée dans le sens de 

Shannon ont été effectués par [Aczél and Daróczy, 1975]. Dans cette section nous introduirons 

l’entropie conditionnelle d’ordre s qui présente une généralisation de l’entropie conditionnelle de 

Shannon : 

C s (P ) = 

pour tout P = (p1, p2, . . . , pn) ∈ ∆n. 

 

n 

i=1 

(21−s − 1) −1 [ n i=1 psi − 1] , s = 1, s > 0 

− n i=1 pi log pi, s = 1 

aij 

(4.32)


où 

et 

Soit : 

C s (X|Y = j) = 

C s (X|Y ) = 

m 

j=1 

q s j C s (X|Y = j), s > 0, (4.33) 

n (21−s − 1) −1 

i=1 bs 

i|j − 1 , s = 1, s > 0 

− n i=1 bi|j log bi|j, s = 1 

(4.34) 

C s (X, Y ) = C s (Y ) + C s (X|Y ), s > 0 (4.35) 

Nous pouvons aussi définir l’information mutuelle d’ordre s : 

= C s (X) + C s (Y |X), s > 0 (4.36) 

I s (X ∧ Y ) = C s (X) − C s (X|Y ), s > 0. 

Elle satisfait l’ensemble des propriétés de l’information mutuelle fondée sur l’entropie de Shannon 

définies dans la section 2.2.3 du chapitre 2. 

Quelques auteurs (Sahoo, 1983 ; [Van der Lubbe et al., 1987]) ont étendu les équations 3.36 

et 3.37 pour d’autres entropies, mais ils n’ont pu aboutir à des expressions simples comme c’est 

le cas pour C s (X|Y ) dans l’équation 4.33. Dans cette sous-section nous donnerons quelques 

définitions simples introduites par Taneja en relation avec le concept de l’entropie généralisée 

d’ordre r et de degré s [Taneja, 1990]. 

où 

Si l’on remplace s par 1 dans l’équation 4.33, nous obtenons : 

H(X|Y ) = 

H(X|Y = j) = − 

n 

i=1 

m 

qjH(X|Y = j), (4.37) 

j=1 

b i|j log b i|j, j = 1, 2, . . . , m. (4.38) 

En remplaçant H(X|Y = j) par l’entropie généralisée E s r (X|Y = j), nous pouvons écrire : 

pour tout r > 0 et tout s. 

1 E s 

r(X|Y ) = 

m 

j=1 

qjE s r (X|Y = j), (4.39)


Nous pouvons alors en déduire les expressions suivantes : 

1 s 

Hr (X|Y ) = (2 1−s − 1) −1 

⎡ 

m 

⎣ 

1 H 1 r (X|Y ) = (1 − r) −1 

m 

j=1 

j=1 

qj log 

qj 

n 

i=1 

n 

i=1 

b r i|j 

b r i|j 

 

s−1 

r−1 

⎤ 

− 1⎦ 

, s = 1, r = 1, r > 0, (4.40) 

, r = 1, r > 0, (4.41) 

En extension de l’expression 3.40 [Taneja, 1990] a introduit deux nouvelles définitions de l’entro- 

pie conditionnelle d’ordre r : 

et 

2 1 

Hr (X|Y ) = (1 − r) −1 ⎧ 

⎨ m 

log 

⎩ 

3 H 1 r (X|Y ) = r 

1 − r log 

⎧ 

⎨ m 

⎩ 

j=1 

n 

qj b 

j=1 i=1 

r i|j 

qj 

n 

i=1 

b r i|j 

⎫ 

⎬ 

, (4.42) 

⎭ 

⎫ 1 

r ⎬ 

. (4.43) 

⎭ 

Les expressions des entropies conditionnelles d’ordre r et de degré s, peuvent être déduites 

des deux équations ci-dessous, en utilisant la relation de composition 4.18. Ces expressions sont : 

et 

2 H s r (X|Y ) = gs( 2 H 1 r (X|Y )) (4.44) 

= (2 1−s − 1) −1 

⎧⎛ 

⎪⎨ m 

⎝ 

⎪⎩ 

n 

j=1 i=1 

qjb r i|j 

⎞ 

⎠ 

s−1 

r−1 

⎫ 

⎪⎬ 

− 1 , 

⎪⎭ 

s = 1, r = 1, r > 0, (4.45) 

3 H s r (X|Y ) = gs( 3 H 1 r (X|Y )) (4.46) 

= (2 1−s − 1) −1 

⎧⎡ 

⎪⎨ m 

⎣ 

⎪⎩ 

j=1 

qj 

n 

i=1 

b r i|j 

1 

r 

⎤ 

⎦ 

r s−1 

r−1 

⎫ 

⎪⎬ 

− 1 , s = 1, r = 1, r > 0,(4.47) 

⎪⎭ 

La généralisation de l’information mutuelle de shannon, peut alors être effectuée en se servant 

des formules de l’entropie conditionnelle généralisée : 

α N s r (X ∧ Y ) = E s r (X) − α E s r(X|Y ), (4.48)


pour α = 1, 2, et 3. Par simple calcul ont peut écrire : 

où 

I(X ∧ Y ) = D(A||P.Q), 

D(A||P.Q) = 

n 

n 

i=1 j=1 

est la divergence directe entre les distributions A et P.Q. 

où 

aij log aij 

piqj 

De la même façon on peut définir l’Information Mutuelle d’ordre r (de Rényi) par : 

On peut alors écrire : 

pour α = 1, 2, 3 et 4. 

4 Hr(X|Y ) = Hr(X) − 4 N r(X ∧ Y ), (4.49) 

4 Nr(X ∧ Y ) = Dr(A||P.Q). (4.50) 

α Nr(X ∧ Y ) = Hr(X) − α Hr(X|Y ), (4.51) 

En récapitulant, on compte quatre définitions différentes de l’information mutuelle généralisée 

d’ordre r : 

⎧ 

⎪⎩ 

Hr(X) − 1 Hr(X|Y ) = Hr(X) − (1 − r) −1 m 

⎪⎨ Hr(X) − 

Nr(X ∧ Y ) = 

2Hr(X|Y ) = Hr(X) − (1 − r) −1 log 

Hr(X) − 3Hr(X|Y ) = Hr(X) − r 

1−r log 

Dr(A||P.Q) = (r − 1) −1 log n 

i=1 

4.2.4 Information mutuelle généralisée : normalisation 

 

j=1 qj 

n log i=1 br i|j 

m 

j=1 qj 

n i=1 br i|j 

 

m 

j=1 qj 

n i=1 br 1 

r 

i|j 

m j=1 arij (piqj) 1−r 

 

(4.52) 

Dans le chapitre 2, nous avons présenté les différentes formules proposées pour normaliser 

l’information mutuelle afin de surmonter le problème du recouvrement partiel. Dans cette sous- 

section nous donnons leur généralisation dans le sens de Rényi. 

Dans le cadre de Shannon, l’information mutuelle entre une variable X et elle même se réduit 

à l’entropie de Shannon marginale de X, c’est à dire que le gain d’information n’est autre que


l’information contenu dans la variable : 

I(X, X) = H(X) 

Cette égalité n’est pas respectée par l’information mutuelle généralisée. Dans le cadre de Rényi 

on peut facilement vérifier que : 

α Nr(X ∧ X) = α Hr(X) 

Les différentes formules de normalisation s’écrivent alors : 

Coefficient de corrélation entropique généralisée 

Critère introduit par [Maes et al., 1997] et qui s’écrit : 

prend la forme généralisée suivante : 

ECC(X, Y ) = 

α ECCr(X, Y ) = 2 

Information Mutuelle généralisée normalisée 

2I(X, Y ) 

H(X) + H(Y ) . 

α Nr(X, Y ) 

α Nr(X, X) + α Nr(Y, Y ) . 

Introduit par Studholme, ce critère dont la forme initiale est : 

prend la forme : 

α Yr(X, Y ) = 

Information exclusive généralisée 

forme 

Y (X, Y ) = 

H(X) + H(Y ) 

, 

H(X, Y ) 

α Nr(X, X) + α Nr(Y, Y ) 

α Nr(X, X) + α Nr(Y, Y ) − 2 α Nr(X, Y ) , 

De même que pour l’information exclusive introduite par [Maes et al., 1997], qui prend la 

Z(X, Y ) = H(X) − I(X, Y ),


on définit l’information exclusive généralisée par : 

4.2.5 Choix du degré r 

α Zr(X, Y ) = α N r(X, X) + α N r(Y, Y ) − 2 α N r(X, Y ) 

Notre motivation d’entreprendre une étude sur les différentes mesures de similarité dérivées 

de l’entropie de Renyi, vient du comportement particulier de cette dernière quand on utilise une 

densité de probabilité à noyau gaussien pour calculer sa forme quadratique. Cette idée a été 

avancée par Principe et al. dans un cadre de classification non-supervisée. Pour r = 2 l’entropie 

quadratique s’écrit : 

 

H2(X) = − log 

p(x) 2 dx 

Admettons maintenant que la densité de probabilité est estimée en utilisant la méthode de Parzen 

à noyaux gaussiens présentée dans le chapitre précédent : 

Dans ce cas : 

 

H2(X) = − log 

p(x) = 1 

N 

 

1 

= − log 

N 

= − log 1 

N 

N 

Gh(x − Xi). 

i=1 

p(x) 2 dx 

N 

N 

i=1 j=1 

N 

 

i=1 j=1 

N 

Gh(x − Xi)Gh(x − Xj)dx 

Gh(x − Xi)Gh(x − Xj)dx. 

Sachant que le résultat de la convolution de deux gaussiennes centrées respectivement à ai et aj 

est la gaussienne de (ai − aj) avec une covariance égale à la somme des covariances initiales : 

 

x 

l’entropie quadratique s’écrit alors : 

G(x − ai, Σ1)G(x − aj, Σ2)dx = G(ai − aj, Σ1 + Σ2), 

H2(X) = − log 1 

N 

N 

i=1 j=1 

N 

G2h(Xi − Xj). (4.53)


Le coût de calcul est réduit drastiquement à O(N 2 ), car l’entropie s’exprime alors par une 

simple somme d’interactions mutuelles entre tous les échantillons. 

Pour ces raisons, notre choix s’est porté sur la forme quadratique (r=2) de l’entropie de Rényi 

et par conséquent sur l’information mutuelle généralisée. 

4.2.6 Choix de α 

Nous avons présenté dans la section précédente quatre définitions différentes de l’informa- 

tion mutuelle de Rényi données dans l’équation 4.52. Mais laquelle de de ces définitions est la 

plus appropriée comme critère de recalage ? Encore une fois notre choix va être motivé par les 

propriétés calculatoires de ces quatre définitions. 

Pour les quatre définitions données dans l’équation 4.52, la complexité est de O(m × N 2 ) 

où m correspond au domaine de réalisations des probabilités, i.e le nombre de niveaux de gris 

maximal dans le cas du recalage. En outre le calcul de l’entropie conditionnelle n’est pas trivial 

puisque il nécessite une méthode d’estimation de probabilité conditionnelle particulière. 2 

Le critère que nous visons à exploiter doit de plus présenter un comportement robuste face 

au problème du recouvrement partiel. 

Proposition 

soit 

Y2(X, Y ) = H2(X) + H2(Y ) 

H2(X, Y ) 

− 1. (4.54) 

Ce critère présente les mêmes propriétés que l’information mutuelle normalisée proposée par 

Studholme : 

– Y2(X, Y ) = Y2(Y, X). Cette égalité vient du fait que H2(X, Y ) = H2(Y, X). 

– Y2 est minimale et est égale à 0 quand les deux variables X et Y sont complètement 

indépendantes. 

Preuve : 

 

H2(X, Y ) = − log p 

X Y 

2 (x, y)dxdy. 

2 Quoique, il serait intéressant d’évaluer les comportements de ces différentes mesures. Une des perspectives de 

cette thèse est de proposer une méthode d’estimation de l’entropie conditionnelle et d’entreprendre une étude sur 

le comportement de ces différentes mesures


Pour X et Y deux V.A indépendantes on a : p(x, y) = p(x)p(y), et on peut alors écrire : 

 

H2(X, Y ) = − log 

 

= − log 

X 

X 

= H2(X) + H2(Y ) 

L’information quadratique normalisée est alors nulle : 

Y2(X, Y ) = H2(X) + H2(Y ) 

H2(X, Y ) 

p 2 

(x)dx p 

Y 

2 (y)dy 

p 2 

(x)dx − log p 2 (y)dy 

Y 

− 1 

= H2(X) + H2(Y ) 

− 1 = 0 

H2(X) + H2(Y ) 

– Y2 est maximale et est égale à 1 quand les deux variables sont complètement dépendantes 

ie. p(x, y) = p(x) = p(y). 

preuve : 

Pour deux V.A complètement dépendantes : 

 

H2(X, Y ) = − log 

 

= − log 

X 

X 

 

Y 

p 2 (x, y)dxdy 

p 2 (x)dx 

= H2(X) = H2(Y ) 

L’information mutuelle quadratique normalisée dans ce cas s’écrit : 


Y2(X, Y ) = H2(X) + H2(Y ) 

− 1 

H2(X, Y ) 

= 

H2(X) 

2 

− 1 = 1. 

H2(X) + H2(X) 

Le but de ce chapitre était d’entreprendre une étude théorique sur la notion de quantification 

d’information afin de définir une nouvelle classe de mesures de similarité. 

Ce chapitre a commencé par une définition de la notion d’information et de l’incertitude dans 

un contexte d’imagerie. Par la suite, différentes entropies ont été introduites dans l’ordre de leur 

apparition chronologique. Les motivations qui ont poussées les différents auteurs à introduire de 

nouvelles mesures d’entropies ont été établies.


Après définition de la notion de variable aléatoire incomplète, ce chapitre a introduit l’entropie 

généralisée dans le sens de Rényi. La divergence de Rényi, quant à elle, a été définit en généralisant 

l’inégalité de Shannon-Gibbs. 

Par la suite, le cadre d’étude a été étendu à l’analyse multivariée pour généraliser la notion 

d’information mutuelle. Une classe de mesures d’information fondées sur l’information mutuelle 

généralisée a alors été définie. 

Enfin, après une discussion de l’applicabilité des mesures définies, ce chapitre se termine par 

la proposition d’un critère de recalage prenant en compte le problème du recouvrement partiel. 

Ce critère a été baptisé «Information Mutuelle Quadratique Normalisée».

Chapitre 5 

De l’estimation non-paramétrique des 

densités de probabilité 


Estimer la fonction de densités de probabilité (PDF) d’une distribution continue à partir 

d’un échantillon représentatif tiré de sa représentation initiale est un problème d’une importance 

fondamentale en apprentissage automatique (Machine Learning) et en reconnaissance de formes. 

Dans le cadre de notre problématique les densités de probabilité sont nécessaires au calcul du 

critère de similarité ; celui-ci étant de nature entropique. Dans la dernière section du chapitre 2 

nous avons développé les deux méthodes principales utilisées dans le cadre du recalage : le noyau 

de Parzen et la méthode de l’histogramme. Nous avons exposé sommairement leurs principes ainsi 

que leurs limitations. Dans ce chapitre nous allons revenir sur les principes théoriques de l’esti- 

mation des densités de probabilités. L’accent sera mis sur les méthodes dites non-paramétriques à 

noyau adaptatif. Nous présenterons par la suite la méthode d’estimation que nous avons choisie, 

son cadre théorique ainsi que ses comportements asymptotiques. 

Nous nous intéressons dans cette thèse au problème du recalage d’images ; le lecteur doit 

comprendre ici par densité de probabilité une fonction continue régissant la distribution des 

niveaux de gris dans une image. Dans ce cadre, le paradoxe de l’estimation réside dans le fait que 

la fonction de densité peut être calculée par un simple balayage de l’image. Toutefois, les images 

sont sujettes à des déformations géométriques pendant le déroulement de l’algorithme de recalage 

et leur densité doit être évaluée à chaque itération, ce qui peut s’avérer pénalisant en temps de 

calcul. Pour remédier à cet inconvénient, il est préférable de ne considérer qu’un échantillon de 

95

96 De l’estimation non-paramétrique des densités de probabilité 

voxels représentatif et de trouver une fonction d’interpolation qui, à partir de celui-ci, rendrait 

compte le plus fidèlement de la distribution réelle de ses niveaux de gris. 

Quand on peut assigner une forme particulière à la densité de probabilités, en raison de 

connaissances a priori du processus la régissant, le problème de l’estimation se réduit à l’évalua- 

tion des paramètres définissant cette fonction de densité. L’estimation est alors dite paramé- 

trique. 

La plus répandue des fonctions de densités est la densité normale. La raison de sa popularité 

provient du «théorème de la limite centrale», qui prouve que la densité de la somme d’un très 

grand nombre de variables aléatoires indépendantes tend vers une gaussienne. En outre, du fait 

de leur nature exponentielle, les manipulations mathématiques des densités gaussiennes sont tout 

à fait simples à réaliser. Du reste, puisque toute fonction linéaire d’une densité gaussienne est 

elle-même gaussienne, elles sont largement répandues en théorie des systèmes linéaires. Ainsi, 

la majorité des processus aléatoires continus sont représentés par des gaussiennes. Une densité 

gaussienne est définie par : 

Gψ(x − µ) = 1 

√ 2πψ e 

1 

− 2 

(x−µ) 2 

ψ . (5.1) 

Les paramètres à évaluer sont alors la variance ψ et la moyenne µ. Autrement dit, les carac- 

téristiques globales de la distribution des données peuvent être résumées à un vecteur moyenne 

et une matrice de covariance dans le cas d’une analyse multivariée. 

La densité gaussienne présente nombre d’avantages. Cependant on ne peut l’utiliser pour 

exprimer tout processus aléatoire. En effet, la densité de probabilité associée à certains processus 

réels ne peut s’apparenter à une gaussienne, et en particulier, c’est le cas des niveaux de gris dans 

une image médicale 1 . Une forte limitation des densités gaussiennes, et des densités exponentielles 

en général, réside dans le fait qu’elles sont unimodales ( i.e. elles ont une seule crête). 

Cependant, en observant l’histogramme de l’IRM dans la figure 5.1, il est facile de remarquer 

que la distribution des niveaux de gris peut être modélisée par un mélange (mixture) de fonctions 

de densités paramétriques. La seule contrainte est que ce mélange doit définir et satisfaire les 

conditions de base d’une fonction de densités de probabilités, à savoir que son intégrale sur 

son domaine doit être égale à 1. Les modèles finis de mélange, également connus sous le nom 

d’estimateurs Semi-Paramétriques de densité, présentent une approche puissante d’estimation de 

fonctions arbitraires de densité et le cas spécifique de «Mélange de Gaussiennes» [Bishop, 1995] 

est une illustration parfaite de leur succès. Entre autres applications, ils ont été par exemple 

utilisés avec succès pour la définition des probabilités d’émission d’un modèle de Markov caché 

1 Cependant on peut forcer les niveaux de gris d’une image à suivre une distribution gaussienne aux prix de 

pré-traitements telle que l’égalisation de l’histogramme

5.1 Introduction 97 

(a) Coupe IRM d’un patient souffrant d’une polykystose 

rénale 

0.05 

0.045 

0.04 

0.035 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

0 

0 100 200 300 400 500 600 

(b) Histogramme de la coupe IRM. 

Fig. 5.1 Coupe axiale IRM et son histogramme. Plusieurs modes sont présents 

dans cet histogramme.


pour la reconnaissance de la parole [Rabiner, 1990]. Le modèle de mélange de gaussiennes s’écrit : 

M(x, θ) = 

N 

i=1 

ciGψi (x − µi), (5.2) 

où θ représente la collection des paramètres (N, {µi}, {ψi}, {ci}). L’intégration de ce modèle à 1 

est assurée quand ci = 1. Une densité de mélange n’a pas besoin d’être uni-modale ; elle peut 

avoir autant de crêtes que nécessaire. 

Étant donné un grand nombre de gaussiennes, toute densité peut être modélisée presque 

exactement. Comme évoqué dans les chapitres précédents, le maximum de vraisemblance peut 

être employé pour choisir le meilleur ensemble de paramètres pour un échantillon donné a. Tou- 

tefois, il est aussi possible de rechercher le vecteur de paramètres en utilisant la montée du 

gradient. Pour les modèles de mélanges gaussiens une technique plus efficace connue sous le nom 

de Expectation-Maximisation ([Dempster et al., 1977]) est généralement utilisée. Dans un cas 

comme dans l’autre, trouver le meilleur vecteur de paramètres peut impliquer un processus de 

recherche assez long. 

5.2 Estimateurs non-paramétriques 

L’approche semi-paramétrique de l’estimation réduit le nombre d’hypothèses de départ concer- 

nant la nature de la densité réelle. Toutefois c’est l’approche non-paramétrique de l’estimation 

des densités qui énonce le moins d’hypothèses sur la nature de la densité réelle. Les estimateurs 

non-paramétriques des densités de probabilités ont la particularité, très avantageuse, de ne faire 

aucune hypothèse quant à la structure fonctionnelle de la densité réelle. 

5.2.1 Histogramme 

Formellement, le problème de l’estimation consiste à approcher une fonction de densité de 

probabilité inconnue f à partir d’un échantillon {X1, X2, . . . , Xn} de variables aléatoires indé- 

pendantes et de même loi de densité f. L’idée la plus naturelle consiste à évaluer la densité f au 

point x en comptant le nombre d’observations «tombées» dans un certain voisinage cubique de 

x = (x1, . . . , xd) de la forme : 

 

x1 − h 

2 , x1 + h 

 

× · · · × xd − 

2 

h 

2 , xd + h 

 

= x1 − 

2 

h 

2 , x1 + h 

d , 

2

5.2 Estimateurs non-paramétriques 99 

où h est un nombre strictement positif dépendant de n, ce qui conduit à l’estimateur : 

ˆfh(x) = 

 

# i ∈ 1, . . . , n : Xi ∈ x1 − h 

2 , x1 + h 

 

d 

2 

nhd . (5.3) 

Le symbole #A désigne le cardinal de l’ensemble fini A. Cette dernière expression peut encore 

s’écrire : 

ˆfh(x) = 1 

nh d 

n 

i=1 

où la fonction 1 1 

[− , 2 

introduit en 1951 par [Fix and Hodges, 1951]. 

5.2.2 Modèle de Parzen 

1 1 

[− , 2 2] d 

x − Xi 

2] d est la densité de probabilité uniforme sur − 1 

2 

h 

 

, (5.4) 

 

1 d. 

, 2 Ce modèle a été 

En s’inspirant de la formule 5.4, et en définissant K comme étant une fonction réelle bornée 

d’intégrale 1 sur R d , on définit l’estimateur ˆ fh associé au noyau K par 

ˆfh(x) = 1 

nh d 

n 

 

x − Xi 

K 

. (5.5) 

h 

i=1 

Lorsque le noyau K est choisi positif, l’estimateur ˆ fh est une densité de probabilité et on parle 

alors parfois de la densité de probabilité empirique de noyau K. Parmi les multiples estimateurs 

non-paramétriques de la densité aujourd’hui à la disposition des utilisateurs, l’estimateur à noyau 

est, de loin, le plus populaire ([Akaike, 1954], [Rosenblatt, 1956], [Parzen, 1962], [Silverman, 

1986], [Devroye, 1987] et [Scott, 1985]). Le succès rencontré par l’estimateur à noyau auprès de 

la communauté des utilisateurs peut essentiellement s’expliquer en trois points : 

– D’abord, l’expression théorique 5.5 de ˆ fh(x) est extrêmement simple, puisque ˆ fh(x) est la 

somme de n variables aléatoires indépendantes et identiquement distribuées. 

– Ensuite, ˆ fh converge vers f en de nombreux sens, et en particulier au sens L1 pour toute 

densité f dès que 1/h et nh d tendent tous les deux vers l’infini (la dépendance de h en n 

sera toujours sous-entendue). D’autre part, si l’estimateur est convergent, il est convergent 

dans tous les modes, i.e. en probabilité, en moyenne, «presque sûrement» et «presque 

complètement» [Devroye and Györfi, 1985] ; 

– Enfin, l’estimateur à noyau est flexible, dans la mesure où il laisse à l’utilisateur une grande 

latitude non seulement dans le choix du noyau K, mais dans le choix du paramètre réel h. 

Lorsqu’on se limite aux noyaux K positifs, les vitesses de convergence varient peu en fonction 

de K et les critères du choix du noyau sont alors : la simplicité et la vitesse de calcul d’une part,


la régularité de la courbe à obtenir d’autre part. En revanche, le choix du paramètre de lissage h 

se révèle crucial aussi bien pour la précision locale que pour la précision globale de l’estimateur 

ˆfh. Il est facile de vérifier que, pour les noyaux usuels et pour un ensemble de données fixé, la loi 

de densité ˆ fh converge (étroitement) vers la mesure empirique lorsque h tend vers 0 et que ˆ fh 

tend uniformément vers la fonction nulle lorsque h tend vers l’infini. En jouant sur la largeur de 

fenêtre, on peut donc faire décrire à ˆ fh un ensemble de lois dont les extrêmes seront «proches» 

de lois discrètes d’un côté, et de lois uniformes de l’autre. 

Fig. 5.2 Estimation à noyau à fenêtre fixe 

La procédure de Parzen à fenêtre fixe tend à estimer la densité à chaque point x en calculant la 

moyenne des noyaux normalisés (mis à la même échelle) centrés à chacun des points de données. 

Une description équivalente consiste à placer une masse de probabilité de 1/n sous forme d’une 

cloche à chaque point. La figure 5.2 montre la construction d’un tel processus. Les lignes verticales 

au-dessous de l’axe x des ordonnées dénotent la position des points de données, les lignes en 

pointillés représentent les différents noyaux utilisés pendant le processus de l’estimation, et la 

ligne pleine correspond à la courbe résultat. La valeur du paramètre de lissage est indiquée par 

la flèche. 

Le paramètre de lissage h contrôle donc le degré de régularité (Fig. 5.3). Une petite valeur 

de h mènerait à des estimations sous-lissées qui montrent de fausses crêtes tandis qu’une grande 

valeur de h causerait l’élimination d’une grande partie du détail. C’est un fait bien établi [Scott, 

1992] que les performances d’un estimateur à noyau (en termes d’erreur et d’évaluation visuelle) 

dépendent fortement du choix du paramètre de lissage. La structure fonctionnelle du noyau est

5.2 Estimateurs non-paramétriques 101 

Fig. 5.3 Noyaux fixes d’estimation de tailles 0.2 (a) et 0.8 (b). 

d’une importance relative 2 , excepté dans le cas où la contrainte de non-négativité est relâchée. 

Dans ce cas, la fonction noyau sera choisie de façon à réduire le biais. 

Afin d’apprécier la qualité d’une estimation, un critère d’erreur doit être utilisé. L’idée d’op- 

timalité est alors directement liée à celui-ci. L’erreur quadratique moyenne qui correspond à la 

somme de la variance et du biais au carré est l’un des critères les plus répandus. Formellement, 

la MSE 3 s’écrit en fonction de la densité réelle f et de l’estimée ˆ f : 

MSE( ˆ 2 f) = E ˆf(x) − f(x) = Var( ˆ 

f(x)) + Biais( ˆ 2 f(x)) . 

Comme critère global d’erreur, soit l’Erreur Quadratique Moyenne Intégrée, MISE 4 

MISE( ˆ 2 f) = E ˆf(x) − f(x) dx, 

2 Ici l’importance du noyau concerne le cadre général de l’estimation. Dans l’algorithme que nous développons 

le choix du noyau a une importance autre, liée à la contrainte calculatoire. 

3 Au lieu d’utiliser la notation française EQM (Erreur Quadratique Moyenne), nous préférons utiliser l’abbréviation 

anglaise puisque d’autres critères d’erreur seront introduits et leur traduction française n’est pas si 

évidente) 

4 MISE pour Mean Integrated Squared Error


et l’Erreur Quadratique Intégrée Moyenne IMSE (Integrated Mean Squared Error) : 

IMSE( ˆ 

f) = 

2 E ˆf(x) − f(x) dx. 

L’IMSE, MISE et MSE sont équivalentes par le Théorème de Fubini. Quand ces erreurs tendent 

vers zéro on dit que l’estimateur est L2 consistant. 

Une autre mesure aussi utilisée est l’Erreur Quadratique Intégrée (ISE 5 ) : 

ISE( ˆ f) = 

2 ˆf(x) − f(x) dx. 

Souvent la MSE ou la MISE ne peuvent être calculées exactement et des techniques asympto- 

tiques sont utilisées pour dériver des approximations utiles. Ces approximations seront notées 

respectivement AMSE 6 ou AMISE 7 . 

Lorsque le noyau est considéré fixe univarié, l’expression de AMISE est obtenue par un simple 

développement en série de Taylor : 

E ˆ f(x) = 

= 

EKh(x − X) 

 

1 − t 

K(x 

h h )f(t)dt 

 

= K(w)f(x − hw)dw 

 

= f(x) K(w) − hf ′ 

(x) 

wK(w) + 1 

2 h2f ′′ 

(x) 

w 2 K(w) + . . . , 

En supposant que f ′′ est continue en x. Puisque le noyau K est supposé définir une densité 

continue de probabilité satisfaisant les conditions du moment : 

 

K(w)dw = 1; 

le biais est donné par : 

 

wK(w)dw = 0; et σ 2 K = 

Biais(x) = 1 

2 h2 σ 2 Kf ′′ (x) + O(h 4 ). 

 

w 2 K(w)dw > 0, (5.6) 

Ce qui donne la formule (asymptotique) du Biais Quadratique Intégré (En supposant que f ′′ est 

absolument continue) : 

5 Integrated Squared Error 

6 Asymptotic Mean Squared Error 

7 Asymptotic Mean Integrated Squared Error 

ISB(h) = 1 

4 h4 σ 4 R(f ′′ ), (5.7)

5.3 Pourquoi des noyaux adaptatifs ? 103 

où la fonction R est définie par R(φ) = φ 2 (z)dz. Via un développement similaire on obtient : 

qui donne la Variance Intégrée (asymptotique) 

Var(x) = f(x)R(K) 

, 

nh 

À partir des équation 5.7 et 5.8, l’AMISE est donnée par : 

AMISE(h) = R(K) 

nh 

L’expression du AMISE est minimisée quand h est égal à : 

h ∗ = 

VI = R(K) 

. (5.8) 

nh 

+ 1 

4 h4 σ 4 R(f ′′ ). (5.9) 

 

R(K) 

σ4 KR(f ′′ 1/5 . (5.10) 

) 

En remplaçant h dans l’équation 5.9 par l’expression de h ∗ donnée par l’équation 5.10, on obtient 

le meilleur critère d’erreur AMISE, qui diminue à un taux de O(n −4/5 ). Scott [Scott, 1992] a 

démontré que la méthode de l’histogramme a le taux le plus faible O(n −2/3 ), alors que le meilleur 

taux de convergence est donné par l’erreur Quadratique Integrée Moyenne MISE, qui est de 

O(n −1 ). 

5.3 Pourquoi des noyaux adaptatifs ? 

Il existe plusieurs situations où le fait de fixer le paramètre de lissage conduit à des résultats 

aberrants, ou du moins à des estimations insuffisantes. La qualité du recalage dépend fortement 

de la qualité de l’estimation de l’histogramme conjoint et par conséquent du choix du paramètre 

de lissage h. 

Pour illustrer la nécessité de faire varier la taille des fenêtres lors d’une procédure d’estimation, 

[Silverman, 1986] s’est appuyé sur des données relevées d’une étude sur le suicide (Fig. 5.4). 

Ces données présentent plusieurs modes 8 et posent ainsi le même problème que les données 

des images médicales : les données exploitées par Silverman sont caractérisées par «une longue 

extrémité droite» comme c’est le cas pour la plupart des histogrammes des images médicales 

(voir Figs. 5.8, 5.9, 5.10, 5.8 et 5.12). 

8 Le mode est la valeur la plus souvent observée dans un ensemble de données.


Fig. 5.4 Estimations de la densité d’étude sur le suicide (Silverman), à droite h= 

60 et à gauche h=20. 

Dans le cas des images médicales, une simple égalisation ne suffit pas pour atténuer la pré- 

pondérance du niveaux de gris du fond. Choisir le paramètre h qui lisse autour du mode de 

la distribution sous-lisserait la sous-distribution de droite. En revanche, une valeur de h assez 

grande lisserait suffisamment cette courbe, mais éliminerait plusieurs niveaux de détails concer- 

nant le mode. Dans la figure 5.4 la première courbe correspond à une estimation à noyau normal 

fixe avec h = 20, alors que la seconde courbe correspond à h = 60 . Silverman observe que dans 

les zones où f est grande en magnitude, h doit être petit alors que dans les zones où f est petite 

en magnitude, h devrait être grand. 

L’estimation à noyau fixe trouve alors ses limites pour les données multimodes [Minnotte and 

Scott, 1993]. Il est difficile de trouver un seul paramètre de lissage qui différencierait adéquate- 

ment deux crêtes distinctes et les vallées entre ces crêtes. Un paramètre de lissage très grand peut 

sur-lisser et éliminer ainsi des modes significatifs. Par contre un paramètre trop petit introduirait 

de fausses crêtes en sous-lissant la courbe. 

Pour des dimensions supérieures, l’estimation à noyau fixe est vouée à l’échec, à moins que 

la taille de l’échantillon ne soit suffisamment grande. Pour des échantillons de tailles moyennes, 

le paramètre de lissage doit être grand de façon à éliminer tous les détails locaux et à ne garder 

ainsi qu’un degré de variation raisonnable.

5.3 Pourquoi des noyaux adaptatifs ? 105 

En général, l’estimation à noyau fixe trouve ses limites dans le cas de densités présentant des 

changements en magnitude. Cependant, [Cacoullos, 1966] a montré que doivent être prises en 

compte non seulement les changements en magnitude mais aussi les courbures. Terell et Scott 

[Terrell and Scott, 1992] ont fait remarquer qu’en prenant en compte les courbures locales d’une 

densité multivariée, des réductions significatives du biais et par conséquent du MISE, peuvent 

être atteintes en utilisant un noyau adaptatif. 

Enfin, Terell et Scott ont entrepris une grande étude sur l’estimation adaptative. Faite opti- 

malement, l’estimation adaptative conduit à des améliorations importantes des méthodes non- 

adaptatives. Cependant, mal construits, les noyaux adaptatifs produiraient une sous-optimalité 

et conduiraient à des estimations dont la qualité est inférieure à celle des noyaux fixes. 

5.3.1 Sélection automatique des fenêtres 

Sélectionner automatiquement le paramètre de lissage en se fondant seulement sur les infor- 

mations extraites des données a été pendant longtemps au centre des travaux en estimation de 

densités de probabilités. [Rudemo, 1982] et [Bowman, 1984] ont développé une approche fondée 

sur la recherche du paramètre de lissage qui minimise une estimation non-biaisée du risque 9 . 

L’approche proposée étant générale on peut donc la développer en utilisant l’erreur quadratique 

intégrée ISE donnée par : 

 

ISE(h) = ( ˆ f(x) − f(x)) 2 dx 

= R( ˆ 

f) − 2 ˆf(x)f(x)dx + R(f). 

ˆf correspond à l’estimateur non-paramétrique de densité (histogramme ou estimateur à noyau 

fixe). Le dernier terme étant fonction de la densité inconnue et non de l’estimateur, il peut donc 

être ignoré. Le premier terme est une fonction de l’estimateur et peut être calculé directement. 

En revanche, le terme intermédiaire ne peut être calculé directement et doit être estimé. 

Rudemo et Browman notent que 

 

ˆf(x)f(x)dx = E[ ˆ f(X)], (5.11) 

En utilisant un estimateur leave-one-out (i.e. un estimateur construit en enlevant un point de 

9 le risque ici se réfère au ISE présenté dans la section précédente


données), l’espérance peut être approchée de façon non-biaisée par : 

1 

n 

 

n ˆ fi(xi), 

i=1 

ce qui conduit au critère de validation croisée 

UCV = R( ˆ f) − 2 

n 

n 

ˆf n −i(xi). (5.12) 

Rodemo et Bowman montrent que le critère de validation croisée non-biaisée est une estimation 

non-biaisée du risque dans le sens où E[UCV] + R(f) = MISE. 

5.3.2 Noyaux adaptatifs 

Les travaux en estimation de densité à noyau adaptatif peuvent être groupés en deux caté- 

gories : les estimateurs ballons «balloon» et les «sample point estimator». La distinction entre 

ces deux approches réside dans la façon de faire varier la fenêtre. Pour l’estimateur ballon, une 

fenêtre différente mais fixe est sélectionnée pour chaque point d’estimation x. L’estimation de 

f au point x correspond alors à la moyenne de noyaux identiquement normalisés centrés sur 

chaque donnée. Afin de calculer l’estimation à un autre point, une nouvelle valeur du paramètre 

de lissage doit être utilisée. L’estimateur adaptatif s’écrit : 

ˆf1(x) = 

1 

nh(x) d 

i=1 

n 

K 

i=1 

 

x − Xi 

. (5.13) 

h(x) 

L’estimateur «sample point estimator» fait appel à un paramètre de lissage différent pour chaque 

donnée de l’échantillon et est donné par : 

ˆf2(x) = 1 

n 

n 

i=1 

1 

K 

h(Xi) d 

 

x − Xi 

. (5.14) 

h(Xi) 

L’estimation de f à chaque point x correspond alors à la moyenne de noyaux différemment 

normalisés centrés sur chaque donnée de l’échantillon. La figure 5.5 donne le résultat d’un tel 

estimateur sur les données de l’étude sur le suicide (Silverman).

5.4 Un estimateur réduit des densités de probabilités à noyau adaptatif 107 

Fig. 5.5 Résultat de l’estimateur «sample point estimaor» de la densité d’étude 

sur le suicide (Silverman). 

5.4 Un estimateur réduit des densités de probabilités à noyau adaptatif 

Le problème posé à la fois par le «balloon estimator» et le «sample point estimator» est le 

coût de calcul élevé dû à la selection d’un paramètre de lissage à chaque estimation d’un point 

de données. Dans un cas de figure comme le nôtre où l’estimation n’est pas une fin en soi, mais 

constitue une étape d’un algorithme plus large faisant évoluer d’autres critères dont la complexité 

est aussi élevée, il est judicieux de chercher une méthode d’estimation dont le comportement est 

similaire à celui des méthodes utilisant des noyaux adaptatifs, à la différence près que la charge 

calculatoire induite par les fonctions coût (ISE, AMISE) est significativement réduite. 

Pour apporter un élément de réponse à ce problème, nous nous sommes intéressés aux modèles 

d’estimation compétitifs qui alternent estimation paramétrique et estimation non-paramétrique 

([Hjort and Glad, 1995], [Rudzkis, 1992], [Cao et al., 1995], [Cao and Devroye, 1996] et [Susko 

et al., 1998] et [Priebe and Marchette, 2000]). L’approche qui nous a séduite et qui convenait le 

plus à notre problème est celle développée par [Priebe and Marchette, 2000] qui proposent une 

variante de l’estimateur à noyau qui incorpore des informations locales sur la régularité de la 

densité. L’estimateur utilise un petit ensemble de paramètres de lissage au lieu d’un paramètre 

de lissage global, comme c’est le cas pour les estimateurs à noyau fixe. Le choix de cet ensemble 

de paramètres est guidé par des fonctions de filtrage qui déterminent la portée de l’influence 

d’un paramètre de lissage et de sa valeur. Ainsi à chaque fonction de filtrage correspond un 

paramètre de lissage et inversement. L’estimateur revient à une approche compétitive entre un


estimateur semi-paramétrique (mélange de gaussiennes) et un estimateur non-paramétrique à 

noyau. Dans un sens, le mélange de gaussiennes définit les fonctions de filtrage et, dans l’autre 

sens, l’estimateur non-paramétrique corrige l’estimateur par mélange de noyaux, en mettant 

à jour le nombre de gaussiennes. L’estimateur dit «FKE», pour «Filtered Kernel Estimator», 

présente des propriétés de convergence intéressantes dans le cas où la densité réelle comporte 

plusieurs modes et des variances différentes. Dans les sections qui suivent nous résumons les 

développements théoriques présentés dans [Marchette et al., 1995] et [Priebe and Marchette, 

2000]. Nous avons pris la liberté de changer quelques notations afin de mieux les adapter à notre 

problématique. 

5.4.1 Hypothèses fondamentales 

Supposons que l’on cherche à définir un ensemble réduit de paramètres de lissage où chacun 

de ces derniers est associé à une partition du support de la densité. A chaque paramètre de lissage 

(fenêtre), on associe une fonction qui filtre les données. Un filtre ainsi défini agira comme une 

fonction de contrainte qui contrôle l’étendue du paramètre de lissage qui lui est associé. Soit un 

ensemble de fonctions {Wj} m j=1 , où 0 ≤ Wj(x) ≤ 1 et pour tout x on a : 

m 

Wj(x) = 1 

j=1 

Les noyaux de filtrage W expriment en fait des probabilités a posteriori et sont utilisés pour 

introduire des informations a priori sur la structure et surtout la régularité de la densité que 

l’on cherche à estimer. Formellement l’estimateur s’exprime par : 

ˆf(x) = 1 

n 

n 

m 

i=1 j=1 

Wj(Xi) 

hd K 

j 

 

x − Xi 

hj 

(5.15) 

où à chaque fonction de filtrage Wj est associé un paramètre de lissage hj tel que hj > 0, hj → 0 

et nhj → ∞ quand n → ∞. 

La fonction globale de filtrage n’est autre qu’un mélange de noyaux qui s’exprime de la sorte : 

M(x) = 

La probabilité a posteriori s’exprime alors par : 

m 

cjϕj(x) 

j=1 

Wj(x) = cjϕj(x) 

M(x)


L’idée est d’utiliser une valeur de h pour chaque composante de M. Cette valeur doit être 

optimale pour cette composante comme si l’on travaillait dans le cadre d’une estimation semi- 

paramétrique par mélange de noyaux. Pratiquement, si l’on travaille avec un mélange de gaus- 

siennes, le paramètre de lissage est une fonction de la variance de la gaussienne à laquelle il est 

associé. Il est attrayant de se servir de la probabilité a posteriori de l’adhésion d’une compo- 

sante ϕ pour déterminer la contribution locale d’un paramètre de lissage donné. La procédure 

d’estimation revient donc à chercher dans un premier temps une approximation sous forme de 

mélange de noyaux (gaussiennes), et à utiliser ce résultat pour déterminer les paramètres de 

lissage (largeurs de fenêtres), tout en intégrant des informations sur les régularités locales de la 

densité réelle. 

La condition nécessaire et suffisante pour que l’estimateur réponde aux conditions de la 

théorie d’estimation et des probabilités et exprime ainsi une densité est : 

5.4.2 Choix du noyau 

1 

n 

n 

m 

1 

h 

i=1 j=1 

d j 

 

 

x − Xi 

Wj(xi)K 

dx = 1. 

Comme expliqué dans le chapitre précédent, l’utilisation d’un noyau gaussien réduit consi- 

dérablement le temps de calcul de l’entropie quadratique de Rényi et par conséquent celui du 

critère de similarité. Dorénavant le noyau K correspondra à une distribution normale de moyenne 

nulle (µ = 0) et de variance égale à 1 (σ 2 = 1). L’estimateur «FKE» prend alors la forme : 

ˆfh(x) = 1 

n 

n 

m 

i=1 j=1 

hj 

cjGψj (Xi − µ d j ) 

h ∗ ψjM(Xi, θj) G1 

 

x − Xi 

h ∗ ψj 

(5.16) 

Le paramètre optimal h opt peut être choisi en minimisant l’erreur MISE de ˆ fh(x) sous l’hy- 

pothèse que le mélange de filtrage M(Xi, θ) correspond à la densité réelle : 

 

hopt = argmin MISE( 

h 

ˆ 

fh(x))|f0 = M(Xi, θ) . 

De plus, l’utilisation d’un noyau gaussien profite au calcul de l’erreur MISE qui s’écrit (pour


les détails voir annexe A) : 

avec 

MISE(h) ≈ σ2 K 

4 

m 

j=1 k=1 

m 

h 2 jh 2 

d2 k 

1 

n 

g(hj, hk) = 

d2 

(f(x)Wj(x)) 

dx2 dx2 (f(x)Wk(x)) dx + (5.17) 

m 

j=1 k=1 

= 

 

m 

 

g(hj, hk) 

1 

√ 2π 

hjhk 

K( 1 

)K( 

hj 

1 

)dw 

hk 

hjhk 

 

h2 j + h2 . 

k 

Wj(y)Wk(y)f(y)dy (5.18) 

L’estimateur repose sur l’hypothèse fondamentale que la densité réelle correspond à un mé- 

lange de gaussiennes, et que par conséquent les fonctions de filtrage s’expriment sous la forme 

d’un mélange de gaussiennes. Cette hypothèse est valide dans le cadre du traitement d’images, 

mais ne l’est pas forcément dans le cadre de processus stochastique non-linéaires plus complexes. 

En remplaçant dans l’équation 5.18 l’expression des fonctions de filtrage M, on écrit : 


4 

En utilisant les notations : 

Le risque MISE s’écrit : 

1 

n √ 2π 

MISE ≈ σ2 K 

4 

m 

m 

cjckh 2 jh 2 

k 

G 

j=1 k=1 

′′ 

ψj (x)G′′ ψk (x)dx + 

m m cjck 

 

j=1 k=1 h2 j + h2 

Gψj (y)Gψk (y) 

dy. 

f(y) 

k 

Ajk = cjck 

Bjk = cjck 

m 

m 

j=1 k=1 

 

G ” ψj (x)G” ψk (x)dx, 

Gψj 

Ajkh 2 jh 2 k 

(x)Gψk (x) 

dy. 

f(y) 

+ 1 

n √ 2π 

m 

m 

Bjk 

 

j=1 k=1 h2 j + h2 k 

. (5.19) 

De cette équation on peut déterminer les paramètres de lissage par une méthode d’optimisation


itérative fondée sur le gradient. Les dérivées partielles s’écrivent : 

∂ 

∂hr 

 

MISE = σ 2 KArrh 3 r + 1 

2 σ2 Khr Akrh 

k=r 

2 k 

5.4.3 Calcul des fonctions de filtrage 

− Brr 

2n √ πh 2 r 

− hr 

n √ 

2π 

k=r 

Bkr 

 

h 2 r + h 2 k 

3 . (5.20) 

En pratique, le mélange de gaussiennes exprimant la densité réelle est inconnu. Dans ce cas, 

les formules précédentes nécessaires à la détermination de l’ensemble des paramètres de lissage 

ne sont pas applicables. En effet les calculs de Ajk et de Bjk font appel à la densité réelle f 

qui est inconnue. Pour pallier ce problème la densité réelle est approchée et est formulée, dans 

un premier temps, sous la forme d’un mélange de gaussiennes. L’expression obtenue est alors 

utilisée pour calculer l’ensemble des paramètres de lissage en minimisant l’équation 5.19. Cette 

démarche est analogue à celle utilisée en estimation par noyau fixe où l’on suppose que la densité 

réelle prend la forme d’une gaussienne pour calculer le paramètre de lissage. 

5.4.4 Simulations et résultats 

Le but de cette section est de donner quelques résultats de l’estimateur «FKE» dans un 

cadre d’analyse d’images. Nous allons commencer dans un premier temps par des simulations 

où la densité réelle est générée par un mélange de gaussiennes. Le but est d’estimer au mieux 

cette densité et de prouver la supériorité de l’estimateur «FKE» face aux estimateurs à noyau 

fixe «KE». La deuxième partie donne des résultats d’estimation d’images provenant de diverses 

modalités et concernant des zones anatomiques différentes. La partie consistant à prouver nu- 

mériquement l’utilité de l’estimateur «FKE» dans le cadre du recalage et plus particulièrement 

l’impact de la précision dans le calcul des mesures de similarité est traitée dans le chapitre 7. 

L’erreur MISE est calculée pour l’estimateur réduit «FKE» et l’estimateur de Parzen à noyau 

fixe où le paramètre de lissage h a été calculé automatiquement par validation croisée. Les 

paramètres de lissage utilisés par l’estimateur sont calculés en minimisant l’équation 5.19. Le 

rendement (efficacité) de l’estimateur est calculé par le rapport MISE FKE /MISE KE [Wand et 

al., 1991]. 

1 er cas : Variance variable 

Soit : 

f(x) = 1 

2 G0,1(x) + 1 

2 G 0,σ 2(x),


avec 0.1 ≤ σ 2 ≤ 10 . La figure 5.6 montre la courbe de rendement (efficacité) en fonction de 

la variance. Il est à noter que pour σ 2 = 1, l’estimateur «FKE» donne des résultats meilleurs 

que l’estimateur à noyau fixe «KE» comme il est attendu. La figure 5.7 montre les largeurs de 

fenêtres utilisées par l’estimateur «FKE». La largeur de fenêtre associée au deuxième terme du 

mélange de gaussiennes, le terme pour qui la variance change, varie en fonction de σ 2 . 

Cette expérience représente le problème principal pour lequel l’estimateur a été conçu : on 

dispose d’une densité qui correspond à un mélange de deux gaussiennes avec des variances dif- 

férentes. Au fur et à mesure que la variance de la deuxième gaussienne s’éloigne de la variance 

de la première gaussienne, l’estimateur à noyau fixe perd en efficacité et devient inadéquat pour 

représenter la densité réelle. L’estimateur à noyau adaptatif présente des résultats plus cohérent 

dans ce cas de figure. 

Fig. 5.6 Le rendement (efficacité) en fonction de la variable pour l’expérience 1. 

À mesure que la variance s’éloigne de 1, l’estimateur à noyau fixe (KE) devient de 

plus en plus inadéquat pour l’estimation de la densité d’étude. L’estimateur réduit 

«FKE» permet, quant à lui, de prendre en compte les deux variances, ce qui améliore 

le résultat de l’estimation quant les variances des gaussiennes sont significativement 

éloignées. 

2 ème Cas : Données Image 

Dans cette section , nous présentons plusieurs résultats d’estimation sur des données d’images 

provenant de plusieurs modalités et concernant différentes zones anatomiques.


Largeur de fenêtre 

Fig. 5.7 Les largeurs de fenêtres utilisées par l’estimateur réduit à noyau adaptatif 

«FKE». Le paramètre de lissage associé au deuxième terme du mélange de 

gaussiennes (la ligne continue), pour lequel la variance change, varie en fonction 

de σ, ce qui permet à l’estimateur de mieux représenter les variances locales de la 

densité réelle. 


Ce chapitre a couvert les méthodes d’estimation des densités de probabilités. Cette étude a 

été entreprise pour accélérer le temps de calcul nécessaire au critère de similarité qui requiert 

l’évaluation de l’histogramme conjoint des images à recaler, ce qui permet d’utiliser des modèles 

de déformations non-linéaires. 

Ce chapitre a commencé par une présentation du cadre théorique de l’estimation des densités 

de probabilité. Il s’est consacré, par la suite, aux méthodes non-paramétriques à noyau. Le 

cadre théorique de cette classe d’estimateurs a été introduit et la nécessité de varier les noyaux 

d’estimation dans le cadre d’analyse d’images a été discutée. Les méthodes classiques à noyau 

adaptatif types «balloon estimator» et «sample point estimator» ont alors été introduites. Leurs 

limitations, qui concernent principalement le temps de calcul conséquent qu’elles nécessitent, ont 

été mis en évidence. 

Dans sa deuxième partie, ce chapitre a introduit notre choix du modèle d’estimation. Cet 

estimateur réduit à noyau adaptatif est une combinaison de deux approches : l’approche semi- 

paramétrique et l’approche non-paramétrique. 

Enfin, ce chapitre se termine par une présentation des quelques résultats empiriques de l’es- 

timateur dans un cadre d’estimation des histogrammes des images médicales.


0.05 

0.045 

0.04 

0.035 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

(a) Coupe IRM de l’abdomen. 

0 

-100 0 100 200 300 400 500 600 

(b) En bleu la densité réelle de la coupe IRM. En rouge 

son estimation par l’estimateur «FKE». 

Fig. 5.8 Illustration du résultat de l’estimation sur les données d’une IRM de 

l’abdomen.


0.25 

0.2 

0.15 

0.1 

0.05 

(a) Coupe IRM du crâne. 

0 

-50 0 50 100 150 200 250 300 350 

(b) En bleu la densité réelle et en rouge la densité estimé. 

Fig. 5.9 Illustration du résultat de l’estimation sur les données d’une IRM du 

cerveau.


x 10-3 

9 

8 

7 

6 

5 

4 

3 

2 

1 

Dupont 

(a) Coupe TDM de l’abdomen avec artefacts. 

-4 -3 -2 -1 0 1 2 3 4 

x 10 4 

0 


Fig. 5.10 Illustration du résultat de l’estimation sur les données TDM bruitées 

de l’abdomen.


0.035 

0.005 

(a) Coupe TDM du crâne avec cadre stéréotaxique. 

0.03 

0.025 

0.02 

0.015 

0.01 

0 

-3000 -2000 -1000 0 1000 2000 3000 4000 


Fig. 5.11 Illustration du résultat de l’estimation sur les données TDM bruitées 

(cadre stéréotaxique) du cerveau.


0.05 

0.045 

0.04 

0.035 

0.03 

0.025 

0.02 

0.015 

0.01 

0.005 

(a) Coupe TDM du poumon 

0 

-100 0 100 200 300 400 500 600 700 800 900 

(b) Résultats de l’estimation sur les données TDM du 

poumon 

Fig. 5.12 Illustration du résultat de l’estimation sur les données TDM du poumon.

Chapitre 6 

L’algorithme MIAMI 


Dans les chapitres précédents, nous avons présenté les différents apports théoriques de ce 

mémoire. Cependant, le cadre de mise en oeuvre algorithmique n’a pas encore été exposé. Ce 

chapitre récapitule ces différents développements théoriques et décrit nos différents choix de mise 

en oeuvre algorithmique du recalage non-rigide multimodal d’images. 

sont : 

Un algorithme de recalage peut être schématisé de façon modulaire. Les différents modules 

– Le modèle de déformation. 

– La fonctionnelle de recalage. 

– Le modèle d’interpolation. 

– La stratégie d’optimisation. 

Ces différents modules seront détaillés pour les différentes parties de la procédure globale du 

recalage. 

6.2 Formulation hybride 

Comme nous avons eu l’occasion de l’expliquer plus tôt, notre choix de déformation porte sur 

un modèle hybride qui associe une déformation globale et un ensemble de déformations locales : 

T(x, y, z) = T globale (x, y, z) + T locale (x, y, z) (6.1) 

Ce choix est motivé par des considérations calculatoires. En effet, formuler le modèle de défor- 

mation par le biais de deux transformations disjointes permet d’accélérer le temps de calcul. 

119

120 L’algorithme MIAMI 

La procédure du recalage est la suivante : on commence par calculer un modèle continu des 

images ; ce modèle servira à la fois à l’interpolation des points qui ne «tombent» pas dans une 

grille discrète et à la construction de la pyramide multi-résolution. Par la suite, on procède à un 

recalage linéaire affine pour aboutir à une bonne approximation et une initialisation optimale du 

recalage non-rigide. Partant des résultats du recalage affine, on procède à un recalage non-rigide 

fondé sur les déformations de formes libres. Ce schéma permet, en plus d’accélérer le temps 

de calcul, de résoudre le problème d’initialisation dont souffrent les approches non-rigides du 

recalage. Ce schéma est illustré dans la figure 6.1. Notre algorithme a été baptisé MIAMI pour 

«Medical Image Alignment by quadratic Mutual Information». 

6.3 Modèle d’image 

Soit n(x) un modèle continu d’une image pouvant être obtenu à partir d’échantillons Ni = 

f(xi) régulièrement espacés dans une grille Cartésienne. Pour être fonctionnel, un modèle d’image 

doit satisfaire les contraintes suivantes : 

– En premier lieu, il doit permettre l’interpolation dans l’image c-à-d pouvoir associer les 

échantillons Ni et leur position xi à la forme continue de l’image n(x). Cette propriété est 

généralement nécessaire dans le cas de transformations géométriques n → n(T(xi)). 

– En second lieu, étant donné une certaine fonction continue y(x), il doit exister un procédé 

pour récupérer un ensemble d’échantillons Yi aux positions xi tel que le modèle basé sur 

cet ensemble reconstruirait une approximation acceptable de y(x). Une application typique 

de cette contrainte est le calcul d’une pyramide de résolution. Dans ce cas-ci le procédé 

peut être schématisé par : 

(Ni, xi) → n(x) → n(2x) = y(x) → (Yi, xi) 

Le modèle proposé par [Unser et al., 1993c] est fondé sur des fonctions B-splines de degré n. 

Spécifiquement, on a : 

n(x) = 

c(xi)β n (x − xi), (6.2) 

xi∈V 

où β(x) est un noyau de convolution séparable donné par le produit β n (x1).β n (x2)..., et où 

les coefficients d’expansion ci = c(xi) sont calculés à partir des valeurs de l’échantillon Ni par 

filtrage récursif. Ce modèle est continu et différentiable pour tout n ≥ 0, et différentiable pour 

tout n > 1. 

L’intérêt de ce modèle est triple. D’abord, sa version multi-échelle fournit la pyramide d’images 

que nous utilisons dans notre approche multi-résolutions. En second lieu, il permet le ré-échantillo-

6.3 Modèle d’image 121 

Images M-N 

combinées 

Image N recalée 

Validation visuelle 

Image Cible M Image Source N 

Pyramide Cible 

Construction des 

pyramides 

Pyramide Source 

Recalage affine 

Recalage non-rigide 

Résultat du recalage 

non-rigide 

Fig. 6.1 Différentes étapes de l’approche hybride du recalage. 

Résultat du recalage 

affine


nnage de l’image source n(T(xi)). Finalement, il est utilisé pour le calcul du gradient de l’image 

requis lors de la phase d’optimisation. 

6.3.1 Schéma multi-résolution 

Au niveau algorithmique, une stratégie multi-résolution participe à réduire les charges de 

calcul. Elle consiste à utiliser la solution obtenue à une résolution donnée comme initialisation 

à la résolution plus fine suivante. Cela permet d’un côté une réduction drastique du coût global 

de calcul et d’un autre côté une amélioration de la robustesse de l’algorithme. 

Pour ce faire, une pyramide d’images est alors construite à plusieurs résolutions. Dans notre 

algorithme nous avons intégré le code de [Unser et al., 1993c] disponible à l’adresse notée en bas 

de page 1 . 

6.3.2 Degré du modèle 

Du degré du modèle dépend la qualité de l’approche. Le degré le plus faible n = 0 correspond 

à l’interpolation par le plus proche voisin. Utilisé pour construire la pyramide de résolution, 

il conduit au crénelage (aliasing). Utilisé pour calculer n(T(x)), il a comme conséquence des 

dégradations de l’image qui se traduisent par des effets de blocs «blocking artifacts». Utilisé 

pour calculer le critère de similarité S, il en résulte un critère discret difficile à optimiser sauf à 

utiliser des modèles stochastiques, généralement coûteux en temps de calcul et en espace mémoire. 

Le degré suivant n = 1 correspond à l’interpolation linéaire. Elle produit moins de crénelage 

«aliasing», et les effets de blocs sont remplacés par des effets de sur-lissage «oversmoothing». 

Dans ces deux cas, le calcul des coefficients des B-splines c est trivial. Pour des degrés plus 

élevés, ce calcul est légèrement plus compliqué, mais le crénelage est réduit sensiblement. Les 

effets de blocs et de lissage sont remplacés par des effets d’oscillation «ringing artifacts». 

Dans le cas limite : n → ∞, les effets de crénelage disparaissent complètement mais les effets 

d’oscillation restent fortement présents (sinc, ou interpolation de Shannon). Un bon compromis 

est de choisir un noyau B-spline cubique. 

Il est trois raisons principales pour lesquelles le choix d’un degré élevé est essentiel à un 

comportement approprié d’une stratégie multirésolution de recalage. Considérons d’abord que 

l’on exécute l’optimisation à un niveau élevé de la pyramide. Les étapes faites par l’optimiseur 

correspondent à ce niveau à de grands pas au niveau le plus fin. Il s’en suit que la précision 

est d’une grande importance à ce niveau car l’interpolation «subpixel» doit être la plus fidèle 

1 http://bigwww.epfl.ch/sage/pyramids/index.html

6.4 Recalage affine 123 

possible. Ceci nécessite un degré plus élevé que ce qui est traditionnellement choisi. Ensuite, 

admettons disposer des paramètres optimaux du recalage à un certain niveau, les paramètres 

optimaux au niveau plus fin suivant ne sont pas identiques parce que le niveau de détail dans les 

données a augmenté, et ces détails supplémentaires requièrent des ajustements des paramètres 

du recalage. Ces ajustements doivent cependant être aussi rares que possible, ce qui est réalisé en 

réduisant au maximum la quantité de détail distinguant le niveau l du niveau l + 1. Ainsi, il est 

préférable de limiter le crénelage inhérent à l’opération de réduction de taille, d’où la nécessité 

d’un degré du modèle plus élevé. 

En plus de rechercher les paramètres de la transformation géométrique dans les niveaux les 

moins fins, la stratégie de multirésolution n’exclut pas de recommencer l’optimisation pour des 

niveaux plus fins. Afin que cette stratégie soit efficace en termes de temps de calcul, le nombre 

d’itérations requis par l’algorithme d’optimisation pour trouver les paramètres optimaux au 

degré le plus élevé (i.e sans stratégie multi-résolution) doit être inférieur si celle-ci est utilisée. 

De cette considération découle le fait qu’il est primordial de choisir un schéma d’optimisation 

qui tire partie des conditions de départ (initialisation). L’algorithme de Marquardt-Levenberg 

([Marquardt, 1963]) est particulièrement adapté à une stratégie multi-résolution. 

Les différentes étapes de l’algorithme sont présentées dans les sections qui suivent. 

6.4 Recalage affine 

6.4.1 Modèle de déformation 

Une première approximation de la déformation géométrique est obtenue à l’aide d’un recalage 

affine des images. Vu que cette approximation correspond elle même à un a priori très fort sur la 

solution, le critère de régularisation n’est pas considéré. Cette initialisation du recalage non-rigide 

est obtenue alors à l’aide d’un schéma classique de recalage affine. 

6.4.2 Critère de similarité 

Le critère de similarité utilisé lors de cette étape du recalage est l’Information Mutuelle 

Quadratique Normalisée : 

S(M, N) = H2(M) + H2(N) 

H2(M, N) 

− 1.


6.4.3 Optimisation 

Les paramètres de la transformation affine sont recherchés en utilisant une stratégie de re- 

cherche dont le cœur est l’algorithme de Marquardt-Levenberg combiné avec une approche multi- 

résolution. 

La méthode de descente de gradient 

L’algorithme itératif de descente de gradient est une procédure de minimisation qui peut 

succintement être décrite comme : 

T (k+1) = T (k) − λ∇S(T (k) ). (6.3) 

Sa convergence vers un minimum local est garantie, bien qu’elle nécessite un temps de calcul 

conséquent. Un problème principal est la détermination du facteur d’apprentissage λ qui prend 

ici la forme d’une matrice diagonale d’échelle. 

La méthode de Newton 

L’opimiseur de Newton s’écrit : 

T (k+1) = T (k) − (∇ 2 S(T (k) )) −1 ∇S(T (k) ). (6.4) 

Sa convergence à un optimum n’est pas garantie : il peut converger à un point «selle» (en 

même temps un maximum pour un certain paramètre θ1 et un minimum pour un autre paramètre 

θ2). Pire encore, il diverge de la solution quand le problème n’est pas convexe. En revanche, il 

est extrêmement efficace quand le critère est localement convexe quadratique, parce que dans ce 

cas-ci l’optimum désiré est obtenu après une seule évaluation du critère. 

La méthode de Marquardt-Levenberg 

La stratégie de Marquardt-Levenberg est une manière commode de combiner les avantages 

de la méthode de gradient avec ceux de la méthode de Newton, préservant l’efficacité du dernier 

quand les conditions sont presque optimales, et la robustesse du premier quand elles ne le sont 

pas. 

Soit HS l’Hessien modifié qui correspond à ∇S dont les éléments diagonaux ont été multipliés 

par un certain facteur : 

[HS(T)]i,j = [∇ 2 S(T)]i,j(1 + δi,jλ),

6.5 Recalage non-rigide 125 

où δi,j est le symbole de Kronecker, et λ est le facteur de réglage qui mesure le compromis entre 

la méthode de gradient et la méthode de Newton. La méthode d’optimisation s’écrit : 

T (k+1) = T (k) − (HS(T (k) )) −1 ∇S(T (k) ). (6.5) 

Selon la valeur de λ, on peut distinguer deux cas extrêmes : λ → 0, les équations 6.5 et 6.4 sont 

alors identiques. λ → +∞, les termes diagonaux du Hessien modifié dominent, et nous sommes 

alors dans la situation de l’équation 6.3. Le facteur λ doit être choisi entre ces deux cas extrêmes 

afin de réaliser un bon compromis entre l’efficacité (mais le manque de robustesse) de l’approche 

de Newton, et le nombre d’itérations mais le manque d’efficacité en général de l’approche de 

robuste gradient. 

6.5 Recalage non-rigide 

6.5.1 Modèle de déformation 

Pour retrouver les déformations locales, l’image source est immergée dans une grille de points 

de contrôle. La transformation géométrique est alors opérée indirectement sur l’image en dépla- 

çant ces points de contrôle. Le déplacement −→ u (x, y, z) d’un voxel (x, y, z) de l’image est défini 

par le déplacement des points de contrôle de son voisinage en utilisant des fonctions B-splines. 

La figure 6.2 illustre une coupe axiale immergée dans une grille 2D régulière où l’espace- 

ment δ entre les points de contrôle est constant. Chaque point de contrôle est représenté par 

un couple ⌊i, j⌋ correspondant aux indices de la grille. L’origine (0.0, 0.0) des coordonnées de 

l’image coïncide avec le point de contrôle initial ⌊i = 0, j = 0⌋. Dans cet exemple, les points de 

contrôle (⌊3, 2⌋ et ⌊4, 3⌋) ont été déplacés (petites flèches). En utilisant l’interpolation B-spline le 

déplacement d’un voxel de l’image dépend du déplacement des deux points de contrôle les plus 

proches dans chaque direction. Dans cet exemple le voxel (x, y), marqué par le petit rectangle 

plein dans l’image, a été affecté par les déplacements des points de contrôle (⌊3, 2⌋ et ⌊4, 3⌋) 

notés φ3,2 et φ4,3. 

Formellement, les déformations libres fondées sur les B-splines sont définies par le produit 

tensoriel de trois B-splines cubiques dans la base nx × ny × nz de la grille des points de contrôle 

φi,j,k : 

où i = ⌊ x 

δ 

⌋−1, j = ⌊ y 

δ 

u(x, y, z) = 

3 

3 

l=0 m=0 n=0 

3 

βl(u)βm(v)βn(w) φi+l,j+m,k+n, (6.6) 

z 

⌋−1 et k = ⌊ δ ⌋−1 sont les indices du premier point de contrôle de la grille 

qui intervient dans le calcul du déplacement du voxel (x, y, z). u = x 

δ 

⌊ x 

δ 

⌋, v = y 

δ 

⌊ y 

δ 

z z 

⌋ et w = δ ⌊ δ ⌋


Fig. 6.2 Application d’une déformation libre à une image source

6.5 Recalage non-rigide 127 

représentent la distance entre le voxel (x, u, z) et les points de contrôle les plus proches. βl sont 

des fonctions B-splines d’ordre l : 

6.5.2 Critère de similarité 

β0(x) = 

(1 − x)3 

6 

β1(x) = (3x3 − 6x 2 + 4) 

6 

β2(x) = (−3x3 + 3x 2 + 3x + 1) 

6 

β3(x) = x3 

6 

Le critère de similarité intègre dans le cadre des transformations locales un énergie de ré- 

gularisation. Pour contrôler le poids de cette dernière par rapport à la similarité, un facteur 

ζ, dit force de la régularisation est alors utilisé comme un facteur multiplicatif de l’énergie de 

régularisation : 

Énergie de similarité 

Sg(T) = −E sim (M, N) + ζEreg(T). (6.7) 

Comme pour le recalage rigide, le critère de similarité utilisé lors de cette étape est l’Infor- 

mation Mutuelle Quadratique Normalisée : 

Énergie de régularisation 

E sim (M, N) ≡ S(M, N) = H2(M) + H2(N) 

H2(M, N) 

Afin de contraindre la solution finale, le coût de régularisation doit être pris en compte lors 

de cette étape de l’algorithme de recalage. 

Puisque dans le cadre des déformations libres 2 aucune des fonctions en dehors de l’espace 

de transformations envisagé n’est permise, et toutes les fonctions à l’intérieur de cet espace 

sont équiprobables, l’approche compétitive pénalise de façon continue les transformations en 

fonction de leur régularité. L’énergie de régularisation peut être vue comme étant reliée à une 

densité de probabilité a priori sur l’ensemble des champs de vecteurs [Szeliski, 1989]. Selon 

2 ceci est valable pour toute approche paramétrique 

− 1.


cette interprétation, en utilisant une énergie quadratique classique, nous faisons implicitement 

l’hypothèse que la solution suit la loi de probabilité d’un certain bruit gaussien corrélé. Par 

exemple, l’énergie de membrane d’une fonctionnelle f, E mbr (f) = ||df|| 2 , très utilisée en 

recalage, est la (log) densité de probabilité associée aux bruits gaussiens corrélés de distribution 

spectrale S(w) = |2πw| −2 . 

Une autre énergie très utilisée en recalage élastique des images est l’énergie d’élasticité linéaire 

λ 

2 [div(f)]2 + µ||df|| 2 − µ 

2 ||rot(f)|| qui est très liée à l’énergie de membrane. 

Notre choix a porté sur le modèle de membrane dit aussi Laplacien. Cette énergie s’écrit aussi 

sous la forme : 

∞ ∞ ∞ 

−∞ 

−∞ 

−∞ 

∂T 

∂x 

2 

+ 

2 ∂T 

+ 

∂y 

 

2 

∂T 

dxdydz. (6.8) 

∂z 

Restreinte au domaine de l’image cette intégrale est approchée en utilisant la théorie des 

grands nombres par : 

Ereg = 1 

X Y Z 

V 0 0 0 

∂T 

∂x 

2 

+ 

2 ∂T 

+ 

∂y 

 

2 

∂T 

dxdydz, (6.9) 

∂z 

où V est le volume du domaine de l’image (domaine de déformation), X, Y et Z correspondent 

à sa résolution. 

Ce modèle a une interprétation physique intuitive : il tend à approcher l’énergie d’une mem- 

brane (comme une feuille en caoutchouc) qui est assujettie à des déformations élastiques. 

6.5.3 Optimisation 

Contrairement au recalage affine, qui utilise la méthode de Marquardt-Levenberg pour retrou- 

ver les paramètres de la transformation géométrique, l’optimisation de l’algorithme non-rigide 

utilise une méthode de descente de gradient conjugué : 

T (k+1) = T (k) − λ∇Sg(T (k) ). 

Ce choix est motivé par le fait que la matrice Hessienne utilisée dans l’optimisation ML prend 

des dimensions très élevées dans le cadre non-rigide du recalage. Ce qui nécessite un temps de 

calcul conséquent et un espace mémoire très élevé.



Ce chapitre a présenté l’algorithme de recalage non-rigide multimodal proposé dans le cadre 

de cette thèse. L’algorithme se fonde sur une approche hybride compétitive. L’appellation hybride 

vient du fait que deux modèles de déformations sont associés pour définir la transformation du 

recalage. Le premier modèle de déformation est une transformation globale affine alors que le 

deuxième modèle est une déformation de formes libres. L’aspect compétitif est dû à l’introduction 

d’une force de régularisation qui se met en concurrence avec la force de similarité pour aboutir au 

résultat du recalage. Par la suite, ce chapitre définit les différentes solutions techniques choisies 

pour résoudre des problèmes tels que l’interpolation ou l’accélération du calcul et l’amélioration 

de la robustesse par utilisation d’un schéma multirésolution.

130

Chapitre 7 

Simulations et validations 


Une fois que l’on dispose d’une transformation 3D optimale vis-à-vis d’un certain critère de 

recalage, il nous reste encore à estimer la validité, ou la qualité extrinsèque, d’une telle trans- 

formation. Cette section est consacrée à la présentation de quelques méthodes de validation des 

résultats d’un algorithme de recalage. Certaines méthodes permettent d’obtenir un résultat chif- 

fré, d’autres sont basées sur une validation visuelle du recalage. Étant donné la grande diversité 

des algorithmes de recalage, il est souvent difficile de les comparer quantitativement. Certains sont 

rapides, d’autres extrêmement lents. Certains effectuent des recalages rigides d’autres élastiques. 

Les rares cas où l’on peut comparer quantitativement deux algorithmes de recalage différents se 

limitent à l’usage d’une même fonction de coût. Mis à part ce cas précis, toutes les autres com- 

paraisons sont souvent biaisées. La robustesse des algorithmes est également difficile à comparer 

d’une méthode à une autre car elle est issue d’une prise de décision (résultat correct ou résultat 

incorrect) intrinsèque à chaque algorithme de recalage. Un projet de validation de différentes 

méthodes a été mis en place pour évaluer rétrospectivement la précision de méthodes de recalage 

(i.e. directement à partir des images brutes) en se référant à un recalage rigide considéré optimal 

et obtenu à l’aide de marqueurs préalablement fixés sur le patient avec un casque stéréotaxique 

(méthode prospective). Enfin notons bien sûr que le meilleur moyen de comparer deux techniques 

de recalage est de faire estimer visuellement par un expert les résultats obtenus. La suite de cette 

section sera divisée en deux parties : une première présentant quelques méthodes de validations 

visuelles, puis une deuxième partie traitant de la validation à l’aide de marqueurs. 

131

132 Simulations et validations 

7.2 Validation visuelle 

On affiche non pas le volume entier mais une série de vues en coupe 2D du volume. Les figures 

qui vont suivre représentent des exemples de vues en coupe d’une image scanner de référence et 

d’une image IRM recalée sur la référence. Les niveaux de gris de ces images ont été normalisés 

pour utiliser la pleine échelle. 

7.2.1 Mélange des images 

La valeur d’un pixel d’une coupe est dépendante de la valeur du pixel de même coordonnées 

sur les deux images. Soient M et N les deux images de même dimension à mixer pour obtenir C. 

Pour chaque pixel (x, y) de C, C(x, y) = f(M(x, y), N(x, y)). 

Affichage en damier 

f(M(x, y), N(x, y)) = 

 

M(x, y) x y 

si⌊ δx⌋ + ⌊ δy ⌋ est pair, 

N(x, y) sinon 

L’image résultante est similaire à un damier où les cases blanches contiendraient les pixels de 

l’image M et les cases noires les pixels de l’image N (Fig. 7.1). La notation ⌊.⌋ signifie partie 

entière inférieure, et les quantités δx et δy mesurent la taille des cases du damier. Un tel procédé 

d’affichage permet d’une manière statique (sur une seule image de la série de coupes) d’estimer 

la continuité entre les structures de l’image M et celles de l’image N au niveau des frontières des 

cases. 

Notons que si nous affichons rapidement des coupes en damier en inversant une image sur 

2 le rôle des cases noires et le rôle des cases blanches, alors la persistance rétinienne permet 

dynamiquement de superposer le contenu de l’image M avec celui de l’image N. 

Surimposition des structures 

Soit VR un volume de recouvrement définit par l’opérateur. L’image résultante est un mélange 

des deux images cible et source (Fig. 7.2). L’image source sera par exemple affichée dans le volume 

de recouvrement, et le reste de la scène sera alors occupé par l’image cible. Ce mode d’affichage 

met en évidence la discontinuité d’un organe en cas d’échec du recalage, et sa continuité en cas 

de réussite. Les zones de recouvrement peuvent être définies verticalement ou horizontalement

7.2 Validation visuelle 133 

Fig. 7.1 Validation visuelle par affichage en damier.


(a) Surimposition verticale des images. 

(b) Surimposition horizontale des images. 

Fig. 7.2 Validation visuelle par surimposition des images.

7.2 Validation visuelle 135 

(Fig. 7.2) et peuvent varier interactivement en fonction des desiderata de l’utilisateur. 

Différence centrée 

f2(M(x, y), N(x, y)) = 

f3(M, N) = 

 

M(x, y) si[x, y] ∈ VR 

N(x, y) sinon 

nv_gris_max + M − N 

2 

Cette fonction est surtout utile pour les images de mêmes modalité ayant une intensité moyenne 

comparable. Ainsi un même niveau de gris dans les deux images représente la même réalité 

physique. De plus ce mode permet de savoir lorsque le fond de l’image est de niveaux de gris 

constant, quel est précisément le volume qui excède l’autre (Fig. 7.3). 

Fig. 7.3 Validation visuelle par différence centrée des intensités.


7.3 Validation à l’aide marqueurs : le projet RIRE 

Une première façon d’obtenir une estimation chiffrée est d’utiliser deux ensembles de mar- 

queurs anatomiques se correspondant mutuellement d’une modalité à une autre. Ces marqueurs 

ne doivent pas être utilisés par l’algorithme de recalage mais servent juste d’estimation, en terme 

de distance euclidienne entre deux ensembles de points, de la qualité du recalage. Un exemple 

de ce type de validation est le projet RIRE. 

Le but du projet RIRE 1 (initialement RREP) est de fournir une évaluation clinique de la pré- 

cision des techniques rétrospectives 2 de recalage d’images volumiques multimodales du cerveau 

humain. Ce projet est articulé autour de trois modalités le TEP (Positon Emission Tomography, 

utilisé en imagerie fonctionnelle), l’IRM et le TDM. Les recalages à effectuer sont le TEP sur 

l’IRM pour la visualisation de l’activité neuronale sur un contexte anatomique (IRM), et le re- 

calage IRM sur TDM pour la visualisation des tissus mous dans un contexte de structure rigide 

(os extrait des images TDM). La qualification objective des différentes techniques de recalage 

par le biais du projet RREP devrait permettre d’établir un degré de confiance auquel peuvent 

s’attacher les neurologistes et les neurochirurgiens en matière de recalage rétrospectif d’images 

cérébrales. 

7.3.1 Principe d’évaluation et de comparaison 

La base de données est constituée d’images de dix-huit patients. Le principe de RIRE consiste 

à comparer des méthodes de recalage rigide. La qualité et la précision du recalage sont déter- 

minées par comparaison avec un recalage rigide prospectif. Ce recalage rigide est déterminé à 

l’aide d’un ensemble d’amers fixés sur le crâne avant l’acquisition des images avec un casque 

stéréotaxique. La localisation de ces points étant aisée sur les images TDM, TEP et IRM, un al- 

gorithme déterministe peut facilement, et avec une bonne précision, calculer les paramètres de la 

transformation rigide correspondante. Les images mises dans la base de données ont été traitées 

de manière à supprimer l’information donnée par ces marqueurs. Par ailleurs, pour déterminer 

l’impact des distorsions des images IRM sur la précision du recalage, chaque image IRM est dis- 

ponible en deux versions : une version ayant subi une correction géométrique (calibration), et une 

version n’ayant subi aucune correction. La comparaison avec les résultats des autres techniques 

(rétrospectives) peut donc se faire soit sur les valeurs des paramètres de la transformation rigide 

(translation 3D et angles de rotation), soit sur la position transformée d’un ensemble de points. 

1 

The Retrospective Image Registration Evaluation Project http://www.vuse.vanderbilt.edu/~image/ 

registration/ 

2 

Le terme rétrospectif s’entend dans le sens ou des images (de diverses modalités) sont acquises à différents 

moments, et ultérieurement, plusieurs techniques de recalage peuvent être employées et comparées.

7.3 Validation à l’aide marqueurs : le projet RIRE 137 

Parce qu’il existe plusieurs façons de définir une transformation rigide (a- trois angles d’Euler 

plus un vecteur de translation, b- une matrice orthogonale 3 × 3 plus un vecteur de translation, 

c- un quaternion plus un vecteur translation, d- trois vecteurs de translation pour chacun de 

trois points colinéaires), et parce que chacune d’elles nécessite la spécification de paramètres 

additionnels (la position du centre de la rotation pour les méthodes a, b et c, les positions des 

trois points colinéaires pour la méthode d), et pour éviter les erreurs de transfert des résultats, 

l’équipe de «Vanderbilt» a proposé une nouvelle méthode de spécification des paramètres de la 

transformation rigide. Fondée sur l’hypothèse des corps rigides, cette méthode consiste à repré- 

senter une transformation rigide, pour chacun des voxels situés aux huit coins du volume source, 

un ensemble de positions d’origine et de positions transformées (figure 7.4). Chaque position est 

spécifiée par ses trois coordonnées dans l’espace x, y et z en millimètre. Les paramètres d’une 

transformation sont au nombre de 48 : à chacun des huit coins sont associés trois positions 

d’origine et trois positions transformées. Un exemple est donnée dans le tableau 7.1. 

Fig. 7.4 Spécification des positions d’origine et transformées dans les volumes 

source et cible : huit coins des deux volumes 

Après réception des paramètres de la transformation rigide, l’équipe de «Vanderbilt» procède 

à la comparaison entre ceux-ci et les paramètres calculés à partir du cadre stéréotaxique (FRE 3 ). 

Avec le concours d’un neurochirurgien et d’un neurologiste, un ensemble de Volumes d’Intérêt 

(VOI), au nombre de huit, représentant des repères anatomiques sont choisis pour chaque patient. 

Par la suite, ces VOIs sont segmentés manuellement dans chaque IRM et leurs coordonnées x, y 

et z sont stockés. La précision du recalage retrospectif à chacun de ces derniers est alors estimée 

3 Fiducial Registration Error


Transformation Parameters 

Investigator(s) : J. Atif, X. Ripoche, A. Osorio 

Site : LIMSI-CNRS, Orsay, France 

Method : Normalized Quadratic Mutual Information 

Date : 22th June 2004 

Patient number :pt_001 

From :CT 

To :MR-PD 

Point x y z new_x new_y new_z 

1 0.0000 0.0000 0.0000 -1.8180 -20.3027 -5.6817 

2 333.9870 0.0000 0.0000 332.0700 -23.7055 -13.0825 

3 0.0000 333.9870 0.0000 1.8242 313.4880 5.1659 

4 333.9870 333.9870 0.0000 335.7120 310.0850 -2.2347 

5 0.0000 0.0000 112.0000 0.5380 -23.8355 102.2350 

6 333.9870 0.0000 112.0000 334.4260 -27.2383 94.8340 

7 0.0000 333.9870 112.0000 4.1803 309.9550 113.0820 

8 333.9870 333.9870 112.0000 338.0680 306.5530 105.6820 

Tab. 7.1 Exemple de la spécification de la transformation rigide selon la norme 

«Vanderbilt» 

en suivant la procédure suivante (voir aussi la figure 7.5) : 

1. Dans l’image cible, la position du barycentre du VOI est calculée et est convertie en un 

point C en millimètre. 

2. Au point C, on applique l’inverse de la transformation prospective «gold standard» G −1 , 

obtenant ainsi sa position homologue dans l’image «source» : C ′ = G −1 (C). 

3. La transformation rétrospective, R, est alors calculée et appliquée à C ′ : C ′′ = R(C ′ ). 

4. L’erreur du recalage rétrospectif à un point anatomique déterminé par son VOI correspond 

à la distance Euclidéenne entre C et C ′′ .


sont : 

R 

C' G -1 

Fig. 7.5 Calcul de l’erreur de recalage pour un VOI donné 

Les positions anatomiques correspondant aux VOIs utilisées dans le cadre de cette évaluation 

1. Le diaphragme maximum du quatrième ventricule 

2. La jonction du quatrième ventricule avec l’aqueduc 

3. Le globe droit 

4. Le globe gauche 

5. Le chiasme optique 

6. L’apex de la scissure sylvienne gauche 

7. L’apex de la scissure sylvienne droite 

8. Le sulcus central 

9. Le lobe occipital gauche 

10. Le lobe occipital droit 

La base contient un ensemble de modalités acquises pour dix-huit patients différents : 

– Des images scanner (pour 16 patients sur 18 patients) : elles consistent en une trentaine 

de coupes de dimensions 512 2 . La taille de voxel est 0.65 × 0.65 × 4 mm 3 . 

– Des images TEP (pour 8 patients) :une quinzaine de coupes de dimension 128 2 (2.59 × 

2.59 × 8mm 3 ). 

– Des images IRM correspondant aux protocoles d’acquisition T1, T2, DP (densité de proton) 

C 

et MP-RAGE. Les images contiennent 20 à 26 coupes de dimension 256 2 , avec une taille 

de voxel de 1.25 × 1.25 × 4mm 3 . 

C'' 

C 

d 

C''


7.3.2 Expériences 

Le projet RIRE visait à une évaluation des techniques rétrospectives de recalages rigides. C’est 

lors de la première campagne d’évaluation que les méthodes iconiques, et plus particulièrement 

celles utilisant de l’information mutuelle ont dépassé les méthodes classiques donnant lieu ainsi 

à de nombreux travaux sur les mesures de similarité fondées sur la théorie de l’information. 

Grâce à la multiplicité des images de la base, nous pouvons apprécier à la fois la robustesse et 

la précision de notre approche. Il faut garder à l’esprit en analysant nos résultats (Tabs : 7.3 et 

7.4), que nous nous basons essentiellement sur une méthode d’estimation pour calculer la mesure 

de similarité, contrairement aux autres méthodes iconiques, qui utilisent toute les données des 

images. Malgré cet aspect, notre méthode présente des résultats satisfaisants et comparables en 

précision à ceux de l’information mutuelle normalisée ([Studholme et al., 1997]). Les différentes 

expériences entreprises dans cette étude sont montrées dans le schéma 7.6 4 . 

7.3.3 Protocole 

Fig. 7.6 Différentes expériences de recalage effectuées 

Pour appuyer l’aspect générique de notre approche, nous avons utilisé le même protocole 

pour tous les types de recalage. Malgré le fait que les images TEP aient une résolution spatiale 

très faible affectant ainsi le résultat du recalage, nous avons là aussi fait le choix de ne pas pré- 

traiter les images, contrairement à certaines équipes ayant participé à l’évaluation initiale qui 

4 Les expériences impliquant les images MP-RAGE n’ont pas été intégrées dans le manuscrit à cause d’une 

erreur d’orientation du patient qui n’a pas été rectifiée par les administrateurs de la base. Elles sont cependant 

accessibles sur le site de la base.


ont conçu des méthodes spécifiques pour le recalage TEP-IRM. Cela explique en partie pourquoi 

notre approche présente des erreurs de recalage relativement élevés dans le cadre du recalage 

TEP-IRM (Tab. 7.3). Le protocole expérimental est décrit dans le tableau 7.2. 

Prétraitement des images Aucun 

Transformation Rigide 

Histogramme Conjoint Estimation par noyaux adaptatifs 

Mesure de Similarité Information Mutuelle Quadratique Normalisée - NQMI 

Optimisation Marquardt-Levenberg 

Interpolation B-Spline 

Degré multirésolution 3 

Tab. 7.2 Protocole expérimental du recalage rigide utilisé dans le cadre de l’évaluation 

RIRE. 

7.3.4 Présentation des résultats 

Les résultats des différentes séries d’expériences sont résumés dans les tableaux 7.3 et 7.4. 

Dans le tableau 7.3, nous reportons pour chaque couple de modalités la moyenne, la médiane et la 

valeur maximale des erreurs de recalage. Ces calculs sont effectués pour l’ensemble des patients, 

et ne mettent pas en évidence les situations où le recalage a échoué. Pour mieux déceler ces 

situations nous reportons pour chaque couple de modalité et pour chaque patient, la moyenne et 

l’écart type des erreurs de recalage calculées à partir des huit Volumes d’intérêt. Les figures 7.7 

et 7.8 rendent compte de ces situations. 

Modalité source Modalité cible Moyenne (mm) Médiane(mm) Maximum (mm) 

TDM IRM-DP 2.24 2.16 4.01 

TDM IRM-T1 1.55 1.48 3.12 

TDM IRM-T2 2.16 2.06 4.55 

TDM IRM-DP-corrigé 0.95 0.96 2.38 

TDM IRM-T1-corrigé 1.00 0.95 1.92 

TDM IRM-T2-corrigé 1.04 0.73 3.87 

TEP IRM-DP 8.25 3.80 38.11 

TEP IRM-T1 7.82 3.25 55.79 

TEP IRM-T2 12.84 2.88 62.55 

TEP IRM-DP-corrigé 3.72 3.06 12.14 

TEP IRM-T1-corrigé 2.28 2.47 4.41 

TEP IRM-T2-corrigé 4.49 2.59 20.10 

Tab. 7.3 Résultat de l’évaluation RIRE


Enfin, pour comparer nos résultats avec les résultats obtenues à l’aide d’approches similaires 

(iconiques) où différentes (géométriques), nous avons intégrer nos erreurs de recalage dans le 

tableau 7.4 qui présente les résultats de plusieurs équipes. Tous ces résultats sont accessibles 

à l’adresse : http://www.vuse.vanderbilt.edu/~image/registration/results.html. Dans le 

tableau 7.4, les méthodes marquées par une étoile, sont celles utilisant l’information mutuelle où 

ses variantes. 

7.3.5 Analyse des résultats 

À l’issue de l’analyse des résultats du tableau 7.3, il en sort que les expériences IRM-TDM 

aboutissent à des erreurs de recalage proches du recalage prospectif. De plus, l’impact des dis- 

torsions des images IRM sur la précision du recalage est mis en évidence, puisque les erreurs de 

recalage sont sensiblement diminuées quand on utilise les versions calibrées de l’IRM (voir Fig. 

7.7). 

En outre, en analysant le tableau 7.4, on peut remarquer que nos résultats sont proches de 

ceux obtenus par l’équipe de Hill (Tab. 7.4) qui utilisent l’information mutuelle normalisée, et 

ce malgré le fait que l’on utilise des modèles d’estimation pour calculer notre critère. Ce qui 

d’un côté montre que notre méthode d’estimation donne des résultats meilleurs en précision par 

rapport aux méthodes d’estimation à noyau fixe, et prouve d’un autre côté que l’information 

mutuelle quadratique normalisée est un critère tout à fait approprié pour le recalage des images. 

Quant au recalage TEP-IRM, les erreurs du recalage sont légèrement plus élevées. La faible 

résolution TEP ainsi que la forte présence du bruit dans les images TEP peuvent expliquer ces 

résultats. De plus, il apparaît dans le tableau 7.3 qu’un recalage TEP-IRM pour un patient ait 

échoué (valeur maximale dans le tableau 7.3). En s’appuyant sur les figures (7.7 et 7.8, il apparaît 

clairement que le patient en question est le patient 6. 

Deux hypothèses en ce qui concerne l’échec du recalage TEP-IRM pour le patient 6 peuvent 

être émises. La première est d’ordre extrinsèque ; l’échec du recalage est probablement dû à la 

forte présence du bruit dans les images TEP. La deuxième hypothèse est d’ordre intrinsèque ; le 

mauvais recalage serait dû à la convergence du critère de similarité à un maximum local. 

Il est intéressant de relever l’échec systématique des mesures de similarité fondées sur l’infor- 

mation mutuelle pour le recalage TEP-IRM de ce patient. [Roche, 2001] a noté que l’hypothèse 

de dépendance statistique, sur laquelle se base les critères par information mutuelle, ne corres- 

pond pas au cas spécifique du recalage TEP-IRM. Les intensités des images dans ce cas sont liées 

par une relation fonctionnelle. Ceci explique le mauvais résultat donné par les méthodes qui se 

fondent sur des modèles statistiques et la raison du succès des méthodes fondées sur la corréla- 

tion. Ceci nous amène à conclure dans un premier temps que l’on ne peut imputer cet échec ni


Auteur TDM vers IRM-DP TDM vers IRM-DPR TDM vers IRM-T1 TDM vers IRM-T1R 

méthode moy. med. max. moy. med. max. moy. med. max. moy. med. max. 

Atif 2.24 2.16 4.0 0.95 0.96 2.38 1.55 1.48 3.12 1.00 0.95 1.92 

Barillot 2,38 1,92 6,93 2,28 1,71 5,95 2,13 1,62 6,35 1,91 1,41 5,86 

Collignon* 2,04 2,09 3,83 0,89 0,81 2,50 1,90 1,53 6,69 1,03 0,72 3,81 

Elsen 2,54 2,01 6,55 1,69 1,11 5,32 2,12 1,63 6,05 1,22 0,93 2,61 

Harkness 10,86 3,12 49,60 9,99 3,06 45,86 10,46 3,39 51,81 11,68 3,38 48,26 

Hemler 3,14 2,37 10,45 1,78 1,66 3,69 2,68 1,37 10,97 1,08 1,00 2,12 

Hill* 2,00 1,94 4,05 0,89 0,73 2,36 1,36 1,17 2,78 0,87 0,71 2,35 

Hsu 1,86 1,67 5,07 1,47 1,46 2,72 2,73 2,51 7,05 2,43 2,38 5,78 

Huang 2,16 2,01 5,03 1,13 1,01 2,93 1,81 1,64 4,87 1,66 1,52 3,26 

Luo 1,76 1,71 3,56 1,08 0,97 2,66 1,22 1,10 2,99 1,15 1,03 2,81 

Maintz 5,41 4,15 18,97 3,78 2,97 10,15 5,68 5,05 12,85 5,05 4,94 14,33 

Malandain 10,41 4,00 59,00 10,22 4,04 62,66 10,08 4,32 61,43 11,43 5,42 60,64 

Nikou 1 3,06 2,60 5,80 3,00 2,95 5,35 2,72 2,56 6,43 2,45 2,75 4,59 

Nikou 2 2,67 2,31 6,18 2,01 1,86 5,07 1,93 1,50 4,36 1,75 1,43 4,54 

Noz 6,89 7,80 13,86 5,93 4,61 11,57 4,58 3,32 10,39 4,71 3,40 9,61 

Rouet 4,36 3,88 15,25 4,27 4,18 9,97 3,39 2,75 12,48 5,60 4,52 20,34 

Thevenaz 1* 2,01 2,04 4,56 0,85 0,83 1,71 1,69 1,40 4,67 1,04 0,95 4,02 

Thevenaz 2* 1,94 1,69 5,19 1,15 1,07 4,62 1,72 1,56 5,98 1,07 0,84 4,15 

Thevenaz 3* 2,15 1,93 4,18 0,99 1,01 1,64 1,61 1,53 4,17 1,05 0,89 3,11 

Tab. 7.4 Comparaison des résultats de recalage pour diverses méthodes. (Les 

méthodes marquées d’une étoile sont celles utilisant l’information mutuelle ou ses 

variantes)


à notre méthode d’estimation ni au modèle d’interpolation. En outre, l’inspection visuelle de ce 

recalage montre que les images TEP de ce patient sont davantage corrompues par des artefacts 

que les autres images de la base. 

7.4 Evaluation du recalage non-rigide 

Le projet RIRE est certainement le meilleur moyen d’évaluer les comportements en terme de 

robustesse et de précision d’un critère de similarité. Cependant, l’étude de précision se limite au 

cadre rigide du recalage et l’aspect temps de calcul n’est pas pris en compte. Aujourd’hui, certes 

la puissance des calculateurs ne cessent d’augmenter, mais cette évolution incite les chercheurs 

à envisager de nouvelles applications au recalage d’images et par conséquent à considérer des 

modèles de déformations plus évolués. Or, qui dit modèles de déformations évoluées dit degré 

d’élasticité plus élevé et un nombre de paramètres de la transformation beaucoup plus grand que 

pour une déformation rigide. Dans le cadre de cette thèse nous avons utilisé les déformations de 

formes libres. Le nombre élevé de degrés de liberté des déformations libres impose que le critère 

de similarité soit le moins coûteux en temps de calcul que possible. Nous avons alors proposé 

dans cette thèse un critère de similarité fondée sur l’entropie de Rényi dont le calcul se réduit 

drastiquement avec l’utilisation d’une densité de probabilité de nature gaussienne. 

Le but de cette section est de présenter quelques résultats chiffrés du comportement de notre 

algorithme dans un cadre non-rigide en ce qui concerne la précision et le temps de calcul. Pour 

ce faire, nous avons mis en concurrence notre critère de similarité avec l’Information Mutuelle 

Normalisée (IMN). 

La difficulté à laquelle nous nous sommes confrontés est l’appréciation de l’erreur du recalage 

non-rigide. Contrairement à l’évaluation RIRE, nous ne disposons pas d’un recalage prospectif 

auquel nous pouvons comparer nos résultats. De plus, la validation du recalage non-rigide est un 

sujet de recherche à part entière qui commence à peine à être exploré ([Schnabel et al., 2001]), 

et nous ne disposons toujours pas d’une méthode de validation générique qui nous permette 

d’apprécier les résultats obtenus par telle ou telle méthode. Pour surmonter cette difficulté, nous 

avons alors eu recours à un moyen simple mais efficace d’évaluation du résultat d’un algorithme de 

recalage donné. Notre méthode consiste à appliquer à une image une transformation géométrique 

T donnée, obtenant ainsi une image transformée que nous noterons image cible. Le but de 

l’algorithme de recalage est de retrouver cette transformation. L’erreur de recalage est calculée 

dans un volume d’intérêt donné par une simple différence quadratique entre la transformation 

initiale T et la transformation retrouvée par l’algorithme de recalage ˆ T. Soit VR un volume

7.4 Evaluation du recalage non-rigide 145 

mm 

3,5 

3 

2,5 

2 

1,5 

1 

0,5 

0 

pt_001 

pt_002 

pt_003 

pt_004 

pt_005 

Recalage CT/PD 

pt_006 

Patients 

pt_007 

pt_101 

pt_102 

pt_103 

pt_104 

Moyenne 

Ecart-type 

(a) Résultats du recalage CT/IRM-DP pour 12 patients. 

mm 

3 

2,5 

2 

1,5 

1 

0,5 

0 

pt_001 

pt_002 

pt_003 

pt_004 

pt_005 

pt_006 

Recalage CT/T1 

pt_007 

pt_101 

pt_102 

pt_103 

Patients 

pt_104 

pt_105 

pt_106 

pt_107 

pt_108 

pt_109 

Moyenne 

Ecart-type 

(c) Résultats du recalage CT/IRM-T1 pour 16 patients. 

mm 

3,5 

3 

2,5 

2 

1,5 

1 

0,5 

0 

pt_001 

pt_002 

pt_003 

pt_004 

pt_005 

pt_006 

Recalage CT/T2 

pt_007 

pt_101 

pt_102 

Patients 

pt_104 

pt_105 

pt_106 

pt_107 

pt_108 

pt_109 

Moyenne 

Ecart-type 

(e) Résultats du recalage CT/IRM-T2 pour 15 patients. 

mm 

1,6 

1,4 

1,2 

1 

0,8 

0,6 

0,4 

0,2 

0 

pt_001 

pt_002 

Recalage CT/PD_rectified 

pt_003 

pt_004 

Patients 

pt_005 

pt_006 

pt_007 

Moyenne 

Ecart-type 

(b) Résultats du recalage CT/IRM-DP-Corrigée pour 7 

patients. Il est intéressant de noter les gains en précision 

par rapport à la figure (a). 

mm 

1,8 

1,6 

1,4 

1,2 

1 

0,8 

0,6 

0,4 

0,2 

0 

pt_001 

pt_002 

Recalage CT/T1_rectified 

pt_003 

Patients 

pt_004 

pt_005 

pt_007 

Moyenne 

Ecart-type 

(d) Résultats du recalage CT/IRM-T1-Corrigée pour 6 

patients. Des gains significatifs en précision sont atteints 

en utilisant les versions calibrées de l’IRM-T1. 

mm 

2,5 

2 

1,5 

1 

0,5 

0 

pt_001 

pt_002 

Recalage CT/T2_rectified 

pt_003 

pt_004 

Patients 

pt_005 

pt_006 

pt_007 

Moyenne 

Ecart-type 

(f) Résultats du recalage CT/IRM-T2-Corrigée pour 7 

patients. Des gains significatifs en précision sont atteints 

en utilisant les versions calibrées de l’IRM-T2. 

Fig. 7.7 Présentations sous formes de diagrammes des résultats des différents 

recalages TDM/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec).


mm 

25 

20 

15 

10 

5 

0 

pt_001 

pt_002 

pt_005 

Recalage PET/PD 

pt_006 

Patients 

pt_007 

pt_008 

pt_009 

Moyenne 

Ecart-type 

(a) Résultats du recalage TEP/DP. On remarque les erreurs 

très élevées pour les patients pt_002 et pt_006. 

mm 

35 

30 

25 

20 

15 

10 

5 

0 

pt_001 

pt_002 

pt_005 

Recalage PET/T1 

pt_006 

Patients 

pt_007 

pt_008 

pt_009 

Moyenne 

Ecart-type 

(c) Résultats du recalage TEP/T1. À noter l’échec du 

recalage du patient pt_006. 

mm 

40 

35 

30 

25 

20 

15 

10 

5 

0 

pt_001 

pt_002 

pt_005 

Recalage PET/T2 

pt_006 

Patients 

pt_007 

pt_008 

pt_009 

Moyenne 

Ecart-type 

(e) Résultats du recalage TEP/T2. Échec systématique 

du recalage du patient 6, de plus dans cette expérience 

l’erreur du recalage du patient 8 est trop élevée. 

mm 

9 

8 

7 

6 

5 

4 

3 

2 

1 

0 

pt_001 

pt_002 

PET/PD_rectified 

pt_005 

Patients 

pt_006 

pt_007 

Moyenne 

Ecart-type 

(b) Résultats du recalage TEP/DP-corrigée. Les erreurs 

du recalage baissent considérablement en utilisant une 

version calibrée de l’IRM. Le recalage concernant le patient 

pt_002 est proche du «gold standard». Cependant 

les erreurs du recalage du patient pt_006 persistent. 

mm 

mm 

3,5 

3 

2,5 

2 

1,5 

1 

0,5 

0 

16 

14 

12 

10 

8 

6 

4 

2 

0 

pt_001 

pt_002 

PET/T1_rectified 

Patients 

(d) Résultats du recalage TEP/T1-Corrigée. 

pt_001 

pt_002 

pt_005 

PET/T2_rectified 

pt_005 

Patients 

pt_006 

pt_007 

pt_007 

Moyenne 

Ecart-type 

Moyenne 

Ecart-type 

(f) Résultats du recalage TEP/T2-Corrigée. Échec du recalage 

du patient 6 

Fig. 7.8 Présentations sous formes de diagrammes des résultats des différents 

recalages TEP/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec).

7.4 Evaluation du recalage non-rigide 147 

d’intérêt donné, l’erreur du recalage s’écrit : 

ɛ = 

1 

||VR|| 

 

x∈VR 

||T(x) − ˆ T(x)|| 2 (7.1) 

Le volume d’intérêt VR est choisi manuellement dans l’image de référence et doit correspondre 

à une zone anatomique assujettie aux déformations. 

Deux expériences ont été conçues dans le cadre de la validation du recalage non-rigide. La 

première concerne à la fois la précision et le temps de calcul et la deuxième évalue l’impact de 

l’utilisation des noyaux adaptatifs sur la précision du recalage. Dans tous les cas, nous avons 

utilisés les données d’une même modalité provenant de la base «Vanderbilt», à savoir les images 

IRM-T2 des huit premiers patients. L’aspect multimodal ayant été validé lors de l’évaluation 

RIRE, il n’a pas été pris en compte dans ce cadre. 

7.4.1 Expérience 1 : précision et temps de calcul 

Dans le cadre de la première expérience, un ensemble de déformations géométriques ont été 

appliquées aux images des patients retenus pour l’étude. Deux critères de similarité bénéficiant 

d’une implémentation commune ont été évalués : l’information mutuelle normalisée (IMN) et 

l’Information Mutuelle Quadratique Normalisée (IMNQ). L’implémentation commune consiste à 

utiliser, pour les deux critères, le même modèle d’interpolation, la même stratégie d’optimisation 

et la même méthode d’estimation des éléments de l’histogramme conjoint. Le tableau suivant 

décrit le protocole expérimental : 

fonctionnelle de similarité −NMI + ζEmbr −IMQN + ζEmbr 

Degré de régularisation ζ=0.01 ζ=0.01 

Modèle de déformation FFD FFD 

Espace FFD 20 mm, 10 mm, 5 mm 20 mm, 10 mm, 5 mm 

Optimisation Descente de gradient conjugué Descente de gradient conjugué 

Interpolation Bspline Bspline 

Histogramme conjoint Noyaux de Parzen fixes Noyaux de Parzen fixes 

Tab. 7.5 Protocole expérimental de l’expérience 1. 

Les résultats obtenus (Tab. 7.6) dans le cadre de cette expérience montrent que l’informa- 

tion mutuelle quadratique normalisée donne de meilleurs résultats que l’information mutuelle de 

Shannon, ce qui la situe au niveau des meilleures méthodes existantes ([West et al., 1997b]). Ceci 

est tout simplement dû au fait que l’entropie de Rényi soit plus lisse que l’entropie de Shan- 

non (l’entropie de Rényi est aussi appelée entropie lisse «smooth entropy»). Elle présente moins


de maxima locaux que l’information mutuelle de Shannon donnant ainsi de meilleurs résultats 

lorsque la méthode d’optimisation est une méthode fondée sur le gradient. De plus, le temps de 

calcul est considérablement réduit. Ceci est dû à la différence du calcul des entropies de Rényi 

et de Shannon. La complexité de calcul d’une entropie de Rényi en utilisant un estimateur de 

Parzen est de l’ordre O(N 2 ) avec N la taille de l’échantillon, alors que la complexité de l’entropie 

de Shannon est de l’ordre de O(VM×N) où VM est la taille de l’image. Dans nos expériences 

N = 50, ce qui veut dire que «VM >> N». 

Rappelons les entropies utilisées. L’entropie quadratique de Rényi s’écrit : 

H2(M) = − log 1 

N 

N 

i=1 j=1 

L’entropie de Shannon, quant à elle, s’écrit : 

VM 

H2(M) = − ( 1 

N 

j=1 

N 

i=1 

N 

G2h(m(xi) − m(xj)). 

Gh(m(xj) − m(xi)) log( 1 

N 

N 

Gh(m(xj) − m(xi))) 

Les temps de calcul donnés ci-dessous correspondent à une moyenne. Les différentes expé- 

riences ont été exécutées sur une machine Pentium IV, 2.5 GHz, 1 GO de RAM. 

Critère de similarité Espace FFD Médiane Moyenne Maximum temps CPU (moyenne) 

−NMI + ζEmbr 20 mm 1.57 1.62 1.93 5400s 

−NMI + ζEmbr 15 mm 0.88 1.05 1.54 7100s 

−NMI + ζEmbr 10 mm 0.57 0.65 0.73 10500s 

−NQMI + ζEmbr 20 mm 0.85 0.91 1.14 1400s 

−NQMI + ζEmbr 15 mm 0.58 0.61 0.63 2200s 

−NQMI + ζEmbr 10 mm 0.30 0.33 0.38 3600s 

i=1 

Tab. 7.6 Résultat de l’expérience 1. 

7.4.2 Expérience 2 : utilité des noyaux adaptatifs, impact sur la précision 

Le but de cette expérience est de valider dans un cadre de recalage le choix d’utiliser un noyau 

adaptatif pour la méthode d’estimation afin de recaler des images médicales. À cette fin nous 

avons évalué l’erreur du recalage pour deux implémentations différentes du critère de similarité 

dans un cadre non-rigide. La différence d’implémentation réside dans la méthode d’estimation de 

l’histogramme conjoint. Les deux méthodes utilisées sont l’estimateur réduit «FKE» et l’estima- 

teur de Parzen à noyau fixe. En outre, pour ne pas biaiser nos résultats le paramètre de lissage 

optimal du noyau fixe a été choisi manuellement. Le protocole est décrit dans le tableau 7.7.


fonctionnelle de similarité −IMQN + ζEmbr −IMQN + ζEmbr 

Degré de régularisation ζ=0.01 ζ=0.01 

Modèle de déformation FFD FFD 

Espace FFD 20 mm, 10 mm, 5 mm 20 mm, 10 mm, 5 mm 

Optimisation Descente de gradient conjugué Descente de gradient conjugué 

Interpolation Bspline Bspline 

Histogramme conjoint Estimation par Noyau fixe Estimation par Noyaux adaptatifs 

Tab. 7.7 Protocole de l’expérience 3. 

Les résultats obtenus sont réunis dans le tableau 7.8, et montrent un gain en précision lorsque 

la méthode d’estimation utilise un noyau adaptatif. Ceci s’explique par le fait que l’histogramme 

conjoint comporte plusieurs modes, et comme nous l’avons expliqué dans le chapitre 5, les mé- 

thodes à noyau fixe (même si ce dernier est choisi manuellement) ne modélisent pas exactement 

la densité réelle. 

Estimateur Espace FFD Médiane Moyenne Maximum 

Estimation par Noyaux adaptatifs 20 mm 0.57 0.62 0.93 



Estimation par Noyau fixe 20 mm 0.87 0.98 1.12 




Tab. 7.8 Résultats de l’expérience 3. 

Ce chapitre a concerné l’évaluation de l’algorithme du recalage proposé dans cette thèse. Il a 

commencé par présenter les outils nécessaires à la validation d’un résultat de recalage donné. Les 

premiers outils exposés sont des méthodes de validation visuelle qui se fondent sur un mélange 

d’images. Par la suite, ce chapitre a présenté les résultats d’une évaluation rétrospective du 

recalage rigide. Cette évaluation a permis d’apprécier à la fois la robustesse et la précision de 

l’approche défendue dans cette thèse. Les résultats obtenus sont très convainquants et présentent 

une avancée des travaux du recalage des images. 

Enfin, la dernière section de ce chapitre a concerné différentes expériences de validation du 

recalage non-rigide des images médicales. Ces expériences, au nombre de deux, ont concerné 

une évaluation de la précision versus temps de calcul et la l’évaluation du modèle d’estimation 

proposé dans la chapitre 5 dans un cadre de recalage.

150

Chapitre 8 

Applications Cliniques 

Le chapitre que nous abordons à présent est le dernier avant la conclusion générale. Notre 

algorithme de recalage fait désormais partie d’un Système d’Aide à la Radiologie et à la Chirurgie 

appelé PTM3D, et il est utilisé en ligne dans nombre d’hôpitaux parisiens et de provence (CH 

Saint Anne, Institut Curie, Hôpital Necker, HCL de Lyon). Le but de ce chapitre est de donner une 

idée de l’utilisation en routine faite de notre système. Les deux applications choisies concernent 

la Curiethérapie prostatique et la planification de biopsies. 

8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 

Cette section a fait l’objet d’une publication à InfoRad-RSNA’2002 ([Servois et al., 2002]). 

8.1.1 Introduction 

Le cancer de la prostate est très fréquent. En fait, c’est le cancer le plus fréquent chez 

l’homme en dehors des cancers cutanés. Un accroissement considérable de l’incidence (fréquence 

des nouveaux cas dans la population) du cancer de la prostate a été constaté au cours des 

dernières années. C’est la première cause de mortalité par cancer chez l’homme. L’augmentation 

de 23 % de la mortalité liée au cancer prostatique, dans les vingt dernières années, reflète aussi 

l’augmentation de l’espérance de vie et la reconnaissance plus fréquente du cancer de la prostate 

comme cause principale du décès. 

La plupart des cancers de la prostate se développent chez des hommes âgés et évoluent 

très lentement. Cependant, certains cancers de la prostate peuvent se développer rapidement et 

151

152 Applications Cliniques 

s’étendre à d’autres organes (métastases), causant des symptômes et entraînant parfois le décès. 

Le traitement peut améliorer la survie et prévenir ou soulager les symptômes liés à la maladie. 

On sait que 30 % des hommes âgés de 60 ans ont des foyers microscopiques de cancer dans 

la prostate, comme l’indiquent les séries autopsiques (faites chez des hommes décédés d’autres 

causes), mais ces petits foyers ne sont pas forcément évolutifs. 

Le cancer de la prostate pose souvent un problème complexe aux médecins et aux patients 

car il est parfois difficile de distinguer, compte tenu de l’âge du patient et de l’évolution variable 

du cancer, les patients qui vont bénéficier du traitement de ceux chez qui les effets secondaires du 

traitement vont surpasser les bénéfices. Le cancer de la prostate est une maladie très sérieuse mais 

tous les patients ne doivent pas être traités de la même façon et parfois l’abstention thérapeutique 

peut être le meilleur choix. 

8.1.2 Evolution du cancer de la prostate 

Le cancer de la prostate se développe à partir de cellules de la prostate. Il se développe souvent 

très lentement, et reste localisé au début (il ne dépasse pas la capsule qui entoure la prostate). 

Quand le cancer évolue, il peut s’étendre en dehors de la prostate, au-delà de la capsule de la 

prostate, par envahissement direct des tissus et des organes situés près de la prostate, et il peut 

essaimer dans d’autres organes à distance de la prostate (os, ganglions...). 

La lymphe est un liquide de couleur claire qui contient les cellules responsables de la défense 

immunitaire de l’organisme et les vaisseaux lymphatiques sont les canaux qui transportent cette 

lymphe jusqu’aux ganglions (de petites glandes de la forme d’un haricot qui sont réparties dans 

tout le corps et qui ont un rôle important dans la défense contre les infections). La plupart des 

vaisseaux lymphatiques de la prostate vont vers les ganglions du petit bassin. Si des cellules 

cancéreuses pénètrent dans les vaisseaux lymphatiques, elles sont transportées vers les ganglions 

où elles continuent à se développer en formant des métastases ganglionnaires (adénopathies). 

L’atteinte des ganglions prouve que le cancer a essaimé en dehors de la prostate. Il est important 

de savoir que les cellules qui ont essaimé à distance (cellules métastatiques dans les os, par 

exemple) restent des cellules prostatiques et répondent donc au traitement du cancer de la 

prostate. 

Les nerfs responsables de l’érection passent juste à côté de la prostate et les traitements qui 

enlèvent ou laissent ces nerfs peuvent causer des troubles de l’érection (impuissance). 

Le meilleur gage de guérison est de détecter le cancer à un stade précoce, quand il est encore 

localisé à la prostate, sans extension en dehors d’elle.

8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 153 

8.1.3 Détection Précoce et diagnostic du cancer de la prostate 

La détection précoce et le traitement du cancer de la prostate continuent à poser de multiples 

questions. Les cancers découverts par le toucher rectal et/ou le dosage du PSA sont en général 

plus limités que ceux découverts à l’occasion de symptômes. Contrairement à d’autres cancers, 

le cancer de la prostate se développe très lentement et la nécessité d’un diagnostic précoce se 

pose donc moins chez les gens âgés, ayant une espérance de vie de moins de 10 ans. 

L’accroissement considérable de l’incidence clinique du cancer de la prostate parait être sur- 

tout la conséquence d’une amélioration de la détection des petits cancers débutants, due à l’aug- 

mentation du nombre des dosages de l’antigène prostatique spécifique (PSA), et des biopsies 

prostatiques. 

La détection précoce du cancer de la prostate a permis ces dernières années, aux Etats 

Unis, de diminuer la mortalité spécifique par cancer de la prostate, mais la mise en place d’un 

dépistage systématique du cancer de la prostate chez tous les hommes de plus de 50 ans reste 

encore controversée, par crainte de détecter de petits cancers non évolutifs, qui ne nécessiteraient 

pas de traitement agressif, en particulier chez les sujets âgés. 

Plusieurs associations professionnelles médicales recommandent cependant de commencer la 

détection du cancer de la prostate, à partir de 50 ans, chez tous les hommes ayant plus de 10 ans 

d’espérance de vie, et à partir de 45 ans chez les hommes ayant un facteur de risque particulier 

(frère ou père ayant eu un cancer de la prostate en particulier). La détection repose sur le toucher 

rectal et le dosage de l’antigène spécifique prostatique (PSA), les mêmes examens étant répétés 

chaque année. Ces examens permettent de dépister le cancer de la prostate à un stade précoce, 

avant qu’il ne cause aucun symptôme. 

8.1.4 Traitement par radiothérapie 

La radiothérapie utilise des rayons à haute énergie et des particules (électrons, protons) 

pour détruire les cellules cancéreuses. La radiothérapie est utilisée pour traiter les cancers qui 

sont localisés à la prostate, ou qui ont atteint les tissus voisins. Si la lésion est plus évoluée 

(métastatique) la radiothérapie peut être utilisée pour diminuer le volume de la tumeur ou éviter 

des complications locales (rétention urinaire, compression . . .). On utilise soit la radiothérapie 

externe, soit la curiethérapie (ou brachythérapie ou radiothérapie interstitielle). 

Radiothérapie EXTERNE 

le rayonnement produit par une source externe est focalisé sur la prostate après avoir préci- 

sément repéré celle-ci.


La prostate est un organe profond, entouré de structures fragiles : en arrière, le rectum, 

en avant la vessie, au-dessus l’intestin grêle. Cela souligne l’importance de disposer de moyens 

techniques ménageant au mieux les organes voisins. 

Selon les cas, le volume à irradier peut être soit limité à la prostate, soit étendu aux ganglions 

régionaux, soit étendu aux ganglions lombo-aortiques. La nécessité de délivrer des doses impor- 

tantes pour stériliser la tumeur impose des techniques d’irradiation extrêmement minutieuses. 

L’association d’une hormonothérapie, avant et quelques mois après la radiothérapie, parait 

améliorer les résultats. 

La fréquence des effets secondaires précoces et des complications de l’irradiation dépend 

de la technique et de la qualité de l’irradiation. Les complications rectales vont d’une banale 

fragilité capillaire avec parfois des selles sanglantes à des ulcérations rectales parfois graves. Les 

complications urinaires éventuelles se résument surtout à des envies d’uriner fréquentes liées à 

une cystite «radique». Le taux d’impuissance après radiothérapie externe varie de 10 à 50 %. 

Le traitement est indolore et ressemble un peu à une radiographie banale. Le traitement 

nécessite une séance par jour 5 jours par semaine pendant 7 à 8 semaines, chaque séance durant 

quelques minutes. C’est parce qu’on ne donne chaque jour qu’une petite partie de la dose de 

radiation, de façon à diminuer les effets secondaires, que le traitement dure aussi longtemps. Un 

perfectionnement récent de la radiothérapie externe, la radiothérapie conformationnelle, permet 

d’améliorer l’efficacité du traitement tout en diminuant les effets secondaires grâce à un système 

sophistiqué qui permet d’adapter la forme du rayon à la forme de la prostate quelque soit l’in- 

cidence du rayon lors du traitement. Utilisée seulement dans quelques centres en France, cette 

technique représente un progrès indéniable de la radiothérapie. 

La Curiethérapie 

Les effets secondaires des traitements ont suscité un intérêt croissant pour des alternatives à 

la morbidité réduite. Parmi celles-ci, la plus prometteuse est la curiethérapie (ou brachythérapie) 

qui consiste à placer des sources radio-actives directement dans le tissu prostatique. Des doses 

élevées peuvent ainsi être délivrées au cancer, tout en évitant une irradiation excessive de la vessie 

et du rectum. La curiethérapie utilise le plus souvent des implants permanents sous la forme de 

grains d’iode 125 ou de palladium 103. Le cancer de la prostate étant par nature multifocal 

dans plus de 50 % des cas, tout le volume de la glande doit être traité de façon efficace, et la 

curiethérapie réalise cet objectif. 

L’implantation se fait avec de simples aiguilles, sous rachi-anesthésie ou anesthésie générale, 

sous contrôle échographique transrectal. La sonde endorectale permet la visualisation directe de


la position des aiguilles par rapport à la prostate. La position des aiguilles et de chaque grain est 

déterminée par la dosimétrie (Fig. 8.1). 

Fig. 8.1 Implantation des grains radioactifs dans la prostate 

Il y a différentes techniques d’implantation des sources. La technique d’implantation interac- 

tive en 3D repose sur un logiciel qui calcule la dosimétrie en temps réel, au cours même de la mise 

en place des sources radioactives, ce qui permet un traitement optimal. Grâce à cette technique, 

le traitement peut se faire en une seule séance, avec une grande précision de placement des grains 

et donc une meilleure efficacité. 

La mise en place des grains sous contrôle échographique a permis une véritable révolution 

de la curiethérapie de la prostate par implants permanents. En effet cette technique est peu 

onéreuse, facile à utiliser au bloc opératoire et présente le grand avantage de fournir des images 

temps réel dynamique. Cependant, un seul inconvenient doit tout de même être noté : l’inter- 

prétation délicate des images qui fait appel à l’expérience du radiologue. Toutefois, l’échographie 

endorectale présente une méthode de choix pour guider l’implantation mais elle est inutilisable 

pour l’évaluation post-implantation. 

Volumétrie et Dosimétrie Déterminer le volume de la prostate avant et après implantation 

est primordial pour déterminer la dose radioactive et pour évaluer la qualité du traitement. Le 

groupe de travail AAPM 43 (AAPM Task Group 43) a établi un protocole (TG-43) de calcul 

des doses des éléments radioactifs utilisés dans le cadre de la curiethérapie ( 125 I, 125 Pd et 192 Ir). 

D’après les recommandations du TG-43, le taux de dose D(r, θ), à un point (r, θ) s’écrit : 

˙D(r, 

G(r, θ) 

θ) = SKΛ g(r)F (r, θ), (8.1) 

G(r0, θ0)


où SK est le débit de source (dit débit de Kerma), Λ est la constante de taux de dosage, G(r, θ) 

est le facteur de géométrie, g(r) est la fonction radiale de dosage, et F (r, θ) est la fonction 

d’anisotropie. Le point (r0 = 1.0 cm, θ0 = π/2) est défini à une distance radiale de 1.0 cm du 

bisecteur transversal de la source. 

Ainsi, la quantité des grains est évaluée en fonction du volume de la prostate. Pour 40cm 3 , 

1500 MBq ou 40 mCurie sont préconisés, soit 100 à 150 grains d’iode environ. Ce calcul est désor- 

mais automatisé à l’aide d’un logiciel de dosimétrie dédié, qui de plus repère automatiquement 

les grains. 

Après l’implantation, des examens radiologiques sont pratiqués pour s’assurer du bon fonc- 

tionnement des grains. L’évaluation post-implantation s’effectue par un contrôle dosimétrique 

après l’application de la curiethérapie, et ce pour anticiper des problèmes cliniques éventuels 

(complications urinaires). Le contrôle dosimétrique exige la capacité de déterminer la position 

des grains par rapport à la vessie, à l’urètre, au rectum, et les contours prostatiques avec un 

degré élevé. 

Actuellement l’approche standard d’évaluation se fonde sur l’utilisation de l’imagerie TDM. 

Cette technique est utilisée pour visualiser aussi bien les grains radioactifs implantés que les 

tissus mous (urètre, rectum, contours prostatiques). Or la spécificité de l’imagerie TDM fait que 

celle-ci ne permet pas une acquisition précise de matières molles ou hautement vascularisées. Les 

contours de la prostate ainsi que les organes sensibles limitrophes sont difficiles à visualiser en 

utilisant l’imagerie TDM, mais le sont moins par imagerie par résonance magnétique. En effet, 

l’IRM, de par ses principes physiques fait qu’elle capte mieux les tissus mous ou les matières 

hautement vascularisées (quantité d’eau très élevée). En revanche, les grains radioactifs sont 

moins visibles dans les coupes IRM, d’où la nécessité de combiner celles-ci avec des coupes TDM 

assurant une bonne visualisation des grains et des matières osseuses. 

En résumé, Le recalage d’images TDM-IRM peut permettre de combiner : 

– la visibilité des grains radioactifs (repérage automatique par le logiciel de dosimétrie) et 

des structures osseuses en TDM (Fig. 8.2). 

– la meilleure visibilité des contours prostatiques et des organes sensibles (urètre, vessie, 

rectum) en IRM (Fig. 8.3). 

Dans ce qui suit, nous présentons les résultats d’une étude de faisabilité du recalage d’images 

TDM-IRM sur une base de données de 14 patients implantés. Cette étude a eu lieu avant l’achè- 

vement de la validation de l’algorithme MIAMI. Notre but ici est de présenter un cadre applicatif 

à notre système.


Fig. 8.2 Données TDM de la prostate d’un patient implanté. 

Fig. 8.3 Données IRM de la prostate d’un patient implanté.


8.1.5 Le projet PTM3D 

Dans le but d’améliorer la qualité de l’évaluation du traitement, une technique de recalage 

d’images TDM - IRM fondée sur la mise en correspondance des grains radioactifs a été développée. 

Par la suite, l’étape consistant initialement à délimiter manuellement les contours prostatiques 

a été remplacée par une délimitation semi-automatique (contours actifs) moins dépendante de 

l’opérateur et moins consommatrice de temps. Un exemple de résultats de segmentation sur des 

données fusionnées est donné dans la figure 8.4. 

Données 

Fig. 8.4 Exemple de segmentation volumique de la prostate après fusion TDM- 

IRM. 

La base de données est constituées d’images TDM et IRM-T2 FSE de 14 patients implantés : 

– Les acquisitions TDM et IRM sont réalisées le même jour, 2 mois après l’application. 

– Les images TDM sont en coupes de 5mm jointives


– Les images IRM sont en séquence FSE T2, coupes de 3mm jointives, en antenne de surface 

pelvis. 

– La vessie est vide avant les acquisitions TDM et IRM. 

– L’acquisition est effectuée avec centrage laser sur les repères osseux externes du bassin. 

Méthodes de recalage 

Initialement, deux méthodes de recalage d’images ont été appliquées pour chaque patient. 

Ces méthodes exécutées par des radiologues (juniors) sont fondées sur une approche géométrique 

de mise en correspondance des points d’intérêt : 

– recalage sur les structures osseuses du pelvis (3 points) et 

– recalage sur les grains radioactifs intra-prostatiques ( 6 à 8 points). 

Mesure de la qualité du recalage 

Deux méthodes de validation du résultats du recalage ont été adoptées. 

– La première est une validation semi-quantitative qui se fonde sur une appréciation subjec- 

tive de la superposition des grains radioactifs (blanc en TDM, noir en IRM) 

– La deuxième est une évaluation quantitative (30 grains par patients) qui consiste à mesurer 

la distance séparant de centre à centre les grains visibles sur les images fusionnées TDM 

et IRM. 

Le recalage est «réussi» lorsque l’ensemble des grains intra-prostatiques sont totalement super- 

posés (Fig. 8.5). 

Indices de qualité du traitement 

Les paramètres dosimétriques retenus pour évaluer la qualité du traitement sont : 

– La D90 : dose délivrée à 90 % du volume de la prostate 

– Le V100 et V150 : pourcentage du volume prostatique recevant respectivement 100 et 150 % 

de la dose prescrite égale systématiquement à 145 Gy 

Ces paramètres sont dépendants de la détermination du volume de la prostate et de la position 

des grains radioactifs dans le volume ainsi défini. 

On constate que sur quatorze patients traités, trois ont une D90 inférieure à la dose de 

prescription de 145 Gy lorsque l’évaluation est effectuée sur les coupes tomodensitométriques. 

Deux de ces trois patients présentent par contre une D90 supérieure à 145 Gy lorsque la 

dosimétrie est effectuée sur l’une ou l’autre des méthodes de recalage IRM utilisées.


Recalage sur repères osseux 

(symphyse pubienne + épines sciatiques 

3 couples de points) 

Fusion os 

Fusion grain 

Recalage sur grains 

(6 à 8 couples de points) 

Fig. 8.5 Résultats des recalages pour les données TDM-IRM prostatiques. 

Fig. 8.6 Résultats dosimétriques

8.2 Planification de biopsies et fusion multimodale 161 

Grâce au projet RIRE nous avons pu valider objectivement l’algorithme MIAMI 

ce qui a permis son application en routine clinique remplaçant ainsi les méthodes 

manuelles présentées ci-dessous. 

8.2 Planification de biopsies et fusion multimodale 

Cette section a fait l’objet d’une publication à CARS’2004 ([Atif et al., 2004]). 

8.2.1 Description du projet 

Le projet, qui nous associe à l’unité de Neurochirurgie de l’hôpital Sainte Anne à Paris 

s’articule autour de quatre points qui ne sont pas tous complètement achevés. Ces points illustrent 

le besoin particulier en fusion de données que nécessitent les applications neurochirurgicales. 

La première partie de ce projet consiste en : 

– l’intégration d’images multimodales radiologiques crâniennes acquises en conditions stéréo- 

taxiques (radiographies standard, angiographie conventionnelle ou digitalisée, ventriculo- 

graphie, scanner, IRM (morphololgique, fonctionnelle, spectroscopie), TEP-scanner) dans 

un volume appelé «espace individuel stéréotaxique», orienté autour du système géomé- 

trique individuel de TALAIRACH (lignes de base et quadrillage proportionnel du système 

Ca-Cp) ; 

– la fusion de ces images dans cet espace ; 

– la définition et le calcul de volumes anatomiques spécifiques et lésionnels ; 

– l’affichage des projections axiale, coronale et sagittale de ces images sur les faces corres- 

pondantes de cet espace ; 

– la reconstruction des images 3-D selon des plans obliques ou complexes définis par l’utili- 

sateur et affichages des images dans ces plans ; 

– le choix et la simulation de trajectoires intracrâniennes multiples et calculs de distances ; 

La deuxième partie du projet consiste en 

– l’intégration des images radiologiques à courte distance produites par l’amplificateur de 

brillance (Siemens Siremobile) dans l’espace individuel stéréotaxique : création d’images 

de base en incidence de face et de profil centrées par le cadre de stéréotaxie et comparaison 

avec le mode transparent du scanner reconstruit dans ces mêmes incidences ; 

– intégration et affichage d’instruments chirurgicaux intracrâniens (trocarts à biopsie, élec- 

trodes, . . .) dans l’espace individuel stéréotaxique à partir de leurs coordonnées déterminées 

sur des images radiologiques à courte distance acquises selon n’importe quelle incidence ; 

– superposition de trajectoires simulées et image d’un instrument en position réelle ;


Ces deux premières parties de ce projet sont achevées. Un exemple applicatif des différentes 

étapes d’une biopsie récapitulant tous les points notés plus haut sont données dans les sections 

qui suivent. 

8.2.2 Validation sur des données Synthétiques 

Une première étape de validation clinique a consisté à utiliser un crâne expérimental et 

à simuler un ensemble de fantomes de lésions pour calculer la trajectoire de la biopsie. Les 

différentes étapes sont données dans les figures 8.7, 8.8 et 8.9. 

(a) Scanner en coupes millimétriques d’un crâne expérimental 

(b) Segmentation 3D des fantômes des lésions 

Fig. 8.7 Validation expérimental : étape 1


(a) Localisation 3D du fantôme d’une lésion (b) Simulation 3D d’une trajectoire d’intervention 

(c) Modification interactive de la trajectoire d’intervention 

sur les plans 

Fig. 8.8 Validation expérimental : étape 2 

(d) Contrôle 3D à l’aide d’un plan tangent à la trajectoire


(a) Contrôle 3D à l’aide d’un plan normal à la trajectoire (b) Contrôle 3D à l’aide d’un plan normal à la trajectoire 

(c) Sélection interactive d’une scopie à courte distance (d) Fusion temps réel scopie / segments 3D 

Fig. 8.9 Validation expérimental : étape 3


8.2.3 Utilisation en routine clinique 

La deuxième étape de ce projet a consisté à appliquer dans un cadre clinique le protocole 

chirurgical alors validé. Les résultats sont données dans les figures 8.10, 8.11, 8.12 et 8.14. 

(a) Recalage dynamique 2D / 3D à partir de repères anatomiques 

(b) Visualisation 3D IRM 

(c) Segmentation 3D du crâne (d) Segmentation 3D transparente du crâne 

Fig. 8.10 Cas réel : étape 1


(a) Segmentation 3D de la lésion (b) Segmentation 3D de la lésion et mesure automatique 

du volume 

(c) Segmentation 3D crâne / lésion (d) Choix du plan d’intervention 



(a) Choix anatomique d’une trajectoire et contrôle 3D 

des extrémités 

(c) Contrôle anatomique à l’aide d’un plan tangent à la 

trajectoire 

Fig. 8.12 Cas réel : étape 3 

(b) Fusion temps réel trajectoire / crâne / lésion 

(d) Contrôle anatomique à l’aide d’un plan perpendiculaire 

à la trajectoire


Fig. 8.13 Contrôle global : point d’entrée, cible, chemin traversé, . . . 


Chapitre 9 

Conclusion 

9.1 Bilan 

Les travaux présentés dans ce mémoire portent sur le recalage non-rigide multimodal des 

images médicales et plus particulièrement, sur la définition d’un nouveau critère de similarité 

inspirée de la théorie de l’information. Nous sommes partis du constat que les méthodes ico- 

niques adaptées au cadre multimodal du recalage ne peuvent être utilisées pour corriger des 

déformations locales des organes à cause du temps de calcul conséquent qu’elles nécessitent. 

Nous avons alors défini dans ce mémoire un ensemble d’outils permettant de prendre en compte 

l’aspect multimodal tout en ne nécessitant qu’un temps de calcul assez réduit pour pouvoir consi- 

dérer la correction de déformations non-rigides. Ces outils sont principalement composés d’une 

nouvelle méthode de similarité fondée sur l’entropie quadratique de Rényi et et d’une méthode 

d’estimation non-paramétrique à noyau adaptatif. 

Ce mémoire a commencé par définir les fondements théoriques du recalage d’images. Après 

une brève présentation de l’approche géométrique, le chapitre 2 s’est consacré aux approches 

iconiques. Le problème de recalage a été défini comme un problème d’inférence statistique qui 

consiste à identifier les paramètres d’un modèle de dépendance inter-images. Nous avons alors 

classé les différentes mesures de similarités selon l’hypothèse de dépendance inter-images ap- 

propriée. La dépendance statistique étant la plus générique, nous avons étudié les mesures de 

similarité immanentes de cette classe et plus particulièrement celles fondées sur la théorie de 

l’information comme l’information mutuelle. À l’issue de ce chapitre nous avons orienté nos re- 

cherches la théorie de l’information et les statistiques afin de définir de nouvelles mesures de 

similarité et d’étudier les modèles d’estimation des densités de probabilité. 

Au chapitre 3, nous avons étudié le problème spécifique du recalage non-rigide. Les différents 

modèles de déformation utilisés pour une fin de recalage ont été passés en revue. Ce chapitre se 

169

170 Conclusion 

clôt par la définition d’une approche hybride consistant à approcher dans un premier temps le 

recalage non-rigide par un recalage affine, ce qui permet à la fois de réduire le temps de calcul 

et de résoudre le problème d’initialisation dont souffrent les algorithmes non-rigides. 

Dans le chapitre 4 nous entreprenons une étude sur la notion de quantification d’information 

dans un cadre d’imagerie. Dans ce chapitre nous avons défini une nouvelle classe de mesure de 

similarité qui se fonde sur la notion d’entropie généralisée. Les quatre mesures définies dans cette 

classe n’ont malheureusement pas toutes été testées ; leur cadre d’application dépasse largement 

cette thèse. Cependant, cette étude théorique nous a permis de définir un nouveau critère de 

similarité, normalisé de façon à tenir compte des effets de recouvrement partiel inhérents à 

toute procédure de recalage. Ce critère appartenant à la classe des mesures iconiques opère sous 

l’hypothèse générique de dépendance statistique. De plus ce critère, du fait qu’il soit fondé sur 

l’entropie quadratique de Rényi nécessite beaucoup moins de temps de calcul lorsqu’il est associé 

à une densité de probabilité à noyau gaussien. 

Le chapitre 5 porte sur les modèles d’estimation des densités de probabilité. Le problème au- 

quel se consacre ce chapitre est l’estimation des histogrammes d’images afin d’accélérer le temps 

de calcul du critère de similarité. Ce qui nous permet d’utiliser des modèles de déformation 

non-rigides avec des degrés de liberté très élevés. De plus, ce chapitre s’attaque à un problème 

connu en estimation non-paramétrique, à savoir le calcul du paramètre de lissage dans un cadre 

adaptatif. En effet, l’utilisation des noyaux adaptatifs est nécessaire dès que la densité que l’on 

cherche à estimer comporte plusieurs modes, ce qui est le cas pour les images médicales. Cepen- 

dant, le calcul automatique des noyaux adaptatifs nécessite un temps de calcul conséquent, ce 

qui astreint les utilisateurs à utiliser un noyau fixe dans le cadre du recalage ([Viola, 1995]). Nous 

avons alors apporté une réponse à ce problème en utilisant une méthode à noyau adaptatif qui 

nécessite un temps de calcul raisonnable permettant son utilisation dans un cadre de recalage. 

La méthode choisie est un modèle hybride qui commence par une méthode d’estimation classique 

semi-paramétrique fondée sur un mélange de gaussiennes. Cette première estimation sert d’ap- 

proximation à l’estimation non-paramétrique qui agit alors comme une procédure de raffinement. 

En outre, les gaussiennes calculées à partir de l’estimateur semi-paramétrique servent à définir et 

contrôler l’étendu des paramètres de lissage variables alors dans l’étape non-paramétrique d’es- 

timation. Ce schéma nous permet d’utiliser des noyaux adaptatifs aboutissant ainsi à des gains 

en précision. 

Le chapitre 6 introduit l’algorithme MIAMI et décrit les différents choix de mise en œuvre. 

L’algorithme MIAMI opère en deux étapes. La première étape est un recalage affine qui uti- 

lise comme modèle de déformation une transformation affine, comme critère de similarité l’in- 

formation mutuelle quadratique normalisée et comme procédure d’optimisation la méthode de 

Marquardt-Levenberg. Un schéma multi-résolution est utilisé pour accélérer le temps de calcul

9.1 Bilan 171 

et améliorer la robustesse de l’algorithme. La deuxième étape se fonde sur un recalage non-rigide 

utilisant les déformations de formes libres. Le critère de similarité associe à l’information mutuelle 

quadratique normalisée une force de régularisation qui contrôle le résultat final de la transforma- 

tion non-rigide. L’énergie de régularisation ainsi que le facteur ζ dit de compétition qui associe 

les deux énergies n’ont pas été discutés de façon suffisante dans ce mémoire. La raison en est 

simple ; nous avons fait le choix de consacrer nos efforts au développement concernant le critère 

de similarité et le modèle d’estimation, d’autant que des travaux de thèses se sont consacrés 

particulièrement à ce point [Cachier, 2002]. 

Le chapitre 7 présente les différentes méthodes d’évaluation des résultats du recalage. Dans 

un premier temps, les méthodes de validation visuelle sont exposés. Se fondant sur des techniques 

de mélange d’images, ces méthodes permettent à un utilisateur «expert» d’apprécier le résultat 

d’un recalage donné. Dans un second temps, une méthode d’évaluation fondée sur l’utilisation 

de marqueurs externes est exposée. 

Grâce au projet RIRE et aux efforts de l’équipe de «Vanderbilt», nous avons pu évaluer 

«objectivement» le comportement en terme de précision et de robustesse de notre critère de 

similarité (NQMI). Les résultats obtenus sont très encourageants et situent notre méthode au 

niveau des meilleures méthodes évaluées dans [West et al., 1997a]. Toutefois, il faut retenir que 

notre méthode présente, comme c’est le cas pour toutes les approches opérant sous hypothèse 

statistique, des résultats insuffisants dans le cadre TEP-IRM. Ceci vient, comme l’a expliqué 

[Roche, 2001], du fait que la dépendance fonctionnelle est la plus appropriée pour définir la 

relation entre les intensités des images TEP et IRM d’un même patient. L’on en conclut que 

notre critère n’a pas vocation à résoudre tous les problèmes de recalage, mais il se situe parmi les 

meilleures méthodes capables de modéliser une dépendance statistique entre deux ou plusieurs 

modalités. En outre, ce qu’il faut retenir de cette étude est qu’une mesure de similarité doit 

être choisie en fonction de l’hypothèse que l’on émet sur la dépendance entre deux imageurs. 

En l’absence de cette hypothèse, le choix d’une mesure de similarité fondée sur l’information 

mutuelle généralisée reste convenable. La deuxième partie de ce chapitre a concerné la validation 

du recalage non-rigide. Malheureusement, nous n’avons pas pu participer, comme dans le cas 

du cadre rigide, à un projet d’évaluation rétrospective, pour la simple raison que les travaux 

concernant cet aspect ne sont toujours pas achevés. Néanmoins, nous avons conçu un ensemble 

d’expériences pour apprécier les gains en précision et en temps de calcul. 

Pour appuyer l’aspect finalisé de notre recherche, nous avons présenté dans le chapitre 8 deux 

applications cliniques reflétant l’utilisation en routine qui est faite de notre système. Ces deux 

applications sont la Curiethérapie prostatique et la planification de biopsies du crâne.

172 Conclusion 

9.2 Perspectives 

9.2.1 Information Mutuelle Généralisée 

La classe de mesures de similarité définie dans le chapitre 4 présente des caractéristiques 

calculatoires intéressantes qui n’ont pas pu être mises en évidence dans le cadre de ce manuscrit. 

Cependant, il serait intéressant d’évaluer leur comportement dans le cadre d’applications liées 

à la segmentation d’images, à la classification et à l’indexation par le contenu. Leur applica- 

tion à la segmentation par modèles déformables d’images médicales a d’ores et déjà commencé 

dans le cadre des travaux de thèse de Xavier Ripoche [Ripoche et al., 2004]. Les résultats préli- 

minaires sont intéressants et ouvrent une voie de recherche nouvelle concernant l’utilisation de 

l’information mutuelle comme critère de déformation. 

9.2.2 Recalage inter-patients et morphométrie 

La morphométrie consiste à étudier la géométrie des formes, et en particulier le calcul de 

formes moyennes et de variations autour de ces formes. 

Un prolongement naturel des travaux abordés dans ce mémoire concerne l’application du 

recalage inter-sujets afin de construire de manière automatique des atlas anatomiques morpho- 

métriques. Une étape préliminaire doit consister à évaluer rétrospectivement l’algorithme de 

recalage non-rigide dans un cadre multisujets. Les applications concernent le calcul d’atlas ana- 

tomiques probabilistes, et la comparaison d’images entre patients peuvent alors être abordées. 

Dans le cadre de nos travaux avec le CH Sainte Anne, il est envisagé la création d’une 

base de données de type Atlas Anatomique Individuel en vue d’une identification automatique 

des structures anatomiques cérébrales individuelles comportant les contours ventriculaires, les 

sillons et scissures, les circonvolutions et zones architectoniques (classification de Brodman), les 

principaux faisceaux de la substance blanche, les ganglions de la base et les noyaux des nerfs 

crâniens, les voies de projection corticales et les grandes voies descendantes, . . . 

9.2.3 Imagerie fonctionnelle 

Étudier des aspects liés à la croissance physiologique et tumorale ; appréhender le système 

nerveux ; comprendre la pathologie parkinsonienne (stimulation des noyaux sous-thalamiques) ; 

comprendre des fonctions cognitives ou psycho-cognitives comme les structures cérébrales impli- 

quées dans la génération de représentations visuo-spatiales... tant de méthodes qui impliquent di- 

rectement l’imagerie fonctionnelle et font appel aux techniques de recalage fonctionnel/structurel.

9.2 Perspectives 173 

Mais les méthodes développées aujourd’hui n’ont que peu été utilisées dans ce contexte. L’in- 

tégration par exemple des signaux EEG ou MEG pose encore beaucoup de problèmes dans un 

cadre de recalage à cause de la spécificité de l’information donnée par ces derniers. Des directions 

de recherche doivent concerner cet aspect afin d’aller plus loin dans la compréhension du vivant.

174

Annexe A 

Caractéristique asymptotiques de 

l’estimateur réduit 

Pour établir l’optimalité d’un estimateur, ses caractéristiques asymptotiques doivent être 

prouvées. Rappelons qu’en théorie d’estimation les caractéristiques asymptotiques ont été intro- 

duites pour s’assurer de la convergence des estimateurs quand la taille d’échantillon augmente 

avec le temps. Cette appendice concerne les preuves de consistance de l’estimateur «FKE» [Mar- 

chette et al., 1995]. 

La consistance 

La consistance de l’estimateur ˆ f est établie lorsque l’on a démontré que le biais et la variance 

tendent vers zéro quand le nombre d’échantillon tend vers l’infini, ce qui veut dire que l’estimation 

converge vers la densité réelle : 

ˆfn→∞ → f 

La preuve de consistance revient à démontrer que le biais et la variance tendent vers 0 quand n 

tend vers l’infini. Commençons par le biais : 

Biais( ˆ f) = E( ˆ f) − f 

= 1 

n m 

 

E 

n 

i=1 j=1 

m 

 

= 

 

j=1 

Wj(y) 

hd K 

j 

Wj(Xi) 

hd K 

j 

 

x − Xi 

 

− f(x) 

hj 

 

x − y 

 

f(y)dy − f(x) 

hj 

175

176 Caractéristique asymptotiques de l’estimateur réduit 

Il a été noté plus haut que, lorsque la taille d’échantillon augmente et tend vers l’infini le para- 

mètre de lissage doit tendre vers l’infini : on a alors l’inférence : n → ∞ =⇒ hj → 0. Par le 

lemme de Bochner 1 on a : 

m 

Wj(y)f(y) − f(y) = 0 

j=1 

Ce qui revient à une réduction du biais de l’estimateur quand la taille de l’échantillon augmente. 

Analysons à présent le comportement de la variance quand la taille de l’échantillon augmente. 

De la même façon on écrit : 

Var( ˆ f(x)) = 1 

n 2 

⎛ 

n m 

Var ⎝ 

i=1 

≤ 1 

n E 

⎛ 

m m 

⎝ 

= 1 

n 

≤ 1 

n 

j=1 k=1 

j=1 k=1 

j=1 

Wj(y) 

h d j 

h d j 

Wj(xi) 

hd K 

j 

Wk(y) 

hd K 

k 

h d k 

x − Xi 

hj 

x − y 

hj 

hj 

⎞ 

⎠ 

 

K 

x − y 

hk 

hk 

⎞ 

⎠ 

m m 

 

Wj(y) Wk(y) x − y x − y 

K K f(y)dy 

m 

m 

1 

h 

j=1 k=1 

d j hd k 

≤ sup(K(w)) 

n 

→ sup(K(w)) 

n 

→ 0 

m 

 

x − y x − y 

K K f(y)dy 

m 

1 

h 

j=1 k=1 

d j hd k 

m 

1 

hj 

 

h 

j=1 

d f(x)σ 

j 

2 K 

hk 

hk 

 

x − y 

K f(y)dy 

Les dernières inférences viennent du fait que nhj n→∞ → ∞ et que le noyau K satisfait les 

conditions du moment 5.6 : 

 

K(w)dw = 1; 

 

wK(w)dw = 0; et σ 2 K = 

 

w 2 K(w)dw > 0, 

1 LEMME = Si f est bornée et continue alors E( ˆ f) → f uniformément dans tout espace compact.

La consistance L2 

La consistance L2 consiste à prouver la minimisation du risque dans un espace quadratique. 

Si l’on prend l’Erreur Quadratique Intégrée Moyenne MISE : 

On obtient : 

Biais( ˆ f) = 

= 

≈ 

j=1 

hj 

MISE( ˆ 

f) = 

hj 

Biais 2 ( ˆ f) + Var( ˆ f) 

m 

 

1 x − y 

K Wj(y)f(y) dy − f(x) 

m 

 

j=1 

m 

j =1 

= σ2 K 

2 

[K(w)Wj(x − hjw)f(x − hjw)] dw − f(x) 

177 

 

K(w) f(x)Wj(x) − hjw d 

dx (f(x)Wj(x)) + h2 d 

2 

2 

 

(f(x)Wj(x)) dw − f(x) 

d x2 m 

j=1 

On peut alors écrire : 

 

h 2 j 

Biais 2 ( ˆ f) ≈ σ2 K 

4 

d 2 

(f(x)Wj(x)) 

d x2 m 

j=1 k=1 

m 

h 2 jh 2 

d2 k 

De la même façon la Variance Intégrée s’écrit : 

En notant : 

j=1 

hj 

d2 

(f(x)Wj(x)) 

dx2 dx2 (f(x)Wk(x)) dx 

Var( ˆ f) = 1 

 

n 

⎛ 

m 

 

⎝ 

Wj(y) x − y 

K 

⎞2 

⎠ M(y)dy + O(n −1 ) 

≈ 1 

n 

m 

m 

1 

1 

hj hk 

j=1 k=1 

la Variance Intégrée s’écrit alors : 

 

Var( ˆ f) ≈ 1 

n 

hj 

 

x − y x − y 

K K Wj(y)Wk(y)f(y)dy. 

 

g(hj, hk) = 

j=1 k=1 

hj 

hk 

K( 1 

)K( 

hj 

1 

)dw (A.1) 

hk 

m m 

 

g(hj, hk) 

Wj(y)Wk(y)f(y)dy (A.2) 

hjhk

178 Caractéristique asymptotiques de l’estimateur réduit 

En fin de compte on a : 

g(hj, hk) ≤ min(hj, hk)sup(K(w)), 

ce qui veut dire que la Variance Intégrée est d’ordre (n min(hk) −1 ). Par conséquent, la complexité 

au pire est de l’ordre de O(n −1/2 ). 

Le Risque (MISE) s’écrit alors : 


4 

m 

j=1 k=1 

m 

h 2 jh 2 

d2 k 

1 

n 

d2 

(f(x)Wj(x)) 

dx2 dx2 (f(x)Wk(x)) dx + (A.3) 

m 

j=1 k=1 

m 

 

g(hj, hk) 

hjhk 

Wj(y)Wk(y)f(y)dy. (A.4) 

En conclusion Le risque MISE tend vers 0 avec une complexité au pire de l’ordre de O(n −1/2 ), 

comme c’est le cas pour les estimateurs à noyau fixe.

Bibliographie 

[Aczél and Daróczy, 1975] J. Aczél and Z. Daróczy. On Measures of Information and Their 

Characteristics. Academic Press, 1975. 

[Akaike, 1954] H. Akaike. An approximation to the density function. Annals of the Institute of 

Statistical Mathematics, 6 :127–132, 1954. 

[Alpert et al., 1996] N. M. Alpert, D. Berdichevsky, Z. Levin, E. D. Morris, and A. J. Fischman. 

Improved methods for image registration. NeuroImage, 3(1) :10–18, February 1996. 

[Arad et al., 1994] N. Arad, N. Dyn, Daniel Reisfeld, and Yehezkel Yeshurun. Image warping 

by radial basis functions : Application to facial expressions. Computer Vision, Graphics, and 

Image Processing. Graphical Models and Image Processing, 56(2) :161–172, 1994. 

[Ardekani et al., 1995] B. Ardekani, M. Braun, B. F. Hutton, I. Kanno, and H. Iida. A fully automatic 

multimodality image registration algorithm. Journal of Computer Assisted Tomography, 

19(4) :615–623, July-August 1995. 

[Atif et al., 2004] J. Atif, X. Ripoche A. Osorio, B. Devaux, and F. Roux. Integration of short distance 

radiological images, angiography and multimodal image fusion in a stereotaxic software 

environment for biopsy interventions. In CARS, Computer Assisted Radiology and Surgery, 

2004. 

[Bajcsy et al., 1983] R. Bajcsy, R. Lieberson, and M. Reivich. A computerized system for the 

elastic matching of deformed radiographic images to idealized atlas images. J. Comput. Assisted 

Tomogr., 7 :618–625, August 1983. 

[Barr, 1984] A. H. Barr. Global and local deformations of solid primitives. In H. Christiansen, 

editor, SIGGRAPH ’84 Conference Proceedings (Minneapolis, MN, July 23-27, 1984), pages 

21–31. ACM, July 1984. 

[Besl and McKay, 1992] P. J. Besl and N. D. McKay. A method for registration of 3-D shapes. 

IEEE Transactions on Pattern Analysis and machine Intelligence, 14(2) :239–258, February 

1992. 

[Betting et al., 1995] F. Betting, J. Feldmar, N. Ayache, and F. Devernay. A new framework for 

fusing stereo images with volumetric medical images. In Nicholas Ayache, editor, Computer 

Vision, Virtual Reality and Robotics in Medicine, Lecture Notes in Computer Science. Springer- 

Verlag, April 1995. ISBN 3-540-59120-6. 

[Bishop, 1995] Ch. M. Bishop. Neural Networks for Pattern Recognition. Oxford University 

Press, Oxford, UK, 1995. 

179

180 Bibliographie 

[Bookstein and Green, 1993] F. L. Bookstein and W. D. K. Green. A feature space for edges in 

images with landmarks. J. Math. Imaging and Vision, 3 :231–261, 1993. 

[Bowman, 1984] A. W. Bowman. An alternative method of cross-validation for the smoothing 

of density estimates. Biometrika, 71(2) :353–360, 1984. 

[Bro-Nielsen and Gramkow, 1996] M. Bro-Nielsen and C. Gramkow. Fast fluid registration of 

medical images. In Proceedings of the 4th International Conference on Visualization in Biomedical 

Computing, pages 267–276. Springer-Verlag, 1996. 

[Brown and Boult, 2002] L. M. G. Brown and T. E. Boult. Registration of planar film radiographs 

with computed tomography. IEEE Workshop on Mathematical Methods Biomedical 

Imaging, January 07 2002. 

[Brown, 1992] L. G. Brown. A survey of image registration techniques. ACM Comput. Surv., 

24(4) :325–376, 1992. 

[Cachier, 2002] P. Cachier. Recalage non rigide d’images médicales volumiques - contribution 

aux approches iconiques et géométriques. Thèse de sciences, École Centrale des Arts et Manufactures, 

January 2002. 

[Cacoullos, 1966] T. Cacoullos. Estimation of a multivariate density. Annals of the Institute of 

Statistical Mathematics, 18 :179–189, 1966. 

[Cao and Devroye, 1996] R. Cao and L. Devroye. The consistency of a smoothed minimum 

distance estimate. Scandinavian Journal of Statistics, 23 :405–418, 1996. 

[Cao et al., 1995] R. Cao, A. Cuevas, and R. Fraiman. Minimum distance density-based estimation. 

Computational Statistics and Data Analysis, 20 :611–631, 1995. 

[Christensen et al., 1996] G. E. Christensen, R. D. Rabbitt, and M. I. Miller. Deformable 

templates using large deformation kinematics. IEEE Transactions On Image Processing, 

5(10) :1435–1447, October 1996. 

[Collignon et al., 1995] A. Collignon, F. Maes, D. Delaere, D. Vandermeulen, P. Suethens, and 

G. Marchal. Automated multi-modality image registraction based on information theory. In 

Y. Bizais and R. Di Paola, editors, Information Processing in Medical Imaging, pages 263–274, 

Amsterdam, June 1995. Kluwer Academic. 

[Costa et al., 1993] W.L.S. Costa, D.R. Haynor, T.K. Lewellen, and M.M. Graham. A Maximum- 

Likelihood Approach to Pet Emission/Attenuation Image Registration. IEEE Nuclear Science 

Symposium and Medical Imaging Conference, 1993. 

[Cover and Thomas, 1991] T. M. Cover and J. A. Thomas. Elements of Information Theory. 

Wiley Series in Telecommunications. John Wiley & Sons, New York, NY, USA, 1991. 

[Davatzikos, 1997] C. Davatzikos. Spatial transformation and registration of brain images using 

elastically deformable models. Computer Vision and Image Understanding, 66(2) :207–222, 

May 1997. Special issue on Medical Imaging. 

[Davis et al., 1997] M.H. Davis, A. Khotanzad, D.P. Flamig, and S.E. Harms. A physics-based 

coordinate transformation for 3-d image matching. IEEE Trans. Med. imaging, 16 (3) :317– 

328, 1997. 

[Dempster et al., 1977] A.P. Dempster, N.M.Laird, and D.B.Rubin. Maximum likelihood from 

incomplete data via the EM algorithm. Journal Royal Stat. Soc., Series B, 39(1) :1–38, 1977.

Bibliographie 181 

[Devroye and Györfi, 1985] L. Devroye and L. Györfi. Nonparametric Density Estimation : The 

L1 View. John Wiley, New York, 1985. 

[Devroye, 1987] L. Devroye. A Course in Density Estimation. Birkhauser, Boston, 1987. 

[Duchon, 1976] J. Duchon. Interpolation de functiom de deux variables suivant le principe de 

la flexion des plaques mince. Rev. Française d’Automatique, d’Informatique et de Recherche 

Opérationelle, pages 5–12, December 1976. 

[Edwards et al., 1998] P. J. Edwards, D. L. G. Hill, J. A. Little, and D. J. Hawkes. A threecomponent 

deformation model for image-guided surgery. Medical Image Analysis, 2(3) :355– 

367, 1998. 

[Faugeras, 1993] O. Faugeras. Three-Dimensional Computer Vision : A Geometric Viewpoint. 

MIT Press, Cambridge, Massachusetts, 1993. 

[Fitzpatrick and West, Feb. 2000] J. Michael Fitzpatrick and J. B. West. Point-based rigid registration 

: Clinical validation of theory. Medical Imaging, 3979 :353–359, Feb. 2000. 

[Fix and Hodges, 1951] E. Fix and J.L Hodges. Discriminatory analysis, non-parametric discrimination 

: consistency properties. Technical report, USAF Scholl of aviation and medicine, 

Randolph Field, 1951. 4. 

[Fleute et al., 2002] M. Fleute, S. Lavallée, and L. Desbat. Integrated approach for matching 

statistical shape models with intra-operative 2D and 3D data. Lecture Notes in Computer 

Science, 2489 :364–380, 2002. 

[Gee et al., 1997] J. C. Gee, D. R. Haynor, L. Le Briquer, and R. K. Bajcsy. Advances in elastic 

matching theory and its implementation. Lecture Notes in Computer Science, 1205 :63– ? ?, 

1997. 

[Grimson et al., 1997] L. Grimson, R. Kikinis, T. Kapur, W. Eric, and W. M. Wells III. Segmentation 

of brain tissue from magnetic resonance images. Medical Image Analysis, 1 :109–127, 

1997. 

[Hartley, 1928] R.V.L. Hartley. Transmission of information. Bell System Technical Journal, 

7(4) :535–563, 1928. 

[Havrda and Charvát, 1967] J. Havrda and F. Charvát. Quantification method of classification 

processes. Concept of structural a-entropy. Kybernetika, 3 :30–35, 1967. Review by I. Csiszár 

in MR, vol. 34, no.8875. 

[Haynor et al., 1998] D. R. Haynor, J. C. Gee, M. Reivich, and R. Bajcsy. Finite element approach 

to warping of brain images. In M.H. Loew, editor, Proc. SPIE Image Processing, volume 

2167, pages 327–337. SPIE, february 1998. 

[He et al., 2001] Y. He, A. Ben Hamza, and A. Hamid Krim. Information divergence measure 

for ISAR image registration. In Firooz A. Sadjadi, editor, Proc. SPIE, volume 4379, pages 

199–208. SPIE, 2001. 

[Hill et al., 1994] D. L. G. Hill, C. Studholme, and D. J. Hawkes. Voxel similarity measures for 

automated image registration. In Proc. SPIE, pages 205–216, Rochester Mn., U.S.A, 1994. 

SPIE Press. 

[Hjort and Glad, 1995] N. L. Hjort and I. K. Glad. Nonparametric density estimation with a 

parametric start. Annals of Statistics, 23 :882–904, 1995.


[Höhne and Hanson, 1992] K. Höhne and W. Hanson. Interactive 3-D segmentation of MRI 

and CT volumes using morphological operations. Journal of Computer Assisted Tomography, 

16(2) :285–294, 1992. 

[Horn and Schunck, 1980] B. K. P. Horn and B. G. Schunck. Determining optical flow. Technical 

Report AIM-572, MIT Artificial Intelligence Laboratory, April 6 1980. 

[Kerridge, 1961] D. F. Kerridge. Inaccuracy and inference. Journal of the Royal Statistical 

Society, B 23 :184–194, 1961. 

[Kullback and Leibler, 1951] S. Kullback and R. A. Leibler. On information and sufficiency. 

Annals of Math. Stats., 22 :79–86, 1951. 

[Kunt et al., 1993] M. Kunt, G. Granlund, and M. Kocher. Traitement numérique des images. 

Traitement de l’information : volume n˚2, 1993. 

[Lester et al., 1999] H. Lester, S. R. Arridge, K. M. Jansons, L. Lemieux, J. V. Hajnal, and 

A. Oatridge. Non-linear registration with the variable viscosity fluid algorithm. In Proceedings 

of the 16th International Conference on Information Processing in Medical Imaging, pages 

238–251. Springer-Verlag, 1999. 

[Leventon and Grimson, 1998] M. E. Leventon and W. E. L. Grimson. Multi-modal volume 

registration using joint intensity distributions. Lecture Notes in Computer Science, 1496 :1057– 

1078, 1998. 

[Little et al., 1997] J. A. Little, D. L. G. Hill, and D. J. Hawkes. Deformations incorporating 

rigid structures. Computer Vision and Image Understanding : CVIU, 66(2) :223–232, May 

1997. 

[Maes et al., 1997] F. Maes, A. Collignon, D. Vandermeulen, G. Marchal, and P. Suetens. Multimodality 

image registration by maximization of mutual information. IEEE Transactions of 

Medical Imaging, 16(2) :187–198, apr 1997. 

[Maintz and Viergever, 1996] J. Maintz and M. Viergever. An overview of medical image registration 

methods, 1996. 

[Maintz and Viergever, 1997] J. B. Antoine Maintz and M. A. Viergever. An overview of medical 

image registration methods. Symposium of the Belgian hospital physicists association 

(SBPH/BVZF), 12 :1–22, July 1997. 

[Marchette et al., 1995] D. Marchette, C. Priebe, G. Rogers, and J. Solka. Filtered kernel density 

estimation. Computational Statistics, 11 :95–112, 1995. 

[Marquardt, 1963] D. W. Marquardt. An algorithm for least-squares estimation of non-linear 

parameters. Journal of the Society of Industrial and Applied Mathematics, 11(2) :431–441, 

1963. 

[Meinguet, 1979] J. Meinguet. Multivariate interpolation at arbitrary points made simple. Journal 

of Applied Mathematics and Physics (ZAMP), 30 :292–304, 1979. 

[Minnotte and Scott, 1993] M. C. Minnotte and D. W. Scott. The mode tree : a tool for visualization 

of nonparametric density features. Journal of Computational and Graphical Statistics, 

2 :51–68, 1993. 

[Mittal, 1975] D. P. Mittal. On some functional equations concerning entropy, directed divergence 

and inaccuracy. Metrika, 22 :35–45, 1975.


[Nath, 1975] P. Nath. On a coding theorem connected with Rényi’s entropy. Information and 

Control, 29(3) :234–242, November 1975. 

[Neumaier, 1998] A. Neumaier. Solving ill-conditioned and singular linear systems : A tutorial on 

regularization. Society for Industrial and Applied Mathematics, SIAM Review, 40(3) :636–666, 

december 1998. 

[Newman and Sproull, 1979] W. M. Newman and R. F. Sproull. Principles of interactive computer 

graphics (2nd ed.). McGraw-Hill, Inc., 1979. 

[Nikou et al., 1998] C. Nikou, F. Heitz, J-P. Armspach, I. J. Namer, and D. Grucker. Registration 

of MR/MR and MR/SPECT brain images by fast stochastic optimization of robust voxel 

similarity measures. NeuroImage, 8(1) :30–43, July 1998. 

[Osorio et al., 2001] A. Osorio, V. Servois, S. Merran, L. Ollivier, J. Atif, C. Boursier, and 

S. Neuenschwander. Follow up of 15 patients under chemotherapy for liver metastasis using 

a new pc based 3d reconstruction algorithm. In InfoRAD-RSNA’01, Radiological Society of 

North America. Radiology, November 2001. 

[Parzen, 1962] E. Parzen. On the estimation of a probability density function and mode. Annals 

of Mathematical Statistics, 33 :1065–1076, 1962. 

[Peebles, 1980] P. Z. Peebles. Probability, Random Variables, and Random Signal Prinziples. 

McGraw-Hill Book Company, 1980. 

[Pluim et al., 2003] J.P.W. Pluim, J.B.A. Maintz, and M.A. Viergever. Mutual-informationbased 

registration of medical images : a survey. IEEE Transactions on Medical Imaging, 

22(8) :986–1004, 2003. 

[Press et al., 1988] W. H. Press, B. P. Flannery, S. A. Teukolsky, and W. T. Vetterling. Numerical 

Recipes in C. Cambridge University Press, Cambridge, England, first edition, 1988. 

[Priebe and Marchette, 2000] C.E. Priebe and D.J. Marchette. Alternating kernel and mixture 

density estimates. Computational Statistics and Data Analysis, 2000. 

[Principe and Xu, 1999] J. Principe and D. Xu. Information-theoretic learning using renyi’s 

quadratic entropy, 1999. 

[Rabiner, 1990] L. R. Rabiner. A tutorial on hidden Markov models and selected applications 

in speech recognition. Proceedings of the IEEE, 1990. 

[Rényi, 1961] A. Rényi. On measures of entropy and information. In Proc. 4th Berkeley Symp. 

Math. Statist. and Prob., volume 1, pages 547–561, Berkely, 1961. Univ. Calif. Press. 

[Ripoche et al., 2004] X. Ripoche, J. Atif, and A. Osorio. Three dimensional discrete deformable 

model guided by mutual information for medical image segmentation. In Proc. SPIE, volume 

5370, pages 362–372, Rochester Mn., U.S.A, 2004. SPIE Press. 

[Rényi, 1959] A. Rényi. On the dimension and enropy of probability distributions. Acta Math. 

Acad. Sci. Hung., 10 :193–215, 1959. 

[Rényi, 1971] A. Rényi. Probability theory. North-Holland, Amsterdam, 1971. 

[Roche et al., 1998] A. Roche, G. Malandain, X. Pennec, and N. Ayache. The correlation ratio 

as a new similarity measure for multimodal image registration. In Proc. of First Int. Conf. on 

Medical Image Computing and Computer-Assisted Intervention (MICCAI’98), volume 1496 of 

LNCS, pages 1115–1124, Cambridge, USA, October 1998. Springer Verlag.


[Roche et al., 2000] A. Roche, G. Malandain, and N. Ayache. Unifying maximum likelihood approaches 

in medical image registration. International Journal of Imaging Systems and Technology 

: Special Issue on 3D Imaging, 11(1) :71–80, 2000. 

[Roche, 2001] A. Roche. Recalage d’images médicales par inférence statistique. Thèse de sciences, 

Université de Nice Sophia-Antipolis, February 2001. 

[Rosenblatt, 1956] M. Rosenblatt. Remarks on some nonparametric estimates of a density function. 

The Annals of Mathematical Statistics, 1956 :832–837, 1956. 

[Rudemo, 1982] M. Rudemo. Empirical choice of histograms and kernel density estimatiors. 

Scandinavian Journal of Statistics, 9 :65–78, 1982. 

[Rudzkis, 1992] R. Rudzkis. On the distribution of supremum-type functionals of nonparametric 

estimates of probability and spectral densities. Theory of Probability and its Applications, 

37(2) :236–249, June 1992. Original Russian article in Teor. Veroyatnost. i Primenen., 37(2), 

(1992), pp. 254–267. 

[Sahoo et al., 1988] P. K. Sahoo, S. Soltani, and A. K. C. Wong. A survey of thresholding 

techniques. Computer Vision, Graphics and Image Processing, page 233 260, 1988. 

[Schnabel et al., 2001] J. A. Schnabel, Ch. Tanner, A. D. Castellano-Smith, M. O. Leach, 

C. Hayes, A. Degenhard, R. Hose, D. L. G. Hill, and D. J. Hawkes. Validation of non-rigid 

registration using finite element methods. In Proceedings of the 17th International Conference 

on Information Processing in Medical Imaging, pages 344–357. Springer-Verlag, 2001. 

[Scott, 1985] D. Scott. Averaged shifted histograms : Effective nonparametric density estimation 

in several dimensions. Annals of Statistics, 13 :1024–1040, 1985. 

[Scott, 1992] D. Scott. Multivariate density estimation : Theory, practice and visualisation. John 

Wiley, 1992. 

[Sederberg and Parry, 1986] T. W. Sederberg and S. R. Parry. Free-form deformation of solid 

geometric models. Computer Graphics (SIGGRAPH ’86 Proceedings), 20(4) :151–160, aug 

1986. 

[Servois et al., 2002] V. Servois, A. Osorio, J. Atif, S. Merran, L. Ollivier, C. El Khoury, L. Chauveinc, 

J.C. Rosenwald, Ph. Giraud, and S. Neuenschwander. A new pc based software for 

prostatic 3d segmentation and volume measurement. application to permanent prostate brachytherapy 

(ppb) evaluation using ct and mr image fusion. In InfoRAD-RSNA’02, Radiological 

Society of North America. Radiology, December 2002. 

[Shannon, 1948] C. E. Shannon. A mathematical theory of communication. Bell System Technical 

Journal, 27 :379–423 and 623–656, Jul and Oct 1948. 

[Silverman, 1986] B. W. Silverman. Kernel density estimation technique for statistics and data 

analysis. In Monographs on statistics and applied probability, volume 26. Chapman and Hall, 

London, 1986. 

[Studholme et al., 1995] C. Studholme, D. L. G. Hill, and D. J. Hawkes. Multiresolution voxel 

similarity measures for mr-pet registration. In Y. BIZAIS and C. Barillot, editors, Proc. of 

the XIVth International Conference on Information Processing in Medical Imaging (IPMI’95), 

pages 287–298. Kluewer Academic Publishers, 1995.


[Studholme et al., 1997] C. Studholme, D. L. G. Hill, and D. J. Hawkes. Automated 3D registration 

of magnetic resonance and positron emission tomography brain images by multiresolution 

optimization of voxel similarity measures. Medical Physics, 24 :25–35, 1997. 

[Studholme, 1997] C. Studholme. Measures of 3D Medical Image Alignment. Phd, University of 

London, August 1997. 

[Susko et al., 1998] E. Susko, J. Chen, and J. D. Kalbfleisch. Constrained nonparametric maximum 

likelihood estimation for mixture models. Canadian Journal of Statistics, 28 :601–617, 

1998. 

[Szeliski, 1989] R. Szeliski. Bayesian Modeling of Uncertainty in Low-Level Vision. Kluwer 

Academic Publishers, 1989. 

[Talairach and Tournoux, 1988] J. Talairach and P. Tournoux. Co-planar Stereotaxic Atlas of 

the Human Brain. Thieme Medical Publisher Inc, New York, January 1988. 

[Taneja, 1990] Taneja. On generalized entropies with applications. In Lectures in Applied Mathematics 

and Informatics. Luigi M. Ricciardi (Ed.), Manchester, 1990. 

[Tarault et al., 2004] A. Tarault, J. Atif, X. Ripoche, and A. Osorio. Classification of radiological 

exams and organs by belief theory. In Proc. SPIE, volume 5370, pages 305–315, Rochester 

Mn., U.S.A, 2004. SPIE Press. 

[Terrell and Scott, 1992] G.R. Terrell and D.W. Scott. Variable kernel density estimation. Annals 

of Statistics, 20 :1236–1265, 1992. 

[Thirion, 1991] J-Ph. Thirion. A geometric alternative to computed tomography. Technical 

Report RR-1463, Inria, Institut National de Recherche en Informatique et en Automatique, 

1991. 

[Thirion, 1998] J.-P. Thirion. Image matching as a diffusion process : an analogy with maxwell’s 

demons. Medical Image Analysis, 2(3) :243–260, 1998. 

[Unser et al., 1993a] M. Unser, A. Aldroubi, and M. Eden. B-Spline signal processing : Part I - 

Theory. IEEE Trans. Signal Process., 41(2) :821–833, Feb. 1993. 

[Unser et al., 1993b] M. Unser, A. Aldroubi, and M. Eden. B-Spline signal processing : Part II— 

Efficient design and applications. IEEE Transactions on Signal Processing, 41(2) :834–848, 

February 1993. 

[Unser et al., 1993c] M. Unser, A. Aldroubi, and M. Eden. The l/sub 2/-polynomial spline 

pyramid. IEEE Trans. Pattern Anal. Mach. Intell., 15(4) :364–379, 1993. 

[Van den Elsen et al., 1994] P. A. Van den Elsen, E. J. D. Pol, T. S. Sumanawaeera, P. F. Hemler, 

S. Napel, and J. R. Adler. Grey value correlation techniques used for automatic matching of 

ct and mr brain and spine images. In Proc. SPIE, pages 227–237, Rochester Mn., U.S.A, 1994. 

SPIE Press. 

[Van der Lubbe et al., 1987] J.C.A. Van der Lubbe, D.E. Boekee, and Y. Boxma. Bivariate 

certainty and information measures. Information Sciences, 41 :139–169, 1987. 

[Van der Lubbe, 1978] J. C. A. Van der Lubbe. On certain coding theorems for the information 

of order α and of type β. In Trans. Eighth Prague Conf. on Inform. Theory, Statist. Decision 

Functions, Random Processes, Prague, 1978. Czech. Acad. Science, Academia Publ. Prague, 

1979.


[Viola and Wells III, 1995] P. Viola and W. M. Wells III. Alignment by maximization of mutual 

information. In Proceedings of the Fifth International Conference on Computer Vision, pages 

16–23, 1995. 

[Viola, 1995] P. A. Viola. Alignment by maximization of mutual information. IEEE Fifth International 

Conference on Computer Vision, pages 16–23, 1995. 

[Wand et al., 1991] M. P. Wand, J. S. Marron, and D. Ruppert. Transformations in density 

estimation. with discussion and a rejoinder by the authors. Journal of the American Statistical 

Association, 86(414) :343–361, June 1991. 

[West et al., 1996] J. West, J. Fitzpatrick, M. Wang, B. Dawant, C. Maurer, R. Kessler, and 

R. Maciunas. Comparison and evaluation of retrospective intermodality image registration 

techniques, 1996. 

[West et al., 1997a] J. West, J. M. Fitzpatrick, M. Y. Wang, B. M. Dawant, C. R. Maurer Jr, 

R. M. Kessler, R. J. Maciunas, C. Barillot, D. Lemoine, A. Collignon, F. Maes, P. Suetens, 

Vandermeulen Vandermeulen, P. A. van den Elsen, S. Napel, T. S. Sumanaweera, B. Harkness, 

P. F. Hemler, D. L. Hill, D. J. Hawkes, C. Studholme, Maintz Maintz, M. A. Viergever, 

G. Malandain, and Woods Woods. Comparison and evaluation of retrospective intermodality 

brain image registration techniques. Journal of Computer Assisted Tomography, 21(4) :554– 

566, July-August 1997. 

[West et al., 1997b] J. West, J. M. Fitzpatrick, M. Y. Wang, and D. Dawant. Retrospective 

intermodality registration techniques : surface-based versus volume-based. Lecture Notes in 

Computer Science, 1205 :151–162, 1997. 

[Woods et al., 1991] R. P. Woods, S. R. Cherry, and J. C. Mazziotta. Rapid automated algoritm 

for aligment and reslicing PET images. Journal of Computer Assisted Tomography, 15 :634– 

639, 1991. 

[Woods et al., 1993] R. P. Woods, J. C. Mazziotta, and S. R. Cherry. MRI-PET registration 

with automated algorithm. Journal of Computer Assisted Tomography, 17(4) :536–546, 1993. 

[Zollei et al., 2001] L Zollei, A. Norbash, W. Grimson, and W. Wells. 2d-3d rigid registration 

of fluoroscopy and ct images using mutual information and sparsely sampled histograms as 

density estimators. IEEE conference on Computer Vision and Pattern Recogntion, 2001.

Recalage non-rigide multimodal des images radiologiques ... - Limsi

Create successful ePaper yourself

Delete template?

Save as template?