Recalage non-rigide multimodal des images radiologiques ... - Limsi
Recalage non-rigide multimodal des images radiologiques ... - Limsi
Recalage non-rigide multimodal des images radiologiques ... - Limsi
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> <strong>des</strong> <strong>images</strong><br />
<strong>radiologiques</strong><br />
par information mutuelle quadratique normalisée<br />
Jamaleddine Atif<br />
LIMSI-CNRS<br />
Université de Paris XI - Orsay<br />
Soutenue le 29 Octobre 2004 devant le jury composé de 1 :<br />
Alain MERIGOT Professeur Paris-XI Président<br />
Angel OSORIO DR-CNRS Directeur<br />
Habib ZAIDI Professeur UniGe Rapporteurs<br />
Christian RONSE Professeur ULP-Starsbourg<br />
Olivier HELENON PUPH Paris-V Examinateur<br />
1 Mention : Très honorable<br />
2004/11/08
Table <strong>des</strong> matières<br />
1 Introduction 1<br />
1.1 Analyse <strong>des</strong> <strong>images</strong> médicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
1.1.1 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
1.1.2 <strong>Recalage</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
1.2 Sur les applications cliniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.2.1 Diagnostic et décision thérapeutique . . . . . . . . . . . . . . . . . . . . . 12<br />
1.2.2 Planification et simulation <strong>des</strong> interventions chirurgicales . . . . . . . . . . 13<br />
1.2.3 De la navigation chirurgicale per-opératoire . . . . . . . . . . . . . . . . . 15<br />
1.3 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
1.3.1 Organisation du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques 21<br />
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
2.2 Approche géométrique du recalage . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
2.2.1 Mise en correspondance <strong>des</strong> points . . . . . . . . . . . . . . . . . . . . . . 22<br />
2.2.2 Mise en correspondance de surfaces . . . . . . . . . . . . . . . . . . . . . . 25<br />
2.3 Approche iconique du recalage- modélisation par inférence statistique . . . . . . . 31<br />
2.3.1 Conservation d’intensité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
2.3.2 Dépendance affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
2.3.3 Dépendance fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />
2.3.4 Dépendance statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />
2.4 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />
i
ii Table <strong>des</strong> matières<br />
3 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> 59<br />
3.1 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche linéaire . . . . . . . . . . . . . . . . . . . . . . . . 59<br />
3.1.1 Transformation 3D globale <strong>rigide</strong> . . . . . . . . . . . . . . . . . . . . . . . 59<br />
3.1.2 Transformation affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
3.1.3 Transformation projective . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire . . . . . . . . . . . . . . . . . . . . . 63<br />
3.2.1 Transformation élastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
3.2.2 Transformation fluide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />
3.2.3 Métho<strong>des</strong> d’éléments finis et modèles mécaniques . . . . . . . . . . . . . . 65<br />
3.2.4 Flot optique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />
3.2.5 Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
3.2.6 Déformations de formes libres . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
3.3 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche hybride . . . . . . . . . . . . . . . . . . . . . . . 71<br />
3.4 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72<br />
4 De la théorie de l’information et <strong>des</strong> mesures de similarités 73<br />
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
4.2 Image, Incertain, Information... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />
4.2.1 Entropie généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />
4.2.2 Divergence Généralisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />
4.2.3 Information mutuelle généralisée . . . . . . . . . . . . . . . . . . . . . . . 84<br />
4.2.4 Information mutuelle généralisée : normalisation . . . . . . . . . . . . . . 88<br />
4.2.5 Choix du degré r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />
4.2.6 Choix de α . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />
4.3 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Table <strong>des</strong> matières iii<br />
5 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité 95<br />
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />
5.2 Estimateurs <strong>non</strong>-paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98<br />
5.2.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98<br />
5.2.2 Modèle de Parzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99<br />
5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />
5.3.1 Sélection automatique <strong>des</strong> fenêtres . . . . . . . . . . . . . . . . . . . . . . 105<br />
5.3.2 Noyaux adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif . . . . . . . . 107<br />
5.4.1 Hypothèses fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />
5.4.2 Choix du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109<br />
5.4.3 Calcul <strong>des</strong> fonctions de filtrage . . . . . . . . . . . . . . . . . . . . . . . . 111<br />
5.4.4 Simulations et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />
5.5 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />
6 L’algorithme MIAMI 119<br />
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119<br />
6.2 Formulation hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119<br />
6.3 Modèle d’image . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120<br />
6.3.1 Schéma multi-résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />
6.3.2 Degré du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />
6.4 <strong>Recalage</strong> affine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />
6.4.1 Modèle de déformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />
6.4.2 Critère de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />
6.4.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />
6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125<br />
6.5.1 Modèle de déformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125<br />
6.5.2 Critère de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br />
6.5.3 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128<br />
6.6 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
iv Table <strong>des</strong> matières<br />
7 Simulations et validations 131<br />
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131<br />
7.2 Validation visuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132<br />
7.2.1 Mélange <strong>des</strong> <strong>images</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132<br />
7.3 Validation à l’aide marqueurs : le projet RIRE . . . . . . . . . . . . . . . . . . . 136<br />
7.3.1 Principe d’évaluation et de comparaison . . . . . . . . . . . . . . . . . . . 136<br />
7.3.2 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />
7.3.3 Protocole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />
7.3.4 Présentation <strong>des</strong> résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />
7.3.5 Analyse <strong>des</strong> résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142<br />
7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . 144<br />
7.4.1 Expérience 1 : précision et temps de calcul . . . . . . . . . . . . . . . . . . 147<br />
7.4.2 Expérience 2 : utilité <strong>des</strong> noyaux adaptatifs, impact sur la précision . . . . 148<br />
7.5 Synthèse du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />
8 Applications Cliniques 151<br />
8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM . . . . . . . . . 151<br />
8.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151<br />
8.1.2 Evolution du cancer de la prostate . . . . . . . . . . . . . . . . . . . . . . 152<br />
8.1.3 Détection Précoce et diagnostic du cancer de la prostate . . . . . . . . . . 153<br />
8.1.4 Traitement par radiothérapie . . . . . . . . . . . . . . . . . . . . . . . . . 153<br />
8.1.5 Le projet PTM3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158<br />
8.2 Planification de biopsies et fusion <strong>multimodal</strong>e . . . . . . . . . . . . . . . . . . . 161<br />
8.2.1 Description du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />
8.2.2 Validation sur <strong>des</strong> données Synthétiques . . . . . . . . . . . . . . . . . . . 162<br />
8.2.3 Utilisation en routine clinique . . . . . . . . . . . . . . . . . . . . . . . . . 165
Table <strong>des</strong> matières v<br />
9 Conclusion 169<br />
9.1 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169<br />
9.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />
9.2.1 Information Mutuelle Généralisée . . . . . . . . . . . . . . . . . . . . . . . 172<br />
9.2.2 <strong>Recalage</strong> inter-patients et morphométrie . . . . . . . . . . . . . . . . . . . 172<br />
9.2.3 Imagerie fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172<br />
A Caractéristique asymptotiques de l’estimateur réduit 175<br />
Bibliographie 179
Table <strong>des</strong> figures<br />
1.1 Evolution de la pratique chirurgicale : de la trépanation à la chirurgie microscopique. 1<br />
1.2 Illustration de la <strong>multimodal</strong>ité fonctionnelle et structurelle pour la compréhension<br />
du cerveau humain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />
1.3 Planche photographique de visualisation <strong>des</strong> données (négatoscope). . . . . . . . 3<br />
1.4 Estimation <strong>des</strong> seuils séparant deux distributions. . . . . . . . . . . . . . . . . . . 5<br />
1.5 Résultats d’un multiseuillage avec étiquetage <strong>des</strong> régions. . . . . . . . . . . . . . . 6<br />
1.6 Étapes de la segmentation par contours actifs. . . . . . . . . . . . . . . . . . . . . 7<br />
1.7 Segmentation par modèles déformables 3D. . . . . . . . . . . . . . . . . . . . . . 8<br />
1.8 Illustration du recalage Multimodal Structurel : alignement d’une image TDM sur<br />
une image IRM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />
1.9 Illustration du recalage Multimodal Structurel-Fonctionnel : alignement d’une<br />
image TEP (fonctionnelle) sur une image IRM-T2(structurelle). . . . . . . . . . . 10<br />
1.10 Illustration du recalage <strong>multimodal</strong> données/atlas : alignement d’un volume TDM<br />
sur l’atlas anatomique de Talairach-Tournoux. . . . . . . . . . . . . . . . . . . . . 11<br />
1.11 Intérêt de l’imagerie et de l’analyse quantitative <strong>des</strong> données pour l’établissement<br />
du diagnostic : cas <strong>des</strong> nodules pulmonaires. . . . . . . . . . . . . . . . . . . . . . 12<br />
1.12 Collaboration segmentation-recalage pour la planification <strong>des</strong> interventions chi-<br />
rurgicales du poumon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
1.13 Segmentation hépatique pré-opératoire pour la planification <strong>des</strong> interventions sur<br />
le foie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
1.14 Utilisation de la Réalité Augmentée dans la planification chirurgicale de nephro-<br />
lithotomies percutanées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
vii
viii Table <strong>des</strong> figures<br />
1.15 <strong>Recalage</strong> dans un environnement stéréotaxique pour le contrôle de biopsies. . . . 17<br />
2.1 Illustration simplifiée du problème de recalage . . . . . . . . . . . . . . . . . . . . 21<br />
2.2 Suivi d’un patient traité par chimiothérapie. . . . . . . . . . . . . . . . . . . . . . 23<br />
2.3 Extraction de points homologues . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
2.4 Acquisition TDM avec cadre stéréotaxique . . . . . . . . . . . . . . . . . . . . . . 25<br />
2.5 Segmentation de surfaces homologues (contours du crâne) avant l’étape de mise<br />
en correspondance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
2.6 Contours représentant les objets homologues extraits à partir de deux modalités. 27<br />
2.7 Acquisition TDM du crâne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2.8 Acquisition IRM du crâne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2.9 Combinaison IRM/TDM recalée du crâne . . . . . . . . . . . . . . . . . . . . . . 29<br />
2.10 Acquisitions IRM et TEP du cerveau d’un même patient . . . . . . . . . . . . . . 30<br />
2.11 Illustration de la dépendance linéaire T=rotation de 45˚, F=I (identité) . . . . . 34<br />
2.12 Illustration de la dépendance linéaire T=rotation de 45˚, F(x)=0.5*x+20 . . . . 36<br />
(1−cos 2πn(T (x)))<br />
2<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />
2.13 Illustration de la dépendance fonctionnelle T=rotation de 45˚, m(x) =<br />
2.14 Illustration de la dépendance statistique entre les intensités d’une image IRM et<br />
une image TDM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
2.15 Illustration <strong>des</strong> étapes de recalage par minimisation de l’entropie conjointe . . . . 44<br />
2.16 Illustration de la nécessité de normaliser l’entropie conjointe. Ici, du fait de la<br />
prédominance du niveau de gris du fond, la minimisation de l’entropie conjointe<br />
conduit à la déconnection <strong>des</strong> structures homologues dans les deux <strong>images</strong>. . . . . 45<br />
2.17 Diagramme de Venn représentant la relation entre les entropies marginales, les<br />
entropies conditionnelles et l’information mutuelle . . . . . . . . . . . . . . . . . . 47<br />
2.18 Dans ce diagramme I2 > I1, la solution du recalage est celle correspondant alors<br />
à T2, même si l’information partagée par les deux <strong>images</strong> est plus faible que celle<br />
donnée par T1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
3.1 Espace FFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Table <strong>des</strong> figures ix<br />
5.1 Coupe axiale IRM et son histogramme. Plusieurs mo<strong>des</strong> sont présents dans cet<br />
histogramme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />
5.2 Estimation à noyau à fenêtre fixe . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />
5.3 Noyaux fixes d’estimation de tailles 0.2 (a) et 0.8 (b). . . . . . . . . . . . . . . . . 101<br />
5.4 Estimations de la densité d’étude sur le suicide (Silverman), à droite h= 60 et à<br />
gauche h=20. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />
5.5 Résultat de l’estimateur «sample point estimaor» de la densité d’étude sur le<br />
suicide (Silverman). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />
5.6 Le rendement (efficacité) en fonction de la variable pour l’expérience 1. À mesure<br />
que la variance s’éloigne de 1, l’estimateur à noyau fixe (KE) devient de plus en<br />
plus inadéquat pour l’estimation de la densité d’étude. L’estimateur réduit «FKE»<br />
permet, quant à lui, de prendre en compte les deux variances, ce qui améliore le<br />
résultat de l’estimation quant les variances <strong>des</strong> gaussiennes sont significativement<br />
éloignées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />
5.7 Les largeurs de fenêtres utilisées par l’estimateur réduit à noyau adaptatif «FKE».<br />
Le paramètre de lissage associé au deuxième terme du mélange de gaussiennes (la<br />
ligne continue), pour lequel la variance change, varie en fonction de σ, ce qui<br />
permet à l’estimateur de mieux représenter les variances locales de la densité réelle.113<br />
5.8 Illustration du résultat de l’estimation sur les données d’une IRM de l’abdomen. . 114<br />
5.9 Illustration du résultat de l’estimation sur les données d’une IRM du cerveau. . . 115<br />
5.10 Illustration du résultat de l’estimation sur les données TDM bruitées de l’abdomen.116<br />
5.11 Illustration du résultat de l’estimation sur les données TDM bruitées (cadre sté-<br />
réotaxique) du cerveau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />
5.12 Illustration du résultat de l’estimation sur les données TDM du poumon. . . . . . 118<br />
6.1 Différentes étapes de l’approche hybride du recalage. . . . . . . . . . . . . . . . . 121<br />
6.2 Application d’une déformation libre à une image source . . . . . . . . . . . . . . 126<br />
7.1 Validation visuelle par affichage en damier. . . . . . . . . . . . . . . . . . . . . . . 133<br />
7.2 Validation visuelle par surimposition <strong>des</strong> <strong>images</strong>. . . . . . . . . . . . . . . . . . . 134<br />
7.3 Validation visuelle par différence centrée <strong>des</strong> intensités. . . . . . . . . . . . . . . . 135
x Table <strong>des</strong> figures<br />
7.4 Spécification <strong>des</strong> positions d’origine et transformées dans les volumes source et<br />
cible : huit coins <strong>des</strong> deux volumes . . . . . . . . . . . . . . . . . . . . . . . . . . 137<br />
7.5 Calcul de l’erreur de recalage pour un VOI donné . . . . . . . . . . . . . . . . . . 139<br />
7.6 Différentes expériences de recalage effectuées . . . . . . . . . . . . . . . . . . . . . 140<br />
7.7 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents recalages<br />
TDM/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec). . . . . . . . . . . . . . . . . . 145<br />
7.8 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents recalages<br />
TEP/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec). . . . . . . . . . . . . . . . . . 146<br />
8.1 Implantation <strong>des</strong> grains radioactifs dans la prostate . . . . . . . . . . . . . . . . . 155<br />
8.2 Données TDM de la prostate d’un patient implanté. . . . . . . . . . . . . . . . . 157<br />
8.3 Données IRM de la prostate d’un patient implanté. . . . . . . . . . . . . . . . . . 157<br />
8.4 Exemple de segmentation volumique de la prostate après fusion TDM-IRM. . . . 158<br />
8.5 Résultats <strong>des</strong> recalages pour les données TDM-IRM prostatiques. . . . . . . . . . 160<br />
8.6 Résultats dosimétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />
8.7 Validation expérimental : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />
8.8 Validation expérimental : étape 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 163<br />
8.9 Validation expérimental : étape 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 164<br />
8.10 Cas réel : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165<br />
8.11 Cas réel : étape 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166<br />
8.12 Cas réel : étape 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167<br />
8.13 Contrôle global : point d’entrée, cible, chemin traversé, . . . . . . . . . . . . . . . . 168<br />
8.14 Cas réel : étape 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
Liste <strong>des</strong> tableaux<br />
7.1 Exemple de la spécification de la transformation <strong>rigide</strong> selon la norme «Vanderbilt»138<br />
7.2 Protocole expérimental du recalage <strong>rigide</strong> utilisé dans le cadre de l’évaluation RIRE.141<br />
7.3 Résultat de l’évaluation RIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />
7.4 Comparaison <strong>des</strong> résultats de recalage pour diverses métho<strong>des</strong>. (Les métho<strong>des</strong><br />
marquées d’une étoile sont celles utilisant l’information mutuelle ou ses variantes) 143<br />
7.5 Protocole expérimental de l’expérience 1. . . . . . . . . . . . . . . . . . . . . . . . 147<br />
7.6 Résultat de l’expérience 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148<br />
7.7 Protocole de l’expérience 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />
7.8 Résultats de l’expérience 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />
xi
xii
Chapitre 1<br />
Introduction<br />
(a) Une trépanation exercée au XVI ième. siècle (b) Un chirurgien opérant à l’aide d’un microscope.<br />
Fig. 1.1 Evolution de la pratique chirurgicale : de la trépanation à la chirurgie<br />
microscopique.<br />
De la trépanation à la robotique chirurgicale, la pratique médicale a connu une véritable<br />
révolution (Fig. 1.1). De nos jours, grâce aux nouvelles techniques d’imagerie, les procédés de<br />
traitement se sont modernisés, le diagnostic est devenu plus précis et la qualité <strong>des</strong> soins est<br />
désormais meilleure. Loin <strong>des</strong> pratiques traditionnelles, où «voir» passait par «ouvrir», aujour-<br />
d’hui, les radiologues, à l’aide <strong>des</strong> techniques tomographiques, peuvent diagnostiquer et traiter<br />
de façon quasiment <strong>non</strong>-invasive. Le recours à la chirurgie invasive est devenu la solution de<br />
dernier recours. De ces modalités d’acquisition, on distingue celles qui fournissent <strong>des</strong> propriétés<br />
structurelles (morphologiques) de la zone étudiée (IRM, TDM, X-Ray...), de celles qui restituent<br />
<strong>des</strong> aspects fonctionnels (TEP, TEMP, IRMf, MEG,...) (voir Fig. 1.2).<br />
1
2 Introduction<br />
TDM<br />
TEP<br />
IRM<br />
TEMP<br />
X-Ray<br />
IRMf<br />
Fig. 1.2 Illustration de la <strong>multimodal</strong>ité fonctionnelle et structurelle pour la compréhension<br />
du cerveau humain.
Plusieurs modalités sont parfois utilisées pour effectuer un seul diagnostic. Pour certaines ano-<br />
malies, le radiologue doit, à la fois, étudier l’aspect structurel et fonctionnel d’une zone d’intérêt.<br />
Or, ces modalités sont, en général, utilisées avec un décalage dans le temps. Les informations<br />
recueillies doivent être alors fusionnées dans un même repère pour permettre d’effectuer les dif-<br />
férentes analyses et comparaisons, nécessaires à l’établissent d’un diagnostic précis et efficace.<br />
Bien que la nouvelle génération d’imageurs fournisse <strong>des</strong> informations tridimensionnelles du<br />
corps, présentant ainsi une avancée considérable, les techniques d’analyse dédiées au traitement<br />
de ces données souffrent d’un retard conséquent. Pour visualiser un examen, la plupart <strong>des</strong> ra-<br />
diologues se contentent, encore aujourd’hui, de l’utilisation du «négatoscope» (Fig 1.3) qui ne<br />
prend pas en compte toute l’information tridimensionnelle. De plus, l’analyse d’imagerie d’un<br />
Fig. 1.3 Planche photographique de visualisation <strong>des</strong> données (négatoscope).<br />
examen se fait de façon qualitative : seule l’expérience d’un radiologue est décisive pour la de-<br />
tection d’une anomalie. L’intérêt pour les techniques d’analyse de données, pourtant largement<br />
3
4 Introduction<br />
répandues dans d’autres domaines, n’est apparu, puis accru que lors <strong>des</strong> vingt dernières années.<br />
Au début, l’utilisation de ces techniques d’analyse n’a consisté qu’en une simple application <strong>des</strong><br />
techniques existantes aux <strong>images</strong> médicales, aboutissant dans la plupart <strong>des</strong> cas à <strong>des</strong> résultats<br />
peu convaincants. Le besoin de concevoir <strong>des</strong> métho<strong>des</strong> automatiques ou semi-automatiques pour<br />
traiter plus spécifiquement les <strong>images</strong> médicales s’est donc fait ressentir. Une nouvelle commu-<br />
nauté de recherche spécialisée en traitement <strong>des</strong> <strong>images</strong> médicales est née. Ces chercheurs issus<br />
principalement de la communauté «traitement d’<strong>images</strong>», tentent de répondre aux nombreuses<br />
questions <strong>des</strong> radiologues. Parmi ces questions nous citons les plus importantes :<br />
– Où se situe la lésion ?<br />
– Quel est son volume ?<br />
– Quelle est la variation du volume depuis les dernières mesures ?<br />
– Quel est le chemin le moins invasif pour y accéder ?<br />
L’ensemble <strong>des</strong> solutions apportées font appel à <strong>des</strong> paradigmes souvent présents dans d’autres<br />
domaines, où l’analyse <strong>des</strong> <strong>images</strong> constitue la condition sine qua <strong>non</strong> de prise de décision. Ces<br />
paradigmes sont la restauration d’<strong>images</strong>, la morphométrie, la segmentation, le recalage, la<br />
classification, la réalité augmentée, la simulation et la robotique.<br />
1.1 Analyse <strong>des</strong> <strong>images</strong> médicales<br />
Dans le cadre de nos travaux au LIMSI-CNRS, nous nous intéressons essentiellement à la<br />
segmentation, le recalage, la classification 1 et à leurs applications médicales.<br />
1.1.1 Segmentation<br />
Certainement la méthode d’analyse la plus utilisée en imagerie médicale. La segmentation est<br />
le processus qui consiste à répartir (partitionner) une image (en niveaux de gris ou en couleur)<br />
en un ensemble de régions compactes et homogènes.<br />
Dès la première numérisation d’un examen radiologique, on a été tenté d’effectuer <strong>des</strong> mesures<br />
sur les différents organes présents dans une image. Les premières métho<strong>des</strong> utilisées, empruntées<br />
au domaine d’imagerie satellitaire, opéraient dans un espace bidimensionnel. Elles interviennent<br />
dans plusieurs étapes du processus de prise de décision pour calculer le volume d’une tumeur,<br />
localiser la position d’une lésion ou d’un organe dans le repère anatomique lié à un patient,<br />
planifier une intervention chirurgicale ou encore pour guider le chirurgien lors d’une intervention...<br />
1 La classification n’a pu être intégrée dans cette introduction faute de temps. Néanmoins le lecteur peut<br />
consulter l’article ([Tarault et al., 2004]).
1.1 Analyse <strong>des</strong> <strong>images</strong> médicales 5<br />
Une <strong>des</strong> classifications possibles <strong>des</strong> métho<strong>des</strong> de segmentation consiste à les catégoriser<br />
fonctionnellement en métho<strong>des</strong> déterministes et métho<strong>des</strong> itératives.<br />
Les métho<strong>des</strong> déterministes consistent à «convoluer» une image I avec un filtre pre-défini F<br />
(I ∗ F ). Le résultat d’une telle opération est une image binaire représentant généralement <strong>des</strong><br />
contours plus ou moins fermés. La littérature nous offre un grand nombre de filtres présentant<br />
<strong>des</strong> propriétés intrinsèques différentes et une robustesse au bruit variable [Kunt et al., 1993].<br />
Parmi les métho<strong>des</strong> déterministes on peut citer une partie <strong>des</strong> métho<strong>des</strong> fondées sur le<br />
seuillage et les métho<strong>des</strong> fondées sur la morphologie mathématique.<br />
Le seuillage consiste à trouver les paramètres pour caractériser une région ([Sahoo et al.,<br />
1988]). Ces valeurs qui correspondent à un niveau de gris serviront à partitionner une image en<br />
deux régions. Les métho<strong>des</strong> déterministes utilisées pour calculer ce seuil font appel à l’analyse<br />
de l’histogramme <strong>des</strong> intensités de l’image à segmenter (Fig. 1.4). Si l’on veut traiter plus d’une<br />
région dans une image, plusieurs seuils peuvent être utilisés. On parle alors de multi-seuillage (Fig.<br />
1.5). Généralement, ces seuils sont choisis de façon interactive à l’aide d’une interface graphique<br />
Homme-Machine. Les Systèmes d’Aide au Diagnostic, dits en anglais CAR, CAD et CAS, pour<br />
Computed Aided Radiology, Decision, Surgery fournissent l’environnement logiciel adéquat.<br />
Fig. 1.4 Estimation <strong>des</strong> seuils séparant deux distributions.<br />
La morphologie mathématique propose une théorie et <strong>des</strong> opérateurs que l’on peut appliquer<br />
localement dans les <strong>images</strong> pour extraire et modifier <strong>des</strong> formes. Un exemple d’application à
6 Introduction<br />
<strong>des</strong> <strong>images</strong> médicales pour segmenter <strong>des</strong> structures anatomiques est présenté par [Höhne and<br />
Hanson, 1992]. Une illustration de techniques combinant la restauration d’<strong>images</strong>, la morphologie<br />
mathématique et les modèles déformables est présentée dans [Grimson et al., 1997].<br />
: [-1500, +350]<br />
: [+350, +940]<br />
: [+940, +980]<br />
: [+980, +1100]<br />
: [+1100, +2200]<br />
Intervalles de seuillage<br />
: [-2500, -870]<br />
: [-870, -250]<br />
: [-250, -200]<br />
: [-200, +200]<br />
: [+200, +2200]<br />
Intervalles de seuillage<br />
Coupe Axiale<br />
Coupe Axiale<br />
Multiseuillage<br />
Multiseuillage<br />
Fig. 1.5 Résultats d’un multiseuillage avec étiquetage <strong>des</strong> régions.<br />
Les métho<strong>des</strong> déterministes souffrent d’une faible robustesse en présence de bruit dans les<br />
<strong>images</strong>. De plus, la plupart <strong>des</strong> métho<strong>des</strong> de filtrage traite la totalité d’une image, alors que le<br />
radiologue ne s’intéresse souvent qu’à une seule portion de celle-ci.<br />
Nombre de métho<strong>des</strong> dites itératives ont été proposées pour résoudre le problème de la<br />
segmentation. Cette classe de métho<strong>des</strong> respecte un schéma fixe : partir d’une solution initiale,<br />
puis à l’aide d’un critère précis faire évoluer l’algorithme jusqu’à ce qu’une condition prédéfinie<br />
soit satisfaite. Dans cette classe on peut intégrer la croissance de région, les modèles déformables<br />
2D (contours actifs) (Fig. 1.6) et 3D (Fig. 1.7). La particularité de ce type de métho<strong>des</strong> se situe<br />
dans le critère d’évolution de l’algorithme. Ce critère, dit d’appartenance dans le cas de croissance<br />
de région et d’évolution dans le cas <strong>des</strong> modèles déformables, fait appel à <strong>des</strong> techniques soit<br />
statistiques (entropie,..) soit stochastiques (modèles markoviens). Un autre avantage apporté par<br />
l’utilisation de critères itératifs est la possibilité d’intégrer <strong>des</strong> informations a priori comme <strong>des</strong><br />
contraintes topologiques ou iconiques.<br />
Une autre classification <strong>des</strong> métho<strong>des</strong> de segmentation consiste à distinguer les approches
1.1 Analyse <strong>des</strong> <strong>images</strong> médicales 7<br />
Fig. 1.6 Étapes de la segmentation par contours actifs.
8 Introduction<br />
«données» <strong>des</strong> approches «modèles». Le seuillage et l’approche région feront alors partie de la<br />
première catégorie et les modèles déformables appartiendront à la deuxième.<br />
Fig. 1.7 Segmentation par modèles déformables 3D.<br />
Bien sûr, il est toujours possible de considérer d’autres critères de classification, mais nous<br />
avons préféré nous contenter d’évoquer, de façon <strong>non</strong>-exhaustive, les métho<strong>des</strong> les plus utilisées<br />
pour donner une idée précise de l’utilité <strong>des</strong> métho<strong>des</strong> de segmentation appliquées à l’analyse <strong>des</strong><br />
<strong>images</strong> médicales. On ne dispose toujours pas dans ce domaine d’une méthode générique. Les<br />
<strong>images</strong> médicales sont, sans aucun doute, les plus riches en information et les organes présentent<br />
<strong>des</strong> variations considérables avec <strong>des</strong> problèmes spécifiques. Les seules solutions qui donnent <strong>des</strong><br />
résultats convaincants aujourd’hui sont <strong>des</strong> métho<strong>des</strong> dédiées. Cependant les solutions proposées<br />
pour traiter un type d’organes ne sont généralement pas applicables aux autres. Pour s’en per-<br />
suader, il suffit au lecteur d’imaginer la différence structurelle et iconique qui existe entre le foie<br />
et le cerveau par exemple.<br />
1.1.2 <strong>Recalage</strong><br />
En imagerie médicale, le mot recalage est apparu dans le courant <strong>des</strong> années soixante-dix.<br />
Le recalage est le processus qui vise à apparier <strong>des</strong> données provenant de sources différentes. Au
1.1 Analyse <strong>des</strong> <strong>images</strong> médicales 9<br />
début, son utilisation se limitait à la seule comparaison <strong>des</strong> examens acquis avec un décalage<br />
temporel. Ces examens provenaient d’une même modalité, en l’occurrence la tomodensitométrie.<br />
Ce type de recalage dit monomodal avait pour but une évaluation post-traitement. Les cliniciens<br />
peuvent ainsi évaluer la pertinence d’un traitement en comparant les variations du volume <strong>des</strong><br />
lésions traitées. Par contre, le besoin de représenter conjointement <strong>des</strong> informations provenant<br />
de plusieurs modalités d’acquisition n’est apparu que vers la fin <strong>des</strong> années 70, avec l’arrivée<br />
de l’IRM. Ce sont à la fois les propriétés physiques et le rendu de ces types de modalités qui<br />
ont poussé les chercheurs à combiner les informations fournies par ces techniques, pour pallier le<br />
manque d’imageur couvrant tous les aspects d’une forme étudiée. Ce recalage est dit structurel<br />
<strong>multimodal</strong>, puisque les modalités sollicitées ne mettent en exergue que la structure anatomique<br />
<strong>des</strong> zones étudiées (Fig. 1.8). Il intervient davantage dans l’évaluation pré et post-opératoire que<br />
dans les comparaisons diachroniques.<br />
Fig. 1.8 Illustration du recalage Multimodal Structurel : alignement d’une image<br />
TDM sur une image IRM.<br />
Récemment les chercheurs se sont intéressés à un nouveau type de recalage dit structu-<br />
rel/fonctionnel, qui fait appel à la fois à <strong>des</strong> modalités structurelles et fonctionnelles comme son<br />
nom l’indique (Fig. 1.9). L’imagerie cérébrale a été et reste le domaine le plus consommateur de<br />
ce type de recalage. Par exemple, pour traiter un patient épileptique, aussi bien le CT-scanner<br />
l’IRMf où la scintigraphie sont utilisés.<br />
La compréhension <strong>des</strong> processus physiologiques cérébraux passe aussi par le recalage struc-<br />
turel/fonctionnel. On peut alors associer une activation cérébrale à une structure.
10 Introduction<br />
Fig. 1.9 Illustration du recalage Multimodal Structurel-Fonctionnel : alignement<br />
d’une image TEP (fonctionnelle) sur une image IRM-T2(structurelle).<br />
Il existe aussi la classe de recalage dite recalage données/atlas. Pour <strong>des</strong> besoins plus liés à la<br />
détection d’anomalies, les données provenant soit d’un seul imageur, soit d’une fusion multimo-<br />
dale, sont recalées avec un atlas numérique préalablement établi. L’utilisation de l’atlas peut aussi<br />
servir de critère de recalage comme c’est le cas pour l’atlas de Talairach/Tournoux ([Talairach<br />
and Tournoux, 1988])(Fig. 1.10).<br />
Finalement, on peut évoquer le recalage multi-sujets. La fusion de données provenant de<br />
sujets différents est utile pour la construction d’atlas anatomiques et pour d’éventuelles étu<strong>des</strong><br />
statistiques sur une population. Ce type de recalage est d’autant plus intéressant qu’il constitue<br />
la brique de base de la detection automatique <strong>des</strong> anomalies.<br />
Notre travail porte sur le recalage <strong>multimodal</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> médicales, nous aborde-<br />
rons plus en détail ce problème dans les chapitres qui suivent.<br />
1.2 Sur les applications cliniques<br />
Les différentes métho<strong>des</strong> d’analyse évoquées précédemment présentent une aide précieuse<br />
pour l’établissement d’un traitement efficace. La segmentation et le recalage sont deux concepts<br />
étroitement liés car la solution de l’un participe à mieux résoudre l’autre. La segmentation peut<br />
être vue comme une application particulière du recalage. Mettre en correspondance un atlas
1.2 Sur les applications cliniques 11<br />
Fig. 1.10 Illustration du recalage <strong>multimodal</strong> données/atlas : alignement d’un<br />
volume TDM sur l’atlas anatomique de Talairach-Tournoux.
12 Introduction<br />
anatomique avec <strong>des</strong> données du patient produit une segmentation globale. Dans un autre sens,<br />
à supposer que l’on puisse segmenter toutes les structures anatomiques présentes dans les <strong>images</strong><br />
à recaler, le recalage serait alors réduit à un alignement direct : la mise en correspondance<br />
d’amers 2 géométriques étant une tâche assez simple.<br />
Dans ce paragraphe nous citerons quelques applications cliniques où ces métho<strong>des</strong> d’analyses<br />
sont utilisées.<br />
1.2.1 Diagnostic et décision thérapeutique<br />
Le diagnostic est l’acte médical qui permet de déceler l’origine de la souffrance d’un malade<br />
avant de lui prescrire un traitement thérapeutique approprié. Aujourd’hui, les modalités d’acqui-<br />
sition sont largement utilisées pour aider à cette tâche de diagnostic. Les techniques d’analyse<br />
d’<strong>images</strong> telles que la segmentation ou le recalage sont alors utilisées pour quantifier l’information<br />
fournie par ces imageurs. Pour illustrer notre propos, pre<strong>non</strong>s l’exemple <strong>des</strong> nodules pulmonaires<br />
(Fig. 1.11). Dans un premier temps, un ensemble d’acquisitions sont effectuées pour localiser le<br />
nodule, repérer sa nature et quantifier son volume. Une fois ces trois paramètres connus, une<br />
décision thérapeutique est alors envisageable. Selon la nature du nodule (vascularisé ou <strong>non</strong>), sa<br />
position et son volume, on décide de procéder à une intervention chirurgicale ou à un traitement<br />
par radiothérapie.<br />
(a) Localisation du nodule pulmonaire, reconstruction<br />
3D de son volume et du poumon gauche<br />
(b) Calcul du volume du nodule pulmonaire<br />
Fig. 1.11 Intérêt de l’imagerie et de l’analyse quantitative <strong>des</strong> données pour l’établissement<br />
du diagnostic : cas <strong>des</strong> nodules pulmonaires.<br />
2 un amer est un objet identifiable dans une image : point, ligne, surface...
1.2 Sur les applications cliniques 13<br />
1.2.2 Planification et simulation <strong>des</strong> interventions chirurgicales<br />
Toute intervention chirurgicale requiert la localisation précise <strong>des</strong> organes où lésions à traiter,<br />
et ce afin de permettre au chirurgien d’opérer sans altérer les structures adjacentes saines. Dans<br />
un stade pré-opératoire toutes les données requises pour identifier et étudier une anomalie sont<br />
réunies. Une fusion de ces informations est indispensable pour rendre aisée la localisation de<br />
la zone d’intérêt. La visualisation tridimensionnelle <strong>des</strong> données recalées permet au praticien<br />
de mieux définir par la suite sa stratégie thérapeutique. La segmentation intervient comme un<br />
moyen de représenter les organes et les lésions dans leur forme réelle en 3D, et permet alors<br />
au praticien de disposer de toutes les informations topologiques sur une forme anatomique. Si<br />
(a) Atlas pulmonaire (b) <strong>Recalage</strong> atlas pulmonaire/poumon segmenté<br />
Fig. 1.12 Collaboration segmentation-recalage pour la planification <strong>des</strong> interventions<br />
chirurgicales du poumon<br />
l’on reprend l’exemple donné dans la section précédente, la décision prise était de procéder à<br />
une extraction du nodule pulmonaire par chirurgie. Étant donné que le poumon est constitué<br />
de plusieurs lobes, il est d’une grande importance de savoir dans quel lobe loge le nodule, et de<br />
savoir si ce dernier se chevauche sur deux lobes adjacents (Fig. 1.12). Une fois ces informations<br />
réunies, le chirurgien peut alors décider comment exécuter son geste.<br />
Une autre application illustrative du besoin d’analyse d’<strong>images</strong> en planification chirurgicale<br />
est l’hépatectomie virtuelle. Comme c’est le cas pour le poumon, le foie se compose de différents<br />
segments, qui sont au nombre de huit. Lorsqu’un patient souffre d’un cancer du foie, avant<br />
de décider de l’acte thérapeutique approprié, une hépatectomie virtuelle permet d’étudier les<br />
différents aspects de la pathologie. La figure 1.13 montre un étiquetage ainsi que les différents<br />
volumes <strong>des</strong> segments hépatiques.
14 Introduction<br />
Fig. 1.13 Segmentation hépatique pré-opératoire pour la planification <strong>des</strong> interventions<br />
sur le foie
1.3 Contribution 15<br />
1.2.3 De la navigation chirurgicale per-opératoire<br />
La navigation chirurgicale per-opératoire est un champ de recherche nouveau et prometteur<br />
de la pratique médicale moderne. Elle fait appel en plus <strong>des</strong> métho<strong>des</strong> d’analyse d’<strong>images</strong> clas-<br />
siques à la robotique chirurgicale et aux métho<strong>des</strong> de réalité augmentée. Lors d’une intervention<br />
chirurgicale, le praticien peut désormais disposer d’informations ajoutées sur le corps du pa-<br />
tient ; informations auxquelles il ne peut accéder sauf à procéder à <strong>des</strong> techniques de chirurgie<br />
très invasives.<br />
Dans le cadre de nos travaux sur les nephrolithotomies percutanées, nous avons développé un<br />
module de réalité augmentée per-opéraoire, où <strong>des</strong> segmentations volumiques <strong>des</strong> calculs rénaux,<br />
du rein, <strong>des</strong> crêtes iliaques, <strong>des</strong> son<strong>des</strong> et de la 12 ième cote sont projetés sur le corps du patient<br />
afin de guider le chirurgien lors de son intervention (Fig. 1.14). La procédure est accessible sur<br />
le site : (http://www.france5.fr/fetescience/W00118/9/97451.cfm).<br />
Un autre exemple illustratif de l’importance <strong>des</strong> métho<strong>des</strong> d’analyse d’<strong>images</strong> dans la na-<br />
vigation per-opératoire concerne les biopsies crâniennes (Fig. 1.15). Dans une salle d’opération<br />
équipée d’un système de stéréotaxie, on peut désormais acquérir <strong>des</strong> données temps-réel du pa-<br />
tient par radiographie à courte distance (fluoroscopy). Ces <strong>images</strong> sont alors fusionnées avec <strong>des</strong><br />
<strong>images</strong> pré-opératoires (angiographie, TDM. . .) pour détecter la position de la lésion ainsi que<br />
son volume. Dans ce cadre, on fait aussi bien appel aux fusions 3D/2D et 3D/3D qu’aux modèles<br />
de segmentation volumique et de réalité augmentée.<br />
1.3 Contribution<br />
Mes efforts de recherche en imagerie 3D médicale ont concerné aussi bien la segmentation que<br />
la classification ou le recalage. Cependant, le problème du recalage d’<strong>images</strong> constitue le «centre<br />
de gravité» de mes travaux. Ce document s’intéresse en particulier à ce problème.<br />
Pourquoi une thèse de plus sur le recalage <strong>des</strong> <strong>images</strong> médicales ?<br />
Le problème du recalage, bien qu’il ait bénéficié d’une attention particulière de la part <strong>des</strong><br />
chercheurs, n’est hélas pas complètement résolu [Pluim et al., 2003]. Avant d’expliquer notre<br />
démarche méthodologique, donnant les limitations <strong>des</strong> algorithmes actuels :<br />
1. Les métho<strong>des</strong> de recalage fondées sur une approche iconique (i.e les métho<strong>des</strong> automa-<br />
tiques qui utilisent la seule intensité comme primitive de recalage) se limitent encore au<br />
cadre <strong>rigide</strong>.<br />
2. Les métho<strong>des</strong> iconiques nécessitent un temps de calcul conséquent dû à l’évaluation de<br />
l’histogramme conjoint <strong>des</strong> <strong>images</strong> à recaler.
16 Introduction<br />
(a) Segmentation 3D-NLPC : Corps, rein, son<strong>des</strong>,<br />
lithiases, crêtes iliaques, 12ème cote.<br />
(c) Segmentation 3D-NLPC : calibration.<br />
(b) Segmentation 3D-NLPC : position au bloc -<br />
Sonde, projection du corps, du rein, de la lithiase,<br />
<strong>des</strong> repères<br />
(d) Segmentation 3D-NLPC : position au bloc.<br />
Projection 3D et gaine du néphroscope.<br />
Fig. 1.14 Utilisation de la Réalité Augmentée dans la planification chirurgicale<br />
de nephrolithotomies percutanées
1.3 Contribution 17<br />
(a) Coupe de Radiographie à courte distance<br />
(fluoroscopie) acquise en temps réel lors de la<br />
biopsie<br />
(c) Calcul de la position dans le volume IRM recalé<br />
préalablement.<br />
(b) <strong>Recalage</strong> 2D/3D fluoroscopie-TDM.<br />
(d) Calcul de la trajectoire de la biopsie.<br />
Fig. 1.15 <strong>Recalage</strong> dans un environnement stéréotaxique pour le contrôle de biopsies.
18 Introduction<br />
3. Les algorithmes proposés dans la littérature, dédiés au recalage <strong>non</strong> <strong>rigide</strong>, se fondent, dans<br />
leur majorité, sur une approche géométrique qui nécessite une étape de segmentation <strong>des</strong><br />
structures homologues avant l’appariement de ces structures (i.e le recalage proprement<br />
dit). Ceci rend le résultat du recalage dépendant du résultat de segmentation et limite son<br />
application au recalage <strong>multimodal</strong> structurel puisque la segmentation <strong>des</strong> <strong>images</strong> fonction-<br />
nelles n’est souvent pas réalisable. Les algorithmes automatiques fondés sur une approche<br />
iconique sont encore rares et souffrent d’un temps de calcul conséquent.<br />
Le but de cette thèse est d’étendre l’approche iconique du recalage, qui se fonde sur l’analyse<br />
de l’histogramme conjoint <strong>des</strong> <strong>images</strong>, au recalage <strong>non</strong>-<strong>rigide</strong>. Le problème qui se pose alors est<br />
le temps de calcul conséquent que nécessite le calcul <strong>des</strong> critères iconiques et <strong>des</strong> histogrammes<br />
conjoints.<br />
Pour pallier ce problème nous avons procéder de la manière suivante :<br />
1. Définir le cadre théorique du recalage <strong>des</strong> <strong>images</strong> médicales.<br />
2. Explorer les mesures de similarité existantes dans la littérature et étudier plus spécifique-<br />
ment les critères iconiques.<br />
3. Entreprendre une étude théorique sur la notion de similarité en théorie de l’information et<br />
proposer un nouveau critère approprié au recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong>.<br />
4. Présenter le cadre théorique de l’estimation <strong>des</strong> densités de probabilité et proposer un<br />
estimateur <strong>non</strong>-paramétrique dédié au calcul de l’histogramme conjoint <strong>des</strong> <strong>images</strong>.<br />
5. Concevoir et mettre en œuvre un algorithme générique automatique de recalage <strong>non</strong>-<strong>rigide</strong><br />
<strong>multimodal</strong> <strong>des</strong> <strong>images</strong> médicales.<br />
6. Valider le critère de similarité en participant à une campagne d’évaluation retrospective<br />
afin d’identifier les limitations de l’approche dans un cadre clinique.<br />
7. Valider dans un cadre clinique l’algorithme développé.<br />
1.3.1 Organisation du document<br />
Étant donnés les sept thèmes principaux constituant le travail de ce mémoire, ce dernier<br />
s’organise naturellement de la manière suivante :<br />
– Le chapitre 2 dresse les fondements théoriques du recalage <strong>des</strong> <strong>images</strong> médicales. Deux<br />
approches principales seront abordées : l’approche géométrique et l’approche iconique. Un<br />
accent particulier sera mis sur les mesures de similarité qui se fonde sur la théorie de<br />
l’information. Nous finirons ce chapitre en identifiant les limitations de ces métho<strong>des</strong>.
1.3 Contribution 19<br />
– Le chapitre 3 aborde le problème du recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> médicales. Nous pré-<br />
senterons alors une courte bibliographie <strong>des</strong> méthode utilisées dans la littérature, et iden-<br />
tifierons le cadre théorique de ce type de recalage.<br />
– Le chapitre 4 est sans doute le plus important de ce mémoire. Notre objectif est de donner<br />
le cadre théorique de la notion de mesure de similarité afin de proposer un nouveau critère<br />
adapté au problème du recalage <strong>non</strong>-<strong>rigide</strong>. Dans ce chapitre nous définirons une classe de<br />
mesures de similarité dont nous retiendrons un critère qui s’applique de façon appropriée<br />
au recalage <strong>multimodal</strong> <strong>non</strong>-<strong>rigide</strong>.<br />
– Le chapitre 5 étudie les métho<strong>des</strong> d’estimation <strong>des</strong> densités de probabilité en vue de l’accélé-<br />
ration du calcul de l’histogramme conjoint, et présente notre choix du modèle d’estimation.<br />
– Le chapitre 6 présente de façon détaillée notre algorithme de recalage. Une spécification<br />
complète sera alors donnée. Elle concernera les différents développements théoriques abor-<br />
dés dans les chapitres précédents qui trouveront alors une traduction algorithmique.<br />
– Le chapitre 7 propose différentes évaluations de notre algorithme. La première est une éva-<br />
luation objective de notre critère de similarité à partir de la base de données «Vanderbilt».<br />
Cette évaluation concerne le cadre <strong>rigide</strong> du recalage. La deuxième évaluation concerne le<br />
cadre <strong>non</strong>-<strong>rigide</strong> du recalage.<br />
– Enfin, dans le chapitre 8 nous présenterons quelques applications cliniques de notre algo-<br />
rithme.
Chapitre 2<br />
<strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements<br />
théoriques<br />
2.1 Introduction<br />
Pour mieux comprendre le problème du recalage <strong>des</strong> <strong>images</strong>, en général, et médicales en<br />
particulier, nous nous proposons de commencer par un petit exemple :<br />
Fig. 2.1 Illustration simplifiée du problème de recalage<br />
Soient M et N, deux <strong>images</strong> d’une même scène, acquises par un capteur C (Fig. 2.1). Sup-<br />
posons que les deux acquisitions aient été effectuées à <strong>des</strong> instants différents, et qu’entre-temps<br />
la position du capteur ait changé.<br />
L’opération du recalage consiste à trouver la transformation géométrique T(.) qui relie les<br />
coordonnées x, évoluant dans l’espace VM, aux coordonnées y, appartenant à VN, tel que :<br />
21
22 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
x = T(y)<br />
Un exemple de transformation T est la transformation <strong>rigide</strong> qui a largement été utilisée en<br />
recalage d’<strong>images</strong> cérébrales. Elle s’écrit :<br />
T(x, y, z) = T (x, y, z) t + R(x, y, z) t , (2.1)<br />
où T est un vecteur de translation et R est une matrice (3 × 3) de rotation.<br />
L’espace ainsi que la nature de la transformation géométrique sont deux paramètres impor-<br />
tants dans le recalage <strong>des</strong> <strong>images</strong>. Ils dépendent généralement de l’application médicale et de<br />
la méthode d’acquisition. Ici, nous n’émettons aucune hypothèse sur ces deux paramètres, nous<br />
traitons le recalage dans son cadre général. Le chapitre 3 concerne les déformations géométriques<br />
<strong>des</strong> <strong>images</strong> médicales ; cet aspect y est étudié plus en détail.<br />
Pour mieux illustrer notre exemple, considérons le cas réel où pour suivre l’évolution d’une<br />
pathologie, le radiologue effectue <strong>des</strong> acquisitions TDM différées dans le temps (Fig. 2.2). Dans<br />
le cas étudié, le recalage est utilisé pour le suivi de l’évolution d’une métastase hépatique traitée<br />
par chimiothérapie [Osorio et al., 2001].<br />
2.2 Approche géométrique du recalage<br />
La méthode de recalage la plus intuitive consiste à identifier, dans les deux <strong>images</strong>, les struc-<br />
tures communes, puis à les mettre en correspondance. Ces structures peuvent être <strong>des</strong> primitives<br />
géométriques quelconques comme les points, les surfaces, les volumes, les hypersurfaces. . .. Dans<br />
ce qui suit nous exposons le cadre théorique régissant les deux premières primitives.<br />
2.2.1 Mise en correspondance <strong>des</strong> points<br />
Soient X = {xi} et Y = {yi} où i = 1 . . . K, K paires de points de correspondance extraites<br />
<strong>des</strong> deux <strong>images</strong> (Fig. 2.3). Les paramètres de la transformation géométrique sont trouvés en<br />
minimisant une distance quadratique entre chaque couple de points dans le sens <strong>des</strong> moindres<br />
carrés :<br />
Dp(T) =<br />
K<br />
||xi − T(yi)|| 2<br />
i=1<br />
La littérature nous offre un grand nombre de métho<strong>des</strong> fondées sur cette approche. La plus<br />
populaire est celle utilisant la décomposition <strong>des</strong> valeurs singulières ([Fitzpatrick and West, Feb.<br />
2000]).
2.2 Approche géométrique du recalage 23<br />
(a) Acquisition-1- TDM du foie et<br />
mesure du volume initial de la<br />
métastase, date d’acquisition 21-<br />
Février-2001<br />
(a) Acquisition-2- TDM du foie et<br />
mesure du volume de la métastase,<br />
date d’acquisition 14-Mai-2001<br />
(b) Acquisition-3- TDM du foie et<br />
mesure du volume de la métastase,<br />
date d’acquisition 2-Avril-2001<br />
Fig. 2.2 Suivi d’un patient traité par chimiothérapie.
24 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
Fig. 2.3 Extraction de points homologues<br />
La difficulté posée dans le cadre de ce type de recalage est l’identification <strong>des</strong> paires de points<br />
correspondants. Deux approches se distinguent : approches manuelles et approches automatiques.<br />
L’identification manuelle <strong>des</strong> primitives géométriques est la méthode la plus utilisée en image-<br />
rie médicale. Se basant sur l’expertise du radiologue, ces primitives sont extraites puis labelisées.<br />
Un grand nombre de Systèmes d’Aide au Diagnostic proposent <strong>des</strong> interfaces graphiques pour<br />
identifier ces primitives. Une preuve de leur succès est l’intégration dans la boite à outils «trai-<br />
tement d’<strong>images</strong>» MATLAB d’une interface pour le recalage par identification interactive <strong>des</strong><br />
points d’intérêt.<br />
Ces points d’intérêt peuvent être de nature intrinsèque ou extrinsèque. Les repères intrin-<br />
sèques sont <strong>des</strong> zones propres à l’anatomie du patient ; ils sont dans ce sens assujettis aux défor-<br />
mations locales <strong>des</strong> organes. Les repères extrinsèques sont <strong>des</strong> objets étrangers au corps humain,<br />
utilisés lors de l’acquisition pour fournir une invariance topologique. Le cadre stéréotaxique uti-<br />
lisé en neurochirurgie présente un exemple concret de ce type de repère (Fig. 2.4). Dans le cadre<br />
d’une étude d’évaluation retrospective <strong>des</strong> algorithmes de recalage, présentée au chapitre 7, le<br />
cadre stéréotaxique est utilisé pour déterminer la transformation de référence du recalage (gold<br />
standard) à laquelle on compare les résultats <strong>des</strong> différentes approches automatiques du recalage<br />
([West et al., 1996] ;[West et al., 1997a] ;[West et al., 1997b]).<br />
La qualité du recalage dépend du nombre de points utilisés. Plus on dispose de points plus la<br />
transformation géométrique est fine. Cependant l’identification manuelle de ces points d’intérêt<br />
est un exercice fastidieux. Naturellement, <strong>des</strong> recherches ont été orientées vers l’identification<br />
automatique de ces points d’intérêt. Ceci permet de s’affranchir de l’expertise anatomique et de<br />
disposer d’un grand nombre de points. Des modèles de déformation assez évolués peuvent alors<br />
être utilisés.
2.2 Approche géométrique du recalage 25<br />
Fig. 2.4 Acquisition TDM avec cadre stéréotaxique<br />
Plusieurs approches théoriques ont été proposées pour l’extraction et l’identification automa-<br />
tiques <strong>des</strong> points d’intérêt. Les premiers travaux remontent au début <strong>des</strong> années 80. Ils se fondent<br />
sur la notion d’invariance géométrique. Cependant, reproduire le processus humain, consistant à<br />
identifier les points communs à deux <strong>images</strong>, reste un exercice très compliqué dés que l’on veut<br />
l’automatiser. De plus, les erreurs d’extraction peuvent être très pénalisantes pour l’étape de<br />
mise en correspondance.<br />
2.2.2 Mise en correspondance de surfaces<br />
L’extraction de surfaces communes fait appel aux algorithmes de segmentation. A l’instar de<br />
l’approche fondée sur la mise en correspondance de points, le recalage s’effectue en deux étapes :<br />
la désignation dans chaque image, d’une zone d’intérêt et l’extraction de sa surface (Fig. 2.5),<br />
puis leurs mise en correspondance. Mais, une difficulté nouvelle s’ajoute : l’appariement. Les<br />
points <strong>des</strong> surfaces ne sont pas labelisés ce qui requiert l’utilisation d’une fonctionnelle nécessaire<br />
à l’identification <strong>des</strong> points homologues.<br />
Soit X = {xi}, avec i = 1 . . . K la surface extraite de l’image M.<br />
Soit Y = {yj}, avec j = 1 . . . L la surface correspondante à X extraite de l’image N.<br />
En désignant par ℘ la fonctionnelle d’appariement, la mise en correspondance revient à mi-<br />
nimiser une «distance» comme celle qui suit :
26 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
(a) Extraction du contour du crâne dans l’image cible<br />
TDM<br />
(b) Extraction du contour du crâne dans l’image source<br />
(déformée) TDM<br />
Fig. 2.5 Segmentation de surfaces homologues (contours du crâne) avant l’étape<br />
de mise en correspondance
2.2 Approche géométrique du recalage 27<br />
<br />
<br />
<br />
Ds(T) = K <br />
||xi − ℘(T(Y ), xi)|| 2<br />
i=1<br />
La fonctionnelle d’appariement ℘(T(Y ), xi) détermine le plus proche voisin yj, appartenant<br />
à la surface Y , de xi (Fig. 2.6). Contrairement à la distance Dp qui peut être calculée de façon<br />
déterministe, la fonctionnelle Ds nécessite un traitement itératif. En outre, Ds ne correspond<br />
pas à une «distance directe de recalage», à l’image de Dp, mais exprime une «mesure» qui<br />
rend compte de la transformation géométrique qui relie «au mieux» les deux surfaces, et par<br />
conséquent les deux <strong>images</strong>.<br />
Fig. 2.6 Contours représentant les objets homologues extraits à partir de deux<br />
modalités.<br />
L’aspect itératif de la fonctionnelle de recalage Ds nous astreint à utiliser une stratégie de<br />
recherche. On parle alors de procédure d’optimisation. Elle consiste à trouver le plus rapidement,<br />
dans l’ensemble Y le point yj le plus proche de xi. La méthode du plus proche voisin (ICP) est<br />
la plus utilisée dans ce cadre ([Besl and McKay, 1992]).<br />
Pour mieux comprendre les difficultés liées au recalage par mise en correspondance de surfaces,<br />
et <strong>des</strong> primitives géométriques en général, repre<strong>non</strong>s l’exemple cité précédemment. Admettons<br />
maintenant que les <strong>images</strong> M et N sont acquises par deux capteurs C1 et C2 (Figs. 2.7, 2.8).<br />
Contrairement au cas étudié jusque là, qui concernait le recalage monomodal, nous essayons ici<br />
d’illustrer la spécificité du recalage <strong>multimodal</strong> structurel.<br />
Dans ce cas, les <strong>images</strong> M et N présentent <strong>des</strong> structures communes, mais disposent chacune<br />
d’informations exclusives. De par la nature <strong>des</strong> objets de la scène et de leurs dispositions spa-<br />
tiales, l’ensemble <strong>des</strong> informations ne peut pas être mis en exergue par une seule modalité. Le<br />
problème du recalage ne se résume plus donc à une simple mise en correspondance de primitives<br />
géométriques communes, mais assure la complémentarité <strong>des</strong> <strong>images</strong>. Les surfaces résultantes
28 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
Fig. 2.7 Acquisition TDM du crâne<br />
Fig. 2.8 Acquisition IRM du crâne<br />
correspondent alors à l’intersection <strong>des</strong> surfaces extraites <strong>des</strong> <strong>images</strong> augmentée <strong>des</strong> surfaces<br />
exclusives à chaque image (Fig. 2.9).<br />
La qualité du recalage dépend de l’étape de segmentation nécessaire à l’identification <strong>des</strong>
2.2 Approche géométrique du recalage 29<br />
Fig. 2.9 Combinaison IRM/TDM recalée du crâne
30 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
structures homologues. Puisque la segmentation <strong>des</strong> <strong>images</strong> médicales présente un sujet de re-<br />
cherche difficile où il reste beaucoup à faire, il est courant qu’une étape d’ajustement manuelle<br />
soit opérée sur les points extraits afin d’éliminer les points aberrants (outliers).<br />
Le problème du recalage par mise en correspondance de surfaces se résume alors aux questions<br />
suivantes :<br />
– Comment extraire les surfaces communes ?<br />
– Quelle hypothèse doit-on émettre sur la nature de la transformation T ?<br />
– Comment apparier les points de ces surfaces ?<br />
– Quelles portions de ces surfaces faut-il utiliser pour évaluer la mesure de recalage ?(Points<br />
aberrants, erreurs de segmentation...)<br />
Plusieurs métho<strong>des</strong> ont été proposées pour répondre à chacune de ces questions. L’état de l’art<br />
publié par [Brown, 1992] regroupe, entre autre,l’ensemble <strong>des</strong> métho<strong>des</strong> utilisées pour le recalage<br />
de tous types d’<strong>images</strong>. Les états de l’art publiés ensuite par [Maintz and Viergever, 1996] [Maintz<br />
and Viergever, 1997] et [Pluim et al., 2003], concernent quant à eux, les <strong>images</strong> médicales. Ici,<br />
nous nous contentons de mettre en exergue la problématique du recalage et d’expliciter son cadre<br />
théorique.<br />
Il est à noter que d’autres primitives ont été utilisées pour le recalage <strong>des</strong> <strong>images</strong> médicales.<br />
Thirion et al. [Thirion, 1991] proposent, par exemple, la mise en correspondance de «lignes de<br />
crête» extraites de deux <strong>images</strong>.<br />
Illustrons à présent le problème du recalage <strong>multimodal</strong> fonctionnel/structurel (Fig. 2.10).<br />
Ce type de recalage, propre au domaine médical, fait appel à <strong>des</strong> modalités dont les principes de<br />
fonctionnement sont très différents.<br />
(a) IRM-T2 corrigée (b) TEP<br />
Fig. 2.10 Acquisitions IRM et TEP du cerveau d’un même patient
2.3 Approche iconique du recalage- modélisation par inférence statistique 31<br />
Dans ce problème, les <strong>images</strong> M et N représentent la même zone du cerveau, mais leurs<br />
rendus sont très différents. En effet, l’image M rend compte de l’aspect structurel du cerveau,<br />
alors que l’image N nous informe <strong>des</strong> activations cérébrales (i.e. son fonctionnement). L’image<br />
M a été acquise par IRM-T2 et l’image N par TEP.<br />
L’utilisation de modalités d’acquisition fonctionnelles introduit une difficulté de taille : l’infor-<br />
mation morphologique dans l’image N étant très pauvre, l’extraction de primitives géométriques<br />
devient alors un exercice très difficile, voire impossible dans certains cas. L’approche géométrique<br />
du recalage développée plus haut trouve alors ses limites et de nouvelles approches ont dû être<br />
inventées.<br />
2.3 Approche iconique du recalage- modélisation par inférence statistique<br />
L’approche iconique du recalage se fonde sur la comparaison locale <strong>des</strong> intensités. Les primi-<br />
tives utilisées ne sont pas, contrairement aux métho<strong>des</strong> étudiées plus haut, de nature géométrique,<br />
mais correspondent à <strong>des</strong> vecteurs 4D contenant la position et l’intensité. Elles ne nécessitent<br />
aucune extraction d’amers géométriques (i.e : aucune compréhension de la structure géométrique<br />
de l’image), ce qui leur vaut l’appellation de «métho<strong>des</strong> de bas niveau». Aucune segmentation <strong>des</strong><br />
<strong>images</strong> n’est alors nécessaire. Cette particularité les rend plus adaptées au recalage <strong>multimodal</strong><br />
<strong>des</strong> <strong>images</strong> médicales.<br />
Notons par m(x) l’intensité liée à la position x = (x, y, z) dans M, et par n(T(x)) son<br />
correspondant dans N. La relation générique entre ces voxels s’exprime :<br />
n(T(x)) = F(m(x), q) + η (2.2)<br />
Le terme F désigne la dépendance fonctionnelle entre les deux <strong>images</strong>. Elle correspond à<br />
la fonction de transfert entre les deux modalités utilisées. La variable q représente les facteurs<br />
exogènes liés à l’environnement d’acquisition (bruit de mesure, bruit de quantification, bruit<br />
biologique). La variable η correspond au bruit.<br />
Le recalage : un problème d’inférence statistique Le problème du recalage peut être<br />
vu comme un problème de maximum de vraisemblance ou de minimisation de variance [Costa<br />
et al., 1993], [Viola, 1995], [Leventon and Grimson, 1998] et [Roche et al., 2000]. La probabilité<br />
d’un voxel n d’une image N dite image «source», sachant M l’image «cible», T la transformation<br />
géométrique, q les facteurs exogènes, η le bruit, et la fonction d’imagerie F s’écrit ([Viola, 1995]) :
32 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
p(n|m, T, η, q, F ) = <br />
p [η = (n(T(x)) − F (m(x), q))] (2.3)<br />
x∈V<br />
L’hypothèse émise ici stipule que les voxels n de l’image N sont conditionnellement indépen-<br />
dants. Si les paramètres F , M, T, η et q sont connus, les voxels dans N sont indépendants. Pour<br />
un bruit gaussien, la transformation géométrique du recalage correspond au maximum de son<br />
log-vraisemblance qui s’écrit :<br />
log(l(T)) = log p(n|m, T, η, q, F ) (2.4)<br />
= <br />
log p(η = n(T(x)) − F (m(x), q)) (2.5)<br />
x∈V<br />
<br />
= −k1 (n(T(x)) − F (m(x), q)) 2<br />
x∈V<br />
(2.6)<br />
≈ −k2E[(n(T(X)) − F (n(X), q)) 2 ] (2.7)<br />
≈ −k2E[n(T(X)) 2 ] − 2E[n(T(X))F (m(X), q)] + E[F (m(X), q) 2 ] (2.8)<br />
E[.] désigne l’espérance mathématique.<br />
Les constantes k1 et k2 sont calculées à partir de la variance du bruit, supposé gaussien, et la<br />
taille du volume V . Elles n’interviennent pas dans le processus de maximisation. Dans l’expression<br />
2.7, la log-vraisemblance de la transformation T est fonction de la variance de l’image source N,<br />
de la corrélation entre l’image cible et l’image source, et de la variance de l’image cible. Pour les<br />
cas où les variances <strong>des</strong> <strong>images</strong> source et cible sont constantes, la meilleure transformation est<br />
celle qui maximise la correlation entre les deux <strong>images</strong> : E[n(T(X))F (m(X), q)].<br />
Le problème du recalage revient donc à trouver la transformation de coût minimum. Au-<br />
trement dit, la transformation au plus faible coût est celle qui exprime «au mieux» la relation<br />
géométrique entre l’image source N, et l’image cible M. Cette fonction peut s’écrire :<br />
C(T) = E[(n(T(X)) − F (m(X), q)) 2 ] (2.9)<br />
∝ − log l(T) (2.10)<br />
En réalité, le volume V dans lequel sont tirées les variables aléatoires x, correspond au volume<br />
de l’image «cible». L’espérance mathématique revient donc au calcul d’une moyenne empirique
2.3 Approche iconique du recalage- modélisation par inférence statistique 33<br />
faisant intervenir tous les points du volume Vm. La fonctionnelle de recalage s’écrit alors :<br />
S(T) = 1<br />
Vm<br />
Vm<br />
S(m(xi), n(T(xi))) (2.11)<br />
i=1<br />
La recherche de la relation spatiale entre les structures communes dans les <strong>images</strong> passe<br />
d’abord par l’évaluation de la dépendance entre les intensités de ces structures. La fonctionnelle<br />
S exprime la ressemblance <strong>des</strong> deux <strong>images</strong> et revient à une mesure de similarité -dissimilarité- qui<br />
tend à évaluer la fonction F soit directement, en utilisant <strong>des</strong> modèles linéaires ou <strong>non</strong>-linéaires,<br />
soit indirectement via <strong>des</strong> modèles statistiques.<br />
2.3.1 Conservation d’intensité<br />
La conservation d’intensité repose sur l’hypothèse que les intensités <strong>des</strong> <strong>images</strong> sont appa-<br />
rentées par une fonction identité : m = n. La mesure de similarité est donnée par la différence<br />
absolue <strong>des</strong> voxels <strong>des</strong> <strong>images</strong>.<br />
SDA(T) = 1<br />
Vm<br />
Vm<br />
||m(xi) − n(T(xi))|| (2.12)<br />
i=1<br />
L’utilisation de cette mesure de similarité suppose que les deux <strong>images</strong> sont exprimées dans<br />
la même échelle d’intensité et que les régions (organes) ont la même réponse impulsionnelle aux<br />
signaux <strong>des</strong> capteurs. Ceci ne peut être vrai que si l’on utilise la même modalité (Fig. 2.11) et<br />
en l’absence <strong>des</strong> facteurs exogènes évoqués précédemment.<br />
Une autre mesure de similarité peut être dérivée de l’hypothèse de conservation d’intensité<br />
qui est la somme <strong>des</strong> différences d’intensités au carré :<br />
SDC(T) = 1<br />
Vm<br />
Vm<br />
(m(xi) − n(T(xi))) 2 . (2.13)<br />
Cette mesure de similarité est dérivée directement de l’équation 2.8.<br />
i=1<br />
Les deux mesures de similarité détaillées ci-<strong>des</strong>sus peuvent être exprimées en fonction de<br />
l’histogramme conjoint <strong>des</strong> <strong>images</strong> cible et source.<br />
Notons pm,n les probabilités conjointes et pm et pn les probabilités marginales calculées à<br />
partir de l’histogramme conjoint.
34 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
(a) Image cible (b) Image source<br />
(c) Histogramme conjoint <strong>des</strong> <strong>images</strong> <strong>non</strong> recalées (d) Histogramme conjoint <strong>des</strong> <strong>images</strong> recalées<br />
Fig. 2.11 Illustration de la dépendance linéaire T=rotation de 45˚, F=I (identité)
2.3 Approche iconique du recalage- modélisation par inférence statistique 35<br />
Les deux formules s’expriment alors :<br />
Et pour la somme <strong>des</strong> différences au carré :<br />
SDA(T) = <br />
pm,n||(m − n)||. (2.14)<br />
m,n<br />
SDC(T) = <br />
pm,n(m − n) 2 . (2.15)<br />
m,n<br />
Le calcul de ces deux mesures de similarité ne nécessite pas le calcul de l’histogramme. Leur<br />
expression en fonction <strong>des</strong> probabilités conjointes est donnée ici pour illustrer la dépendance<br />
entre les <strong>images</strong>.<br />
L’hypothèse forte de conservation d’intensité astreint l’utilisation de ces mesures de simila-<br />
rité au cas monomodal du recalage. Leur utilisation a été souvent utilisée pour la comparaison<br />
d’<strong>images</strong> monomodales dans l’étude d’évolution de pathologies.<br />
2.3.2 Dépendance affine<br />
Même dans le cas le plus simple de recalage consistant à aligner <strong>des</strong> <strong>images</strong> IRM d’une même<br />
séquence, l’hypothèse de conservation d’intensité n’est pas satisfaite. Les pixels <strong>des</strong> <strong>images</strong> sont<br />
liés, dans ce cas, par une fonction linéaire. Plus généralement les voxels m et n sont reliés par la<br />
fonction affine :<br />
n(T(x)) = α.m(x) + β (2.16)<br />
Le cas linéaire correspond à β = 0. Une mesure de similarité adaptée à ce cas de figure est la<br />
corrélation.<br />
Définition :<br />
– La corrélation mesure le degré de relation (liaison) qui unit deux (ou plusieurs) variables.<br />
– Elle se calcule sur une série statistique double (ou multiple).<br />
– Elle n’implique pas de relation causale (dépendance directe -conservation d’intensité-).<br />
Dans la littérature, nous relevons deux classes de corrélation :<br />
– Corrélation linéaire de Pearson (ρ)<br />
– Corrélation de rang de Kendall (τ)<br />
Celle qui correspond à notre problématique est la corrélation linéaire de Pearson. Elle<br />
mesure le degré de liaison linéaire entre deux variables quantitatives aléatoires de distribution<br />
normale. Elle correspond à la covariance calculée sur les données centrées-réduites.
36 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
(a) Image cible (b) Image source<br />
(c) Histogramme conjoint <strong>des</strong> <strong>images</strong> <strong>non</strong> recalées (d) Histogramme conjoint <strong>des</strong> <strong>images</strong> recalées<br />
Fig. 2.12 Illustration de la dépendance linéaire T=rotation de 45˚,<br />
F(x)=0.5*x+20
2.3 Approche iconique du recalage- modélisation par inférence statistique 37<br />
Si on note par SM,N la matrice de covariance <strong>des</strong> <strong>images</strong> M et N, la corrélation de Pearson<br />
s’écrit :<br />
N.<br />
ρ(T) = SM,N<br />
SMSN<br />
=<br />
Q i=1 (m(xi) − m).(n(T(xi )) − n)<br />
<br />
Q<br />
i=1 (m(xi) − m) 2 . Q i=1 (n(T(xi )) − n)2<br />
(2.17)<br />
ou m et n désignent respectivement les moyennes <strong>des</strong> niveaux de gris dans les <strong>images</strong> M et<br />
En réalité, la corrélation de Pearson, ρ(T), est la version normalisée de la fonction coût<br />
C(T) exposée plus haut, sous hypothèse de dépendance affine :<br />
NC(T) = E[(n(T(X)) − m(X)) 2 ] (2.18)<br />
Ici, du fait de la relation affine entre les signaux, ce sont leurs versions normalisées qui sont<br />
utilisées :<br />
m(x) =<br />
m(x) − E(m(X))<br />
σ(m(X))<br />
(2.19)<br />
La version normalisée d’un signal est invariante au changement d’additivité et de multiplica-<br />
tivité. La fonction de coût normalisée s’écrit :<br />
NC(T) = 1 − EV [m(X)n(T(X))] − EV [m(X)]EV [n(T(X))]<br />
σV (m(X))σV (n(T(X)))<br />
(2.20)<br />
E[.] correspond à la moyenne empirique du signal, σ(.) est son écart type. La notation .V signifie<br />
que les positions sont tirés du volume V , en l’occurrence le volume de référence Vm.<br />
Un grand nombre d’algorithmes de recalage utilisent la corrélation de Pearson, appelée<br />
communément Coefficient de corrélation.<br />
En outre, l’indicateur statistique le plus répandu est sans aucun doute la fonction de corréla-<br />
tion (voir [Peebles, 1980]). Son expression en fonction de l’histogramme conjoint <strong>des</strong> <strong>images</strong> M<br />
et N s’écrit :<br />
ρ(T) = <br />
m,n<br />
(m − m)(n − n)<br />
pm,n<br />
σmσn<br />
(2.21)<br />
Cependant, l’utilisation du coefficient de corrélation ne présente <strong>des</strong> résultats optimaux que<br />
dans le cadre monomodal. L’hypothèse de dépendance affine entre modalités différentes est sou-<br />
vent grossièrement fausse.<br />
Toutefois, il est possible d’utiliser le coefficient de corrélation dans un cadre <strong>multimodal</strong>. Il<br />
s’agit de forcer la dépendance linéaire entre les <strong>images</strong>. Ceci peut être assuré en effectuant <strong>des</strong><br />
pré-traitements aux <strong>images</strong>. Cette idée a été avancée par [Van den Elsen et al., 1994] pour le
38 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
recalage TDM/IRM. Les prétraitements opérés principalement aux <strong>images</strong> TDM consistaient<br />
en un seuillage <strong>des</strong> structures osseuses dans les deux <strong>images</strong>, suivi d’une mise en échelle <strong>des</strong><br />
intensités. Ceci étant fait, la fonctionnelle S peut être exprimée par une simple somme <strong>des</strong><br />
différences au carré, ce qui correspond à l’hypothèse de conservation d’intensité développée plus<br />
haut.<br />
2.3.3 Dépendance fonctionnelle<br />
La dépendance fonctionnelle entre les <strong>images</strong> est une hypothèse mieux adaptée à l’aspect<br />
<strong>multimodal</strong> du recalage. Les intensités <strong>des</strong> deux <strong>images</strong> sont alors <strong>images</strong> les unes <strong>des</strong> autres<br />
par une fonction g <strong>non</strong>-linéaire (monotone ou <strong>non</strong>) : m = g(n). Où g(.) = F (., q). Dans ce cas,<br />
l’opération du recalage revient à chercher, conjointement, la fonction d’imagerie, les paramètres<br />
exogènes et la transformation géométrique. La probabilité p(n|m, T, N, q, F ), quand F et q sont<br />
inconnus, peut être calculée en intégrant sur tous les paramètres :<br />
<br />
<br />
p(n|m, T, η) = p(η = n(T(x)) − F (m(x), q))p(F )p(q)dF dq (2.22)<br />
x∈V<br />
Le calcul de cette double intégrale n’est pas réalisable. En revanche, une approximation empirique<br />
peut approcher le résultat souhaitable :<br />
p(n|m, T, η) ≈ max<br />
F,q<br />
<br />
p(η = n(T(x)) − F (m(x), q))p(F )p(q) (2.23)<br />
x∈V<br />
La fonction de coût dépend alors de deux variables : T et F (., q), sa formule globale s’écrit :<br />
C(T, g) = E[(n(T(X)) − g(m(X))) 2 ] (2.24)<br />
Rappelons que la fonction g englobe les paramètres de la fonction d’imagerie F et les facteurs<br />
exogènes. Le processus de recalage s’effectue alors alternativement :<br />
1. Partant d’une estimation de la transformation géométrique T, trouver les paramètres F et<br />
q (g(.)) pour lesquels les <strong>images</strong> sont les plus proches.<br />
2. Utiliser les paramètres trouvés en 1, les fixer, et chercher la nouvelle transformation géo-<br />
métrique qui minimise la différence entre les <strong>images</strong>.<br />
L’étape 1 peut être vue comme une procédure de régression : étant donné un échantillon de<br />
co-occurrences <strong>des</strong> intensités a = {. . . {ma, na} . . .} comment peut-on estimer les paramètres de<br />
la fonction g ? Un élément de réponse consiste à minimiser la variance entre les valeurs prédites
2.3 Approche iconique du recalage- modélisation par inférence statistique 39<br />
(a) Image cible (b) Image source<br />
(c) Histogramme conjoint <strong>des</strong> <strong>images</strong> <strong>non</strong>-recalées (d) Histogramme conjoint<br />
<strong>des</strong> <strong>images</strong> recalées<br />
Fig. 2.13 Illustration de la dépendance fonctionnelle T=rotation de 45˚, m(x) =<br />
(1−cos 2πn(T (x)))<br />
2
40 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
ma = g(na) et les valeurs courantes :<br />
g ∗ = argmin<br />
g C(T = cte, g) (2.25)<br />
= argmin E[(N − g(M))<br />
g 2 ] (2.26)<br />
= argmin Var[N − g(M)]<br />
g<br />
(2.27)<br />
La variable g(M) qui minimise la fonction du coût, C(T = cte, g), correspond à l’espérance<br />
conditionnelle de M sachant N : E[N|M].<br />
avec<br />
E[N|M] = g ∗ (M)<br />
g ∗ <br />
(m) =<br />
np(n|m)dn<br />
La valeur correspondante du coût est appelée variance conditionnelle et est notée Var(N|M).<br />
Une fois que la dépendance fonctionnelle g entre les <strong>images</strong> est établie, nous nous en servons<br />
pour établir la relation géométrique. Ceci peut être effectué par l’utilisation du théorème de<br />
variance totale [Roche et al., 1998] :<br />
V ar(N) = V ar[E(N|M)] + V ar[N − E(N|M)] (2.28)<br />
La variance de l’image N est composée de la somme de deux termes : V ar[E(N|M)] qui quantifie<br />
la part de N prédite par M, et V ar[N − E(N|M)] qui mesure la part de N qui ne dépend pas<br />
(fonctionnellement) de M. Ce dernier terme est minimal si la variance de l’image N, V ar(N), est<br />
très petite, ce qui signifie que l’image contient peu d’information, ou bien si le terme V ar[N −<br />
E(N|M)] est très grand, ce qui signifie que l’image N est bien prédite par M. La variance<br />
de l’image N est calculée dans la zone de recouvrement <strong>des</strong> deux <strong>images</strong>. Minimiser le terme<br />
V ar[N − E(N|M) peut conduire à déconnecter les deux <strong>images</strong> (problème du recouvrement<br />
partiel).<br />
Il semble donc raisonnable de comparer la part de N prédite par M avec la variance de N,<br />
ce qui donne le rapport de corrélation :<br />
C(N/M) =<br />
V ar[E(N|M)]<br />
V ar(N)<br />
V ar[N − E(N|M)<br />
⇔ C(N|M) = 1 −<br />
V ar(N)<br />
(2.29)<br />
Le rapport de corrélation mesure la dépendance fonctionnelle entre les image M et N. Plu-<br />
sieurs mesures de similarité fondées sur l’heuristique de dépendance fonctionnelle s’interprètent
2.3 Approche iconique du recalage- modélisation par inférence statistique 41<br />
comme un rapport de corrélation. Nous commençons par examiner la plus connue : le critère de<br />
Woods.<br />
Critère de Woods<br />
Les travaux de Woods sont les pionniers en recalage <strong>multimodal</strong> ([Woods et al., 1991], [Woods<br />
et al., 1993]). Pour recaler <strong>des</strong> <strong>images</strong> TEP et IRM du cerveau, Woods part de l’hypothèse que si<br />
les deux <strong>images</strong> sont parfaitement alignées, alors pour tous les points x dans une image M ayant<br />
une même intensité m, la variance d’intensité de leurs homologues dans l’image N est minimale.<br />
Notons par nm la moyenne <strong>des</strong> intensités n(T(x)) correspondant à l’intensité m(x) = m dans<br />
l’image cible M. De la même façon, leur écart type est noté : σn(m). Pour une intensité m<br />
donnée, la définition de la déviation standard normalisée s’écrit :<br />
σ ′ n(m) = σn(m)/nm<br />
(2.30)<br />
L’écart type de la distribution <strong>des</strong> valeurs n correspondant à chaque intensité m doit être minimisé<br />
au recalage. La mesure de similarité correspond à la somme <strong>des</strong> écart-types, pondérée par la<br />
probabilité de présence <strong>des</strong> valeurs m dans M, p(m) :<br />
σ(N) = <br />
m∈M<br />
p(m)σ ′ n(m) (2.31)<br />
La pondération fait en sorte que le processus de recalage est plus influencé par les variations<br />
d’intensité dans l’image source N que par les changements dans l’image cible M. Le choix de<br />
l’image source et de l’image cible est alors d’une grande importance. Généralement, pour un reca-<br />
lage fonctionnel/structurel, les modalités structurelles sont utilisées comme modèle de référence<br />
(<strong>images</strong> cibles).<br />
Le critère de Woods opère sous l’hypothèse que lorsque les <strong>images</strong> sont recalées, leurs régions<br />
uniformes se correspondent. Ceci tient pour valable qu’une intensité m dans M correspond à<br />
une et une seule intensité n dans N. Si, pour deux <strong>images</strong> recalées, une valeur m correspond<br />
à deux intensités n1 et n2 significativement différentes, alors la mesure d’accumulation autour<br />
de la moyenne donnera peu d’informations sur le recalage. Le degré de correspondance entre<br />
les intensités joue un grand rôle dans l’applicabilité du critère de Woods. Pour surmonter cette<br />
difficulté, Woods applique une segmentation sur les <strong>images</strong> IRM afin d’exclure les régions qui<br />
n’appartiennent pas au cerveau, et de ne garder que <strong>des</strong> régions uniformes assurant ainsi l’unicité<br />
d’appartenance <strong>des</strong> intensités [Woods et al., 1993].<br />
Le critère de Woods est à l’origine de beaucoup de travaux en recalage iconique, notamment
42 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
<strong>des</strong> métho<strong>des</strong> statistiques. Plusieurs variantes ont été proposées, nous en citons [Ardekani et al.,<br />
1995], [Alpert et al., 1996] et [Nikou et al., 1998].<br />
Le critère de Woods peut être apparenté au rapport de corrélation. Ils sont tous deux asy-<br />
métriques et évaluent le recalage comme un problème de minimisation de variance. Néanmoins,<br />
deux différences sont à relever : le rapport de corrélation somme <strong>des</strong> variances, alors que le critère<br />
de Woods somme <strong>des</strong> écarts type normalisés. L’invariance à la multiplication est assurée dans le<br />
critère de corrélation par division globale par rapport à la variance de l’image cible, alors que<br />
dans le critère de Woods chaque terme de la somme est divisé par une moyenne correspondante.<br />
Rapport de corrélation généralisée<br />
Plus récemment, Roche a introduit une mesure de similarité fondée sur l’hypothèse «heu-<br />
ristique» de dépendance fonctionnelle entre les <strong>images</strong> à recaler [Roche, 2001]. Cette mesure<br />
appelée rapport de corrélation généralisé a été conçu pour le recalage <strong>multimodal</strong> ultrason/IRM,<br />
pour lequel les mesures existantes n’étaient pas adaptées. Le rapport de corrélation généralisé est<br />
fondé sur une distance asymétrique normalisée entre les intensités (un M-estimateur d’échelle).<br />
La normalisation est introduite de façon à tenir compte <strong>des</strong> effets de recouvrement partiel.<br />
Son expression en fonction de l’histogramme conjoint s’écrit :<br />
2.3.4 Dépendance statistique<br />
Cr(T) = 1 − 1<br />
σ 2 M<br />
<br />
n<br />
p(m, n)σ 2 n<br />
(2.32)<br />
Si l’on examine de près l’histogramme conjoint <strong>des</strong> <strong>images</strong> TDM et IRM recalées (Fig. 2.14),<br />
on se rend compte que l’hypothèse fonctionnelle de dépendance <strong>des</strong> intensités, aussi générale<br />
soit-elle, ne suffit pas pour exprimer la relation entre les intensités de ces <strong>images</strong>.<br />
Une façon alternative d’aborder la relation fonctionnelle entre les intensités <strong>des</strong> <strong>images</strong><br />
consiste à considérer leur dépendance statistique. Ceci permet de s’affranchir <strong>des</strong> hypothèses<br />
de linéarité ou de <strong>non</strong>-linéarité. Le concept de l’histogramme conjoint trouve alors tout son sens.<br />
La dépendance statistique repose sur l’idée que si l’on dispose d’un voxel m et de son homologue<br />
n, le nombre d’occurrences conjointes (co-occurrences) de ces voxels est maximal quand les <strong>images</strong><br />
sont parfaitement recalées. Autrement dit, plus l’histogramme conjoint est disparate, moins les<br />
<strong>images</strong> sont similaires. À mesure que les <strong>images</strong> approchent du recalage, les pics de l’histogramme<br />
conjoint augmentent, et les régions qui contiennent les faibles occurrences diminuent.
2.3 Approche iconique du recalage- modélisation par inférence statistique 43<br />
(a) Histogramme conjoint d’un couple d’<strong>images</strong> IRM-<br />
TDM recalées.<br />
(b) Histogramme conjoint d’un couple d’<strong>images</strong> IRM-<br />
TDM <strong>non</strong> recalées.<br />
Fig. 2.14 Illustration de la dépendance statistique entre les intensités d’une image<br />
IRM et une image TDM.<br />
La théorie de l’information nous offre un panel important de métho<strong>des</strong> pour évaluer la dis-<br />
parité et la quantité d’information dans un ensemble de données. La plus usuelle est l’entropie.<br />
Les travaux précurseurs dans ce domaine sont ceux entrepris par [Hill et al., 1994]. Il pro-<br />
pose, pour quantifier le décalage entre les faibles probabilités et les plus gran<strong>des</strong>, de mesurer<br />
l’«obliquité» dans la distribution <strong>des</strong> probabilités conjointes p(m, n). Les moments d’ordre su-<br />
périeur ont été choisis pour évaluer cette obliquité. La probabilité conjointe <strong>des</strong> voxels, p(m, n),<br />
<strong>des</strong> <strong>images</strong> M, N, est considérée comme variable aléatoire. Le moment d’ordre i s’écrit :<br />
υi(p(m, n)) = υi(M, N) =<br />
1<br />
0<br />
o(p(m, n)).p(m, n) i dp, (2.33)<br />
où o(p) correspond au nombre d’occurrences d’une probabilité p particulière.<br />
Pour le recalage d’<strong>images</strong> IRM/TDM, Hill a proposé l’utilisation de moments d’ordre 3 nor-<br />
malisés par le moment d’ordre 0 :<br />
S(T ) = υ3(M, N)<br />
υ0(M, N)<br />
(2.34)<br />
Une autre caractérisation importante d’une densité de probabilité est son entropie dont le<br />
rôle est fondamental en théorie de l’information.
44 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
Entropie Conjointe<br />
L’utilisation de l’entropie conjointe pour évaluer la disparité dans l’histogramme conjoint a<br />
été introduite par [Collig<strong>non</strong> et al., 1995] et [Studholme et al., 1995].<br />
H(M, N) = − <br />
p(m, n) log p(m, n) (2.35)<br />
m,n<br />
En théorie de l’information, l’entropie est définie comme une mesure de quantité d’informa-<br />
tion, de désordre et d’incertitude. Dans ce sens, l’entropie conjointe quantifie la disparité dans<br />
l’histogramme conjoint. Le recalage est assuré en minimisant son expression.<br />
Fig. 2.15 Illustration <strong>des</strong> étapes de recalage par minimisation de l’entropie<br />
conjointe<br />
Pre<strong>non</strong>s l’exemple <strong>des</strong> <strong>images</strong> M et N et de leurs combinaisons C 1 MN et C2 MN<br />
(Fig. 2.15).<br />
Tant que les deux <strong>images</strong> ne sont pas recalées, les structures communes seront dupliquées dans les<br />
<strong>images</strong> fusionnées. Au fur et à mesure de la correction géométrique, la duplication <strong>des</strong> structures<br />
est réduite. Nous pouvons considérer l’image «combinée», où les couples de valeurs <strong>des</strong> <strong>images</strong><br />
sources interviennent comme une valeur d’une seule image. Chaque valeur correspond à une<br />
paire particulière de valeurs provenant <strong>des</strong> <strong>images</strong> sources. Nous pouvons alors exprimer la dis-<br />
tribution de probabilité conjointe comme un vecteur 1D, l’opération du recalage est réduite ainsi<br />
à minimiser le «désordre» (entropie) dans l’image fusionnée en appliquant une transformation<br />
géométrique sur l’une <strong>des</strong> <strong>images</strong> sources.<br />
L’utilisation de l’entropie conjointe repose sur une forte hypothèse : les régions homologues<br />
sont, initialement, partiellement recalées. Leur zone de recouvrement augmente alors au fur et
2.3 Approche iconique du recalage- modélisation par inférence statistique 45<br />
à mesure que la correction géométrique a lieu. Si les deux <strong>images</strong> contiennent peu d’informa-<br />
tions, et que les régions homologues ne s’intersectent pas (ou peu) initialement, leur probabilité<br />
conjointe est alors minimale, et la probabilité conjointe <strong>des</strong> niveaux de gris du fond sera maxi-<br />
male. L’entropie conjointe est alors minimale lorsque les régions se déconnectent complètement<br />
(Fig. 2.16).<br />
Fig. 2.16 Illustration de la nécessité de normaliser l’entropie conjointe. Ici, du fait<br />
de la prédominance du niveau de gris du fond, la minimisation de l’entropie conjointe<br />
conduit à la déconnection <strong>des</strong> structures homologues dans les deux <strong>images</strong>.<br />
Information mutuelle<br />
Pour remédier à ce problème, il faudrait prendre en compte à la fois les informations com-<br />
munes aux <strong>images</strong> ainsi que les informations apportées par chacune <strong>des</strong> modalités. Pour ce faire,<br />
il suffit de minimiser l’entropie conjointe en fonction <strong>des</strong> entropies marginales <strong>des</strong> <strong>images</strong> M et
46 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
N. Ce qui revient à calculer l’information mutuelle entre les deux <strong>images</strong> :<br />
I(M, N) = H(M) + H(N) − H(M, N) (2.36)<br />
Proposée séparément par [Viola and Wells III, 1995] et [Collig<strong>non</strong> et al., 1995], l’information<br />
mutuelle évalue la corrélation statistique entre différents jeux de données. Dans un contexte<br />
d’imagerie, elle quantifie l’information que contient une image sur une autre image.<br />
Récemment, une étude comparative <strong>des</strong> métho<strong>des</strong> de recalage en imagerie médicale a dé-<br />
montré la supériorité d’information mutuelle sur les autres mesures de similarités [West et al.,<br />
1996] ;[West et al., 1997a] ;[West et al., 1997b]. Devenue depuis la mesure universelle de simi-<br />
larité en imagerie médicale, nombre de variantes ont été proposées, traitant de son application<br />
au recalage <strong>non</strong>-<strong>rigide</strong> ou à la <strong>multimodal</strong>ité fonctionnelle. Dans ce qui suit nous exposons ses<br />
fondements théoriques.<br />
Dorénavant, en évoquant le terme «entropie», nous entendons l’entropie de Shan<strong>non</strong> [Shan-<br />
<strong>non</strong>, 1948]. Les développements théoriques qui vont suivre seront évoqués dans un cadre plus<br />
large de la théorie de l’inférence statistique et de l’information que nous exposerons dans le cha-<br />
pitre 4. Le but ici est de présenter l’information mutuelle telle qu’elle a été utilisée par Collignion<br />
et Viola.<br />
Définition<br />
Dans la littérature, plusieurs définitions existent pour la notion de l’information mutuelle<br />
([Cover and Thomas, 1991]). En s’appuyant sur le diagramme de Venn, nous en donnerons les<br />
plus importantes :<br />
Dans le diagramme, chaque cercle représente l’entropie marginale d’une image. Les zones<br />
de recouvrement représentent l’information partagée par les deux <strong>images</strong>, dite aussi entropie<br />
relative, H(M||N), ou information mutuelle.<br />
En utilisant l’entropie de Shan<strong>non</strong> nous pouvons écrire :<br />
H(M) = − <br />
m∈M<br />
p(m) log(p(m)) (2.37)<br />
H(N) = − <br />
p(n) log(p(n)) (2.38)<br />
H(M, N) = − <br />
n∈N<br />
m∈M n∈N<br />
<br />
p(m, n) log(p(m, n)) (2.39)
2.3 Approche iconique du recalage- modélisation par inférence statistique 47<br />
Fig. 2.17 Diagramme de Venn représentant la relation entre les entropies marginales,<br />
les entropies conditionnelles et l’information mutuelle
48 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
p(m), p(n) et p(m, n) désignent, respectivement, la probabilité d’obtenir un voxel m, la<br />
probabilité d’obtenir un voxel n, et la probabilité d’obtenir conjointement les voxels m et n.<br />
Du diagramme, nous pouvons relever les relations suivantes :<br />
H(M, N) = H(M) + H(N/M) (2.40)<br />
= H(N) + H(M/N) (2.41)<br />
Ces relations peuvent être prouvées en utilisant la formule de Bayes :<br />
La probabilité conjointe s’écrit :<br />
L’entropie conjointe s’écrit alors :<br />
H(M, N) = − <br />
p(m/n) =<br />
p(n/m) =<br />
p(m, n)<br />
p(n)<br />
p(m, n)<br />
p(m)<br />
p(m, n) = p(m)p(n/m) = p(n)p(m/n)<br />
= − <br />
m∈M n∈N<br />
m∈M n∈N<br />
n∈N<br />
(2.42)<br />
(2.43)<br />
<br />
p(m, n) log (p(m, n)) (2.44)<br />
<br />
p(m/n)p(n) log (p(m/n)p(n)) (2.45)<br />
= − <br />
p(n) log (p(n)) − <br />
p(m/n) log (p(m/n)) (2.46)<br />
m∈M n∈N<br />
= H(N) + H(M/N) (2.47)<br />
= H(M) + H(N/M) (2.48)<br />
En remplaçant, dans l’équation 2.7, l’entropie conjointe par son expression en fonction <strong>des</strong><br />
probabilités marginales et conditionnelles, nous don<strong>non</strong>s deux <strong>des</strong> principales définitions de l’in-<br />
formation mutuelle qui peuvent être déduites aussi du diagramme de Venn.<br />
I(M, N) = H(M) + H(N) − H(M, N) (2.49)<br />
= H(M) − H(N/N) (2.50)<br />
= H(N) − H(N/M) (2.51)<br />
En interprétant l’entropie comme une mesure d’information et de l’incertain, l’information mu-<br />
tuelle traduit «la quantité d’information contenue dans une image N moins la quantité d’informa-
2.3 Approche iconique du recalage- modélisation par inférence statistique 49<br />
tion dans N sachant M». En d’autres termes, elle représente de combien l’incertain concernant<br />
M diminue quant N est connue. La réciproque est aussi valide. Maximiser l’information mu-<br />
tuelle revient alors à minimiser la quantité d’information que contient une image sur une autre,<br />
tout en maximisant l’information contenue dans une image. Ce qui correspond à maximiser la<br />
dépendance conditionnelle entre les <strong>images</strong>.<br />
Une autre définition de l’information mutuelle est donnée par la divergence de Kullback-<br />
Leibler [Kullback and Leibler, 1951], qui est définie pour deux distributions de densités de probabilité<br />
p et q, comme suit : <br />
. Partant toujours de l’équation 2.7, nous avons :<br />
i pi log pi<br />
qi<br />
I(M, N) = H(M) + H(N) − H(M, N) (2.52)<br />
= − <br />
p(n) log (p(n))) (2.53)<br />
n∈N<br />
− <br />
m∈M<br />
+ <br />
m∈M n∈N<br />
p(m) log (p(m))) (2.54)<br />
<br />
p(m, n) log (p(m, n)) (2.55)<br />
Par simple factorisation, nous obte<strong>non</strong>s une nouvelle définition de l’information mutuelle :<br />
I(M, N) = − <br />
m∈M n∈N<br />
<br />
p(m, n)<br />
p(m, n) log<br />
p(m)p(n)<br />
(2.56)<br />
qui correspond à la distance de Kullback-leibler entre la probabilité conjointe et le produit <strong>des</strong><br />
probabilités marginales :<br />
I(M, N) = DKL(p(m, n)||p(m)p(n)) (2.57)<br />
Cette formulation de l’information mutuelle est très riche en information. Si les deux <strong>images</strong><br />
sont indépendantes, la probabilité conjointe est égale au produit <strong>des</strong> probabilités marginales, ce<br />
qui annule la distance de Kullback-leibler :<br />
Si M et N sont indépendantes<br />
p(m, n) = p(m)p(n) ⇒<br />
p(m, n)<br />
log ( ) = 0<br />
p(m)p(n)<br />
(2.58)<br />
⇒ DKL(p(m, n)||p(m)p(n)) = 0 (2.59)<br />
⇔ I(M, N) = 0 (2.60)
50 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
Dans le cas où les deux <strong>images</strong> s’expriment parfaitement ; cas du recalage absolu, les proba-<br />
bilités marginales sont égales à la probabilité conjointe :<br />
p(m, n) = p(m) = p(n) ⇒ DKL(p(m)||p(m) 2 ) = DKL(p(n)||p(n) 2 ) (2.61)<br />
⇔ H(M) = H(N) = I(M, N) (2.62)<br />
Dans ce sens, l’information mutuelle est une mesure de dépendance entre les <strong>images</strong>. Elle<br />
s’annule quand celles ci sont complètement indépendantes, et est maximale lorsque les deux<br />
<strong>images</strong> s’expriment mutuellement. Dans le cas de dépendance parfaite elle est égale aux entropies<br />
marginale <strong>des</strong> <strong>images</strong>. Le processus du recalage revient donc à maximiser la dépendance entre<br />
les <strong>images</strong> source et cible.<br />
Propriétés<br />
Des définitions précédentes, nous pouvons déduire les propriétés principales de l’information<br />
mutuelle :<br />
– I(M, N) = I(N, M)<br />
Cette propriété de symétrie n’a qu’un sens théorique. En pratique, elle n’est pas toujours<br />
vraie, notamment pour le recalage <strong>des</strong> <strong>images</strong> médicales. Plusieurs considérations font que<br />
le choix de l’image source et de l’image cible influence le calcul de l’information mutuelle.<br />
– I(M, M) = H(M)<br />
L’information que contient l’image M sur elle même est égale à son entropie.<br />
– I(M, N) = 0 si et seulement si M et N sont indépendantes.<br />
D’autres propriétés intéressantes de l’information mutuelle peuvent être dérivées à partir de<br />
l’inégalité de Jensen. Pour toute fonction F concave l’inégalité :<br />
est satisfaite.<br />
E[F (M)] ≤ F (E[M]) (2.63)<br />
Une fonction est dite concave quand sa dérivée seconde est négative partout sur son domaine<br />
de définition. Cette condition étant satisfaite pour la fonction log, l’inégalité de Jensen nous<br />
permet de prouver les inégalités suivantes :<br />
– H(M) ≥ 0<br />
– H(N) ≥ H(N/M)<br />
– I(M, N) ≥ 0<br />
– I(M, N) ≤ H(M)<br />
– I(M, N) ≤ H(N)
2.3 Approche iconique du recalage- modélisation par inférence statistique 51<br />
Information mutuelle : normalisation<br />
Entropies<br />
Recouvrement<br />
d'<strong>images</strong><br />
I1 I2<br />
Solution: T1 Solution: T2<br />
Fig. 2.18 Dans ce diagramme I2 > I1, la solution du recalage est celle correspondant<br />
alors à T2, même si l’information partagée par les deux <strong>images</strong> est plus faible<br />
que celle donnée par T1<br />
L’information mutuelle a été développée initialement en théorie de la communication pour<br />
quantifier l’information échangée entre un émetteur et un récepteur. Dans le cadre du recalage<br />
d’<strong>images</strong>, en plus de dépendre <strong>des</strong> informations partagées par les <strong>images</strong> source et cible, elle<br />
dépend du volume de recouvrement <strong>des</strong> deux <strong>images</strong> qui change en fonction de la transformation<br />
géométrique appliquée à l’image source à un instant t. Dans la figure 2.18 par exemple, même<br />
si l’information partagée par les deux <strong>images</strong> est faible dans la solution donnée par la trans-<br />
formation T2, l’information mutuelle y est plus grande par rapport à la solution donnée par la<br />
transformation T1, qui correspond à la solution correcte du recalage. Afin de prendre en compte<br />
les changements de l’information mutuelle en fonction de la zone de recouvrement <strong>des</strong> <strong>images</strong>, il<br />
faudrait calculer cette dernière en fonction <strong>des</strong> informations contenues dans chacune <strong>des</strong> <strong>images</strong><br />
à recaler. Pour ce faire [Studholme, 1997] a proposé une version normalisée de l’information
52 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
mutuelle qui correspond au rapport de l’entropie conjointe et <strong>des</strong> entropies marginales :<br />
Y (M, N) =<br />
H(M) + H(N)<br />
. (2.64)<br />
H(M, N)<br />
Des approches alternatives ont été proposées pour réaliser le même objectif. Elles incluent le<br />
rapport de corrélation entropique :<br />
et l’information exclusive :<br />
introduites par [Maes et al., 1997].<br />
Ce(M, N) =<br />
2I(M, N)<br />
, (2.65)<br />
H(M) + H(N)<br />
ρ(M, N) = H(M, N) − I(M, N), (2.66)<br />
L’information mutuelle (et ses versions normalisées) étant définie en fonction <strong>des</strong> densités<br />
de probabilités conjointes et marginales, sa robustesse ainsi que sa précision dépendent alors<br />
<strong>des</strong> métho<strong>des</strong> choisies pour déterminer les éléments de l’histogramme. Dans le paragraphe qui<br />
suit, nous exposerons les métho<strong>des</strong> proposées dans la littérature, leurs avantages et leurs limites.<br />
Une partie de nos travaux portant sur les modèles d’estimation de densités de probabilité, nous<br />
reviendrons sur les principes théoriques de l’estimation dans le chapitre 5.<br />
Estimation <strong>des</strong> densités de probabilités<br />
Quand Collig<strong>non</strong> et Viola, chacun de leur côté, travaillaient sur ce qui allait devenir la mesure<br />
de similarité universelle en recalage <strong>des</strong> <strong>images</strong>, une seule chose différenciait leurs travaux : la<br />
méthode de calcul <strong>des</strong> densités de probabilités conjointes et marginales.<br />
De la méthode d’estimation dépend le temps de calcul et la précision de l’information mu-<br />
tuelle. Collig<strong>non</strong>, pour <strong>des</strong> raisons de précision, a négligé le facteur temps, et a préféré une<br />
méthode lente mais précise. Pour calculer les probabilités conjointes et marginales il a utilisé la<br />
méthode la plus directe : l’histogramme conjoint normalisé.<br />
Pour ce faire, il a restreint le nombre <strong>des</strong> niveaux de gris dans les deux <strong>images</strong> à 256. La taille<br />
de l’histogramme conjoint est alors de (256 2 ). Soit h(m, n) les entrées de l’histogramme conjoint,<br />
correspondant aux contingences <strong>des</strong> niveaux de gris m et n dans les deux <strong>images</strong>. h(m, n) dénote<br />
le nombre de fois que l’intensité m dans l’image M a coïncidé avec l’intensité n dans l’image N.
2.3 Approche iconique du recalage- modélisation par inférence statistique 53<br />
La probabilité conjointe est calculée par :<br />
pM,N(m, n) =<br />
h(m, n)<br />
h(m, n).<br />
<br />
m,n<br />
Les probabilités marginales peuvent être déduites directement :<br />
et<br />
pM(m) = <br />
pM,N(m, n),<br />
n<br />
pN(n) = <br />
pM,N(m, n).<br />
m<br />
Ce calcul de densités de probabilités présente deux principales limitations :<br />
– Le temps de calcul <strong>des</strong> densités de probabilités est conséquent, d’autant plus que que ce cal-<br />
cul s’effectue à chaque transformation géométrique (<strong>non</strong>-linéaires en général) intermédiaire<br />
de recalage, lors <strong>des</strong> itérations de l’algorithme.<br />
– La méthode de recalage est alors principalement discrète. En effet la formulation du pro-<br />
blème du recalage ne trouve pas de solution dans le domaine continu. Le fait que la fonction<br />
de recalage n’est pas dérivable, impose que la recherche de la transformation géométrique<br />
fasse appel aux métho<strong>des</strong> d’optimisation stochastiques. Des métho<strong>des</strong> quadratiques fondées<br />
sur le gradient ne sont donc pas exploitables.<br />
La méthode de recalage introduite par Collig<strong>non</strong>, représentait une avancée significative dans le<br />
domaine du recalage, et en particulier en recalage médical <strong>multimodal</strong>, mais elle tient peu compte<br />
du facteur temps qui est d’une importance <strong>non</strong> négligeable dans les phases d’interprétation<br />
d’<strong>images</strong> et de prise de décision. Ceci limite son application au cadre <strong>rigide</strong> du recalage.<br />
En revanche Viola a présenté une méthode de calcul <strong>des</strong> densités de probabilité, souvent<br />
qualifiée d’«élégante». Il a proposé d’utiliser une méthode d’estimation <strong>non</strong>-paramétrique dite<br />
«fenêtres de Parzen» :<br />
Soit A un échantillon de taille Na, la densité de probabilité d’une variable aléatoire z<br />
p(z) ≈ P ∗ (z, A) = 1<br />
<br />
R(z − zj) (2.67)<br />
NA<br />
zj∈A<br />
est la somme <strong>des</strong> contributions de chaque élément zj ∈ A ; contributions qui dépendent de la<br />
distance entre zj et z.<br />
La fonction R, dite noyau de Parzen détermine le poids de la contribution de chaque échan-<br />
tillon dans l’estimation de p(z). Plus l’échantillon est «loin» de z, moins il contribue dans le<br />
calcul de p(z). R est souvent appelée fonction de lissage ou fenêtre. La qualité de l’estimation
54 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
dépend à la fois de la nature de la fonction R de ses paramètres, notamment sa «largeur», et<br />
bien évidemment de la taille de l’échantillon d’estimation Na.<br />
Viola a choisi comme noyau R, une fonction gaussienne :<br />
R(z) ≡ Gψ(z − µ) =<br />
1<br />
(2π) n<br />
2 |ψ| 1<br />
2<br />
exp(− 1<br />
2 (z − µ)t ψ −1 (z − µ)). (2.68)<br />
Dans un espace de dimension n, la moyenne µ est un vecteur de taille d. La variance est remplacée<br />
par la matrice d × d de covariance ψ (|ψ| est le déterminant de ψ). Rappelons que la covariance<br />
est définie comme :<br />
ψij = E[(Zi − E[Zi])(Zj − E[Zj])],<br />
où Zi correspond au i ème composant de la variable aléatoire Z. Les éléments diagonaux de ψ ne<br />
sont rien d’autre que les variances.<br />
Dans le cadre de l’estimation, la fonction gaussienne évolue dans un espace bidimensionnel,<br />
elle est centrée sur les échantillons zj, µ est un vecteur nul, et la matrice de covariance est une<br />
matrice identité diagonale.<br />
P ∗ (z, a) = 1<br />
<br />
Gψ(z − zj) (2.69)<br />
NA<br />
z∈A<br />
= 1<br />
NA<br />
<br />
(2π) −1 |ψ|<br />
z∈A<br />
− 1<br />
2 exp (− 1<br />
2 (z − zj) T ψ −1 (z − zj)) (2.70)<br />
Le problème majeur posé par l’utilisation d’une méthode d’estimation telle que la méthode<br />
de Parzen est l’estimation <strong>des</strong> paramètres de la matrice de covariance. Dans une situation où<br />
l’on ne dispose d’aucune information sur la nature de l’évolution <strong>des</strong> données dans les <strong>images</strong>, et<br />
encore moins de leur évolution mutuelle (co-occurrence), ces paramètres ne peuvent être calculés<br />
correctement qu’au détriment d’un temps de calcul très élevé, ou de suppositions heuristiques<br />
sur le comportement <strong>des</strong> données <strong>des</strong> <strong>images</strong>. Ce point étant déterminant pour le système de pré-<br />
diction et par conséquent pour le recalage selon le schéma de Viola, nous nous sommes intéressés<br />
au métho<strong>des</strong> d’estimation de densités de probabilités et plus particulièrement aux métho<strong>des</strong> de<br />
prédiction <strong>des</strong> meta-paramètres (co-variance dans le cas d’une fonction à noyau gaussien) dans<br />
les métho<strong>des</strong> d’estimation <strong>non</strong>-paramétriques. Une <strong>des</strong> contributions majeures de cette thèse<br />
est la proposition d’une méthode d’estimation <strong>non</strong>-paramétrique où le choix <strong>des</strong> paramètres est<br />
déterminé automatiquement avec une complexité et un temps de calcul acceptables.<br />
Pour mieux illustrer cette difficulté nous allons développer la méthode proposée par Viola :
2.3 Approche iconique du recalage- modélisation par inférence statistique 55<br />
L’entropie d’une image exprimée par :<br />
H(z) ≈ −Ez[log P ∗ ∞<br />
(z)] = − log P<br />
−∞<br />
∗ (z)dz (2.71)<br />
est difficile à évaluer voire impossible. Cette intégrale peut néanmoins être approximée par une<br />
moyenne empirique :<br />
H(z) ≈ − 1<br />
<br />
log P ∗ (zi) (2.72)<br />
NB<br />
zi∈B<br />
où NB est la taille d’un second échantillon B. L’approximation de l’entropie s’écrit alors :<br />
H(z) ≈ − 1<br />
<br />
NB<br />
zi∈B<br />
log 1<br />
NA<br />
<br />
Gψ(zi − zj). (2.73)<br />
Deux échantillons sont alors nécessaires pour l’approximation de l’entropie. Le premier intervient<br />
dans l’estimation de la densité de probabilités, le deuxième dans le calcul de l’entropie proprement<br />
dite. En appliquant cette formule pour calculer les entropies marginales et conjointe intervenant<br />
dans le calcul de l’information mutuelle on obtient :<br />
H(m(x)) = − 1<br />
H(n(T(x))) = − 1<br />
H(m(x), n(T(x))) = − 1<br />
où w = [m(xi), n(T(x i ))] t .<br />
<br />
NB<br />
xi∈B<br />
<br />
NB<br />
xi∈B<br />
<br />
NB<br />
xi∈B<br />
log 1<br />
NA<br />
log 1<br />
NA<br />
log 1<br />
NA<br />
zj∈A<br />
<br />
xj∈A<br />
<br />
xj∈A<br />
<br />
xj∈A<br />
Gψm (m(xi) − m(xj)). (2.74)<br />
Gψn (n(T(xi )) − n(T(xj ))). (2.75)<br />
Gψmn (w(T(xi )) − w(T(xj ))). (2.76)<br />
Les paramètres de la matrice de covariance ψ doivent être choisis de façon à ce que P ∗ (z)<br />
soit la meilleure estimation de p(z). En d’autres termes, ψ est choisie pour que l’échantillon<br />
B ait la meilleure vraisemblance. Supposant que les épreuves dans B sont indépendantes, la<br />
log-vraisemblance de ψ s’écrit :<br />
log <br />
zi∈B<br />
P ∗ (zi) = <br />
log P ∗ (zi) (2.77)<br />
zi∈B<br />
Cette équation ressemble à l’équation 2.72. En fait, la log-vraisemblance de ψ est maximale<br />
quand l’estimateur de l’entropie h ∗ (z) est minimal. Pour <strong>des</strong> considérations de simplifications
56 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : fondements théoriques<br />
calculatoires, Viola suppose que la matrice de covariance est diagonale :<br />
ψ = DIAG(σ 2 1, σ 2 2, . . . ).<br />
Les paramètres σk sont calculés en utilisant un schéma d’optimisation type gradient conjugué<br />
([Press et al., 1988]) :<br />
où λ est le coût d’apprentissage.<br />
σk = σk + λ d<br />
H<br />
dσk<br />
∗ (z), (2.78)<br />
La recherche <strong>des</strong> coefficients de la matrice de covariance s’effectue avant la recherche de la<br />
transformation géométrique, ce qui induit une complexité algorithmique supplémentaire et de<br />
surcroît un temps de calcul significativement plus élevé.<br />
Cette contrainte a motivé Viola et d’autres chercheurs s’inspirant de son schéma à fixer<br />
les paramètres d’estimation. Ceci nécessite une certaine connaissance de la nature <strong>des</strong> <strong>images</strong> à<br />
traiter. Ces paramètres doivent être changés ou modulés chaque fois que l’on change de modalités<br />
ou tout simplement de zone anatomique. D’autres travaux par la suite ont concerné le pré-<br />
traitement <strong>des</strong> <strong>images</strong> à <strong>des</strong> fins de recalage par information mutuelle selon le schéma de Viola.<br />
Ce sont justement ces difficultés qui nous ont poussées à explorer dans un premier temps de<br />
nouvelles mesures de similarités fondées sur la notion d’entropie généralisée introduite par Rényi<br />
[Rényi, 1959], et par la suite à proposer une nouvelle méthode <strong>non</strong>-paramétrique d’estimation de<br />
densités.<br />
2.4 Synthèse du chapitre<br />
Ce chapitre a présenté la problématique du recalage d’<strong>images</strong> médicales, et a couvert les<br />
deux approches principales proposées pour sa résolution : l’approche géométrique et l’approche<br />
iconique.<br />
Ce chapitre a commencé par un exemple simplifié du recalage, et ce afin d’en définir le for-<br />
malisme mathématique. Se basant sur cet exemple, et en augmentant au fur et à mesure sa<br />
complexité <strong>des</strong> schémas de résolution ont été proposés. Le premier schéma a concerné l’approche<br />
géométrique. Deux exemples d’algorithmes appartenant à cette classe ont été donnés : l’apparie-<br />
ment de points, et l’appariement de surfaces. Les limites de cette approche ont été illustrées en<br />
démontrant son inadéquation au cadre <strong>multimodal</strong> du recalage et a fortiori au cadre <strong>multimodal</strong><br />
structurel-fonctionnel.
2.4 Synthèse du chapitre 57<br />
Par la suite, l’approche iconique a été introduite. Dans la suite <strong>des</strong> travaux de [Costa et<br />
al., 1993], [Viola, 1995], [Leventon and Grimson, 1998] et [Roche et al., 2000], le problème du<br />
recalage a été formulé comme un problème d’inférence statistique. Cette approche se fonde en<br />
premier lieu sur un modèle probabiliste de dépendance entre les <strong>images</strong> et en second lieu sur un<br />
estimateur <strong>des</strong>tiné à identifier ce modèle. Selon les différentes hypothèses émises sur la nature<br />
de dépendance entre les intensités, différentes métho<strong>des</strong> ont introduites. Les quatre hypothèses<br />
sont : la conservation d’intensité, la dépendance affine, la dépendance fonctionnelle et la dépen-<br />
dance statistique. Concernant cette dernière hypothèse, un accent particulier a été mis sur les<br />
métho<strong>des</strong> utilisant l’information mutuelle. Par la suite, la limite de l’entropie conjointe, et la<br />
nécessité d’intégrer les entropies marginales, due au problème du recouvrement partiel, ce qui<br />
aboutit à l’information mutuelle ont été illustrés. En outre, a été mis en exergue la nécessité<br />
de normalisation de l’information et ont été présentées les différentes variantes normalisées de<br />
l’information mutuelle.<br />
Enfin, ce chapitre se termine par une discussion sur le temps de calcul que requiert l’infor-<br />
mation mutuelle dans un cadre de recalage. Pour illustrer ce fait, une comparaison <strong>des</strong> deux<br />
algorithmes pionniers proposés par Collig<strong>non</strong> d’un côté et Viola de l’autre a été effectuée. Un<br />
aspect particulier a été étudié : l’évaluation de l’histogramme conjoint. Ceci a permis de mettre<br />
en évidence la nécessité de faire appel à une méthode d’estimation pour calculer l’histogramme<br />
conjoint. Ainsi, <strong>des</strong> modèles de déformation <strong>non</strong>-linéaires peuvent être envisagés.
Chapitre 3<br />
<strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
Dans le chapitre précédent, nous avons présenté le cadre théorique du recalage <strong>des</strong> <strong>images</strong><br />
médicales. Deux approches principales ont été étudiées : l’approche géométrique et l’approche<br />
iconique. En revanche, un point crucial du recalage <strong>des</strong> <strong>images</strong> n’a toujours pas été abordé : le<br />
modèle de déformation.<br />
Dans ce chapitre, nous présenterons brièvement les différentes classes de transformations<br />
ainsi que leur implication dans le recalage <strong>des</strong> <strong>images</strong> médicales. Nous introduirons les modèles<br />
linéaires, puis les modèles <strong>non</strong>-linéaires et nous nous attarderons sur les modèles fondées sur les<br />
déformations «splines».<br />
3.1 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche linéaire<br />
Une transformation linéaire se définie de la sorte : x ↦→ Anx + bn , où n est la dimension, An<br />
est une application linéaire de dimension n × n, et bn est un vecteur de translation de dimension<br />
n × 1. Ces transformations linéaires peuvent être <strong>rigide</strong>s, affines, ou projectives :<br />
3.1.1 Transformation 3D globale <strong>rigide</strong><br />
La transformation 3D globale la plus simple à envisager est la transformation <strong>rigide</strong>. Cette<br />
transformation est a priori appropriée au recalage d’<strong>images</strong> cérébrales monomodalité et mono-<br />
patient (le crâne étant considéré comme un objet 3D <strong>rigide</strong>).<br />
Une transformation <strong>rigide</strong> 3D est une isométrie de R 3 conservant l’orientation (transforma-<br />
tion directe par opposition aux symétries qui sont <strong>des</strong> isométries indirectes). Une transformation<br />
59
60 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
<strong>rigide</strong> est donc tout simplement la composée d’une rotation et d’une translation. Dans la littéra-<br />
ture du recalage, certains auteurs considèrent que les transformations composées d’une rotation,<br />
d’une translation et d’un ou plusieurs facteurs de mise à l’échelle (donc isotrope ou anisotrope)<br />
sont aussi <strong>des</strong> transformations <strong>rigide</strong>s. Cependant si l’on s’appuie sur la définition exacte d’une<br />
transformation <strong>rigide</strong> ce n’est pas vrai.<br />
Pour les transformations globales, on considère comme <strong>rigide</strong>s, toutes les isométries du plan<br />
ou de l’espace qui conservent l’orientation. Pour les transformations locales, on considère comme<br />
<strong>rigide</strong>s, toutes les compositions de transformations <strong>rigide</strong>s au sens de la rigidité globale. Si T<br />
est une transformation <strong>rigide</strong>, alors T est une fonction de R 3 dans R 3 , qui à tout point (x, y, z)<br />
d’une image associe le point transformé (x ′ , y ′ , z ′ ), et est définie par :<br />
T(x, y, z) = (x ′ , y ′ , z ′ ) t = T + R(x, y, z) t , (3.1)<br />
où T est un vecteur de translation et R est une matrice (3 × 3) de rotation, donc orthogonale et<br />
de déterminant unitaire (i.e. orthonormale) pour satisfaire la conservation de l’orientation (pas<br />
de facteur d’échelle <strong>non</strong> plus).<br />
Dans ce cas, An est une matrice de rotation (An = R), elle a les propriétés suivantes :<br />
AA t = A t A = I et det A = +1. Dans le cas d’une symétrie nous avons det A = −1.<br />
Une telle transformation présente l’avantage d’être globale. Non seulement, c’est une trans-<br />
formation continue certes à support discret, puisque l’image d’une courbe est une courbe, mais<br />
en plus cette transformation conserve les angles et les formes (l’image d’un tétraèdre est un<br />
tétraèdre de même nature).<br />
Cette transformation <strong>rigide</strong> peut donc être utilisée uniquement pour recaler deux <strong>images</strong> ne<br />
présentant pas d’évolution de structures (croissance du crâne, ou modification de la position ou<br />
du volume d’une sous-structure) et dont les imageurs n’ont pas induit de distorsions. Néanmoins,<br />
on peut se servir d’une telle transformation comme bonne approximation d’une transformation<br />
faiblement élastique.<br />
3.1.2 Transformation affine<br />
C’est une similitude, c’est à dire une transformation <strong>rigide</strong> à laquelle on ajoute une affinité<br />
Sn(An) = SRn; sij = 0 pour i = j. Dans le cas particulier où les coefficients sii, i = 1 . . . n sont<br />
identiques, Sn est appelée homothétie. Sn porte alors les facteurs d’échelle selon les différentes<br />
directions de l’espace d’évolution. Cette transformation est employée à la fois pour <strong>des</strong> recalages<br />
de données <strong>multimodal</strong>es (cas où le facteur d’échelle est mal connu), et pour <strong>des</strong> recalages inter-<br />
sujets (dans la phase initiale).
3.1 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche linéaire 61<br />
Une transformation affine 3D est définie par douze coefficients aij. La relation entre les<br />
coordonnées dans une image et les coordonnées dans l’autre image est donnée par le système<br />
d’équations :<br />
⎛<br />
x<br />
⎜<br />
T(x, y, z) = ⎜<br />
⎝<br />
′<br />
y ′<br />
z ′<br />
⎞<br />
⎟<br />
⎠<br />
1<br />
=<br />
⎛<br />
⎜<br />
⎝<br />
a00 a01 a02 a03<br />
a10 a11 a12 a13<br />
a20 a21 a22 a23<br />
0 0 0 1<br />
⎞ ⎛ ⎞<br />
x<br />
⎟ ⎜ ⎟<br />
⎟ ⎜<br />
⎟ ⎜<br />
y ⎟<br />
⎟ ⎜<br />
⎠ ⎝ z<br />
⎟<br />
⎠<br />
1<br />
On peut décomposer la matrice de transformation affine en la matrice B =<br />
et le vecteur T = (a03, a13, a23) t qui est un vecteur de translation.<br />
⎛<br />
⎜<br />
⎝<br />
a00 a01 a02<br />
a10 a11 a12<br />
a20 a21 a22<br />
(3.2)<br />
– Si B = I (matrice identité), la transformation se réduit évidemment à une translation. Dans<br />
le cas particulier où B est une matrice de rotation, nous retrouvons une transformation<br />
<strong>rigide</strong>.<br />
– Si B = Diag(Sx, Sy, Sz), la transformation est une mise à l’échelle (avec les facteurs Sx<br />
selon x, Sy selon y et Sz selon z).<br />
L’écriture de cette transformation est généralement simplifiée par l’utilisation <strong>des</strong> transfor-<br />
mations homogènes [Newman and Sproull, 1979], qui permet de rassembler ces différentes trans-<br />
formations dans la même matrice M, où dans le cas 3D (n = 3) M se forme de la manière<br />
suivante :<br />
p ′ c = M.p ′ s ; M = M1.S ; M1 =<br />
⎛<br />
⎞<br />
s0<br />
⎜<br />
S = ⎜<br />
0<br />
⎜<br />
⎝ 0<br />
0<br />
s1<br />
0<br />
0<br />
0<br />
s2<br />
0<br />
⎟<br />
0 ⎟<br />
0<br />
⎟<br />
0 0 0 1<br />
⎛<br />
⎜<br />
⎝<br />
⎛<br />
⎜<br />
⎝<br />
⎠ ; p′ • =<br />
r00 r01 r02<br />
r10 r11 r12<br />
r20 r21 r22<br />
⎞<br />
⎟<br />
⎠<br />
t1<br />
t2<br />
t3<br />
0 0 0 1<br />
⎛ ⎞<br />
⎜<br />
⎝<br />
p ′ •1<br />
p ′ •2<br />
p ′ •3<br />
w•<br />
⎟ ; • ∈ {c, s}<br />
⎠<br />
avec ws = 1, pi = p′ i<br />
w , (dans le cas <strong>rigide</strong> et affine, on prend w = 1) et où rij, ti et si sont<br />
respectivement les coefficients de rotation, de translation et de facteur d’échelle. De cette manière<br />
la transformation T : ps ↦→ pc s’exprime :<br />
pci<br />
= <br />
j<br />
mijpsj .<br />
⎞<br />
⎟<br />
⎠ ;<br />
⎞<br />
⎟<br />
⎠
62 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
Une extension de cette transformation concerne l’utilisation de transformations affines par mor-<br />
ceaux, utilisées dans le cas de recalage inter-sujets. La méthode du Quadrillage Proportionnel de<br />
Talairach en est l’exemple le plus connu [Talairach and Tournoux, 1988].<br />
3.1.3 Transformation projective<br />
L’extension la plus directe <strong>des</strong> transformations affines sont les transformations inférant une<br />
perspective (ou une projection).<br />
C’est une transformation <strong>rigide</strong> (ou affine) qui permet de transformer un amer géométrique<br />
dans R n vers un espace de dimension inférieure R n−m (pour plus de détails sur cette classe<br />
de transformation, le lecteur peut se référer à [Faugeras, 1993]). Le cadre général d’utilisation<br />
de cette transformation est principalement pour <strong>des</strong> recalages 3D/2D, comme par exemple le<br />
recalage de radiographies sur <strong>des</strong> données Scanner X ou IRM [Bainville et al. 1995 ; [Betting et<br />
al., 1995] ; [Brown and Boult, 2002] ; [Fleute et al., 2002] ; [Zollei et al., 2001], [Atif et al., 2004]].<br />
Dans le cas d’une transformation projective recalant par exemple une structure 3D sur une<br />
structure 2D, on définit une matrice M2 dont les coefficients m2ij sont constants et dépendent<br />
<strong>des</strong> équations reliant ps à pc. Dans ce cas le coefficient wc est différent de 1. Ainsi pour une<br />
projection perspective sur le plan (z = αc + b), M2 prend la valeur suivante :<br />
p ′ c = M ′ p ′ s; M ′ = M2M; M2 =<br />
⎛<br />
⎞<br />
c<br />
⎜<br />
0<br />
⎜<br />
⎝ 0<br />
0<br />
c<br />
0<br />
0<br />
0<br />
α<br />
0<br />
⎟<br />
0 ⎟<br />
α c + b<br />
⎟<br />
⎠<br />
1 c<br />
où c est un coefficient de projection (distance focale par exemple). Ainsi nous avons :<br />
p ′ <br />
ci =<br />
j<br />
m ′ ijp ′ sj ; pcj = p′ ci<br />
w<br />
Pour les transformations projectives, l’alignement n’est conservé que pour les horizontales et<br />
les verticales, donc l’image d’une droite n’est une droite que si elle est verticale ou horizontale.<br />
Dans un cadre général, l’image d’une droite est une conique. Notons enfin que la transformation<br />
projective conserve tout de même les rapports de longueurs sur une courbe.
3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 63<br />
3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire<br />
Étant donné que <strong>des</strong> transformations locales sont à prendre en compte, un critère de régu-<br />
larisation doit être alors utilisé pour que le problème du recalage ne se transforme pas en une<br />
procédure de «morphing». En recalage d’<strong>images</strong>, à cause de certains facteurs tel que le bruit<br />
qui corrompt les mesures ou un résidu <strong>non</strong> corrigé, deux primitives homologues ne doivent pas<br />
nécessairement être parfaitement alignées. L’estimation du mouvement nécessite donc une régu-<br />
larisation de l’estimation [Neumaier, 1998], c’est à dire une contrainte sur la forme de la solution<br />
par une connaissance a priori de celle-ci.<br />
Le critère global du recalage est alors une association de deux énergies : le critère de similarité<br />
entre les deux <strong>images</strong> et une énergie de régularisation de la déformation :<br />
Sg(M, N) = − E<br />
sim(M,<br />
N) + Ereg(T) (3.3)<br />
<br />
T<br />
Lors de la procédure d’optimisation, l’énergie de régularisation est mise en compétition avec<br />
l’énergie de similarité, la similarité <strong>des</strong> <strong>images</strong> et la régularité de la transformation étant anta-<br />
gonistes.<br />
3.2.1 Transformation élastique<br />
Les techniques de recalage élastique ont été proposées dans un premier temps par [Bajcsy<br />
et al., 1983] pour la mise en correspondance entre un atlas du cerveau et les données tomoden-<br />
sitométriques d’un sujet humain. L’idée est de modéliser la déformation de l’image source dans<br />
l’image cible comme un processus physique qui ressemble à l’étirage d’un matériau élastique. Ce<br />
processus physique est régi par deux forces : une force interne provoquée par la déformation du<br />
matériau élastique (c.-à-d. effort) qui contrecarre toute force externe qui déforme le corps élas-<br />
tique de son état d’équilibre. Une force externe qui agit sur le corps élastique. Par conséquent la<br />
déformation du corps élastique s’arrête si les deux forces agissant sur le corps élastique forment<br />
un état d’équilibre. Le comportement du corps élastique est décrit par l’équation de dérivées<br />
partielles élastique linéaire de Navier (EDP) :<br />
µ∇ 2 u(x, y, z) + (λ + µ)∇(∇ . u(x, y, z)) + g(x, y, z) = 0. (3.4)<br />
Ici u décrit le champ de déplacement, g est la force externe agissant sur le corps élastique, ∇<br />
dénote l’opérateur de gradient et ∇ 2 dénote l’opérateur de Laplace. Les paramètres µ et λ<br />
sont les constantes d’élasticité de Lamé qui décrivent le comportement du corps élastique. Ces
64 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
constantes sont souvent interprétées en termes du module E1 de Young, qui relie la «tension»<br />
(strain) à la «contrainte» (stress) d’un objet, et du rapport E2 de Poisson, qui est le rapport<br />
entre la contraction latérale et la dilatation longitudinale :<br />
E1 =<br />
µ(3λ + 2µ)<br />
λ + µ<br />
E2 =<br />
λ<br />
2(µ + λ)<br />
La force externe g est la force qui agit sur le corps élastique et qui guide le procédé de recalage.<br />
Un choix commun pour la force externe est le gradient d’une mesure de similarité comme par<br />
exemple une mesure locale de corrélation basée sur les intensités.<br />
(3.5)<br />
L’équation EDP 3.4 peut être résolue par les métho<strong>des</strong> de différences finies et de sur-<br />
relaxations successives (SOR) (Successive Over-Relaxation) [Press et al., 1988]. Ce faisant, un<br />
champ discret de déplacement est produit pour chaque voxel. Alternativement, l’EDP peut être<br />
résolue pour seulement un sous-ensemble de voxels qui correspondent aux nœuds d’un modèle<br />
d’éléments finies [Gee et al., 1997], [Haynor et al., 1998]. Ces nœuds forment un ensemble de<br />
points pour lesquels les forces externes sont connues. Les déplacements <strong>des</strong> autres voxels sont<br />
obtenus par interpolation <strong>des</strong> éléments finis. Davatzikos [Davatzikos, 1997] a proposé une exten-<br />
sion du cadre élastique du recalage pour tenir compte <strong>des</strong> paramètres variables dans l’espace<br />
d’élasticité. Ceci permet à certaines structures anatomiques de se déformer plus librement que<br />
d’autres.<br />
3.2.2 Transformation fluide<br />
Le recalage fondé sur les transformations élastiques est limité par le fait que <strong>des</strong> déformations<br />
fortement locales ne peuvent être considérées puisque l’énergie de déformation liée à l’effort in-<br />
terne augmente proportionnellement avec la force de déformation. Dans le cadre du recalage<br />
fluide ces contraintes sont affaiblies avec le temps ce qui permet de modéliser <strong>des</strong> déformations<br />
fortement locales comprenant <strong>des</strong> coins. Ceci rend le recalage fluide particulièrement attrayant<br />
pour le recalage inter-sujets (recalage d’atlas compris) qui doivent considérer de fortes déforma-<br />
tions avec de grands degrés de variabilité.<br />
Les déformations élastiques sont souvent décrites dans un référentiel lagrangien, c.-à-d. par<br />
rapport à leur position initiale. Contrairement à cela, les déformations élastiques sont plus com-<br />
modément décrites dans un référentiel Eulerien, c.-à-d. par rapport à un volume de contrôle. Dans<br />
le référentiel Eulerien, les déformations du recalage élastique sont caractérisées par l’équation de<br />
dérivées partielles de Navier-Stokes,<br />
µ∇ 2 v(x, y, z) + (λ + µ)∇(∇ . v(x, y, z)) + g(x, y, z) = 0. (3.6)
3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 65<br />
qui ne diffère de l’équation 3.4 que par le fait que la dérivée est effectuée selon le champ v de<br />
vélocité plutôt que selon le champ u de déplacement. Le rapport entre la vélocité Eulerienne et<br />
le champ de déplacement est donné par :<br />
v(x, y, z, t) =<br />
∂u(x, y, z, t)<br />
∂t<br />
+ v(x, y, z, t) . ∇u(x, y, z, t).<br />
Pour résoudre l’equation 3.6, Christensen [Christensen et al., 1996] a suggéré l’utilisation de la<br />
méthode de «sur-relaxation successive» (SOR). Cependant, l’algorithme résultant requiert un<br />
temps de calcul conséquent. [Bro-Nielsen and Gramkow, 1996] ont proposé une variante plus<br />
rapide. Ici, l’equation 3.6 est résolue en dérivant un filtre de convolution à partir <strong>des</strong> fonctions<br />
propres de l’opérateur linéaire d’élasticité. [Bro-Nielsen and Gramkow, 1996] ont également fait<br />
remarquer que ceci revient à une régularisation par convolution avec un filtre gaussien comme<br />
proposé dans la méthode de recalage <strong>non</strong>-<strong>rigide</strong> proposée par Thirion [Thirion, 1998], où la<br />
déformation est modélisée par un processus de diffusion. Cependant, résoudre l’équation 3.6 par<br />
convolution n’est possible que si la viscosité est supposée constante ce qui n’est pas toujours le<br />
cas. Pour remédier à cela, Lester [Lester et al., 1999] a proposé un modèle dans lequel on permet<br />
à la viscosité du fluide de varier, et tient compte donc de différents degrés de déformabilité pour<br />
différentes parties de l’image. L’équation 3.6 doit alors être résolue en utilisant <strong>des</strong> schémas<br />
numériques conventionnels tels que SOR.<br />
3.2.3 Métho<strong>des</strong> d’éléments finis et modèles mécaniques<br />
Comme mentionné précédemment, l’EDP <strong>des</strong> déformations élastiques peut être résolue par<br />
les métho<strong>des</strong> d’éléments finis (MEF). [Edwards et al., 1998] ont proposé une version simplifiée <strong>des</strong><br />
MEF afin de modéliser les déformations <strong>des</strong> tissus mous dans un cadre de chirurgie assistée par<br />
ordinateur. Pour simuler les propriétés <strong>des</strong> structures <strong>rigide</strong>s, élastiques et flui<strong>des</strong> ils proposent un<br />
modèle à trois phases . L’image est divisée en maille triangulaire à n nœuds connectés φi. Chaque<br />
nœud est marqué selon les propriétés physiques <strong>des</strong> structures anatomiques fondamentales : Par<br />
exemple, l’os est marqué comme <strong>rigide</strong>, les tissus mous comme élastiques et le FCS (Fluide<br />
Cérébro-Spinal) comme fluide. Tandis que <strong>des</strong> nœuds marqués en tant que <strong>rigide</strong>s sont maintenus<br />
fixes, <strong>des</strong> nœuds marqués comme élastiques ou flui<strong>des</strong> sont déformés en réduisant au minimum une<br />
fonction d’énergie. [Edwards et al., 1998] ont proposé différents termes d’énergie pour contraindre<br />
les déformations : par exemple, <strong>des</strong> nœuds marqués comme élastique peuvent être contraints par<br />
une énergie de tension :<br />
E tension (φi, φj) = |φj − φi − φ 0 i,j| 2 ,
66 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
où φ 0 i,j<br />
correspond à la relaxation entre deux nœuds. Un choix alternatif pour les nœuds marqués<br />
comme élastiques est de considérer une énergie de rigidité (stiffness) :<br />
E rigidité (φi, φj, φk) = |φj − φk − 2φi| 2 .<br />
Les nœuds marqués comme flui<strong>des</strong> ne sont associés ni à l’énergie de tension ni à l’énergie de<br />
rigidité. En revanche ils ont une énergie d’élasticité (folding) :<br />
E élasticité/folding (φi, φj, φk) =<br />
A 2<br />
γ 2 A 2 0<br />
+ γ2 A 2 0<br />
A 2<br />
si A<br />
A0<br />
2 ailleurs<br />
où A0 est l’aire du triangle <strong>non</strong>-déformé, A est l’aire du triangle déformé et γ est un seuil de<br />
l’aire triangulaire au-<strong>des</strong>sus duquel la contribution d’énergie est constante. Cette énergie empêche<br />
le développement <strong>des</strong> singularités dans la transformation, c.-à-d. ou repliement <strong>des</strong> triangles<br />
(collapsing). Dans la variante proposée par [Edwards et al., 1998] le recalage est guidé par une<br />
mesure de similarité qui réduit au minimum la distance entre <strong>des</strong> points repères correspondants.<br />
3.2.4 Flot optique<br />
Une technique de recalage bien connue est la méthode fondée sur le flot optique. Par analogie,<br />
le flot optique est équivalent à l’équation de mouvement <strong>des</strong> écoulements incompressibles en<br />
mécanique <strong>des</strong> flui<strong>des</strong> [Horn and Schunck, 1980]. À l’origine, le concept du flot optique a été<br />
introduit en vision par ordinateur afin de recouvrer le mouvement d’un objet relativement à une<br />
visionneuse entre deux trames successives, dans une séquence temporelle d’<strong>images</strong>. Il repose sur<br />
l’hypothèse fondamentale que la luminosité (brightness) d’un point particulier d’une image reste<br />
constante entre deux trames successives, c.-à-d.<br />
≤ γ<br />
I(x, y, z, t) = I(x + δx, y + δy, z + δz, t + δt). (3.7)<br />
En utilisant le développement de Taylor et en ignorant les termes d’ordre supérieur, l’équation<br />
de flot optique 3.7 peut être réécrite comme :<br />
Qui peut s’écrire :<br />
∂I dx ∂I dy ∂I dz ∂I<br />
+ + +<br />
∂x dt ∂y dt ∂z dt ∂t<br />
= 0. (3.8)<br />
∆I + ∇I.u = 0, (3.9)
3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 67<br />
où ∆I est la différence temporelle <strong>des</strong> <strong>images</strong>, ∇I est le gradient spatial de l’image et u est la<br />
quantité de mouvement entre les deux <strong>images</strong>. En général, <strong>des</strong> contraintes de régularité supplé-<br />
mentaires sont imposées au champ de mouvement u afin d’obtenir une estimation plausible du<br />
flot optique.<br />
3.2.5 Splines<br />
Le terme «splines» se rapporte à l’origine à de longues ban<strong>des</strong> flexibles de bois ou de métal<br />
auxquelles on attachait <strong>des</strong> poids pour modeler les surfaces <strong>des</strong> bateaux et <strong>des</strong> avions. Un concept<br />
très semblable est employé pour exprimer <strong>des</strong> transformations spatiales. Par exemple, une trans-<br />
formation 2D peut être représentée par deux surfaces séparées dont les hauteurs au-<strong>des</strong>sus d’un<br />
plan correspondent au déplacements dans les directions horizontales ou verticales.<br />
Un grand nombre de techniques de recalage utilisant les splines sont fondées sur l’hypothèse<br />
qu’un ensemble de points homologues peuvent être identifiés dans les <strong>images</strong> source et cible.<br />
Ceci est analogue à l’approche géométrique du recalage <strong>rigide</strong> ou affine. Ces points homologues<br />
sont appelés points de contrôle. À ces points de contrôle, les transformations splines interpolent<br />
ou approximent les déplacements qui sont nécessaires à mettre en correspondance la position<br />
d’un point de contrôle dans l’image cible à son homologue dans l’image source. Les points de<br />
contrôle forment entre eux un champ de déplacement qui varie de façon régulière. La condition<br />
d’interpolation s’écrit :<br />
T(φi) = φ ′ i i = 1, . . . , n, (3.10)<br />
où φi dénote la position du point de contrôle dans l’image source et φ ′ i<br />
la position de son ho-<br />
mologue dans l’image cible. Il est une multitude de façons de déterminer les points de contrôle.<br />
Par exemple, les repères anatomiques ou géométriques qui figurent dans les deux <strong>images</strong> peuvent<br />
être utilisés pour définir la correspondance fondée sur les splines qui peut aligner les positions<br />
<strong>des</strong> repères dans l’image source avec leurs homologues dans l’image cible.<br />
Les plaques minces, splines généralisées<br />
L’idée de base de cette théorie de l’interpolation <strong>des</strong> fonctions à deux variables est due à<br />
Duchon [Duchon, 1976], et la formalisation a été mise en place par Meinguet [Meinguet, 1979]. La<br />
théorie <strong>des</strong> plaques minces fait partie d’une famille plus large de splines fondés sur les fonctions<br />
à base radiale. Ces dernières années, ils ont été largement utilisés en recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong><br />
<strong>images</strong>. Les fonctions spline à base radiale sont obtenues par une combinaison linéaire de n
68 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
fonctions θ(s) :<br />
t(x, y, z) = a1 + a2x + a3y + a4z +<br />
n<br />
bjθ(|φj − (x, y, z)|). (3.11)<br />
En définissant la transformation comme trois fonctions plaques minces séparées : T = (t1, t2, t3) t ,<br />
on obtient une correspondance géométrique entre les <strong>images</strong> dans laquelle les coefficients a ca-<br />
ractérisent la partie affine de la transformation spline et les coefficients b caractérisent la partie<br />
<strong>non</strong>-affine de la transformation. La condition d’interpolation définie dans l’équation 3.10 forme<br />
un ensemble de 3n équations linéaires. Pour déterminer les 3(n + 4) coefficients, douze équations<br />
supplémentaires sont nécéssaires. Ces douze équations assurent que la somme <strong>des</strong> coefficients<br />
<strong>non</strong>-affines b est égale à 0 et que leur produit avec les coordonnées x, y et z est nul. Sous une<br />
forme matricielle ceci peut se traduire par :<br />
<br />
Θ Φ<br />
Φ T 0<br />
<br />
b<br />
a<br />
<br />
=<br />
j=1<br />
<br />
Φ ′<br />
0<br />
<br />
. (3.12)<br />
Ici a est un vecteur 4×3 regroupant les coefficients affines a, b est un vecteur n×3 regroupant les<br />
coefficients <strong>non</strong>-affines b, et Θ est la matrice noyau avec Θij = θ(|φi − φj|). Résoudre ce système<br />
d’équations pour a et b en utilisant <strong>des</strong> métho<strong>des</strong> algébriques conduit à une transformation<br />
spline plaque-mince.<br />
La fonction radiale <strong>des</strong> splines plaque-mince est définie par :<br />
θ(s) =<br />
<br />
|s| 2 log (|s|) en 2D<br />
|s| en 3D<br />
. (3.13)<br />
D’autres fonctions radiales peuvent être utilisées, le choix le plus commun porte sur les mul-<br />
tiquadriques et les fonctions gaussiennes [Arad et al., 1994] [Davis et al., 1997]. Modéliser les<br />
déformations <strong>des</strong> <strong>images</strong> par le biais <strong>des</strong> splines plaque-mince présente nombre d’avantages. Elles<br />
peuvent par exemple être utilisées pour incorporer <strong>des</strong> contraintes supplémentaires comme la<br />
rigidité <strong>des</strong> corps [Little et al., 1997] ou <strong>des</strong> contraintes directionnelles dans la transformation de<br />
l’image cible [Bookstein and Green, 1993] .<br />
B-splines<br />
Généralement les fonctions radiales ont un support fini. Par conséquent chaque fonction<br />
contribue à la transformation et chaque point de contrôle a une influence globale sur la transfor-<br />
mation.
3.2 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche <strong>non</strong>-linéaire 69<br />
Les fonctions B-spline β n (x) présentent d’intéressantes propriétés. Elles sont, entre autres<br />
[Unser et al., 1993a] [Unser et al., 1993b] , <strong>des</strong> fonctions régulières et leurs dérivées sont explicites.<br />
Ce sont <strong>des</strong> fonctions polynomiales par morceaux de degré n ≥ 0 qui peuvent être définies par<br />
une convolution récursive :<br />
où β 0 est l’impulsion carrée unité :<br />
β n (x) = (β n−1 ∗ β 0 )(x)<br />
=<br />
+∞<br />
et où la fonction «sign» est définie par :<br />
−∞<br />
β n−1 (x)β 0 (x − t)dt, n > 0<br />
β 0 (x) = 1<br />
<br />
sign(x +<br />
2<br />
1 1<br />
) sign(x −<br />
2 2 )<br />
<br />
⎧<br />
⎪⎨ −1, x < 0<br />
sign(x) = 0,<br />
⎪⎩<br />
1,<br />
x = 0<br />
x > 0<br />
Dans plusieurs cas de figure, l’influence globale <strong>des</strong> points de contrôle est indésirable puisqu’il<br />
devient difficile de modéliser <strong>des</strong> déformations locales. En outre, pour un grand nombre de points<br />
de contrôle la complexité calculatoire <strong>des</strong> splines fonctions radiales devient prohibitive. Une<br />
alternative est d’employer les déformations de formes libres (FFDs) qui sont largement répandues<br />
en infographie.<br />
3.2.6 Déformations de formes libres<br />
En premier lieu, notons que les déformations libres sont <strong>des</strong> déformations de l’espace. En<br />
effet, l’idée de base derrière les déformations libres est très simple ; elle consiste à plonger l’objet à<br />
déformer dans un espace et à déformer cet espace. Les déformations faites sur l’espace sont ensuite<br />
appliquées à l’objet plongé et le déforment. Il faut aussi noter que cette forme de déformations<br />
libres est une déformation dite indirecte : on ne déforme pas directement l’objet, on se sert plutôt<br />
d’un outil de déformation intermédiaire (les points de contrôle) afin de parvenir à nos fins.<br />
Inspirés en partie par les déformations <strong>non</strong>-linéaires de [Barr, 1984], [Sederberg and Parry,<br />
1986] proposent une façon simple et conviviale de déformer de modèles, qu’ils ont baptisé les<br />
déformations libres. Le procédé se résume en trois étapes principales :
70 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
1. Créer un volume ayant la forme d’un parallélépipède autour de l’objet et imposer <strong>des</strong><br />
coordonnées locales à chaque point de l’objet à déformer<br />
2. Imposer une grille de points de contrôle sur le parallélépipède<br />
3. Déformer l’objet en bougeant les points de contrôle<br />
La première étape est simple à réaliser. Il s’agit simplement de paramétriser l’objet selon les trois<br />
vecteurs de base S, T et U selon l’equation 3.14 (voir figure 3.1).<br />
X = X0 + sS + tT + uU, (3.14)<br />
où u, v et t sont <strong>des</strong> variables paramétriques qui varient entre 0 et 1. X0 est la coordonnée<br />
cartésienne du point de départ (origine) du système paramétrique.<br />
Fig. 3.1 Espace FFD<br />
Lors de la deuxième étape, il s’agit de positionner les points de contrôle sur le parallélépipède<br />
selon l’équation :<br />
Pijk = X0 + j i k<br />
S + T + U, (3.15)<br />
l m n<br />
où l + 1, m + 1 et n + 1 sont les nombres de points de contrôle selon chaque axe tel que spécifié<br />
par l’opérateur. La variable X0 est la coordonnée cartésienne du point de départ (origine) du<br />
système paramétrique. Les variables i, j et k sont les indices (entre 0 et le nombre de points de<br />
contrôle selon chaque axe) du point de contrôle concerné.
3.3 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche hybride 71<br />
Enfin, lors de la troisième étape, la déformation est appliquée sur l’objet à l’aide du poly-<br />
nôme de Bernstein trivarié dont le degré dépend du nombre de points de contrôle demandés par<br />
l’opérateur.<br />
La transformation est illustrée par l’équation suivante :<br />
Xffd =<br />
l<br />
<br />
l<br />
(1 − s)<br />
i<br />
(l−i) s i<br />
⎡<br />
m<br />
<br />
⎣<br />
m<br />
(1 − t)<br />
j<br />
(m−j) t j<br />
<br />
n<br />
<br />
k<br />
n<br />
i=0<br />
j=0<br />
k=0<br />
(1 − u) (n−k) u k Pijk<br />
⎤<br />
⎦<br />
(3.16)<br />
où Xffd est la coordonnée cartésienne du point transformé. l + 1, m + 1 et n + 1 sont les nombres<br />
de points de contrôle selon chaque axe. Pijk est le i, j,k ième point de contrôle selon chaque axe.<br />
s, t et u sont les coordonnées paramétriques du point de l’objet à transformer.<br />
Comme dans le cas <strong>des</strong> surfaces paramétriques, les transformations libres ont les mêmes<br />
avantages et inconvénients que les courbes de Bézier, à savoir :<br />
1. Les déformations sont globales.<br />
2. Les points déformés se trouvent toujours à l’intérieur de l’espace défini par les points de<br />
contrôle.<br />
3. La déformation est indirecte (on ne peut manipuler directement les points de l’objet).<br />
4. Il est possible de choisir une autre base de fonction de mélange et ainsi bénéficier <strong>des</strong><br />
avantages et inconvénients de la base choisie.<br />
Notons qu’il est possible d’utiliser <strong>des</strong> fonctions de déformation autre que le polynôme de<br />
Bernstein. Dans notre modèle, pour modéliser les déformations locales <strong>des</strong> organes, nous utilisons<br />
un modèle de déformations de formes libres où l’on se sert de fonctions B-splines.<br />
3.3 <strong>Recalage</strong> <strong>des</strong> <strong>images</strong> : approche hybride<br />
Après ce bref tour d’horizon, nous allons à présent introduire notre modèle de déformation<br />
qui correspond à une combinaison d’une déformation globale et de déformations locales :<br />
T(x, y, z) = T globale (x, y, z) + T locale (x, y, z) (3.17)<br />
Ce choix est motivé par deux considérations : la première concerne la précision. Comme nous<br />
l’avons expliqué dans les sections précédentes, de plus en plus d’applications médicales néces-<br />
sitent la prise en compte <strong>des</strong> déformations locales dans les <strong>images</strong>. En se restreignant à une<br />
transformation globale ces déformations sont alors ignorées et l’«approximation» du recalage<br />
n’est que peu plausible. La deuxième considération est d’ordre calculatoire. En effet, formuler
72 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong><br />
le modèle de déformation par le biais de deux transformations disjointes permet d’accélérer le<br />
temps de calcul. En pratique, au lieu de ne considérer que le modèle <strong>non</strong>-linéaire (y compris les<br />
déformations libres) pour retrouver les correspondances géométriques globales (affines et <strong>rigide</strong>s),<br />
il est judicieux de procéder dans un premier temps par une approximation globale en utilisant<br />
<strong>des</strong> modèles globaux directs (transformation affine globale). Ainsi, les degrés de liberté ne sont<br />
que de l’ordre de douze au lieu de |3000| dans le cas d’une déformation libre avec une grille de<br />
|10 × 10 × 10| points de contrôle.<br />
3.4 Synthèse du chapitre<br />
Ce chapitre vient de traiter du problème <strong>des</strong> déformations lié au recalage d’<strong>images</strong> médi-<br />
cales. Il a commencé par une présentation <strong>des</strong> déformations linéaires globales. Ces déformations<br />
englobent la transformation <strong>rigide</strong>, la transformation affine et la transformation projective.<br />
Par la suite, une présentation <strong>des</strong> recalages <strong>non</strong>-linéaires a été donnée. Le problème du re-<br />
calage a été formulé pour le cadre <strong>non</strong>-linéaire. Cette formulation intègre un nouveau terme dit<br />
énergie de régularisation. Le critère globale du recalage prend alors la forme d’une somme de<br />
deux énergies : l’énergie de similarité et l’énergie de régularisation.<br />
En outre, les différentes approches du recalage <strong>non</strong>-linéaire ont été exposées. Elles concernent<br />
les approches élastiques, flui<strong>des</strong>, par métho<strong>des</strong> d’éléments finis, splines, et par déformations<br />
libres. Un accent particulier a été mis sur les deux dernières approches. Les différentes métho<strong>des</strong><br />
appartenant à ces classes ont été présentées.<br />
Enfin, ce chapitre a présenté, brièvement, l’approche de recalage adoptée dans ce mémoire.<br />
Cette approche, «hybride», associe deux types de déformations : une déformation globale assurée<br />
par une transformation affine et un ensemble de déformations locales représentées par un modèle<br />
de déformations de formes libres.
Chapitre 4<br />
De la théorie de l’information et <strong>des</strong><br />
mesures de similarités<br />
4.1 Introduction<br />
Dans les chapitres précédents nous avons mis en lumière les fondements théoriques du pro-<br />
blème de recalage médical. Un accent particulier a été mis sur les métho<strong>des</strong> fondées sur la théorie<br />
de l’information et plus principalement sur celles utilisant l’information mutuelle. Notre travail<br />
comme nous avons eu l’occasion de l’expliquer s’inscrit dans ce schéma, qui se veut générique<br />
puisqu’il ne nécessite aucune connaissance a priori sur la dépendance fonctionnelle entre les<br />
modalités à recaler. Nous avons, de plus, mis en exergue la principale difficulté et limitation de<br />
l’information mutuelle : le temps de calcul conséquent qu’elle nécessite. Notre travail s’inscrit dans<br />
la continuité du schéma proposé par ([Viola, 1995]), schéma qui consiste à évaluer l’information<br />
mutuelle en utilisant une méthode d’estimation <strong>non</strong>-paramétrique à noyau continu (gaussien),<br />
n’utilisant ainsi qu’un échantillon <strong>des</strong> voxels <strong>des</strong> <strong>images</strong> et disposant d’un critère continu per-<br />
mettant l’utilisation de stratégies d’optimisation quadratiques fondées sur le gradient.<br />
Le chapitre que nous abordons représente le travail central de cette thèse, puisqu’une nouvelle<br />
mesure de similarité y sera exposée. L’idée originale que nous allons défendre consiste en la défini-<br />
tion d’une nouvelle mesure de similarité fondée sur l’entropie de Rényi. Cette idée qui commence<br />
à se généraliser en analyse et traitement d’<strong>images</strong> [He et al., 2001] a été introduite initialement<br />
par [Principe and Xu, 1999]. Dans le cadre de la classification <strong>non</strong>-supervisée, Principe propose<br />
le schéma original d’utiliser l’entropie de Rényi en association avec un noyau gaussien afin de<br />
réduire considérablement le temps de calcul. Cependant dans ses travaux, Principe ne définit<br />
pas une mesure de similarité qui pourrait s’appliquer au recalage <strong>des</strong> <strong>images</strong>. Nous avons donc<br />
73
74 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
entrepris une étude théorique sur l’entropie généralisée, la divergence généralisée et l’information<br />
mutuelle généralisée dans le sens de Rényi, afin d’en dégager une mesure de similarité applicable<br />
au problème du recalage en particulier, et au problème de comparaison d’<strong>images</strong> en général.<br />
Ce chapitre commence par une définition de la notion d’information, de l’incertain dans un<br />
contexte d’imagerie. Nous allons ensuite introduire les différentes entropies dans l’ordre de leur<br />
apparition chronologique. Nous établirons les motivations qui ont poussé les différents auteurs à<br />
introduire de nouvelles mesures d’entropies. Après définition de la notion d’entropie généralisée<br />
nous introduirons la divergence généralisée puis l’information mutuelle généralisée, pour ensuite<br />
arriver à la définition du critère que nous avons baptisé : Information Mutuelle Quadratique<br />
Normalisée.<br />
4.2 Image, Incertain, Information...<br />
Considérons le niveaux de gris associé à une position d’une image comme un événement<br />
aléatoire. Puisque dans une image certaines intensités sont plus fréquentes que d’autres, leurs<br />
probabilités sont différentes. Chaque valeur a un score différent. En prédisant la valeur d’un<br />
voxel, on doit disposer d’une estimation de l’incertitude sur notre pronostic. Cette estimation<br />
ne peut être calculée qu’en fonction <strong>des</strong> distributions de probabilités observées. Deux cas limites<br />
sont à relever :<br />
1. Toutes les probabilités sont égales, l’incertitude liée à la prédiction de la valeur d’un voxel<br />
donné est alors très grande.<br />
2. L’image ne contient qu’un seul niveau de gris, l’incertitude liée à la prédiction de la valeur<br />
d’un voxel donné est alors nulle.<br />
Si l’on apprend la valeur d’une mesure dont on était incertain, la quantité d’information acquise<br />
est alors grande. À l’opposé, si l’on apprend une valeur dont la probabilité d’occurrence était<br />
assez élevée, la quantité d’information que l’on acquiert est alors moindre. En s’intéressant à la<br />
prédiction d’un ensemble de valeurs, nous pouvons calculer une moyenne de la quantité d’infor-<br />
mation donnée par cet ensemble de valeurs. Pour une image contenant un ensemble de voxels<br />
équiprobables, sa quantité d’information est plus élevée qu’une image où la majorité de voxels<br />
ont la même valeur. Afin d’exprimer ceci de façon mathématique, un ensemble d’axiomes ont été<br />
proposés pour décrire comment doit se comporter une possible mesure d’information. Soit H(M)<br />
une mesure d’information calculée à partir <strong>des</strong> probabilités d’occurrences de i valeurs possibles,<br />
les contraintes définies pour une mesure H(p(m1), p(m2) . . . , p(mi)) d’information incluent :<br />
– La continuité :<br />
Les petits changements <strong>des</strong> probabilités devraient donner seulement de petits change-<br />
ments dans la mesure globale de l’information.
4.2 Image, Incertain, Information... 75<br />
– La symétrie :<br />
La mesure d’information ne doit pas dépendre de l’ordre <strong>des</strong> probabilités :<br />
– La propriété externe :<br />
H(p1, p2, . . . , pi) = H(p2, p1, . . . , pi).<br />
Quand toutes les probabilités sont égales, l’incertitude moyenne et par conséquent<br />
l’information doivent être maximales :<br />
– l’additivité :<br />
Maximum de H(p1, p2, . . . , pi) = H( 1 1 1<br />
i , i , . . . , i ).<br />
Combinaison d’informations de sous-ensembles : Soit les probabilités d’un ensemble de<br />
valeurs, avec une mesure d’information :<br />
HA = H(p1, p2, . . . , pi),<br />
et admettons que l’une de ces valeurs, pi par exemple, puisse être divisée en un second<br />
ensemble B avec <strong>des</strong> probabilités d’occurrence {q1, q2, . . . , qj} et une quantité d’information<br />
spécifique :<br />
HB = H( q1<br />
pi<br />
, q2<br />
pi<br />
, . . . , qj<br />
).<br />
pi<br />
La quantité d’information fournie par l’ensemble <strong>des</strong> valeurs doit être exprimée de la sorte :<br />
HO = H(p1, . . . , pi−1, q1, . . . , qj) = HA + piHB.<br />
Plusieurs fonctions ont été proposées pour exprimer H(.). Nous devons les premières mesures<br />
d’information à la théorie de communication, discipline émergeante au début du siècle dernier.<br />
Le but était alors de quantifier l’information transmise, via un canal, d’un émetteur vers un<br />
récepteur. Pour ce faire, Hartley a définit en 1928, une mesure d’information qui fonde la base de<br />
beaucoup de mesures actuelles [Hartley, 1928]. Il a considéré un message comme une chaîne de<br />
symboles, chacun avec s possibilités d’occurrence. Si le message est composé de n symboles, et si<br />
aucune règle syntaxique n’est fixée, il y aurait s n messages possibles différents. Hartley a défini<br />
alors une mesure d’information qui croît avec la longueur du message. La mesure s n convient,<br />
mais la quantité d’information augmenterait exponentiellement avec la longueur du message. Ce<br />
qui n’est pas réaliste. Il a donc défini une mesure H qui accroît de façon linéaire en fonction de<br />
n :<br />
H = Kn<br />
avec K une constante qui dépend du nombre de symboles s. Il a ensuite admis que, pour deux<br />
messages de tailles n1 et n2 avec s1 et s2 nombres de symboles, respectivement, si s n1<br />
1<br />
= sn2 2 , ie :
76 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
les nombres de messages possibles sont égaux, les quantités d’information par message sont aussi<br />
égales. Il en déduit ainsi une mesure d’information :<br />
On a<br />
et puisque<br />
alors<br />
s n1<br />
1<br />
= sn2<br />
2 ⇒ n1 =<br />
s n1<br />
1<br />
K1<br />
= sn2<br />
2<br />
K1n1 = K2n2<br />
log s n2<br />
2<br />
log s1<br />
log sn2<br />
2<br />
log s1<br />
= K2<br />
⇒ log sn2<br />
2<br />
⇒ n2 =<br />
log s n1<br />
1<br />
log s2<br />
= log sn1<br />
1 ,<br />
K1/ log s1 = K2/ log s2.<br />
log sn1<br />
1<br />
log s2<br />
Cette dernière égalité n’est satisfaite que lorsque Kx = c log sx, avec c une constante arbitraire<br />
qui doit être la même pour tous les Kx. Elle pourrait donc être occultée, K s’écrirait alors :<br />
K = log s.<br />
La mesure d’information proposée par Hartley s’écrit :<br />
H = n log s = log s n<br />
(4.1)<br />
La mesure d’information de Hartley dépend du nombre de messages possibles s n : plus le<br />
nombre de messages possibles est grand, plus la quantité d’information fournie par un certain<br />
message est grande. S’il n’y a qu’un seul message possible, aucun gain d’information n’est obtenu<br />
(log 1 = 0). Le message étant connu. À cet égard, la mesure d’Hartley peut également être vue<br />
comme une mesure d’incertitude. Quand plusieurs messages différents sont possibles, on est moins<br />
sûr de celui que l’on va recevoir. L’incertitude est alors plus grande.<br />
Un inconvénient majeur de la mesure d’Hartley est qu’elle suppose que tous les symboles sont<br />
équiprobables. Ceci représente une hypothèse forte qui est souvent grossièrement fausse. Dans la<br />
plupart <strong>des</strong> <strong>images</strong>, le niveaux de gris du fond est plus fréquent que les autres niveaux de gris. Sa<br />
probabilité est alors largement plus élevée. Si l’on reste dans le domaine de la Communication,<br />
dans un message écrit ou parlé, <strong>des</strong> lettres sont plus fréquentes que d’autres. En français par<br />
exemple, la lettre ’e’ est généralement beaucoup plus utilisée que la lettre ’z’.<br />
Pour surmonter cet inconvénient, [Shan<strong>non</strong>, 1948] a adapté la mesure de Hartley, en pondérant<br />
l’information par symbole par son nombre d’occurrences. Soient les événements e1, . . . , em se
4.2 Image, Incertain, Information... 77<br />
produisant avec les probabilités p1, . . . , pm, l’entropie de Shan<strong>non</strong> est définie par :<br />
H = <br />
pi log 1<br />
= − <br />
pi log pi. (4.2)<br />
i<br />
pi<br />
Si on applique à l’entropie de Shan<strong>non</strong> l’hypothèse que tous les événements sont équiprobables<br />
: pi = 1<br />
s n , on obtient :<br />
Ce qui correspond à l’entropie d’Hartley.<br />
H = − 1 1<br />
log<br />
sn sn = 1<br />
sn log sn = log s n .<br />
En réalité, la forme la plus générique de l’entropie de Shan<strong>non</strong> est donnée par l’espérance<br />
mathématique de la quantité d’information par événement :<br />
i<br />
H(X) = −EX[log(P (X))]. (4.3)<br />
Cette formulation plus régulière révèle l’aspect paramétrique de l’entropie de Shan<strong>non</strong>.<br />
La forme continue de l’entropie de Shan<strong>non</strong> est appelée Entropie différentielle, et est<br />
définie comme :<br />
∞<br />
H(X) ≡ −EX[log(p(X))] = − p(x) log(p(x))dx. (4.4)<br />
−∞<br />
Sous cette forme, l’entropie de Shan<strong>non</strong> présente <strong>des</strong> difficultés de manipulation quand une va-<br />
riable aléatoire est incomplète. Une variable aléatoire est dite incomplète quand <strong>des</strong> observations<br />
la concernant ne peuvent pas être effectuées.<br />
Plusieurs travaux ont suivi ceux de Shan<strong>non</strong>, notamment pour définir <strong>des</strong> formes <strong>non</strong>-<br />
paramétriques généralisées de l’entropie. Les plus connus sont ceux entrepris par [Rényi, 1959].<br />
4.2.1 Entropie généralisée<br />
L’entropie de Rényi serait peut être mieux introduite en faisant appel aux concepts de distri-<br />
butions de probabilités généralisées et de variables aléatoires généralisées, qui sont <strong>des</strong> extensions<br />
<strong>des</strong> notions classiques d’événements aléatoires qui ne peuvent pas être observés. Ce que nous<br />
développons ici traduit le travail original de Rényi ([Rényi, 1961], [Rényi, 1971]).<br />
Considérons un espace de probabilité discret défini sur Ω : Ω1 ∈ 2 Ω avec P [Ω1] > 0. Ω1 et<br />
P définissent un espace de probabilité discret généralisé qui sont différents <strong>des</strong> espaces de pro-<br />
babilités classiques par le seul fait que P [Ω1] < 1 soit possible. Une variable aléatoire X1 définie<br />
dans un espace de probabilité discret généralisé est dite variable aléatoire discrète généralisée. Si
78 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
P [Ω1] = 1, X1 est alors dite variable aléatoire complète (ou ordinaire) ; Si 0 < P [Ω1] < 1, X1 est<br />
une variable aléatoire incomplète. X1 peut être interprétée comme une quantité calculée à partir<br />
d’expériences qui ne sont pas toujours observées, mais qui ne peuvent être observées qu’avec une<br />
probabilité P [Ω1] < 1.<br />
La distribution de probabilité PX d’une variable aléatoire généralisée X est dite distribution<br />
de probabilité généralisée. Le poids W (X) de X est défini par :<br />
W (X) = <br />
PX(x)<br />
avec 0 < W (X) ≤ 1. W (X) = 1 si et seulement si X est une variable aléatoire complète.<br />
x∈X<br />
Les caractéristiques axiomatiques <strong>des</strong> mesures d’information d’expériences aléatoires ont lar-<br />
gement été étudiées en mathématiques. Rényi démontre que les cinq postulats suivants définissent<br />
la seule entropie de Shan<strong>non</strong> [Rényi, 1961].<br />
Postulat 1 : H(X) est invariant aux changements dans l’ordre <strong>des</strong> valeurs x ∈ X et <strong>des</strong> proba-<br />
bilités PX(x).<br />
Postulat 2 : Si X dénote la variable aléatoire généralisée singleton, avec X = {x} et PX(x) = p.<br />
H(X) est alors une fonction continue de p de p, avec 0 < p < 1.<br />
Postulat 3 : Si B définie une variable aléatoire binaire avec B = {0, 1} et PB(0) = PB(1) = 1<br />
2 ,<br />
on a H(B) = 1.<br />
Postulat 4 : Soient X et Y deux variables aléatoires généralisées et soit X × Y une variable<br />
aléatoire généralisée définie dans l’espace X × Y avec la distribution PX×Y = PX(x).PY (y)<br />
pour tout x ∈ X et y ∈ Y. Alors :<br />
H(X × Y ) = H(X) + H(Y )<br />
Postulat 5 : Soient X et Y deux variables aléatoires généralisées avec W (X) + W (Y ) ≤ 1<br />
et X ∩ Y = ∅ et soit X ∪ Y les variables aléatoires définies dans l’espace X ∪ Y tel que<br />
PX∪Y (x) = PX(x) pour tout x ∈ X et PX∪Y (y) = PY (y) pour tout y ∈ Y. Alors :<br />
H(X ∪ Y ) =<br />
W (X)H(X) + W (Y )H(Y )<br />
W (X) + W (Y )<br />
Proposition 3.1. Soit H une mesure d’information de toute variable aléatoire généralisée X<br />
qui satisfait les Postulats 1-5. H est alors définie seulement par :<br />
<br />
− x∈X<br />
H(X) = PX(x) log PX(x)<br />
<br />
x∈X PX(x)<br />
.
4.2 Image, Incertain, Information... 79<br />
Le postulat 5 donne une valeur moyenne arithmétique de la mesure d’information. La forme<br />
globale d’une valeur moyenne <strong>des</strong> nombres {a1, . . . , an} avec <strong>des</strong> poids positifs {w1, . . . , wn} dont<br />
la somme est égale à 1 s’écrit :<br />
µg(A) = g −1 (<br />
n<br />
wig(ai)).<br />
Où g est une fonction continue monotone. Si la valeur moyenne dans le postulat 5 est remplacée<br />
par la valeur moyenne généralisée, on obtient :<br />
i=1<br />
H(X ∪ Y ) = g −1<br />
<br />
W (X)g(H(X)) + W (Y )g(H(Y ))<br />
,<br />
W (X) + W (Y )<br />
Il peut être prouvé facilement que les seules fonctions g admissibles dans ce contexte sont les<br />
fonctions affines g(x) = ax + b, qui débouchent sur l’entropie de Shan<strong>non</strong> par la Proposition<br />
3.1, et les fonctions exponentielles g(x) = 2 (1−α)x qui débouchent sur l’entropie de Rényi [Rényi,<br />
1961] [Rényi, 1971] sur la Proposition 3.2 développée dans la suite de ce paragraphe.<br />
Postulat 5bis : Soient X et Y <strong>des</strong> variables aléatoires généralisées avec W (X) + W (Y ) ≤ 1<br />
et X ∩ Y = ∅ et soit X ∪ Y les variables aléatoires définies dans l’espace X ∪ Y tel que<br />
PX∪Y (x) = PX(x) pour tout x ∈ X et PX∪Y (y) = PY (y) pour tout y ∈ Y. Pour tout α > 0<br />
, soit :<br />
Alors<br />
H(X ∪ Y ) = g −1<br />
α<br />
gα(x) = 2 (1−α)x<br />
W (X)gα(H(X)) + W (Y )gα(H(Y ))<br />
W (X) + W (Y )<br />
Pour α > 0 et α = 0, l’entropie de Rényi d’ordre α d’une variable aléatoire généralisée<br />
X est définie comme suit :<br />
Hα(X) = 1<br />
1 − α log<br />
<br />
x∈X <br />
x∈X<br />
PX(x) α<br />
<br />
.<br />
PX(x) . (4.5)<br />
Proposition 3.2 [Rényi, 1961]. Soit H une mesure d’information pour n’importe quelle va-<br />
riable aléatoire X qui satisfait les Postulats 1-4 et le Postulat 5bis. H est alors unique et est égale<br />
à l’entropie de Rényi Hα.<br />
Dans la suite de ce manuscrit, les propriétés de l’entropie de Rényi sont données seulement<br />
pour les variables aléatoires complètes. Il est facile de démontrer que : limα→1 Hα = H(X). Ceci<br />
explique pourquoi l’entropie de Shan<strong>non</strong> H(X) est parfois appelée entropie de Rényi d’ordre 1
80 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
et est notée H1(X). De même, l’entropie minimum de X : min-entropy, définie par :<br />
est déduite de limα→∞ H∞ = H(X).<br />
H∞ = − log max<br />
x∈X PX(x),<br />
Pour la borne inférieure de α, l’entropie de Rényi d’ordre 0 peut être définie comme le<br />
logarithme de la taille de l’espace probabiliste X :<br />
H0(X) = log |X |<br />
en utilisant la convention 0 0 = 1. Une propriété importante de l’entropie de Rényi est montrée<br />
dans la proposition suivante :<br />
Proposition 3.3 L’entropie de Rényi Hα(X) où α ≥ 0 est une fonction positive décroissante<br />
de α. Pour tout 0 ≤ α < β<br />
Hα(X) ≥ Hβ(X) (4.6)<br />
L’égalité n’est valable que si et seulement si X est distribuée uniformément dans X quand<br />
α = 0 ou X est uniformément distribuée dans un sous-ensemble de X quand α > 0.<br />
Preuve. Pour 0 ≤ α < β avec α = 1 et β = 1,<br />
Hα(X) =<br />
1 <br />
log PX(x)<br />
1 − α<br />
x∈X<br />
α<br />
(4.7)<br />
= − log E[PX(X) α−1 ] 1<br />
α−1 (4.8)<br />
= − log E[PX(X) α−1 ] β−1 1<br />
α−1 β−1 (4.9)<br />
β−1<br />
(α−1)<br />
≥ − log E[PX(X) α−1 ] 1<br />
β−1 (4.10)<br />
= − log E[PX(X) (β−1) ] 1<br />
=<br />
β−1<br />
1 <br />
log PX(x)<br />
β − 1<br />
x∈X<br />
(4.11)<br />
β<br />
(4.12)<br />
= Hβ(X) (4.13)<br />
Il est à noter que la fonction x c est convexe (convex-∪) pour tout c ≥ 0, et concave (convex-<br />
∩) pour tout 0 ≤ c ≤ 1. L’inégalité dans le développement ci-<strong>des</strong>sous ne peut être déduite de<br />
l’inégalité de Jensen 2.63 que dans les cas suivants :<br />
β > α > 1 : c = β−1<br />
α−1 > 1, xc 1<br />
est convexe et β−1 > 0 ;<br />
β > 1 > α ≥ 0 : c = β−1<br />
α−1 < 0, xc 1<br />
est convexe et β−1 > 0 ;
4.2 Image, Incertain, Information... 81<br />
1 > β > α ≥ 0 : 1 > c = β−1<br />
α−1 > 0, xc 1<br />
est concave et β−1 < 0 ;<br />
Pour α = 1 ou β = 1, l’inégalité de Jensen peut être appliquée directement.<br />
Pour α = 2, l’entropie de Rényi est dite entropie quadratique. Elle peut être dérivée de la<br />
probabilité de collision d’une variable aléatoire :<br />
par :<br />
Définition<br />
La probabilité de collision d’une variable aléatoire X distribuée selon PX est donnée par :<br />
Pc(X) = <br />
PX(x) 2<br />
x<br />
L’entropie quadratique de Rényi d’une variable aléatoire X distribuée selon PX est donnée<br />
H2(X) = − log Pc(X) (4.14)<br />
= − log <br />
PX(x) 2<br />
(4.15)<br />
Fondée sur la même idée de la généralisation de la formule moyenne g, et pour <strong>des</strong> considéra-<br />
tions calculatoires, [Havrda and Charvát, 1967] ont proposé une nouvelle mesure d’information,<br />
dépourvue de l’expression logarithmique de l’entropie de Rényi. Notée entropie d’ordre s, la<br />
mesure d’Havrda Charvát s’écrit :<br />
x<br />
H s (X) = (2 1−s − 1) −1 [ <br />
pX(x) s − 1], s = 1, s > 0, (4.16)<br />
x∈X<br />
Dans ce cas, nous pouvons aussi facilement montrer que : lims→1 H s (X) = H(X), l’entropie<br />
de Shan<strong>non</strong>.<br />
par :<br />
De leur côté, Sharma et Mittal [Mittal, 1975] ont introduit une mesure d’entropie donnée<br />
H s r (X) = (2 (1−s) − 1) −1<br />
⎡<br />
<br />
⎣ pX(x) r<br />
x∈X<br />
s−1<br />
r−1<br />
⎤<br />
− 1⎦<br />
, r = 1, s = 1, r > 0, s > 0. (4.17)<br />
Les principales motivations de Sharma et Mittal étaient de généraliser les différentes entropies<br />
proposées depuis 1961 par Rényi. Parmi ces entropies figurent celles que l’on vient d’exposer, et<br />
d’autres que l’on a préféré de ne pas mentionner puisqu’elles n’apportent que peu d’informations
82 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
pour la compréhension de notre critère de similarité. Ainsi l’entropie d’ordre r et de degré s<br />
correspond à l’entropie de Rényi (entropie d’ordre r) quand s → 1, et elle exprime l’entropie de<br />
degré s quand r → 1, et n’est d’autre que l’entropie de Shan<strong>non</strong> quant r → 1 et s → 1.<br />
Soit :<br />
gs(x) = (2 1−s <br />
−1<br />
− 1) 2 (1−s)x <br />
− 1 , s = 1 (4.18)<br />
une fonction définie pour tout x ≥ 0, nous pouvons alors écrire :<br />
4.2.2 Divergence Généralisée<br />
H s r (X) = gs[H 1 r (P )]. (4.19)<br />
H s 1(X) = gs[H(P )]. (4.20)<br />
Nous allons maintenant étudier les principales propriétés de la formule généralisée de l’entro-<br />
pie. Nous essayons d’en dégager la notion de divergence entre deux distributions de probabilités 1 .<br />
A présent, nous allons noter l’entropie généralisée comme :<br />
Inégalité de Shan<strong>non</strong>-Gibbs généralisée :<br />
∆n, où<br />
E s ⎧<br />
H<br />
⎪⎨<br />
r (X) =<br />
⎪⎩<br />
s r (X), r = 1, s = 1, r > 0<br />
Hs 1 (X), r = 1, s = 1<br />
H1 r (X), r = 1, s = 1, r > 0<br />
H(X), r = 1, s = 1<br />
(4.21)<br />
Pour deux variables aléatoires P et U, avec P = (p1, p2, . . . , pn) ∈ ∆n et U = (u1, u2, ˙,un) ∈<br />
On a :<br />
∆n = {Q = (q1, q2, . . . , qn) : qi > 0, i = 1, 2, . . . , n,<br />
n<br />
qi = 1}<br />
E s r (P ) ≤ α E s r(P ||U), α = 1 et 2, (4.22)<br />
1 Pour de plus amples explications nous conseillons aux lecteurs intéressés de consulter le livre de Taneja<br />
disponible en ligne à l’adresse http://mtm.ufsc.br/~taneja/book/book.html.<br />
i=1
4.2 Image, Incertain, Information... 83<br />
où<br />
et<br />
⎧<br />
(2<br />
⎪⎨<br />
α s<br />
Er (P ||U) =<br />
⎪⎩<br />
1−s − 1) −1 [ αMr(P ||U) r−1<br />
s−1 − 1], r = 1, s = 1, r > 0<br />
(21−s − 1) −1 [2 (s−1)H(P ||Q) − 1], r = 1, s = 1<br />
(1 − r) −1 log [ αMr(P ||U)], r = 1, s = 1, r > 0<br />
H(P ||U), r = 1, s = 1<br />
Pour α = 1 et 2, avec :<br />
1 Mr(P ||U) =<br />
2 Mr(P ||U) =<br />
n i=1 pri n i=1 pr i u1−r<br />
i<br />
r 1<br />
r− r piui i=1<br />
n<br />
H(P ||U) = −<br />
n<br />
i=1<br />
, r > 0,<br />
, r > 0,<br />
pi log ui<br />
(4.23)<br />
(4.24)<br />
Preuve : Nath [Nath, 1975] et Van der Lubbe [Van der Lubbe, 1978], ont prouvé les inégalités<br />
suivantes :<br />
et<br />
Pour tout P , U ∈ ∆n, α = 1 et 2, où<br />
Dans les cas limites nous avons<br />
H 1 r (P ) ≤ α Hr(P ||U), r = 1, r > 0, (4.25)<br />
1<br />
Hr(P ||U) = (1 − r) −1 n i=1 log<br />
pri n<br />
i=1 pr i u1−r<br />
i<br />
2<br />
Hr(P ||U) = r<br />
r − 1 log<br />
<br />
n<br />
piu<br />
i=1<br />
1<br />
r− r<br />
i<br />
1 2<br />
lim Hr(P ||U) = lim Hr(P ||U) = H(P ||U)<br />
r→1<br />
r→1<br />
<br />
<br />
, r = 1, r > 0, (4.26)<br />
, r = 1, r > 0, (4.27)<br />
où H(P ||U) donnée dans l’équation (3.21) est la fameuse mesure d’infidélité, dite aussi perplexité,<br />
introduite par [Kerridge, 1961]. Dans ce cas nous pouvons écrire que<br />
H(P ) ≤ H(P ||U) (4.28)<br />
pour tout P , U ∈ ∆n est l’inégalité de Shan<strong>non</strong>-Gibb bien connue en théorie d’information.<br />
De ce raisonnement, nous pouvons définir la divergence de Rényi :
84 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
D’après les équations 3.23 et 3.24 on a :<br />
où :<br />
1 Hr(P ||U) ≤ 2 Hr(P ||U) + D 1 r(P ||U), r = 1, r > 0 (4.29)<br />
D 1 r(P ||U) = (r − 1) −1 log<br />
n<br />
i=1<br />
p r i u 1−r<br />
i<br />
<br />
, r = 1, r > 0 (4.30)<br />
est la divergence directe d’ordre r [Rényi, 1961], dite Divergence de Rényi ou Divergence<br />
Généralisée.<br />
Pour r → 1 la divergence de Rényi n’est rien d’autre que la divergence de Kullback-Leibler :<br />
D(P ||U) =<br />
n<br />
i=1<br />
pi log pi<br />
ui<br />
(4.31)<br />
Dans la littérature, elle est aussi mentionnée comme une fonction de discrimination, d’information<br />
relative ou de divergence directe entre deux distributions.<br />
4.2.3 Information mutuelle généralisée<br />
Comme nous l’avons développé à la fin du chapitre 2, le recalage peut être vu comme un<br />
problème d’inférence statistique où la transformation géométrique est atteinte par maximisation<br />
d’un critère de similarité entre deux <strong>images</strong>. Ces <strong>images</strong> sont alors considérées comme <strong>des</strong> espaces<br />
de réalisations probabilistes où le niveau de gris associé à un voxel constitue la valeur aléatoire.<br />
La quantification de la similarité passe alors par le calcul de l’entropie conjointe et <strong>des</strong> entropies<br />
marginales.<br />
Pour généraliser le concept de l’information mutuelle, il est nécessaire de considérer à présent,<br />
<strong>non</strong> pas <strong>des</strong> valeurs aléatoires dans un cadre marginal, mais le comportement conjoint de deux<br />
ensembles de données.<br />
Considérons deux variables aléatoires discrètes X = {1, 2, . . . , n} et Y = {1, 2, . . . , m} ou une<br />
expérience conjointe (X, Y ) avec les probabilités marginales et conjointes suivantes :<br />
– aij = P r{X = i, Y = j}, A = {a11, a12, . . . , a1m, an1 . . . , anm} ∈ ∆nm,<br />
– pi = P r{X = i}, P = {p1, p2, . . . , pn} ∈ ∆n, et<br />
– qj = P r{Y = j}, Q = {q1, q2, . . . , qm} ∈ ∆m,<br />
pour tout i = 1, 2, . . . , n ; j = 1, 2, . . . , m.<br />
La probabilité conditionnelle de Y = j sachant X = i s’écrit :
4.2 Image, Incertain, Information... 85<br />
– b j/i = P r{Y = j/X = i}, Bi = {b 1/i, b 2/i, . . . , b m/i} ∈ ∆m, pour tout i = 1, 2, . . . , n ;<br />
j = 1, 2, . . . , m.<br />
De même, la probabilité conditionnelle de X = i sachant Y = j s’écrit :<br />
– b i/j = P r{X = i/Y = j}, Bj = {b 1/j, b 2/j, . . . , b n/j} ∈ ∆n, pour tout i = 1, 2, . . . , n.<br />
Notons également,<br />
P.Q = {p1q1, p1q2, . . . , p1qm, . . . , pnq1, . . . , pnqm} ∈ ∆nm.<br />
Les relations suivantes sont connues dans la littérature :<br />
aij = pi.b j/i = qj.b i/j, pi =<br />
pour tout i = 1, 2, . . . , n ; j = 1, 2, . . . , m.<br />
m<br />
aij, et qj =<br />
En utilisant les notations de l’entropie généralisée introduites dans le précédent paragraphe,<br />
nous pouvons écrire :<br />
et<br />
j=1<br />
E s r (X, Y ) = E s r (A),<br />
E s r (X) = E s r (P ),<br />
E s r (Y ) = E s r (Q).<br />
Où E s r est l’entropie généralisée d’ordre r et de degré s introduite dans la section précédente.<br />
et<br />
De même, nous pouvons écrire les entropies conditionnelles généralisées comme :<br />
E s r (Y |X = i) = E s r (Bi), i = 1, 2, . . . , n<br />
E s r (X|Y = j) = E s r (Bj), j = 1, 2, . . . , m.<br />
Les premiers travaux concernant la généralisation de l’analyse multivariée dans le sens de<br />
Shan<strong>non</strong> ont été effectués par [Aczél and Daróczy, 1975]. Dans cette section nous introduirons<br />
l’entropie conditionnelle d’ordre s qui présente une généralisation de l’entropie conditionnelle de<br />
Shan<strong>non</strong> :<br />
C s (P ) =<br />
pour tout P = (p1, p2, . . . , pn) ∈ ∆n.<br />
<br />
n<br />
i=1<br />
(21−s − 1) −1 [ n i=1 psi − 1] , s = 1, s > 0<br />
− n i=1 pi log pi, s = 1<br />
aij<br />
(4.32)
86 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
où<br />
et<br />
Soit :<br />
C s (X|Y = j) =<br />
C s (X|Y ) =<br />
m<br />
j=1<br />
q s j C s (X|Y = j), s > 0, (4.33)<br />
n (21−s − 1) −1<br />
i=1 bs <br />
i|j − 1 , s = 1, s > 0<br />
− n i=1 bi|j log bi|j, s = 1<br />
(4.34)<br />
C s (X, Y ) = C s (Y ) + C s (X|Y ), s > 0 (4.35)<br />
Nous pouvons aussi définir l’information mutuelle d’ordre s :<br />
= C s (X) + C s (Y |X), s > 0 (4.36)<br />
I s (X ∧ Y ) = C s (X) − C s (X|Y ), s > 0.<br />
Elle satisfait l’ensemble <strong>des</strong> propriétés de l’information mutuelle fondée sur l’entropie de Shan<strong>non</strong><br />
définies dans la section 2.2.3 du chapitre 2.<br />
Quelques auteurs (Sahoo, 1983 ; [Van der Lubbe et al., 1987]) ont étendu les équations 3.36<br />
et 3.37 pour d’autres entropies, mais ils n’ont pu aboutir à <strong>des</strong> expressions simples comme c’est<br />
le cas pour C s (X|Y ) dans l’équation 4.33. Dans cette sous-section nous donnerons quelques<br />
définitions simples introduites par Taneja en relation avec le concept de l’entropie généralisée<br />
d’ordre r et de degré s [Taneja, 1990].<br />
où<br />
Si l’on remplace s par 1 dans l’équation 4.33, nous obte<strong>non</strong>s :<br />
H(X|Y ) =<br />
H(X|Y = j) = −<br />
n<br />
i=1<br />
m<br />
qjH(X|Y = j), (4.37)<br />
j=1<br />
b i|j log b i|j, j = 1, 2, . . . , m. (4.38)<br />
En remplaçant H(X|Y = j) par l’entropie généralisée E s r (X|Y = j), nous pouvons écrire :<br />
pour tout r > 0 et tout s.<br />
1 E s<br />
r(X|Y ) =<br />
m<br />
j=1<br />
qjE s r (X|Y = j), (4.39)
4.2 Image, Incertain, Information... 87<br />
Nous pouvons alors en déduire les expressions suivantes :<br />
1 s<br />
Hr (X|Y ) = (2 1−s − 1) −1<br />
⎡<br />
m<br />
⎣<br />
1 H 1 r (X|Y ) = (1 − r) −1<br />
m<br />
j=1<br />
j=1<br />
qj log<br />
qj<br />
n<br />
i=1<br />
n<br />
i=1<br />
b r i|j<br />
b r i|j<br />
<br />
s−1<br />
r−1<br />
⎤<br />
− 1⎦<br />
, s = 1, r = 1, r > 0, (4.40)<br />
, r = 1, r > 0, (4.41)<br />
En extension de l’expression 3.40 [Taneja, 1990] a introduit deux nouvelles définitions de l’entro-<br />
pie conditionnelle d’ordre r :<br />
et<br />
2 1<br />
Hr (X|Y ) = (1 − r) −1 ⎧<br />
⎨ m<br />
log<br />
⎩<br />
3 H 1 r (X|Y ) = r<br />
1 − r log<br />
⎧<br />
⎨ m<br />
⎩<br />
j=1<br />
n<br />
qj b<br />
j=1 i=1<br />
r i|j<br />
qj<br />
n<br />
i=1<br />
b r i|j<br />
⎫<br />
⎬<br />
, (4.42)<br />
⎭<br />
⎫ 1<br />
r ⎬<br />
. (4.43)<br />
⎭<br />
Les expressions <strong>des</strong> entropies conditionnelles d’ordre r et de degré s, peuvent être déduites<br />
<strong>des</strong> deux équations ci-<strong>des</strong>sous, en utilisant la relation de composition 4.18. Ces expressions sont :<br />
et<br />
2 H s r (X|Y ) = gs( 2 H 1 r (X|Y )) (4.44)<br />
= (2 1−s − 1) −1<br />
⎧⎛<br />
⎪⎨ m<br />
⎝<br />
⎪⎩<br />
n<br />
j=1 i=1<br />
qjb r i|j<br />
⎞<br />
⎠<br />
s−1<br />
r−1<br />
⎫<br />
⎪⎬<br />
− 1 ,<br />
⎪⎭<br />
s = 1, r = 1, r > 0, (4.45)<br />
3 H s r (X|Y ) = gs( 3 H 1 r (X|Y )) (4.46)<br />
= (2 1−s − 1) −1<br />
⎧⎡<br />
⎪⎨ m<br />
⎣<br />
⎪⎩<br />
j=1<br />
qj<br />
n<br />
i=1<br />
b r i|j<br />
1<br />
r<br />
⎤<br />
⎦<br />
r s−1<br />
r−1<br />
⎫<br />
⎪⎬<br />
− 1 , s = 1, r = 1, r > 0,(4.47)<br />
⎪⎭<br />
La généralisation de l’information mutuelle de shan<strong>non</strong>, peut alors être effectuée en se servant<br />
<strong>des</strong> formules de l’entropie conditionnelle généralisée :<br />
α N s r (X ∧ Y ) = E s r (X) − α E s r(X|Y ), (4.48)
88 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
pour α = 1, 2, et 3. Par simple calcul ont peut écrire :<br />
où<br />
I(X ∧ Y ) = D(A||P.Q),<br />
D(A||P.Q) =<br />
n<br />
n<br />
i=1 j=1<br />
est la divergence directe entre les distributions A et P.Q.<br />
où<br />
aij log aij<br />
piqj<br />
De la même façon on peut définir l’Information Mutuelle d’ordre r (de Rényi) par :<br />
On peut alors écrire :<br />
pour α = 1, 2, 3 et 4.<br />
4 Hr(X|Y ) = Hr(X) − 4 N r(X ∧ Y ), (4.49)<br />
4 Nr(X ∧ Y ) = Dr(A||P.Q). (4.50)<br />
α Nr(X ∧ Y ) = Hr(X) − α Hr(X|Y ), (4.51)<br />
En récapitulant, on compte quatre définitions différentes de l’information mutuelle généralisée<br />
d’ordre r :<br />
⎧<br />
⎪⎩<br />
Hr(X) − 1 Hr(X|Y ) = Hr(X) − (1 − r) −1 m<br />
⎪⎨ Hr(X) −<br />
Nr(X ∧ Y ) =<br />
2Hr(X|Y ) = Hr(X) − (1 − r) −1 log<br />
Hr(X) − 3Hr(X|Y ) = Hr(X) − r<br />
1−r log<br />
Dr(A||P.Q) = (r − 1) −1 log n<br />
i=1<br />
4.2.4 Information mutuelle généralisée : normalisation<br />
<br />
j=1 qj<br />
n log i=1 br i|j<br />
m<br />
j=1 qj<br />
n i=1 br i|j<br />
<br />
m<br />
j=1 qj<br />
n i=1 br 1 <br />
r<br />
i|j<br />
m j=1 arij (piqj) 1−r<br />
<br />
(4.52)<br />
Dans le chapitre 2, nous avons présenté les différentes formules proposées pour normaliser<br />
l’information mutuelle afin de surmonter le problème du recouvrement partiel. Dans cette sous-<br />
section nous don<strong>non</strong>s leur généralisation dans le sens de Rényi.<br />
Dans le cadre de Shan<strong>non</strong>, l’information mutuelle entre une variable X et elle même se réduit<br />
à l’entropie de Shan<strong>non</strong> marginale de X, c’est à dire que le gain d’information n’est autre que
4.2 Image, Incertain, Information... 89<br />
l’information contenu dans la variable :<br />
I(X, X) = H(X)<br />
Cette égalité n’est pas respectée par l’information mutuelle généralisée. Dans le cadre de Rényi<br />
on peut facilement vérifier que :<br />
α Nr(X ∧ X) = α Hr(X)<br />
Les différentes formules de normalisation s’écrivent alors :<br />
Coefficient de corrélation entropique généralisée<br />
Critère introduit par [Maes et al., 1997] et qui s’écrit :<br />
prend la forme généralisée suivante :<br />
ECC(X, Y ) =<br />
α ECCr(X, Y ) = 2<br />
Information Mutuelle généralisée normalisée<br />
2I(X, Y )<br />
H(X) + H(Y ) .<br />
α Nr(X, Y )<br />
α Nr(X, X) + α Nr(Y, Y ) .<br />
Introduit par Studholme, ce critère dont la forme initiale est :<br />
prend la forme :<br />
α Yr(X, Y ) =<br />
Information exclusive généralisée<br />
forme<br />
Y (X, Y ) =<br />
H(X) + H(Y )<br />
,<br />
H(X, Y )<br />
α Nr(X, X) + α Nr(Y, Y )<br />
α Nr(X, X) + α Nr(Y, Y ) − 2 α Nr(X, Y ) ,<br />
De même que pour l’information exclusive introduite par [Maes et al., 1997], qui prend la<br />
Z(X, Y ) = H(X) − I(X, Y ),
90 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
on définit l’information exclusive généralisée par :<br />
4.2.5 Choix du degré r<br />
α Zr(X, Y ) = α N r(X, X) + α N r(Y, Y ) − 2 α N r(X, Y )<br />
Notre motivation d’entreprendre une étude sur les différentes mesures de similarité dérivées<br />
de l’entropie de Renyi, vient du comportement particulier de cette dernière quand on utilise une<br />
densité de probabilité à noyau gaussien pour calculer sa forme quadratique. Cette idée a été<br />
avancée par Principe et al. dans un cadre de classification <strong>non</strong>-supervisée. Pour r = 2 l’entropie<br />
quadratique s’écrit :<br />
<br />
H2(X) = − log<br />
p(x) 2 dx<br />
Admettons maintenant que la densité de probabilité est estimée en utilisant la méthode de Parzen<br />
à noyaux gaussiens présentée dans le chapitre précédent :<br />
Dans ce cas :<br />
<br />
H2(X) = − log<br />
p(x) = 1<br />
N<br />
<br />
1<br />
= − log<br />
N<br />
= − log 1<br />
N<br />
N<br />
Gh(x − Xi).<br />
i=1<br />
p(x) 2 dx<br />
N<br />
N<br />
i=1 j=1<br />
N<br />
<br />
i=1 j=1<br />
N<br />
Gh(x − Xi)Gh(x − Xj)dx<br />
Gh(x − Xi)Gh(x − Xj)dx.<br />
Sachant que le résultat de la convolution de deux gaussiennes centrées respectivement à ai et aj<br />
est la gaussienne de (ai − aj) avec une covariance égale à la somme <strong>des</strong> covariances initiales :<br />
<br />
x<br />
l’entropie quadratique s’écrit alors :<br />
G(x − ai, Σ1)G(x − aj, Σ2)dx = G(ai − aj, Σ1 + Σ2),<br />
H2(X) = − log 1<br />
N<br />
N<br />
i=1 j=1<br />
N<br />
G2h(Xi − Xj). (4.53)
4.2 Image, Incertain, Information... 91<br />
Le coût de calcul est réduit drastiquement à O(N 2 ), car l’entropie s’exprime alors par une<br />
simple somme d’interactions mutuelles entre tous les échantillons.<br />
Pour ces raisons, notre choix s’est porté sur la forme quadratique (r=2) de l’entropie de Rényi<br />
et par conséquent sur l’information mutuelle généralisée.<br />
4.2.6 Choix de α<br />
Nous avons présenté dans la section précédente quatre définitions différentes de l’informa-<br />
tion mutuelle de Rényi données dans l’équation 4.52. Mais laquelle de de ces définitions est la<br />
plus appropriée comme critère de recalage ? Encore une fois notre choix va être motivé par les<br />
propriétés calculatoires de ces quatre définitions.<br />
Pour les quatre définitions données dans l’équation 4.52, la complexité est de O(m × N 2 )<br />
où m correspond au domaine de réalisations <strong>des</strong> probabilités, i.e le nombre de niveaux de gris<br />
maximal dans le cas du recalage. En outre le calcul de l’entropie conditionnelle n’est pas trivial<br />
puisque il nécessite une méthode d’estimation de probabilité conditionnelle particulière. 2<br />
Le critère que nous visons à exploiter doit de plus présenter un comportement robuste face<br />
au problème du recouvrement partiel.<br />
Proposition<br />
soit<br />
Y2(X, Y ) = H2(X) + H2(Y )<br />
H2(X, Y )<br />
− 1. (4.54)<br />
Ce critère présente les mêmes propriétés que l’information mutuelle normalisée proposée par<br />
Studholme :<br />
– Y2(X, Y ) = Y2(Y, X). Cette égalité vient du fait que H2(X, Y ) = H2(Y, X).<br />
– Y2 est minimale et est égale à 0 quand les deux variables X et Y sont complètement<br />
indépendantes.<br />
Preuve :<br />
<br />
H2(X, Y ) = − log p<br />
X Y<br />
2 (x, y)dxdy.<br />
2 Quoique, il serait intéressant d’évaluer les comportements de ces différentes mesures. Une <strong>des</strong> perspectives de<br />
cette thèse est de proposer une méthode d’estimation de l’entropie conditionnelle et d’entreprendre une étude sur<br />
le comportement de ces différentes mesures
92 De la théorie de l’information et <strong>des</strong> mesures de similarités<br />
Pour X et Y deux V.A indépendantes on a : p(x, y) = p(x)p(y), et on peut alors écrire :<br />
<br />
H2(X, Y ) = − log<br />
<br />
= − log<br />
X<br />
X<br />
= H2(X) + H2(Y )<br />
L’information quadratique normalisée est alors nulle :<br />
Y2(X, Y ) = H2(X) + H2(Y )<br />
H2(X, Y )<br />
p 2 <br />
(x)dx p<br />
Y<br />
2 (y)dy<br />
p 2 <br />
(x)dx − log p 2 (y)dy<br />
Y<br />
− 1<br />
= H2(X) + H2(Y )<br />
− 1 = 0<br />
H2(X) + H2(Y )<br />
– Y2 est maximale et est égale à 1 quand les deux variables sont complètement dépendantes<br />
ie. p(x, y) = p(x) = p(y).<br />
preuve :<br />
Pour deux V.A complètement dépendantes :<br />
<br />
H2(X, Y ) = − log<br />
<br />
= − log<br />
X<br />
X<br />
<br />
Y<br />
p 2 (x, y)dxdy<br />
p 2 (x)dx<br />
= H2(X) = H2(Y )<br />
L’information mutuelle quadratique normalisée dans ce cas s’écrit :<br />
4.3 Synthèse du chapitre<br />
Y2(X, Y ) = H2(X) + H2(Y )<br />
− 1<br />
H2(X, Y )<br />
=<br />
H2(X)<br />
2<br />
− 1 = 1.<br />
H2(X) + H2(X)<br />
Le but de ce chapitre était d’entreprendre une étude théorique sur la notion de quantification<br />
d’information afin de définir une nouvelle classe de mesures de similarité.<br />
Ce chapitre a commencé par une définition de la notion d’information et de l’incertitude dans<br />
un contexte d’imagerie. Par la suite, différentes entropies ont été introduites dans l’ordre de leur<br />
apparition chronologique. Les motivations qui ont poussées les différents auteurs à introduire de<br />
nouvelles mesures d’entropies ont été établies.
4.3 Synthèse du chapitre 93<br />
Après définition de la notion de variable aléatoire incomplète, ce chapitre a introduit l’entropie<br />
généralisée dans le sens de Rényi. La divergence de Rényi, quant à elle, a été définit en généralisant<br />
l’inégalité de Shan<strong>non</strong>-Gibbs.<br />
Par la suite, le cadre d’étude a été étendu à l’analyse multivariée pour généraliser la notion<br />
d’information mutuelle. Une classe de mesures d’information fondées sur l’information mutuelle<br />
généralisée a alors été définie.<br />
Enfin, après une discussion de l’applicabilité <strong>des</strong> mesures définies, ce chapitre se termine par<br />
la proposition d’un critère de recalage prenant en compte le problème du recouvrement partiel.<br />
Ce critère a été baptisé «Information Mutuelle Quadratique Normalisée».
Chapitre 5<br />
De l’estimation <strong>non</strong>-paramétrique <strong>des</strong><br />
densités de probabilité<br />
5.1 Introduction<br />
Estimer la fonction de densités de probabilité (PDF) d’une distribution continue à partir<br />
d’un échantillon représentatif tiré de sa représentation initiale est un problème d’une importance<br />
fondamentale en apprentissage automatique (Machine Learning) et en reconnaissance de formes.<br />
Dans le cadre de notre problématique les densités de probabilité sont nécessaires au calcul du<br />
critère de similarité ; celui-ci étant de nature entropique. Dans la dernière section du chapitre 2<br />
nous avons développé les deux métho<strong>des</strong> principales utilisées dans le cadre du recalage : le noyau<br />
de Parzen et la méthode de l’histogramme. Nous avons exposé sommairement leurs principes ainsi<br />
que leurs limitations. Dans ce chapitre nous allons revenir sur les principes théoriques de l’esti-<br />
mation <strong>des</strong> densités de probabilités. L’accent sera mis sur les métho<strong>des</strong> dites <strong>non</strong>-paramétriques à<br />
noyau adaptatif. Nous présenterons par la suite la méthode d’estimation que nous avons choisie,<br />
son cadre théorique ainsi que ses comportements asymptotiques.<br />
Nous nous intéressons dans cette thèse au problème du recalage d’<strong>images</strong> ; le lecteur doit<br />
comprendre ici par densité de probabilité une fonction continue régissant la distribution <strong>des</strong><br />
niveaux de gris dans une image. Dans ce cadre, le paradoxe de l’estimation réside dans le fait que<br />
la fonction de densité peut être calculée par un simple balayage de l’image. Toutefois, les <strong>images</strong><br />
sont sujettes à <strong>des</strong> déformations géométriques pendant le déroulement de l’algorithme de recalage<br />
et leur densité doit être évaluée à chaque itération, ce qui peut s’avérer pénalisant en temps de<br />
calcul. Pour remédier à cet inconvénient, il est préférable de ne considérer qu’un échantillon de<br />
95
96 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
voxels représentatif et de trouver une fonction d’interpolation qui, à partir de celui-ci, rendrait<br />
compte le plus fidèlement de la distribution réelle de ses niveaux de gris.<br />
Quand on peut assigner une forme particulière à la densité de probabilités, en raison de<br />
connaissances a priori du processus la régissant, le problème de l’estimation se réduit à l’évalua-<br />
tion <strong>des</strong> paramètres définissant cette fonction de densité. L’estimation est alors dite paramé-<br />
trique.<br />
La plus répandue <strong>des</strong> fonctions de densités est la densité normale. La raison de sa popularité<br />
provient du «théorème de la limite centrale», qui prouve que la densité de la somme d’un très<br />
grand nombre de variables aléatoires indépendantes tend vers une gaussienne. En outre, du fait<br />
de leur nature exponentielle, les manipulations mathématiques <strong>des</strong> densités gaussiennes sont tout<br />
à fait simples à réaliser. Du reste, puisque toute fonction linéaire d’une densité gaussienne est<br />
elle-même gaussienne, elles sont largement répandues en théorie <strong>des</strong> systèmes linéaires. Ainsi,<br />
la majorité <strong>des</strong> processus aléatoires continus sont représentés par <strong>des</strong> gaussiennes. Une densité<br />
gaussienne est définie par :<br />
Gψ(x − µ) = 1<br />
√ 2πψ e<br />
1<br />
− 2<br />
(x−µ) 2<br />
ψ . (5.1)<br />
Les paramètres à évaluer sont alors la variance ψ et la moyenne µ. Autrement dit, les carac-<br />
téristiques globales de la distribution <strong>des</strong> données peuvent être résumées à un vecteur moyenne<br />
et une matrice de covariance dans le cas d’une analyse multivariée.<br />
La densité gaussienne présente nombre d’avantages. Cependant on ne peut l’utiliser pour<br />
exprimer tout processus aléatoire. En effet, la densité de probabilité associée à certains processus<br />
réels ne peut s’apparenter à une gaussienne, et en particulier, c’est le cas <strong>des</strong> niveaux de gris dans<br />
une image médicale 1 . Une forte limitation <strong>des</strong> densités gaussiennes, et <strong>des</strong> densités exponentielles<br />
en général, réside dans le fait qu’elles sont unimodales ( i.e. elles ont une seule crête).<br />
Cependant, en observant l’histogramme de l’IRM dans la figure 5.1, il est facile de remarquer<br />
que la distribution <strong>des</strong> niveaux de gris peut être modélisée par un mélange (mixture) de fonctions<br />
de densités paramétriques. La seule contrainte est que ce mélange doit définir et satisfaire les<br />
conditions de base d’une fonction de densités de probabilités, à savoir que son intégrale sur<br />
son domaine doit être égale à 1. Les modèles finis de mélange, également connus sous le nom<br />
d’estimateurs Semi-Paramétriques de densité, présentent une approche puissante d’estimation de<br />
fonctions arbitraires de densité et le cas spécifique de «Mélange de Gaussiennes» [Bishop, 1995]<br />
est une illustration parfaite de leur succès. Entre autres applications, ils ont été par exemple<br />
utilisés avec succès pour la définition <strong>des</strong> probabilités d’émission d’un modèle de Markov caché<br />
1 Cependant on peut forcer les niveaux de gris d’une image à suivre une distribution gaussienne aux prix de<br />
pré-traitements telle que l’égalisation de l’histogramme
5.1 Introduction 97<br />
(a) Coupe IRM d’un patient souffrant d’une polykystose<br />
rénale<br />
0.05<br />
0.045<br />
0.04<br />
0.035<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
0<br />
0 100 200 300 400 500 600<br />
(b) Histogramme de la coupe IRM.<br />
Fig. 5.1 Coupe axiale IRM et son histogramme. Plusieurs mo<strong>des</strong> sont présents<br />
dans cet histogramme.
98 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
pour la reconnaissance de la parole [Rabiner, 1990]. Le modèle de mélange de gaussiennes s’écrit :<br />
M(x, θ) =<br />
N<br />
i=1<br />
ciGψi (x − µi), (5.2)<br />
où θ représente la collection <strong>des</strong> paramètres (N, {µi}, {ψi}, {ci}). L’intégration de ce modèle à 1<br />
est assurée quand ci = 1. Une densité de mélange n’a pas besoin d’être uni-modale ; elle peut<br />
avoir autant de crêtes que nécessaire.<br />
Étant donné un grand nombre de gaussiennes, toute densité peut être modélisée presque<br />
exactement. Comme évoqué dans les chapitres précédents, le maximum de vraisemblance peut<br />
être employé pour choisir le meilleur ensemble de paramètres pour un échantillon donné a. Tou-<br />
tefois, il est aussi possible de rechercher le vecteur de paramètres en utilisant la montée du<br />
gradient. Pour les modèles de mélanges gaussiens une technique plus efficace connue sous le nom<br />
de Expectation-Maximisation ([Dempster et al., 1977]) est généralement utilisée. Dans un cas<br />
comme dans l’autre, trouver le meilleur vecteur de paramètres peut impliquer un processus de<br />
recherche assez long.<br />
5.2 Estimateurs <strong>non</strong>-paramétriques<br />
L’approche semi-paramétrique de l’estimation réduit le nombre d’hypothèses de départ concer-<br />
nant la nature de la densité réelle. Toutefois c’est l’approche <strong>non</strong>-paramétrique de l’estimation<br />
<strong>des</strong> densités qui é<strong>non</strong>ce le moins d’hypothèses sur la nature de la densité réelle. Les estimateurs<br />
<strong>non</strong>-paramétriques <strong>des</strong> densités de probabilités ont la particularité, très avantageuse, de ne faire<br />
aucune hypothèse quant à la structure fonctionnelle de la densité réelle.<br />
5.2.1 Histogramme<br />
Formellement, le problème de l’estimation consiste à approcher une fonction de densité de<br />
probabilité inconnue f à partir d’un échantillon {X1, X2, . . . , Xn} de variables aléatoires indé-<br />
pendantes et de même loi de densité f. L’idée la plus naturelle consiste à évaluer la densité f au<br />
point x en comptant le nombre d’observations «tombées» dans un certain voisinage cubique de<br />
x = (x1, . . . , xd) de la forme :<br />
<br />
x1 − h<br />
2 , x1 + h<br />
<br />
× · · · × xd −<br />
2<br />
h<br />
2 , xd + h<br />
<br />
= x1 −<br />
2<br />
h<br />
2 , x1 + h<br />
d ,<br />
2
5.2 Estimateurs <strong>non</strong>-paramétriques 99<br />
où h est un nombre strictement positif dépendant de n, ce qui conduit à l’estimateur :<br />
ˆfh(x) =<br />
<br />
# i ∈ 1, . . . , n : Xi ∈ x1 − h<br />
2 , x1 + h<br />
<br />
d<br />
2<br />
nhd . (5.3)<br />
Le symbole #A désigne le cardinal de l’ensemble fini A. Cette dernière expression peut encore<br />
s’écrire :<br />
ˆfh(x) = 1<br />
nh d<br />
n<br />
i=1<br />
où la fonction 1 1<br />
[− , 2<br />
introduit en 1951 par [Fix and Hodges, 1951].<br />
5.2.2 Modèle de Parzen<br />
1 1<br />
[− , 2 2] d<br />
x − Xi<br />
2] d est la densité de probabilité uniforme sur − 1<br />
2<br />
h<br />
<br />
, (5.4)<br />
<br />
1 d.<br />
, 2 Ce modèle a été<br />
En s’inspirant de la formule 5.4, et en définissant K comme étant une fonction réelle bornée<br />
d’intégrale 1 sur R d , on définit l’estimateur ˆ fh associé au noyau K par<br />
ˆfh(x) = 1<br />
nh d<br />
n<br />
<br />
x − Xi<br />
K<br />
. (5.5)<br />
h<br />
i=1<br />
Lorsque le noyau K est choisi positif, l’estimateur ˆ fh est une densité de probabilité et on parle<br />
alors parfois de la densité de probabilité empirique de noyau K. Parmi les multiples estimateurs<br />
<strong>non</strong>-paramétriques de la densité aujourd’hui à la disposition <strong>des</strong> utilisateurs, l’estimateur à noyau<br />
est, de loin, le plus populaire ([Akaike, 1954], [Rosenblatt, 1956], [Parzen, 1962], [Silverman,<br />
1986], [Devroye, 1987] et [Scott, 1985]). Le succès rencontré par l’estimateur à noyau auprès de<br />
la communauté <strong>des</strong> utilisateurs peut essentiellement s’expliquer en trois points :<br />
– D’abord, l’expression théorique 5.5 de ˆ fh(x) est extrêmement simple, puisque ˆ fh(x) est la<br />
somme de n variables aléatoires indépendantes et identiquement distribuées.<br />
– Ensuite, ˆ fh converge vers f en de nombreux sens, et en particulier au sens L1 pour toute<br />
densité f dès que 1/h et nh d tendent tous les deux vers l’infini (la dépendance de h en n<br />
sera toujours sous-entendue). D’autre part, si l’estimateur est convergent, il est convergent<br />
dans tous les mo<strong>des</strong>, i.e. en probabilité, en moyenne, «presque sûrement» et «presque<br />
complètement» [Devroye and Györfi, 1985] ;<br />
– Enfin, l’estimateur à noyau est flexible, dans la mesure où il laisse à l’utilisateur une grande<br />
latitude <strong>non</strong> seulement dans le choix du noyau K, mais dans le choix du paramètre réel h.<br />
Lorsqu’on se limite aux noyaux K positifs, les vitesses de convergence varient peu en fonction<br />
de K et les critères du choix du noyau sont alors : la simplicité et la vitesse de calcul d’une part,
100 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
la régularité de la courbe à obtenir d’autre part. En revanche, le choix du paramètre de lissage h<br />
se révèle crucial aussi bien pour la précision locale que pour la précision globale de l’estimateur<br />
ˆfh. Il est facile de vérifier que, pour les noyaux usuels et pour un ensemble de données fixé, la loi<br />
de densité ˆ fh converge (étroitement) vers la mesure empirique lorsque h tend vers 0 et que ˆ fh<br />
tend uniformément vers la fonction nulle lorsque h tend vers l’infini. En jouant sur la largeur de<br />
fenêtre, on peut donc faire décrire à ˆ fh un ensemble de lois dont les extrêmes seront «proches»<br />
de lois discrètes d’un côté, et de lois uniformes de l’autre.<br />
Fig. 5.2 Estimation à noyau à fenêtre fixe<br />
La procédure de Parzen à fenêtre fixe tend à estimer la densité à chaque point x en calculant la<br />
moyenne <strong>des</strong> noyaux normalisés (mis à la même échelle) centrés à chacun <strong>des</strong> points de données.<br />
Une <strong>des</strong>cription équivalente consiste à placer une masse de probabilité de 1/n sous forme d’une<br />
cloche à chaque point. La figure 5.2 montre la construction d’un tel processus. Les lignes verticales<br />
au-<strong>des</strong>sous de l’axe x <strong>des</strong> ordonnées dénotent la position <strong>des</strong> points de données, les lignes en<br />
pointillés représentent les différents noyaux utilisés pendant le processus de l’estimation, et la<br />
ligne pleine correspond à la courbe résultat. La valeur du paramètre de lissage est indiquée par<br />
la flèche.<br />
Le paramètre de lissage h contrôle donc le degré de régularité (Fig. 5.3). Une petite valeur<br />
de h mènerait à <strong>des</strong> estimations sous-lissées qui montrent de fausses crêtes tandis qu’une grande<br />
valeur de h causerait l’élimination d’une grande partie du détail. C’est un fait bien établi [Scott,<br />
1992] que les performances d’un estimateur à noyau (en termes d’erreur et d’évaluation visuelle)<br />
dépendent fortement du choix du paramètre de lissage. La structure fonctionnelle du noyau est
5.2 Estimateurs <strong>non</strong>-paramétriques 101<br />
Fig. 5.3 Noyaux fixes d’estimation de tailles 0.2 (a) et 0.8 (b).<br />
d’une importance relative 2 , excepté dans le cas où la contrainte de <strong>non</strong>-négativité est relâchée.<br />
Dans ce cas, la fonction noyau sera choisie de façon à réduire le biais.<br />
Afin d’apprécier la qualité d’une estimation, un critère d’erreur doit être utilisé. L’idée d’op-<br />
timalité est alors directement liée à celui-ci. L’erreur quadratique moyenne qui correspond à la<br />
somme de la variance et du biais au carré est l’un <strong>des</strong> critères les plus répandus. Formellement,<br />
la MSE 3 s’écrit en fonction de la densité réelle f et de l’estimée ˆ f :<br />
MSE( ˆ 2 f) = E ˆf(x) − f(x) = Var( ˆ <br />
f(x)) + Biais( ˆ 2 f(x)) .<br />
Comme critère global d’erreur, soit l’Erreur Quadratique Moyenne Intégrée, MISE 4<br />
MISE( ˆ 2 f) = E ˆf(x) − f(x) dx,<br />
2 Ici l’importance du noyau concerne le cadre général de l’estimation. Dans l’algorithme que nous développons<br />
le choix du noyau a une importance autre, liée à la contrainte calculatoire.<br />
3 Au lieu d’utiliser la notation française EQM (Erreur Quadratique Moyenne), nous préférons utiliser l’abbréviation<br />
anglaise puisque d’autres critères d’erreur seront introduits et leur traduction française n’est pas si<br />
évidente)<br />
4 MISE pour Mean Integrated Squared Error
102 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
et l’Erreur Quadratique Intégrée Moyenne IMSE (Integrated Mean Squared Error) :<br />
IMSE( ˆ <br />
f) =<br />
2 E ˆf(x) − f(x) dx.<br />
L’IMSE, MISE et MSE sont équivalentes par le Théorème de Fubini. Quand ces erreurs tendent<br />
vers zéro on dit que l’estimateur est L2 consistant.<br />
Une autre mesure aussi utilisée est l’Erreur Quadratique Intégrée (ISE 5 ) :<br />
ISE( ˆ f) =<br />
2 ˆf(x) − f(x) dx.<br />
Souvent la MSE ou la MISE ne peuvent être calculées exactement et <strong>des</strong> techniques asympto-<br />
tiques sont utilisées pour dériver <strong>des</strong> approximations utiles. Ces approximations seront notées<br />
respectivement AMSE 6 ou AMISE 7 .<br />
Lorsque le noyau est considéré fixe univarié, l’expression de AMISE est obtenue par un simple<br />
développement en série de Taylor :<br />
E ˆ f(x) =<br />
=<br />
EKh(x − X)<br />
<br />
1 − t<br />
K(x<br />
h h )f(t)dt<br />
<br />
= K(w)f(x − hw)dw<br />
<br />
= f(x) K(w) − hf ′ <br />
(x)<br />
wK(w) + 1<br />
2 h2f ′′ <br />
(x)<br />
w 2 K(w) + . . . ,<br />
En supposant que f ′′ est continue en x. Puisque le noyau K est supposé définir une densité<br />
continue de probabilité satisfaisant les conditions du moment :<br />
<br />
K(w)dw = 1;<br />
le biais est donné par :<br />
<br />
wK(w)dw = 0; et σ 2 K =<br />
Biais(x) = 1<br />
2 h2 σ 2 Kf ′′ (x) + O(h 4 ).<br />
<br />
w 2 K(w)dw > 0, (5.6)<br />
Ce qui donne la formule (asymptotique) du Biais Quadratique Intégré (En supposant que f ′′ est<br />
absolument continue) :<br />
5 Integrated Squared Error<br />
6 Asymptotic Mean Squared Error<br />
7 Asymptotic Mean Integrated Squared Error<br />
ISB(h) = 1<br />
4 h4 σ 4 R(f ′′ ), (5.7)
5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ? 103<br />
où la fonction R est définie par R(φ) = φ 2 (z)dz. Via un développement similaire on obtient :<br />
qui donne la Variance Intégrée (asymptotique)<br />
Var(x) = f(x)R(K)<br />
,<br />
nh<br />
À partir <strong>des</strong> équation 5.7 et 5.8, l’AMISE est donnée par :<br />
AMISE(h) = R(K)<br />
nh<br />
L’expression du AMISE est minimisée quand h est égal à :<br />
h ∗ =<br />
VI = R(K)<br />
. (5.8)<br />
nh<br />
+ 1<br />
4 h4 σ 4 R(f ′′ ). (5.9)<br />
<br />
R(K)<br />
σ4 KR(f ′′ 1/5 . (5.10)<br />
)<br />
En remplaçant h dans l’équation 5.9 par l’expression de h ∗ donnée par l’équation 5.10, on obtient<br />
le meilleur critère d’erreur AMISE, qui diminue à un taux de O(n −4/5 ). Scott [Scott, 1992] a<br />
démontré que la méthode de l’histogramme a le taux le plus faible O(n −2/3 ), alors que le meilleur<br />
taux de convergence est donné par l’erreur Quadratique Integrée Moyenne MISE, qui est de<br />
O(n −1 ).<br />
5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ?<br />
Il existe plusieurs situations où le fait de fixer le paramètre de lissage conduit à <strong>des</strong> résultats<br />
aberrants, ou du moins à <strong>des</strong> estimations insuffisantes. La qualité du recalage dépend fortement<br />
de la qualité de l’estimation de l’histogramme conjoint et par conséquent du choix du paramètre<br />
de lissage h.<br />
Pour illustrer la nécessité de faire varier la taille <strong>des</strong> fenêtres lors d’une procédure d’estimation,<br />
[Silverman, 1986] s’est appuyé sur <strong>des</strong> données relevées d’une étude sur le suicide (Fig. 5.4).<br />
Ces données présentent plusieurs mo<strong>des</strong> 8 et posent ainsi le même problème que les données<br />
<strong>des</strong> <strong>images</strong> médicales : les données exploitées par Silverman sont caractérisées par «une longue<br />
extrémité droite» comme c’est le cas pour la plupart <strong>des</strong> histogrammes <strong>des</strong> <strong>images</strong> médicales<br />
(voir Figs. 5.8, 5.9, 5.10, 5.8 et 5.12).<br />
8 Le mode est la valeur la plus souvent observée dans un ensemble de données.
104 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
Fig. 5.4 Estimations de la densité d’étude sur le suicide (Silverman), à droite h=<br />
60 et à gauche h=20.<br />
Dans le cas <strong>des</strong> <strong>images</strong> médicales, une simple égalisation ne suffit pas pour atténuer la pré-<br />
pondérance du niveaux de gris du fond. Choisir le paramètre h qui lisse autour du mode de<br />
la distribution sous-lisserait la sous-distribution de droite. En revanche, une valeur de h assez<br />
grande lisserait suffisamment cette courbe, mais éliminerait plusieurs niveaux de détails concer-<br />
nant le mode. Dans la figure 5.4 la première courbe correspond à une estimation à noyau normal<br />
fixe avec h = 20, alors que la seconde courbe correspond à h = 60 . Silverman observe que dans<br />
les zones où f est grande en magnitude, h doit être petit alors que dans les zones où f est petite<br />
en magnitude, h devrait être grand.<br />
L’estimation à noyau fixe trouve alors ses limites pour les données multimo<strong>des</strong> [Minnotte and<br />
Scott, 1993]. Il est difficile de trouver un seul paramètre de lissage qui différencierait adéquate-<br />
ment deux crêtes distinctes et les vallées entre ces crêtes. Un paramètre de lissage très grand peut<br />
sur-lisser et éliminer ainsi <strong>des</strong> mo<strong>des</strong> significatifs. Par contre un paramètre trop petit introduirait<br />
de fausses crêtes en sous-lissant la courbe.<br />
Pour <strong>des</strong> dimensions supérieures, l’estimation à noyau fixe est vouée à l’échec, à moins que<br />
la taille de l’échantillon ne soit suffisamment grande. Pour <strong>des</strong> échantillons de tailles moyennes,<br />
le paramètre de lissage doit être grand de façon à éliminer tous les détails locaux et à ne garder<br />
ainsi qu’un degré de variation raisonnable.
5.3 Pourquoi <strong>des</strong> noyaux adaptatifs ? 105<br />
En général, l’estimation à noyau fixe trouve ses limites dans le cas de densités présentant <strong>des</strong><br />
changements en magnitude. Cependant, [Cacoullos, 1966] a montré que doivent être prises en<br />
compte <strong>non</strong> seulement les changements en magnitude mais aussi les courbures. Terell et Scott<br />
[Terrell and Scott, 1992] ont fait remarquer qu’en prenant en compte les courbures locales d’une<br />
densité multivariée, <strong>des</strong> réductions significatives du biais et par conséquent du MISE, peuvent<br />
être atteintes en utilisant un noyau adaptatif.<br />
Enfin, Terell et Scott ont entrepris une grande étude sur l’estimation adaptative. Faite opti-<br />
malement, l’estimation adaptative conduit à <strong>des</strong> améliorations importantes <strong>des</strong> métho<strong>des</strong> <strong>non</strong>-<br />
adaptatives. Cependant, mal construits, les noyaux adaptatifs produiraient une sous-optimalité<br />
et conduiraient à <strong>des</strong> estimations dont la qualité est inférieure à celle <strong>des</strong> noyaux fixes.<br />
5.3.1 Sélection automatique <strong>des</strong> fenêtres<br />
Sélectionner automatiquement le paramètre de lissage en se fondant seulement sur les infor-<br />
mations extraites <strong>des</strong> données a été pendant longtemps au centre <strong>des</strong> travaux en estimation de<br />
densités de probabilités. [Rudemo, 1982] et [Bowman, 1984] ont développé une approche fondée<br />
sur la recherche du paramètre de lissage qui minimise une estimation <strong>non</strong>-biaisée du risque 9 .<br />
L’approche proposée étant générale on peut donc la développer en utilisant l’erreur quadratique<br />
intégrée ISE donnée par :<br />
<br />
ISE(h) = ( ˆ f(x) − f(x)) 2 dx<br />
= R( ˆ <br />
f) − 2 ˆf(x)f(x)dx + R(f).<br />
ˆf correspond à l’estimateur <strong>non</strong>-paramétrique de densité (histogramme ou estimateur à noyau<br />
fixe). Le dernier terme étant fonction de la densité inconnue et <strong>non</strong> de l’estimateur, il peut donc<br />
être ignoré. Le premier terme est une fonction de l’estimateur et peut être calculé directement.<br />
En revanche, le terme intermédiaire ne peut être calculé directement et doit être estimé.<br />
Rudemo et Browman notent que<br />
<br />
ˆf(x)f(x)dx = E[ ˆ f(X)], (5.11)<br />
En utilisant un estimateur leave-one-out (i.e. un estimateur construit en enlevant un point de<br />
9 le risque ici se réfère au ISE présenté dans la section précédente
106 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
données), l’espérance peut être approchée de façon <strong>non</strong>-biaisée par :<br />
1<br />
n<br />
<br />
n ˆ fi(xi),<br />
i=1<br />
ce qui conduit au critère de validation croisée<br />
UCV = R( ˆ f) − 2<br />
n<br />
n<br />
ˆf n −i(xi). (5.12)<br />
Rodemo et Bowman montrent que le critère de validation croisée <strong>non</strong>-biaisée est une estimation<br />
<strong>non</strong>-biaisée du risque dans le sens où E[UCV] + R(f) = MISE.<br />
5.3.2 Noyaux adaptatifs<br />
Les travaux en estimation de densité à noyau adaptatif peuvent être groupés en deux caté-<br />
gories : les estimateurs ballons «balloon» et les «sample point estimator». La distinction entre<br />
ces deux approches réside dans la façon de faire varier la fenêtre. Pour l’estimateur ballon, une<br />
fenêtre différente mais fixe est sélectionnée pour chaque point d’estimation x. L’estimation de<br />
f au point x correspond alors à la moyenne de noyaux identiquement normalisés centrés sur<br />
chaque donnée. Afin de calculer l’estimation à un autre point, une nouvelle valeur du paramètre<br />
de lissage doit être utilisée. L’estimateur adaptatif s’écrit :<br />
ˆf1(x) =<br />
1<br />
nh(x) d<br />
i=1<br />
n<br />
K<br />
i=1<br />
<br />
x − Xi<br />
. (5.13)<br />
h(x)<br />
L’estimateur «sample point estimator» fait appel à un paramètre de lissage différent pour chaque<br />
donnée de l’échantillon et est donné par :<br />
ˆf2(x) = 1<br />
n<br />
n<br />
i=1<br />
1<br />
K<br />
h(Xi) d<br />
<br />
x − Xi<br />
. (5.14)<br />
h(Xi)<br />
L’estimation de f à chaque point x correspond alors à la moyenne de noyaux différemment<br />
normalisés centrés sur chaque donnée de l’échantillon. La figure 5.5 donne le résultat d’un tel<br />
estimateur sur les données de l’étude sur le suicide (Silverman).
5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif 107<br />
Fig. 5.5 Résultat de l’estimateur «sample point estimaor» de la densité d’étude<br />
sur le suicide (Silverman).<br />
5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif<br />
Le problème posé à la fois par le «balloon estimator» et le «sample point estimator» est le<br />
coût de calcul élevé dû à la selection d’un paramètre de lissage à chaque estimation d’un point<br />
de données. Dans un cas de figure comme le nôtre où l’estimation n’est pas une fin en soi, mais<br />
constitue une étape d’un algorithme plus large faisant évoluer d’autres critères dont la complexité<br />
est aussi élevée, il est judicieux de chercher une méthode d’estimation dont le comportement est<br />
similaire à celui <strong>des</strong> métho<strong>des</strong> utilisant <strong>des</strong> noyaux adaptatifs, à la différence près que la charge<br />
calculatoire induite par les fonctions coût (ISE, AMISE) est significativement réduite.<br />
Pour apporter un élément de réponse à ce problème, nous nous sommes intéressés aux modèles<br />
d’estimation compétitifs qui alternent estimation paramétrique et estimation <strong>non</strong>-paramétrique<br />
([Hjort and Glad, 1995], [Rudzkis, 1992], [Cao et al., 1995], [Cao and Devroye, 1996] et [Susko<br />
et al., 1998] et [Priebe and Marchette, 2000]). L’approche qui nous a séduite et qui convenait le<br />
plus à notre problème est celle développée par [Priebe and Marchette, 2000] qui proposent une<br />
variante de l’estimateur à noyau qui incorpore <strong>des</strong> informations locales sur la régularité de la<br />
densité. L’estimateur utilise un petit ensemble de paramètres de lissage au lieu d’un paramètre<br />
de lissage global, comme c’est le cas pour les estimateurs à noyau fixe. Le choix de cet ensemble<br />
de paramètres est guidé par <strong>des</strong> fonctions de filtrage qui déterminent la portée de l’influence<br />
d’un paramètre de lissage et de sa valeur. Ainsi à chaque fonction de filtrage correspond un<br />
paramètre de lissage et inversement. L’estimateur revient à une approche compétitive entre un
108 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
estimateur semi-paramétrique (mélange de gaussiennes) et un estimateur <strong>non</strong>-paramétrique à<br />
noyau. Dans un sens, le mélange de gaussiennes définit les fonctions de filtrage et, dans l’autre<br />
sens, l’estimateur <strong>non</strong>-paramétrique corrige l’estimateur par mélange de noyaux, en mettant<br />
à jour le nombre de gaussiennes. L’estimateur dit «FKE», pour «Filtered Kernel Estimator»,<br />
présente <strong>des</strong> propriétés de convergence intéressantes dans le cas où la densité réelle comporte<br />
plusieurs mo<strong>des</strong> et <strong>des</strong> variances différentes. Dans les sections qui suivent nous résumons les<br />
développements théoriques présentés dans [Marchette et al., 1995] et [Priebe and Marchette,<br />
2000]. Nous avons pris la liberté de changer quelques notations afin de mieux les adapter à notre<br />
problématique.<br />
5.4.1 Hypothèses fondamentales<br />
Supposons que l’on cherche à définir un ensemble réduit de paramètres de lissage où chacun<br />
de ces derniers est associé à une partition du support de la densité. A chaque paramètre de lissage<br />
(fenêtre), on associe une fonction qui filtre les données. Un filtre ainsi défini agira comme une<br />
fonction de contrainte qui contrôle l’étendue du paramètre de lissage qui lui est associé. Soit un<br />
ensemble de fonctions {Wj} m j=1 , où 0 ≤ Wj(x) ≤ 1 et pour tout x on a :<br />
m<br />
Wj(x) = 1<br />
j=1<br />
Les noyaux de filtrage W expriment en fait <strong>des</strong> probabilités a posteriori et sont utilisés pour<br />
introduire <strong>des</strong> informations a priori sur la structure et surtout la régularité de la densité que<br />
l’on cherche à estimer. Formellement l’estimateur s’exprime par :<br />
ˆf(x) = 1<br />
n<br />
n<br />
m<br />
i=1 j=1<br />
Wj(Xi)<br />
hd K<br />
j<br />
<br />
x − Xi<br />
hj<br />
(5.15)<br />
où à chaque fonction de filtrage Wj est associé un paramètre de lissage hj tel que hj > 0, hj → 0<br />
et nhj → ∞ quand n → ∞.<br />
La fonction globale de filtrage n’est autre qu’un mélange de noyaux qui s’exprime de la sorte :<br />
M(x) =<br />
La probabilité a posteriori s’exprime alors par :<br />
m<br />
cjϕj(x)<br />
j=1<br />
Wj(x) = cjϕj(x)<br />
M(x)
5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif 109<br />
L’idée est d’utiliser une valeur de h pour chaque composante de M. Cette valeur doit être<br />
optimale pour cette composante comme si l’on travaillait dans le cadre d’une estimation semi-<br />
paramétrique par mélange de noyaux. Pratiquement, si l’on travaille avec un mélange de gaus-<br />
siennes, le paramètre de lissage est une fonction de la variance de la gaussienne à laquelle il est<br />
associé. Il est attrayant de se servir de la probabilité a posteriori de l’adhésion d’une compo-<br />
sante ϕ pour déterminer la contribution locale d’un paramètre de lissage donné. La procédure<br />
d’estimation revient donc à chercher dans un premier temps une approximation sous forme de<br />
mélange de noyaux (gaussiennes), et à utiliser ce résultat pour déterminer les paramètres de<br />
lissage (largeurs de fenêtres), tout en intégrant <strong>des</strong> informations sur les régularités locales de la<br />
densité réelle.<br />
La condition nécessaire et suffisante pour que l’estimateur réponde aux conditions de la<br />
théorie d’estimation et <strong>des</strong> probabilités et exprime ainsi une densité est :<br />
5.4.2 Choix du noyau<br />
1<br />
n<br />
n<br />
m<br />
1<br />
h<br />
i=1 j=1<br />
d j<br />
<br />
<br />
x − Xi<br />
Wj(xi)K<br />
dx = 1.<br />
Comme expliqué dans le chapitre précédent, l’utilisation d’un noyau gaussien réduit consi-<br />
dérablement le temps de calcul de l’entropie quadratique de Rényi et par conséquent celui du<br />
critère de similarité. Dorénavant le noyau K correspondra à une distribution normale de moyenne<br />
nulle (µ = 0) et de variance égale à 1 (σ 2 = 1). L’estimateur «FKE» prend alors la forme :<br />
ˆfh(x) = 1<br />
n<br />
n<br />
m<br />
i=1 j=1<br />
hj<br />
cjGψj (Xi − µ d j )<br />
h ∗ ψjM(Xi, θj) G1<br />
<br />
x − Xi<br />
h ∗ ψj<br />
(5.16)<br />
Le paramètre optimal h opt peut être choisi en minimisant l’erreur MISE de ˆ fh(x) sous l’hy-<br />
pothèse que le mélange de filtrage M(Xi, θ) correspond à la densité réelle :<br />
<br />
hopt = argmin MISE(<br />
h<br />
ˆ <br />
fh(x))|f0 = M(Xi, θ) .<br />
De plus, l’utilisation d’un noyau gaussien profite au calcul de l’erreur MISE qui s’écrit (pour
110 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
les détails voir annexe A) :<br />
avec<br />
MISE(h) ≈ σ2 K<br />
4<br />
m<br />
j=1 k=1<br />
m<br />
h 2 jh 2 <br />
d2 k<br />
1<br />
n<br />
g(hj, hk) =<br />
d2<br />
(f(x)Wj(x))<br />
dx2 dx2 (f(x)Wk(x)) dx + (5.17)<br />
m<br />
j=1 k=1<br />
=<br />
<br />
m<br />
<br />
g(hj, hk)<br />
1<br />
√ 2π<br />
hjhk<br />
K( 1<br />
)K(<br />
hj<br />
1<br />
)dw<br />
hk<br />
hjhk<br />
<br />
h2 j + h2 .<br />
k<br />
Wj(y)Wk(y)f(y)dy (5.18)<br />
L’estimateur repose sur l’hypothèse fondamentale que la densité réelle correspond à un mé-<br />
lange de gaussiennes, et que par conséquent les fonctions de filtrage s’expriment sous la forme<br />
d’un mélange de gaussiennes. Cette hypothèse est valide dans le cadre du traitement d’<strong>images</strong>,<br />
mais ne l’est pas forcément dans le cadre de processus stochastique <strong>non</strong>-linéaires plus complexes.<br />
En remplaçant dans l’équation 5.18 l’expression <strong>des</strong> fonctions de filtrage M, on écrit :<br />
MISE(h) ≈ σ2 K<br />
4<br />
En utilisant les notations :<br />
Le risque MISE s’écrit :<br />
1<br />
n √ 2π<br />
MISE ≈ σ2 K<br />
4<br />
m<br />
m<br />
cjckh 2 jh 2 <br />
k<br />
G<br />
j=1 k=1<br />
′′<br />
ψj (x)G′′ ψk (x)dx +<br />
m m cjck<br />
<br />
j=1 k=1 h2 j + h2 <br />
Gψj (y)Gψk (y)<br />
dy.<br />
f(y)<br />
k<br />
Ajk = cjck<br />
Bjk = cjck<br />
m<br />
m<br />
j=1 k=1<br />
<br />
G ” ψj (x)G” ψk (x)dx,<br />
Gψj<br />
Ajkh 2 jh 2 k<br />
(x)Gψk (x)<br />
dy.<br />
f(y)<br />
+ 1<br />
n √ 2π<br />
m<br />
m<br />
Bjk<br />
<br />
j=1 k=1 h2 j + h2 k<br />
. (5.19)<br />
De cette équation on peut déterminer les paramètres de lissage par une méthode d’optimisation
5.4 Un estimateur réduit <strong>des</strong> densités de probabilités à noyau adaptatif 111<br />
itérative fondée sur le gradient. Les dérivées partielles s’écrivent :<br />
∂<br />
∂hr<br />
<br />
MISE = σ 2 KArrh 3 r + 1<br />
2 σ2 Khr Akrh<br />
k=r<br />
2 k<br />
5.4.3 Calcul <strong>des</strong> fonctions de filtrage<br />
− Brr<br />
2n √ πh 2 r<br />
− hr<br />
n √ <br />
2π<br />
k=r<br />
Bkr<br />
<br />
h 2 r + h 2 k<br />
3 . (5.20)<br />
En pratique, le mélange de gaussiennes exprimant la densité réelle est inconnu. Dans ce cas,<br />
les formules précédentes nécessaires à la détermination de l’ensemble <strong>des</strong> paramètres de lissage<br />
ne sont pas applicables. En effet les calculs de Ajk et de Bjk font appel à la densité réelle f<br />
qui est inconnue. Pour pallier ce problème la densité réelle est approchée et est formulée, dans<br />
un premier temps, sous la forme d’un mélange de gaussiennes. L’expression obtenue est alors<br />
utilisée pour calculer l’ensemble <strong>des</strong> paramètres de lissage en minimisant l’équation 5.19. Cette<br />
démarche est analogue à celle utilisée en estimation par noyau fixe où l’on suppose que la densité<br />
réelle prend la forme d’une gaussienne pour calculer le paramètre de lissage.<br />
5.4.4 Simulations et résultats<br />
Le but de cette section est de donner quelques résultats de l’estimateur «FKE» dans un<br />
cadre d’analyse d’<strong>images</strong>. Nous allons commencer dans un premier temps par <strong>des</strong> simulations<br />
où la densité réelle est générée par un mélange de gaussiennes. Le but est d’estimer au mieux<br />
cette densité et de prouver la supériorité de l’estimateur «FKE» face aux estimateurs à noyau<br />
fixe «KE». La deuxième partie donne <strong>des</strong> résultats d’estimation d’<strong>images</strong> provenant de diverses<br />
modalités et concernant <strong>des</strong> zones anatomiques différentes. La partie consistant à prouver nu-<br />
mériquement l’utilité de l’estimateur «FKE» dans le cadre du recalage et plus particulièrement<br />
l’impact de la précision dans le calcul <strong>des</strong> mesures de similarité est traitée dans le chapitre 7.<br />
L’erreur MISE est calculée pour l’estimateur réduit «FKE» et l’estimateur de Parzen à noyau<br />
fixe où le paramètre de lissage h a été calculé automatiquement par validation croisée. Les<br />
paramètres de lissage utilisés par l’estimateur sont calculés en minimisant l’équation 5.19. Le<br />
rendement (efficacité) de l’estimateur est calculé par le rapport MISE FKE /MISE KE [Wand et<br />
al., 1991].<br />
1 er cas : Variance variable<br />
Soit :<br />
f(x) = 1<br />
2 G0,1(x) + 1<br />
2 G 0,σ 2(x),
112 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
avec 0.1 ≤ σ 2 ≤ 10 . La figure 5.6 montre la courbe de rendement (efficacité) en fonction de<br />
la variance. Il est à noter que pour σ 2 = 1, l’estimateur «FKE» donne <strong>des</strong> résultats meilleurs<br />
que l’estimateur à noyau fixe «KE» comme il est attendu. La figure 5.7 montre les largeurs de<br />
fenêtres utilisées par l’estimateur «FKE». La largeur de fenêtre associée au deuxième terme du<br />
mélange de gaussiennes, le terme pour qui la variance change, varie en fonction de σ 2 .<br />
Cette expérience représente le problème principal pour lequel l’estimateur a été conçu : on<br />
dispose d’une densité qui correspond à un mélange de deux gaussiennes avec <strong>des</strong> variances dif-<br />
férentes. Au fur et à mesure que la variance de la deuxième gaussienne s’éloigne de la variance<br />
de la première gaussienne, l’estimateur à noyau fixe perd en efficacité et devient inadéquat pour<br />
représenter la densité réelle. L’estimateur à noyau adaptatif présente <strong>des</strong> résultats plus cohérent<br />
dans ce cas de figure.<br />
Fig. 5.6 Le rendement (efficacité) en fonction de la variable pour l’expérience 1.<br />
À mesure que la variance s’éloigne de 1, l’estimateur à noyau fixe (KE) devient de<br />
plus en plus inadéquat pour l’estimation de la densité d’étude. L’estimateur réduit<br />
«FKE» permet, quant à lui, de prendre en compte les deux variances, ce qui améliore<br />
le résultat de l’estimation quant les variances <strong>des</strong> gaussiennes sont significativement<br />
éloignées.<br />
2 ème Cas : Données Image<br />
Dans cette section , nous présentons plusieurs résultats d’estimation sur <strong>des</strong> données d’<strong>images</strong><br />
provenant de plusieurs modalités et concernant différentes zones anatomiques.
5.5 Synthèse du chapitre 113<br />
Largeur de fenêtre<br />
Fig. 5.7 Les largeurs de fenêtres utilisées par l’estimateur réduit à noyau adaptatif<br />
«FKE». Le paramètre de lissage associé au deuxième terme du mélange de<br />
gaussiennes (la ligne continue), pour lequel la variance change, varie en fonction<br />
de σ, ce qui permet à l’estimateur de mieux représenter les variances locales de la<br />
densité réelle.<br />
5.5 Synthèse du chapitre<br />
Ce chapitre a couvert les métho<strong>des</strong> d’estimation <strong>des</strong> densités de probabilités. Cette étude a<br />
été entreprise pour accélérer le temps de calcul nécessaire au critère de similarité qui requiert<br />
l’évaluation de l’histogramme conjoint <strong>des</strong> <strong>images</strong> à recaler, ce qui permet d’utiliser <strong>des</strong> modèles<br />
de déformations <strong>non</strong>-linéaires.<br />
Ce chapitre a commencé par une présentation du cadre théorique de l’estimation <strong>des</strong> densités<br />
de probabilité. Il s’est consacré, par la suite, aux métho<strong>des</strong> <strong>non</strong>-paramétriques à noyau. Le<br />
cadre théorique de cette classe d’estimateurs a été introduit et la nécessité de varier les noyaux<br />
d’estimation dans le cadre d’analyse d’<strong>images</strong> a été discutée. Les métho<strong>des</strong> classiques à noyau<br />
adaptatif types «balloon estimator» et «sample point estimator» ont alors été introduites. Leurs<br />
limitations, qui concernent principalement le temps de calcul conséquent qu’elles nécessitent, ont<br />
été mis en évidence.<br />
Dans sa deuxième partie, ce chapitre a introduit notre choix du modèle d’estimation. Cet<br />
estimateur réduit à noyau adaptatif est une combinaison de deux approches : l’approche semi-<br />
paramétrique et l’approche <strong>non</strong>-paramétrique.<br />
Enfin, ce chapitre se termine par une présentation <strong>des</strong> quelques résultats empiriques de l’es-<br />
timateur dans un cadre d’estimation <strong>des</strong> histogrammes <strong>des</strong> <strong>images</strong> médicales.
114 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
0.05<br />
0.045<br />
0.04<br />
0.035<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
(a) Coupe IRM de l’abdomen.<br />
0<br />
-100 0 100 200 300 400 500 600<br />
(b) En bleu la densité réelle de la coupe IRM. En rouge<br />
son estimation par l’estimateur «FKE».<br />
Fig. 5.8 Illustration du résultat de l’estimation sur les données d’une IRM de<br />
l’abdomen.
5.5 Synthèse du chapitre 115<br />
0.25<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
(a) Coupe IRM du crâne.<br />
0<br />
-50 0 50 100 150 200 250 300 350<br />
(b) En bleu la densité réelle et en rouge la densité estimé.<br />
Fig. 5.9 Illustration du résultat de l’estimation sur les données d’une IRM du<br />
cerveau.
116 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
x 10-3<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
Dupont<br />
(a) Coupe TDM de l’abdomen avec artefacts.<br />
-4 -3 -2 -1 0 1 2 3 4<br />
x 10 4<br />
0<br />
(b) En bleu la densité réelle et en rouge la densité estimé.<br />
Fig. 5.10 Illustration du résultat de l’estimation sur les données TDM bruitées<br />
de l’abdomen.
5.5 Synthèse du chapitre 117<br />
0.035<br />
0.005<br />
(a) Coupe TDM du crâne avec cadre stéréotaxique.<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0<br />
-3000 -2000 -1000 0 1000 2000 3000 4000<br />
(b) En bleu la densité réelle et en rouge la densité estimé.<br />
Fig. 5.11 Illustration du résultat de l’estimation sur les données TDM bruitées<br />
(cadre stéréotaxique) du cerveau.
118 De l’estimation <strong>non</strong>-paramétrique <strong>des</strong> densités de probabilité<br />
0.05<br />
0.045<br />
0.04<br />
0.035<br />
0.03<br />
0.025<br />
0.02<br />
0.015<br />
0.01<br />
0.005<br />
(a) Coupe TDM du poumon<br />
0<br />
-100 0 100 200 300 400 500 600 700 800 900<br />
(b) Résultats de l’estimation sur les données TDM du<br />
poumon<br />
Fig. 5.12 Illustration du résultat de l’estimation sur les données TDM du poumon.
Chapitre 6<br />
L’algorithme MIAMI<br />
6.1 Introduction<br />
Dans les chapitres précédents, nous avons présenté les différents apports théoriques de ce<br />
mémoire. Cependant, le cadre de mise en oeuvre algorithmique n’a pas encore été exposé. Ce<br />
chapitre récapitule ces différents développements théoriques et décrit nos différents choix de mise<br />
en oeuvre algorithmique du recalage <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> d’<strong>images</strong>.<br />
sont :<br />
Un algorithme de recalage peut être schématisé de façon modulaire. Les différents modules<br />
– Le modèle de déformation.<br />
– La fonctionnelle de recalage.<br />
– Le modèle d’interpolation.<br />
– La stratégie d’optimisation.<br />
Ces différents modules seront détaillés pour les différentes parties de la procédure globale du<br />
recalage.<br />
6.2 Formulation hybride<br />
Comme nous avons eu l’occasion de l’expliquer plus tôt, notre choix de déformation porte sur<br />
un modèle hybride qui associe une déformation globale et un ensemble de déformations locales :<br />
T(x, y, z) = T globale (x, y, z) + T locale (x, y, z) (6.1)<br />
Ce choix est motivé par <strong>des</strong> considérations calculatoires. En effet, formuler le modèle de défor-<br />
mation par le biais de deux transformations disjointes permet d’accélérer le temps de calcul.<br />
119
120 L’algorithme MIAMI<br />
La procédure du recalage est la suivante : on commence par calculer un modèle continu <strong>des</strong><br />
<strong>images</strong> ; ce modèle servira à la fois à l’interpolation <strong>des</strong> points qui ne «tombent» pas dans une<br />
grille discrète et à la construction de la pyramide multi-résolution. Par la suite, on procède à un<br />
recalage linéaire affine pour aboutir à une bonne approximation et une initialisation optimale du<br />
recalage <strong>non</strong>-<strong>rigide</strong>. Partant <strong>des</strong> résultats du recalage affine, on procède à un recalage <strong>non</strong>-<strong>rigide</strong><br />
fondé sur les déformations de formes libres. Ce schéma permet, en plus d’accélérer le temps<br />
de calcul, de résoudre le problème d’initialisation dont souffrent les approches <strong>non</strong>-<strong>rigide</strong>s du<br />
recalage. Ce schéma est illustré dans la figure 6.1. Notre algorithme a été baptisé MIAMI pour<br />
«Medical Image Alignment by quadratic Mutual Information».<br />
6.3 Modèle d’image<br />
Soit n(x) un modèle continu d’une image pouvant être obtenu à partir d’échantillons Ni =<br />
f(xi) régulièrement espacés dans une grille Cartésienne. Pour être fonctionnel, un modèle d’image<br />
doit satisfaire les contraintes suivantes :<br />
– En premier lieu, il doit permettre l’interpolation dans l’image c-à-d pouvoir associer les<br />
échantillons Ni et leur position xi à la forme continue de l’image n(x). Cette propriété est<br />
généralement nécessaire dans le cas de transformations géométriques n → n(T(xi)).<br />
– En second lieu, étant donné une certaine fonction continue y(x), il doit exister un procédé<br />
pour récupérer un ensemble d’échantillons Yi aux positions xi tel que le modèle basé sur<br />
cet ensemble reconstruirait une approximation acceptable de y(x). Une application typique<br />
de cette contrainte est le calcul d’une pyramide de résolution. Dans ce cas-ci le procédé<br />
peut être schématisé par :<br />
(Ni, xi) → n(x) → n(2x) = y(x) → (Yi, xi)<br />
Le modèle proposé par [Unser et al., 1993c] est fondé sur <strong>des</strong> fonctions B-splines de degré n.<br />
Spécifiquement, on a :<br />
n(x) = <br />
c(xi)β n (x − xi), (6.2)<br />
xi∈V<br />
où β(x) est un noyau de convolution séparable donné par le produit β n (x1).β n (x2)..., et où<br />
les coefficients d’expansion ci = c(xi) sont calculés à partir <strong>des</strong> valeurs de l’échantillon Ni par<br />
filtrage récursif. Ce modèle est continu et différentiable pour tout n ≥ 0, et différentiable pour<br />
tout n > 1.<br />
L’intérêt de ce modèle est triple. D’abord, sa version multi-échelle fournit la pyramide d’<strong>images</strong><br />
que nous utilisons dans notre approche multi-résolutions. En second lieu, il permet le ré-échantillo-
6.3 Modèle d’image 121<br />
Images M-N<br />
combinées<br />
Image N recalée<br />
Validation visuelle<br />
Image Cible M Image Source N<br />
Pyramide Cible<br />
Construction <strong>des</strong><br />
pyrami<strong>des</strong><br />
Pyramide Source<br />
<strong>Recalage</strong> affine<br />
<strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong><br />
Résultat du recalage<br />
<strong>non</strong>-<strong>rigide</strong><br />
Fig. 6.1 Différentes étapes de l’approche hybride du recalage.<br />
Résultat du recalage<br />
affine
122 L’algorithme MIAMI<br />
nnage de l’image source n(T(xi)). Finalement, il est utilisé pour le calcul du gradient de l’image<br />
requis lors de la phase d’optimisation.<br />
6.3.1 Schéma multi-résolution<br />
Au niveau algorithmique, une stratégie multi-résolution participe à réduire les charges de<br />
calcul. Elle consiste à utiliser la solution obtenue à une résolution donnée comme initialisation<br />
à la résolution plus fine suivante. Cela permet d’un côté une réduction drastique du coût global<br />
de calcul et d’un autre côté une amélioration de la robustesse de l’algorithme.<br />
Pour ce faire, une pyramide d’<strong>images</strong> est alors construite à plusieurs résolutions. Dans notre<br />
algorithme nous avons intégré le code de [Unser et al., 1993c] disponible à l’adresse notée en bas<br />
de page 1 .<br />
6.3.2 Degré du modèle<br />
Du degré du modèle dépend la qualité de l’approche. Le degré le plus faible n = 0 correspond<br />
à l’interpolation par le plus proche voisin. Utilisé pour construire la pyramide de résolution,<br />
il conduit au crénelage (aliasing). Utilisé pour calculer n(T(x)), il a comme conséquence <strong>des</strong><br />
dégradations de l’image qui se traduisent par <strong>des</strong> effets de blocs «blocking artifacts». Utilisé<br />
pour calculer le critère de similarité S, il en résulte un critère discret difficile à optimiser sauf à<br />
utiliser <strong>des</strong> modèles stochastiques, généralement coûteux en temps de calcul et en espace mémoire.<br />
Le degré suivant n = 1 correspond à l’interpolation linéaire. Elle produit moins de crénelage<br />
«aliasing», et les effets de blocs sont remplacés par <strong>des</strong> effets de sur-lissage «oversmoothing».<br />
Dans ces deux cas, le calcul <strong>des</strong> coefficients <strong>des</strong> B-splines c est trivial. Pour <strong>des</strong> degrés plus<br />
élevés, ce calcul est légèrement plus compliqué, mais le crénelage est réduit sensiblement. Les<br />
effets de blocs et de lissage sont remplacés par <strong>des</strong> effets d’oscillation «ringing artifacts».<br />
Dans le cas limite : n → ∞, les effets de crénelage disparaissent complètement mais les effets<br />
d’oscillation restent fortement présents (sinc, ou interpolation de Shan<strong>non</strong>). Un bon compromis<br />
est de choisir un noyau B-spline cubique.<br />
Il est trois raisons principales pour lesquelles le choix d’un degré élevé est essentiel à un<br />
comportement approprié d’une stratégie multirésolution de recalage. Considérons d’abord que<br />
l’on exécute l’optimisation à un niveau élevé de la pyramide. Les étapes faites par l’optimiseur<br />
correspondent à ce niveau à de grands pas au niveau le plus fin. Il s’en suit que la précision<br />
est d’une grande importance à ce niveau car l’interpolation «subpixel» doit être la plus fidèle<br />
1 http://bigwww.epfl.ch/sage/pyramids/index.html
6.4 <strong>Recalage</strong> affine 123<br />
possible. Ceci nécessite un degré plus élevé que ce qui est traditionnellement choisi. Ensuite,<br />
admettons disposer <strong>des</strong> paramètres optimaux du recalage à un certain niveau, les paramètres<br />
optimaux au niveau plus fin suivant ne sont pas identiques parce que le niveau de détail dans les<br />
données a augmenté, et ces détails supplémentaires requièrent <strong>des</strong> ajustements <strong>des</strong> paramètres<br />
du recalage. Ces ajustements doivent cependant être aussi rares que possible, ce qui est réalisé en<br />
réduisant au maximum la quantité de détail distinguant le niveau l du niveau l + 1. Ainsi, il est<br />
préférable de limiter le crénelage inhérent à l’opération de réduction de taille, d’où la nécessité<br />
d’un degré du modèle plus élevé.<br />
En plus de rechercher les paramètres de la transformation géométrique dans les niveaux les<br />
moins fins, la stratégie de multirésolution n’exclut pas de recommencer l’optimisation pour <strong>des</strong><br />
niveaux plus fins. Afin que cette stratégie soit efficace en termes de temps de calcul, le nombre<br />
d’itérations requis par l’algorithme d’optimisation pour trouver les paramètres optimaux au<br />
degré le plus élevé (i.e sans stratégie multi-résolution) doit être inférieur si celle-ci est utilisée.<br />
De cette considération découle le fait qu’il est primordial de choisir un schéma d’optimisation<br />
qui tire partie <strong>des</strong> conditions de départ (initialisation). L’algorithme de Marquardt-Levenberg<br />
([Marquardt, 1963]) est particulièrement adapté à une stratégie multi-résolution.<br />
Les différentes étapes de l’algorithme sont présentées dans les sections qui suivent.<br />
6.4 <strong>Recalage</strong> affine<br />
6.4.1 Modèle de déformation<br />
Une première approximation de la déformation géométrique est obtenue à l’aide d’un recalage<br />
affine <strong>des</strong> <strong>images</strong>. Vu que cette approximation correspond elle même à un a priori très fort sur la<br />
solution, le critère de régularisation n’est pas considéré. Cette initialisation du recalage <strong>non</strong>-<strong>rigide</strong><br />
est obtenue alors à l’aide d’un schéma classique de recalage affine.<br />
6.4.2 Critère de similarité<br />
Le critère de similarité utilisé lors de cette étape du recalage est l’Information Mutuelle<br />
Quadratique Normalisée :<br />
S(M, N) = H2(M) + H2(N)<br />
H2(M, N)<br />
− 1.
124 L’algorithme MIAMI<br />
6.4.3 Optimisation<br />
Les paramètres de la transformation affine sont recherchés en utilisant une stratégie de re-<br />
cherche dont le cœur est l’algorithme de Marquardt-Levenberg combiné avec une approche multi-<br />
résolution.<br />
La méthode de <strong>des</strong>cente de gradient<br />
L’algorithme itératif de <strong>des</strong>cente de gradient est une procédure de minimisation qui peut<br />
succintement être décrite comme :<br />
T (k+1) = T (k) − λ∇S(T (k) ). (6.3)<br />
Sa convergence vers un minimum local est garantie, bien qu’elle nécessite un temps de calcul<br />
conséquent. Un problème principal est la détermination du facteur d’apprentissage λ qui prend<br />
ici la forme d’une matrice diagonale d’échelle.<br />
La méthode de Newton<br />
L’opimiseur de Newton s’écrit :<br />
T (k+1) = T (k) − (∇ 2 S(T (k) )) −1 ∇S(T (k) ). (6.4)<br />
Sa convergence à un optimum n’est pas garantie : il peut converger à un point «selle» (en<br />
même temps un maximum pour un certain paramètre θ1 et un minimum pour un autre paramètre<br />
θ2). Pire encore, il diverge de la solution quand le problème n’est pas convexe. En revanche, il<br />
est extrêmement efficace quand le critère est localement convexe quadratique, parce que dans ce<br />
cas-ci l’optimum désiré est obtenu après une seule évaluation du critère.<br />
La méthode de Marquardt-Levenberg<br />
La stratégie de Marquardt-Levenberg est une manière commode de combiner les avantages<br />
de la méthode de gradient avec ceux de la méthode de Newton, préservant l’efficacité du dernier<br />
quand les conditions sont presque optimales, et la robustesse du premier quand elles ne le sont<br />
pas.<br />
Soit HS l’Hessien modifié qui correspond à ∇S dont les éléments diagonaux ont été multipliés<br />
par un certain facteur :<br />
[HS(T)]i,j = [∇ 2 S(T)]i,j(1 + δi,jλ),
6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> 125<br />
où δi,j est le symbole de Kronecker, et λ est le facteur de réglage qui mesure le compromis entre<br />
la méthode de gradient et la méthode de Newton. La méthode d’optimisation s’écrit :<br />
T (k+1) = T (k) − (HS(T (k) )) −1 ∇S(T (k) ). (6.5)<br />
Selon la valeur de λ, on peut distinguer deux cas extrêmes : λ → 0, les équations 6.5 et 6.4 sont<br />
alors identiques. λ → +∞, les termes diagonaux du Hessien modifié dominent, et nous sommes<br />
alors dans la situation de l’équation 6.3. Le facteur λ doit être choisi entre ces deux cas extrêmes<br />
afin de réaliser un bon compromis entre l’efficacité (mais le manque de robustesse) de l’approche<br />
de Newton, et le nombre d’itérations mais le manque d’efficacité en général de l’approche de<br />
robuste gradient.<br />
6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong><br />
6.5.1 Modèle de déformation<br />
Pour retrouver les déformations locales, l’image source est immergée dans une grille de points<br />
de contrôle. La transformation géométrique est alors opérée indirectement sur l’image en dépla-<br />
çant ces points de contrôle. Le déplacement −→ u (x, y, z) d’un voxel (x, y, z) de l’image est défini<br />
par le déplacement <strong>des</strong> points de contrôle de son voisinage en utilisant <strong>des</strong> fonctions B-splines.<br />
La figure 6.2 illustre une coupe axiale immergée dans une grille 2D régulière où l’espace-<br />
ment δ entre les points de contrôle est constant. Chaque point de contrôle est représenté par<br />
un couple ⌊i, j⌋ correspondant aux indices de la grille. L’origine (0.0, 0.0) <strong>des</strong> coordonnées de<br />
l’image coïncide avec le point de contrôle initial ⌊i = 0, j = 0⌋. Dans cet exemple, les points de<br />
contrôle (⌊3, 2⌋ et ⌊4, 3⌋) ont été déplacés (petites flèches). En utilisant l’interpolation B-spline le<br />
déplacement d’un voxel de l’image dépend du déplacement <strong>des</strong> deux points de contrôle les plus<br />
proches dans chaque direction. Dans cet exemple le voxel (x, y), marqué par le petit rectangle<br />
plein dans l’image, a été affecté par les déplacements <strong>des</strong> points de contrôle (⌊3, 2⌋ et ⌊4, 3⌋)<br />
notés φ3,2 et φ4,3.<br />
Formellement, les déformations libres fondées sur les B-splines sont définies par le produit<br />
tensoriel de trois B-splines cubiques dans la base nx × ny × nz de la grille <strong>des</strong> points de contrôle<br />
φi,j,k :<br />
où i = ⌊ x<br />
δ<br />
⌋−1, j = ⌊ y<br />
δ<br />
u(x, y, z) =<br />
3<br />
3<br />
l=0 m=0 n=0<br />
3<br />
βl(u)βm(v)βn(w) φi+l,j+m,k+n, (6.6)<br />
z<br />
⌋−1 et k = ⌊ δ ⌋−1 sont les indices du premier point de contrôle de la grille<br />
qui intervient dans le calcul du déplacement du voxel (x, y, z). u = x<br />
δ<br />
⌊ x<br />
δ<br />
⌋, v = y<br />
δ<br />
⌊ y<br />
δ<br />
z z<br />
⌋ et w = δ ⌊ δ ⌋
126 L’algorithme MIAMI<br />
Fig. 6.2 Application d’une déformation libre à une image source
6.5 <strong>Recalage</strong> <strong>non</strong>-<strong>rigide</strong> 127<br />
représentent la distance entre le voxel (x, u, z) et les points de contrôle les plus proches. βl sont<br />
<strong>des</strong> fonctions B-splines d’ordre l :<br />
6.5.2 Critère de similarité<br />
β0(x) =<br />
(1 − x)3<br />
6<br />
β1(x) = (3x3 − 6x 2 + 4)<br />
6<br />
β2(x) = (−3x3 + 3x 2 + 3x + 1)<br />
6<br />
β3(x) = x3<br />
6<br />
Le critère de similarité intègre dans le cadre <strong>des</strong> transformations locales un énergie de ré-<br />
gularisation. Pour contrôler le poids de cette dernière par rapport à la similarité, un facteur<br />
ζ, dit force de la régularisation est alors utilisé comme un facteur multiplicatif de l’énergie de<br />
régularisation :<br />
Énergie de similarité<br />
Sg(T) = −E sim (M, N) + ζEreg(T). (6.7)<br />
Comme pour le recalage <strong>rigide</strong>, le critère de similarité utilisé lors de cette étape est l’Infor-<br />
mation Mutuelle Quadratique Normalisée :<br />
Énergie de régularisation<br />
E sim (M, N) ≡ S(M, N) = H2(M) + H2(N)<br />
H2(M, N)<br />
Afin de contraindre la solution finale, le coût de régularisation doit être pris en compte lors<br />
de cette étape de l’algorithme de recalage.<br />
Puisque dans le cadre <strong>des</strong> déformations libres 2 aucune <strong>des</strong> fonctions en dehors de l’espace<br />
de transformations envisagé n’est permise, et toutes les fonctions à l’intérieur de cet espace<br />
sont équiprobables, l’approche compétitive pénalise de façon continue les transformations en<br />
fonction de leur régularité. L’énergie de régularisation peut être vue comme étant reliée à une<br />
densité de probabilité a priori sur l’ensemble <strong>des</strong> champs de vecteurs [Szeliski, 1989]. Selon<br />
2 ceci est valable pour toute approche paramétrique<br />
− 1.
128 L’algorithme MIAMI<br />
cette interprétation, en utilisant une énergie quadratique classique, nous faisons implicitement<br />
l’hypothèse que la solution suit la loi de probabilité d’un certain bruit gaussien corrélé. Par<br />
exemple, l’énergie de membrane d’une fonctionnelle f, E mbr (f) = ||df|| 2 , très utilisée en<br />
recalage, est la (log) densité de probabilité associée aux bruits gaussiens corrélés de distribution<br />
spectrale S(w) = |2πw| −2 .<br />
Une autre énergie très utilisée en recalage élastique <strong>des</strong> <strong>images</strong> est l’énergie d’élasticité linéaire<br />
λ<br />
2 [div(f)]2 + µ||df|| 2 − µ<br />
2 ||rot(f)|| qui est très liée à l’énergie de membrane.<br />
Notre choix a porté sur le modèle de membrane dit aussi Laplacien. Cette énergie s’écrit aussi<br />
sous la forme :<br />
∞ ∞ ∞<br />
−∞<br />
−∞<br />
−∞<br />
∂T<br />
∂x<br />
2<br />
+<br />
2 ∂T<br />
+<br />
∂y<br />
<br />
2<br />
∂T<br />
dxdydz. (6.8)<br />
∂z<br />
Restreinte au domaine de l’image cette intégrale est approchée en utilisant la théorie <strong>des</strong><br />
grands nombres par :<br />
Ereg = 1<br />
X Y Z<br />
V 0 0 0<br />
∂T<br />
∂x<br />
2<br />
+<br />
2 ∂T<br />
+<br />
∂y<br />
<br />
2<br />
∂T<br />
dxdydz, (6.9)<br />
∂z<br />
où V est le volume du domaine de l’image (domaine de déformation), X, Y et Z correspondent<br />
à sa résolution.<br />
Ce modèle a une interprétation physique intuitive : il tend à approcher l’énergie d’une mem-<br />
brane (comme une feuille en caoutchouc) qui est assujettie à <strong>des</strong> déformations élastiques.<br />
6.5.3 Optimisation<br />
Contrairement au recalage affine, qui utilise la méthode de Marquardt-Levenberg pour retrou-<br />
ver les paramètres de la transformation géométrique, l’optimisation de l’algorithme <strong>non</strong>-<strong>rigide</strong><br />
utilise une méthode de <strong>des</strong>cente de gradient conjugué :<br />
T (k+1) = T (k) − λ∇Sg(T (k) ).<br />
Ce choix est motivé par le fait que la matrice Hessienne utilisée dans l’optimisation ML prend<br />
<strong>des</strong> dimensions très élevées dans le cadre <strong>non</strong>-<strong>rigide</strong> du recalage. Ce qui nécessite un temps de<br />
calcul conséquent et un espace mémoire très élevé.
6.6 Synthèse du chapitre 129<br />
6.6 Synthèse du chapitre<br />
Ce chapitre a présenté l’algorithme de recalage <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> proposé dans le cadre<br />
de cette thèse. L’algorithme se fonde sur une approche hybride compétitive. L’appellation hybride<br />
vient du fait que deux modèles de déformations sont associés pour définir la transformation du<br />
recalage. Le premier modèle de déformation est une transformation globale affine alors que le<br />
deuxième modèle est une déformation de formes libres. L’aspect compétitif est dû à l’introduction<br />
d’une force de régularisation qui se met en concurrence avec la force de similarité pour aboutir au<br />
résultat du recalage. Par la suite, ce chapitre définit les différentes solutions techniques choisies<br />
pour résoudre <strong>des</strong> problèmes tels que l’interpolation ou l’accélération du calcul et l’amélioration<br />
de la robustesse par utilisation d’un schéma multirésolution.
130
Chapitre 7<br />
Simulations et validations<br />
7.1 Introduction<br />
Une fois que l’on dispose d’une transformation 3D optimale vis-à-vis d’un certain critère de<br />
recalage, il nous reste encore à estimer la validité, ou la qualité extrinsèque, d’une telle trans-<br />
formation. Cette section est consacrée à la présentation de quelques métho<strong>des</strong> de validation <strong>des</strong><br />
résultats d’un algorithme de recalage. Certaines métho<strong>des</strong> permettent d’obtenir un résultat chif-<br />
fré, d’autres sont basées sur une validation visuelle du recalage. Étant donné la grande diversité<br />
<strong>des</strong> algorithmes de recalage, il est souvent difficile de les comparer quantitativement. Certains sont<br />
rapi<strong>des</strong>, d’autres extrêmement lents. Certains effectuent <strong>des</strong> recalages <strong>rigide</strong>s d’autres élastiques.<br />
Les rares cas où l’on peut comparer quantitativement deux algorithmes de recalage différents se<br />
limitent à l’usage d’une même fonction de coût. Mis à part ce cas précis, toutes les autres com-<br />
paraisons sont souvent biaisées. La robustesse <strong>des</strong> algorithmes est également difficile à comparer<br />
d’une méthode à une autre car elle est issue d’une prise de décision (résultat correct ou résultat<br />
incorrect) intrinsèque à chaque algorithme de recalage. Un projet de validation de différentes<br />
métho<strong>des</strong> a été mis en place pour évaluer rétrospectivement la précision de métho<strong>des</strong> de recalage<br />
(i.e. directement à partir <strong>des</strong> <strong>images</strong> brutes) en se référant à un recalage <strong>rigide</strong> considéré optimal<br />
et obtenu à l’aide de marqueurs préalablement fixés sur le patient avec un casque stéréotaxique<br />
(méthode prospective). Enfin notons bien sûr que le meilleur moyen de comparer deux techniques<br />
de recalage est de faire estimer visuellement par un expert les résultats obtenus. La suite de cette<br />
section sera divisée en deux parties : une première présentant quelques métho<strong>des</strong> de validations<br />
visuelles, puis une deuxième partie traitant de la validation à l’aide de marqueurs.<br />
131
132 Simulations et validations<br />
7.2 Validation visuelle<br />
On affiche <strong>non</strong> pas le volume entier mais une série de vues en coupe 2D du volume. Les figures<br />
qui vont suivre représentent <strong>des</strong> exemples de vues en coupe d’une image scanner de référence et<br />
d’une image IRM recalée sur la référence. Les niveaux de gris de ces <strong>images</strong> ont été normalisés<br />
pour utiliser la pleine échelle.<br />
7.2.1 Mélange <strong>des</strong> <strong>images</strong><br />
La valeur d’un pixel d’une coupe est dépendante de la valeur du pixel de même coordonnées<br />
sur les deux <strong>images</strong>. Soient M et N les deux <strong>images</strong> de même dimension à mixer pour obtenir C.<br />
Pour chaque pixel (x, y) de C, C(x, y) = f(M(x, y), N(x, y)).<br />
Affichage en damier<br />
f(M(x, y), N(x, y)) =<br />
<br />
M(x, y) x y<br />
si⌊ δx⌋ + ⌊ δy ⌋ est pair,<br />
N(x, y) si<strong>non</strong><br />
L’image résultante est similaire à un damier où les cases blanches contiendraient les pixels de<br />
l’image M et les cases noires les pixels de l’image N (Fig. 7.1). La notation ⌊.⌋ signifie partie<br />
entière inférieure, et les quantités δx et δy mesurent la taille <strong>des</strong> cases du damier. Un tel procédé<br />
d’affichage permet d’une manière statique (sur une seule image de la série de coupes) d’estimer<br />
la continuité entre les structures de l’image M et celles de l’image N au niveau <strong>des</strong> frontières <strong>des</strong><br />
cases.<br />
Notons que si nous affichons rapidement <strong>des</strong> coupes en damier en inversant une image sur<br />
2 le rôle <strong>des</strong> cases noires et le rôle <strong>des</strong> cases blanches, alors la persistance rétinienne permet<br />
dynamiquement de superposer le contenu de l’image M avec celui de l’image N.<br />
Surimposition <strong>des</strong> structures<br />
Soit VR un volume de recouvrement définit par l’opérateur. L’image résultante est un mélange<br />
<strong>des</strong> deux <strong>images</strong> cible et source (Fig. 7.2). L’image source sera par exemple affichée dans le volume<br />
de recouvrement, et le reste de la scène sera alors occupé par l’image cible. Ce mode d’affichage<br />
met en évidence la discontinuité d’un organe en cas d’échec du recalage, et sa continuité en cas<br />
de réussite. Les zones de recouvrement peuvent être définies verticalement ou horizontalement
7.2 Validation visuelle 133<br />
Fig. 7.1 Validation visuelle par affichage en damier.
134 Simulations et validations<br />
(a) Surimposition verticale <strong>des</strong> <strong>images</strong>.<br />
(b) Surimposition horizontale <strong>des</strong> <strong>images</strong>.<br />
Fig. 7.2 Validation visuelle par surimposition <strong>des</strong> <strong>images</strong>.
7.2 Validation visuelle 135<br />
(Fig. 7.2) et peuvent varier interactivement en fonction <strong>des</strong> <strong>des</strong>iderata de l’utilisateur.<br />
Différence centrée<br />
f2(M(x, y), N(x, y)) =<br />
f3(M, N) =<br />
<br />
M(x, y) si[x, y] ∈ VR<br />
N(x, y) si<strong>non</strong><br />
nv_gris_max + M − N<br />
2<br />
Cette fonction est surtout utile pour les <strong>images</strong> de mêmes modalité ayant une intensité moyenne<br />
comparable. Ainsi un même niveau de gris dans les deux <strong>images</strong> représente la même réalité<br />
physique. De plus ce mode permet de savoir lorsque le fond de l’image est de niveaux de gris<br />
constant, quel est précisément le volume qui excède l’autre (Fig. 7.3).<br />
Fig. 7.3 Validation visuelle par différence centrée <strong>des</strong> intensités.
136 Simulations et validations<br />
7.3 Validation à l’aide marqueurs : le projet RIRE<br />
Une première façon d’obtenir une estimation chiffrée est d’utiliser deux ensembles de mar-<br />
queurs anatomiques se correspondant mutuellement d’une modalité à une autre. Ces marqueurs<br />
ne doivent pas être utilisés par l’algorithme de recalage mais servent juste d’estimation, en terme<br />
de distance euclidienne entre deux ensembles de points, de la qualité du recalage. Un exemple<br />
de ce type de validation est le projet RIRE.<br />
Le but du projet RIRE 1 (initialement RREP) est de fournir une évaluation clinique de la pré-<br />
cision <strong>des</strong> techniques rétrospectives 2 de recalage d’<strong>images</strong> volumiques <strong>multimodal</strong>es du cerveau<br />
humain. Ce projet est articulé autour de trois modalités le TEP (Positon Emission Tomography,<br />
utilisé en imagerie fonctionnelle), l’IRM et le TDM. Les recalages à effectuer sont le TEP sur<br />
l’IRM pour la visualisation de l’activité neuronale sur un contexte anatomique (IRM), et le re-<br />
calage IRM sur TDM pour la visualisation <strong>des</strong> tissus mous dans un contexte de structure <strong>rigide</strong><br />
(os extrait <strong>des</strong> <strong>images</strong> TDM). La qualification objective <strong>des</strong> différentes techniques de recalage<br />
par le biais du projet RREP devrait permettre d’établir un degré de confiance auquel peuvent<br />
s’attacher les neurologistes et les neurochirurgiens en matière de recalage rétrospectif d’<strong>images</strong><br />
cérébrales.<br />
7.3.1 Principe d’évaluation et de comparaison<br />
La base de données est constituée d’<strong>images</strong> de dix-huit patients. Le principe de RIRE consiste<br />
à comparer <strong>des</strong> métho<strong>des</strong> de recalage <strong>rigide</strong>. La qualité et la précision du recalage sont déter-<br />
minées par comparaison avec un recalage <strong>rigide</strong> prospectif. Ce recalage <strong>rigide</strong> est déterminé à<br />
l’aide d’un ensemble d’amers fixés sur le crâne avant l’acquisition <strong>des</strong> <strong>images</strong> avec un casque<br />
stéréotaxique. La localisation de ces points étant aisée sur les <strong>images</strong> TDM, TEP et IRM, un al-<br />
gorithme déterministe peut facilement, et avec une bonne précision, calculer les paramètres de la<br />
transformation <strong>rigide</strong> correspondante. Les <strong>images</strong> mises dans la base de données ont été traitées<br />
de manière à supprimer l’information donnée par ces marqueurs. Par ailleurs, pour déterminer<br />
l’impact <strong>des</strong> distorsions <strong>des</strong> <strong>images</strong> IRM sur la précision du recalage, chaque image IRM est dis-<br />
ponible en deux versions : une version ayant subi une correction géométrique (calibration), et une<br />
version n’ayant subi aucune correction. La comparaison avec les résultats <strong>des</strong> autres techniques<br />
(rétrospectives) peut donc se faire soit sur les valeurs <strong>des</strong> paramètres de la transformation <strong>rigide</strong><br />
(translation 3D et angles de rotation), soit sur la position transformée d’un ensemble de points.<br />
1<br />
The Retrospective Image Registration Evaluation Project http://www.vuse.vanderbilt.edu/~image/<br />
registration/<br />
2<br />
Le terme rétrospectif s’entend dans le sens ou <strong>des</strong> <strong>images</strong> (de diverses modalités) sont acquises à différents<br />
moments, et ultérieurement, plusieurs techniques de recalage peuvent être employées et comparées.
7.3 Validation à l’aide marqueurs : le projet RIRE 137<br />
Parce qu’il existe plusieurs façons de définir une transformation <strong>rigide</strong> (a- trois angles d’Euler<br />
plus un vecteur de translation, b- une matrice orthogonale 3 × 3 plus un vecteur de translation,<br />
c- un quaternion plus un vecteur translation, d- trois vecteurs de translation pour chacun de<br />
trois points colinéaires), et parce que chacune d’elles nécessite la spécification de paramètres<br />
additionnels (la position du centre de la rotation pour les métho<strong>des</strong> a, b et c, les positions <strong>des</strong><br />
trois points colinéaires pour la méthode d), et pour éviter les erreurs de transfert <strong>des</strong> résultats,<br />
l’équipe de «Vanderbilt» a proposé une nouvelle méthode de spécification <strong>des</strong> paramètres de la<br />
transformation <strong>rigide</strong>. Fondée sur l’hypothèse <strong>des</strong> corps <strong>rigide</strong>s, cette méthode consiste à repré-<br />
senter une transformation <strong>rigide</strong>, pour chacun <strong>des</strong> voxels situés aux huit coins du volume source,<br />
un ensemble de positions d’origine et de positions transformées (figure 7.4). Chaque position est<br />
spécifiée par ses trois coordonnées dans l’espace x, y et z en millimètre. Les paramètres d’une<br />
transformation sont au nombre de 48 : à chacun <strong>des</strong> huit coins sont associés trois positions<br />
d’origine et trois positions transformées. Un exemple est donnée dans le tableau 7.1.<br />
Fig. 7.4 Spécification <strong>des</strong> positions d’origine et transformées dans les volumes<br />
source et cible : huit coins <strong>des</strong> deux volumes<br />
Après réception <strong>des</strong> paramètres de la transformation <strong>rigide</strong>, l’équipe de «Vanderbilt» procède<br />
à la comparaison entre ceux-ci et les paramètres calculés à partir du cadre stéréotaxique (FRE 3 ).<br />
Avec le concours d’un neurochirurgien et d’un neurologiste, un ensemble de Volumes d’Intérêt<br />
(VOI), au nombre de huit, représentant <strong>des</strong> repères anatomiques sont choisis pour chaque patient.<br />
Par la suite, ces VOIs sont segmentés manuellement dans chaque IRM et leurs coordonnées x, y<br />
et z sont stockés. La précision du recalage retrospectif à chacun de ces derniers est alors estimée<br />
3 Fiducial Registration Error
138 Simulations et validations<br />
Transformation Parameters<br />
Investigator(s) : J. Atif, X. Ripoche, A. Osorio<br />
Site : LIMSI-CNRS, Orsay, France<br />
Method : Normalized Quadratic Mutual Information<br />
Date : 22th June 2004<br />
Patient number :pt_001<br />
From :CT<br />
To :MR-PD<br />
Point x y z new_x new_y new_z<br />
1 0.0000 0.0000 0.0000 -1.8180 -20.3027 -5.6817<br />
2 333.9870 0.0000 0.0000 332.0700 -23.7055 -13.0825<br />
3 0.0000 333.9870 0.0000 1.8242 313.4880 5.1659<br />
4 333.9870 333.9870 0.0000 335.7120 310.0850 -2.2347<br />
5 0.0000 0.0000 112.0000 0.5380 -23.8355 102.2350<br />
6 333.9870 0.0000 112.0000 334.4260 -27.2383 94.8340<br />
7 0.0000 333.9870 112.0000 4.1803 309.9550 113.0820<br />
8 333.9870 333.9870 112.0000 338.0680 306.5530 105.6820<br />
Tab. 7.1 Exemple de la spécification de la transformation <strong>rigide</strong> selon la norme<br />
«Vanderbilt»<br />
en suivant la procédure suivante (voir aussi la figure 7.5) :<br />
1. Dans l’image cible, la position du barycentre du VOI est calculée et est convertie en un<br />
point C en millimètre.<br />
2. Au point C, on applique l’inverse de la transformation prospective «gold standard» G −1 ,<br />
obtenant ainsi sa position homologue dans l’image «source» : C ′ = G −1 (C).<br />
3. La transformation rétrospective, R, est alors calculée et appliquée à C ′ : C ′′ = R(C ′ ).<br />
4. L’erreur du recalage rétrospectif à un point anatomique déterminé par son VOI correspond<br />
à la distance Euclidéenne entre C et C ′′ .
7.3 Validation à l’aide marqueurs : le projet RIRE 139<br />
sont :<br />
R<br />
C' G -1<br />
Fig. 7.5 Calcul de l’erreur de recalage pour un VOI donné<br />
Les positions anatomiques correspondant aux VOIs utilisées dans le cadre de cette évaluation<br />
1. Le diaphragme maximum du quatrième ventricule<br />
2. La jonction du quatrième ventricule avec l’aqueduc<br />
3. Le globe droit<br />
4. Le globe gauche<br />
5. Le chiasme optique<br />
6. L’apex de la scissure sylvienne gauche<br />
7. L’apex de la scissure sylvienne droite<br />
8. Le sulcus central<br />
9. Le lobe occipital gauche<br />
10. Le lobe occipital droit<br />
La base contient un ensemble de modalités acquises pour dix-huit patients différents :<br />
– Des <strong>images</strong> scanner (pour 16 patients sur 18 patients) : elles consistent en une trentaine<br />
de coupes de dimensions 512 2 . La taille de voxel est 0.65 × 0.65 × 4 mm 3 .<br />
– Des <strong>images</strong> TEP (pour 8 patients) :une quinzaine de coupes de dimension 128 2 (2.59 ×<br />
2.59 × 8mm 3 ).<br />
– Des <strong>images</strong> IRM correspondant aux protocoles d’acquisition T1, T2, DP (densité de proton)<br />
C<br />
et MP-RAGE. Les <strong>images</strong> contiennent 20 à 26 coupes de dimension 256 2 , avec une taille<br />
de voxel de 1.25 × 1.25 × 4mm 3 .<br />
C''<br />
C<br />
d<br />
C''
140 Simulations et validations<br />
7.3.2 Expériences<br />
Le projet RIRE visait à une évaluation <strong>des</strong> techniques rétrospectives de recalages <strong>rigide</strong>s. C’est<br />
lors de la première campagne d’évaluation que les métho<strong>des</strong> iconiques, et plus particulièrement<br />
celles utilisant de l’information mutuelle ont dépassé les métho<strong>des</strong> classiques donnant lieu ainsi<br />
à de nombreux travaux sur les mesures de similarité fondées sur la théorie de l’information.<br />
Grâce à la multiplicité <strong>des</strong> <strong>images</strong> de la base, nous pouvons apprécier à la fois la robustesse et<br />
la précision de notre approche. Il faut garder à l’esprit en analysant nos résultats (Tabs : 7.3 et<br />
7.4), que nous nous basons essentiellement sur une méthode d’estimation pour calculer la mesure<br />
de similarité, contrairement aux autres métho<strong>des</strong> iconiques, qui utilisent toute les données <strong>des</strong><br />
<strong>images</strong>. Malgré cet aspect, notre méthode présente <strong>des</strong> résultats satisfaisants et comparables en<br />
précision à ceux de l’information mutuelle normalisée ([Studholme et al., 1997]). Les différentes<br />
expériences entreprises dans cette étude sont montrées dans le schéma 7.6 4 .<br />
7.3.3 Protocole<br />
Fig. 7.6 Différentes expériences de recalage effectuées<br />
Pour appuyer l’aspect générique de notre approche, nous avons utilisé le même protocole<br />
pour tous les types de recalage. Malgré le fait que les <strong>images</strong> TEP aient une résolution spatiale<br />
très faible affectant ainsi le résultat du recalage, nous avons là aussi fait le choix de ne pas pré-<br />
traiter les <strong>images</strong>, contrairement à certaines équipes ayant participé à l’évaluation initiale qui<br />
4 Les expériences impliquant les <strong>images</strong> MP-RAGE n’ont pas été intégrées dans le manuscrit à cause d’une<br />
erreur d’orientation du patient qui n’a pas été rectifiée par les administrateurs de la base. Elles sont cependant<br />
accessibles sur le site de la base.
7.3 Validation à l’aide marqueurs : le projet RIRE 141<br />
ont conçu <strong>des</strong> métho<strong>des</strong> spécifiques pour le recalage TEP-IRM. Cela explique en partie pourquoi<br />
notre approche présente <strong>des</strong> erreurs de recalage relativement élevés dans le cadre du recalage<br />
TEP-IRM (Tab. 7.3). Le protocole expérimental est décrit dans le tableau 7.2.<br />
Prétraitement <strong>des</strong> <strong>images</strong> Aucun<br />
Transformation Rigide<br />
Histogramme Conjoint Estimation par noyaux adaptatifs<br />
Mesure de Similarité Information Mutuelle Quadratique Normalisée - NQMI<br />
Optimisation Marquardt-Levenberg<br />
Interpolation B-Spline<br />
Degré multirésolution 3<br />
Tab. 7.2 Protocole expérimental du recalage <strong>rigide</strong> utilisé dans le cadre de l’évaluation<br />
RIRE.<br />
7.3.4 Présentation <strong>des</strong> résultats<br />
Les résultats <strong>des</strong> différentes séries d’expériences sont résumés dans les tableaux 7.3 et 7.4.<br />
Dans le tableau 7.3, nous reportons pour chaque couple de modalités la moyenne, la médiane et la<br />
valeur maximale <strong>des</strong> erreurs de recalage. Ces calculs sont effectués pour l’ensemble <strong>des</strong> patients,<br />
et ne mettent pas en évidence les situations où le recalage a échoué. Pour mieux déceler ces<br />
situations nous reportons pour chaque couple de modalité et pour chaque patient, la moyenne et<br />
l’écart type <strong>des</strong> erreurs de recalage calculées à partir <strong>des</strong> huit Volumes d’intérêt. Les figures 7.7<br />
et 7.8 rendent compte de ces situations.<br />
Modalité source Modalité cible Moyenne (mm) Médiane(mm) Maximum (mm)<br />
TDM IRM-DP 2.24 2.16 4.01<br />
TDM IRM-T1 1.55 1.48 3.12<br />
TDM IRM-T2 2.16 2.06 4.55<br />
TDM IRM-DP-corrigé 0.95 0.96 2.38<br />
TDM IRM-T1-corrigé 1.00 0.95 1.92<br />
TDM IRM-T2-corrigé 1.04 0.73 3.87<br />
TEP IRM-DP 8.25 3.80 38.11<br />
TEP IRM-T1 7.82 3.25 55.79<br />
TEP IRM-T2 12.84 2.88 62.55<br />
TEP IRM-DP-corrigé 3.72 3.06 12.14<br />
TEP IRM-T1-corrigé 2.28 2.47 4.41<br />
TEP IRM-T2-corrigé 4.49 2.59 20.10<br />
Tab. 7.3 Résultat de l’évaluation RIRE
142 Simulations et validations<br />
Enfin, pour comparer nos résultats avec les résultats obtenues à l’aide d’approches similaires<br />
(iconiques) où différentes (géométriques), nous avons intégrer nos erreurs de recalage dans le<br />
tableau 7.4 qui présente les résultats de plusieurs équipes. Tous ces résultats sont accessibles<br />
à l’adresse : http://www.vuse.vanderbilt.edu/~image/registration/results.html. Dans le<br />
tableau 7.4, les métho<strong>des</strong> marquées par une étoile, sont celles utilisant l’information mutuelle où<br />
ses variantes.<br />
7.3.5 Analyse <strong>des</strong> résultats<br />
À l’issue de l’analyse <strong>des</strong> résultats du tableau 7.3, il en sort que les expériences IRM-TDM<br />
aboutissent à <strong>des</strong> erreurs de recalage proches du recalage prospectif. De plus, l’impact <strong>des</strong> dis-<br />
torsions <strong>des</strong> <strong>images</strong> IRM sur la précision du recalage est mis en évidence, puisque les erreurs de<br />
recalage sont sensiblement diminuées quand on utilise les versions calibrées de l’IRM (voir Fig.<br />
7.7).<br />
En outre, en analysant le tableau 7.4, on peut remarquer que nos résultats sont proches de<br />
ceux obtenus par l’équipe de Hill (Tab. 7.4) qui utilisent l’information mutuelle normalisée, et<br />
ce malgré le fait que l’on utilise <strong>des</strong> modèles d’estimation pour calculer notre critère. Ce qui<br />
d’un côté montre que notre méthode d’estimation donne <strong>des</strong> résultats meilleurs en précision par<br />
rapport aux métho<strong>des</strong> d’estimation à noyau fixe, et prouve d’un autre côté que l’information<br />
mutuelle quadratique normalisée est un critère tout à fait approprié pour le recalage <strong>des</strong> <strong>images</strong>.<br />
Quant au recalage TEP-IRM, les erreurs du recalage sont légèrement plus élevées. La faible<br />
résolution TEP ainsi que la forte présence du bruit dans les <strong>images</strong> TEP peuvent expliquer ces<br />
résultats. De plus, il apparaît dans le tableau 7.3 qu’un recalage TEP-IRM pour un patient ait<br />
échoué (valeur maximale dans le tableau 7.3). En s’appuyant sur les figures (7.7 et 7.8, il apparaît<br />
clairement que le patient en question est le patient 6.<br />
Deux hypothèses en ce qui concerne l’échec du recalage TEP-IRM pour le patient 6 peuvent<br />
être émises. La première est d’ordre extrinsèque ; l’échec du recalage est probablement dû à la<br />
forte présence du bruit dans les <strong>images</strong> TEP. La deuxième hypothèse est d’ordre intrinsèque ; le<br />
mauvais recalage serait dû à la convergence du critère de similarité à un maximum local.<br />
Il est intéressant de relever l’échec systématique <strong>des</strong> mesures de similarité fondées sur l’infor-<br />
mation mutuelle pour le recalage TEP-IRM de ce patient. [Roche, 2001] a noté que l’hypothèse<br />
de dépendance statistique, sur laquelle se base les critères par information mutuelle, ne corres-<br />
pond pas au cas spécifique du recalage TEP-IRM. Les intensités <strong>des</strong> <strong>images</strong> dans ce cas sont liées<br />
par une relation fonctionnelle. Ceci explique le mauvais résultat donné par les métho<strong>des</strong> qui se<br />
fondent sur <strong>des</strong> modèles statistiques et la raison du succès <strong>des</strong> métho<strong>des</strong> fondées sur la corréla-<br />
tion. Ceci nous amène à conclure dans un premier temps que l’on ne peut imputer cet échec ni
7.3 Validation à l’aide marqueurs : le projet RIRE 143<br />
Auteur TDM vers IRM-DP TDM vers IRM-DPR TDM vers IRM-T1 TDM vers IRM-T1R<br />
méthode moy. med. max. moy. med. max. moy. med. max. moy. med. max.<br />
Atif 2.24 2.16 4.0 0.95 0.96 2.38 1.55 1.48 3.12 1.00 0.95 1.92<br />
Barillot 2,38 1,92 6,93 2,28 1,71 5,95 2,13 1,62 6,35 1,91 1,41 5,86<br />
Collig<strong>non</strong>* 2,04 2,09 3,83 0,89 0,81 2,50 1,90 1,53 6,69 1,03 0,72 3,81<br />
Elsen 2,54 2,01 6,55 1,69 1,11 5,32 2,12 1,63 6,05 1,22 0,93 2,61<br />
Harkness 10,86 3,12 49,60 9,99 3,06 45,86 10,46 3,39 51,81 11,68 3,38 48,26<br />
Hemler 3,14 2,37 10,45 1,78 1,66 3,69 2,68 1,37 10,97 1,08 1,00 2,12<br />
Hill* 2,00 1,94 4,05 0,89 0,73 2,36 1,36 1,17 2,78 0,87 0,71 2,35<br />
Hsu 1,86 1,67 5,07 1,47 1,46 2,72 2,73 2,51 7,05 2,43 2,38 5,78<br />
Huang 2,16 2,01 5,03 1,13 1,01 2,93 1,81 1,64 4,87 1,66 1,52 3,26<br />
Luo 1,76 1,71 3,56 1,08 0,97 2,66 1,22 1,10 2,99 1,15 1,03 2,81<br />
Maintz 5,41 4,15 18,97 3,78 2,97 10,15 5,68 5,05 12,85 5,05 4,94 14,33<br />
Malandain 10,41 4,00 59,00 10,22 4,04 62,66 10,08 4,32 61,43 11,43 5,42 60,64<br />
Nikou 1 3,06 2,60 5,80 3,00 2,95 5,35 2,72 2,56 6,43 2,45 2,75 4,59<br />
Nikou 2 2,67 2,31 6,18 2,01 1,86 5,07 1,93 1,50 4,36 1,75 1,43 4,54<br />
Noz 6,89 7,80 13,86 5,93 4,61 11,57 4,58 3,32 10,39 4,71 3,40 9,61<br />
Rouet 4,36 3,88 15,25 4,27 4,18 9,97 3,39 2,75 12,48 5,60 4,52 20,34<br />
Thevenaz 1* 2,01 2,04 4,56 0,85 0,83 1,71 1,69 1,40 4,67 1,04 0,95 4,02<br />
Thevenaz 2* 1,94 1,69 5,19 1,15 1,07 4,62 1,72 1,56 5,98 1,07 0,84 4,15<br />
Thevenaz 3* 2,15 1,93 4,18 0,99 1,01 1,64 1,61 1,53 4,17 1,05 0,89 3,11<br />
Tab. 7.4 Comparaison <strong>des</strong> résultats de recalage pour diverses métho<strong>des</strong>. (Les<br />
métho<strong>des</strong> marquées d’une étoile sont celles utilisant l’information mutuelle ou ses<br />
variantes)
144 Simulations et validations<br />
à notre méthode d’estimation ni au modèle d’interpolation. En outre, l’inspection visuelle de ce<br />
recalage montre que les <strong>images</strong> TEP de ce patient sont davantage corrompues par <strong>des</strong> artefacts<br />
que les autres <strong>images</strong> de la base.<br />
7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong><br />
Le projet RIRE est certainement le meilleur moyen d’évaluer les comportements en terme de<br />
robustesse et de précision d’un critère de similarité. Cependant, l’étude de précision se limite au<br />
cadre <strong>rigide</strong> du recalage et l’aspect temps de calcul n’est pas pris en compte. Aujourd’hui, certes<br />
la puissance <strong>des</strong> calculateurs ne cessent d’augmenter, mais cette évolution incite les chercheurs<br />
à envisager de nouvelles applications au recalage d’<strong>images</strong> et par conséquent à considérer <strong>des</strong><br />
modèles de déformations plus évolués. Or, qui dit modèles de déformations évoluées dit degré<br />
d’élasticité plus élevé et un nombre de paramètres de la transformation beaucoup plus grand que<br />
pour une déformation <strong>rigide</strong>. Dans le cadre de cette thèse nous avons utilisé les déformations de<br />
formes libres. Le nombre élevé de degrés de liberté <strong>des</strong> déformations libres impose que le critère<br />
de similarité soit le moins coûteux en temps de calcul que possible. Nous avons alors proposé<br />
dans cette thèse un critère de similarité fondée sur l’entropie de Rényi dont le calcul se réduit<br />
drastiquement avec l’utilisation d’une densité de probabilité de nature gaussienne.<br />
Le but de cette section est de présenter quelques résultats chiffrés du comportement de notre<br />
algorithme dans un cadre <strong>non</strong>-<strong>rigide</strong> en ce qui concerne la précision et le temps de calcul. Pour<br />
ce faire, nous avons mis en concurrence notre critère de similarité avec l’Information Mutuelle<br />
Normalisée (IMN).<br />
La difficulté à laquelle nous nous sommes confrontés est l’appréciation de l’erreur du recalage<br />
<strong>non</strong>-<strong>rigide</strong>. Contrairement à l’évaluation RIRE, nous ne disposons pas d’un recalage prospectif<br />
auquel nous pouvons comparer nos résultats. De plus, la validation du recalage <strong>non</strong>-<strong>rigide</strong> est un<br />
sujet de recherche à part entière qui commence à peine à être exploré ([Schnabel et al., 2001]),<br />
et nous ne disposons toujours pas d’une méthode de validation générique qui nous permette<br />
d’apprécier les résultats obtenus par telle ou telle méthode. Pour surmonter cette difficulté, nous<br />
avons alors eu recours à un moyen simple mais efficace d’évaluation du résultat d’un algorithme de<br />
recalage donné. Notre méthode consiste à appliquer à une image une transformation géométrique<br />
T donnée, obtenant ainsi une image transformée que nous noterons image cible. Le but de<br />
l’algorithme de recalage est de retrouver cette transformation. L’erreur de recalage est calculée<br />
dans un volume d’intérêt donné par une simple différence quadratique entre la transformation<br />
initiale T et la transformation retrouvée par l’algorithme de recalage ˆ T. Soit VR un volume
7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong> 145<br />
mm<br />
3,5<br />
3<br />
2,5<br />
2<br />
1,5<br />
1<br />
0,5<br />
0<br />
pt_001<br />
pt_002<br />
pt_003<br />
pt_004<br />
pt_005<br />
<strong>Recalage</strong> CT/PD<br />
pt_006<br />
Patients<br />
pt_007<br />
pt_101<br />
pt_102<br />
pt_103<br />
pt_104<br />
Moyenne<br />
Ecart-type<br />
(a) Résultats du recalage CT/IRM-DP pour 12 patients.<br />
mm<br />
3<br />
2,5<br />
2<br />
1,5<br />
1<br />
0,5<br />
0<br />
pt_001<br />
pt_002<br />
pt_003<br />
pt_004<br />
pt_005<br />
pt_006<br />
<strong>Recalage</strong> CT/T1<br />
pt_007<br />
pt_101<br />
pt_102<br />
pt_103<br />
Patients<br />
pt_104<br />
pt_105<br />
pt_106<br />
pt_107<br />
pt_108<br />
pt_109<br />
Moyenne<br />
Ecart-type<br />
(c) Résultats du recalage CT/IRM-T1 pour 16 patients.<br />
mm<br />
3,5<br />
3<br />
2,5<br />
2<br />
1,5<br />
1<br />
0,5<br />
0<br />
pt_001<br />
pt_002<br />
pt_003<br />
pt_004<br />
pt_005<br />
pt_006<br />
<strong>Recalage</strong> CT/T2<br />
pt_007<br />
pt_101<br />
pt_102<br />
Patients<br />
pt_104<br />
pt_105<br />
pt_106<br />
pt_107<br />
pt_108<br />
pt_109<br />
Moyenne<br />
Ecart-type<br />
(e) Résultats du recalage CT/IRM-T2 pour 15 patients.<br />
mm<br />
1,6<br />
1,4<br />
1,2<br />
1<br />
0,8<br />
0,6<br />
0,4<br />
0,2<br />
0<br />
pt_001<br />
pt_002<br />
<strong>Recalage</strong> CT/PD_rectified<br />
pt_003<br />
pt_004<br />
Patients<br />
pt_005<br />
pt_006<br />
pt_007<br />
Moyenne<br />
Ecart-type<br />
(b) Résultats du recalage CT/IRM-DP-Corrigée pour 7<br />
patients. Il est intéressant de noter les gains en précision<br />
par rapport à la figure (a).<br />
mm<br />
1,8<br />
1,6<br />
1,4<br />
1,2<br />
1<br />
0,8<br />
0,6<br />
0,4<br />
0,2<br />
0<br />
pt_001<br />
pt_002<br />
<strong>Recalage</strong> CT/T1_rectified<br />
pt_003<br />
Patients<br />
pt_004<br />
pt_005<br />
pt_007<br />
Moyenne<br />
Ecart-type<br />
(d) Résultats du recalage CT/IRM-T1-Corrigée pour 6<br />
patients. Des gains significatifs en précision sont atteints<br />
en utilisant les versions calibrées de l’IRM-T1.<br />
mm<br />
2,5<br />
2<br />
1,5<br />
1<br />
0,5<br />
0<br />
pt_001<br />
pt_002<br />
<strong>Recalage</strong> CT/T2_rectified<br />
pt_003<br />
pt_004<br />
Patients<br />
pt_005<br />
pt_006<br />
pt_007<br />
Moyenne<br />
Ecart-type<br />
(f) Résultats du recalage CT/IRM-T2-Corrigée pour 7<br />
patients. Des gains significatifs en précision sont atteints<br />
en utilisant les versions calibrées de l’IRM-T2.<br />
Fig. 7.7 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents<br />
recalages TDM/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec).
146 Simulations et validations<br />
mm<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
pt_001<br />
pt_002<br />
pt_005<br />
<strong>Recalage</strong> PET/PD<br />
pt_006<br />
Patients<br />
pt_007<br />
pt_008<br />
pt_009<br />
Moyenne<br />
Ecart-type<br />
(a) Résultats du recalage TEP/DP. On remarque les erreurs<br />
très élevées pour les patients pt_002 et pt_006.<br />
mm<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
pt_001<br />
pt_002<br />
pt_005<br />
<strong>Recalage</strong> PET/T1<br />
pt_006<br />
Patients<br />
pt_007<br />
pt_008<br />
pt_009<br />
Moyenne<br />
Ecart-type<br />
(c) Résultats du recalage TEP/T1. À noter l’échec du<br />
recalage du patient pt_006.<br />
mm<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
pt_001<br />
pt_002<br />
pt_005<br />
<strong>Recalage</strong> PET/T2<br />
pt_006<br />
Patients<br />
pt_007<br />
pt_008<br />
pt_009<br />
Moyenne<br />
Ecart-type<br />
(e) Résultats du recalage TEP/T2. Échec systématique<br />
du recalage du patient 6, de plus dans cette expérience<br />
l’erreur du recalage du patient 8 est trop élevée.<br />
mm<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
pt_001<br />
pt_002<br />
PET/PD_rectified<br />
pt_005<br />
Patients<br />
pt_006<br />
pt_007<br />
Moyenne<br />
Ecart-type<br />
(b) Résultats du recalage TEP/DP-corrigée. Les erreurs<br />
du recalage baissent considérablement en utilisant une<br />
version calibrée de l’IRM. Le recalage concernant le patient<br />
pt_002 est proche du «gold standard». Cependant<br />
les erreurs du recalage du patient pt_006 persistent.<br />
mm<br />
mm<br />
3,5<br />
3<br />
2,5<br />
2<br />
1,5<br />
1<br />
0,5<br />
0<br />
16<br />
14<br />
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
0<br />
pt_001<br />
pt_002<br />
PET/T1_rectified<br />
Patients<br />
(d) Résultats du recalage TEP/T1-Corrigée.<br />
pt_001<br />
pt_002<br />
pt_005<br />
PET/T2_rectified<br />
pt_005<br />
Patients<br />
pt_006<br />
pt_007<br />
pt_007<br />
Moyenne<br />
Ecart-type<br />
Moyenne<br />
Ecart-type<br />
(f) Résultats du recalage TEP/T2-Corrigée. Échec du recalage<br />
du patient 6<br />
Fig. 7.8 Présentations sous formes de diagrammes <strong>des</strong> résultats <strong>des</strong> différents<br />
recalages TEP/IRM(T1, T2, DP, T1-Rec, T2-Rec, DP-Rec).
7.4 Evaluation du recalage <strong>non</strong>-<strong>rigide</strong> 147<br />
d’intérêt donné, l’erreur du recalage s’écrit :<br />
ɛ =<br />
1<br />
||VR||<br />
<br />
x∈VR<br />
||T(x) − ˆ T(x)|| 2 (7.1)<br />
Le volume d’intérêt VR est choisi manuellement dans l’image de référence et doit correspondre<br />
à une zone anatomique assujettie aux déformations.<br />
Deux expériences ont été conçues dans le cadre de la validation du recalage <strong>non</strong>-<strong>rigide</strong>. La<br />
première concerne à la fois la précision et le temps de calcul et la deuxième évalue l’impact de<br />
l’utilisation <strong>des</strong> noyaux adaptatifs sur la précision du recalage. Dans tous les cas, nous avons<br />
utilisés les données d’une même modalité provenant de la base «Vanderbilt», à savoir les <strong>images</strong><br />
IRM-T2 <strong>des</strong> huit premiers patients. L’aspect <strong>multimodal</strong> ayant été validé lors de l’évaluation<br />
RIRE, il n’a pas été pris en compte dans ce cadre.<br />
7.4.1 Expérience 1 : précision et temps de calcul<br />
Dans le cadre de la première expérience, un ensemble de déformations géométriques ont été<br />
appliquées aux <strong>images</strong> <strong>des</strong> patients retenus pour l’étude. Deux critères de similarité bénéficiant<br />
d’une implémentation commune ont été évalués : l’information mutuelle normalisée (IMN) et<br />
l’Information Mutuelle Quadratique Normalisée (IMNQ). L’implémentation commune consiste à<br />
utiliser, pour les deux critères, le même modèle d’interpolation, la même stratégie d’optimisation<br />
et la même méthode d’estimation <strong>des</strong> éléments de l’histogramme conjoint. Le tableau suivant<br />
décrit le protocole expérimental :<br />
fonctionnelle de similarité −NMI + ζEmbr −IMQN + ζEmbr<br />
Degré de régularisation ζ=0.01 ζ=0.01<br />
Modèle de déformation FFD FFD<br />
Espace FFD 20 mm, 10 mm, 5 mm 20 mm, 10 mm, 5 mm<br />
Optimisation Descente de gradient conjugué Descente de gradient conjugué<br />
Interpolation Bspline Bspline<br />
Histogramme conjoint Noyaux de Parzen fixes Noyaux de Parzen fixes<br />
Tab. 7.5 Protocole expérimental de l’expérience 1.<br />
Les résultats obtenus (Tab. 7.6) dans le cadre de cette expérience montrent que l’informa-<br />
tion mutuelle quadratique normalisée donne de meilleurs résultats que l’information mutuelle de<br />
Shan<strong>non</strong>, ce qui la situe au niveau <strong>des</strong> meilleures métho<strong>des</strong> existantes ([West et al., 1997b]). Ceci<br />
est tout simplement dû au fait que l’entropie de Rényi soit plus lisse que l’entropie de Shan-<br />
<strong>non</strong> (l’entropie de Rényi est aussi appelée entropie lisse «smooth entropy»). Elle présente moins
148 Simulations et validations<br />
de maxima locaux que l’information mutuelle de Shan<strong>non</strong> donnant ainsi de meilleurs résultats<br />
lorsque la méthode d’optimisation est une méthode fondée sur le gradient. De plus, le temps de<br />
calcul est considérablement réduit. Ceci est dû à la différence du calcul <strong>des</strong> entropies de Rényi<br />
et de Shan<strong>non</strong>. La complexité de calcul d’une entropie de Rényi en utilisant un estimateur de<br />
Parzen est de l’ordre O(N 2 ) avec N la taille de l’échantillon, alors que la complexité de l’entropie<br />
de Shan<strong>non</strong> est de l’ordre de O(VM×N) où VM est la taille de l’image. Dans nos expériences<br />
N = 50, ce qui veut dire que «VM >> N».<br />
Rappelons les entropies utilisées. L’entropie quadratique de Rényi s’écrit :<br />
H2(M) = − log 1<br />
N<br />
N<br />
i=1 j=1<br />
L’entropie de Shan<strong>non</strong>, quant à elle, s’écrit :<br />
VM<br />
H2(M) = − ( 1<br />
N<br />
j=1<br />
N<br />
i=1<br />
N<br />
G2h(m(xi) − m(xj)).<br />
Gh(m(xj) − m(xi)) log( 1<br />
N<br />
N<br />
Gh(m(xj) − m(xi)))<br />
Les temps de calcul donnés ci-<strong>des</strong>sous correspondent à une moyenne. Les différentes expé-<br />
riences ont été exécutées sur une machine Pentium IV, 2.5 GHz, 1 GO de RAM.<br />
Critère de similarité Espace FFD Médiane Moyenne Maximum temps CPU (moyenne)<br />
−NMI + ζEmbr 20 mm 1.57 1.62 1.93 5400s<br />
−NMI + ζEmbr 15 mm 0.88 1.05 1.54 7100s<br />
−NMI + ζEmbr 10 mm 0.57 0.65 0.73 10500s<br />
−NQMI + ζEmbr 20 mm 0.85 0.91 1.14 1400s<br />
−NQMI + ζEmbr 15 mm 0.58 0.61 0.63 2200s<br />
−NQMI + ζEmbr 10 mm 0.30 0.33 0.38 3600s<br />
i=1<br />
Tab. 7.6 Résultat de l’expérience 1.<br />
7.4.2 Expérience 2 : utilité <strong>des</strong> noyaux adaptatifs, impact sur la précision<br />
Le but de cette expérience est de valider dans un cadre de recalage le choix d’utiliser un noyau<br />
adaptatif pour la méthode d’estimation afin de recaler <strong>des</strong> <strong>images</strong> médicales. À cette fin nous<br />
avons évalué l’erreur du recalage pour deux implémentations différentes du critère de similarité<br />
dans un cadre <strong>non</strong>-<strong>rigide</strong>. La différence d’implémentation réside dans la méthode d’estimation de<br />
l’histogramme conjoint. Les deux métho<strong>des</strong> utilisées sont l’estimateur réduit «FKE» et l’estima-<br />
teur de Parzen à noyau fixe. En outre, pour ne pas biaiser nos résultats le paramètre de lissage<br />
optimal du noyau fixe a été choisi manuellement. Le protocole est décrit dans le tableau 7.7.
7.5 Synthèse du chapitre 149<br />
fonctionnelle de similarité −IMQN + ζEmbr −IMQN + ζEmbr<br />
Degré de régularisation ζ=0.01 ζ=0.01<br />
Modèle de déformation FFD FFD<br />
Espace FFD 20 mm, 10 mm, 5 mm 20 mm, 10 mm, 5 mm<br />
Optimisation Descente de gradient conjugué Descente de gradient conjugué<br />
Interpolation Bspline Bspline<br />
Histogramme conjoint Estimation par Noyau fixe Estimation par Noyaux adaptatifs<br />
Tab. 7.7 Protocole de l’expérience 3.<br />
Les résultats obtenus sont réunis dans le tableau 7.8, et montrent un gain en précision lorsque<br />
la méthode d’estimation utilise un noyau adaptatif. Ceci s’explique par le fait que l’histogramme<br />
conjoint comporte plusieurs mo<strong>des</strong>, et comme nous l’avons expliqué dans le chapitre 5, les mé-<br />
tho<strong>des</strong> à noyau fixe (même si ce dernier est choisi manuellement) ne modélisent pas exactement<br />
la densité réelle.<br />
Estimateur Espace FFD Médiane Moyenne Maximum<br />
Estimation par Noyaux adaptatifs 20 mm 0.57 0.62 0.93<br />
Estimation par Noyaux adaptatifs 15 mm 0.34 0.41 0.54<br />
Estimation par Noyaux adaptatifs 10 mm 0.12 0.15 0.2<br />
Estimation par Noyau fixe 20 mm 0.87 0.98 1.12<br />
Estimation par Noyau fixe 15 mm 0.54 0.52 0.61<br />
Estimation par Noyau fixe 10 mm 0.35 0.36 0.40<br />
7.5 Synthèse du chapitre<br />
Tab. 7.8 Résultats de l’expérience 3.<br />
Ce chapitre a concerné l’évaluation de l’algorithme du recalage proposé dans cette thèse. Il a<br />
commencé par présenter les outils nécessaires à la validation d’un résultat de recalage donné. Les<br />
premiers outils exposés sont <strong>des</strong> métho<strong>des</strong> de validation visuelle qui se fondent sur un mélange<br />
d’<strong>images</strong>. Par la suite, ce chapitre a présenté les résultats d’une évaluation rétrospective du<br />
recalage <strong>rigide</strong>. Cette évaluation a permis d’apprécier à la fois la robustesse et la précision de<br />
l’approche défendue dans cette thèse. Les résultats obtenus sont très convainquants et présentent<br />
une avancée <strong>des</strong> travaux du recalage <strong>des</strong> <strong>images</strong>.<br />
Enfin, la dernière section de ce chapitre a concerné différentes expériences de validation du<br />
recalage <strong>non</strong>-<strong>rigide</strong> <strong>des</strong> <strong>images</strong> médicales. Ces expériences, au nombre de deux, ont concerné<br />
une évaluation de la précision versus temps de calcul et la l’évaluation du modèle d’estimation<br />
proposé dans la chapitre 5 dans un cadre de recalage.
150
Chapitre 8<br />
Applications Cliniques<br />
Le chapitre que nous abordons à présent est le dernier avant la conclusion générale. Notre<br />
algorithme de recalage fait désormais partie d’un Système d’Aide à la Radiologie et à la Chirurgie<br />
appelé PTM3D, et il est utilisé en ligne dans nombre d’hôpitaux parisiens et de provence (CH<br />
Saint Anne, Institut Curie, Hôpital Necker, HCL de Lyon). Le but de ce chapitre est de donner une<br />
idée de l’utilisation en routine faite de notre système. Les deux applications choisies concernent<br />
la Curiethérapie prostatique et la planification de biopsies.<br />
8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM<br />
Cette section a fait l’objet d’une publication à InfoRad-RSNA’2002 ([Servois et al., 2002]).<br />
8.1.1 Introduction<br />
Le cancer de la prostate est très fréquent. En fait, c’est le cancer le plus fréquent chez<br />
l’homme en dehors <strong>des</strong> cancers cutanés. Un accroissement considérable de l’incidence (fréquence<br />
<strong>des</strong> nouveaux cas dans la population) du cancer de la prostate a été constaté au cours <strong>des</strong><br />
dernières années. C’est la première cause de mortalité par cancer chez l’homme. L’augmentation<br />
de 23 % de la mortalité liée au cancer prostatique, dans les vingt dernières années, reflète aussi<br />
l’augmentation de l’espérance de vie et la reconnaissance plus fréquente du cancer de la prostate<br />
comme cause principale du décès.<br />
La plupart <strong>des</strong> cancers de la prostate se développent chez <strong>des</strong> hommes âgés et évoluent<br />
très lentement. Cependant, certains cancers de la prostate peuvent se développer rapidement et<br />
151
152 Applications Cliniques<br />
s’étendre à d’autres organes (métastases), causant <strong>des</strong> symptômes et entraînant parfois le décès.<br />
Le traitement peut améliorer la survie et prévenir ou soulager les symptômes liés à la maladie.<br />
On sait que 30 % <strong>des</strong> hommes âgés de 60 ans ont <strong>des</strong> foyers microscopiques de cancer dans<br />
la prostate, comme l’indiquent les séries autopsiques (faites chez <strong>des</strong> hommes décédés d’autres<br />
causes), mais ces petits foyers ne sont pas forcément évolutifs.<br />
Le cancer de la prostate pose souvent un problème complexe aux médecins et aux patients<br />
car il est parfois difficile de distinguer, compte tenu de l’âge du patient et de l’évolution variable<br />
du cancer, les patients qui vont bénéficier du traitement de ceux chez qui les effets secondaires du<br />
traitement vont surpasser les bénéfices. Le cancer de la prostate est une maladie très sérieuse mais<br />
tous les patients ne doivent pas être traités de la même façon et parfois l’abstention thérapeutique<br />
peut être le meilleur choix.<br />
8.1.2 Evolution du cancer de la prostate<br />
Le cancer de la prostate se développe à partir de cellules de la prostate. Il se développe souvent<br />
très lentement, et reste localisé au début (il ne dépasse pas la capsule qui entoure la prostate).<br />
Quand le cancer évolue, il peut s’étendre en dehors de la prostate, au-delà de la capsule de la<br />
prostate, par envahissement direct <strong>des</strong> tissus et <strong>des</strong> organes situés près de la prostate, et il peut<br />
essaimer dans d’autres organes à distance de la prostate (os, ganglions...).<br />
La lymphe est un liquide de couleur claire qui contient les cellules responsables de la défense<br />
immunitaire de l’organisme et les vaisseaux lymphatiques sont les canaux qui transportent cette<br />
lymphe jusqu’aux ganglions (de petites glan<strong>des</strong> de la forme d’un haricot qui sont réparties dans<br />
tout le corps et qui ont un rôle important dans la défense contre les infections). La plupart <strong>des</strong><br />
vaisseaux lymphatiques de la prostate vont vers les ganglions du petit bassin. Si <strong>des</strong> cellules<br />
cancéreuses pénètrent dans les vaisseaux lymphatiques, elles sont transportées vers les ganglions<br />
où elles continuent à se développer en formant <strong>des</strong> métastases ganglionnaires (adénopathies).<br />
L’atteinte <strong>des</strong> ganglions prouve que le cancer a essaimé en dehors de la prostate. Il est important<br />
de savoir que les cellules qui ont essaimé à distance (cellules métastatiques dans les os, par<br />
exemple) restent <strong>des</strong> cellules prostatiques et répondent donc au traitement du cancer de la<br />
prostate.<br />
Les nerfs responsables de l’érection passent juste à côté de la prostate et les traitements qui<br />
enlèvent ou laissent ces nerfs peuvent causer <strong>des</strong> troubles de l’érection (impuissance).<br />
Le meilleur gage de guérison est de détecter le cancer à un stade précoce, quand il est encore<br />
localisé à la prostate, sans extension en dehors d’elle.
8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 153<br />
8.1.3 Détection Précoce et diagnostic du cancer de la prostate<br />
La détection précoce et le traitement du cancer de la prostate continuent à poser de multiples<br />
questions. Les cancers découverts par le toucher rectal et/ou le dosage du PSA sont en général<br />
plus limités que ceux découverts à l’occasion de symptômes. Contrairement à d’autres cancers,<br />
le cancer de la prostate se développe très lentement et la nécessité d’un diagnostic précoce se<br />
pose donc moins chez les gens âgés, ayant une espérance de vie de moins de 10 ans.<br />
L’accroissement considérable de l’incidence clinique du cancer de la prostate parait être sur-<br />
tout la conséquence d’une amélioration de la détection <strong>des</strong> petits cancers débutants, due à l’aug-<br />
mentation du nombre <strong>des</strong> dosages de l’antigène prostatique spécifique (PSA), et <strong>des</strong> biopsies<br />
prostatiques.<br />
La détection précoce du cancer de la prostate a permis ces dernières années, aux Etats<br />
Unis, de diminuer la mortalité spécifique par cancer de la prostate, mais la mise en place d’un<br />
dépistage systématique du cancer de la prostate chez tous les hommes de plus de 50 ans reste<br />
encore controversée, par crainte de détecter de petits cancers <strong>non</strong> évolutifs, qui ne nécessiteraient<br />
pas de traitement agressif, en particulier chez les sujets âgés.<br />
Plusieurs associations professionnelles médicales recommandent cependant de commencer la<br />
détection du cancer de la prostate, à partir de 50 ans, chez tous les hommes ayant plus de 10 ans<br />
d’espérance de vie, et à partir de 45 ans chez les hommes ayant un facteur de risque particulier<br />
(frère ou père ayant eu un cancer de la prostate en particulier). La détection repose sur le toucher<br />
rectal et le dosage de l’antigène spécifique prostatique (PSA), les mêmes examens étant répétés<br />
chaque année. Ces examens permettent de dépister le cancer de la prostate à un stade précoce,<br />
avant qu’il ne cause aucun symptôme.<br />
8.1.4 Traitement par radiothérapie<br />
La radiothérapie utilise <strong>des</strong> rayons à haute énergie et <strong>des</strong> particules (électrons, protons)<br />
pour détruire les cellules cancéreuses. La radiothérapie est utilisée pour traiter les cancers qui<br />
sont localisés à la prostate, ou qui ont atteint les tissus voisins. Si la lésion est plus évoluée<br />
(métastatique) la radiothérapie peut être utilisée pour diminuer le volume de la tumeur ou éviter<br />
<strong>des</strong> complications locales (rétention urinaire, compression . . .). On utilise soit la radiothérapie<br />
externe, soit la curiethérapie (ou brachythérapie ou radiothérapie interstitielle).<br />
Radiothérapie EXTERNE<br />
le rayonnement produit par une source externe est focalisé sur la prostate après avoir préci-<br />
sément repéré celle-ci.
154 Applications Cliniques<br />
La prostate est un organe profond, entouré de structures fragiles : en arrière, le rectum,<br />
en avant la vessie, au-<strong>des</strong>sus l’intestin grêle. Cela souligne l’importance de disposer de moyens<br />
techniques ménageant au mieux les organes voisins.<br />
Selon les cas, le volume à irradier peut être soit limité à la prostate, soit étendu aux ganglions<br />
régionaux, soit étendu aux ganglions lombo-aortiques. La nécessité de délivrer <strong>des</strong> doses impor-<br />
tantes pour stériliser la tumeur impose <strong>des</strong> techniques d’irradiation extrêmement minutieuses.<br />
L’association d’une hormonothérapie, avant et quelques mois après la radiothérapie, parait<br />
améliorer les résultats.<br />
La fréquence <strong>des</strong> effets secondaires précoces et <strong>des</strong> complications de l’irradiation dépend<br />
de la technique et de la qualité de l’irradiation. Les complications rectales vont d’une banale<br />
fragilité capillaire avec parfois <strong>des</strong> selles sanglantes à <strong>des</strong> ulcérations rectales parfois graves. Les<br />
complications urinaires éventuelles se résument surtout à <strong>des</strong> envies d’uriner fréquentes liées à<br />
une cystite «radique». Le taux d’impuissance après radiothérapie externe varie de 10 à 50 %.<br />
Le traitement est indolore et ressemble un peu à une radiographie banale. Le traitement<br />
nécessite une séance par jour 5 jours par semaine pendant 7 à 8 semaines, chaque séance durant<br />
quelques minutes. C’est parce qu’on ne donne chaque jour qu’une petite partie de la dose de<br />
radiation, de façon à diminuer les effets secondaires, que le traitement dure aussi longtemps. Un<br />
perfectionnement récent de la radiothérapie externe, la radiothérapie conformationnelle, permet<br />
d’améliorer l’efficacité du traitement tout en diminuant les effets secondaires grâce à un système<br />
sophistiqué qui permet d’adapter la forme du rayon à la forme de la prostate quelque soit l’in-<br />
cidence du rayon lors du traitement. Utilisée seulement dans quelques centres en France, cette<br />
technique représente un progrès indéniable de la radiothérapie.<br />
La Curiethérapie<br />
Les effets secondaires <strong>des</strong> traitements ont suscité un intérêt croissant pour <strong>des</strong> alternatives à<br />
la morbidité réduite. Parmi celles-ci, la plus prometteuse est la curiethérapie (ou brachythérapie)<br />
qui consiste à placer <strong>des</strong> sources radio-actives directement dans le tissu prostatique. Des doses<br />
élevées peuvent ainsi être délivrées au cancer, tout en évitant une irradiation excessive de la vessie<br />
et du rectum. La curiethérapie utilise le plus souvent <strong>des</strong> implants permanents sous la forme de<br />
grains d’iode 125 ou de palladium 103. Le cancer de la prostate étant par nature multifocal<br />
dans plus de 50 % <strong>des</strong> cas, tout le volume de la glande doit être traité de façon efficace, et la<br />
curiethérapie réalise cet objectif.<br />
L’implantation se fait avec de simples aiguilles, sous rachi-anesthésie ou anesthésie générale,<br />
sous contrôle échographique transrectal. La sonde endorectale permet la visualisation directe de
8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 155<br />
la position <strong>des</strong> aiguilles par rapport à la prostate. La position <strong>des</strong> aiguilles et de chaque grain est<br />
déterminée par la dosimétrie (Fig. 8.1).<br />
Fig. 8.1 Implantation <strong>des</strong> grains radioactifs dans la prostate<br />
Il y a différentes techniques d’implantation <strong>des</strong> sources. La technique d’implantation interac-<br />
tive en 3D repose sur un logiciel qui calcule la dosimétrie en temps réel, au cours même de la mise<br />
en place <strong>des</strong> sources radioactives, ce qui permet un traitement optimal. Grâce à cette technique,<br />
le traitement peut se faire en une seule séance, avec une grande précision de placement <strong>des</strong> grains<br />
et donc une meilleure efficacité.<br />
La mise en place <strong>des</strong> grains sous contrôle échographique a permis une véritable révolution<br />
de la curiethérapie de la prostate par implants permanents. En effet cette technique est peu<br />
onéreuse, facile à utiliser au bloc opératoire et présente le grand avantage de fournir <strong>des</strong> <strong>images</strong><br />
temps réel dynamique. Cependant, un seul inconvenient doit tout de même être noté : l’inter-<br />
prétation délicate <strong>des</strong> <strong>images</strong> qui fait appel à l’expérience du radiologue. Toutefois, l’échographie<br />
endorectale présente une méthode de choix pour guider l’implantation mais elle est inutilisable<br />
pour l’évaluation post-implantation.<br />
Volumétrie et Dosimétrie Déterminer le volume de la prostate avant et après implantation<br />
est primordial pour déterminer la dose radioactive et pour évaluer la qualité du traitement. Le<br />
groupe de travail AAPM 43 (AAPM Task Group 43) a établi un protocole (TG-43) de calcul<br />
<strong>des</strong> doses <strong>des</strong> éléments radioactifs utilisés dans le cadre de la curiethérapie ( 125 I, 125 Pd et 192 Ir).<br />
D’après les recommandations du TG-43, le taux de dose D(r, θ), à un point (r, θ) s’écrit :<br />
˙D(r,<br />
G(r, θ)<br />
θ) = SKΛ g(r)F (r, θ), (8.1)<br />
G(r0, θ0)
156 Applications Cliniques<br />
où SK est le débit de source (dit débit de Kerma), Λ est la constante de taux de dosage, G(r, θ)<br />
est le facteur de géométrie, g(r) est la fonction radiale de dosage, et F (r, θ) est la fonction<br />
d’anisotropie. Le point (r0 = 1.0 cm, θ0 = π/2) est défini à une distance radiale de 1.0 cm du<br />
bisecteur transversal de la source.<br />
Ainsi, la quantité <strong>des</strong> grains est évaluée en fonction du volume de la prostate. Pour 40cm 3 ,<br />
1500 MBq ou 40 mCurie sont préconisés, soit 100 à 150 grains d’iode environ. Ce calcul est désor-<br />
mais automatisé à l’aide d’un logiciel de dosimétrie dédié, qui de plus repère automatiquement<br />
les grains.<br />
Après l’implantation, <strong>des</strong> examens <strong>radiologiques</strong> sont pratiqués pour s’assurer du bon fonc-<br />
tionnement <strong>des</strong> grains. L’évaluation post-implantation s’effectue par un contrôle dosimétrique<br />
après l’application de la curiethérapie, et ce pour anticiper <strong>des</strong> problèmes cliniques éventuels<br />
(complications urinaires). Le contrôle dosimétrique exige la capacité de déterminer la position<br />
<strong>des</strong> grains par rapport à la vessie, à l’urètre, au rectum, et les contours prostatiques avec un<br />
degré élevé.<br />
Actuellement l’approche standard d’évaluation se fonde sur l’utilisation de l’imagerie TDM.<br />
Cette technique est utilisée pour visualiser aussi bien les grains radioactifs implantés que les<br />
tissus mous (urètre, rectum, contours prostatiques). Or la spécificité de l’imagerie TDM fait que<br />
celle-ci ne permet pas une acquisition précise de matières molles ou hautement vascularisées. Les<br />
contours de la prostate ainsi que les organes sensibles limitrophes sont difficiles à visualiser en<br />
utilisant l’imagerie TDM, mais le sont moins par imagerie par résonance magnétique. En effet,<br />
l’IRM, de par ses principes physiques fait qu’elle capte mieux les tissus mous ou les matières<br />
hautement vascularisées (quantité d’eau très élevée). En revanche, les grains radioactifs sont<br />
moins visibles dans les coupes IRM, d’où la nécessité de combiner celles-ci avec <strong>des</strong> coupes TDM<br />
assurant une bonne visualisation <strong>des</strong> grains et <strong>des</strong> matières osseuses.<br />
En résumé, Le recalage d’<strong>images</strong> TDM-IRM peut permettre de combiner :<br />
– la visibilité <strong>des</strong> grains radioactifs (repérage automatique par le logiciel de dosimétrie) et<br />
<strong>des</strong> structures osseuses en TDM (Fig. 8.2).<br />
– la meilleure visibilité <strong>des</strong> contours prostatiques et <strong>des</strong> organes sensibles (urètre, vessie,<br />
rectum) en IRM (Fig. 8.3).<br />
Dans ce qui suit, nous présentons les résultats d’une étude de faisabilité du recalage d’<strong>images</strong><br />
TDM-IRM sur une base de données de 14 patients implantés. Cette étude a eu lieu avant l’achè-<br />
vement de la validation de l’algorithme MIAMI. Notre but ici est de présenter un cadre applicatif<br />
à notre système.
8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 157<br />
Fig. 8.2 Données TDM de la prostate d’un patient implanté.<br />
Fig. 8.3 Données IRM de la prostate d’un patient implanté.
158 Applications Cliniques<br />
8.1.5 Le projet PTM3D<br />
Dans le but d’améliorer la qualité de l’évaluation du traitement, une technique de recalage<br />
d’<strong>images</strong> TDM - IRM fondée sur la mise en correspondance <strong>des</strong> grains radioactifs a été développée.<br />
Par la suite, l’étape consistant initialement à délimiter manuellement les contours prostatiques<br />
a été remplacée par une délimitation semi-automatique (contours actifs) moins dépendante de<br />
l’opérateur et moins consommatrice de temps. Un exemple de résultats de segmentation sur <strong>des</strong><br />
données fusionnées est donné dans la figure 8.4.<br />
Données<br />
Fig. 8.4 Exemple de segmentation volumique de la prostate après fusion TDM-<br />
IRM.<br />
La base de données est constituées d’<strong>images</strong> TDM et IRM-T2 FSE de 14 patients implantés :<br />
– Les acquisitions TDM et IRM sont réalisées le même jour, 2 mois après l’application.<br />
– Les <strong>images</strong> TDM sont en coupes de 5mm jointives
8.1 Evaluation de la curiethérapie prostatique par Fusion TDM-IRM 159<br />
– Les <strong>images</strong> IRM sont en séquence FSE T2, coupes de 3mm jointives, en antenne de surface<br />
pelvis.<br />
– La vessie est vide avant les acquisitions TDM et IRM.<br />
– L’acquisition est effectuée avec centrage laser sur les repères osseux externes du bassin.<br />
Métho<strong>des</strong> de recalage<br />
Initialement, deux métho<strong>des</strong> de recalage d’<strong>images</strong> ont été appliquées pour chaque patient.<br />
Ces métho<strong>des</strong> exécutées par <strong>des</strong> radiologues (juniors) sont fondées sur une approche géométrique<br />
de mise en correspondance <strong>des</strong> points d’intérêt :<br />
– recalage sur les structures osseuses du pelvis (3 points) et<br />
– recalage sur les grains radioactifs intra-prostatiques ( 6 à 8 points).<br />
Mesure de la qualité du recalage<br />
Deux métho<strong>des</strong> de validation du résultats du recalage ont été adoptées.<br />
– La première est une validation semi-quantitative qui se fonde sur une appréciation subjec-<br />
tive de la superposition <strong>des</strong> grains radioactifs (blanc en TDM, noir en IRM)<br />
– La deuxième est une évaluation quantitative (30 grains par patients) qui consiste à mesurer<br />
la distance séparant de centre à centre les grains visibles sur les <strong>images</strong> fusionnées TDM<br />
et IRM.<br />
Le recalage est «réussi» lorsque l’ensemble <strong>des</strong> grains intra-prostatiques sont totalement super-<br />
posés (Fig. 8.5).<br />
Indices de qualité du traitement<br />
Les paramètres dosimétriques retenus pour évaluer la qualité du traitement sont :<br />
– La D90 : dose délivrée à 90 % du volume de la prostate<br />
– Le V100 et V150 : pourcentage du volume prostatique recevant respectivement 100 et 150 %<br />
de la dose prescrite égale systématiquement à 145 Gy<br />
Ces paramètres sont dépendants de la détermination du volume de la prostate et de la position<br />
<strong>des</strong> grains radioactifs dans le volume ainsi défini.<br />
On constate que sur quatorze patients traités, trois ont une D90 inférieure à la dose de<br />
prescription de 145 Gy lorsque l’évaluation est effectuée sur les coupes tomodensitométriques.<br />
Deux de ces trois patients présentent par contre une D90 supérieure à 145 Gy lorsque la<br />
dosimétrie est effectuée sur l’une ou l’autre <strong>des</strong> métho<strong>des</strong> de recalage IRM utilisées.
160 Applications Cliniques<br />
<strong>Recalage</strong> sur repères osseux<br />
(symphyse pubienne + épines sciatiques<br />
3 couples de points)<br />
Fusion os<br />
Fusion grain<br />
<strong>Recalage</strong> sur grains<br />
(6 à 8 couples de points)<br />
Fig. 8.5 Résultats <strong>des</strong> recalages pour les données TDM-IRM prostatiques.<br />
Fig. 8.6 Résultats dosimétriques
8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 161<br />
Grâce au projet RIRE nous avons pu valider objectivement l’algorithme MIAMI<br />
ce qui a permis son application en routine clinique remplaçant ainsi les métho<strong>des</strong><br />
manuelles présentées ci-<strong>des</strong>sous.<br />
8.2 Planification de biopsies et fusion <strong>multimodal</strong>e<br />
Cette section a fait l’objet d’une publication à CARS’2004 ([Atif et al., 2004]).<br />
8.2.1 Description du projet<br />
Le projet, qui nous associe à l’unité de Neurochirurgie de l’hôpital Sainte Anne à Paris<br />
s’articule autour de quatre points qui ne sont pas tous complètement achevés. Ces points illustrent<br />
le besoin particulier en fusion de données que nécessitent les applications neurochirurgicales.<br />
La première partie de ce projet consiste en :<br />
– l’intégration d’<strong>images</strong> <strong>multimodal</strong>es <strong>radiologiques</strong> crâniennes acquises en conditions stéréo-<br />
taxiques (radiographies standard, angiographie conventionnelle ou digitalisée, ventriculo-<br />
graphie, scanner, IRM (morphololgique, fonctionnelle, spectroscopie), TEP-scanner) dans<br />
un volume appelé «espace individuel stéréotaxique», orienté autour du système géomé-<br />
trique individuel de TALAIRACH (lignes de base et quadrillage proportionnel du système<br />
Ca-Cp) ;<br />
– la fusion de ces <strong>images</strong> dans cet espace ;<br />
– la définition et le calcul de volumes anatomiques spécifiques et lésionnels ;<br />
– l’affichage <strong>des</strong> projections axiale, coronale et sagittale de ces <strong>images</strong> sur les faces corres-<br />
pondantes de cet espace ;<br />
– la reconstruction <strong>des</strong> <strong>images</strong> 3-D selon <strong>des</strong> plans obliques ou complexes définis par l’utili-<br />
sateur et affichages <strong>des</strong> <strong>images</strong> dans ces plans ;<br />
– le choix et la simulation de trajectoires intracrâniennes multiples et calculs de distances ;<br />
La deuxième partie du projet consiste en<br />
– l’intégration <strong>des</strong> <strong>images</strong> <strong>radiologiques</strong> à courte distance produites par l’amplificateur de<br />
brillance (Siemens Siremobile) dans l’espace individuel stéréotaxique : création d’<strong>images</strong><br />
de base en incidence de face et de profil centrées par le cadre de stéréotaxie et comparaison<br />
avec le mode transparent du scanner reconstruit dans ces mêmes incidences ;<br />
– intégration et affichage d’instruments chirurgicaux intracrâniens (trocarts à biopsie, élec-<br />
tro<strong>des</strong>, . . .) dans l’espace individuel stéréotaxique à partir de leurs coordonnées déterminées<br />
sur <strong>des</strong> <strong>images</strong> <strong>radiologiques</strong> à courte distance acquises selon n’importe quelle incidence ;<br />
– superposition de trajectoires simulées et image d’un instrument en position réelle ;
162 Applications Cliniques<br />
Ces deux premières parties de ce projet sont achevées. Un exemple applicatif <strong>des</strong> différentes<br />
étapes d’une biopsie récapitulant tous les points notés plus haut sont données dans les sections<br />
qui suivent.<br />
8.2.2 Validation sur <strong>des</strong> données Synthétiques<br />
Une première étape de validation clinique a consisté à utiliser un crâne expérimental et<br />
à simuler un ensemble de fantomes de lésions pour calculer la trajectoire de la biopsie. Les<br />
différentes étapes sont données dans les figures 8.7, 8.8 et 8.9.<br />
(a) Scanner en coupes millimétriques d’un crâne expérimental<br />
(b) Segmentation 3D <strong>des</strong> fantômes <strong>des</strong> lésions<br />
Fig. 8.7 Validation expérimental : étape 1
8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 163<br />
(a) Localisation 3D du fantôme d’une lésion (b) Simulation 3D d’une trajectoire d’intervention<br />
(c) Modification interactive de la trajectoire d’intervention<br />
sur les plans<br />
Fig. 8.8 Validation expérimental : étape 2<br />
(d) Contrôle 3D à l’aide d’un plan tangent à la trajectoire
164 Applications Cliniques<br />
(a) Contrôle 3D à l’aide d’un plan normal à la trajectoire (b) Contrôle 3D à l’aide d’un plan normal à la trajectoire<br />
(c) Sélection interactive d’une scopie à courte distance (d) Fusion temps réel scopie / segments 3D<br />
Fig. 8.9 Validation expérimental : étape 3
8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 165<br />
8.2.3 Utilisation en routine clinique<br />
La deuxième étape de ce projet a consisté à appliquer dans un cadre clinique le protocole<br />
chirurgical alors validé. Les résultats sont données dans les figures 8.10, 8.11, 8.12 et 8.14.<br />
(a) <strong>Recalage</strong> dynamique 2D / 3D à partir de repères anatomiques<br />
(b) Visualisation 3D IRM<br />
(c) Segmentation 3D du crâne (d) Segmentation 3D transparente du crâne<br />
Fig. 8.10 Cas réel : étape 1
166 Applications Cliniques<br />
(a) Segmentation 3D de la lésion (b) Segmentation 3D de la lésion et mesure automatique<br />
du volume<br />
(c) Segmentation 3D crâne / lésion (d) Choix du plan d’intervention<br />
Fig. 8.11 Cas réel : étape 2
8.2 Planification de biopsies et fusion <strong>multimodal</strong>e 167<br />
(a) Choix anatomique d’une trajectoire et contrôle 3D<br />
<strong>des</strong> extrémités<br />
(c) Contrôle anatomique à l’aide d’un plan tangent à la<br />
trajectoire<br />
Fig. 8.12 Cas réel : étape 3<br />
(b) Fusion temps réel trajectoire / crâne / lésion<br />
(d) Contrôle anatomique à l’aide d’un plan perpendiculaire<br />
à la trajectoire
168 Applications Cliniques<br />
Fig. 8.13 Contrôle global : point d’entrée, cible, chemin traversé, . . .<br />
Fig. 8.14 Cas réel : étape 4
Chapitre 9<br />
Conclusion<br />
9.1 Bilan<br />
Les travaux présentés dans ce mémoire portent sur le recalage <strong>non</strong>-<strong>rigide</strong> <strong>multimodal</strong> <strong>des</strong><br />
<strong>images</strong> médicales et plus particulièrement, sur la définition d’un nouveau critère de similarité<br />
inspirée de la théorie de l’information. Nous sommes partis du constat que les métho<strong>des</strong> ico-<br />
niques adaptées au cadre <strong>multimodal</strong> du recalage ne peuvent être utilisées pour corriger <strong>des</strong><br />
déformations locales <strong>des</strong> organes à cause du temps de calcul conséquent qu’elles nécessitent.<br />
Nous avons alors défini dans ce mémoire un ensemble d’outils permettant de prendre en compte<br />
l’aspect <strong>multimodal</strong> tout en ne nécessitant qu’un temps de calcul assez réduit pour pouvoir consi-<br />
dérer la correction de déformations <strong>non</strong>-<strong>rigide</strong>s. Ces outils sont principalement composés d’une<br />
nouvelle méthode de similarité fondée sur l’entropie quadratique de Rényi et et d’une méthode<br />
d’estimation <strong>non</strong>-paramétrique à noyau adaptatif.<br />
Ce mémoire a commencé par définir les fondements théoriques du recalage d’<strong>images</strong>. Après<br />
une brève présentation de l’approche géométrique, le chapitre 2 s’est consacré aux approches<br />
iconiques. Le problème de recalage a été défini comme un problème d’inférence statistique qui<br />
consiste à identifier les paramètres d’un modèle de dépendance inter-<strong>images</strong>. Nous avons alors<br />
classé les différentes mesures de similarités selon l’hypothèse de dépendance inter-<strong>images</strong> ap-<br />
propriée. La dépendance statistique étant la plus générique, nous avons étudié les mesures de<br />
similarité immanentes de cette classe et plus particulièrement celles fondées sur la théorie de<br />
l’information comme l’information mutuelle. À l’issue de ce chapitre nous avons orienté nos re-<br />
cherches la théorie de l’information et les statistiques afin de définir de nouvelles mesures de<br />
similarité et d’étudier les modèles d’estimation <strong>des</strong> densités de probabilité.<br />
Au chapitre 3, nous avons étudié le problème spécifique du recalage <strong>non</strong>-<strong>rigide</strong>. Les différents<br />
modèles de déformation utilisés pour une fin de recalage ont été passés en revue. Ce chapitre se<br />
169
170 Conclusion<br />
clôt par la définition d’une approche hybride consistant à approcher dans un premier temps le<br />
recalage <strong>non</strong>-<strong>rigide</strong> par un recalage affine, ce qui permet à la fois de réduire le temps de calcul<br />
et de résoudre le problème d’initialisation dont souffrent les algorithmes <strong>non</strong>-<strong>rigide</strong>s.<br />
Dans le chapitre 4 nous entrepre<strong>non</strong>s une étude sur la notion de quantification d’information<br />
dans un cadre d’imagerie. Dans ce chapitre nous avons défini une nouvelle classe de mesure de<br />
similarité qui se fonde sur la notion d’entropie généralisée. Les quatre mesures définies dans cette<br />
classe n’ont malheureusement pas toutes été testées ; leur cadre d’application dépasse largement<br />
cette thèse. Cependant, cette étude théorique nous a permis de définir un nouveau critère de<br />
similarité, normalisé de façon à tenir compte <strong>des</strong> effets de recouvrement partiel inhérents à<br />
toute procédure de recalage. Ce critère appartenant à la classe <strong>des</strong> mesures iconiques opère sous<br />
l’hypothèse générique de dépendance statistique. De plus ce critère, du fait qu’il soit fondé sur<br />
l’entropie quadratique de Rényi nécessite beaucoup moins de temps de calcul lorsqu’il est associé<br />
à une densité de probabilité à noyau gaussien.<br />
Le chapitre 5 porte sur les modèles d’estimation <strong>des</strong> densités de probabilité. Le problème au-<br />
quel se consacre ce chapitre est l’estimation <strong>des</strong> histogrammes d’<strong>images</strong> afin d’accélérer le temps<br />
de calcul du critère de similarité. Ce qui nous permet d’utiliser <strong>des</strong> modèles de déformation<br />
<strong>non</strong>-<strong>rigide</strong>s avec <strong>des</strong> degrés de liberté très élevés. De plus, ce chapitre s’attaque à un problème<br />
connu en estimation <strong>non</strong>-paramétrique, à savoir le calcul du paramètre de lissage dans un cadre<br />
adaptatif. En effet, l’utilisation <strong>des</strong> noyaux adaptatifs est nécessaire dès que la densité que l’on<br />
cherche à estimer comporte plusieurs mo<strong>des</strong>, ce qui est le cas pour les <strong>images</strong> médicales. Cepen-<br />
dant, le calcul automatique <strong>des</strong> noyaux adaptatifs nécessite un temps de calcul conséquent, ce<br />
qui astreint les utilisateurs à utiliser un noyau fixe dans le cadre du recalage ([Viola, 1995]). Nous<br />
avons alors apporté une réponse à ce problème en utilisant une méthode à noyau adaptatif qui<br />
nécessite un temps de calcul raisonnable permettant son utilisation dans un cadre de recalage.<br />
La méthode choisie est un modèle hybride qui commence par une méthode d’estimation classique<br />
semi-paramétrique fondée sur un mélange de gaussiennes. Cette première estimation sert d’ap-<br />
proximation à l’estimation <strong>non</strong>-paramétrique qui agit alors comme une procédure de raffinement.<br />
En outre, les gaussiennes calculées à partir de l’estimateur semi-paramétrique servent à définir et<br />
contrôler l’étendu <strong>des</strong> paramètres de lissage variables alors dans l’étape <strong>non</strong>-paramétrique d’es-<br />
timation. Ce schéma nous permet d’utiliser <strong>des</strong> noyaux adaptatifs aboutissant ainsi à <strong>des</strong> gains<br />
en précision.<br />
Le chapitre 6 introduit l’algorithme MIAMI et décrit les différents choix de mise en œuvre.<br />
L’algorithme MIAMI opère en deux étapes. La première étape est un recalage affine qui uti-<br />
lise comme modèle de déformation une transformation affine, comme critère de similarité l’in-<br />
formation mutuelle quadratique normalisée et comme procédure d’optimisation la méthode de<br />
Marquardt-Levenberg. Un schéma multi-résolution est utilisé pour accélérer le temps de calcul
9.1 Bilan 171<br />
et améliorer la robustesse de l’algorithme. La deuxième étape se fonde sur un recalage <strong>non</strong>-<strong>rigide</strong><br />
utilisant les déformations de formes libres. Le critère de similarité associe à l’information mutuelle<br />
quadratique normalisée une force de régularisation qui contrôle le résultat final de la transforma-<br />
tion <strong>non</strong>-<strong>rigide</strong>. L’énergie de régularisation ainsi que le facteur ζ dit de compétition qui associe<br />
les deux énergies n’ont pas été discutés de façon suffisante dans ce mémoire. La raison en est<br />
simple ; nous avons fait le choix de consacrer nos efforts au développement concernant le critère<br />
de similarité et le modèle d’estimation, d’autant que <strong>des</strong> travaux de thèses se sont consacrés<br />
particulièrement à ce point [Cachier, 2002].<br />
Le chapitre 7 présente les différentes métho<strong>des</strong> d’évaluation <strong>des</strong> résultats du recalage. Dans<br />
un premier temps, les métho<strong>des</strong> de validation visuelle sont exposés. Se fondant sur <strong>des</strong> techniques<br />
de mélange d’<strong>images</strong>, ces métho<strong>des</strong> permettent à un utilisateur «expert» d’apprécier le résultat<br />
d’un recalage donné. Dans un second temps, une méthode d’évaluation fondée sur l’utilisation<br />
de marqueurs externes est exposée.<br />
Grâce au projet RIRE et aux efforts de l’équipe de «Vanderbilt», nous avons pu évaluer<br />
«objectivement» le comportement en terme de précision et de robustesse de notre critère de<br />
similarité (NQMI). Les résultats obtenus sont très encourageants et situent notre méthode au<br />
niveau <strong>des</strong> meilleures métho<strong>des</strong> évaluées dans [West et al., 1997a]. Toutefois, il faut retenir que<br />
notre méthode présente, comme c’est le cas pour toutes les approches opérant sous hypothèse<br />
statistique, <strong>des</strong> résultats insuffisants dans le cadre TEP-IRM. Ceci vient, comme l’a expliqué<br />
[Roche, 2001], du fait que la dépendance fonctionnelle est la plus appropriée pour définir la<br />
relation entre les intensités <strong>des</strong> <strong>images</strong> TEP et IRM d’un même patient. L’on en conclut que<br />
notre critère n’a pas vocation à résoudre tous les problèmes de recalage, mais il se situe parmi les<br />
meilleures métho<strong>des</strong> capables de modéliser une dépendance statistique entre deux ou plusieurs<br />
modalités. En outre, ce qu’il faut retenir de cette étude est qu’une mesure de similarité doit<br />
être choisie en fonction de l’hypothèse que l’on émet sur la dépendance entre deux imageurs.<br />
En l’absence de cette hypothèse, le choix d’une mesure de similarité fondée sur l’information<br />
mutuelle généralisée reste convenable. La deuxième partie de ce chapitre a concerné la validation<br />
du recalage <strong>non</strong>-<strong>rigide</strong>. Malheureusement, nous n’avons pas pu participer, comme dans le cas<br />
du cadre <strong>rigide</strong>, à un projet d’évaluation rétrospective, pour la simple raison que les travaux<br />
concernant cet aspect ne sont toujours pas achevés. Néanmoins, nous avons conçu un ensemble<br />
d’expériences pour apprécier les gains en précision et en temps de calcul.<br />
Pour appuyer l’aspect finalisé de notre recherche, nous avons présenté dans le chapitre 8 deux<br />
applications cliniques reflétant l’utilisation en routine qui est faite de notre système. Ces deux<br />
applications sont la Curiethérapie prostatique et la planification de biopsies du crâne.
172 Conclusion<br />
9.2 Perspectives<br />
9.2.1 Information Mutuelle Généralisée<br />
La classe de mesures de similarité définie dans le chapitre 4 présente <strong>des</strong> caractéristiques<br />
calculatoires intéressantes qui n’ont pas pu être mises en évidence dans le cadre de ce manuscrit.<br />
Cependant, il serait intéressant d’évaluer leur comportement dans le cadre d’applications liées<br />
à la segmentation d’<strong>images</strong>, à la classification et à l’indexation par le contenu. Leur applica-<br />
tion à la segmentation par modèles déformables d’<strong>images</strong> médicales a d’ores et déjà commencé<br />
dans le cadre <strong>des</strong> travaux de thèse de Xavier Ripoche [Ripoche et al., 2004]. Les résultats préli-<br />
minaires sont intéressants et ouvrent une voie de recherche nouvelle concernant l’utilisation de<br />
l’information mutuelle comme critère de déformation.<br />
9.2.2 <strong>Recalage</strong> inter-patients et morphométrie<br />
La morphométrie consiste à étudier la géométrie <strong>des</strong> formes, et en particulier le calcul de<br />
formes moyennes et de variations autour de ces formes.<br />
Un prolongement naturel <strong>des</strong> travaux abordés dans ce mémoire concerne l’application du<br />
recalage inter-sujets afin de construire de manière automatique <strong>des</strong> atlas anatomiques morpho-<br />
métriques. Une étape préliminaire doit consister à évaluer rétrospectivement l’algorithme de<br />
recalage <strong>non</strong>-<strong>rigide</strong> dans un cadre multisujets. Les applications concernent le calcul d’atlas ana-<br />
tomiques probabilistes, et la comparaison d’<strong>images</strong> entre patients peuvent alors être abordées.<br />
Dans le cadre de nos travaux avec le CH Sainte Anne, il est envisagé la création d’une<br />
base de données de type Atlas Anatomique Individuel en vue d’une identification automatique<br />
<strong>des</strong> structures anatomiques cérébrales individuelles comportant les contours ventriculaires, les<br />
sillons et scissures, les circonvolutions et zones architectoniques (classification de Brodman), les<br />
principaux faisceaux de la substance blanche, les ganglions de la base et les noyaux <strong>des</strong> nerfs<br />
crâniens, les voies de projection corticales et les gran<strong>des</strong> voies <strong>des</strong>cendantes, . . .<br />
9.2.3 Imagerie fonctionnelle<br />
Étudier <strong>des</strong> aspects liés à la croissance physiologique et tumorale ; appréhender le système<br />
nerveux ; comprendre la pathologie parkinsonienne (stimulation <strong>des</strong> noyaux sous-thalamiques) ;<br />
comprendre <strong>des</strong> fonctions cognitives ou psycho-cognitives comme les structures cérébrales impli-<br />
quées dans la génération de représentations visuo-spatiales... tant de métho<strong>des</strong> qui impliquent di-<br />
rectement l’imagerie fonctionnelle et font appel aux techniques de recalage fonctionnel/structurel.
9.2 Perspectives 173<br />
Mais les métho<strong>des</strong> développées aujourd’hui n’ont que peu été utilisées dans ce contexte. L’in-<br />
tégration par exemple <strong>des</strong> signaux EEG ou MEG pose encore beaucoup de problèmes dans un<br />
cadre de recalage à cause de la spécificité de l’information donnée par ces derniers. Des directions<br />
de recherche doivent concerner cet aspect afin d’aller plus loin dans la compréhension du vivant.
174
Annexe A<br />
Caractéristique asymptotiques de<br />
l’estimateur réduit<br />
Pour établir l’optimalité d’un estimateur, ses caractéristiques asymptotiques doivent être<br />
prouvées. Rappelons qu’en théorie d’estimation les caractéristiques asymptotiques ont été intro-<br />
duites pour s’assurer de la convergence <strong>des</strong> estimateurs quand la taille d’échantillon augmente<br />
avec le temps. Cette appendice concerne les preuves de consistance de l’estimateur «FKE» [Mar-<br />
chette et al., 1995].<br />
La consistance<br />
La consistance de l’estimateur ˆ f est établie lorsque l’on a démontré que le biais et la variance<br />
tendent vers zéro quand le nombre d’échantillon tend vers l’infini, ce qui veut dire que l’estimation<br />
converge vers la densité réelle :<br />
ˆfn→∞ → f<br />
La preuve de consistance revient à démontrer que le biais et la variance tendent vers 0 quand n<br />
tend vers l’infini. Commençons par le biais :<br />
Biais( ˆ f) = E( ˆ f) − f<br />
= 1<br />
n m<br />
<br />
E<br />
n<br />
i=1 j=1<br />
m<br />
<br />
=<br />
<br />
j=1<br />
Wj(y)<br />
hd K<br />
j<br />
Wj(Xi)<br />
hd K<br />
j<br />
<br />
x − Xi<br />
<br />
− f(x)<br />
hj<br />
<br />
x − y<br />
<br />
f(y)dy − f(x)<br />
hj<br />
175
176 Caractéristique asymptotiques de l’estimateur réduit<br />
Il a été noté plus haut que, lorsque la taille d’échantillon augmente et tend vers l’infini le para-<br />
mètre de lissage doit tendre vers l’infini : on a alors l’inférence : n → ∞ =⇒ hj → 0. Par le<br />
lemme de Bochner 1 on a :<br />
m<br />
Wj(y)f(y) − f(y) = 0<br />
j=1<br />
Ce qui revient à une réduction du biais de l’estimateur quand la taille de l’échantillon augmente.<br />
Analysons à présent le comportement de la variance quand la taille de l’échantillon augmente.<br />
De la même façon on écrit :<br />
Var( ˆ f(x)) = 1<br />
n 2<br />
⎛<br />
n m<br />
Var ⎝<br />
i=1<br />
≤ 1<br />
n E<br />
⎛<br />
m m<br />
⎝<br />
= 1<br />
n<br />
≤ 1<br />
n<br />
j=1 k=1<br />
j=1 k=1<br />
j=1<br />
Wj(y)<br />
h d j<br />
h d j<br />
Wj(xi)<br />
hd K<br />
j<br />
Wk(y)<br />
hd K<br />
k<br />
h d k<br />
x − Xi<br />
hj<br />
x − y<br />
hj<br />
hj<br />
⎞<br />
⎠<br />
<br />
K<br />
x − y<br />
hk<br />
hk<br />
⎞<br />
⎠<br />
m m<br />
<br />
Wj(y) Wk(y) x − y x − y<br />
K K f(y)dy<br />
m<br />
m<br />
1<br />
h<br />
j=1 k=1<br />
d j hd k<br />
≤ sup(K(w))<br />
n<br />
→ sup(K(w))<br />
n<br />
→ 0<br />
m<br />
<br />
x − y x − y<br />
K K f(y)dy<br />
m<br />
1<br />
h<br />
j=1 k=1<br />
d j hd k<br />
m<br />
1<br />
hj<br />
<br />
h<br />
j=1<br />
d f(x)σ<br />
j<br />
2 K<br />
hk<br />
hk<br />
<br />
x − y<br />
K f(y)dy<br />
Les dernières inférences viennent du fait que nhj n→∞ → ∞ et que le noyau K satisfait les<br />
conditions du moment 5.6 :<br />
<br />
K(w)dw = 1;<br />
<br />
wK(w)dw = 0; et σ 2 K =<br />
<br />
w 2 K(w)dw > 0,<br />
1 LEMME = Si f est bornée et continue alors E( ˆ f) → f uniformément dans tout espace compact.
La consistance L2<br />
La consistance L2 consiste à prouver la minimisation du risque dans un espace quadratique.<br />
Si l’on prend l’Erreur Quadratique Intégrée Moyenne MISE :<br />
On obtient :<br />
Biais( ˆ f) =<br />
=<br />
≈<br />
j=1<br />
hj<br />
MISE( ˆ <br />
f) =<br />
hj<br />
Biais 2 ( ˆ f) + Var( ˆ f)<br />
m<br />
<br />
1 x − y<br />
K Wj(y)f(y) dy − f(x)<br />
m<br />
<br />
j=1<br />
m<br />
j =1<br />
= σ2 K<br />
2<br />
[K(w)Wj(x − hjw)f(x − hjw)] dw − f(x)<br />
177<br />
<br />
K(w) f(x)Wj(x) − hjw d<br />
dx (f(x)Wj(x)) + h2 d<br />
2<br />
2<br />
<br />
(f(x)Wj(x)) dw − f(x)<br />
d x2 m<br />
j=1<br />
On peut alors écrire :<br />
<br />
h 2 j<br />
Biais 2 ( ˆ f) ≈ σ2 K<br />
4<br />
d 2<br />
(f(x)Wj(x))<br />
d x2 m<br />
j=1 k=1<br />
m<br />
h 2 jh 2 <br />
d2 k<br />
De la même façon la Variance Intégrée s’écrit :<br />
En notant :<br />
j=1<br />
hj<br />
d2<br />
(f(x)Wj(x))<br />
dx2 dx2 (f(x)Wk(x)) dx<br />
Var( ˆ f) = 1<br />
<br />
n<br />
⎛<br />
m<br />
<br />
⎝<br />
Wj(y) x − y<br />
K<br />
⎞2<br />
⎠ M(y)dy + O(n −1 )<br />
≈ 1<br />
n<br />
m<br />
m<br />
1<br />
1<br />
hj hk<br />
j=1 k=1<br />
la Variance Intégrée s’écrit alors :<br />
<br />
Var( ˆ f) ≈ 1<br />
n<br />
hj<br />
<br />
x − y x − y<br />
K K Wj(y)Wk(y)f(y)dy.<br />
<br />
g(hj, hk) =<br />
j=1 k=1<br />
hj<br />
hk<br />
K( 1<br />
)K(<br />
hj<br />
1<br />
)dw (A.1)<br />
hk<br />
m m<br />
<br />
g(hj, hk)<br />
Wj(y)Wk(y)f(y)dy (A.2)<br />
hjhk
178 Caractéristique asymptotiques de l’estimateur réduit<br />
En fin de compte on a :<br />
g(hj, hk) ≤ min(hj, hk)sup(K(w)),<br />
ce qui veut dire que la Variance Intégrée est d’ordre (n min(hk) −1 ). Par conséquent, la complexité<br />
au pire est de l’ordre de O(n −1/2 ).<br />
Le Risque (MISE) s’écrit alors :<br />
MISE(h) ≈ σ2 K<br />
4<br />
m<br />
j=1 k=1<br />
m<br />
h 2 jh 2 <br />
d2 k<br />
1<br />
n<br />
d2<br />
(f(x)Wj(x))<br />
dx2 dx2 (f(x)Wk(x)) dx + (A.3)<br />
m<br />
j=1 k=1<br />
m<br />
<br />
g(hj, hk)<br />
hjhk<br />
Wj(y)Wk(y)f(y)dy. (A.4)<br />
En conclusion Le risque MISE tend vers 0 avec une complexité au pire de l’ordre de O(n −1/2 ),<br />
comme c’est le cas pour les estimateurs à noyau fixe.
Bibliographie<br />
[Aczél and Daróczy, 1975] J. Aczél and Z. Daróczy. On Measures of Information and Their<br />
Characteristics. Academic Press, 1975.<br />
[Akaike, 1954] H. Akaike. An approximation to the density function. Annals of the Institute of<br />
Statistical Mathematics, 6 :127–132, 1954.<br />
[Alpert et al., 1996] N. M. Alpert, D. Berdichevsky, Z. Levin, E. D. Morris, and A. J. Fischman.<br />
Improved methods for image registration. NeuroImage, 3(1) :10–18, February 1996.<br />
[Arad et al., 1994] N. Arad, N. Dyn, Daniel Reisfeld, and Yehezkel Yeshurun. Image warping<br />
by radial basis functions : Application to facial expressions. Computer Vision, Graphics, and<br />
Image Processing. Graphical Models and Image Processing, 56(2) :161–172, 1994.<br />
[Ardekani et al., 1995] B. Ardekani, M. Braun, B. F. Hutton, I. Kanno, and H. Iida. A fully automatic<br />
<strong>multimodal</strong>ity image registration algorithm. Journal of Computer Assisted Tomography,<br />
19(4) :615–623, July-August 1995.<br />
[Atif et al., 2004] J. Atif, X. Ripoche A. Osorio, B. Devaux, and F. Roux. Integration of short distance<br />
radiological <strong>images</strong>, angiography and <strong>multimodal</strong> image fusion in a stereotaxic software<br />
environment for biopsy interventions. In CARS, Computer Assisted Radiology and Surgery,<br />
2004.<br />
[Bajcsy et al., 1983] R. Bajcsy, R. Lieberson, and M. Reivich. A computerized system for the<br />
elastic matching of deformed radiographic <strong>images</strong> to idealized atlas <strong>images</strong>. J. Comput. Assisted<br />
Tomogr., 7 :618–625, August 1983.<br />
[Barr, 1984] A. H. Barr. Global and local deformations of solid primitives. In H. Christiansen,<br />
editor, SIGGRAPH ’84 Conference Proceedings (Minneapolis, MN, July 23-27, 1984), pages<br />
21–31. ACM, July 1984.<br />
[Besl and McKay, 1992] P. J. Besl and N. D. McKay. A method for registration of 3-D shapes.<br />
IEEE Transactions on Pattern Analysis and machine Intelligence, 14(2) :239–258, February<br />
1992.<br />
[Betting et al., 1995] F. Betting, J. Feldmar, N. Ayache, and F. Devernay. A new framework for<br />
fusing stereo <strong>images</strong> with volumetric medical <strong>images</strong>. In Nicholas Ayache, editor, Computer<br />
Vision, Virtual Reality and Robotics in Medicine, Lecture Notes in Computer Science. Springer-<br />
Verlag, April 1995. ISBN 3-540-59120-6.<br />
[Bishop, 1995] Ch. M. Bishop. Neural Networks for Pattern Recognition. Oxford University<br />
Press, Oxford, UK, 1995.<br />
179
180 Bibliographie<br />
[Bookstein and Green, 1993] F. L. Bookstein and W. D. K. Green. A feature space for edges in<br />
<strong>images</strong> with landmarks. J. Math. Imaging and Vision, 3 :231–261, 1993.<br />
[Bowman, 1984] A. W. Bowman. An alternative method of cross-validation for the smoothing<br />
of density estimates. Biometrika, 71(2) :353–360, 1984.<br />
[Bro-Nielsen and Gramkow, 1996] M. Bro-Nielsen and C. Gramkow. Fast fluid registration of<br />
medical <strong>images</strong>. In Proceedings of the 4th International Conference on Visualization in Biomedical<br />
Computing, pages 267–276. Springer-Verlag, 1996.<br />
[Brown and Boult, 2002] L. M. G. Brown and T. E. Boult. Registration of planar film radiographs<br />
with computed tomography. IEEE Workshop on Mathematical Methods Biomedical<br />
Imaging, January 07 2002.<br />
[Brown, 1992] L. G. Brown. A survey of image registration techniques. ACM Comput. Surv.,<br />
24(4) :325–376, 1992.<br />
[Cachier, 2002] P. Cachier. <strong>Recalage</strong> <strong>non</strong> <strong>rigide</strong> d’<strong>images</strong> médicales volumiques - contribution<br />
aux approches iconiques et géométriques. Thèse de sciences, École Centrale <strong>des</strong> Arts et Manufactures,<br />
January 2002.<br />
[Cacoullos, 1966] T. Cacoullos. Estimation of a multivariate density. Annals of the Institute of<br />
Statistical Mathematics, 18 :179–189, 1966.<br />
[Cao and Devroye, 1996] R. Cao and L. Devroye. The consistency of a smoothed minimum<br />
distance estimate. Scandinavian Journal of Statistics, 23 :405–418, 1996.<br />
[Cao et al., 1995] R. Cao, A. Cuevas, and R. Fraiman. Minimum distance density-based estimation.<br />
Computational Statistics and Data Analysis, 20 :611–631, 1995.<br />
[Christensen et al., 1996] G. E. Christensen, R. D. Rabbitt, and M. I. Miller. Deformable<br />
templates using large deformation kinematics. IEEE Transactions On Image Processing,<br />
5(10) :1435–1447, October 1996.<br />
[Collig<strong>non</strong> et al., 1995] A. Collig<strong>non</strong>, F. Maes, D. Delaere, D. Vandermeulen, P. Suethens, and<br />
G. Marchal. Automated multi-modality image registraction based on information theory. In<br />
Y. Bizais and R. Di Paola, editors, Information Processing in Medical Imaging, pages 263–274,<br />
Amsterdam, June 1995. Kluwer Academic.<br />
[Costa et al., 1993] W.L.S. Costa, D.R. Haynor, T.K. Lewellen, and M.M. Graham. A Maximum-<br />
Likelihood Approach to Pet Emission/Attenuation Image Registration. IEEE Nuclear Science<br />
Symposium and Medical Imaging Conference, 1993.<br />
[Cover and Thomas, 1991] T. M. Cover and J. A. Thomas. Elements of Information Theory.<br />
Wiley Series in Telecommunications. John Wiley & Sons, New York, NY, USA, 1991.<br />
[Davatzikos, 1997] C. Davatzikos. Spatial transformation and registration of brain <strong>images</strong> using<br />
elastically deformable models. Computer Vision and Image Understanding, 66(2) :207–222,<br />
May 1997. Special issue on Medical Imaging.<br />
[Davis et al., 1997] M.H. Davis, A. Khotanzad, D.P. Flamig, and S.E. Harms. A physics-based<br />
coordinate transformation for 3-d image matching. IEEE Trans. Med. imaging, 16 (3) :317–<br />
328, 1997.<br />
[Dempster et al., 1977] A.P. Dempster, N.M.Laird, and D.B.Rubin. Maximum likelihood from<br />
incomplete data via the EM algorithm. Journal Royal Stat. Soc., Series B, 39(1) :1–38, 1977.
Bibliographie 181<br />
[Devroye and Györfi, 1985] L. Devroye and L. Györfi. Nonparametric Density Estimation : The<br />
L1 View. John Wiley, New York, 1985.<br />
[Devroye, 1987] L. Devroye. A Course in Density Estimation. Birkhauser, Boston, 1987.<br />
[Duchon, 1976] J. Duchon. Interpolation de functiom de deux variables suivant le principe de<br />
la flexion <strong>des</strong> plaques mince. Rev. Française d’Automatique, d’Informatique et de Recherche<br />
Opérationelle, pages 5–12, December 1976.<br />
[Edwards et al., 1998] P. J. Edwards, D. L. G. Hill, J. A. Little, and D. J. Hawkes. A threecomponent<br />
deformation model for image-guided surgery. Medical Image Analysis, 2(3) :355–<br />
367, 1998.<br />
[Faugeras, 1993] O. Faugeras. Three-Dimensional Computer Vision : A Geometric Viewpoint.<br />
MIT Press, Cambridge, Massachusetts, 1993.<br />
[Fitzpatrick and West, Feb. 2000] J. Michael Fitzpatrick and J. B. West. Point-based rigid registration<br />
: Clinical validation of theory. Medical Imaging, 3979 :353–359, Feb. 2000.<br />
[Fix and Hodges, 1951] E. Fix and J.L Hodges. Discriminatory analysis, <strong>non</strong>-parametric discrimination<br />
: consistency properties. Technical report, USAF Scholl of aviation and medicine,<br />
Randolph Field, 1951. 4.<br />
[Fleute et al., 2002] M. Fleute, S. Lavallée, and L. Desbat. Integrated approach for matching<br />
statistical shape models with intra-operative 2D and 3D data. Lecture Notes in Computer<br />
Science, 2489 :364–380, 2002.<br />
[Gee et al., 1997] J. C. Gee, D. R. Haynor, L. Le Briquer, and R. K. Bajcsy. Advances in elastic<br />
matching theory and its implementation. Lecture Notes in Computer Science, 1205 :63– ? ?,<br />
1997.<br />
[Grimson et al., 1997] L. Grimson, R. Kikinis, T. Kapur, W. Eric, and W. M. Wells III. Segmentation<br />
of brain tissue from magnetic resonance <strong>images</strong>. Medical Image Analysis, 1 :109–127,<br />
1997.<br />
[Hartley, 1928] R.V.L. Hartley. Transmission of information. Bell System Technical Journal,<br />
7(4) :535–563, 1928.<br />
[Havrda and Charvát, 1967] J. Havrda and F. Charvát. Quantification method of classification<br />
processes. Concept of structural a-entropy. Kybernetika, 3 :30–35, 1967. Review by I. Csiszár<br />
in MR, vol. 34, no.8875.<br />
[Haynor et al., 1998] D. R. Haynor, J. C. Gee, M. Reivich, and R. Bajcsy. Finite element approach<br />
to warping of brain <strong>images</strong>. In M.H. Loew, editor, Proc. SPIE Image Processing, volume<br />
2167, pages 327–337. SPIE, february 1998.<br />
[He et al., 2001] Y. He, A. Ben Hamza, and A. Hamid Krim. Information divergence measure<br />
for ISAR image registration. In Firooz A. Sadjadi, editor, Proc. SPIE, volume 4379, pages<br />
199–208. SPIE, 2001.<br />
[Hill et al., 1994] D. L. G. Hill, C. Studholme, and D. J. Hawkes. Voxel similarity measures for<br />
automated image registration. In Proc. SPIE, pages 205–216, Rochester Mn., U.S.A, 1994.<br />
SPIE Press.<br />
[Hjort and Glad, 1995] N. L. Hjort and I. K. Glad. Nonparametric density estimation with a<br />
parametric start. Annals of Statistics, 23 :882–904, 1995.
182 Bibliographie<br />
[Höhne and Hanson, 1992] K. Höhne and W. Hanson. Interactive 3-D segmentation of MRI<br />
and CT volumes using morphological operations. Journal of Computer Assisted Tomography,<br />
16(2) :285–294, 1992.<br />
[Horn and Schunck, 1980] B. K. P. Horn and B. G. Schunck. Determining optical flow. Technical<br />
Report AIM-572, MIT Artificial Intelligence Laboratory, April 6 1980.<br />
[Kerridge, 1961] D. F. Kerridge. Inaccuracy and inference. Journal of the Royal Statistical<br />
Society, B 23 :184–194, 1961.<br />
[Kullback and Leibler, 1951] S. Kullback and R. A. Leibler. On information and sufficiency.<br />
Annals of Math. Stats., 22 :79–86, 1951.<br />
[Kunt et al., 1993] M. Kunt, G. Granlund, and M. Kocher. Traitement numérique <strong>des</strong> <strong>images</strong>.<br />
Traitement de l’information : volume n˚2, 1993.<br />
[Lester et al., 1999] H. Lester, S. R. Arridge, K. M. Jansons, L. Lemieux, J. V. Hajnal, and<br />
A. Oatridge. Non-linear registration with the variable viscosity fluid algorithm. In Proceedings<br />
of the 16th International Conference on Information Processing in Medical Imaging, pages<br />
238–251. Springer-Verlag, 1999.<br />
[Leventon and Grimson, 1998] M. E. Leventon and W. E. L. Grimson. Multi-modal volume<br />
registration using joint intensity distributions. Lecture Notes in Computer Science, 1496 :1057–<br />
1078, 1998.<br />
[Little et al., 1997] J. A. Little, D. L. G. Hill, and D. J. Hawkes. Deformations incorporating<br />
rigid structures. Computer Vision and Image Understanding : CVIU, 66(2) :223–232, May<br />
1997.<br />
[Maes et al., 1997] F. Maes, A. Collig<strong>non</strong>, D. Vandermeulen, G. Marchal, and P. Suetens. Multimodality<br />
image registration by maximization of mutual information. IEEE Transactions of<br />
Medical Imaging, 16(2) :187–198, apr 1997.<br />
[Maintz and Viergever, 1996] J. Maintz and M. Viergever. An overview of medical image registration<br />
methods, 1996.<br />
[Maintz and Viergever, 1997] J. B. Antoine Maintz and M. A. Viergever. An overview of medical<br />
image registration methods. Symposium of the Belgian hospital physicists association<br />
(SBPH/BVZF), 12 :1–22, July 1997.<br />
[Marchette et al., 1995] D. Marchette, C. Priebe, G. Rogers, and J. Solka. Filtered kernel density<br />
estimation. Computational Statistics, 11 :95–112, 1995.<br />
[Marquardt, 1963] D. W. Marquardt. An algorithm for least-squares estimation of <strong>non</strong>-linear<br />
parameters. Journal of the Society of Industrial and Applied Mathematics, 11(2) :431–441,<br />
1963.<br />
[Meinguet, 1979] J. Meinguet. Multivariate interpolation at arbitrary points made simple. Journal<br />
of Applied Mathematics and Physics (ZAMP), 30 :292–304, 1979.<br />
[Minnotte and Scott, 1993] M. C. Minnotte and D. W. Scott. The mode tree : a tool for visualization<br />
of <strong>non</strong>parametric density features. Journal of Computational and Graphical Statistics,<br />
2 :51–68, 1993.<br />
[Mittal, 1975] D. P. Mittal. On some functional equations concerning entropy, directed divergence<br />
and inaccuracy. Metrika, 22 :35–45, 1975.
Bibliographie 183<br />
[Nath, 1975] P. Nath. On a coding theorem connected with Rényi’s entropy. Information and<br />
Control, 29(3) :234–242, November 1975.<br />
[Neumaier, 1998] A. Neumaier. Solving ill-conditioned and singular linear systems : A tutorial on<br />
regularization. Society for Industrial and Applied Mathematics, SIAM Review, 40(3) :636–666,<br />
december 1998.<br />
[Newman and Sproull, 1979] W. M. Newman and R. F. Sproull. Principles of interactive computer<br />
graphics (2nd ed.). McGraw-Hill, Inc., 1979.<br />
[Nikou et al., 1998] C. Nikou, F. Heitz, J-P. Armspach, I. J. Namer, and D. Grucker. Registration<br />
of MR/MR and MR/SPECT brain <strong>images</strong> by fast stochastic optimization of robust voxel<br />
similarity measures. NeuroImage, 8(1) :30–43, July 1998.<br />
[Osorio et al., 2001] A. Osorio, V. Servois, S. Merran, L. Ollivier, J. Atif, C. Boursier, and<br />
S. Neuenschwander. Follow up of 15 patients under chemotherapy for liver metastasis using<br />
a new pc based 3d reconstruction algorithm. In InfoRAD-RSNA’01, Radiological Society of<br />
North America. Radiology, November 2001.<br />
[Parzen, 1962] E. Parzen. On the estimation of a probability density function and mode. Annals<br />
of Mathematical Statistics, 33 :1065–1076, 1962.<br />
[Peebles, 1980] P. Z. Peebles. Probability, Random Variables, and Random Signal Prinziples.<br />
McGraw-Hill Book Company, 1980.<br />
[Pluim et al., 2003] J.P.W. Pluim, J.B.A. Maintz, and M.A. Viergever. Mutual-informationbased<br />
registration of medical <strong>images</strong> : a survey. IEEE Transactions on Medical Imaging,<br />
22(8) :986–1004, 2003.<br />
[Press et al., 1988] W. H. Press, B. P. Flannery, S. A. Teukolsky, and W. T. Vetterling. Numerical<br />
Recipes in C. Cambridge University Press, Cambridge, England, first edition, 1988.<br />
[Priebe and Marchette, 2000] C.E. Priebe and D.J. Marchette. Alternating kernel and mixture<br />
density estimates. Computational Statistics and Data Analysis, 2000.<br />
[Principe and Xu, 1999] J. Principe and D. Xu. Information-theoretic learning using renyi’s<br />
quadratic entropy, 1999.<br />
[Rabiner, 1990] L. R. Rabiner. A tutorial on hidden Markov models and selected applications<br />
in speech recognition. Proceedings of the IEEE, 1990.<br />
[Rényi, 1961] A. Rényi. On measures of entropy and information. In Proc. 4th Berkeley Symp.<br />
Math. Statist. and Prob., volume 1, pages 547–561, Berkely, 1961. Univ. Calif. Press.<br />
[Ripoche et al., 2004] X. Ripoche, J. Atif, and A. Osorio. Three dimensional discrete deformable<br />
model guided by mutual information for medical image segmentation. In Proc. SPIE, volume<br />
5370, pages 362–372, Rochester Mn., U.S.A, 2004. SPIE Press.<br />
[Rényi, 1959] A. Rényi. On the dimension and enropy of probability distributions. Acta Math.<br />
Acad. Sci. Hung., 10 :193–215, 1959.<br />
[Rényi, 1971] A. Rényi. Probability theory. North-Holland, Amsterdam, 1971.<br />
[Roche et al., 1998] A. Roche, G. Malandain, X. Pennec, and N. Ayache. The correlation ratio<br />
as a new similarity measure for <strong>multimodal</strong> image registration. In Proc. of First Int. Conf. on<br />
Medical Image Computing and Computer-Assisted Intervention (MICCAI’98), volume 1496 of<br />
LNCS, pages 1115–1124, Cambridge, USA, October 1998. Springer Verlag.
184 Bibliographie<br />
[Roche et al., 2000] A. Roche, G. Malandain, and N. Ayache. Unifying maximum likelihood approaches<br />
in medical image registration. International Journal of Imaging Systems and Technology<br />
: Special Issue on 3D Imaging, 11(1) :71–80, 2000.<br />
[Roche, 2001] A. Roche. <strong>Recalage</strong> d’<strong>images</strong> médicales par inférence statistique. Thèse de sciences,<br />
Université de Nice Sophia-Antipolis, February 2001.<br />
[Rosenblatt, 1956] M. Rosenblatt. Remarks on some <strong>non</strong>parametric estimates of a density function.<br />
The Annals of Mathematical Statistics, 1956 :832–837, 1956.<br />
[Rudemo, 1982] M. Rudemo. Empirical choice of histograms and kernel density estimatiors.<br />
Scandinavian Journal of Statistics, 9 :65–78, 1982.<br />
[Rudzkis, 1992] R. Rudzkis. On the distribution of supremum-type functionals of <strong>non</strong>parametric<br />
estimates of probability and spectral densities. Theory of Probability and its Applications,<br />
37(2) :236–249, June 1992. Original Russian article in Teor. Veroyatnost. i Primenen., 37(2),<br />
(1992), pp. 254–267.<br />
[Sahoo et al., 1988] P. K. Sahoo, S. Soltani, and A. K. C. Wong. A survey of thresholding<br />
techniques. Computer Vision, Graphics and Image Processing, page 233 260, 1988.<br />
[Schnabel et al., 2001] J. A. Schnabel, Ch. Tanner, A. D. Castellano-Smith, M. O. Leach,<br />
C. Hayes, A. Degenhard, R. Hose, D. L. G. Hill, and D. J. Hawkes. Validation of <strong>non</strong>-rigid<br />
registration using finite element methods. In Proceedings of the 17th International Conference<br />
on Information Processing in Medical Imaging, pages 344–357. Springer-Verlag, 2001.<br />
[Scott, 1985] D. Scott. Averaged shifted histograms : Effective <strong>non</strong>parametric density estimation<br />
in several dimensions. Annals of Statistics, 13 :1024–1040, 1985.<br />
[Scott, 1992] D. Scott. Multivariate density estimation : Theory, practice and visualisation. John<br />
Wiley, 1992.<br />
[Sederberg and Parry, 1986] T. W. Sederberg and S. R. Parry. Free-form deformation of solid<br />
geometric models. Computer Graphics (SIGGRAPH ’86 Proceedings), 20(4) :151–160, aug<br />
1986.<br />
[Servois et al., 2002] V. Servois, A. Osorio, J. Atif, S. Merran, L. Ollivier, C. El Khoury, L. Chauveinc,<br />
J.C. Rosenwald, Ph. Giraud, and S. Neuenschwander. A new pc based software for<br />
prostatic 3d segmentation and volume measurement. application to permanent prostate brachytherapy<br />
(ppb) evaluation using ct and mr image fusion. In InfoRAD-RSNA’02, Radiological<br />
Society of North America. Radiology, December 2002.<br />
[Shan<strong>non</strong>, 1948] C. E. Shan<strong>non</strong>. A mathematical theory of communication. Bell System Technical<br />
Journal, 27 :379–423 and 623–656, Jul and Oct 1948.<br />
[Silverman, 1986] B. W. Silverman. Kernel density estimation technique for statistics and data<br />
analysis. In Monographs on statistics and applied probability, volume 26. Chapman and Hall,<br />
London, 1986.<br />
[Studholme et al., 1995] C. Studholme, D. L. G. Hill, and D. J. Hawkes. Multiresolution voxel<br />
similarity measures for mr-pet registration. In Y. BIZAIS and C. Barillot, editors, Proc. of<br />
the XIVth International Conference on Information Processing in Medical Imaging (IPMI’95),<br />
pages 287–298. Kluewer Academic Publishers, 1995.
Bibliographie 185<br />
[Studholme et al., 1997] C. Studholme, D. L. G. Hill, and D. J. Hawkes. Automated 3D registration<br />
of magnetic resonance and positron emission tomography brain <strong>images</strong> by multiresolution<br />
optimization of voxel similarity measures. Medical Physics, 24 :25–35, 1997.<br />
[Studholme, 1997] C. Studholme. Measures of 3D Medical Image Alignment. Phd, University of<br />
London, August 1997.<br />
[Susko et al., 1998] E. Susko, J. Chen, and J. D. Kalbfleisch. Constrained <strong>non</strong>parametric maximum<br />
likelihood estimation for mixture models. Canadian Journal of Statistics, 28 :601–617,<br />
1998.<br />
[Szeliski, 1989] R. Szeliski. Bayesian Modeling of Uncertainty in Low-Level Vision. Kluwer<br />
Academic Publishers, 1989.<br />
[Talairach and Tournoux, 1988] J. Talairach and P. Tournoux. Co-planar Stereotaxic Atlas of<br />
the Human Brain. Thieme Medical Publisher Inc, New York, January 1988.<br />
[Taneja, 1990] Taneja. On generalized entropies with applications. In Lectures in Applied Mathematics<br />
and Informatics. Luigi M. Ricciardi (Ed.), Manchester, 1990.<br />
[Tarault et al., 2004] A. Tarault, J. Atif, X. Ripoche, and A. Osorio. Classification of radiological<br />
exams and organs by belief theory. In Proc. SPIE, volume 5370, pages 305–315, Rochester<br />
Mn., U.S.A, 2004. SPIE Press.<br />
[Terrell and Scott, 1992] G.R. Terrell and D.W. Scott. Variable kernel density estimation. Annals<br />
of Statistics, 20 :1236–1265, 1992.<br />
[Thirion, 1991] J-Ph. Thirion. A geometric alternative to computed tomography. Technical<br />
Report RR-1463, Inria, Institut National de Recherche en Informatique et en Automatique,<br />
1991.<br />
[Thirion, 1998] J.-P. Thirion. Image matching as a diffusion process : an analogy with maxwell’s<br />
demons. Medical Image Analysis, 2(3) :243–260, 1998.<br />
[Unser et al., 1993a] M. Unser, A. Aldroubi, and M. Eden. B-Spline signal processing : Part I -<br />
Theory. IEEE Trans. Signal Process., 41(2) :821–833, Feb. 1993.<br />
[Unser et al., 1993b] M. Unser, A. Aldroubi, and M. Eden. B-Spline signal processing : Part II—<br />
Efficient <strong>des</strong>ign and applications. IEEE Transactions on Signal Processing, 41(2) :834–848,<br />
February 1993.<br />
[Unser et al., 1993c] M. Unser, A. Aldroubi, and M. Eden. The l/sub 2/-polynomial spline<br />
pyramid. IEEE Trans. Pattern Anal. Mach. Intell., 15(4) :364–379, 1993.<br />
[Van den Elsen et al., 1994] P. A. Van den Elsen, E. J. D. Pol, T. S. Sumanawaeera, P. F. Hemler,<br />
S. Napel, and J. R. Adler. Grey value correlation techniques used for automatic matching of<br />
ct and mr brain and spine <strong>images</strong>. In Proc. SPIE, pages 227–237, Rochester Mn., U.S.A, 1994.<br />
SPIE Press.<br />
[Van der Lubbe et al., 1987] J.C.A. Van der Lubbe, D.E. Boekee, and Y. Boxma. Bivariate<br />
certainty and information measures. Information Sciences, 41 :139–169, 1987.<br />
[Van der Lubbe, 1978] J. C. A. Van der Lubbe. On certain coding theorems for the information<br />
of order α and of type β. In Trans. Eighth Prague Conf. on Inform. Theory, Statist. Decision<br />
Functions, Random Processes, Prague, 1978. Czech. Acad. Science, Academia Publ. Prague,<br />
1979.
186 Bibliographie<br />
[Viola and Wells III, 1995] P. Viola and W. M. Wells III. Alignment by maximization of mutual<br />
information. In Proceedings of the Fifth International Conference on Computer Vision, pages<br />
16–23, 1995.<br />
[Viola, 1995] P. A. Viola. Alignment by maximization of mutual information. IEEE Fifth International<br />
Conference on Computer Vision, pages 16–23, 1995.<br />
[Wand et al., 1991] M. P. Wand, J. S. Marron, and D. Ruppert. Transformations in density<br />
estimation. with discussion and a rejoinder by the authors. Journal of the American Statistical<br />
Association, 86(414) :343–361, June 1991.<br />
[West et al., 1996] J. West, J. Fitzpatrick, M. Wang, B. Dawant, C. Maurer, R. Kessler, and<br />
R. Maciunas. Comparison and evaluation of retrospective intermodality image registration<br />
techniques, 1996.<br />
[West et al., 1997a] J. West, J. M. Fitzpatrick, M. Y. Wang, B. M. Dawant, C. R. Maurer Jr,<br />
R. M. Kessler, R. J. Maciunas, C. Barillot, D. Lemoine, A. Collig<strong>non</strong>, F. Maes, P. Suetens,<br />
Vandermeulen Vandermeulen, P. A. van den Elsen, S. Napel, T. S. Sumanaweera, B. Harkness,<br />
P. F. Hemler, D. L. Hill, D. J. Hawkes, C. Studholme, Maintz Maintz, M. A. Viergever,<br />
G. Malandain, and Woods Woods. Comparison and evaluation of retrospective intermodality<br />
brain image registration techniques. Journal of Computer Assisted Tomography, 21(4) :554–<br />
566, July-August 1997.<br />
[West et al., 1997b] J. West, J. M. Fitzpatrick, M. Y. Wang, and D. Dawant. Retrospective<br />
intermodality registration techniques : surface-based versus volume-based. Lecture Notes in<br />
Computer Science, 1205 :151–162, 1997.<br />
[Woods et al., 1991] R. P. Woods, S. R. Cherry, and J. C. Mazziotta. Rapid automated algoritm<br />
for aligment and reslicing PET <strong>images</strong>. Journal of Computer Assisted Tomography, 15 :634–<br />
639, 1991.<br />
[Woods et al., 1993] R. P. Woods, J. C. Mazziotta, and S. R. Cherry. MRI-PET registration<br />
with automated algorithm. Journal of Computer Assisted Tomography, 17(4) :536–546, 1993.<br />
[Zollei et al., 2001] L Zollei, A. Norbash, W. Grimson, and W. Wells. 2d-3d rigid registration<br />
of fluoroscopy and ct <strong>images</strong> using mutual information and sparsely sampled histograms as<br />
density estimators. IEEE conference on Computer Vision and Pattern Recogntion, 2001.