Compression de maillages 3D statiques et dynamiques - Artemis

UNIVERSITE RENE DESCARTES - PARIS V 

Centre Universitaire des Saints-Pères 

UFR DE MATHEMATIQUES ET INFORMATIQUE 

Thèse présentée en vue de l’obtention du grade de Docteur 

de l’Université RENE DESCARTES - PARIS V 

Discipline : Sciences de la Vie et de la Matière 

Spécialité :Mathématiques et Informatique 

Par Khaled MAMMOU 

Sujet de la thèse : 

Compression de maillages 3D 

statiques et dynamiques 

Soutenue le 5 Septembre 2008, devant le jury composé de: 

Madame le Professeur Christine GRAFFIGNE Président 

Monsieur le Professeur Faouzi GHORBEL Rapporteur 

Monsieur le Professeur 

Madame le Professeur 

Rémy PROST 

Françoise PRÊTEUX Rapporteur 

Directeur de thèse 

Monsieur le Docteur Didier NICHOLSON Examinateur 

Monsieur le Docteur Titus ZAHARIA Examinateur

Remerciements 

Initiée il y a un peu plus de trois ans, cette thèse n’aurait pas pu aboutir sans l’aimable 

concours de plusieurs personnes, que je tiens vivement à remercier ici. 

En premier lieu, je tiens à remercier Madame le Professeur Françoise Prêteux, directeur de 

cette thèse, pour m’avoir accueilli au sein du département ARTEMIS de l’Institut TELECOM/ 

TELECOM & Management SudParis. Quelle soit assurée de ma profonde gratitude pour la 

qualité de la formation dont elle m’a fait bénéficier et pour ses conseils avisés. Je lui serai 

toujours reconnaissant pour m’avoir impliqué dans le processus ISO/MPEG et pour m’avoir 

fait ainsi découvrir le monde passionnant de la normalisation internationale. 

Je tiens à remercier tout particulièrement Monsieur le Docteur Titus Zaharia, Maître de 

Conférences au Département ARTEMIS pour son encadrement quotidien, pour les discussions 

scientifiques passionnées que nous avons partagées et pour ses recommandations pédagogiques 

précieuses. 

A Madame Christine Graffigne, Professeur à l’Université Paris V, qui m’a fait l’honneur de 

présider ce jury, je tiens àtémoigner mon respect et mes remerciements les plus sincères. 

A Monsieur Faouzi Ghorbel, Professeur àl’ École Nationale des Sciences de l’Informatique 

de Tunis, qui a accepté la lourde charge d’être rapporteur, j’exprime mes remerciements les 

plus profonds pour l’interêt qu’il a bien voulu porter à ce travail. Je souhaite également lui 

témoigner ma gratitude et ma profonde reconnaissance pour m’avoir fait découvrir le monde 

de l’imagerie et pour m’avoir orienté vers ce domaine passionnant. Je ne le remercierai jamais 

assez pour la rigoureuse formation scientifique dont il m’a fait bénéficier ainsi que pour ses 

précieux conseils et son soutien amical. Je serai toujours son redevable élève ! 

Que Monsieur Rémy Prost, Professeur à l’INSA de Lyon, rapporteur de ce mémoire, trouve 

ici l’expression de toute ma gratitude pour sa lecture minutieuse et l’intérêt qu’il a porté à 

cette recherche. Qu’il soit également remercié pouravoirenrichietamélioré la qualité de cette 

thèse grâce à sa grande expérience dans ce domaine. 

Que Monsieur le Docteur Didier Nicholson, Ingénieur de Recherche chez Thalès Communications 

et Chef de la Délégation Française dans la commission JPEG, soit assuré demes 

remerciements les plus chaleureux pour m’avoir fait l’honneur d’être examinateur de cette 

thèse. 

A Marius Preda, Nicolas Rougon, Catalin Fetita et Mihai Mitrea, Maîtres de Conférences 

au Département ARTEMIS, j’exprime mes rermerciements pour leur écoute attentive et leur 

aide stimulante. 

Que Madame Evelyne Taroni trouve ici l’expression de mes remerciements pour son aide 

patiente et son inépuisable énergie pour résoudre toutes les questions administratives. 

i

ii 

Je tiens également à remercier l’ensemble des membres d’ARTEMIS (actuels et anciens), 

que j’ai eu la chance de côtoyer : Afef, Alain, Antoine, Benoît, Blagica, Corneliu, Diane, Franck, 

Imen, Ines, Ivica, Maher, Marc, Octavian, Oguzhan, Olfa, Walid, Perrine, Pierre-Yves, Rachid, 

Son et Sorin. 

Je tiens particulièrement à remercier mon ami Amaury et mon collègue de bureau Matthieu 

pour les innombrables et agréables pauses (café ou autres) que nous avons partagées. Nos 

discussions amicales et parfois scientifiques restent un plaisir inégalé! 

Enfin, je ne remercierai jamais assez ma famille et mes amis pour leur précieux soutien tout 

au long de ces années.

Table des matières 

Remerciements i 

Introduction 1 

I Compression de maillages statiques 5 

1 Représentation et compression de maillages 3D statiques : état de l’art 7 

1.1 Notions mathématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

1.1.1 Maillage triangulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

1.1.2 Variétés, orientation et genre . . . . . . . . . . . . . . . . . . . . . . . . 10 

1.2 Standards/formats de représentation . . . . . . . . . . . . . . . . . . . . . . . 14 

1.3 Compression de maillages 3D statiques : état de l’art . . . . . . . . . . . . . . 15 

1.3.1 Approches de compression mono-résolution . . . . . . . . . . . . . . . . 16 

1.3.1.1 Compression par bandes de triangles . . . . . . . . . . . . . . 16 

1.3.1.2 Codage par arbres couvrants . . . . . . . . . . . . . . . . . . 17 

1.3.1.3 Décomposition en niveaux . . . . . . . . . . . . . . . . . . . . 18 

1.3.1.4 Codage des valences . . . . . . . . . . . . . . . . . . . . . . . 18 

1.3.1.5 Codage par conquête de triangles . . . . . . . . . . . . . . . . 21 

1.3.1.6 Codage prédictif de la géométrie et des attributs . . . . . . . 21 

1.3.1.7 Quantification vectorielle . . . . . . . . . . . . . . . . . . . . . 23 

1.3.2 Approches de compression multi-résolution . . . . . . . . . . . . . . . . 24 

1.3.2.1 Techniques de simplification de maillages . . . . . . . . . . . . 24 

1.3.2.2 Les maillages progressifs . . . . . . . . . . . . . . . . . . . . . 25 

1.3.2.3 Codage par complexe simplicial progressif . . . . . . . . . . . 25 

1.3.2.4 Codage par forêt progressive d’opération vsplit . . . . . . . . 26 

1.3.2.5 Approches par décimation de sommets . . . . . . . . . . . . . 26 

1.3.2.6 Codage par décomposition en niveaux . . . . . . . . . . . . . 28 

1.3.2.7 Codage par décomposition en arbres géométriques . . . . . . . 28 

1.3.2.8 Codage spectral . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

1.3.2.9 Approches par ondelettes . . . . . . . . . . . . . . . . . . . . 30 

1.4 Analyse et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

iii

iv TABLE DES MATI ÈRES 

2 Le codage TFAN 37 

2.1 L’approche TFAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

2.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

2.1.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

2.1.3 Algorithme de codage : construction de la représentation TFAN . . . . 44 

2.1.4 Decodage de la représentation TFAN . . . . . . . . . . . . . . . . . . . 47 

2.1.5 Compression de la représentation TFAN . . . . . . . . . . . . . . . . . 48 

2.1.6 Préservation de l’ordre des sommets et des facettes . . . . . . . . . . . 51 

2.1.7 Codage de la géométrie du maillage . . . . . . . . . . . . . . . . . . . . 51 

2.2 Propriétés de l’approche TFan . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

2.2.1 Complexité de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 

2.2.2 Rendu temps réel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 

2.2.3 Capacité demémoire nécessaire . . . . . . . . . . . . . . . . . . . . . . 52 

2.3 Résultats expérimentaux : projet RNRT SEMANTIC-3D . . . . . . . . . . . . 52 

2.3.1 Corpus de test SEMANTIC-3D . . . . . . . . . . . . . . . . . . . . . . 53 

2.3.1.1 Structure à multiples composantes connexes . . . . . . . . . . 53 

2.3.1.2 Problème d’éclatement des composantes connexes (“cracking”) 54 

2.3.1.3 Distribution des valences . . . . . . . . . . . . . . . . . . . . . 56 

2.3.1.4 Conversion en maillages manifold . . . . . . . . . . . . . . . . 56 

2.3.1.5 Adéquation des approches classiques aux données CAO . . . . 57 

2.3.2 Critères d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

2.3.3 Distribution des configurations TFAN . . . . . . . . . . . . . . . . . . . 58 

2.3.4 Espace mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

2.3.5 Performances de compression . . . . . . . . . . . . . . . . . . . . . . . 61 

2.3.6 Temps de décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

3 Codage par approximation B-Splines 67 

3.1 Compression par images géométriques : principe et limitations . . . . . . . . . 68 

3.2 Codage par surfaces B-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 

3.2.1 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 

3.2.2 Segmentation de maillages 3D . . . . . . . . . . . . . . . . . . . . . . . 71 

3.2.3 Paramétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

3.2.4 Approximation par surfaces B-Splines . . . . . . . . . . . . . . . . . . . 79 

3.2.5 Recollage des patchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

3.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

II Compression de maillages dynamiques 89 

4 Représentation et compression de maillages 3D animés : état de l’art 91 

4.1 Domaines d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 

4.1.1 Films d’animation et effets spéciaux 3D . . . . . . . . . . . . . . . . . . 92 

4.1.2 Jeux vidéos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

4.2 Techniques de création d’animation 3D . . . . . . . . . . . . . . . . . . . . . . 94 

4.2.1 Animation par modèles descriptifs . . . . . . . . . . . . . . . . . . . . . 94 

4.2.2 Animation procédurale . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 

4.3 Standards de représentation 3D et formats propriétaires . . . . . . . . . . . . . 97

TABLE DES MATI ÈRES v 

4.3.1 Standard VRML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

4.3.2 Standard H-Anim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

4.3.3 Le standard MPEG-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 

4.3.4 Standard X3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 

4.3.5 Standard COLLADA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 

4.3.6 Formats propriétaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 

4.3.7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

4.4 Fonctionnalités avancées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

4.5 Synthèse bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

4.5.1 Prédicteurs spatio-temporels locaux . . . . . . . . . . . . . . . . . . . . 103 

4.5.2 Compression par ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 

4.5.3 Compression par transformées en ondelettes . . . . . . . . . . . . . . . 111 

4.5.3.1 Ondelettes temporelles . . . . . . . . . . . . . . . . . . . . . . 111 

4.5.3.2 Ondelettes spatiales régulières et semi-régulières . . . . . . . . 112 

4.5.3.3 Ondelettes spatiales irrégulières . . . . . . . . . . . . . . . . . 113 

4.5.4 Compression par segmentation . . . . . . . . . . . . . . . . . . . . . . . 114 

4.6 Analyse et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 

4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

5 Compensation de mouvement par modèle de peau (skinning) 121 

5.1 Segmentation au sens du mouvement . . . . . . . . . . . . . . . . . . . . . . . 122 

5.1.1 Etat de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 

5.1.2 Formulation mathématique . . . . . . . . . . . . . . . . . . . . . . . . . 124 

5.1.3 Segmentation par algorithme de k-moyennes . . . . . . . . . . . . . . . 124 

5.1.3.1 Calcul de la partition initiale . . . . . . . . . . . . . . . . . . 125 

5.1.3.2 Raffinement de la partition . . . . . . . . . . . . . . . . . . . 125 

5.1.4 Segmentation hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . 128 

5.2 Modèle de peau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 

5.2.1 Estimation des transformée affines . . . . . . . . . . . . . . . . . . . . . 130 

5.2.1.1 Existence et unicité . . . . . . . . . . . . . . . . . . . . . . . . 131 

5.2.1.2 Solution par SVD . . . . . . . . . . . . . . . . . . . . . . . . . 132 

5.2.2 Estimation des poids d’animation . . . . . . . . . . . . . . . . . . . . . 134 

5.2.3 Prédiction des normales . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

5.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 

5.3.1 Méthodes de segmentation : évaluation expérimentale . . . . . . . . . . 137 

5.3.2 Prédiction des positions et des normales . . . . . . . . . . . . . . . . . 139 

5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 

6 Compression MCGV 147 

6.1 Approche GV : principe et limitations . . . . . . . . . . . . . . . . . . . . . . 148 

6.2 Approche MCGV : schéma global . . . . . . . . . . . . . . . . . . . . . . . . . 148 

6.3 Codage du modèle de skinning . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 

6.4 Compression des erreurs résiduelles . . . . . . . . . . . . . . . . . . . . . . . . 151 

6.4.1 Atlas de paramétrisations . . . . . . . . . . . . . . . . . . . . . . . . . 151 

6.4.2 Construction des images géométriques . . . . . . . . . . . . . . . . . . 152 

6.4.3 Remplissage des images géométriques . . . . . . . . . . . . . . . . . . . 155 

6.4.4 Codage des images géométriques . . . . . . . . . . . . . . . . . . . . . 156 

6.5 Fonctionnalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 

6.6 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

vi TABLE DES MATI ÈRES 

6.6.1 Corpus d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 

6.6.2 Critères d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 

6.6.3 Résultats de compression . . . . . . . . . . . . . . . . . . . . . . . . . . 159 

6.6.3.1 MCGV/JPEG versus MCGV/MPEG-4 V2 . . . . . . . . . . 159 

6.6.3.2 MCGV versus GV . . . . . . . . . . . . . . . . . . . . . . . . 159 

6.6.3.3 MCGV versus les techniques de l’état de l’art . . . . . . . . . 164 

6.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 

7 L’approche FAMC : la nouvelle spécification MPEG-4 169 

7.1 Schéma global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 

7.2 Codeur arithmétique avec contexte CABAC . . . . . . . . . . . . . . . . . . . 171 

7.2.1 Schéma de binarisation à longueur fixe . . . . . . . . . . . . . . . . . . 172 

7.2.2 Schémas de binarisation Unary et Truncated Unary . . . . . . . . . . . 173 

7.2.3 Schéma de binarisation Exponential Golomb . . . . . . . . . . . . . . . 173 

7.2.4 Schéma de binarisation Unary/Exponential Golomb . . . . . . . . . . . 174 

7.3 Compression du modèle de mouvement . . . . . . . . . . . . . . . . . . . . . . 175 

7.3.1 Codage du modèledepeau(skinning) . . . . . . . . . . . . . . . . . . 175 

7.3.1.1 Codage de la partition . . . . . . . . . . . . . . . . . . . . . . 175 

7.3.1.2 Codage des transformées affines . . . . . . . . . . . . . . . . . 176 

7.3.1.3 Codage des poids d’animation . . . . . . . . . . . . . . . . . . 177 

7.4 Compression des erreurs résiduelles . . . . . . . . . . . . . . . . . . . . . . . . 178 

7.4.1 Compression par DCT/TO . . . . . . . . . . . . . . . . . . . . . . . . . 179 

7.4.1.1 Tansformée DCT . . . . . . . . . . . . . . . . . . . . . . . . . 179 

7.4.1.2 Transformée en ondelettes biorthogonales (4,2) . . . . . . . . 179 

7.4.1.3 Prédiction spatiale des coéfficients spectraux . . . . . . . . . . 180 

7.4.1.4 Codages des coefficient spectraux . . . . . . . . . . . . . . . . 181 

7.4.2 Compression par ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 

7.4.2.1 Distorsion de quantification . . . . . . . . . . . . . . . . . . . 183 

7.4.2.2 Optimisation débit/distorsion . . . . . . . . . . . . . . . . . . 185 

7.4.3 Compression par prédiction hiérarchique LD (Layered Decomposition) . 187 

7.4.3.1 Décomposition en patchs . . . . . . . . . . . . . . . . . . . . . 188 

7.4.3.2 Phase de décimation . . . . . . . . . . . . . . . . . . . . . . . 188 

7.4.3.3 Décomposition en niveaux hiérarchiques . . . . . . . . . . . . 190 

7.4.3.4 Prédiction hiérarchique . . . . . . . . . . . . . . . . . . . . . . 191 

7.4.3.5 Codage binaire . . . . . . . . . . . . . . . . . . . . . . . . . . 192 

7.5 Fonctionnalités supportées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 

7.5.1 Scalabilité spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 

7.5.2 Scalabilité temporelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 

7.5.3 Scalabilité en qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 

7.5.4 Streaming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 

7.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 

8 Résultats expérimentaux 199 

8.1 Corpus de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 

8.2 Critères d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 

8.3 Evaluation expérimentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 

8.3.1 Comparaison des différentes configurations de FAMC . . . . . . . . . . 202 

8.3.2 FAMC versus MCGV . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 

8.3.3 FAMC versus les technologies MPEG-4 . . . . . . . . . . . . . . . . . . 207

TABLE DES MATI ÈRES vii 

8.3.3.1 FAMC versus BIFS . . . . . . . . . . . . . . . . . . . . . . . 207 

8.3.3.2 FAMC versus AFX-IC . . . . . . . . . . . . . . . . . . . . . . 208 

8.3.4 FAMC versus les techniques de l’état de l’art . . . . . . . . . . . . . . 211 

8.4 Fonctionnalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 

8.4.1 Scalabilité spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 

8.4.2 Scalabilité en qualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 

8.4.3 Codage des attributs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 

8.4.4 Codage quasi sans perte . . . . . . . . . . . . . . . . . . . . . . . . . . 216 

8.4.5 Streaming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 

8.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 

Conclusion 219

viii TABLE DES MATI ÈRES

Table des figures 

1.1 Illustration de l’enveloppe convexe [χ1,χ2,χ3] de trois points dans R 3 . Elle 

représente la surface du triangle défini par les trois points {χ1,χ2,χ3}. . . . . . 9 

1.2 Illustration d’un maillage triangulaire M =(K, X )dansR 3 . . . . . . . . . . . 10 

1.3 Exemples de maillages manifolds et non-manifolds. . . . . . . . . . . . . . . . 12 

1.4 (a) Orientation de la normale associée au triangle (v1,v2,v3) (b) maillage nonorienté 

et (c) maillage orienté. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.5 Surfaces de différents genres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

1.6 Schéma général de compression monorésolution de maillages 3D. . . . . . . . . 17 

1.7 Exemple de codage par arbres couvrants : (a) maillage original, (b) arbre couvrant 

des sommets, (c) découpage du maillage selon l’arbre couvrant des sommets, 

(d) polygone planaire simplement connexe suite à (c) et (e) arbre couvrant 

des triangles (Source : [1]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

1.8 Décomposition en niveaux. Les contours en gras représentent les différents niveaux 

de sommets (Source : [2]). . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

1.9 Conquête du maillage par l’algorithme de Touma et Gotsman : (a) maillage 

initial, (b) insertion du sommet fantôme, (c) ADD 6, ADD 7, ADD 4 (insertion 

du premier triangle), (d) ADD 4, (e) ADD 7, (f) ADD 5, (g) ADD 5, (h) Sommet 

courant complet, focalisation sur le sommet suivant de la liste active, (i) ADD 

4, (j) ADD5, (k) SPLIT 5, (l) Focalisation sur le sommet suivant de la nouvelle 

liste active, (m) ADD 4, (n) ADD dummy 5, (o) Retirer la nouvelle liste active 

du FIFO, (p) ADD 4, (q) Focalisation sur le sommet suivant de la liste active, (r) 

Focalisation sur le sommet suivant de la liste active et (s) Conquête du maillage 

achevée. (Source : [3]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

1.10 Codage par l’algorithme de EdgeBreaker : les numéros des triangles indiquent 

l’ordre de parcours, tandis que les différents types de hachures représentent les 

codes des opérations (Source : [4]). . . . . . . . . . . . . . . . . . . . . . . . . 22 

1.11 Prédiction par règle du parallélogramme. . . . . . . . . . . . . . . . . . . . . . 23 

1.12 L’opération de “edge collapse” (ecol) et sa duale, “vertex split” (vsplit). . . . . 24 

1.13 Les différentes configurations de “vertex split” généralisé. (Source : [5]). . . . . 26 

1.14 L’opération de “forest split”. a) le maillage initial avec, en gras, les arêtes de la 

forêt ; b) le découpage du maillage au long des arêtes de la forêt ; c. triangulation 

de la structure obtenue ; d) le maillage raffiné. (Source : [6]). . . . . . . . . . . 26 

1.15 Codage progressif selon l’algorithme de Alliez et Desbrun : a) Maillage initial, 

patchs et portes d’entrée (notées gi) ; b) Maillage après décimation et étape de 

nettoyage; c) Maillage final obtenu. (Source : [7]). . . . . . . . . . . . . . . . . 27 

ix

x TABLE DES FIGURES 

1.16 Illustration de l’algorithme par décomposition en arbre Kd, pour le cas 2D. 

(Source : [8]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

1.17 Compression par ondelettes semi-régulières. (Source : [9]). . . . . . . . . . . . . 31 

1.18 Configurations de subdivision pour l’approche de codage par ondelettes irrégulières. 32 

2.1 Eventail de triangles de degré 4décrit par les sommets (v0,v1,v2,v3,v4,v5). . . 38 

2.2 Décomposition de la connectivité d’un maillage triangulaire en trois éventails de 

triangles : TF1 = {v1,v8,v9,v2}, TF2 = {v9,v3,v7,v6,v2} et TF3 = {v6,v7,v5,v4}. 40 

2.3 Maillage reconstruit àpartirdelareprésentation du maillage par éventails de 

triangles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

2.4 Algorithme de codage de l’approche TFAN. . . . . . . . . . . . . . . . . . . . 46 

2.5 Algorithme de décodage de la représentation TFAN. . . . . . . . . . . . . . . . 48 

2.6 Exemples des dix configurations considérées par TFAN. . . . . . . . . . . . . . 50 

2.7 Quelques modèles CAO 3D du corpus SEMANTIC-3D. . . . . . . . . . . . . . 53 

2.8 Modèle CAO original avec 1274 composantes connexes. (20491 triangles et 20626 

sommets). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 

2.9 Distributions des nombres de triangles et de sommets par composante connexe 

pour l’ensemble des modèles de la base. . . . . . . . . . . . . . . . . . . . . . . 54 

2.10 Problème de “cracking” induit par la structure à multiples composantes connexes 

caractéristiques aux modèles CAO (1455 triangles et 1626 sommets). (a) Maillage 

original, (b) Maillage compressé avec l’approche spectrale exhibant des problèmes 

de “cracking”, (c) composantes connexes de (b) colorées et (d) Zoom sur la région 

d’intérêt de (c) montrant l’inefficacité de l’approche de compression spectrale à 

gérer les maillages à multiples composantes connexes. . . . . . . . . . . . . . . 55 

2.11 Problème de “cracking” pour les niveaux de détails intermédiaires pour les approches 

de compression par décimation : compression par maillage progressif 

[10]. (a) Maillage original (1549 triangles et 1557 sommets), (b) Composantes 

connexes de (a) colorées (1252 triangles et 1302 sommets), (c) Zoom sur la région 

d’intérêt dans (b) et (d) Modèle sans problème de “cracking” obtenu par des 

opérations de type half edge collapses pour les sommets de bord (1373 triangles 

et 1457 sommets) : pas de simplification significative possible du modèle original. 56 

2.12 Distributions des pourcentages des triangles et des sommets de bord pour l’ensemble 

des modèles de la base SEMANTIC. . . . . . . . . . . . . . . . . . . . 56 

2.13 Illustration des triangles bord : (a) et (c) composantes connexes colorées et (b) 

et (d) triangles de bord colorés en rouge. . . . . . . . . . . . . . . . . . . . . . 57 

2.14 Distribution des valences des sommets pour l’ensemble des modèles de la base 

SEMANTIC-3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

2.15 Histogramme des configurations TFAN pour des maillages de type manifold 

orienté. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 

2.16 Histogramme des configurations TFAN pour des maillages CAO de topologies 

arbitraires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

2.17 Courbes d’évolution du nombre de sommets stockés en mémoires pour différents 

maillages CAO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

2.18 Performances de compression pour une quantification sur 12 bits : TFAN vs. 

MPEG-4/3DMC et TG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

2.19 Courbes débit/distorsion pour différents maillages CAO : TFAN vs. MPEG- 

4/3DMC et TG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

2.20 Gains en terme de débit de l’approche TFAN par rapport aux techniques MPEG- 

4/3DMC et TG pour une quantification sur 12 bits. . . . . . . . . . . . . . . . 64

TABLE DES FIGURES xi 

2.21 Temps de décodage pour les approches TFAN, MPEG-4/3DMC et TG. . . . . 64 

2.22 Gains en terms de temps de décodage de l’approche TFAN par rapport aux 

techniques MPEG-4/3DMC et TG. . . . . . . . . . . . . . . . . . . . . . . . . 65 

3.1 Processus de conversion d’un maillage 3D en une image géométrique. . . . . . 68 

3.2 Limitations du processus de remaillage pour les maillage “Bunny” (a et b) et 

“Horse” (c et d) : triangulation de mauvaise qualité etsur-échantillonnage de la 

surface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

3.3 Schéma synoptique de l’algorithme de compression par représentation B-Spline. 70 

3.4 Maillage de graphe dual associé. . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

3.5 Découpage du maillage par duplication des sommets localisés aux bords des patchs. 73 

3.6 Elimination des bords multiples : (a) patch avec deux bords B1 et B2, (b) deux 

sommets fictifs v1 et v2 respectivement connectés à B1 et B2, et(c)découpage 

du patch selon le plus court chemin entre v1 et v2. . . . . . . . . . . . . . . . . 74 

3.7 Optimisation de la paramétrisation par élargement du bord : (a) Paramétrisation 

initiale avec des hautes distorsions de paramétrisation ; (b) Sommet fictif v 

connecté au bord, sommet interne v0 ayant la plus grande courbure Gaussienne 

et découpage du maillage selon le plus court chemin entre v et v0 ;(c)Paramétrisation 

finale de distorsion plus faible. . . . . . . . . . . . . . . . . . . . 75 

3.8 Segmentation de maillages de diverses formes et complexités. . . . . . . . . . . 76 

3.9 Paramétrisation d’un maillage triangulaire sur un domaine 2D carré. . . . . . . 78 

3.10 Les courbes isoparamétriques dans le domaine paramétrique. . . . . . . . . . . 79 

3.11 Paramétrisation d’un patch par différentes méthodes de paramétrisation : (a) 

Tutte, (b) Tutte optimisé et (c) Floater. . . . . . . . . . . . . . . . . . . . . . 80 

3.12 Collage de deux patchs : en partant des deux sommets v 1 et v 2 et en suivant 

les deux sens de parcours s 1 et s 2 ,ledécodeur fusionne succesivement les NC 

sommets de bords. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

3.13 Courbes débit/distorsion pour les modèles “Horse”, “Bunny” et “Venus”. . . . 83 

3.14 Maillages “Horse”, “Venus” et “Bunny” compressés avec MPEG-4/3DMC (a, e 

et i), TG (b, f et j), CS (c, g et k) et notre approche (d, f, h et l). . . . . . . . 84 

3.15 Résultats de compression àdifférents débits:(a,b,cetd)“Tyra”,(e,f,geth) 

“Gargoyle”, (i, j, k et l) “Hand”, (m, n, o et p) “Lucy” (Partie 1). . . . . . . . 85 

3.16 Résultats de compression àdifférents débits : (a, b, c et d) “Max Planck”, (e, f, 

g et h) “Dinosaur”, (i, j, k et l) “Rabbit”, (m, n, o et p) “Feline” (Partie 2). . 86 

4.1 Extraits des films d’animation 3D. . . . . . . . . . . . . . . . . . . . . . . . . . 92 

4.2 Extraits des jeux vidéo 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

4.3 Standard H-Anim : squelette hiérarchique d’un humanoïde. (source : http ://hanim.org/) 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 

4.4 Exemples de maillages 3D dynamiques. . . . . . . . . . . . . . . . . . . . . . . 102 

4.5 Prédicteur ELP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 

4.6 Prédicteur Replica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

4.7 Prédicteur AP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 

4.8 Prédicteur moyenneur (N=4). . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 

4.9 Prédicteur MV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

xii TABLE DES FIGURES 

5.1 Résultats de segmentation avec et sans la procédure de raffinement pour le 

maillage dynamique “Dance” : (a) Segmentation par k-moyennes sans raffinement, 

(b) Segmentation par k-moyennes avec raffinement, (c) Segmentation 

hiérarchique sans raffinement et (d) Segmentation hiérarchique avec raffinement. 126 

5.2 Opération half-edge collapse : l’arête (v, w) est contractée, les deux sommets 

v et w fusionnés, et la connectivité du maillage redéfinie, en connectant à v 

l’ensemble des arêtes incidente à w. . . . . . . . . . . . . . . . . . . . . . . . . 128 

5.3 Segmentation hiérarchique du maillage dynamique “Raptor” : (a) avec fusion 

des CCs et (b) sans fusion des CCs. . . . . . . . . . . . . . . . . . . . . . . . . 129 

5.4 Rendu des maillages dynamiques “Dance” et “Horse gallop” (a, c) sans et (b, 

d) avec lissage en exploitant les normales associées aux sommets du maillage. . 136 

5.5 Segmentation par k-moyennes vs. segmentation hiérarchique : (a, b) “Horse gallop”, 

(b, c) “Chicken”, (e, f) “Cow”, (g, h) “Camel collapse”, (i, j) “Dolphin”, (k, 

l) “Elephant gallop”“, (m, n) “Dance”, (o, p) “Horse collapse”, (q, r) “Raptor”, 

(s, t) “Shark”, (u, v) “Troll” et (w, x) “Wolf”. . . . . . . . . . . . . . . . . . . 141 

5.6 Processus de raffinement de la partition : évolution de l’erreur quadratique 

moyenne de compensation de mouvement avec le nombre d’itérations. . . . . . 142 

5.7 Prédicteur affine par morceaux vs. modèle de skinning :(a)première trame 

segmentée, (b) trame 36, (c) trame 36 prédite par transformées affines, (d) distribution 

des erreurs de (c), (e) trame 36 prédite par modèle de skinning et (f) 

distribution des erreurs de (e). . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 

6.1 MCGV versus GV : la procédure de remaillage opérée par GV conduit àdes 

pertes de détails et àdesartéfacts visuels. . . . . . . . . . . . . . . . . . . . . 149 

6.2 Schéma synoptique du codeur MCGV. . . . . . . . . . . . . . . . . . . . . . . 149 

6.3 Atlas de paramétrisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 

6.4 Images géométriques des erreurs de compensation de mouvement. . . . . . . . 153 

6.5 Image géomatrique obtenue après l’application de la procédure de remplissage 

(padding) sur l’image de la Figure 6.4. . . . . . . . . . . . . . . . . . . . . . . 153 

6.6 MCGV/JPEG versus MCGV/MPEG-4 V2 pour les animations : a) “Chicken”, 

b) “Cow” et c) “Dance”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 

6.7 MCGV/JPEG versus MCGV/MPEG-4 V2 pour les animations : a) “Dolphin”, 

b) “Snake” et c) “Humanoid”. . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 

6.8 Courbes débit/distorsion des approches prédictives MCGV/MPEG-4 V2 et GV 

en mode P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 

6.9 MCGV/MPEG-4 V2 versus GV-mode P à : a) 2 et b) 4 bpts. . . . . . . . . . 163 

6.10 MCGV/JPEG versus GV-mode I à 8 bpts. . . . . . . . . . . . . . . . . . . . . 165 

6.11 Animation “Snake” : MCGV versus les techniques de l’état de l’art. . . . . . . 166 

6.12 Animation “Humanoid” : MCGV versus les techniques de l’état de l’art. . . . 166 

6.13 Animation “Chicken” : MCGV versus les techniques de l’état de l’art. . . . . . 166 

7.1 Schéma synoptique du codeur FAMC. En grisé, les modules optionnels. . . . . 170 

7.2 Schéma fonctionnel du codeur CABAC. . . . . . . . . . . . . . . . . . . . . . . 172 

7.3 Exemple de codage par plages de valeurs d’une partition, pour un maillage avec 

14 sommets partitionnés en 3 clusters. . . . . . . . . . . . . . . . . . . . . . . 176 

7.4 Les quatre points utilisés pour la représentation du mouvement affine d’un cluster.177 

7.5 Codage des poids d’animation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

TABLE DES FIGURES xiii 

7.6 Opération de décimation topologique VRem(v) :(a)patch original ; (b) supression 

du sommet v ainsi que de l’ensemble des arêtes et des triangles qui lui sont 

incidents ; (c) re-triangulation du patch obtenu. . . . . . . . . . . . . . . . . . 188 

7.7 Re-triangulations possibles pour des sommets de degrés : (a) 6, (b) 5, (c) 4 et 

(d) 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 

7.8 Exemple de décomposition en cinq niveaux hiérarchiques du maillage dynamique 

“Cow”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 

7.9 Scalabilité temporelle : exemple de structure de prédiction temporelle hiérarchique.195 

7.10 Scalabilité en qualité :décomposition des coefficients spectraux en niveaux de 

détails correspondant à quatre bandes de fréquences. . . . . . . . . . . . . . . 196 

8.1 Comparaison des performances de compression des différentes configurations 

FAMC : (1) FAMC/Lift, (2) FAMC/DCT, (3) FAMC/LD, (4) FAMC/Lift+LD, 

(5) FAMC/DCT+LD et (6) FAMC/ACP (partie 1). . . . . . . . . . . . . . . . 204 

8.2 Comparaison des performances de compression des différentes configuration FAMC : 

(1) FAMC/Lift, (2) FAMC/DCT, (3) FAMC/LD, (4) FAMC/Lift+LD, (5) FAMC/DCT+LD 

et (6) FAMC/ACP (partie 2). . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 

8.3 Performances de compression du codeur FAMC/DCT vs. l’approche MCGV. . 207 

8.4 FAMC/DCT vs. AFX-IC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 

8.5 FAMC vs. les techniques de l’état de l’art. . . . . . . . . . . . . . . . . . . . . 212 

8.6 Scalabilité spatiale du codeur FAMC/LD pour les animations : (a, b, c) “Horse 

gallop”, (d, e, f) “Dragon”, (g, h, i) “Eagle”, (j, k, l) “Troll”, (m, n, o) “Wolf” 

et (p, q, r) “Raptor”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 

8.7 Scalabilité en qualité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 

8.8 Codage des normales : FAMC/DCT vs. AFX-IC. . . . . . . . . . . . . . . . . 216 

8.9 Codage quasi sans perte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 

8.10 Performances de compression du codeur FAMC/DCT avec et sans streaming. . 218 

8.11 Exemple de codage pour l’approche TFAN. . . . . . . . . . . . . . . . . . . . . 229 

8.12 Extraits des animations : (a) “Ball”, (b) “Box”, (c) “Camel collapse”, (d) “Camel 

gallop”, (e) “Chicken”, (f) “Cow” et (g) “Dance”. . . . . . . . . . . . . . . 233 

8.13 Extraits des animations : (a) “Dolphin”, (b) “Dragon”, (c) “Eagle”, (d) “Elephant 

gallop”, (e) “Horse collapse”, (f) “Horse gallop” et (g) “Humanoid”. . . 234 

8.14 Extraits des animations : (a) “Jump”, (b) “Rabbit”, (c) “Raptor”, (d) “Snake”, 

(e) “troll” et (f) “Wolf”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

xiv TABLE DES FIGURES

Liste des tableaux 

1.1 Etat de l’art des techniques monorésolutions de compression de maillages 3D 

statiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

1.2 Etat de l’art des techniques multirésolutions de compression de maillages 3D 

statiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

2.1 Les dix configurations TFAN (X représente une valeur arbitraire). . . . . . . . 49 

2.2 Propriétés topologiques du corpus SEMANTIC-3D avant et après convertion en 

maillages manifolds.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

4.1 Etat de l’art des modèles d’animation descriptifs. . . . . . . . . . . . . . . . . 96 

4.2 Etat de l’art des modèles d’animation par modèles procéduraux. . . . . . . . . 97 

4.3 Représentations supportées par les standards d’animation 3D. . . . . . . . . . 101 

4.4 Etat de l’art : stratégies de compensation de mouvements et de codage des 

erreurs résiduelles de prédiction. . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

4.5 Etat de l’art : fonctionnalités supportées. IC : Interpolation Compression, AP: 

Angle Preserving, MV : vertex-wise Motion Vector, SSLPC : Spatial Scalable 

Linear Predictive Coder, STSLPC:Spatio-Temporal Scalable Linear Predictive 

Coder, LOPC:Layered One-directionnal Predictive Coder, LBPC:Layered Bidirectionnal 

Predictive Coder, PCA:Principal Component Analysis compression, 

LPCA:Linear PCA, APCA:Adaptive PCA coder, CPCA:Clustered 

PCA, RLPCA:Relative Local PCA, TWC:Temporal Wavelet-based Compression, 

MCDWT:Motion Compensated Discrete Wavelet Transform, SRWC: 

Semi-Regular Wavelet-based Compression, GV:Geometry Videos, AWC(Anisotropic 

Wavelets Compression), TO : Transformée en Ondelettes, RT : Rigid 

Transform,ICP:Iterative Closest Point, PSC:Predictive Spectral Compression, 

TS : Triangle Strips-based compression, D3DMC:Dynamic 3D Mesh Compression. 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 

5.1 Notaions utilisées dans les tableaux 5.2 et 5.3. . . . . . . . . . . . . . . . . . . 138 

5.2 Performances obtenues par la méthode de segmentation par k-moyenne. . . . 140 

5.3 Performances obtenues par la méthode de segmentation hiérarchique. . . . . . 140 

5.4 Modèle de skinning : erreurs de compensation de mouvement obtenues avec 

5.5 

poids optimaux et poids unitaires. . . . . . . . . . . . . . . . . . . . . . . . . . 

Performances des prédicteurs des normales : 

144 

N t v vs. Ñ t v . . . . . . . . . . . . . . 145 

6.1 Stratégie de compression des différentes composantes du modèle de skinning. . 150 

6.2 Fonctionnalités supportées par le codeur MCGV. . . . . . . . . . . . . . . . . 157 

xv

xvi LISTE DES TABLEAUX 

6.3 Résultats de compression disponibles et références des sources associées. . . . . 159 

6.4 Gains moyens en débits obtenus par le codage prédictif MCGV/MPEG-4 V2 

par rapport au codage intra MCGV/JPEG. . . . . . . . . . . . . . . . . . . . 162 

6.5 MCGV/JPEG versus GV mode I à 8 bpts. . . . . . . . . . . . . . . . . . . . . 163 

7.1 Schéma de binarisation FL pour l’alphabet A = {0, 1, 2, 3, 4, 5}. . . . . . . . . 173 

7.2 Schéma de binarisation Unary et TU pour l’alphabet A = {0, 1, 2, 3, 4, 5}. . . 173 

7.3 Schéma de binarisation EG0. . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 

7.4 Schéma de binarisation UEG(0, 6). . . . . . . . . . . . . . . . . . . . . . . . . 175 

7.5 Les différentes configurations FAMC. . . . . . . . . . . . . . . . . . . . . . . . 193 

7.6 Fonctionnalités supportées par les différentes configurations du codeur FAMC : 

(1) DCT, (2) Lift, (3) LD, (4) DCT+LD et (5) Lift+LD. . . . . . . . . . . . . 194 

7.7 Différents types de scalabilité supportés par le codeur FAMC. . . . . . . . . . 194 

8.1 Complexités de calcul des différentes configurations FAMC (VΠ est le nombre 

maximal de sommets par cluster). . . . . . . . . . . . . . . . . . . . . . . . . 203 

8.2 Gains de l’approche FAMC par rapport au schéma de binarisation BIFS. . . . 208 

8.3 Gains de l’approche FAMC par rapport au codeur MPEG-4/AFX-IC. . . . . . 210 

8.4 Propriétés des animations du corpus de test. . . . . . . . . . . . . . . . . . . . 232

Introduction 

Aujourd’hui, les applications multimédias professionnelles ou grand public mettent de plus 

en plus en scène des contenus 3D aussi bien statiques que dynamiques, dans des contextes industriels 

divers. La Conception Assistée par Ordinateur (CAO) par l’industrie automobile ou 

aéronautique, les nouveaux services de télé-médecine, les industries du jeu vidéo, des films 

d’animation 3D, des effets spéciaux ou encore des dessins animés sont quelques exemples 

représentatifs de domaines où lamodélisation 3D joue un rôle incontournable. 

Selon l’application considérée et les techniques utilisées pour les générer, ces contenus 3D sont 

stockés sous divers formats, normalisés ou propriétaires. Pour des raisons d’interopérabilité 

multi-plateformes, de généralité ouencoredeprotectiondelapropriété intellectuelle, ces contenussontleplussouventreprésentés 

sous forme de maillages 3D, statiques ou dynamiques. 

L’inconvénient majeur de cette représentation est en revanche lié auxcoûtsimportantsde 

stockage et de transmission. D’où lanécessité d’élaborer et de mettre en oeuvre des outils de 

compression efficace dédiés et optimisés pour ce type de contenus. 

Le contexte industriel moderne est marqué par une tendance de convergence des technolo- 

gies fixes et mobiles. Dans ce cadre, les méthodes de compression 3D doivent impérativement 

répondre au paradigme d’accès universel, à travers différents réseaux, fixes et mobiles (à 

débits variables) et à partir de terminaux (PDA, PC, téléphone portable...) de capacités diverses 

en termes de puissance de calcul, de mémoire et de visualisation. D’un point de vue 

méthodologique, cela se traduit par le support de fonctionnalités avancées de codage/décodage 

basse complexité ettempsréel, de progressivité/scalabilité (spatiale, temporelle et en qualité) 

et de streaming. 

L’objectif de cette thèse est de proposer des éléments de réponse àlaproblématique de com- 

pression de maillages 3D statiques et dynamiques. Dans ce contexte, le défi majeur à relever 

est de développer des représentations à la fois compactes et adaptées à des fonctionnalités 

avancées de transmission tout en assurant une faible complexité dedécodage. 

Cette thèse est structurée en deux parties. La première traite de la compression de maillages 

3D statiques. Elle regroupe les trois premiers chapitres de ce mémoire. 

Au premier chapitre, nous rappelons tout d’abord le formalisme mathématique de représent- 

ation des maillages 3D, avec définitions et propriétés géométrico-topologiques. Ensuite, nous 

proposons une synthèse bibliographique des principales familles d’approches de compression 

de maillages 3D statiques. Principes, performances, avantages et limitations des méthodes les 

plus représentatives sont ici discutés et analysés en détails. La littérature riche dédiée àla 

compression de maillages 3D statiques, développée maintenant depuis plus de vingt ans, fait 

ressortir un large éventail d’approches, adaptées à des applications diverses. Néanmoins, les 

1

2 Introduction 

méthodes de l’état de l’art semblent dans leur grande majorité s’appuyer sur un ensemble 

d’hypothèses relatives aux propriétés de régularité géométrique et topologique des maillages 

(e.g., manifold, orientable...). En pratique, ces hypothèses sont souvent violées, ce qui restreint 

significativement les domaines d’application de ces approches. 

C’est bien dans cet objectif de généralité que s’inscrit la première contribution de cette thèse. 

L’approche originale proposée, appelée TFAN (Triangle FAN-based compression), est décrite 

au Chapitre 2. Elle permet de coder directement tout maillage 3D triangulaire de topologie 

arbitraire (manifold ou non), tout en assurant une basse complexité dedécodage, adaptée aux 

applications de visualisation en temps réel sur des terminaux mobiles de faibles capacités de 

calcul et de mémoire. L’approche TFAN se montre particulièrement adaptée pour la compression 

de données CAO automobiles, dans le cadre de l’application industrielle considérée par 

le projet RNT SEMANTIC-3D. Ces données présentent en effet des spécificités topologiques 

et géométriques, qui rendent les approches classiques inefficaces. L’évaluation expérimentale 

comparée des performances de la méthode TFAN par rapport aux techniques de l’état de l’art, 

conduite sur le corpus de test du projet SEMANTIC-3D, démontre la supériorité de l’approche 

TFAN. En raisons de ses propriétés, le codeur TFAN a été récemment (Avril 2008), retenu par 

le standard MPEG-4 [11]. 

Toujours dans un contexte de compression de maillages 3D statiques, la deuxième contribution 

de cette thèse, présentée au Chapitre 3, concerne la compression de maillages 3D lisses et 

denses, comme ceux issus des processus de numérisation 3D. L’approche de compression proposée 

étend les techniques récentes de compression par images géométriques. Elle est fondée sur 

une approximation du maillage par surfaces B-splines, adaptées pour une représentation de la 

géométrie 3D sous forme d’une image géométrique 2D. La connectivité du maillage est ici codée 

sans perte ce qui permet de s’affranchir des problèmes de retriangulation spécifiques aux techniques 

par images géométriques antérieures. En outre, l’approche B-Splines exploite le codeur 

JPEG2000 pour assurer un codage progressif de la géométrie. Une évaluation expérimentale 

de ses performances par rapport aux techniques de l’état de l’art est également présentée et 

discutée. 

La deuxième partie de cette thèse aborde la problématique beaucoup plus récente de compression 

de maillages 3D dynamiques. Les modélisations par trames clés qui s’imposent comme 

représentations de facto dans les industries des films 3D et des jeux vidéos sont ici considérées. 

Cette deuxième partie est structurée en cinq chapitres distincts. 

Le chapitre 4 présente un état de l’art des techniques de création, de représentation et de 

compression de maillages 3D animés. Les principales approches de codage de maillages dynamiques 

sont ici identifiées, présentées et discutées de façon comparée. L’analyse de la littérature 

émergente consacrée à ce domaine de recherche encore jeune montre un besoin accru de techniques 

génériques de représentation et de compression de ces contenus hautement complexes. 

Dans ce cadre, l’ensemble de nos développements méthodologiques s’appuient sur l’observation 

suivante : quelle que soit la technique sous-jacente de création des objets 3D animés, il est 

possible de déterminer un modèledepeau(skinning) pourmodéliser fidèlement le mouvement 

des maillages dynamiques. 

Une première contribution, décrite au chapitre 5, concerne la spécification d’un mécanisme 

de compensation de mouvement par modèledepeau(skinning). La construction du modèle 

s’appuie sur deux approches originales de segmentation au sens du mouvement de maillages 

3D animés, l’une par classification en k-moyennes et l’autre, par décimation hiérarchique. Les 

performances de ces deux techniques, ainsi que celles de la stratégie de prédiction par modèle 

de skinning sont évaluées expérimentalement, analysées et discutées. Les résultats obtenus sur

Introduction 3 

un riche corpus de test permettent de valider les deux méthodes, avec des résultats supérieurs 

de 46% pour la méthode par décimation hiérarchique. 

La technique de compensation de mouvement proposée est ensuite exploitée dans le cadre des 

deux approches originales de compression de maillages 3D dynamiques, décrites aux chapitres 

6et7. 

Ainsi, le chapitre 6 introduit-il une nouvelle méthode de compression de maillages dynamiques 

3D appelée MCGV (Multi-Chart Geometry Video)quiétend l’approche GV (Geometry Videos) 

introduite dans [12]. L’approche de compression proposée combine la stratégie de prédiction par 

modèle de skinning avec une représentation des erreurs résiduelles de mouvement sous forme 

d’une séquence d’images 2D. Les codeurs d’images JPEG et MPEG-4 V2 sont ici utilisés afin 

d’assurer un codage efficace d’un maillage 3D dynamique. Pour évaluer l’apport de la méthode, 

les performances de compression du codeur MCGV sont expérimentalement comparées à celles 

de l’approche originale GV, ainsi qu’à d’autres techniques de l’état de l’art. 

Le chapitre 7 décrit la deuxième méthode de compression de maillages 3D dynamiques proposée 

dans ce travail, appelé FAMC(Frame-based Animated Mesh Compression). Le codeur FAMC 

fait cohabiter la stratégie de prédiction par modèle de skinning avec plusieurs techniques de 

codage par transformées des erreurs résiduelles. L’architecture modulaire du codeur FAMC 

ainsi que les différentes configurations qu’il supporte sont détaillées et analysées en termes de 

complexité de calcul et de fonctionnalités supportées. En raison de ces hautes performances 

d’efficacité de compression ainsi que du large spectre de fonctionnalités supportées, FAMC a 

été adopté comme Amendement 2 du standard MPEG-4 - Partie 16 AFX (Animation Framework 

eXtension). 

Enfin, le huitième et dernier chapitre de ce mémoire propose une évaluation expérimentale 

objective des différentes configurations du codeur FAMC par rapport au techniques MCGV, 

aux codeurs standards MPEG-4/BIFS et MPEG-4/IC ainsi qu’au différentes techniques de 

l’état de l’art. Une étude expérimentale des fonctionnalités offertes par ce codeur est également 

présentée, analysée et discutée. 

La conclusion générale synthétise le travail accompli et ouvre les perspectives, àlafoisméthodologiques 

et technologiques, de recherches et applications futures.

4 Introduction

Première partie 

Compression de maillages statiques 

5

Chapitre1 

Représentation et compression de 

maillages 3D statiques : état de l’art 

Résumé : Ce chapitre dresse un état de l’art des techniques de compression des 

maillages 3D. Une revue du formalisme mathématique de représentation de maillages 

3D triangulaires est tout d’abord présentée, puis la problématique de compression introduite. 

Une synthèse bibliographique avec principes, avantages et limitations des méthodes 

les plus représentatives de codage de maillages 3D est ensuite présentée. Cette étude fait 

ressortir la nécessité d’élaborer des techniques de compression génériques, de faible complexité 

adaptées à des applications en temps réel et àundéploiement sur des terminaux 

en capacités de calcul limitées. 

Mots clés : Compression, maillage 3D, approche mono-résolution, approche multirésolution, 

VRML, COLLADA. 

7

8 Représentation et compression de maillages 3D statiques : état de l’art 

Les applications multimédias professionnelles ou grand public mettent en scène des objets 

3D aussi bien dans le cadre de la CAO, que dans celui des services de télé-médecine, des jeux 

vidéo, de la production de films d’animation 3D ou de dessins animés. 

Aujourd’hui, la visualisation d’objets représentés sous forme de maillages 3D s’effectue en 

temps réel sur la plupart des cartes graphiques actuellement disponibles. En revanche, leur 

stockage et leur transmission sur différents terminaux et réseaux (mobiles ou fixes) requièrent 

d’importantes ressources en mémoire et en bande passante. Elaborer alors des représentations 

compactes de ces données 3D devient un enjeu majeur. 

Dans ce chapitre, nous rappelons tout d’abord quelques définitions mathématiques utiles 

pour l’ensemble de nos développements ultérieurs (Section 1.1). Les différents standards et 

formats de représentation 3D aujourd’hui disponibles sont ensuite passés en revue (Section 1.2). 

Leur analyse met en évidence la nécessité dedisposerdeméthodes efficaces de compression de 

maillages 3D, dont un état de l’art est proposé dans la Section 1.3. 

1.1 Notions mathématiques 

1.1.1 Maillage triangulaire 

Une manière àlafoisélégante et généralededéfinir le concept de maillage triangulaire 

s’appuie sur la notion de complexe simplical. 

Complexe simplical : Un complexe simplical K est défini par un ensemble de sommets 

V = {1, 2,...,V}⊂N (N étant l’ensemble des entiers naturels) et un ensemble de sous-parties 

finies et non vides de V, appelées simplexes telles que : 

1. Tout les singleton {i} de V est un simplexe de K, 

2. Tout sous-ensemble d’un simplexe de K est un simplexe de K. 

Si le nombre d’éléments (le cardinal) d’un simplexe σ est égal à(q + 1), on parle alors d’un 

q-simplexe ou encore d’un simplexe de dimension q. La dimension d’un complexe simplical K 

est définie comme la dimension maximale de ses simplexes. Les 0-simplexes de K sont appelés 

sommets, les1-simplexesarêtes et les 2-simplexes triangles. 

Le concept de complexe simplical est naturellement adapté pour lui associer des relations 

de voisinage, indispensables àladéfinition de tout espace topologique. 

Voisinage de premier ordre : Soient K un complexe simplical et i et j deux sommets de 

K. Les sommets i et j sont dits voisins si et seulement si ils sont inclus dans un même simplexe 

de K. Levoisinage de premier ordre d’un sommet i, noté i ∗ ,estdéfini comme l’ensemble de 

ses sommets voisins. De la même manière, deux triangles sont dits voisins si et seulement si 

ils partagent une arête commune. 

Valence : La valence d’un sommet est définie comme le nombre de ses voisins. 

Le concept de complexe simplical décrit de manière complète les relations topologiques 

entre ses sommets et, plus généralement, ses simplexes. Pour associer à un complexe simplical 

arbitraire une surface géométrique, il est utile de considérer sa réalisation géométrique, définie 

à l’aide de la notion d’enveloppe convexe, rappelée ci-dessous.

1.1 Notions mathématiques 9 

Enveloppe convexe : L’enveloppe convexe d’un ensemble de vecteurs {χ0, .., χk} ⊂R n , 

noté [χ0, ··· ,χk] ,estdéfinie par : 

[χ0, ··· ,χk] ={x = 

k 

αiχi, 

i=0 

k 

αi =1,αi ≥ 0,i∈{0, ··· ,k}} 

i=0 

La Figure 1.1 illustre l’enveloppe convexe associée aux trois points {χ1, χ2 et χ3} de R 3 . 

Figure 1.1 : Illustration de l’enveloppe convexe [χ1,χ2,χ3] de trois points dans R 3 . Elle 

représente la surface du triangle défini par les trois points {χ1,χ2,χ3}. 

Réalisation géométrique : Soient K un complexe simplical, V = {1, 2,...,V} l’ensemble 

de ses sommets et X = {χ1, .., χV } un ensemble de vecteurs de Rn associés aux sommets de V. 

L’enveloppe convexe d’un simplexe σ = {v1, ··· ,vk} de K, notée |σ|, estdéfinie comme 

étant l’enveloppe convexe des vecteurs associés à ses sommets [χv1, ··· ,vvk ]. 

La réalisation géométrique de K,notée |K| ⊂ Rn est par définition la réunion des enveloppes 

convexes de ses simplexes : 

|K| = 

|σ|. (1.1) 

σ∈K 

La notion de réalisation géométrique rend ainsi possible d’associer à un complexe simplical 

quelconque une surface géométrique dans un espace Rn . 

Avec ces différentes notions, il devient maintenant possible de définir le concept de maillage 

triangulaire. 

Maillage triangulaire : Un maillage triangulaire est défini comme étant un couple M = 

(K, X ), où X = {χ1, .., χV } est un ensemble de vecteurs de R 3 et K est un complexe simplical 

de dimension 2 tel que : 

(P1) Chaque 0-simplexe est un sous-ensemble d’au moins un 1-simplexe de K, 

(P2) Chaque 1-simplexe est un sous-ensemble d’au moins un 2-simplexe de K. 

La surface du maillage M est définie comme étant la réalisation géométrique |K| dans 

R 3 . Par abus de language, la réalisation géométrique d’un sommet (respectivement arête ou 

triangle) de K est appelée sommet (respectivement arête ou triangle) de M. La Figure 1.2 

illustre un exemple de maillage triangulaire.


Notons que les propriétés (P1) et (P2) de la définition d’un maillage triangulaire assurent 

qu’il n’existe pas de sommets et d’arêtes isolés, i.e. tout sommet est inclus dans une arête et 

toute arête est incluse dans un triangle. 

Le complexe simplical K définit la connectivité (ou topologie) du maillage, i.e. les relations 

d’adjacence entre les sommets, les arêtes et les triangles du maillage. L’ensemble X des positions 

des différents sommets correspond àlagéométrie du maillage. 

Notons qu’en considérant des espaces de dimensions supérieures, d’autres attributs comme 

ceux photométriques (e.g., couleurs, normales, coordonnées paramétriques de texture...) peuvent 

être également pris en compte dans la définition de maillage triangulaire. 

Un maillage triangulaire peut inclure une ou plusieurs composantes connexes, définies 

comme suit. 

Figure 1.2 : Illustration d’un maillage triangulaire M =(K, X )dansR 3 . 

Chemin : Un chemin C sur un maillage M est une séquence sans répétition de sommets, 

telle que chaque paire de sommets consécutifs partage une arête commune. Le premier et le 

derniersommetdeC sont dits sommets connectés par le chemin C. 

Composante connexe : Une composante connexe est une partie d’un maillage triangulaire 

composée d’un ensemble maximal de sommets connectés (i.e., pour chaque paire de sommets 

(i, j), il existe un chemin qui connecte i à j) entre eux. Un maillage composé d’une seule 

composante connexe est dit connexe. 

Tel que défini, un maillage 3D couvre la majorité desreprésentations informatiques que l’on 

retrouve en pratique. Toutefois, afin d’obtenir des surfaces 3D topologiquement et géométriquement 

exploitables, il est nécessaire d’imposer des contraintes/propriétés supplémentaires 

que le maillage doit satisfaire. Le plus souvent cela revient àdéfinir des variétés orientées, dont 

la définition est rappelée dans la section suivante. 

1.1.2 Variétés, orientation et genre 

Rappelons tout d’abord une notion clédansl’étude des propriétés topologiques des surfaces, 

qui est celle d’homéomorphisme.


Homéomorphisme : Deux surfaces 3D S et S ′ sont dites homéomorphes si et seulement si 

il existe une bijection continue φ de S vers S ′ telle que son inverse φ−1 est également continue. 

Intuitivement, S et S ′ sont dites homéomorphes si la surface S peut être étirée et courbée 

sans rupture afin d’épouser la forme de S ′ . 

La notion d’homéomorphisme permet de définir des classes d’équivalence dans l’espace des 

surfaces. En particulier, cela permet d’introduire les variétés, définies comme suit. 

Variété : Une surface 3D est appelée variété (manifold dans la littérature anglophone) si et 

seulement si en tout point de la surface il existe un voisinage homéomorphe àundisqueouvert 

ou à un demi-disque ouvert. 

Maillage manifold : Un maillage triangulaire 3D est dit manifold si et seulement si sa 

surface (i.e., saréalisation géométrique) est une variété. 

Pour tester si un maillage est manifold ou non, il est utile d’introduire les notions de sommet 

régulier et d’arête régulière. 

Sommet régulier : Un sommet est dit sommet régulier si et seulement si l’ensemble de ses 

voisins peut être réordonné pourdéfinir un unique chemin. 

Arête régulière : Une arête est dite arête régulière si et seulement si elle est partagée au 

maximum par deux triangles. 

Proposition : Avec ces définition, on peut démontrer [13] la propriété suivante : Un maillage 

triangulaire est manifold si et seulement si tous ses sommets et ses arêtes sont réguliers. 

La Figure 1.3 présente quelques exemples de maillages triangulaires manifold (Figure 1.3.a) 

et non-manifolds (Figures 1.3.b et 1.3.c). Pour le maillage de la Figure 1.3.b l’arête {v1,v2} est 

non régulière, puisque partagée par trois triangles. Dans le cas de la Figure 1.3.c, le sommet v 

est irrégulier puisque ses voisins ne forment pas un chemin unique. 

La notion de manifold permet de caractériser de façon simple les surfaces ouvertes et 

fermées, en définissant les sommets, les triangles et les arêtes internes et celles de bord. Cela 

s’appuie sur l’observation que pour un maillage triangulaire manifold une arête est partagée 

au maximum par deux triangles. 

Bord, triangle de bord, triangle interne, arête de bord et sommet de bord : Si une 

arête appartient exactement à un seul triangle, alors elle est dite arête de bord. Sinon(i.e., si 

elle est partagée par deux triangles différents), elle est dite arête interne. Lebord est défini 

comme étant la réunion de l’ensemble des arêtes de bord. Si un sommet appartient à une arête 

de bord, alors il est dit sommet de bord. Dans le cas contraire, il s’agit d’un sommet interne. 

Un triangle est dit triangle de bord, si et seulement si il contient au moins une arêtedebord. 

Une autre notion particulièrement utile pour des applications de rendu est celle de maillage 

orienté. Le principe consiste à associer une normale à chaque triangle du maillage. Pour un 

triangle arbitraire {v1,v2,v3}, il est possible de définir deux vecteurs normaux àlasurfacedu 

triangle, de même direction et de sens opposés : ±(χ2 − χ1) ∧ (χ3 − χ1). Pour définir la normale 

sans ambiguïté, le principe consiste à associer à chaque triangle un ordre de parcours de ses 

sommets. Le sens de la normale est alors déterminé defaçon unique en appliquant par exemple 

la règle du tire-bouchon (Figure 1.4.a).


(a) Maillage manifold (b) Maillage non manifold avec une 

arête {v1,v2} irrégulière 

(c) Maillage non manifold avec un 

sommet v irrégulier 

Figure 1.3 : Exemples de maillages manifolds et non-manifolds. 

Maillage orienté : Un maillage est dit orienté si et seulement si tout couple de triangles 

voisins a des vecteurs normaux de même orientation. 

Cette propriété est assurée si et seulement si l’arête commune est parcourue dans les deux 

triangles dans des sens contraires. 

La Figure 1.4.b présente un exemple de maillage non-orienté. Ici, l’arête (v1,v2) est traversée 

dans le même sens par les deux triangles voisins. La Figure 1.4.c illustre un exemple de maillage 

orienté : l’arête (v1,v2) est parcourue dans deux sens différents. 

(a) (b) (c) 

Figure 1.4 : (a) Orientation de la normale associée au triangle (v1,v2,v3) (b) maillage nonorienté 

et (c) maillage orienté. 

Genre : Le genre d’une surface connexe est le nombre maximum de courbes fermées simples, 

sanspointcommunetgéodésique à la surface que l’on peut tracer sans déconnecter la surface 

en plusieurs composantes connexes. 

La Figure 1.5 illustre quelques exemples de surfaces de : 

• genre 0 : sphère (Figure 1.5.a), 

• genre 1 : tore (Figure 1.5.b), 

• genre 2 : surface en forme de 8 (Figure 1.5.c).


(a) Sphère:genre0 (b) Tore : genre 1 (c) Surface en forme de 8 : genre 2 

Figure 1.5 : Surfaces de différents genres. 

Le genre est une caractéristique topologique globale qui permet également de définir des 

classes d’équivalence dans l’espace des variétés. Une autre notion importante pour caractériser 

la topologie d’un maillage triangulaire est celle de maillage régulier. 

Maillage régulier : Un maillage est dit régulier si et seulement si tous ses sommets ont la 

même valence. 

En pratique, un petit nombre de maillages vérifie cette propriété derégularité. Cependant, 

sous certaines hypothèse, on peut démontrer que la valence moyenne des sommets est de 6. Ce 

résultat est une conséquence directe de la relation d’Euler-Poincarré [14], rappelée ci-dessous. 

Proposition (relation d’Euler-Poincarré) : Soit M un maillage manifold, orientéet 

sans bord, composé deF triangles, E arêtes et V sommets. Soit G le genre de M. Larelation 

d’Euler-Poincarré [14] est donnée par : 

F − E + V =2− 2G. (1.2) 

Dans le cas d’un maillage manifold sans bord, chaque arête interne est partagée par deux 

triangles. De plus, par définition, un triangle comporte trois arêtes. Il en résulte la relation 

suivante : 

3F =2E. (1.3) 

En substituant (1.3) dans (1.2), on obtient la relation suivante : 

E =3V − 6+6G. (1.4) 

En sommant les valences des sommets et en tenant compte qu’une arête est composée de 

deux sommets, on obtient facilement la relation suivante, connue sous le nom de lemme de 

Handshaking [15] : 

 

val(v) =2E, (1.5) 

v∈V 

où val(v) désigne la valence du sommet v. 

En remplacant (1.5) dans (1.4) on obtient : 

 

val(v) =6V − 12 + 12G, (1.6) 

ou encore, 

v∈V


¯ϑ = 1 

V 

 

val(v) =6− 

v∈V 

où ¯ ϑ désigne la valence moyenne des sommets du maillage. 

12 + 12G 

. (1.7) 

V 

Dans le cas des maillages que l’on traite en pratique, le nombre de sommets V est beaucoup 

plus important que le genre G du maillage : V>>G. On obtient alors la relation suivante : 

qui établit le corollaire de la valence moyenne, énoncé ci-dessous. 

¯ϑ ≈ 6, (1.8) 

Corollaire de la valence moyenne : La valence moyenne d’un maillage manifold sans 

bord tend vers la valeur 6. 

Cela complète la revue du formalisme mathématique de représentation de maillages 3D. 

Intéressons-nous àprésent aux représentations informatiques de ces objets 3D, nécessaires 

pour obtenir des spécifications d’objets 3D automatiquement interprétables par un ordinateur. 

1.2 Standards/formats de représentation 

Les maillages 3D sont aujourd’hui représentés sous une multitude de formats standards (e.g., 

VRML 1 , MPEG 2 ,X3D 3 et COLLADA 4 ...) ou propriétaires (e.g., 3DSetMayadéveloppés 

par la société Autodesk 5 , BLEND de Blender 6 , X de Direct 3D 7 ...). Le lecteur est invité à 

consulter la Section 4.3 pour une description détaillée de ces formats. 

Quel que soit le format considéré, la représentation commune adoptée est celle par triangles 

indexés. Le principe est de coder la géométrie du maillage sous la forme d’une matrice G de 

dimension V × 3(où V estlenombredesommets): 

⎛ 

⎜ 

G = ⎜ 

⎝ 

χx 1 

χx 2 

χx 3 

. 

χ x V 

χ y 

1 

χy2 

χ y 

3 

. 

χy 

V 

χz 1 

χz2 χz 3 

. 

χz V 

⎞ 

⎟ , (1.9) 

⎟ 

⎠ 

avec χx v , χyv et χzv les coordonnées (exprimées dans un repère cartésien) de l’ensemble des 

sommets de M. 

La connectivité du maillage est, quant à elle, spécifiée par une matrice d’entiers, notée Γ, de 

1. http ://www.demotride.com/vrml97-spec-html/index.html 

2. http ://www.mpeg-3dgc.org/ 

3. http ://www.web3d.org/ 

4. http ://www.collada.org/ 

5. www.autodesk.com 

6. www.blender.org/ 

7. http ://www.microsoft.com/

1.3 Compression de maillages 3D statiques : état de l’art 15 

dimension F × 3(où F est le nombre de triangles) : 

⎛ 

⎜ 

Γ= ⎜ 

⎝ 

v 1 1 v 2 1 v 3 1 

v 1 2 v 2 2 v 3 2 

v 1 3 v 2 3 v 3 3 

. 

. 

. 

v 1 V v 2 V v 3 V 

⎞ 

⎟ , (1.10) 

⎟ 

⎠ 

avec (v 1 n,v 2 n,v 3 n) les trois index entiers des sommets qui forment le n-ième triangle de M. 

Analysons le coût de stockage nécessaire à une telle représentation. 

Si on considère que chaque coordonnée géométrique est codée sur B bits (le plus souvent 

B = 32, pour une représentation en virgule flottante) et que chaque index entier est codé 

sur ⌈log2(V )⌉ 8 bits, la quantité d’information Q(M) nécessaire pour spécifier complètement le 

maillage est alors donnée par : 

Q(M) =3× V × B +3× F ×⌈log2(V )⌉ . (1.11) 

En combinant les équations (1.2) et (1.3) et en supposant que (V >> G), nous pouvons 

déduire que : 

F ≈ 2V. (1.12) 

Il en resulte que : 

Q(M) =V × (3 × B +6×⌈log2(V )⌉). (1.13) 

La relation (1.13) montre que le coût de stockage Q(M) d’un maillage 3D est non linéaire avec 

le nombre de sommets V . Autrement dit, le coût de codage par sommet n’est pas constant, 

contrairement aux images 2D où lecoût de codage d’un pixel est le mêmequellequesoit 

la taille de l’image (i.e., 8 bits pour les images à niveaux de gris et 24 bits pour les images 

couleurs). Cela est dû à la redondance de la représentation par triangles indexés : dans la 

matrice Γ, chaque sommet apparaît autant de fois que le nombre de triangles dans lesquels il 

intervient ! 

Afin d’éliminer cette redondance, il est nécessaire d’élaborer des méthodes de compression 

de maillages 3D efficaces et génériques. Ces techniques doivent être capables de prendre en 

compte des maillages de plus en plus volumineux (i.e., jusqu’à quelques millions de sommets 

pour des objets issus des scanners 3D) et répondre aux besoins des applications modernes, que 

ce soit dans le domaine de l’infographie, de l’imagerie médicale, ou encore de la CAO. 

Les principales méthodes de compression de maillages 3D statiques sont présentés dans la 

section suivante. 

1.3 Compression de maillages 3D statiques : état de l’art 

La littérature extrêmement riche dédiée aux méthodes de compression de maillages 3D fait 

état de deux grandes familles d’approches : 

8. ⌈.⌉ : la fonction qui associe àunréel r le plus petit entier n tel que n ≥ r.


• Approches monorésolution : la connectivité du maillage est codée séparément, en exploitant 

le plus souvent un certain ordre de parcours des facettes, des arêtes ou des sommets 

du maillage. La géométrie et les attributs sont ensuite codés de manière différentielle 

(prédictive). Ils subissent en général une procédure de quantification qui conduit à une 

dégradation irréversible du maillage initial (codage avec perte). 

• Approches multirésolution : le maillage original est simplifié itérativement, par fusions 

successives des facettes et/ou arêtes (selon différents opérateurs de simplification de 

maillage), jusqu’à obtenir un maillage de base, de résolution minimale. Le principe 

consiste alors àreprésenter et à coder l’ensemble des différences entre les différentes 

représentations maillées aux niveaux de résolution successifs. Une telle approche répond 

bien aux paradigmes de la compression progressive. Il s’agit dans ce cas de transmettre 

au récepteur une représentation grossière du maillage initial (i.e., larésolution la plus 

basse), suivie d’une information itérative de différences, qui permet de reconstruire le 

maillage àdesrésolutions de plus en plus fines. L’utilisateur final peut alors décoder 

et visualiser l’objet 3D avant même de recevoir la totalité du flux binaire associé. En 

outre, ce type d’approche est particulièrement bien adapté aux paradigmes d’accès universel 

et de réutilisation des flux, permettant l’adaptation du niveau de résolution aux 

caractéristiques des divers terminaux. 

Remarquons que dans les deux cas, il s’agit d’un codage différentiel (prédictif) de la 

géométrie et des attributs du maillage. Dans le cadre des approches monorésolution, la prédiction 

est réalisée à partir des sommets voisins déjà décodés, tandis que dans le cas des approches 

multirésolution, la prédiction est effectuée à travers les niveaux successifs de résolution. 

Présentons tout d’abord les différentes techniques de compression monorésolution de maillages 

3D. 

1.3.1 Approches de compression mono-résolution 

Ces approches s’appuient sur un principe général de codage différentiel, illustré Figure 1.6. 

La connectivité est ici traitée séparément de la géométrie et des attributs. L’idée est de 

générer une suite de symboles qui permet de parcourir et de coder de manièreefficacelegraphe 

de connectivité. Cela conduit àlaspécification d’un ordre de parcours des sommets/triangles 

du maillage, exploité ensuite pour définir des méthodes de prédiction causale, aussi bien pour 

la géométrie que pour les autres attributs asociés au maillage. Les trois étapes successives 

traditionnelles des algorithmes de codage différentiel sont alors appliquées : quantification, 

prédiction et codage binaire. Notons que dans le cas d’une telle approche, il est essentiel 

d’effectuer la quantification en premier lieu pour éviter des problèmes d’éclatement (“cracking”, 

cf. Section 2.3.1.2) des maillages à multiples composantes connexes. 

Les différentes approches de l’état de l’art se distinguent principalement par la technique 

adoptée pour le codage de la connectivité. 

1.3.1.1 Compression par bandes de triangles 

Le codage par bandes de triangles [16] (triangle strips), [17] consiste àdéfinir une suite 

de sommets telle que chaque sommet de la suite forme un triangle avec les deux sommets 

précédents. Cela permet de définir un nouveau triangle pour chaque nouveau sommet inséré 

et conduit donc à un codage efficace de la connectivité, en particulier pour des bandes de 

triangle très longues où le nombre de triangles approche le nombre de sommets. Toutefois, en


Figure 1.6 : Schéma général de compression monorésolution de maillages 3D. 

pratique, le nombre de facettes des maillages approche le double du nombre de sommets. Cela 

conduit àdesrépétitions des mêmes sommets dans la liste, ce qui diminue considérablement 

l’efficacité decodage.Enoutre,définir des bandes de triangles optimales nécessite la mise en 

oeuvre de procédures très lourdes et complexes en temps de calcul [18], [19]. Des méthodes 

moins complexes, mais sous-optimales de définition de bandes de triangles sont proposées dans 

[20], [21]. 

1.3.1.2 Codage par arbres couvrants 

Les méthodes de codage par arbres couvrants (spanning trees) s’appuient sur une observation 

fondamentale de Turan [22], qui a établi qu’un graphe planaire peut être codé avec 

un nombre constant de bits par sommet, en utilisant deux arbres couvrants : 1) un arbre de 

sommets et 2) un arbre des triangles. En partant de ce résultat théorique, Taubin et Rossignac 

proposent une méthode de codage de la connectivité appelée “topological surgery” [1]. 

L’idée est de découper le maillage selon un ensemble d’arêtes pour le convertir en un polygone 

planaire simplement connexe. Les sommets selon lesquels le découpage a été opéré (i.e., 

sommets dupliqués lors du découpage) définissent l’arbre couvrant des sommets. L’arbre couvrant 

des triangles est obtenu en assignant à chaque triangle du polygone planaire un sommet 

et à chaque couple de triangles voisins (i.e., partageant une arête commune) une arête. Les 

auteurs montrent qu’avec cette nouvelle représentation il est possible de retrouver exactement 

la connectivité initiale moyennant un changement d’ordre des sommets et des triangles du 

maillage. Les deux arbres sont enfin codés en utilisant une technique RLE [23] (Run Length 

Encoding). La Figure 1.7 illustre les principales étapes de codage par arbres couvrants pour 

un exemple simple de maillage 3D. 

Cet algorithme n’est en revanche pas directement applicable aux maillages de type nonmanifold. 

Dans ce dernier cas, les maillages doivent tout d’abord être décomposés en plusieurs 

composantes connexes de type manifold [24], ce qui implique un découpage complémentaire 

du maillage qui diminue significativement l’efficacité globale du codage. 

Pour obtenir un découpage du maillage initial en un polygone simplement connexe propice 

à une compression efficace, Taubin et Rossignac [1] utilisent une technique similaire à celle de 

la décomposition par niveaux, présentée par la suite.


(a) (b) (c) 

(d) (e) 

Figure 1.7 : Exemple de codage par arbres couvrants : (a) maillage original, (b) arbre couvrant 

des sommets, (c) découpage du maillage selon l’arbre couvrant des sommets, (d) polygone 

planaire simplement connexe suite à (c) et (e) arbre couvrant des triangles (Source : [1]). 

1.3.1.3 Décomposition en niveaux 

La technique par décomposition en niveaux [2] est fondée sur une décomposition des 

maillages en plusieurs bandes (ou niveaux) concentriques de sommets (Figure 1.8). Des niveaux 

de triangles sont ensuite construits, à partir de niveaux de sommets adjacents. Chaque 

niveau de triangles est enfin codé comme une bande de triangles généralisée. 

Idéalement, les niveaux de sommets ne doivent pas s’auto-intersecter, mais en pratique, pour 

des maillages quelconques, cette contrainte n’est pas satisfaite. Des mécanismes spécifiques de 

gestion de ces auto-intersections sont alors proposés. Cela assure la généralité de l’approche. 

Le prix à payer est une diminution de l’efficacité de compression. 

Notons que chaque triangle dépend uniquement de deux niveaux successifs de sommets. 

Cette localisation de l’information est naturellement appropriée pour la transmission résistante 

aux erreurs en milieux bruités (e.g., environnements mobiles), puisque les erreurs de transmission 

peuvent être localisées avec précision entre deux niveaux de sommets successifs. 

1.3.1.4 Codage des valences 

Les approches par codage des valences, initialement introduites dans [3] sont fondées sur 

la définition d’un contour évolutif de propagation (appelé aussi “liste active”) qui sépare le


Figure 1.8 : Décomposition en niveaux. Les contours en gras représentent les différents niveaux 

de sommets (Source : [2]). 

maillage en deux parties, l’une intérieure (ou visitée) et l’autre extérieure (non-visitée). Ce 

contour est défini initialement comme un triangle quelconque du maillage. La partie extérieure 

est ensuite graduellement conquise en ajoutant successivement les sommets voisins au contour. 

A chaque nouveau sommet ajouté, un code de type “ADD n” estgénéré, signifiant l’ajout 

d’un nouveau sommet de valence n. On obtient ainsi une liste de valences, à partir de laquelle 

la connectivité initialepeutêtre reconstruite. Comme dans le cas de la grande majorité des 

maillages rencontrés en pratique la distribution des valences présente un pic proéminent autour 

de la valeur 6, cette liste de valences peut être codée très efficacement en utilisant des 

algorithmes de codage entropique (i.e., Huffman [25]) ou de codage arithmétique [26]. 

Cette approche est bien définie pour des maillages manifolds, orientés, fermés (sans bord) 

et de genre 0. Son extension à des maillages avec des bords est réalisée aisément. Le principe 

consiste àinsérer un sommet supplémentaire, appelé fantôme, puis de le relier par des arêtes 

virtuelles à l’ensemble des sommets de bord. Cette procédure simple permet de convertir le 

maillage initialement ouvert en un maillage fermé. 

Notons que pendant son évolution, le contour de propagation peut s’auto-intersecter. Pour 

gérer ce phénomène, il est alors nécessaire d’introduire un code spécifique, appelé SPLIT, suivi 

de l’index dans la liste active du sommet qui a généré leSPLIT. Le contour est alors divisé en 

deux listes distinctes, une active qui continue àévoluer, et une deuxième qui est introduite dans 

une liste de type FIFO (First In First Out). Lorsque la conquête de la liste active courante est 

épuisée, une liste est retirée du FIFO et devient la liste active courante. 

Lorsque plusieurs listes sont simultanément présentes, il est également possible que des 

intersections entre les différentes listes surviennent (i.e., maillage de genre supérieur à0).Ce 

deuxième cas particulier est géré par l’insertion d’un code spécifique, appelée MERGE, qui 

permet de fusionner les deux listes en une seule. 

Ce mécanisme de parcours et de codage du maillage est illustré Figure 1.9, pour un exemple 

simple. 

En pratique, ce sont bien les commandes de SPLIT et de MERGE qui dégradent l’efficacité 

de codage. Pour pallier cet inconvénient, Alliez et Desbrun [27] ont proposé une technique qui 

permet, via quelques procédures de décision heuristiques (focalisation dans la liste active sur 

le sommet ayant le nombre minimal d’arêtes non-parcourues, critère de distance euclidienne) 

de minimiser le nombre des opérations de type SPLIT et MERGE.


Figure 1.9 : Conquête du maillage par l’algorithme de Touma et Gotsman : (a) maillage initial, 

(b) insertion du sommet fantôme, (c) ADD 6, ADD 7, ADD 4 (insertion du premier triangle), 

(d) ADD 4, (e) ADD 7, (f) ADD 5, (g) ADD 5, (h) Sommet courant complet, focalisation sur 

le sommet suivant de la liste active, (i) ADD 4, (j) ADD5, (k) SPLIT 5, (l) Focalisation sur 

le sommet suivant de la nouvelle liste active, (m) ADD 4, (n) ADD dummy 5, (o) Retirer la 

nouvelle liste active du FIFO, (p) ADD 4, (q) Focalisation sur le sommet suivant de la liste 

active, (r) Focalisation sur le sommet suivant de la liste active et (s) Conquête du maillage 

achevée. (Source : [3]).


1.3.1.5 Codage par conquêtedetriangles 

Les techniques par conquête de triangles sont fondées sur le mêmeprincipedeconquête 

évolutive des triangles du maillage. La différence par rapport àlaméthode de Touma et Gotsman 

est qu’ici, à la place des valences des sommets, ce sont les opérations de construction de 

nouveaux triangles qui sont spécifiées et codées. 

Dans cette famille d’approches, mentionnons tout d’abord la méthode CBM (Cut Border 

Machine) de Gumold et Strasßer [28]. La technique CBM définit une série de cinq opérations 

(“new vertex”, “forward”, “backward”, “split” et“close”) qui sont ensuite codées par un algorithme 

de Huffman. Le point fort de la méthode est le temps de décodage très rapide et adapté 

au calcul parallèle, qui rend cette technique particulièrement adaptée pour des applications 

nécessitant un décodage en temps réel. Des améliorations de ses performances, à travers la 

définition d’un codeur arithmétique adaptatif, ont été également rapportées dans [29]. 

Dans [4], les auteurs proposent la technique dite de Edgebreaker. Le codage est ici spécifié 

et effectué par rapport àchaquearête de la liste active. Ainsi, l’insertion d’un nouveau sommet 

v formant un triangle avec l’arête courante, notée g, génère l’un des cinq codes suivants : 

1. C, si v n’est pas dans la liste, 

2. L (left) siv précède g dans la liste, 

3. R (right), si v suit g dans la liste, 

4. E (end), si v suit et précède g dans la liste, 

5. S (split) sinon. 

Ce mécanisme de codage des opérations est illustré Figure 1.10. Pour cet exemple, la suite des 

codes générés et la suivante : CCRSRLLRSEERLRE. 

Le principal désavantage de l’algorithme de Edgebreaker est lié à la grande complexité de 

calcul de la procédurededécodage, qui est quadratique avec le nombre de sommets. Diverses 

améliorations de la méthode de base ont été proposéesdans [30], [31], [32], [33]. Une version 

optimisée pour des maillages de régularité élevée est proposée dans [34]. 

Les différentes approches présentées montrent que la problématique de codage de la connectivité 

est bien couverte dans la littérature, les techniques existantes permettant d’obtenir 

des performances quasi-optimales [35, 36] en terme d’efficacité de codage. L’état de l’art est 

considéré comme étant l’approche de Touma et Gotsman. 

En ce qui concerne la géométrie et les attributs, leur codage a été nettement moins étudié 

dans la littérature. Toutefois, la quantité d’information associée est en général beaucoup plus 

importante que celle de la connectivité. Par conséquent, élaborer des procédures de compression 

efficaces dédiées aux attributs géométriques et photométriques reste un enjeu majeur. 

1.3.1.6 Codage prédictif de la géométrie et des attributs 

Les techniques traditionnelles de codage prédictif s’appliquent directement aux données 

maillées 3D, dès qu’un ordre de parcours des sommets/facettes est défini. Comme la géométrie 

et les attributs sont traités de la même façon dans les approches de la littérature, nous limiterons 

notre présentation au seul codage de la géométrie. 

Quelquesoitleformatdereprésentation (e.g., VRML, COLLADA, 3DS...), les coordonnées 

des sommets sont en général spécifiées par des valeurs réelles, représentées en virgule flottante


(a) Les cinq codes de l’algorithme de Edgebreaker 

(b) Exemple de codage avec l’algorithme de Edgebreaker 

Figure 1.10 : Codage par l’algorithme de EdgeBreaker : les numéros des triangles indiquent 

l’ordre de parcours, tandis que les différents types de hachures représentent les codes des 

opérations (Source : [4]). 

sur 32 bits. Associer 32 bits par sommet et par coordonnée pour des maillages pouvant atteindre 

quelques centaines de milliers de sommets conduit alors àdesreprésentations extrêmement 

gourmandes en ressources de stockage et de transmission. Il est alors nécessaire d’appliquer 

une première étape de quantification afin de réduire drastiquement la quantité dedonnées à 

coder. 

Quantification Mentionnons tout d’abord les techniques de quantification scalaire, uniforme 

ou non. En général, pour des raisons de simplicité et d’efficacité de calcul, une quantification 

uniforme est préférée. 

Comme un objet 3D peut être défini à une échelle arbitraire, la boîte englobante de l’objet 

3D est tout d’abord déterminée. En considérant un repère cartésien, (Oxyz), la boîte englobante 

est définie par trois intervalles, [Xmin,Xmax], [Ymin,Ymax]et[Zmin,Zmax]quidécrivent l’étendue 

spatiale de l’objet selon les trois directions du repère. Une grille 3D de quantification est ensuite 

spécifiée, en subdivisant chaque intervalle selon un certain nombre de bits B. LesvaleursB 

habituellement utilisées [1], [2], [3] varient entre 6 et 16. 

Une approche originale est présentée dans [17] où, pour prendre en compte les caractéristiques 

locales de courbure et de taille des triangles, le maillage est segmenté enplusieursrégions. 

Chaque région est ensuite quantifiée avec un nombre différent de bits, adapté àsaspécificité. 

Après quantification, les coordonnées sont codées selon un schéma prédictif.


Prédiction La prédiction des coordonnées est en général effectuée de manière linéaire, l’ordre 

de parcours des sommets du maillage permettant de définir une fenêtre de prédiction causale. 

Taubin et Rossignac [1] proposent un schéma de prédiction optimale, issu d’une modélisation 

auto-régressive des coordonnées. En notant par (vn)n∈V la suite de sommets, dans l’ordre de 

parcours spécifié, le sommet courant vn est prédit à partir de ses prédécesseurs par le prédicteur 

suivant : 

ˆχvn = 

p 

i=1 

αiχvn−i . (1.14) 

Les coefficients de prédiction (αi)i∈{1,...,p} sont déterminés par minimisation de l’erreur quadratique 

moyenne, incorporés dans le flux binaire et transmis au décodeur. 

Touma et Gotsman [3] proposent un schéma de prédiction par règle du parallélogramme 

(Figure 1.11). Pour coder un nouveau sommet vt, les auteurs considèrent le deuxième triangle 

(vq,vr,vs) codéetsupposent qu’il forme avec le nouveau sommet un parallélogramme. Cette 

règle de prédiction est particulièrement bien adaptée à des maillages réguliers et localement 

quasi-planaires. 

Dans [37], les auteurs proposent de définir le prédicteur comme la moyenne arithmétique 

des sommets voisins déjà codés. 

Une combinaison de la prédiction par règle du parallélogramme et de celle par moyenne, 

qui permet d’améliorer les performances du codage dans le cas des maillages non-triangulaires, 

est proposée dans [38]. 

Enfin, une prédiction linéaire du second ordre est proposée dans [2]. 

Figure 1.11 : Prédiction par règle du parallélogramme. 

1.3.1.7 Quantification vectorielle 

Les techniques de quantification vectorielle regroupent les étapes de quantification et de 

prédiction en une seule et unique étape. Parmi les approches de la littérature, mentionnons 

celles proposées dans [39], [40]. 

Ces techniques exploitent mieux les corrélations entre les coordonnées et permettent de 

définir de manière plus souple les cellules de quantification. Par conséquent, elles conduisent 

à des distorsions moins importantes pour un même débit donné. Le coût à payer est en revanche 

lié àlagrandecomplexitédecalcul des algorithmes mis en oeuvre pour déterminer les 

dictionnaires (code book ) associés. 

Les approches monorésolution offrent des outils de compression 3D puissants en termes d’efficacité 

de codage et bien adaptés à une large classe d’applications. Toutefois, leur principale limitation 

vient du traitement différencié des informations de connectivité etdegéométrie/attributs, 

peu adapté à une transmission progressive. Les approches multi-résolution, présentées


ci-après, abordent la problématique de la compression sous un angle différent et permettent 

notamment de répondre aux besoins croissants de progressivité spécifiques des environnements 

mobiles et transmissions sous contraintes de bande passante. 

1.3.2 Approches de compression multi-résolution 

S’inscrivant dans le contexte de la compression progressive, les approches multirésolution 

offrent la possibilité de transmettre des maillages 3D sur des réseaux de capacité limitée. 

L’idée de principe est de transmettre tout d’abord une version dégradée du maillage, à basse 

résolution. Ensuite, une information de raffinement est transmise graduellement, ce qui permet 

de reconstruire le maillage soit jusqu’à atteindre la pleine résolution, soit jusqu’à ceque 

l’utilisateur juge la version reçue satisfaisante et interrompe la transmission. 

D’une façon générale, les approches multi-résolution sont moins performantes, en terme 

d’efficacité de codage, que celles en monorésolution. En outre, contrairement aux approches 

monorésolution où la connectivité estcodée sans perte, ici la connectivité ne devient identique 

à celle du maillage original que si le récepteur reçoit la totalité du flux, pour reconstruire le 

maillage en pleine résolution. Le principal atout de ces approches est de fait lié à la nouvelle 

fonctionnalité de transmission progressive. 

Les techniques de compression multirésolution de maillages 3D sont étroitement liées au 

concept de simplification de maillages. 

1.3.2.1 Techniques de simplification de maillages 

De manière générale, les techniques de simplification de maillage définissent un certain 

nombre d’opérations qui permettent de dériver des versions simplifiées, avec un nombre réduit 

de facettes et de sommets d’un maillage. 

Les opérations les plus connues (Figure 1.12) sont celles de “edge collapse” (ecol )etson 

inverse, “vertex split” (vsplit). 

Figure 1.12 : L’opération de “edge collapse” (ecol) et sa duale, “vertex split” (vsplit). 

L’opération de “edge collapse” fusionne une arête quelconque du maillage en un seul sommet. 

C’est l’opération de base des algorithmes de simplification. Son opération duale, le “vertex 

split”, consiste à scinder le sommet en deux et a récréer l’arête et les triangles décimés. Lorsqu’appliquée 

itérativement, elle permet de raffiner le maillage, i.e. de dériver une version plus 

complexe à partir d’une résolution de base, en augmentant le nombre de sommets, arêtes et 

facettes. 

Lors de l’étape de codage, le maillage est transformé en appliquant successivement une série 

d’opérations de “edge collapse” pour obtenir des représentations àdesrésolutions de plus en 

plus basses. La “différence” entre maillages aux niveaux successifs de résolution est représentée 

d’une certaine manière et codée en un flux binaire. Au niveau du décodeur, à partir du maillage


àlaplusfaiblerésolution, on applique successivement une série d’opérations de “vertex split” 

et on utilise l’information de différence pour reconstruire le maillage àdesrésolutions de plus 

en plus fines. 

Les algorithmes de codage progressif se distinguent principalement par la façon de définir les 

opérations de simplification et de raffinement de maillage, par l’approche de codage géométrique 

et par la gestion des interactions entre la géométrie et la connectivité. 

1.3.2.2 Les maillages progressifs 

Le concept de maillage progressif a été introduit pour la première fois dans la littérature 

dans [10]. A partir d’un maillage initial M = Mk, les auteurs appliquent une série de k 

opérations de “edge collapse” pourdériver un maillage à basse résolution, noté M0. Comme 

l’opération de “edge collapse” est inversible par un “vertex split” (i.e., on retrouve exactement 

la même connectivité si on applique l’opération de “edge collapse” suivie de l’opération “vertex 

split” correspondante), le maillage M est finalement représenté sous la forme (M0, vsplit1, 

vsplit2, ... vsplitk). 

Chaque opération de “vertex split” esticireprésentée par les indices du sommet à diviser 

(le sommet v dans la Figure 1.12) et ceux des sommets obtenus après le split (les sommets v 

et w). Les positions géométriques des sommets vt et vs dans le maillage raffiné sontprédites à 

partir de l’ancienne position du sommet vs (i.e., prédiction delta) et codées avec un algorithme 

de Huffman. 

Dans chaque étapede“edge collapse”, pour garantir l’efficacité du codage, il est essentiel 

de choisir la “bonne” arête à collapser, i.e. l’arête dont la suppression a une influence minimale 

sur la qualité du maillage simplifié. Pour cela, les auteurs intègrent dans une fonctionnelle 

d’énergie divers critères, comme distances, régularité etcontinuité, qui permettent d’associer 

àchaquearête du maillage un degré depriorité. Finalement, l’opération de “edge collapse” est 

appliquée sur l’arêtedepriorité maximale. 

L’approche par maillages progressifs présentée souffre de deux limitations principales : 

1. l’algorithme est applicable uniquement aux maillages de type manifold ; 

2. le type topologique du maillage reste inchangéà travers les différents niveaux de résolution. 

Afin de s’affranchir de ces contraintes, une nouvelle approche, par complexe simplicial progressif, 

est proposée dans [5]. 

1.3.2.3 Codage par complexe simplicial progressif 

L’approche par complexe simplicial progressif (CSP) [5] généralise les opérations de “edge 

collapse”etde“vertex split” à des paires de sommets arbitraires, non nécessairement connectés 

par une arête. Les différentes configurations possibles d’opérations “vertex split” généralisées 

sont illustrées Figure 1.13. 

Quant àlagéométrie, elle est codée comme dans le cas des maillages progressifs, par 

prédiction à partir du sommet de split. 

L’approche CSP permet de gérer des maillages de topologies arbitraires, au prix d’une 

légère réduction de l’efficacité du codage (cf. Tableau 1.2).


Figure 1.13 : Les différentes configurations de “vertex split” généralisé. (Source : [5]). 

1.3.2.4 Codage par forêt progressive d’opération vsplit 

Proposée par Taubin et al. dans [6], l’approche Progressive Forest Split (PFS) remplace 

l’opération de “vertex split” par une opération de “forest split”, illustrée Figure 1.14. 

Figure 1.14 : L’opération de “forest split”. a) le maillage initial avec, en gras, les arêtes de 

la forêt ; b) le découpage du maillage au long des arêtes de la forêt ; c. triangulation de la 

structure obtenue ; d) le maillage raffiné. (Source : [6]). 

Pour coder la structure de la forêt, un bit est associé àchaquearêtedumaillage pour 

spécifier si elle appartient ou non à la forêt. La structure de la triangulation associée à 

l’opération de “forest split” (Figure 1.14.c) peut être codée en utilisant des arbres couvrants 

comme dans [1]. Enfin, la géométrie est codée selon un schéma de prédiction des nouveaux 

sommets obtenus à partir du sommet initial. Elle intègre un mécanisme de lissage des positions 

[41]. 

L’opération de “forest split” peut pratiquement doubler le nombre de facettes du maillage, 

ce qui conduit à des taux de compression beaucoup plus importants que ceux obtenus par des 

opérations de “vertex split”. Notons néanmoins que ces gains en performances de compression 

sont obtenus au prix d’une granularité plus grossière des niveaux de détails générés par cette 

technique. 

1.3.2.5 Approches par décimation de sommets 

Les approches par décimation de sommets remplacent l’opération de “edge collapse” par 

une étape de suppression de sommets [42], [43]. Plus précisément, un sommet est supprimé et 

le domaine résultant, appelé patch, re-triangulé.


Dans [44], les auteurs introduisent le schéma de codage par patchs colorés (PC). Le principe 

est de décomposer le maillage en un ensemble de patchs deux à deux disjoints. Les sommets 

définissant les centres des différents patchs sont ensuite décimés et les patchs retriangulés. La 

structure des patchs est finalement codée selon un code de couleur, les triangles de deux patchs 

adjacents recevant des couleurs différentes. Quant àlagéométrie, elle est toujours codée de 

façon différentielle, le sommet à supprimer étant prédit à partir de la moyenne de ses voisins. 

Dans le même contexte des approches par décimation de sommets, Alliez et Desbrun [7] 

proposent une technique exploitant les valences des sommets. Afin de garantir une distribution 

des valences concentrée autour de la valeur 6, les auteurs proposent de décimer uniquement les 

sommets ayant une valence inférieure oùégale à6.Lespatch sont parcourus successivement, en 

définissant pour chacun une porte d’entrée, i.e. une arête sur la frontière du patch. L’ordre de 

parcours des patchs est géré à l’aide d’une file d’attente FIFO, qui stocke les portes d’entrée. 

Après décimation du sommet central, chaque patch conquis est ensuite re-triangulé et la valence 

du sommet décimé transmise au flux de sortie. A la suite de cette opération, la distribution 

des valences est drastiquement modifiée. En particulier, un nombre important de sommets de 

valence 3 est obtenu. C’est pourquoi une nouvelle opération, dite de nettoyage, est appliquée, 

ayant pour but de décimer uniquement les sommets de valence 3. 

Cette procédure de codage est illustrée Figure 1.15, pour un maillage régulier où chaque 

sommet a la valence 6. 

Figure 1.15 : Codage progressif selon l’algorithme de Alliez et Desbrun : a) Maillage initial, 

patchs et portes d’entrée (notées gi) ; b) Maillage après décimation et étape de nettoyage ; c) 

Maillage final obtenu. (Source : [7]). 

Notons que si le maillage initial est régulier de valence 6 (6-régulier), le maillage obtenu après 

décimation et nettoyage est garanti 6-régulier. Toutefois, dans le cas des maillages irréguliers, 

la couverture exhaustive par patch n’est pas garantie. Des patchs nuls sont alors introduits 

pour gérer ce cas. 

En ce qui concerne la géométrie, la prédiction est effectuée dans un repère local de Frénet, 

ce qui permet de séparer les composantes tangentielle et normale du vecteur différence. 

Les performances de la méthode sont très élevées, l’efficacité de codage étant tout àfait 

comparable, même si légèrement inférieure, à celle du codage monorésolution de Touma et 

Gotsman, malgré lecaractère progressif de l’approche. 

Enfin, toujours dans le contexte des approches par décimation de sommets, mentionnons 

la technique de Li et Kuo [45] qui code les informations de géométrie et de topologie d’une


manière entrelacée. Toutefois, les performances associées à cette technique restent nettement 

inférieures à celles de la méthode d’Alliez et Desbrun. 

1.3.2.6 Codage par décomposition en niveaux 

Dans [46], Bajaj et al. étendent leur technique de codage par niveaux au contexte du codage 

progressif. 

Trois techniques de simplification de maillage sont ici proposées, notamment la simplification 

intra (à l’intérieur d’un même niveau), simplification inter (entre niveaux successifs) et la 

contraction généralisée de triangles. 

1.3.2.7 Codage par décomposition en arbres géométriques 

Gandoin et Devillers [8] proposent une approche complètement différente de codage progressif. 

Ici, c’est bien la géométrie et non plus la connectivité quiestconsidérée en premier 

lieu. 

Le principe consiste à subdiviser récursivement la boîte englobante de l’objet 3D en cellules 

de plus en plus petites, jusqu’à ce que chaque cellule contienne au maximum un sommet du 

maillage à coder. Cette procédure de subdivision de l’espace en cellules [47] est illustrée Figure 

1.16, pour le cas 2D. 

Figure 1.16 : Illustration de l’algorithme par décomposition en arbre Kd, pour le cas 2D. 

(Source : [8]). 

On obtient ainsi un arbre, dont les noeuds représentent des cellules de l’espace. Le nombre de 

sommets du maillage correspondant à chaque cellule est codé à l’aide d’un codeur arithmétique 

[26]. Si la cellule parent contient p sommets, chacune de ses cellules enfant peut être codée avec 

un nombre de log2(p +1)bits. 

Le codage de la connectivité est ensuite réalisé, en codant les changements de connectivité 

survenus lors de chaque subdivision de cellule. Deux opérations de subdivision sont ici 

considérées, le “vertex split” [10] et le “generalized vertex split” [5]. 

Les performances de l’approche, en terme d’efficacité de compression, sont comparables à 

celles du codeur monorésolution de Touma et Gotsman [3]. 

Dans [13], Peng et al. améliorent l’approche Kd tree en considérant en décomposition en 

arbre octal (octree - OT) et en introduisant une nouvelle procédure de codage de la connectivité 

exploitant l’information de géométrie. Le principe de l’approche proposée consiste àcoderles 

arrêtes résultantes de la subdivision d’une cellule de OT en exploitant un codeur arithmétique 

avec contextes [26]. Ici, les contextes considérés sont liés àlarégularité des triangles qui vont


être générés : les arrêtes qui conduisent aux triangles les plus réguliers ont une probabilité 

d’apparition plus importante. 

Par rapport à l’approche de codage par arbre Kd, la technique OT conduit à des gains en 

termes de débits de l’ordre de 10 à 20% pour le codage de la géométrie et jusqu’à 60% pour 

le codage de connectivité du maillage. Notons cependant que ces gains sont obtenus au prix 

d’une complexité dedécodage plus importante, l’analyse de la géométrie locale du maillage 

(lors de la construction des contextes) devant être effectuée par le décodeur. 

Dans [48], les auteurs optimisent le codeur OT en appliquant itérativement l’algorithme de 

segmentation par k-moyennes [49, 50] aux sommets du maillage. Ici, la structure de subdivision 

n’est plus guidée par la structure d’arbre octal mais plutôt adaptée à la forme de l’objet grâce 

àlaprocédure de segmentation par k-moyennes [49, 50] qui calcule àchaqueétape les meilleurs 

k représentants de la géométrie du maillage. Les résultats rapportés dans [48] montrent des 

gains en qualité visuelle [51] de l’ordre de 50 à 80%. 

1.3.2.8 Codage spectral 

Le codage spectral est actuellement exploité à large échelle dans le contexte de la compression 

d’images 2D. En particulier, mentionnons le codage par transformée DCT (Discrete 

Cosine Transform) qui permet de compacter l’énergie du signal dans un ensemble réduit de 

coefficients décorrélés. 

Karni et Gotsman [52] proposent d’utiliser la théorie spectrale des maillages pour en dériver 

une méthode de compression spectrale progressive. 

Le principe est de construire tout d’abord la matrice laplacienne du maillage. Pour un 

j∈{1,...,V } 

maillage avec V sommets, la matrice laplacienne L =(Lij) i∈{1,...,V } est définie à partir de 

l’information de connectivité etexprimée par l’équation suivante : 

⎧ 

⎨ 1 , si i = j 

Lij = − 

⎩ 

1 , si i ∈ j di 

∗ 

. (1.15) 

0 , si sinon 

avec di la valence du sommet i. 

Les vecteurs propres de la matrice L forment une base orthogonale de l’espace Rn et les 

valeurs propres généralisent la notion de fréquence des fonctions de la base. Cette base est utilisée 

pour effectuer la décomposition des coordonnées x, y, z et obtenir un spectre géométrique. 

Ce spectre est finalement quantifié, avec une troncature des hautes fréquences. Pour assurer 

la progressivité, les coefficients quantifiés sont transmis par ordre croissant de la fréquence 

associée. 

L’approche de codage spectral est particulièrement efficace àbasdébits (moins de 8 bits 

par sommet). Expérimentalement, elle conduit à des gains en termes de débits de l’ordre de 

30-50% par rapport à l’algorithme monorésolution de Touma et Gotsman [3], pour des qualités 

visuelles des maillages reconstruites tout à fait comparables. 

La principale limitation de l’approche est liée à sa grande complexité de calcul (en O(V 3 )), 

due principalement au calcul des vecteurs propres de la matrice L. Pour pallier cet inconvénient, 

les auteurs proposent dans [53] d’utiliser une base de fonctions fixe, correspondant à une 

connectivité régulière où chaque sommet a une valence de 6. Notons que cette base correspond 

à celle de la transformée DCT. Cette décomposition est certes sous-optimale, néanmoins elle 

permet de réduire la complexité decalculdeO(V 3 )à O(Vlog(V )).


Dans [54], les auteurs proposent de contourner le problèmedecomplexité de calcul des 

vecteurs propres en introduisant la notion de δ-coordonnées. Plus précisément, la matrice des 

δ-coordonnées, notée δG, estdéfinie par : 

δG = LG, (1.16) 

avec L la matrice laplacienne et G la marice décrivant la géométrie du maillage (cf. équation 

(1.9)). 

Le codeur proposé dans [54] procède comme suit. Tout d’abord, la matrice δG est calculée, 

puis quantifiée uniformément et codée arithmétiquement. La connectivité du maillage est ici 

compressée en exploitant la technique [3]. 

Afin de reconstruire le maillage, le décodeur décompresse tout d’abord la connectivité et 

construit la matrice laplacienne L. La matrice des δ-coordonnées est ensuite décodée. Soit δG 

la matrice obtenue au niveau du décodeur. La matrice des coordonnées, notée G, est enfin 

reconstruite en résolvant le problème de minimisation suivant : 

G =argmin 

X 

 

 

LX − 

 

δG 

2 

, (1.17) 

où X représente une matrice réelle de taille V × 3. 

Notons que la solution du problème de minimisation au sens des moindres carrés, décrit 

par l’équation (1.17), est donnée par : 

G =(L t L) −1 L t δG. (1.18) 

En pratique, cela revient à inverser la matrice creuse (LtL). Les auteurs exploitent la bibliothèque 

TAUCS 9 optimisée pour ce type de matrices afin d’assurer des temps calcul de 

décodage raisonnables (i.e., 1 seconde pour un maillage de 20000 sommets sur une machine 

P4 2GHz). L’approche proposée permet de réduire efficacement les temps de calcul de [52] 

tout en assurant une qualité visuelle équivalente. Notons néanmoins qu’une telle approche est 

totalement inadaptée pour des terminaux de faibles capacités de calcul et de mémoire, étant 

donné le processus de minimisation (équation (1.18)) qu’elle implique. 

1.3.2.9 Approches par ondelettes 

En étroite relation avec les techniques de subdivision de surfaces, les approches de compression 

de maillages 3D par ondelettes étendent la théorie de l’analyse multirésolution, formalisée 

initialement pour des fonctions définies sur l’axe réel infini par [55][56]. 

Parmi les travaux qui généralisent la théorie de l’analyse multirésolution aux maillages 3D, 

il convient de mentionner en premier lieu ceux de Lounsberry [57]. Son approche représente 

en effet un cas particulier du schéma de Lifting introduit par Sweldens [58]. Le schéma de 

Lifting est une méthode de construction de bases d’ondelettes qui permet de définir aisément 

et intuitivement des familles d’ondelettes sur des domaines bornés. 

Parmi les techniques de compression de maillages 3D par ondelettes, citons tout d’abord 

celle proposée dans [9]. Le maillage est initialement remaillé, pour obtenir une structure topologique 

semi-régulière, en utilisant l’algorithme MAPS - Multiresolution Adaptive Parameterizations 

of Meshes [59]. MAPS génère un premier maillage, représentant la résolution la 

plus grossière. En subdivisant récursivement ce maillage de base, selon un algorithme de Loop,


(a) maillage initial (b) maillage de base avec projection 

des sommets initiaux 

(c) maillage semi-régulier approchant 

le maillage initial 

Figure 1.17 : Compression par ondelettes semi-régulières. (Source : [9]). 

on obtient ensuite une approximation du maillage initial. Cette procédure est illustrée Figure 

1.17. 

Notons que dans ce cas, la connectivité initiale du maillage est irréversiblement perdue. 

Quant àlagéométrie du maillage, elle est représentée par le premier maillage et une série 

de coefficients de la décomposition en ondelettes. Ces coefficients ont une distribution bien 

concentrée autour de zéro et sont codés à l’aide d’un algorithme de type SPIHT [60], pour 

assurer la progressivité delareprésentation. 

Cet algorithme assure des performances nettement supérieures (de 10-80% de gains en 

termes de débits) à celles du schéma de codage monorésolution de Touma et Gotsman [3]. 

Dans [61], les auteurs proposent un nouveau schéma de compression par ondelettes, fondé 

sur le concept de maillage normal [62]. Lors de l’étape de subdivision, une contrainte supplémentaire 

est imposée qui garantit que le vecteur différence entre la position prédite à partir du 

niveaux de détails précédent et la position exacte du sommet est normal à la surface. Cela 

conduit à des coefficients en ondelettes scalaires, qui peuvent être codés plus efficacement. 

Dans [63], les auteurs généralisent le schéma de subdivision 1 :4 [57] au cas des maillages 

irréguliers, en introduisant des nouvelles configurations de subdivision (i.e., 1:3,1:2et1:1), 

illustrées Figure 1.18. Afin de construire la structure de subdivision, les auteurs exploitent 

un ensemble de règles topologiques. Une version améliorée, qui tient compte de la géométrie 

du maillage en interdisant la décimation des sommets localisés sur des arêtes saillantes, est 

également proposée. La structure hiérarchique générée est ensuite exploitée pour en dériver une 

famille d’ondelettes biorthogonales à support local. L’approche [63] permet d’éviter l’étape de 

remaillage tout en assurant des résultats de compression compétitifs par rapport aux techniques 

décodage sans pertes de connectivité. 

9. http ://www.tau.ac.il/ stoledo/taucs/


(a) Triangle original (b) Subdivision 1 :4 (c) Subdivision 1 :1 

(d) Subdivisions 1 :2 

(e) Subdivisions 1 :3 

Figure 1.18 : Configurations de subdivision pour l’approche de codage par ondelettes 

irrégulières. 

Dans [64], Gu et al. proposent d’appliquer un remaillage régulier afin de convertir la 

géométrie d’un maillage 3D en une image 2D appelée image géométrique. Le principe consiste 

àdéterminer une paramétrisation du maillage sur un domaine 2D carré. Un remaillage régulier 

est ensuite appliqué enéchantillonnant uniformément le domaine paramétrique. Cela permet 

de décrire (avec pertes) la géométrie du maillage par un ensemble de points 3D localisés sur la 

surface. Ces points, ayant une structure régulière, peuvent être stockés sous forme d’une image 

géométrique [64] couleur où chacun des canaux R, V et B décrit l’une des coordonnées x, y ou 

z. L’image ainsi obtenue est enfin codée en exploitant une décomposition en ondelettes. 

Dans [65], les auteurs proposent l’approche SGI (Smooth Geometry Images) qui exploite la 

procédure de remaillage régulier de GI afin d’approcher le maillage par une surface B-Spline 

cubique. Les points de contrôledelasurfaceB-Splinegénérée sont enfin codés sous forme 

d’une image géométrique. La représentation SGI exploite un schéma de subdivision calculé 

directement au niveau de la carte graphique afin d’assurer un rendu en temps réel. Notons 

cependant que cette approche induit des pertes de détail sur la surface en raison du lissage 

produit par la conversion du maillage original en surface B-Spline.

1.4 Analyse et discussion 33 

L’appoche GI a été encoreaméliorée dans [66] en exploitant un atlas de paramétrisation 

(au lieu d’une paramétrisation sur domaine carré) afin de minimiser les distorsions de paramétrisation. 

Ici, le maillage est découpéenunensemblepatchs qui sont remaillés régulièrement 

et stockés ensuite dans une même image appelée MCGI (Multi-Charts Geometery Images). Les 

auteurs proposent une procédure de recollage plus ou moins heuristique afin de garantir un 

raccordement lisse des parties. 

Les différentes approches de compression multirésolution de maillages 3D présentées ici 

illustrent clairement les importants progrès réalisés dans le domaine au cours de ces dernières 

années. Même si la contrainte de progressivité peutaprioriengendrer une diminution de l’efficacité 

de codage, bon nombre d’approches et en particulier celles fondées sur les transformées 

en ondelettes, arrivent à s’affranchir de cette limite et conduisent à des performances de codage 

comparables ou même supérieures à celles obtenues en monorésolution, tout en offrant la 

puissante fonctionnalité deprogressivité. 

1.4 Analyse et discussion 

Le Tableau 1.1 résume les différentes propriétés des principales approches de compression 

mono-résolution de maillages 3D statiques. Comme les stratégies de codage de la géométrie 

sont presque équivalentes pour toutes les approches de compression mono-résolution nous nous 

sommes intéressés uniquement au codage de la connectivité du maillage. En effet, les débits, 

notés D(Γ), rapportés dans le Tableau 1.1, sont exprimés en bps (bits par sommet) et correspondent 

uniquement au flux binaire nécessaire pour le codage de connectivité. 

Ces résultats montrent que les approches de codage par valences permettent d’atteindre les 

meilleurs résultats de compression. Ces performances sont obtenues au prix d’une généralité 

limitée (i.e. maillages manifolds et orientés). Les approches par bandes de triangles permettent 

de traiter tout maillage triangulaire tout en étant adaptées à une implantation matérielle. 

Néanmoins, ces techniques restent peu efficaces en terme de compression. L’approche de codage 

par niveaux semble offrir un bon compromis entre efficacité de compression et généricité étant 

applicable à tout maillage triangulaire. De plus, elle permet un codage résistant aux erreurs de 

transmission. L’approche CBM assure un décodage en temps réel au prix d’un coup de codage 

légèrement supérieur aux autres approches de compression par conquête de triangles [30, 4]. 

Notons enfin qu’une version améliorée de l’approche de codage par arbres couvrants [1] a été 

retenue par le standard MPEG-4. 

Le Tableau 1.2 présente les propriétés des principales techniques de codage multi-résolution 

de maillages 3D statiques. Ici, les débits D(Γ) et D(G)représentent respectivement les nombres 

de bits par sommet nécessaire pour le codage de connectivité etlagéométrie du maillage. Ils 

sont exprimés également en bps (bits par sommet). 

De l’analyse du Tableau 1.2, il ressort que les techniques de codage par ondelettes régulières 

[64] ou semi-régulières [62] permettent d’atteindre les meilleures performances de compression. 

Notons cependant que de telles approches sont adaptées uniquement à des maillages manifold, 

denses et lisses. Elle modifient également la connectivité initiale du maillage ce qui peut induire 

l’apparition d’artéfacts visuels comme discuté Section 3.1. 

Dans le cas d’applications nécessitant la préservation de la connectivité du maillage, le codeur 

spectral semble offrir les meilleures performances de compression àbasdébits (moins de 8 

bits par sommet). Notons néanmoins que cette approche souffre d’une complexité dedécodage 

(en O(V 3 )) pénalisante. La technique PFS, bien que retenue par le standard MPEG-4, offre des


Approche D(Γ) en bps Applicabilité Commentaires 

Triangles indexés 6log2(V ) Tout maillage Forte redondance 

triangulaire 

Bandes de triangles [16] 11 Tout maillage Adaptée à une implémentation 

triangulaire matérielle 

Arbres couvrants [1] 2.48 − 7.0 Manifold Retenue par le standard MPEG-4 

Décomposition 

1.40 − 6.08 Tout maillage Codage résistant aux erreurs de trans- 

en niveaux [46] 

triangulaire mission 

Codage des valences [3, 0.2 − 2.4, en Manifold et Etat de l’art des codeurs mono- 

27] 

moyenne 1.5 orienté résolution 

Cut Border Machine 3.22 − 8.94, en Manifold Optimisée pour les applications en 

[28] 

moyenne 4 

temps réel 

Edgebreaker [4] 4aumaximumManifold et Complexité dedécodage pénalisante en 

orienté O(V 2 ) 

Edgebreaker optimisé 3.67 au maxi- Manifold et Complexité dedécodage linéaire 

[30] 

mum 

orienté 

Table 1.1 : Etat de l’art des techniques monorésolutions de compression de maillages 3D 

statiques. 

résultats de compression très limités. Les codeurs de maillages progressifs [10, 5] conduisent au 

plus mauvaises performances de compression. Notons cependant que ces techniques assurent 

une scalabilité de haute qualité. L’approche de codage par ondelettes irrégulières offre des performances 

de compression compétitives tout en assurant une complexité linéaire en fonction du 

nombre de sommets. Les techniques de codage par arbres géométriques [8, 13, 48] compressent 

efficacement des maillages 3D de topologies arbitraires. Ces approches nécessitent cependant 

des capacités de calcul importantes au niveau du décodeur.


Approche D(Γ) en bps D(G) en bps Applicabilité Commentaires 

Progressive mesh [10] log2(V )+5 en - Manifold et Scalabilité de haute 

moyenne 

orienté qualité 

Complexe simplical pro- log2(V )+8 en - Tout maillage Scalabilité de haute 

gressif [5] 

moyenne 

triangulaire qualité tout en gérant 

des maillages de topologies 

arbiraires 

Progressive forest split 7-10 en 20-40 pour une Manifold Retenue par le standard 

[6] 

moyenne quantification 

sur 6 bits 

MPEG-4 

Patchs colorés [44] 6 en moyenne 16-22 pour une Tout maillage Scalabilité de granula- 

quantification 

sur 12 bits 

triangulaire rité grossière 

Décimation guidée par 2.67-4.99 10-22 pour une Manifold et Scalabilité de granula- 

les valences [7] 

quantification 

sur 10-12 bits 

orienté rité grossière 

Arbre Kd tree [8] 3.5 en 15.7 en Tout maillage Adaptée aux modèles 

moyenne moyenne pour triangulaire de terrains 3D et aux 

une quantification 

sur 10-12 

bits 

maillages denses 

Arbre octree [13, 48] 3 en moyenne 8.64 en Tout maillage Nécessite des capacités 

moyenne pour triangulaire de calcul importantes 


sur 10-12 

bits 

au niveau du décodeur 

Codage spectral [52] 1.5 en 1-5 pour Tout maillage Complexitédedécodage 

moyenne pour une qualité triangulaire pénalisante en O(V 

des maillages équivalente à 

manifolds et une quantifi- 

orientés cation sur 7-8 

bits 

3 ) 

Ondelettes irrégulières 1.72-5.46 bits 8.5-23.96 pour Manifold Perservation de la 

[63] 


sur 10-12 

bits 

connectivité initiale 

Maillage normal [62] Négligeable 1 en moyenne Manifold Perte de la connectivité 

pour que qua- 

initiale. Adaptée à des 

litééquivalente 

maillages denses et à 

à une quantification 

sur 8 

bits 

géométrie lisse 

Images géométriques Non codée 1-2 en Manifold Perte de la connectivité 

[64] 

moyenne 

initiale. Adaptée à des 

pour que qua- 

maillages denses et à 

litééquivalente 

à une quantification 

sur 8 

bits 

géométrie lisse 

Table 1.2 : Etat de l’art des techniques multirésolutions de compression de maillages 3D 

statiques.


1.5 Conclusion 

Dans ce chapitre nous avons présenté unétat de l’art des méthodes de compression de 

maillages 3D statiques. Deux familles d’approches, mono et multi-résolution, ont étéidentifiées, 

et décrites en détails, avec principe, méthodes représentatives, avantages et limitations. 

L’analyse de l’état de l’art montre que la majeure partie des approches s’appuie sur des 

hypothèses de régularité (e.g., maniofold et orienté) des maillages traités afin d’assurer un 

codage efficace. Les techniques de codage par arbres géométriques permettent de gérer des 

maillages non manifold tout en offrant des performances de compression compétitives. Cependant, 

elles restent inadaptées à une implantation matérielle en raison des ressources de calcul 

et de stockage qu’elles nécessitent. Seules les techniques de compression par bandes de triangles 

et l’approche CBM semblent être adaptées àundécodage temps réel. Cette propriété estindispensable 

pour le déploiement d’un grand nombre d’applications comme les jeux vidéo, les 

visites virtuelles sur terminaux mobiles... 

De cette étude il ressort qu’il n’existe pas actuellement de méthode satisfaisant àlafoisaux 

contraintes de généricité (i.e., applicable à tout type de maillage), d’efficacité de compression 

et de faible complexité dedécodage. 

La première méthode originale de compression de maillages statiques que nous proposons, 

dites TFAN-Triangle Fan coder (Chapitre 2), répond à ces critères et s’attaque notamment à 

cet ambitieux objectif. S’inscrivant dans le cadre des approches de codage par conquêtes de 

triangles, elle : 

• offre un décodage de basse complexité et adapté pour une implantation matérielle. 

• génère une représentation exploitant les accélérations matérielles pour un rendu en temps 

réel. 

Les techniques par ondelettes régulières offrent de haute performances de compression tout 

en assurant une réutilisation directe des technologies standards de codage d’images 2D (e.g., 

JPEG et JEPG2000). Elles modifient cependant la connectivité initiale du maillage, ce qui peut 

conduire en pratique à l’apparition d’artéfacts visuels (cf. Section 3.1). La deuxième méthode 

que nous proposons, appelées codeur B-Spline (Chapitre 3), reprend l’idée de représentation 

régulière de l’information géométrique introduite dans [64, 66, 65], tout en l’adaptant aux 

contraintes de compression avec préservation de la connectivité. Optimisée pour des maillages 

3D issus des scanners 3D, elle assure à la fois un codage efficace et une représentation progressive.

Chapitre2 

Le codage TFAN 

Résumé : Ce chapitre propose une nouvelle approche de compression de maillages 3D 

statiques, appelée TFAN (Triangle Fan-based compression), applicable directement àtout 

maillage 3D triangulaire de topologie arbitraire (i.e., manifold ou non, orienté ounon, 

fermé ou ouvert). TFAN assure une complexité linéaire pour le codage et le décodage, 

tout en offrant une représentation optimisée pour le rendu en temps réel. 

Afin de valider l’approche TFAN proposée dans le cadre d’une application industrielle 

grandeur nature, nous avons considéré le corpus CAO du projet RNRT SEMANTIC- 

3D, qui inclut environ 4000 maillages de topologies hautement irrégulières (multiples 

composantes connexes, non-manifold...). L’étude expérimentale comparée que nous avons 

conduite montre que le codeur TFAN offre des gains en termes de débits de 6 à 33% par 

rapport aux méthodes de Touma Gotsman [3] et la technique MPEG-4/3DMC [1]. Quant 

au temps de décodage, ils sont améliorés de 50% en moyenne. 

En raison de sa faible complexité dedécodage et de ses performances de compression 

élevées, le codeur TFAN est un candidat de premier plan pour le déploiement des contenus 

de type CAO sur téléphones portables. Depuis Avril 2008, il est considéré dans le cadre 

de l’expérimentation technique [67] portant sur la compression de basse complexité de 

maillages 3D, au sein du standard MPEG. 

Mots clés : TFAN, compression, maillage 3D, topologie arbitraire, faible complexité, 

rendu en temps réel, données CAO. 

37

38 Le codage TFAN 

Ce chapitre décrit une nouvelle approche de compression de maillages 3D triangulaires, 

appelée TFAN. 

2.1 L’approche TFAN 

L’approche TFAN proposée gère directement tout maillage 3D triangulaire de topologie 

arbitraire (i.e. manifold ou non, orienté ounon,fermé ou ouvert). Elle assure également une 

complexité linéaire pour le codage et le décodage, tout en offrant une représentation optimisée 

pour le rendu en temps réel. En raison de ces propriétés, le codeur TFAN se positionne en 

premier plan des candidats pour le déploiement de contenus 3D sur téléphones portables. 

2.1.1 Définition 

TFAN repose sur une décomposition des triangles du maillage à coder en un ensemble 

d’éventails de triangles. Concept central de la représentation proposée, un éventail de triangles 

est défini comme suit. 

Définition : un éventail de triangles (Triangle Fan -TF)TF de degré d est un ensemble 

ordonné dedtriangles (tj)j∈{0,...,d−1} définis par une séquence ordonnée de (d + 2) sommets 

(v0,v1,v2,...,vd+1) telsque: 

∀ j ∈{0,...,d− 1}, tj = {v0,vj+1,vj+2}. (2.1) 

La Figure 2.1 illustre un exemple d’éventail de triangles de degré 4. 

Figure 2.1 : Eventail de triangles de degré 4décrit par les sommets (v0,v1,v2,v3,v4,v5). 

Par définition, les triangles d’un éventail satisfont les propriétés suivantes : 

• (P1) : les deux triangles successifs d’un éventail sont adjacents, au sens où ils partagent une 

arête commune,

2.1 L’approche TFAN 39 

• (P2) : les triangles d’un éventail ont la même orientation (i.e., sens de parcours des sommets 

d’un triangle, cf. Section 1.1), 

• (P3) : tous les triangles d’un éventail partagent un même sommet v0 appelé sommet central 

(ou centre de l’éventail). 

Notons également que l’orientation des triangles implique un unique ordre de parcours des 

sommets de l’éventail. L’éventail TF est alors complètement déterminé par la suite ordonnée 

de ses sommets (v0,v1,v2,...,vd+1), énumérés à partir du sommet central v0. 

2.1.2 Principe 

Pour définir une représentation compacte de la connectivité d’un maillage triangulaire de 

topologie arbitraire (i.e. manifold ou non, orienté ounon,ferméououvert), la méthode TFAN 

proposée dans ce chapitre exploite une partition des triangles du maillage en un ensemble 

d’éventails de triangles. Le principe de base de la méthode proposée repose sur l’observation 

suivante : coder un éventail TF est équivalent àcoderles(d + 2) index de ses sommets 

constituants. Un tel mécanisme de codage évite alors les problèmes de redondance spécifiques 

aux approches directes de représentation, comme celle proposée par le standard VRML 1 (cf. 

Section 1.2). 

Pour analyser le gain que l’on peut obtenir avec une représentation par éventails de triangles 

par rapport à l’approche directe, considérons l’exemple du maillage illustré Figure2.2.Ici,le 

maillage inclut les sept triangles suivants : t1 = {v6,v5,v4}, t2 = {v1,v9,v2}, t3 = {v3,v7,v9}, 

t4 = {v1,v8,v9}, t5 = {v2,v9,v6}, t6 = {v9,v7,v6}, ett7 = {v6,v7,v5}. Supposons également 

que le maillage est décomposé en trois éventails TF1 = {v1,v8,v9,v2}, TF2 = {v9,v3,v7,v6,v2} 

et TF3 = {v6,v7,v5,v4}. 

Coder directement la liste des triangles (tj)i∈{1,...,7} revient à stocker les 21 index associés. 

Le nombre de sommets étant égal à 9, l’index d’un sommet peut alors être codé sur quatre bits. 

Le codage direct de la liste des triangles coûterait alors 84 bits. Si l’on considère maintenant 

l’approche par éventails de triangles, coder les trois éventails nécessite de stocker uniquement 

14 index, soit 56 bits. 

La conversion des trois éventails TF1, TF2 et TF3 en une liste de triangles est directe 

en appliquant l’équation 2.1. Dans le cas de l’exemple de la Figure 2.2, les triangles obtenus 

= {v9,v6,v2}, 

sont : t ′ 

1 = {v1,v8,v9}, t ′ 

2 = {v1,v9,v2}, t ′ 

3 = {v9,v3,v7}, t ′ 

4 = {v9,v7,v6}, t ′ 

5 

t ′ 

6 = {v6,v7,v5} et t ′ 

7 = {v6,v5,v4}. Notons qu’on obtient ainsi exactement la même liste de 

triangles que celle du maillage initial, à une permutation près. L’ordre de parcours des triangles 

associés à une représentation par éventails est donc différent de celui initial (i.e., celui de la 

liste de triangles). En effet, avoir réordonné les triangles du maillage nous a permis de coder 

de façon implicite une partie de leurs relations d’adjacence (cf. propriétés (P1), (P2) et(P3)) 

ce qui conduit à une représentation plus compacte. 

En suivant le même principe, il est possible de redéfinir également l’ordre des sommets 

du maillage afin d’introduire un degré deliberté supplémentaire permettant de décrire d’une 

manière encore plus compacte les relations d’adjacence entre sommets. Ainsi, si l’on renomme 

les sommets de l’éventail TF1 dans l’ordre de leur parcours (i.e., v1 → v ′ 

1, v8 → v ′ 

2, v9 → v ′ 

3 

et v2 → v ′ 

4 )ildevientpossiblededécrire l’éventail TF1 juste en spécifiant son degré :d1 =2. 

Sachant qu’il s’agit d’un éventail constitué de deux triangles, le décodeur pourra alors créer 

directement l’éventail TF ′ 

1 = {v ′ 

1,v ′ 

2,v ′ 

3,v ′ 

4}. 

1. http ://www.demotride.com/vrml97-spec-html/index.html


Figure 2.2 : Décomposition de la connectivité d’un maillage triangulaire en trois éventails de 

triangles : TF1 = {v1,v8,v9,v2}, TF2 = {v9,v3,v7,v6,v2} et TF3 = {v6,v7,v5,v4}. 

Le codage du deuxième éventail TF2 est un peu plus complexe puisqu’il réutilise des sommets 

déjà renommés par TF1. Dans ce cas, disposer uniquement du degré d2 =3del’éventail 

TF2 ne permettrait pas de distinguer les sommets déjà utilisés (qui ne peuvent donc plus être 

renommés) de ceux qui ne le sont pas. Pour prendre en compte cette information additionnelle, 

il suffit de coder un bit qui prend la valeur 0 si le sommet est non-codé (ditégalement nonvisité 

ou nouveau) et 1 sinon. Pour l’éventail TF2, les sommets nouveaux sont v3, v7 et v6. Les 

sommets déjà codés sont v9 et v2. Pourspécifierletypecodéounon-codédechaquesommetde 

TF2 il suffit de coder la séquence binaire S2 = {1, 0, 0, 0, 1}, en respectant l’ordre de parcours 

des sommets de l’éventail. Enfin, pour tous les sommets de type 1 (i.e., déjà codés) le décodeur 

a besoin d’une information supplémentaire, spécifiant l’index de chacun selon le nouvel ordre 

dans lequel il apparaît. Soit I2 la séquence des index des sommets de type 1 associés àl’éventail 

TF2. Dans notre exemple, les sommets déjà codés (énumérés dans l’ordre de parcours de TF2) 

sont v ′ 

3 

et v′ 

4 .Parconséquence, I2 = {3, 4}. 

Examinons àprésent le processus de reconstruction de l’éventail TF2 au niveau du décodeur, 

à partir de : 

• son degré d2 =3, 

• la séquence binaire S2 = {1, 0, 0, 0, 1}, et 

• la séquence des index I2 = {3, 4}. 

En analysant le premier bit de S2, ledécodeur déduit que le premier sommet est déjà 

visité. Son index dans I2 est alors récupéré. Celui-ci étant égal à3,ils’agitalorsdusommet 

v ′ 

3 .Ledeuxième, troisième et quatrième bits de S2 sont à 0. Il s’agit donc de trois sommets 

non-visités. Leurs index sont alors générés en exploitant l’ordre de parcours de l’éventail. Plus 

précisément, le dernier sommet décodéétant v ′ 

4, ils’agitalorsdessommetsv ′ 

5, v ′ 

6 et v ′ 

7, dontles 

correspondants dans le maillage initial sont v3, v7 et v6. Enfin, le dernier bit de S2 étant égal à 

1, il s’agit encore d’un sommet déjà visité. Il suffit alors de consulter le deuxième index stocké 

dans I2, quiest4,pourdéduire qu’il s’agit du sommet v ′ 

4 .L’éventail généré parledécodeur 

est donc TF ′ 

2 = {v′ 3 ,v′ 5 ,v′ 6 ,v′ 7 ,v′ 4 }. 

Pour le dernier éventail TF3 de notre exemple, l’information de représentation à stocker est 

donnée par :


• d3 =3, 

•S3 = {1, 1, 0, 0}, et 

•I3 = {7, 6}. 

En suivant le mêmeraisonnementquepourl’éventail TF2, ledécodeur génère l’éventail 

TF ′ 

3 = {v ′ 

7,v ′ 

6,v ′ 

8,v ′ 

9}. 

La Figure 2.3 illustre le maillage décodé obtenu en appliquant la procédure que nous venons 

de décrire. Notons qu’on retrouve exactement le même maillage à une permutation près des 

sommets et des triangles. L’information à coder est constitué deséléments suivants : 

• trois entiers, représentant les degrés des trois éventails considérés d1 =2,d2 =3et 

d3 =2,chacuncodé sur deux bits, soit un total de 6 bits, 

• 9bitsnécessaires pour spécifier les séquences binaires S2 = {1, 0, 0, 0, 1} et S3 = {1, 1, 0, 0}, 

et 

• 4 index entiers stockés dans I2 = {3, 4} et I3 = {7, 6}, chacun représenté sur 4 bits, pour 

un total de 16 bits. 

Le coût total de codage de la connectivité du maillage est donc réduit à31bits. 

Notons que le codage des index entiers des sommets déjà décodés constitue la partie la plus 

coûteuse en débit de la représentation générée. Afin de réduire la quantité d’information allouée 

au codage des index, nous proposons de choisir les centres des éventails de façon déterministe 

en exploitant un parcours de voisin en voisin des sommets du maillage. Ce parcours sera 

exploité également pour la procédurededécomposition en éventails des triangles du maillage 

(cf. Section 2.1.3). Cette stratégie permet notamment de s’affranchir du codage de l’index du 

centre étant donné que l’ordre de parcours peut être reconstitué parledécodeur sans besoin 

d’aucune information supplémentaire. 

Plus précisément, pour spécifier l’ensemble des éléments à coder pour chaque sommet, soit 

vi le sommet courant. Il s’agit alors de coder : 

• N(i) lenombred’éventails de centre vi décrivant l’ensemble des triangles non visités et 

incidents à vi, 

• (d(i, n))n∈{1,...,N(i)} les degrés de ces éventails, 

• (S(i, n))n∈{1,...,N(i)} les séquences binaires décrivant les types (codés non codés) des sommets 

de chaque éventail, 

• (I(i, n))n∈{1,...,N(i)} la liste des indexes spécifiant les sommets déjà visités correspondants. 

Le parcours proposé consiste à partir du premier sommet v1. Tous les triangles incidents 

à v1 sont décomposés en un ensemble d’éventails, comme décrit dans la Section 2.1.3. Le 

nombre N(1) des éventails obtenus ainsi que leur degrés (d(i, n))n∈{1,...,N(i)} et les séquences 

(S(1,n))n∈{1,...,N(1)} et (I(1,n))n∈{1,...,N(1)} qui leur sont associées sont codés. L’ensemble des 

triangles de ces éventails sont alors marqués comme traités (ou codés ou encore visités). Les 

sommets non-visités des éventails incidents à v1 sont ensuite visités à leur tour selon l’ordre 

de parcours propre àchaqueéventail. Ce processus est réitéré jusqu’à ce que l’ensemble des 

sommets du maillage soient visités. 

Illustrons cette approche pour l’exemple de la Figure 2.2. Le premier sommet à visiter est 

v1. Unefoisvisité, il est tout de suite renommé env ′ 

1. Ses triangles incidents peuvent être 

regroupés en un seul éventail TF1 =(v1,v8,v9,v2). Le nombre N(1) d’éventails incidents à v1 

est alors égale à1.Pourdécrire entièrement le premier éventail il suffit de stocker : N(1) = 1 et 

d(1, 1) = 2. Les triangles t4 et t2 sont marqués comme codés et les sommets de TF1 différents 

de v1 sont visités dans l’ordre de TF1 : v8, v9 et puis v2 et puis renommés respectivement en 

v ′ 

2 , v′ 3 et v′ 4 .


Aladeuxième itération, on considère le sommet suivant non-visité dans la liste des sommets 

de TF1, quiestv8 (renommé env ′ 

2) et qui devient le sommet courant. Comme v ′ 

2 n’a aucun 

triangle incident non-codé, le nombre N(2) de ses éventails est mis à0.LavaleurN(2) = 0 est 

stockée et on passe au sommet suivant de l’éventail TF1 qui est v9. 

A la troisième itération, le sommet courant est donc v9 (renommé env ′ 

3). Les triangles noncodés 

incidents à v9 sont décrits par l’éventail TF2 =(v9,v3,v7,v6,v2). N(3) est alors égale à 

1etledegrédel’éventail d(3, 1) = 3. Les séquences S(3, 1) = {1, 0, 0, 0, 1} et I(3, 1) = {3, 4} 

sont calculées comme décrit précédemment. Notons cependant que le décodeur peut déduire 

directement à partir de l’ordre de parcours que v9 (qui est le centre de l’éventail) a déjà été 

visité et que son nouvel index est égale à3.Parconséquence, on peut éliminer de S(3, 1) et 

I(3, 1) les informations relative à v9. De plus, au lieu de stocker directement le nouvel index 

du sommet v2, quiest4,onvaplutôt coder l’index de ce sommet dans la liste L(3) des voisins 

déjà visités de v9 (qui est la seule information disponible au niveau du décodeur). 

Notons que les voisins de v9 ayant un ordre de parcours inférieur ont déjà tous leurs triangles 

visités. Par conséquent, ils ne peuvent plus intervenir dans la construction de nouveaux 

éventails. Cette observation nous conduit à ne pas les considérer lors de la construction de la 

liste L(3). Ainsi, seuls les voisins déjà visités de v9 et dont le nouvel ordre de parcours est 

supérieur à celui de v9 sont inclus dans L(3). La liste L(3) est également réordonnée selon le 

nouvel ordre de parcours (qui est le seul disponible au niveau du décodeur) afin que le codeur 

et le décodeur retrouvent exactement la même information. Dans notre cas, L(3) = {v ′ 

4} et par 

conséquence on stocke la valeur 1. Au final, l’information associée au sommet v ′ 

3 est : N(3) = 1, 

(2) d(3, 1) = 3 et les deux séquences S ′ 

(3, 1) = {0, 0, 0, 1} et I ′ 

(3, 1) = {1}. Les triangles t3, t6 

et t5 sont marqués comme codés. Les sommets v3, v7 et v6 sont renommés en v ′ 

5, v ′ 


7, puis 

visités àleurtour. 

A la quatrième et cinquième itérations, les sommets v2 et v3 (renommés en v ′ 


5) sont 

traités. Ici, comme pour v8, on stocke uniquement les valeurs N(4) = 0 et N(5) = 0 pour 

annoncer au décodeur qu’aucun éventails ne doit être décodé. 

Alasixième itération, le sommet courant est v7 (renommé env ′ 

6 ). TF3 =(v7,v5,v6) estle 

seul éventail de triangles incident à v7. Pourledécrireonstocke:N(6) = 1, d(6, 1) = 1 et les 

deux séquences S ′ 

(6, 1) = {0, 1} et I ′ 

(6, 1) = {1}. Le triangle t7 est marqué comme visité. Le 

sommet v5 est renommé env ′ 

8 et ajouté à la liste des sommets à visiter. 

Alaseptième itération, le sommet courant est v6 (renommés en v ′ 

7). TF4 =(v6,v5,v4) estle 

seul éventail de triangle incident à v6. Pourledécrireonstocke:(1)N(7) = 1, (2) d(7, 1) = 1 

et les deux séquences S ′ 

(7, 1) = {1, 0} et I ′ 

(7, 1) = {1}. Le triangle t1 est marqué comme 

visité. Le sommet v4 est renommé env ′ 

9 et ajouté à la liste des sommets à visiter. 

Alahuitième et neuvième itérations, les sommets v5 et v4 (renommés en v ′ 

8 et v′ 9 )sont 

traités. Ici, comme pour v8, on stocke uniquement les valeurs N(8) = 0 et N(9) = 0 pour 

annoncer au décodeur qu’aucun éventail ne doit être codé. 

Décrivons àprésent le processus de décodage d’une telle représentation. Au départ, le 

décodeur crée automatiquement un premier sommet qu’il nommera v ′ 

1 . En analysant, le nombre 

d’éventails incidents à v ′ 

1 (i.e., N(1) = 1) et son degré (i.e., d(1, 1) = 1), il déduit qu’il 

s’agit d’un seul éventail centré env ′ 

1 de degré 2. Cela lui permet de reconstruire l’éventail 

TF ′ 

1 = {v′ 1 ,v′ 2 ,v′ 3 ,v′ 4 }.Ledécodeur ajoute également v′ 2 , v′ 3 et v′ 4 à la liste des sommets à 

visiter. 

Aladeuxième itération, le sommet à traiter est v ′ 

2 . Comme N(2) = 0 aucun éventail ne 

doit être créé etledécodeur passe au sommet suivant qui est v ′ 

3 .


A la troisième itération, le sommet courant est v ′ 

3 .Eninterprétant N(3) = 1, d(3, 1) = 3 le 

décodeur déduit qu’il doit reconstruire un éventail centré env3 de degré 3.Grâce àlaséquence 

S ′ 

3 = {0, 0, 0, 1}, ildéduit que les trois premiers sommets de l’éventail sont nouveaux et le 

quatrième sommet a déjà été visité. Les nouveaux sommets sont créés et nommés v ′ 

5 , v′ 6 et v′ 7 . 

Afin de déterminer l’index du quatrième sommet, le décodeur construit la liste triée (selon le 

nouvel ordre) L(3) des voisins déjà visités de v ′ 

3 et dont l’ordre de parcours est supérieur à 

celui de v ′ 

′ 

3 .Ici,L(3) = {v′ 4 }. En exploitant l’index stocké dansI 3 ,quiest1,ledécodeur sait 

qu’il doit récupérer le premier élément de L(3). Par conséquent, le quatrième sommet est v ′ 

4. 

Enfin, le décodeur reconstruit l’éventail TF ′ 

2 = {v′ 3 ,v′ 5 ,v′ 6 ,v′ 7 ,v′ 4 }. Les sommets v′ 5 , v′ 6 et v′ 7 sont 

également ajoutés à la liste des sommets à visiter. 

En suivant le même raisonnement, le décodeur décode les éventails TF3 =(v ′ 

6 ,v′ 8 ,v′ 7 )et 

TF4 =(v ′ 

7,v ′ 

8,v ′ 

9) et reconstruit ainsi l’ensemble des sommets et des triangles du maillage 

considéré. 

En résumé, les éléments d’information associés à cette nouvelle représentation sont les 

suivants : 

– La liste des nombre d’éventails pour chaque sommet (i.e., N(1) = 1, N(2) = 0...) qui est 

codée sur 9 bits, 

–Lesdegrés des éventails (i.e., d(1, 1) = 2, d(3, 1) = 3, d(6, 1) = 1 et d(7, 1) = 1) codés 

sur 8 bits, 

–lesséquences des types de sommets (i.e., S ′ 

(3, 1) = {0, 0, 0, 1}, S ′ 

(6, 1) = {0, 1} et 

S ′ 

(7, 1) = {1, 0}) codées sur 8 bits, et 

–lesséquences des indexes relatifs (i.e., I ′ 

codées sur 3 bits. 

(3, 1) = {1}, I ′ 

(6, 1) = {1} et I ′ 

(7, 1) = {1}) 

Le coût total de stockage de cette nouvelle représentation est alors de 28 bits. 

Figure 2.3 : Maillage reconstruit à partir de la représentation du maillage par éventails de 

triangles. 

L’approche proposée est formalisée pour le cas général dans la section suivante.


2.1.3 Algorithme de codage : construction de la représentation TFAN 

Dans le cas général, le schéma global de fonctionnement de l’approche de codage TFAN 

peut être décrit comme suit. Au départ, les ensembles des sommets et des triangles du maillage 

sont considérés comme non-visités (ou non-parcourus). Le codeur TFAN exploite une structure 

de file F pour stocker les sommets du maillage. Au départ la file F est alimentée par le premier 

sommet non-visité. 

Achaqueitération, un sommet est extrait de F. Soitvj le sommet extrait à l’itération j. Le 

sommet vj est marqué alors comme visité, son nouvel ordre de parcours est stocké dansO(vj) 

et les triangles non-visités qui lui sont incidents sont décomposés en un ensemble d’éventails. 

Notons que plusieurs stratégies sont possibles pour décomposer les triangles incidents à vj en 

une séquence d’éventails. Dans ce travail, nous avons adopté une approche itérative, décrite 

ci-dessous. 

Achaqueétape, un éventail TFn(j) estcréé en partant du triangle t0 ayant le minimum 

de triangles voisins (i.e., triangles qui partagent une arête avec t0) non-visités et de même 

orientation que le triangle t0. Le triangle t0 est ensuite ajouté à TFn(j) etmarqué comme 

visité. Si t0 a des voisins non-visités de même orientation alors un voisin t1 est choisi au 

hasard, ajouté à TFn(j) etmarqué comme visité. La même opération est ensuite appliquée 

à t1. Ce processus est réitéré jusqu’àépuisement des triangles voisins de même orientation et 

non visités. S’il reste des triangles incidents à vj, encore non visités, alors un nouvel éventail 

est construit en partant encore une fois du triangle qui a un nombre minimal de voisins non 

visités et de même orientation. 

Soient : 

–(TFn(j))n∈{1,...,N(j)} l’ensemble des N(j) éventails de triangles associés à vj, 

– {vj,w n j (1),wn j (2),...,wn j (d(j, n)+1)} les sommets ordonnés de l’éventail TFn(j)etd(j, n) 

son degré. 

Notons par L(j) la liste des sommets partageant avec vj au moins un triangle visité du 

maillage et ayant un ordre de parcours supérieur à celui de vj. La liste L(j) est triée selon un 

ordre croissant en considérant la relation d’ordre suivante : 

∀{w1,w2} ∈L(j), w1


Une fois tous les sommets de TFn(j) traités, ses triangles sont marqués comme visités et 

le processus ré-itéré jusqu’à ce que tous les sommets du maillage soient visités. Si la file F 

devient vide et que tous les sommets ne sont pas encore visités, alors le premier sommet non 

visité estajoutéà F, puis le processus est réitéré. 

En conclusion, l’information nécessaire pour représenter de manière complète la connectivité 

du maillage est composée des éléments suivants : 

• Le nombre V de sommet du maillage, 

• La séquence (N(j))j∈{1,...,V } indiquant pour chaque sommet j le nombre des éventails de 

triangles qui lui sont incidents, 

• La séquence (d(j, n)) n∈{1,...,N(j)} 

j décrivant les degrés de tous les éventails de triangles, 

• La séquence des files (S(j, n)) n∈{1,...,N(j)} 

j 

sommets déjà visités, 

• La séquence des files d’index I(j, n) n∈{1,...,N(j)} 

j 

mets déjà visités des séquences (S(j, n)) n j . 

indiquant pour chaque éventail l’ensemble des 

qui permet d’identifier les index des som- 

L’algorithme de codage TFAN que nous venons de décrire est représenté en pseudo-code Figure 

2.4.


Nom: Codeur TFAN 

Role: Coder la connectivité d’un maillage triangulaire 

Entrée: Liste des triangles d’un maillage 

Sortie: V ,(N(j)) j∈{1,...,V }, (d(j, n)) n∈{1,...,N(j)} 

j∈{1,...,V } ,(S(j, n)) n∈{1,...,N(j)} 

j∈{1,...,V } , I(j, n) n∈{1,...,N(j)} 

j∈{1,...,V } 

Entrée/Sortie: 

Déclaration: 

début 

F←{} 

ordreVisite ← 1 

j ← 0 

pour h ←1 à V faire 

si (le sommet vh non visité) alors 

F.PushBack(vh) 

MarquerCommeVisité(vh) 

O(vh) ← ordreVisite++ 

tant que (F non vide) faire 

j ++ 

vj ←F.PopFirst() 

L(j) ←F.CalculerListeOrdonnéeDesVoisinsVisités() 

(TFn(j)) n∈{1,...,N(j)} ← DecompositionEnEnventailsDeTriangles(j) 

pour n ←1 à N(j) faire 

pour k ←1 à 1+d(j, n) faire 

si (le sommet wn j (k) nonvisité) alors 

(k) ← 0 

sn j 

MarquerCommeVisité(wn j (k)) 

L(j).PushBack(wn j (k)) 

O(wn j (k)) ← ordreVisite++ 

F.PushBack(wn j (k)) 

sinon 

sn j (k) ← 1 

si (wn j (k) ∈L(j)) alors 

μn j (k) ←L(j).TrouverIndex(wn j (k)) 

I(j, n).PushBack(μn j (k)) 

sinon 

I(j, n).PushBack(O(vj) − O(wn j (k)) 

finsi 

finsi 

finpour 

MarquerLesTrianglesCommeVisités(TFn(j)) 

finpour 

fintantque 

finsi 

finpour 

fin 

Figure 2.4 : Algorithme de codage de l’approche TFAN. 

Un exemple de construction de la représentation TFAN est proposé dans l’Annexe A. 

Détaillons àprésent l’algorithme de décodage de la représentation TFAN.


2.1.4 Decodage de la représentation TFAN 

Le décodeur TFAN reconstruit la connectivité du maillage en décodant successivement 

l’ensemble des éventails de triangles. Notons, que les sommets du maillage sont parcourus dans 

le même ordre que celui établie lors du processus de codage. L’algorithme de décodage TFAN, 

décrit en pseudo-code, est présenté Figure 2.5. 

Achaqueitération j, leséventails de triangles non-décodés (TFn(j))n∈{1,...,N(j)} incidents 

au sommet courant j sont reconstruits comme suit. Tout d’abord, la liste ordonnée L(j) des 

sommets voisins de vj et ayant un index supérieur est calculée et le nombre d’éventails àdécoder 

N(j) estluàpartir du flux binaire. Les éventails sont générés successivement dans l’ordre de 

leur codage. Afin de reconstruire l’éventail TFn(j), le décodeur lit à partir du flux binaire les 

éléments suivants : 

• Le degré d(j, n) del’éventail, 

• La file S(j, n) indiquant l’ensemble des sommets déjà visités, et 

• La file d’index I(j, n). 

Au départ, l’éventail TFn(j) contient uniquement le sommet j. Les autres sommets sont ajoutés 

successivement dans l’ordre de leur codage. Notons par wn j (k) lek-èmesommetdel’éventail. 

Afin de déterminer s’il s’agit d’un nouveau sommet ou d’un sommet déjà décodé, le décodeur 

TFAN extrait de la liste S(j, n), un bit sn j (k) associé au sommet wn j (k). 

Si sn j (k) = 0, alors wn j (k) est un nouveau sommet. Il est donc créé, en lui assignant un 

index égal à son ordre de visite. Cet index est ensuite ajouté à TFn(j) ainsi qu’à lalisteL(j). 

L’ordre de parcours est enfin incrémenté de1. 

Dans le cas contraire (i.e., sn j (k) = 1), le sommet wn j (k) estidentifiécomme ancien (i.e. 

déjà décodé/visité). Afin de déduire son index, le décodeur extrait le premier élément μn j (k) 

de la liste I(j, n). Si μ n j (k) > 0, l’index du sommet wn j 

(k) est obtenu en accédant àl’élément 

μ n j (k) deL(j). Dans le cas contraire (i.e., μ n j (k) < 0), alors l’index de w n j (k) est(j − μ n j (k)). 

Dans les deux cas, l’index calculé estajoutéà TFn(j).


Nom: Décodeur TFAN 

Role: Décoder la connectivité d’un maillage triangulaire 

Entrée: V ,(N(j)) j∈{1,...,V }, (d(j, n)) n∈{1,...,N(j)} 

j∈{1,...,V } ,(S(j, n)) n∈{1,...,N(j)} 

j∈{1,...,V } , I(j, n) n∈{1,...,N(j)} 

j∈{1,...,V } 

Sortie: Liste des triangles d’un maillage 

Entrée/Sortie: 

Déclaration: 

début 

ordreVisite ← 1 

pour j ←1 à V faire 

si (j = ordreVisite) alors 

ordreVisite++ 

finsi 

L(vj) ←F.CalculerListeOrdonnéeDesVoisins() 

lire(N(j)) 

pour n ←1 à N(j) faire 

lire(d(j, n)) 

lire(S(j, n)) 

lire(I(j, n)) 

TFn(j) ←{j} 

pour k ←1 à 1+d(j, n) faire 

sn j (k) ←S(j, n).PopFirst() 

si (sn j (k) =0)alors 

TFn(j).PushBack(ordreVisite) 

L(j).PushBack(ordreVisite) 

ordreVisite++ 

sinon 

μn j (k) ←I(j, n).PopFirst() 

si (μn j (k) > 0) alors 

TFn(j).PushBack(L(j)(μn j (k))) 

sinon 

TFn(j).PushBack(j − μn j (k)) 

finsi 

finsi 

finpour 

finpour 

finpour 

fin 

Figure 2.5 : Algorithmededécodage de la représentation TFAN. 

2.1.5 Compression de la représentation TFAN 

Afin de compresser la représentation TFAN, il est nécessaire de coder de façon compacte 

pour chaque éventail TFn(j), son degré d(j, n) ainsi que les deux listes S(j, n) etI(j, n). Bien 

naturellement, il est tout à fait possible de coder directement chacune de ces informations 

en exploitant un codeur arithmétique. Toutefois, afin d’optimiser encore plus la méthode de 

codage TFAN, nous proposons de distinguer les neuf configurations qui sont en pratique les plus 

fréquentes (cf. Section 2.3.3) et de leur associer des représentations plus compactes. Pour rester 

générique et prendre en compte tous les autres cas, une dixième configuration est introduite. 

Ellecorrespondaucasoùl’ensemble des informations d(j, n), S(j, n) etI(j, n) estcodé. 

Soit C(j, n)lenuméro de la configuration associée àl’éventail TFn(j). Le tableau 2.1 résume


les dix configurations retenues par l’approche TFAN, illustrés Figure 2.6. 

Les configurations déterminées sont finalement codées à l’aide du codeur arithmétique adaptatif 

[68] afin de tenir compte de leurs propriétés statistiques. 

Configuration Information initiale Information codée 

C(j, n) =1 d(j, n), S(j, n) ={1, 0, 0, ..., 0, 0, 1} 


 

1+d(j,n) 

I(j, n) ={1, 2} 

C(j, n) =1etd(j, n) 

C(j, n) =2 d(j, n), S(j, n) ={1, X, X, ..., X, X, 1} 

 

1+d(j,n) 

et I(j, n) ={1,X,X,X,2} 

C(j, n) = 2, d(j, n), 

S ′ (j, n) ={X, X, ..., X, X} 


 

d(j,n)−1 

I ′ (j, n) ={X, X, X} 

C(j, n) =3 d(j, n), S(j, n) ={0, 0, 0, ..., 0, 0, 1} 


 

1+d(j,n) 

I(j, n) ={1} 


C(j, n) =4 d(j, n), S(j, n) ={0, 0, 0, ..., 0, 0, 1} 


 

1+d(j,n) 

I(j, n) ={2} 


C(j, n) =5 d(j, n), S(j, n) ={1, 0, 0, ..., 0, 0, 0} 


 

1+d(j,n) 

I(j, n) ={1} 


C(j, n) =6 d(j, n), S(j, n) ={1, 0, 0, ..., 0, 0, 0} 


 

1+d(j,n) 

I(j, n) ={2} 


C(j, n) =7 d(j, n), S(j, n) ={0, 0, 0, ..., 0, 0, 0} 


 

1+d(j,n) 

I(j, n) ={} 


C(j, n) =8 d(j, n), S(j, n) ={1, 0, 0, ..., 0, 0, 1} 


 

1+d(j,n) 

I(j, n) ={2, 1} 


C(j, n) =9 d(j, n), S(j, n) ={1, X, X, ..., X, X, 1} 

 

1+d(j,n) 

et I(j, n) ={2,X,X,X,1} 

C(j, n) = 9, d(j, n), 

S ′ (j, n) ={X, X, ..., X, X} 


 

d(j,n)−1 

I ′ (j, n) ={X, X, X} 

C(j, n) =10 d(j, n), S(j, n) = {X, X, ..., X, X, X} 

 

1+d(j,n) 

et I(j, n) ={X, X, X, X, X} 

C(j, n) = 10, d(j, n), 

S ′ (j, n) ={X, X, ..., X, X, X} 

 

1+d(j,n) 

et I ′ (j, n) ={X, X, X, X, X} 

Table 2.1 : Les dix configurations TFAN (X représente une valeur arbitraire).


(a) Configuration 1 (b) Configuration 2 (c) Configuration 3 

(d) Configuration 4 (e) Configuration 5 (f) Configuration 6 

(g) Configuration 7 (h) Configuration 8 (i) Configuration 9 

(j) Configuration 10 (k) Légende 

Figure 2.6 : Exemples des dix configurations considérées par TFAN. 

Cela complète la description de l’approche de codage TFAN, qui permet de représenter 

d’une manière compacte et sans perte d’information la connectivité d’un maillage 3D de topologie 

arbitraire. 

Investiguons àprésent comment la méthode TFAN répond aux autres fonctionnalités nécessaires 

lorsqu’on considère la problématique de compression de maillages 3D, comme le codage avec

2.2 Propriétés de l’approche TFan 51 

préservation de l’ordre des sommets/triangles et le codage des attributs géométriques et photométriques. 

2.1.6 Préservation de l’ordre des sommets et des facettes 

Certains standards de représentation 3D (e.g. VRML et MPEG) permettent aux objets 

(également appelés noeuds) d’une scène 3D de réutiliser ou de mettre à jour des champs d’autres 

noeuds de la scène. A titre d’exemple, l’animation par modèle de peau (skinning)spécifiée par le 

standard MPEG-4/AFX-BBA [69] définit un noeud de type SMS (Skeleton, Muscle and Skin) 

qui permet de mettre à jour (au cours du temps) les positions des sommets d’un maillage 3D 

(représenté par un noeud de type Indexed Face Set -IFS)delascène pour l’animer. L’animation 

BBA associe alors aux sommets du maillage un certain nombre d’éléments d’information [69] 

décrivant le modèle d’animation sous-jacent. Notons cependant que lors de la compression de 

la scène 3D, les deux noeuds IFS et SMS sont codés de façon indépendante. Ainsi, si on change 

l’ordre des sommets ou des triangles du maillage statique, le noeud SMS ne sera pas mis àjour 

pour tenir compte d’une telle permutation. Comme discuté dans [70], cela peut conduire à une 

mauvaise interprétation du flux décodé. 

Afin d’assurer la cohérence de ces représentations hétérogènes, la préservation de l’ordre 

de codage initial des sommets et des triangles est indispensable. Le codeur TFAN permet de 

supporter cette fonctionnalité en codant deux nouvelles composantes qui décrivent pour chaque 

sommet (respectivement triangle) sa position dans la liste des sommets (respectivement triangles) 

de la représentation initiale. Ces positions, qui sont représentées par des entiers positifs, 

sont linéairement prédites (i.e. prédiction delta) et codées à l’aide du codeur arithmétique [68]. 

2.1.7 Codage de la géométrie du maillage 

La décomposition en éventails de triangles est également exploitée afin d’assurer une prédiciton 

efficace et de faible coût de calcul des positions et des attributs associés aux sommets du 

maillage. Comme dans [3], nous proposons d’exploiter la règle de prédiction du “paraléllogramme” 

en l’appliquant aux sommets de chaque éventail TF = {v0,v1,v2, ..., vd+1} de la représentation 

TFAN considérée. Les erreurs résiduelles de prédiction sont codées en appliquant le codeur 

arithmétique [68]. 

La même stratégie peut être exploitée pour coder les autres attributs associés aux sommets 

du maillage (e.g., couleur, coordonnées de textures, normales...). Toutefois, dans le cas des 

normales et des couleurs, la prédiction par la règle du “parallélogramme” est remplacée par 

une simple prédiction delta qui donne en pratique de meilleurs résultats [1]. 

2.2 Propriétés de l’approche TFan 

2.2.1 Complexité decalcul 

La complexité de calcul du codeur TFAN est linéaireaveclenombredessommets(Figure 

2.4). L’étape la plus coûteuse en temps de calcul est la construction des éventails de triangles, 

qui nécessite de déterminer les relations d’adjacence entre les sommets et les triangles du 

maillage.


La complexité de l’algorithme de décodage TFAN (Figure 2.5) est également linéaireavecle 

nombre de sommets, le nombre d’itérations de l’algorithme étant égal au nombre de sommets 

V .Toutefois,ledécodage TFAN est nettement plus rapide (20 fois plus rapide) que le codage 

étant donné que la connectivité du maillage, représentée sous forme d’éventails de triangles, 

est générée àlavolée en une seule passe. 

2.2.2 Rendu temps réel 

La représentation de la connectivité d’un maillage par éventails de triangles est supportée 

par la majorité desstandardsdereprésentation 3D (e.g., COLLADA 2 ) et des librairies logicielles 

de rendu 3D (e.g., OpenGL 3 et DirectX 4 ). Une telle représentation est adaptée au 

rendu temps réel de maillage 3D puisqu’elle minimise la quantité d’information envoyée àla 

carte graphique [17]. Par conséquent, afficher directement la sortie du codeur TFAN permet 

de bénéficier des accélérations matérielles optimisées pour la représentation par éventails de 

triangles. 

2.2.3 Capacité demémoire nécessaire 

Au niveau du codeur, l’espace mémoire nécessaire pour le stockage des relations d’adjacences 

entre les sommets et les triangles du maillage est linéaireaveclenombredesommets.Pour 

chaque sommet (respectivement triangle) la liste de ses sommets (respectivement triangles), 

voisins est stockée sous forme d’un tableau de listes (i.e., chaqueélément du tableau est une 

liste chaînée). 

Au niveau du décodeur, seules les listes des triangles incidents aux sommets créés et non 

traités (cf. Section 2.1.4) sont nécessaires pour le décodage du sommet en cours. En pratique, le 

nombre de ces sommets est nettement inférieur à celui du nombre V des sommets du maillage 

comme démontré dans la section 2.3. Par conséquent, l’espace mémoire nécessaire est nettement 

réduit (uniquement 2% des sommets sont stockés en mémoire), ce qui permet une implantation 

matérielle efficace de l’algorithme. 

Afin d’évaluer les performances de l’approche TFAN proposée, nous avons considéré l’application 

liée au projet RNRT SEMANTIC-3D qui concerne la compression de données CAO 

pour des objectifs de transmission et d’accès à distance. 

2.3 Résultats expérimentaux : projet RNRT SEMANTIC- 

3D 

RENAULT, le premier constructeur automobile français souhaite développer et exploiter 

un système d’information et de communication, en environnement nomade hétérogène, afin 

de rendre plus opérationnels les services de maintenance des véhicules (diffusion de la documentation 

technique, recherche d’informations nécessaires à une intervention, identification de 

pannes...). Pour répondre à ces besoins, le projet RNRT SEMANTIC-3D 5 - Service d’Echange 

2. http ://www.collada.org 

3. www.opengl.org 

4. http ://msdn.microsoft.com/directX 

5. http ://liris.cnrs.fr/semantic-3d/

2.3 Résultats expérimentaux : projet RNRT SEMANTIC-3D 53 

et de MANipulation (Tatouage, Indexation et Compression) pour les objets 3D - s’est proposé 

à: 

• élaborer de nouvelles approches de (dé)codage d’objets graphiques 3D, 

• développer des interfaces utilisateurs àbasederéalité virtuelle pour simplifier l’accès aux 

divers contenus, 

• sécuriser les échanges de données. 

Dans ce cadre, la création de techniques de compression efficaces capables de s’adapter aux 

spécificités topologiques et géométriques des données CAO ainsi qu’aux ressources des réseaux 

et terminaux joue un rôle central. 

2.3.1 Corpus de test SEMANTIC-3D 

Le corpus de test du projet SEMANTIC-3D est constitué de plus de 4000 maillages 3D 

de complexité et de taille variables, au format VRML 2.0, correspondant à divers types de 

pièces (éléments de moteur, de sellerie, d’électricité, de carrosserie, de fixation...) d’une voiture 

Renault Laguna (Figure 2.7). 

Figure 2.7 : Quelques modèles CAO 3D du corpus SEMANTIC-3D. 

La grande majorité des approches de compression 3D (cf. chapitre 1.4) s’applique uniquement 

à des maillage de type manifold. Les techniques de codage par traversée de graphes codent 

de façon indépendante chaque composante connexe. Les approches de codage par valence [3, 7] 

supposent que les valences des sommets du maillage sont distribuées de façon compacte autour 

de la valeur 6 ce qui permet de les coder de façon efficace en exploitant un codage arithmétique. 

Les approches spectrales [52] et celles de codage par ondelettes [62, 64] sont optimisées pour 

des maillages denses (avec un nombre important de sommets par composante connexe) et à 

géométrie lisse (i.e., lesignaldegéométrie comporte de fortes corrélations spatiales), obtenus 

par scanners 3D. 

Afin de vérifier si de telles hypothèses sont vérifiées par les données CAO, nous proposons 

d’analyser les propriétés topologiques des maillages issus de la CAO. Cette étude expérimentale 

est indispensable afin de déterminer les propriétés de ce type de contenus. 

2.3.1.1 Structure à multiples composantes connexes 

Une première caractéristique des données CAO à traiter est le nombre important de composantes 

connexes dont elles sont constituées. La Figures 2.8 illustre un exemple de maillage 

3D CAO composé de 1274 composantes connexes avec une moyenne de 16 triangles par composante. 

La figure 2.9 présente les distributions des nombres de triangles et de sommets par 

composante connexe pour l’ensemble des modèles de la base. Notons que ces deux distributions 

sont concentrées autour de la valeur 100. Cela montre que les modèles CAO, contrairement 

aux modèles généralement étudiés dans la litérature, présentent un nombre réduit de sommets 

par composante.


Figure 2.8 : Modèle CAO original avec 1274 composantes connexes. (20491 triangles et 20626 

sommets). 

Cette propriété spécifique àcetypecontenuestlerésultat du processus de conversion des 

modèles 3D, de l’outil de modélisation Catia 6 vers le format VRML 2.0. En effet, les modèles 

originaux ont été produits en exploitant des logiciels CAO avec différentes représentations 

de surfaces 3D (e.g., maillage triangulaire, sphère, cylindre, B-Spline, NURBS, surface de 

subdivision...). Chacun des patchs constituant les modèles CAO étant représenté defaçon 

indépendante des autres, la conversion finale en maillages 3D résulte en un nombre important 

de composantes connexes (i.e., une composante pour chaque patch de surface). 

Cette structure particulière réduit fortement les performances de compression des méthodes 

traditionelles qui traitent séparément chaque composante connexe. Etant donné lenombre 

réduit de sommets par composante connexe, ces méthodes ne parviennent donc pas àdériver 

des parcours assez longs nécessaires pour assurer une compression efficace de la topologie et de 

la géométrie du maillage. De plus, une information supplémentaire doit être également incluse 

dans le flux binaire afin de gérer la transition entre composantes connexes. 

Figure 2.9 : Distributions des nombres de triangles et de sommets par composante connexe 

pour l’ensemble des modèles de la base. 

2.3.1.2 Problème d’éclatement des composantes connexes (“cracking”) 

Le deuxième problème induit par le nombre important de composantes connexes est celui 

du “cracking”. La Figure 2.10 présente un exemple de compression d’un modèle CAO 

par l’approche de compression spectrale [52]. On observe l’apparition d’artéfacts entre les 

différentes composantes connexes du maillage. En effet, cette approche étant fondée sur une 

6. http ://www.3ds.com/fr/corporate/about-us/brands/catia/


transformée spectrale exploitant l’information de connectivité, chaque composante est ici encore 

une fois traitée de façon indépendante. Ainsi, deux sommets superposés dans l’espace 

des coordonnées, mais appartenant à deux composantes connexes différentes vont avoir un 

comportement différent suite à la troncature et à la quantification du spectre opérée par l’approche 

spectrale. Les positions reconstruites (après décodage) des ces deux sommets sont en 

général différentes ce qui implique l’apparition d’éclatement (“crack”) entre les composantes 

connexes. L’incapacité degérer sans “cracking” la structure à multiples composantes connexes 

des modèles CAO rend l’approche par compression spectrale non adaptée à ce genre de données. 

(a) (b) (c) (d) 

Figure 2.10 : Problème de “cracking” induit par la structure à multiples composantes 

connexes caractéristiques aux modèles CAO (1455 triangles et 1626 sommets). (a) Maillage 

original, (b) Maillage compressé avec l’approche spectrale exhibant des problèmes de “cracking”, 

(c) composantes connexes de (b) colorées et (d) Zoom sur la région d’intérêt de (c) 

montrant l’inefficacité de l’approche de compression spectrale àgérer les maillages à multiples 

composantes connexes. 

La Figure 2.11 illustre le résultat de compression obtenu en appliquant l’approche de compression 

progressive PM [10]. Ici encore, le problème de “cracking” apparaît pour les niveaux 

de détails intermédiaires. De façon plus générale, le problème de “cracking” concerne non seulement 

l’algorithme PM, mais toutes les approches de codage par décimation qui permettent la 

simplification des sommets situés sur les bords des composantes connexes du maillage. 

Une solution directe pour résoudre ce problème consiste à ajouter une contrainte topologique 

qui interdit la modification des bords. La Figure 2.11.d montre le résultat sans “cracking” 

obtenu lorsqu’on permet uniquement des opérations de type half edge collapse sur les sommets 

de bord. Une telle approche permet de résoudre le problème de “cracking”. Néanmoins, elle est 

trop restrictive : 85% des sommets sont en effet des sommets de bord (Figure 2.12). Cela limite 

le nombre de niveaux de détails qu’on peut obtenir et par suite dégrade significativement les 

performances de compression. 

La Figure 2.13 illustre la prépondérance des triangles de bord (colorés en rouge) sur deux 

exemples de maillages CAO. Quand on applique la méthode de compression par décimation 

PM sur le maillage de la Figure 2.11 qui comporte 1557 sommets, le maillage de base (i.e., 

la version la plus grossière obtenue) comporte 1373 sommets. Cela prouve l’inefficacité des 

approches traditionnelles de compression par décimation lorsqu’il s’agit de maillages de type 

CAO.


(a) (b) (c) (d) 

Figure 2.11 : Problème de “cracking” pour les niveaux de détails intermédiaires pour les approches 

de compression par décimation : compression par maillage progressif [10]. (a) Maillage 

original (1549 triangles et 1557 sommets), (b) Composantes connexes de (a) colorées (1252 

triangles et 1302 sommets), (c) Zoom sur la région d’intérêt dans (b) et (d) Modèle sans 

problème de “cracking” obtenu par des opérations de type half edge collapses pour les sommets 

de bord (1373 triangles et 1457 sommets) : pas de simplification significative possible du 

modèle original. 

Figure 2.12 : Distributions des pourcentages des triangles et des sommets de bord pour 

l’ensemble des modèles de la base SEMANTIC. 

2.3.1.3 Distribution des valences 

La troisième propriété topologique des données CAO étudiées est la prédominance des 

sommets de valence 4. La Figure 2.14 présente la distribution (calculée sur l’ensemble de la 

base) des valences des sommets. Il en ressort que 38% des sommets ont une valence de 4 ! 

Les approches de codage par valence doivent alors être adaptées afin de tenir compte de cette 

distribution particulière. 

2.3.1.4 Conversion en maillages manifold 

La contrainte quasi-unanimement respectée par les méthodes de compression de la littérature 

renvoie au caractère manifold des maillages à coder. Or, cette hypothèse n’est vérifiée que pour 

6% des modèles du corpus CAO SEMANTIC-3D.


(a) (b) 

(c) (d) 

Figure 2.13 : Illustration des triangles bord : (a) et (c) composantes connexes colorées et (b) 

et (d) triangles de bord colorés en rouge. 

Figure 2.14 : Distribution des valences des sommets pour l’ensemble des modèles de la base 

SEMANTIC-3D. 

Afin d’exploiter les méthodes ne s’appliquant qu’à des maillages manifold, nous avons appliqué 

un processus de conversion de maillages arbitraires en variétés [24]. Le tableau 2.2 

montre que cette conversion accentue encore davantage les singularités des maillages CAO. 

En effet, le nombre de composantes connexes augmente drastiquement (360%), tandis que le 

nombre de sommets par composante connexe décroît significativement (70%). Suite au processus 

de conversion, plus de 80% des maillages présentent un nombre moyen de sommets par 

composante connexe inférieur à 50. 

2.3.1.5 Adéquation des approches classiques aux données CAO 

Ces statistiques mettent en évidence l’existence de structures à multiples composantes 

connexes conférant des propriétés topologiques particulières : prédominance des sommets de 

bord (plus de 85%), concentration des valences des sommets autour de la valeur 4 (au lieu 

de 6)... Ces spécificités ont des répercussions directes sur les performances des approches de


Base originale Base convertie en manifold 

V F NCC 

V 

NCC 

F 

NCC 

M(%) V F NCC 

V 

NCC 

F 

NCC 

M(%) 

Moyenne 5758 7174 62 72 276 6 6660 7174 340 19 21 100 

Ecart-type 6878 8444 185 463 823 - 7086 8444 507 276 548 - 

Table 2.2 : Propriétés topologiques du corpus SEMANTIC-3D avant et après convertion en 

maillages manifolds. 

compression classiques conçues pour des maillages manifolds orientés. Outre la diminution du 

taux de compression, le problème de “cracking” est àmaîtriser. Il rend les approches fondées 

sur la simplification, celles par ondelettes et celles par analyse spectrale inadaptées dans le cas 

des maillages de type CAO. C’est pourquoi, les codeurs que nous avons retenus pour tests et 

évaluation sur le corpus SEMANTIC-3D sont : 

• la méthode de compression par arbres couvrants, adoptée par le standard MPEG-4, et 

• la méthode de codage par valence de Touma et Gotsman (TG), longtemps considérée 

comme l’état de l’art des techniques mono-résolution. 

2.3.2 Critères d’évaluation 

Afin d’évaluer les performances de compression pour des maillages avec différents nombres 

de sommets, les débits sont exprimés en bits par sommet (bps). Les débits rapportés correspondent 

à la taille totale du flux binaire nécessaire pour le décodage de connectivité etdela 

géométrie du maillage. 

Les distorsions de compression sont mesurées en utilisant l’erreur RMSE [51] entre les 

maillages originaux et reconstruits (décodés). Rappelons que l’erreur RMSE mesurée entre 

deux surfaces S et S ′ est définie par : 

RMSE(S, S ′ )=max(d(S, S ′ ),d(S ′ ,S)), (2.3) 

où 

d(S, S ′ 

1 

)= (minq∈S 

|S| p∈S 

′||p − q||2) 2dS. (2.4) 

Les temps de décodage rapportés correspondent au temps nécessaire au décodeur pour lire le 

flux compressé etpourdécoder en mémoire sans tenir compte du temps d’écriture du fichier 

sur le disque. Les expérimentations ont été effectuées sur un PC doté d’un microprocesseur 

Pentium 4 à 3GHz et d’une mémoire RAM de 2 Go. 

2.3.3 Distribution des configurations TFAN 

La Figure 2.15 présente les histogrammes des configurations TFAN (cf. Section 2.1.5) pour 

quelques maillages manifolds et orientés. Notons que pour ce type de maillages, seules les 

configurations 8 et 9 sont nécessaires pour décrire leur connectivité. De plus, la configuration 9 

apparaît avec une fréquence de plus de 85% des cas, ce qui permet une compression efficace de la 

séquence des configurations. Rappelons également, que pour la configuration 8, le codeur TFAN 

code uniquement le degré del’éventail. Ainsi, la représentation obtenue s’avère en pratique très 

compacte surtout après un codage arithmétique des séquences des configurations et des degrés.


Pour des maillages manifolds et orientés, ces observations s’expliquent en analysant les 

correspondances entre l’approche TFAN et l’approche de Touma et Gotsman (TG) [3] (cf. 

Section 1.3). En effet, la configuration 8 correspond à l’opération ADD, àladifférence qu’on 

code le degré del’éventail de triangle au lieu de coder la valence du sommet visité. La configuration 

9 sert àdécrire les opérations de MERGE et SPLIT. Comme pour [3], cela implique 

le codage des index des sommets d’auto-intersection (cf. Tableau 2.1) de la liste active (qui 

est équivalente dans notre cas àlafileF, cf. Section 2.1.3). Contrairement au codeur de TG, 

la technique TFAN gère uniquement une seule liste ce qui permet de réduire l’espace mémoire 

nécessaire pour l’exécution de l’algorithme. De plus, cela permet d’éviter le test d’intersections 

entre plusieurs listes actives qui est en général coûteux en de temps de décodage. 

La Figure 2.16 présente les histogrammes des configurations TFAN obtenus dans le cas de 

maillages CAO non-manifolds et à plusieurs composantes connexes (cf. Section 2.1.5). Notons 

quecetypedecontenusn’estpasgéré par le codeur TG qui s’applique uniquement àdes 

maillages manifolds et orientés. Dans le cas des maillages CAO, le codeur TFAN exploite des 

configurations supplémentaires afin de décrire la connectivité du maillage. Ici, les configurations 

3, 4, 5 et 6 permettent de décrire des éventails avec des triangles de bord. La configuration 7 est 

exploitée dans le cas de sommets non-réguliers (Section 1.1). Les configurations 1 et 8 décrivent 

des éventails associés à des sommets réguliers. Les configurations 2 et 9 servent àgérer des cas 

d’auto-intersection (i.e., équivalentes aux opérations SPLIT et MERGE du codeur TG). Ces 

neufs cas permettent de décrire plus de 87% des configurations rencontrées. La configuration 

générique 10 est utilisée en pratique dans moins de 13% des cas. Elle sert àdécrire des cas 

non-manifolds plus complexes. 

(a) (b) (c) 

(d) (e) (f) 

Figure 2.15 : Histogramme des configurations TFAN pour des maillages de type manifold 

orienté.


(a) (b) (c) 

(d) (e) (f) 

(g) (h) (i) 

(j) (k) (l) 

Figure 2.16 : Histogramme des configurations TFAN pour des maillages CAO de topologies 

arbitraires. 

2.3.4 Espace mémoire 

La Figure 2.17 présente les courbes d’évolution des nombres de sommets stockés en mémoire, 

lors du processus de décodage, pour différents maillages de type CAO. Soit Gmem le rapport 

entre le nombre maximal de sommets stockés, noté Vmem, et le nombre total de sommets V : 

Gmem = Vmem 

. (2.5) 

V


Une étude menée sur la totalité delabaseCAOmontrequelorsdudécodage, au maximum 

2% des sommets sont stockés en mémoire. Cela prouve que le codeur TFAN proposé estpeu 

gourmand en ressources mémoires, contrairement à l’approche MPEG-4/3DMC [1] qui nécessite 

le stockage de la totalité des deux arbres couvrants afin de pouvoir décoder le maillage 3D. 

(a) (b) 

(c) (d) 

(e) (f) 

Figure 2.17 : Courbes d’évolution du nombre de sommets stockés en mémoires pour différents 

maillages CAO. 

2.3.5 Performances de compression 

La Figure 2.18 présente les débits obtenus suite à la compression de la totalité delabasede 

données CAO (i.e., plus de 4000 modèles) avec les trois techniques : TFAN, MPEG-4/3DMC et 

TG et pour une quantification sur 12 bits. La Figure 2.19 illustre les courbes débit/distorsion 

pour différents maillages CAO de la base. 

Notons que la technique TG ne s’applique qu’à des maillages manifolds et orientés. Un 

processus de conversion des maillages originaux (en maillages manifolds et orientés) [24] a été


au préalable appliqué auxmodèles de la base afin de pouvoir les compresser par le codeur TG. 

Rappelons que ce processus de conversion implique la duplication des sommets et des arêtes 

non-régulières des maillages traités (cf. Section 1.1). La technique MPEG-4/3DMC exploite 

une approche analogue afin de pouvoir appliquer le codeur par arbres couvrants introduit dans 

[1]. Ici, une information supplémentaire est également transmise afin de permettre au décodeur 

de fusionner les sommets et les arêtes dupliquées et de retrouver la connectivité initialedu 

maillage. 

Les gains obtenus par l’approche TFAN par rapport aux deux codeurs MPEG-4/3DMC et 

TG sont rapportés Figure 2.20. Ces résultats montrent que l’approche TFAN offre des gains 

de l’ordre de 30% en moyenne par rapport au codeur MPEG-4/3DMC. Ces gains relativement 

importants s’expliquent en grande partie par l’efficacité de la stratégie de codage de la connectivité 

paréventails de triangles qui permet de représenter de façon compacte et générique la 

connectivité de tout maillage triangulaire. En revanche, le codeur MPEG-4/3DMC code une information 

auxiliaire pour gérer les maillages non-manifold avec bords, ce qui peut être coûteux 

en terme de débit dans le cas de maillages CAO à plusieurs composantes connexes. Le codeur 

TFAN offre des résultats de compression légèrement supérieurs à ceux de la technique TG. En 

effet, le fait de convertir les maillages CAO en maillages manifolds accentue leurs singularités 

(cf. Section 2.3.1.4) et induit la création de nouveaux sommets. En moyenne, le processus de 

conversion augmente de 12% le nombre de sommets à coder et par conséquent dégrade les 

performancces de codage de l’approche TG. Le codeur TFAN s’affranchit d’une telle limitation 

en gérant directement tout maillage triangulaire sans aucune contrainte topologique (i.e., 

manifold ou non, orienté ounon,ferméououvert). Figure 2.18 : Performances de compression pour une quantification sur 12 bits : TFAN vs. 

MPEG-4/3DMC et TG.


(a) (b) 

(c) (d) 

(e) (f) 

Figure 2.19 : Courbes débit/distorsion pour différents maillages CAO : TFAN vs. MPEG- 

4/3DMC et TG.


Figure 2.20 : Gains en terme de débit de l’approche TFAN par rapport aux techniques 

MPEG-4/3DMC et TG pour une quantification sur 12 bits. 

2.3.6 Temps de décodage 

La Figure 2.21 consigne les temps de décodage pour la totalité delabaseCAOconsidérée 

et ce pour les approches TFAN et MPEG-4/3DMC. Les temps de décodage de l’approche TG 

ne sont pas rapportés puisque nous ne disposons pas du code source du décodeur. Les gains 

obtenus par l’approche TFAN par rapport à la technique MPEG-4/3DMC sont résumés Figure 

2.22. 

Ces résultats montrent que le codeur TFAN permet de réduire les temps de décodage de 

l’odre de 50% en moyenne ! Pour les maillages comportants plus de 10000 sommets ces gains 

peuvent atteindre 61%. Dans le cas de maillages moins denses, les gains obtenus sont de l’ordre 

de 41-45%. La vitesse moyenne de décodage de l’approche TFAN est de l’ordre de 499875 

sommets par seconde. Ces résultats confirment la pertinence de l’approche proposée pour des 

applications nécessitant un décodage de basse complexité. 

Figure 2.21 : Temps de décodage pour les approches TFAN, MPEG-4/3DMC et TG.

2.4 Conclusion 65 

Figure 2.22 : Gains en terms de temps de décodage de l’approche TFAN par rapport aux 

techniques MPEG-4/3DMC et TG. 


Dans ce chapitre, nous avons présenté une nouvelle approche de compression de maillages 

3D triangulaires, appelée TFAN, applicable directement à tout maillage 3D triangulaire de 

topologie arbitraire (i.e., maillage manifold ou non, orienté ounon,ferméououvert). La 

technique TFAN assure une complexité linéaire pour le codage et le décodage, tout en offrant 

une représentation optimisée pour le rendu en temps réel. 

L’étude expérimentale conduite sur le corpus de données CAO du projet National RNRT 

SEMANTIC-3D (constitué de plus de 4000 maillages 3D) a montré que TFAN offre des gains 

en termes de débits de l’ordre de 6 à 33% par rapport au codeur standard MPEG-4/3DMC [1] 

et àlaméthode de codage par valence de Touma et Gotsman [3]. Les temps de décodage sont 

améliorés de 50% en moyenne. 

En raison de ses propriétés de basse complexité dedécodage et de ses performances de compression 

compétitives, le codeur TFAN est le candidat de premier plan pour le déploiement des 

contenus de type CAO sur téléphones portables. Il est considéré dans le cadre des expérimentations 

techniques [67] de MPEG-4 portant sur la compression basse complexité de maillages 3D.

66 Le codage TFAN

Chapitre3 

Codage par approximation B-Splines 

Résumé : Ce chapitre présente un nouveau schéma de codage progressif de maillages 

triangulaires 3D, fondé sur une représentation par surfaces B-Splines. Le maillage est 

tout d’abord segmenté enpatchs. Chaquepatch est ensuite paramétré, puis approché par 

une surface B-Spline dont les images géométriques de points de contrôle sont finalement 

compressées de façon progressive à l’aide d’un codeur d’images fixes (e.g., JPEG2000). La 

connectivité initialeestcodée sans perte en utilisant le codeur TFAN (cf. Chapitre 2). Les 

performances du schéma de compression montrent des gains de 10 à 30% en moyenne par 

rapport aux codeurs de compression spectrale, Touma et Gotsman et MPEG-4/3DMC, en 

particulier àbasdébits (inférieurs à 8 bits/sommet). 

Mots clés : Surface B-spline, compression, paramétrisation, image géométrique, 

JPEG2000. 

67

68 Codage par approximation B-Splines 

La méthode de compression par approximation B-spline s’appuie sur une représentation du 

maillage 3D par images géométriques dont nous rappelons brièvement le principe. 

3.1 Compression par images géométriques : principe et 

limitations 

La représentation GI (Geometry Images) [64] convertit la géométrie d’un maillage 3D en 

une image 2D appelée image géométrique (Figure 3.1). Le principe de base exploité ici consiste 

àdéterminer une paramétrisation du maillage 3D sur un domaine 2D carré. Cela s’appuie sur 

l’hypothèse sous-jacente que le maillage à traiter est homéomorphe à un disque. Pour pouvoir 

gérer des topologies arbitraires, il est donc nécessaire d’appliquer un découpage préalable de 

la surface, afin de la rendre homéomorphe àundisque. 

Figure 3.1 : Processus de conversion d’un maillage 3D en une image géométrique. 

Un remaillage régulier est ensuite appliqué enéchantillonnant uniformément le domaine 

paramétrique. Cela permet de décrire (avec pertes) la géométrie du maillage par un ensemble 

de points 3D localisés sur la surface. Ces points, étant définis sur une grille rectangulaire 

régulière, peuvent être stockés sous forme d’une image couleur dite image géométrique [64] où 

chacun des canaux R, V et B décrit l’une des coordonnées x, y et z. L’image ainsi obtenue est 

enfin codée en exploitant une décomposition en ondelettes. 

Des extensions de la méthode initiale sont introduites dans [65, 66]. La technique SGI 

(Smooth Geometry Images) [65] approche le maillage 3D par une surface B-Spline cubique. Les 

coordonnéesdespointsdecontrôledelasurfaceB-Splineainsigénérée sont enfin codées sous 

forme d’une image géométrique. 

Dans [66], les auteurs proposent l’approche MCGI (Multi-Charts Geometery Images) qui 

exploite un atlas de paramétrisations afin de minimiser les distorsions de paramétrisation. Ici, 

le maillage est découpé en un ensemble patchs, remaillés régulièrement et stockés ensuite dans 

une même image. Cela nécessite en revanche la mise en oeuvre de procédures de recollage 

adaptées afin de pouvoir reconstruire sans rupture le maillage au niveau du décodeur. 

Les méthodes par images géométriques souffrent d’un certain nombre de limitations, liées 

principalement au processus de remaillage considéré (Figure 3.2) :

3.1 Compression par images géométriques : principe et limitations 69 

• Ré-échantillonner régulièrement le domaine paramétrique peut générer, au niveau de la 

surface 3D, des triangles dégénérés avec des aspects de forme excentrique ce qui conduit 

àdesartéfacts visuels [64, 66]. 

• Dans le cas de certaines approches multi-patchs [66], les procédures de recollage plus ou 

moins heuristiques proposées ne garantissent pas un raccordement lisse des parties. 

• Capturer de façon précise les détails fins du maillage original nécessite un ré-échantillonnage 

dense [64, 66, 65], ce qui conduit à des maillages de taille importante (66049 sommets 

pour des images géométriques usuelles de 257 × 257 pixels). Le rendu en temps-réel de 

ces maillages en pleine résolution nécessite alors des ressources mémoires importantes. 

• Certaines applications ne tolèrent pas l’altération de la connectivité initiale, comme dans 

le cas des maillages dynamiques animés considérés dans le cadre du standard MPEG- 

4/AFX-BBA [69]. 

Le nouveau schéma de compression par approximation B-spline proposé danscechapitre 

s’affranchit de ces limitations en codant sans perte la connectivité du maillage. Afin d’assurer 

un codage efficace et progressif de la géométrie, nous retenons le principe de représentation 

régulière de l’information géométrique introduite dans [64, 66, 65], tout en l’adaptant aux 

contraintes de compression avec préservation de la connectivité. 

La représentation proposée exploite une paramétrisation multi-patchs dérivée uniquement 

de la connectivité du maillage par méthode de Tutte [71]. Comme dans [72, 65], chaque patch 

est ensuite approché par une surface B-Spline. 

(a) Remaillage régulier (V = 66049) (b) Notre codeur (V = 34384) 

(c) Remaillage régulier (V = 66049) (d) Notre codeur (V = 48485) 

Figure 3.2 : Limitations du processus de remaillage pour les maillage “Bunny” (a et b) et 

“Horse” (c et d) : triangulation de mauvaise qualité etsur-échantillonnage de la surface. 

La modélisation B-Spline offre notamment :


• Unestructurerégulièredepointsdecontrôle qui peuvent être stockés sous forme d’images 

géométriques et efficacement compressés avec des codeurs optimisés d’images 2D (e.g., 

JPEG, JPEG2000...), comme suggéré dans [64, 65]. 

• Un accès direct aux propriétés de la surface en tout point du domaine paramétrique 

(calcul des positions 3D, des normales, des dérivées). La préservation de la connectivité 

initiale permet en particulier de ré-échantillonner les surfaces B-Splines exactement aux 

coordonnées paramétriques associées aux sommets initiaux. Cela évite les problèmes de 

dégénérescence des triangles, de raccordement des patchs et de sur-échantillonnage. 

• Un bon pouvoir de représentation des géométries lisses. 

Le reste de ce chapitre est structuré comme suit. Le paragraphe suivant décrit la méthode 

de compression proposée en détaillant ses principales étapes. Ses performances sont évaluées 

objectivement, discutées et comparées avec les méthodes les plus représentatives de compression 

3D sans perte de connectivité dans la Section 3.3. Enfin, la Section 3.4 conclut le chapitre et 

ouvre les perspectives de recherche future. 

3.2 Codage par surfaces B-Splines 

3.2.1 Schéma général 

Le schéma synoptique de l’approche de codage par approximation B-spline est présenté 

Figure 3.3. 

Figure 3.3 : Schéma synoptique de l’algorithme de compression par représentation B-Spline. 

La géométrie du maillage est convertie en une représentation régulière (ensemble d’images 

2D) en utilisant une approximation par surfaces B-Splines. Contrairement à [65], où une seule 

surface B-Spline est considérée, nous proposons une approche multi-patchs qui permet de 

représenter des objets 3D de formes et de complexités arbitraires. Afin de déterminer les 

patchs de manière optimisée, une procédure de segmentation automatique est tout d’abord 

appliquée. L’approche originale de segmentation que nous avons proposée (cf. Section 3.2.2)

3.2 Codage par surfaces B-Splines 71 

permet notamment de déterminer une partition adaptée à des objectifs de paramétrisation 

tout en assurant une complexité réduite. Chaque patch est ensuite paramétré en utilisant l’algorithme 

de Tutte [71] avec l’optimisation proposée dans [73], puis approché par une surface 

B-Spline. Les points de contrôle des surfaces B-Splines ainsi obtenues sont quantifiés et stockés 

dans trois images à niveaux de gris, une pour chaque coordonnée x, y et z. 

Cesimagesgéométriques de points de contrôle sont finalement compressées par des codeurs 

d’images 2D. Dans notre travail, nous avons choisi le codeur JPEG2000 1 en raison de ses 

performances de compression reconnues. 

La connectivité dechaquepatch est codée à l’aide d’une approche arbitraire de codage de 

connectivité. Dans nos développements, nous avos prévilégié l’approche TFAN (cf. Chapitre 

2). Une information topologique additionnelle, décrivant les relations d’adjacence entre les 

différents patchs de la représentation est également intégrée au flux binaire. 

Au niveau du décodeur, la connectivité dechaquepatch est tout d’abord reconstituée. Cette 

information permet à elle seule de recalculer la paramétrisation de Tutte qui ne nécessite pas 

la connaissance de la géométrie du maillage. L’information topologique additionnelle permet 

de fusionner les différents patchs et donc de reconstruire complètement la connectivité initiale. 

Le décodage progressif de la géométrie est effectué enéchantillonnant les surfaces B-Splines 

transmises selon les coordonnées paramétriques associées aux sommets du maillage. La progressivité 

est ici assurée par le codage JPEG2000 des images géométriques. Le flux binaire 

géométriquepermeteneffetdegénérer, à tout moment de la transmission, des patchs B- 

Splines et donc de reconstruire des approximations du maillage initial dont la qualité augmente 

progressivement avec la quantité d’information transmise. 

Détaillons àprésent les différents modules du schéma de compression proposé. 

3.2.2 Segmentation de maillages 3D 

L’objectif de l’étape de segmentation est d’obtenir une partition du maillage initial en 

patchs homéomorphes à un disque et adaptés à une paramétrisation de faible distorsion (cf. 

Section 3.2.3). 

Les techniques existantes [74, 64, 66] offrent différents compromis entre qualité deparamétrisation 

et complexité de calcul. Dans [74], la segmentation proposée est efficace pour des 

applications de plaquage de texture. En revanche, les patchs obtenus peuvent être de petite 

taille (i.e., quelques dizaines de sommets) et donc inadaptés pour une compression efficace. Au 

contraire, les patchs obtenus par la méthode décrite dans [64] sont trop complexes et leur paramétrisation 

induit d’importantes distorsions. Cet inconvénient est surmonté par l’algorithme 

proposé dans [66], qui s’inspire du quantificateur de Max-Lloyd [49, 50]. Le prix à payer est la 

complexité de calcul qui devient très importante (i.e., une dizaine de minutes pour un maillage 

de 40000 sommets). 

Pour pallier les inconvénients des algorithmes de segmentation existants, tout en assurant 

une faible complexité de calcul, nous proposons un nouvel algorithme de segmentation rapide, 

automatique et applicable à tout maillage manifold de genre 0. 

L’approche proposée permet notamment : 

• de distribuer uniformément les courbures gaussiennes du maillage sur l’ensemble des 

patchs, 

1. http ://www.jpeg.org/


• de favoriser la segmentation selon les arêtes saillantes, 

• de générer des bords compacts en minimisant le nombre d’arêtes de découpage, 

• d’assurer un coût faible de calcul (i.e., linéaire avec le nombre de facettes du maillage). 

Soient F l’ensemble des triangles du maillage M et Eint l’ensemble de ses arêtes internes 

(cf. Section 1.1). L’objectif est de déterminer une partition Π = {π1,π2,...,πK} de l’ensemble 

F des facettes de M telle que les quantités wk, définies par : 

∀k ∈{1,...,K}, wk = 

wgauss(f), (3.1) 

soient égales et que le coût total du découpage 

Ct = 

e∈Ebord(Π) 

f∈πk 

wang(e), (3.2) 

soit minimal. 

Ici, Ebord représente l’ensemble des arêtes internes localisées aux frontières des différents 

patchs. Lepoidswgauss(f) associé au triangle f du maillage est défini par : 

wgauss(f) =|Cgauss(v1(f)) + Cgauss(v2(f)) + Cgauss(v3(f)|, (3.3) 

avec : 

• Cgauss(vi(f) la courbure gaussienne du maillage [75], évaluée au sommet vi(f), 

•{v1(f),v2(f),v3(f)} l’ensemble des sommets de la facette f, et 

•|.| la valeur absolue d’un nombre réel. 

La valeur wang représente le coût associé à l’arrête e ∈Ebord, défini par : 

wang(e) = 

1 

N(f e 1 ) ∧ N(f e , (3.4) 

1 ) 

avec : 

• N(f) le vecteur normal unitaire à la facette f, 

• f e 1 et f e 2 les deux facettes incidentes à l’arête e, 

•la norme euclidienne, 

•∧le produit vectoriel de deux vecteurs. 

Notons que les poids associés aux triangles du maillage s’expriment en fonction des courbures 

de leurs sommets. Le coût associé à une arête est inversement proportionnel à l’angle défini 

par les normales aux deux triangles qui la partagent. Ainsi, plus cet angle est petit (i.e., plus 

l’arête est saillante) plus sont coût de découpage est petit. 

Le problème de minimisation peut être interprété comme suit : trouver une K-partition (K 

étant un paramètre fixé par l’utilisateur) des facettes de M telle que les courbures des sommets 

soient également distribuées sur l’ensemble des clusters etqueledécoupage soit opéré selon 

les arêtes les plus saillantes. 

Afin de résoudre ce problème d’optimisation NP-complet, nous avons adopté l’algorithme 

heuristique décrit dans [76]. Pour réduire la complexité de calcul, le principe consiste à simplifier 

massivement le graphe par des opérations successives de fusion de sommets [10], appliquées au 

graphe dual M∗ du maillage M. 

Pour rappel le graphe dual M∗ est défini comme suit :


• Tout sommet de M ∗ correspond à un triangle de M, 

• Deux sommets de M ∗ sont voisins (i.e., connectés par une arête du graphe dual) si et 

seulement si leurs triangles correspondants dans M partagent une arête. 

La Figure 3.4 illustre un exemple de graphe dual pour un maillage triangulaire simple. 

(a) Maillage originale (b) Graphe dual 

Figure 3.4 : Maillage de graphe dual associé. 

Dans [76], les auteurs proposent de sélectionner au hasard les sommets à fusionner àchaque 

étape. Expérimentalement, ils montrent qu’une telle approche permet d’obtenir des résultats 

compétitifs pour un coût de calcul réduit. Ils proposent également de simplifier les sommets du 

graphe dual M∗ jusqu’à atteindre un nombre de facettes égal à15× K. Le facteur constant 15 

est également déterminé expérimentalement et vise à assurer un compromis raisonnable entre 

complexité de calcul et qualité desegmentation. 

Notons qu’au cours du processus de simplification, les poids wgauss(f) etwang(e) sontaccumulés 

pour tenir compte des distributions des courbures gaussiennes et des angles formés 

entre triangles du maillage initial. 

L’optimisation décrite par les équations (3.1) et (3.2) est effectuée sur le maillage de base 

composé d’unnombredesommetsréduit. La segmentation du maillage initial est finalement 

obtenue en inversant le processus de simplification et en propageant les étiquettes de la partition 

à partir du maillage de base jusqu’au maillage initial. 

Les différents patchs ainsi obtenus sont découpés en composantes connexes individuelles. 

Cela est réalisé en dupliquant les sommets et les arêtes situés àlafrontière des différents patchs. 

La Figure 3.5 illustre un exemple de découpage d’un maillage en deux patchs. 

(a) (b) 

Figure 3.5 : Découpage du maillage par duplication des sommets localisés aux bords des 

patchs.


Notons que les patchs ainsi obtenus peuvent présenter des bords multiples (Figure 3.6). 

Afin d’obtenir des patchs homéomorphes à un disque, les différents contours de bord doivent 

alors être inter-connectés. Cela est réalisé à l’aide d’un découpage supplémentaire. L’approche 

itérative que nous proposons consiste à connecter successivement une paire de contours de bord 

sélectionnée de façon aléatoire. Soient B1 et B2 deux contours de bord sélectionnés. Deux sommets 

supplémentaires v1 et v2, appelés sommets fictifs, sont ensuite connectés respectivement 

aux bords B1 et B2. Cette opération consiste àinsérer des arêtes supplémentaires connectant 

chacun des deux sommets fictifs v1 ou v2 à l’ensemble des sommets du contour de bord associé 

B1 ou B2. L’algorithme de Dijkstra (avec des poids unitaires pour toutes les arêtes du maillage) 

[77] est ensuite appliqué afin de calculer le plus court chemin entre v1 and v2. Lepatch est finalement 

découpé selon le chemin ainsi déterminé. Cette procédure est réitérée jusqu’à obtenir 

un bord unique. La Figure 3.6 illustre ce processus. 

(a) (b) (c) 

Figure 3.6 : Elimination des bords multiples : (a) patch avec deux bords B1 et B2, (b) deux 

sommets fictifs v1 et v2 respectivement connectés à B1 et B2, et(c)découpage du patch selon 

le plus court chemin entre v1 et v2. 

Une dernière optimisation permet d’éviter d’obtenir des patchs de formes tubulaires ou 

allongées, en intégrant dans la procédure d’optimisation un paramètre de forme global, noté 

ρ, défini comme le rapport entre l’aire s du patch et la longueur l de son bord : 

ρ = l2 

. (3.5) 

s 

Cela vise notamment à obtenir des patchs bien adaptés au processus ultérieur de paramétrisation 

et àéviter donc des paramétrisations de haute distorsion. 

Le principe est d’appliquer un découpage supplémentaire, ayant comme objectif l’élargissement 

du bord (Figure 3.7). Le chemin de découpage est défini de façon analogue à celle décrite cidessus. 

Ici, le chemin le plus court de Dijkstra est calculé entre un sommet v ficitif connecté 

au bord du patch et le sommet interne v0 de plus grande courbure gaussienne. Ce processus 

est ré-itéré jusqu’àobtenir un rapport de forme ρ autour de la valeur 16, qui correspond à une 

surface plane de forme de carré. 

La Figure 3.8 présente les résultats de segmentation obtenus pour différents maillages 3D 

avec un nombre de sommets variant de 34000 à 67000 et pour un nombre de patchs K = 50. 

Pour l’ensemble de ces maillages, les temps de calcul (sur une machine P4, 1.8 GHz et 1 Go 

RAM) nécessaires pour obtenir les partitions finales sont inférieurs à1seconde.


(a) (b) (c) 

Figure 3.7 : Optimisation de la paramétrisation par élargement du bord : (a) Paramétrisation 

initiale avec des hautes distorsions de paramétrisation ; (b) Sommet fictif v connecté aubord, 

sommet interne v0 ayant la plus grande courbure Gaussienne et découpage du maillage selon 

le plus court chemin entre v et v0 ;(c)Paramétrisation finale de distorsion plus faible.


(a) “Bunny” (K = 50, V = 34834) (b) “Gargoyle” (K = 50, V = 50002) (c) “Horse” (K = 50, V = 48485) 

(d) “Venus” (K = 50, V = 50002) (e) “Rabbit” (K = 50, V = 67038) (f) “Planck” (K = 50, V = 49132) 

(g) “Dinosaur” (K = 50, V = 56437) (h) “Tyra” (K = 50, V = 60002) 

Figure 3.8 : Segmentation de maillages de diverses formes et complexités. 

Chaque patch de la partition obtenue est ensuite mis en correspondance avec un domaine 

carré 2D, en effectuant une paramétrisation, comme décrit dans le paragraphe suivant. 

3.2.3 Paramétrisation 

Par définition, une paramétrisation d’une surface S homéomorphe à un disque est une 

application continue et bijective f, définie sur un domaine paramétrique Ω ⊂ R 2 simplement 

connexe par : 

f : Ω ⊂ R 2 → S ⊂ R 3 

(u1,u2) ↦→ f(u1,u2) =(fx(u1,u2),fy(u1,u2),fz(u1,u2)) t . (3.6) 

Notons qu’il est d’usage [78] d’imposer des contraintes supplémentaires àlafonctionf, comme


celle de C n différentiabilité pour pouvoir définir des attributs et caractéristiques intrinsèques 

(e.g., normales, courbures) àlasurfaceS. Dans notre cas, comme proposé dans [79], nous allons 

nous placer dans un contexte générique, sans aucune contrainte donc sur la différentiabilité de 

f. 

Dans le cas des maillages triangulaires, il est commode de considérer une paramétrisation 

f linéaire sur chacun des triangles de M. Cela implique que l’image par la fonction f des 

triangles du maillage 3D soit des triangles 2D. Il en résulte que le domaine paramétrique Ω 

peut être également décrit par un maillage 2D, noté MΩ, de connectivité identique à celle 

du maillage initial M. Lagéométrie de MΩ est alors totalement spécifiée par les coordonnées 

paramétriques {μv =(u1(v),u2(v)}v∈V associées aux sommets du maillage, comme décrit dans 

la relation suivante : 

∀ v ∈V, f(u1(v),u2(v)) = χv. (3.7) 

En outre, par contrainte de linéarité, disposer des coordonnées paramétriques (u1(v),u2(v))v∈V 

des sommets du maillage M détermine de façon unique la paramétrisation f qui est alors définie 

par : 

f : Ω → R3 μ → α(μ).χvA + β(μ).χvB + γ(μ).χvC 

, (3.8) 

avec 

• μ un point arbitraire du domaine paramétrique Ω, 

• tj le triangle 2D de Ω auquel le point μ appartient, 

• vA, vB et vC les trois sommets du triangle tj, 

• μvA(μ), μvB(μ) et μvC(μ) les vecteurs 3D des coordonnées paramétriques associés à vA, vB 

et vC, 

• α(μ), β(μ) etγ(μ) les coordonnées barycentriques [80] du point μ dans le triangle tj de 

Ωdéfinies par : 

(μvB − μ) ∧ (μvC − μ)| 

α(μ) = 

(μvB − μvA ) ∧ (μvC − μvA ), 

(3.9) 

(μvA − μ) ∧ (μvC − μ) 

β(μ) = 


(3.10) 

(μvA − μ) ∧ (μvB − μ) 

γ(μ) = 


(3.11) 

où ∧ désigne le produit vectoriel entre deux vecteurs de R 2 . 

La Figure 3.9 illustre un exemple de paramétrisation d’un maillage triangulaire 3D sur une 

domaine 2D carré.


Figure 3.9 : Paramétrisation d’un maillage triangulaire sur un domaine 2D carré. 

Ainsi, dériver une paramétrisation linéaire par morceaux pour un maillage 3D revient à 

calculer l’ensemble des coordonnées paramétriques associées aux sommets. 

La problématique de paramétrisation de surfaces triangulées a été largement étudiée dans 

la littérature [71, 81, 79, 78]. Les nombreuses techniques existantes combinent informations 

géométriques et topologiques pour minimiser différents critères de distorsion qui renvoient au 

principe de préservation des propriétés métriques (longueurs, aires, angles) des triangles entre 

domaines initial et paramétrique. 

Cependant, dans le cadre de notre schéma de compression, la paramétrisation doit être 

dérivée uniquement à partir de l’information de connectivité, puisqu’elle sert àdéterminer les 

propriétés géométriques du maillage. 

Pour cette raison, nous avons retenu la méthode classique de Tutte [71] qui permet de 

plonger dans R 2 tout graphe planaire simplement connexe sans auto-intersection de ses arêtes. 

Cette procédure consiste à: 

• Mettre en correspondance le bord du patch avec le bord d’une forme convexe planaire, 

• Calculer les positions des sommets internes, sous l’hypothèse que chaque sommet est le 

barycentre de ses voisins. 

Afin de minimiser les distorsions inhérentes à une méthode de paramétrisation qui ne prend 

pas en compte les propriétés géométriques du maillage, nous avons appliqué l’algorithme décrit 

dans [81] qui raffine successivement la paramétrisation initiale de Tutte, sous l’hypothèse que 

tous les triangles du maillage ont des aspects de forme comparables. La Figure 3.11 présente 

les trois paramétrisations obtenues en appliquant la méthode de Tutte, la méthode de Tutte 

optimisée ainsi que celle de Floater [73], qui intègre les propriétés géométriques du maillage. 

Les courbes illustrées en bleu et en rouge, notées respectivement par (Cu1(j)) et (Cu2(j)), 

correspondent aux courbes iso-paramètriques et sont définies comme suit : 

∀j ∈{1, ..., J}, Cu1(j) ={f(u1,u2)/u1 ∈ [0, 1],u2 = j 

}, (3.12) 

J 

∀j ∈{1, ..., J}, Cu2(j) ={f(u1,u2)/u2 ∈ [0, 1],u1 = j 

}, (3.13) 

J


Ces courbes correspondent dans le domaine paramétrique à une lattice rectangulaire unitaire 

(Figure 3.10). Par conséquent, si la paramétrisation f est une isométrie (i.e., préservation 

des angles et des distances) les images de ces courbes devront être equidistantes et deux àdeux 

perpendiculaires. Dans le cas général, cela n’est possible quepour des fonctions développables 

[78], i.e. surfaces réglées de courbure gausienne nulle (e.g. cylindre, cône...). 

La qualité de la paramétrisation obtenue est alors évaluée par des mesures de préservation 

des angles et des distances. Les résultats illustrés Figure 3.11 montrent que l’approche de 

Floater conduit à la meilleure paramétrisation. Notons néanmoins que l’approche de Tutte 

optimisée améliore nettement la qualitédelaparamétrisation par rapport à l’approche originale 

de Tutte. 

Figure 3.10 : Les courbes isoparamétriques dans le domaine paramétrique. 

Au niveau algorithmique, la méthode de Tutte optimisée [73] revient àrésoudre des systèmes 

linéaires décrits par des matrices creuses, symétriques, définies positives de taille Vk × Vk (avec 

Vk nombre des sommets du k-ième patch). En utilisant la méthode du gradient conjugué [82], 

les temps de calcul sont de l’ordre de 0.3 secondes par patch sur une machine P4/1.8GHz dotée 

d’un 1 Go de mémoire RAM. 

La paramétrisation obtenue permet en particulier d’approcher chaque patch du maillage 

par une surface B-Spline, comme décrit dans la section suivante. 

3.2.4 Approximation par surfaces B-Splines 

En raison de leurs nombreuses propriétés mathématiques (surfaces lisses, régularité, contrôle 

local, calcul rapide des propriétés géométriques ...), les surfaces B-splines ont été exploitées dans 

divers domaines de modélisation 3D en général, et dans celui de la CAO en particulier. 

Une surface B-Spline (voir [83] pour une présentation in extenso) estdéfinie par : 

∀(u1,u2) ∈ [0, 1] × [0, 1], S(u1,u2) = 

n 

i=0 

m 

PijNi,p(u1)Nj,q(u2), (3.14) 

où (u1,u2) sont les coordonnées paramétriques, Pij ∈ R 3 lespointsdecontrôledelasurface 

et Ni,p(u1) etNj,q(u2) les fonctions de base B-Splines de degrés p et q, définies respectivement 

sur les vecteurs de noeuds U et V suivants : 

j=0


(a) (b) (c) 

(d) (e) (f) 

Figure 3.11 : Paramétrisation d’un patch par différentes méthodes de paramétrisation : (a) 

Tutte, (b) Tutte optimisé et (c) Floater. 

U = {0,...,0,u 

 

p+1 

p+1 

1 ,...,u i 1 ,...,un 1 

, 1,...,1}, 

(3.15) 

 

p+1 

V = {0,...,0,u 

 

q+1 

q+1 

2 ,...,u j q,...,u m 2 , 1,...,1}. 

 

(3.16) 

q+1 

La paramétrisation associe à chaque sommet du maillage un couple (u1,u2) ∈ R 2 de coordonnées 

paramétriques. L’ensemble des sommets du maillage échantillonne ainsi irrégulièrement 

le domaine paramétrique. Approcher un ensemble de points irréguliers par une surface B-Spline 

est bien sûr possible, en utilisant par exemple les algorithmes décrits dans [84, 85]. Toutefois, 

ces procédures d’optimisation non-linéaire sont complexes en temps calcul et ne garantissent 

pas la convergence dans tous les cas. 

Pour cette raison, nous avons adopté la solution simple, mais efficace décrite dans [83], qui 

consiste à: 

• Calculer une grille de points (Qkl) sur la surface du maillage en échantillonnant uniformément 

le domaine paramétrique, 

• Déterminer la matrice P =(Pij) des points de contrôle de la surface B-Spline approchant 

de manière optimale (au sens des moindres carrés) les points (Qkl). 

La matrice P est déterminée en appliquant l’approche d’approximation par courbes de 

section décrite dans [83], qui garantit l’existence de la solution. 

Etant définis sur une grille rectangulaire, les points de contrôle (Pij) sontquantifiés sur 

8 bits et puis stockés dans trois images à niveaux de gris (P x y 

z 

ij ), (Pij )et(Pij ). Ces images 

sont finalement compressées en utilisant un codeur progressif JPEG2000, adopté enraison

3.3 Résultats expérimentaux 81 

de ses performances optimisées. Les vecteurs des noeuds U et V sont également quantifiés, 

linéairement prédits (prédiction delta) et codés arithmétiquement. Les dégrés p et q de la 

surface B-splinees sont intégrés tel que dans le flux binaire généré. 

La procédure décrite ci-dessus permet ainsi de représenter la géométrie de chaque patch. 

Comme la connectivité des différents patchs est également codée sans pertes, la dernière 

étape revient à coder l’information nécessaire pour pourvoir recoller les patchs et reconstruire 

intégralement la connectivité initiale. 

3.2.5 Recollage des patchs 

Afin que le décodeur puisse recoller les différents patchs de la représentation, une information 

auxiliaire décrivant les coupes opérées sur le maillage (cf. Section 3.2.2) doit être inclue 

dans le flux binaire. En effet, pour chaque coupe C l’information suivante doit être transmise 

au décodeur : 

• les numéros p1 et p2 des deux patchs àêtre connectés, 

• les index des sommets v 1 et v 2 de départ localisés respectivement sur les bords des patchs 

à connecter, 

• le nombre NC des sommets à fusionner, 

• les deux sens de parcours s 1 et s 2 sur les bords des deux patchs. 

Au niveau du décodeur, en partant des deux sommets v 1 et v 2 ,lespatchs p1 et p2 sont parcourus 

en suivant les deux sens s 1 et s 2 .Achaqueétape, les deux sommets correspondants sont 

fusionnés. Ce processus est réitéré jusqu’à ce que le nombre de sommets traités soit égale à 

NC. La Figure 3.12 illustre l’algorithme de recollage proposé. 

(a) Patchs séparés (b) Patchs collés 

Figure 3.12 : Collage de deux patchs : en partant des deux sommets v 1 et v 2 et en suivant les 

deux sens de parcours s 1 et s 2 ,ledécodeur fusionne succesivement les NC sommets de bords. 

3.3 Résultats expérimentaux 

Les expérimentations ont été conduites sur un ensemble d’une douzaine de maillages habituellement 

utilisés dans la littérature [64, 66, 65, 3] pour l’évaluation des approches de compression. 

Ces maillages présentent des géométries lisses, échantillonnées de façon dense et sont


obtenus par numérisation 3D. Les données originales sont disponibles sur les sites de l’université 

deStanford 2 et de la société Cyberware 3 . Les performances des codeurs sont évaluées en 

termes de courbes débit/distorsion. Les débits sont exprimés en bits par sommet (bps). Les 

distorsions sont mesurées en utilisant la distance RMSE entre maillages original et compressé, 

estimée avec le logiciel MESH 4 [51]. 

Tous les résultats ont été obtenus pour des partitions à50patchs et en utilisant des surfaces 

B-Splines de degé 2,avec24× 24 points de contrôle. 

La Figure 3.13 présente de façon comparée les courbes débit/distorsion obtenues pour les 

maillages “Venus”, “Bunny” et “Horse” avec la représentation B-Spline proposée, le codeur de 

Touma et Gotsman (TG) [3], le codeur MPEG-4 [1] et l’approche de Compression Spectrale 

(CS) [52]. Pour cette dernière, nous avons considéré une segmentation en 120 patchs (afin de 

réduire la complexité de calcul comme proposé dans [52]) et un spectre quantifié sur 14 bits. 

Le schéma de compression proposé conduit à de meilleurs résultats pour des débits inférieurs 

à 8 bps pour les maillages “Venus” et “Horse”. Pour le modèle “Bunny”, l’approche spectrale 

offre de légers gains dans la plage des débits inférieurs à 4 bps. Cependant, à partir de 3-4 bps, 

notre codeur offre des résultats supérieurs avec un gain moyen en débit de 10 à 30%. 

Pour des débits supérieurs à 8 bps, le codeur TG donne des rapports débit/distorsion 

légèrement supérieurs. Cependant, les gains obtenus sont minimaux, les distorsions associées 

étant dans ce cas négligeables, i.e. de l’ordre de 0,02% de la diagonale de la boîte englobante 

du maillage. A ce niveau d’erreur, la qualité visuelle des maillages reconstruits devient quasiconstante. 

La Figure 3.14 illustre quelques maillages compressés selon les différentes méthodes. La 

qualité visuelle des maillages compressés par l’approche B-Spline est nettement supérieure à 

celles obtenues avec les codeurs TG et MPEG-4/3DMC. Cela s’explique par la représentation B- 

Spline qui garantit des surfaces lisses tout au long du processus de transmission et en particulier 

à partir de très bas débits. 

Les Figures 3.15 et 3.16 illustrent la fonctionnalité de scalabilité en qualité ducodeurB- 

Spline. 

Ces résultats démontrent que l’approche proposée est particulièrement adaptée pour les 

applications de compression progressive àbasdébits et sans perte de connectivité. 

2. www.stanford.edu 

3. www.cyberware.com 

4. http ://mesh.epfl.ch


(a) “Horse” 

(b) “Bunny” 

(c) “Venus” 

Figure 3.13 : Courbes débit/distorsion pour les modèles “Horse”, “Bunny” et “Venus”.


(a) 5.9 bps (b) 5.5 bps (c) 5.8 bps (d) 5.2 bps 

(e) 7.6 bps (f) 6 bps (g) 7.1 bps (h) 6.5 bps 

(i) 6.33 bps (j) 6 bps (k) 6.6 bps (l) 6.1 bps 

Figure 3.14 : Maillages “Horse”, “Venus” et “Bunny” compressés avec MPEG-4/3DMC (a, 

e et i), TG (b, f et j), CS (c, g et k) et notre approche (d, f, h et l).


(a) 10.9 bps (b) 8.4 bps (c) 6.3 bps (d) 5.6 bps 

(e) 9.9 bps (f) 7.8 bps (g) 5.9 bps (h) 5.3 bps 

(i) 9.5 bps (j) 7.9 bps (k) 5.9 bps (l) 4.9 bps 

(m) 9.2 bps (n) 8.5 bps (o) 6.1 bps (p) 5 bps 

Figure 3.15 : Résultats de compression àdifférents débits : (a, b, c et d) “Tyra”, (e, f, g et 

h)“Gargoyle”,(i,j,ketl)“Hand”,(m,n,oetp)“Lucy”(Partie1).


(a) 9.6 bps (b) 7 bps (c) 5.9 bps (d) 4.6 bps 

(e) 10.4 bps (f) 7.8 bps (g) 6.2 bps (h) 5 bps 

(i) 8.8 bps (j) 6.7 bps (k) 6.2 bps (l) 4.6 bps 

(m) 9 bps (n) 8.4 bps (o) 6.4 bps (p) 5 bps 

Figure 3.16 : Résultats de compression àdifférents débits : (a, b, c et d) “Max Planck”, (e, 

f, g et h) “Dinosaur”, (i, j, k et l) “Rabbit”, (m, n, o et p) “Feline” (Partie 2).



Dans ce chapitre, nous avons présenté une nouvelle approche de compression de maillages 3D 

fondée sur une approximation par surfaces B-splines. Le codeur proposéétend la représentation 

par images géométriques [64] au contexte de codage sans perte de connectivité. Cela permet notamment 

de s’affranchir des problèmes de remaillage (e.g., discontinuités et sous-échantillonnage) 

dont souffrent les approches par images géométriques. 

En exploitant les standards optimisés de compression d’images fixes (e.g., JPEG2000), la 

technique B-spline permet d’atteindre des gains des gains de l’ordre 10 à 30% en moyenne par 

rapport aux codeurs de compression spectrale, TG et MPEG-4/3DMC, en particulier àdes 

bas débits (inférieurs à 8 bits/sommet) tout en assurant la fonctionnalité supplémentaire de 

scalabilité en qualité.

88 Codage par approximation B-Splines

Deuxième partie 

Compression de maillages dynamiques 

89

Chapitre4 

Représentation et compression de 

maillages 3D animés : état de l’art 

Résumé : Ce chapitre présente un état de l’art des principales techniques de création, 

représentation et compression de séquence d’animation 3D. Les domaines d’application 

(jeux vidéo, films d’animation, simulations physiques, CAO...) ainsi que les outils et techniques 

utilisés pour générer ces contenus dynamiques sont tout d’abord passés en revue. 

Les différents formats de représentation 3D ouverts (e.g., VRML, X3D, H-Anim, COL- 

LADA...) ou propriétaires (e.g., FBX,X3D,X,BLEND)montrentladifficultédedisposer 

d’un format d’échange universel. Toutefois, en dépit des différences de langage et de syntaxe, 

des représentations par trames clés sont généralement supportées par l’ensemble des 

formats actuellement disponibles. Le choix d’une telle représentation est motivé pardes 

raisons d’interopérabilité, de généralité etdeprotectiondelapropriété intellectuelle. Son 

inconvénient majeur est en revanche lié auxcoûts importants de stockage et de transmission. 

D’où lanécessité d’outils de compression efficaces optimisés pour ce type de contenus. 

Lerestedecechapitreestdoncdédié àl’état de l’art des méthodes de compression de 

maillages 3D dynamiques représentés par trames clés. Les principales familles d’approches 

de la riche littérature émergente consacrée à ce sujet sont identifiées, présentées et discutées, 

avec principe, avantages et limitations. 

Mots clés : Compression, maillages dynamiques, animation 3D, représentation par 

trames clés, MPEG-4, VRML, H-Anim, COLLADA, X3D. 

91

92 Représentation et compression de maillages 3D animés : état de l’art 

4.1 Domaines d’application 

Les contenus dynamiques 3D s’imposent aujourd’hui dans le monde du multimédia au 

travers d’applications phares liées aux industries des jeux vidéos, des films d’animation ou 

encore de la création d’effets spéciaux en cinématographie, véritables vecteurs pour l’essor des 

technologies 3D. 

4.1.1 Films d’animation et effets spéciaux 3D 

Les premiers films d’animation 3D on vu le jour au début des années quatre-vingts. Citons 

à titre d’exemple le premier film narratif en image de synthèse 3D “Vol de rêve” (Philippe 

Bergeron, Nadia Magnenat-Thalmann et Daniel Thalmann, 1982) ou encore le film “Tron” 

(Steven Lisberger, 1982) qui a introduit pour la première fois des objets 3D de synthèse dans 

un long métrage. Depuis, une multitude de films exploitant des techniques d’animation 3D 

ont été réalisés avec des avancés technologiques plus au moins importantes àchaquefois.Des 

films comme “Bio Sensor” (Takashi Fukomoto et Hitoshi Nishimura, 1984), “Tony de Peltrie” 

(Philippe Bergeron, Daniel Langlois, Pierre Lachapelle et Pierre Robidoux, 1985) ont permis 

d’introduire les techniques de rotoscopie 3D, d’animation 3D par capture de mouvement et de 

numérisation 3D. 

(a) “Vol de rêve” (1982) (b) “Tony de Peltrie” (1985) 

Figure 4.1 : Extraits des films d’animation 3D. 

La fin des années quatre-vingts a été marquée par le développement des techniques d’animation 

procédurales (Section 4.2.2). Elles exploitent le plus souvent une modélisation physique 

ou une formulation algorithmique pour générer l’animation 3D souhaitée. A titre d’exemples, 

citons les films “Stanley and Stella in breaking the Ice” (Lary Malone, 1987), “Eurhythmy” 

(Susan Amkraut et Michael Girard, 1989), “Particle Dreams” (Karl Sims, 1988), “A sequence 

From The Evolution of Form” (William Latham, 1989), “Tipsy Turvy” (Thomas J. Watson, 

1989) ou encore “Panspermia” (Karl Sims, 1990). 

A partir du début des années quatre-vingt-dix, une nouvelle ère s’ouvre pour les films 

d’animation 3D qui exploitent massivement les techniques d’acquisition numérique, de capture 

de mouvement ainsi que des modèles sophistiquées pour l’animation des personnages. 

Des films comme “Terminator 2” (Etats-unis, 1991), “Jurrassic Park” (Etats-unis, 1993), ou 

la trilogie “Matrix” (Etats-unis, 1999-2003) mettent en scène des personnages virtuels 3D qui 

interagissent avec des scènes réelles. Les effets spéciaux produits sont d’une qualité exceptionnelle. 

Cette décennie a vu également un développement spectaculaire des films d’animation

4.1 Domaines d’application 93 

purement 3D, tels que “Shrek” (DreamWorks, 2001, budget 60 millions USD) ou “Beowulf” 

(Robert Zemeckis, 2007, 150 millions USD) qui ont bénéficié d’investissements importants et 

trouvé auprès du public le large succès que l’on sait. 

Parallèlement à l’industrie du cinéma, le monde des jeux vidéo a connu un grand essor au 

cours de ces dernières décennies. 

4.1.2 Jeux vidéos 

Le premier jeu vidéo 3D sur micro-ordinateur, appelé “3D Monster Maze”, a été développé 

par Malcolm Evans en 1981. Depuis, ce domaine a connu un grand essor surtout pendant 

les années quatre-vingt-dix avec le développement considérable des performances de calcul 

des consoles de jeux et des cartes graphiques 3D grand public. Des jeux comme “Doom” 

(id Software, 1993) ou “Tomb Raider” (Core Design, 1996) ont permis le développement de 

moteurs de rendu purement 3D avec des techniques d’animation optimisées et dédiées àcetype 

de contenus. 

(a) “3D Monster Maze (1981)” (1982) (b) “Doom” (1993) 

Figure 4.2 : Extraits des jeux vidéo 3D. 

En raison de l’interactivité permanente avec le joueur, des contraintes de rendu en temps 

réel, ainsi que des performances de calcul relativement limitées des consoles de jeux et des cartes 

graphiques grand public, les jeux vidéo exploitent des techniques d’animations différentes de 

celles mise en oeuvre pour la création de films d’animation ou d’effets spéciaux. En effet, l’interactivité 

avec le joueur, composante essentielle d’un jeu vidéo, implique des contraintes strictes 

de calcul et de rendu en temps réel. De plus, un jeu vidéo 3D doit gérer de façon cohérente 

tout un monde 3D (e.g., calcul de collisions, gestions des déplacements des comportements 

des personnages, modélisation et connexions entre sous-environnements du jeu...) alors que 

les films d’animation se focalisent seulement sur les objets 3D de la scène se trouvant dans le 

champs de vision de la caméra. 

Afin de répondre à ces contraintes spécifiques, les jeux vidéo exploitent le plus souvent des 

modèles animés de géométries simples combinées à des images de textures de haute qualité. 

Des techniques plus sophistiquées mettent en oeuvre des représentations hiérarchiques des 

personnages avec différents niveaux de détails qui sont sélectionnés selon la position de la 

caméra et les capacités d’affichage. Par exemple, le jeu “Final Fantasy X” (Square Enix, 2003) 

exploite trois niveaux de détails : 1) le niveau grossier (super-deformed) utilisé lors de l’affichage


du monde virtuel, 2) le niveau moyen (normal-sized) sélectionné pour le rendu de combat et 

pour des scènes interactives et 3) le niveau de haute qualité (smooth models) considéré pourle 

rendu de scènes non-interactives. 

Lesjeuxvidéo privilégient également les techniques d’animation par trames clés combinées 

àdesmodèles articulés afin d’assurer un contrôle intuitif des personnages. Des approches 

procédurales fondées sur des lois relativement simples sont généralement utilisées pour l’animation 

du décor (e.g., animation de l’herbe). 

La convergence des domaines des télécommunications et de l’informatique a privilégié plus 

récemment le développement des jeux en ligne (e.g., lejeuSecond Life 1 , 2003) et des jeux sur 

téléphone portable (e.g., lejeuAstérix aux J.O. pour téléphone portable, 2008). 

Ces nouvelles applications lancent aujourd’hui de nouveaux défis technologiques [86] liées 

à la compression et à la transmission des animations 3D via des réseaux hétérogènes et pour 

des terminaux de capacités variables. Dans ce contexte, l’exemple type est celui des jeux sur 

téléphones portables. Ainsi, d’après le rapport annuel de Gartner Inc. 2 ,lemarchédesjeux 

vidéos sur téléphones mobiles a connu une croissance de 49,9% en 2007 et s’élève aujourd’hui à 

un chiffre d’affaires de 4,3 millards de dollars américains. Selon les même prévisions, il atteindra 

9,6 millards de dollars en 2011. 

Quelle que soit l’application considérée, disposer et consommer des contenus 3D dynamiques 

seraient impossible sans des techniques appropriées et performantes de création. Analysons, 

dans le paragraphe suivant, les principales familles d’approches de création d’animations 

développées aujourd’hui. 

4.2 Techniques de création d’animation 3D 

Animer un objet 3D consiste àdécrire son mouvement et/ou les déformations qu’il subit 

pendant une période temporelle donnée. Le plus souvent cela revient àgénérer une séquence 

d’objets 3D qui décrit l’évolution temporelle d’une surface 3D (i.e. changement des positions 

des sommets, des normales, des couleurs...). 

Une première approche pour la génération de contenus animés consiste àspécifier directement 

les propriétés des objets 3D en fonction du temps. A l’évidence, une telle approche 

(lourde et non-intuitive) est non-utilisable même dans le cas de modèles 3D simples. 

Afin de simplifier la tâche des créateurs de contenus animés, la majorité des techniques 

d’animation proposent de décrire l’animation en exploitant des modèles de mouvement et/ou 

de déformation. L’étude de l’état de l’art fait ressortir deux grandes familles d’approches : 1) 

les modèles descriptifs et 2) les méthodes procédurales. 

4.2.1 Animation par modèles descriptifs 

Les techniques d’animation par modèles descriptifs (Tableau 4.1) reposent sur une représentation 

explicite de l’animation qui décrit pour chaque trame clés les paramètres du champ de mouvement 

ou de déformation associé. Une interpolation temporelle [87, 88, 89, 90] (e.g., linéaire, 

curviligne, par quaternions ou par fonctions implicites) est généralement utilisée afin de générer 

l’ensemble des trames nécessaires pour constituer une séquence d’animation fluide à la cadence 

1. http ://secondlife.com/ 

2. http ://www.gartner.com/

4.2 Techniques de création d’animation 3D 95 

vidéo requise (e.g., 25à 30 trames par secondes). Les approches d’animation par modèles descriptifs 

permettent aux créateurs de contrôler de façon précise le déroulement de l’animation. 

Elles nécessitent cependant un volume important d’interaction utilisateur pour la spécification 

des trames clés. 

4.2.2 Animation procédurale 

Les techniques d’animation procédurale (Tableau 4.2) s’appuient sur un ensemble de lois 

physiques, mathématiques ou comportementales pour décrire l’animation. Ces approches permettent 

de générer de façon dynamique (i.e., en tenant compte de l’interaction avec l’utilisateur 

ou des changements de l’environnement) et automatique des animations réalistes et de haute 

qualité. Notons cependant que les possibilités de contrôle du déroulement temporel de l’animation 

restent limitées. 

Afin d’obtenir des animations réalistes, les artistes combinent le plus souvent plusieurs 

techniques de création d’animation, dans le cadre de processus de création complexes. A chaque 

étape du processus de création des animations 3D, le créateur doit spécifier et raffiner les 

paramètres du modèle d’animation sous-jacent (e.g., positions et zones d’influence des points 

ou courbes de contrôle, transformées affines et poids d’animation pour le modèledepeau, 

paramètres des modèles physiques...). 

Cette tâche coûteuse et fastidieuse nécessite en pratique plusieurs itérations et une grande 

expérience de la part des utilisateurs. A titre d’exemple, des films d’animation comme Shrek 3 

ou Ratatouille 4 mobilisent des équipes entières d’artistes pendant plusieurs années. 

L’étapedespécification des paramètres d’animation est en général réalisée en exploitant 

des environnements professionnels de modélisation 3D (e.g., 3DSMAX5ou Maya 6 )ainsique 

des techniques de capture de mouvement [91, 92, 93]. Les animations sont enfin exportées aux 

différents formats, suivant les applications envisagées et les environnements de travail disponibles. 

La section suivante passe en revue les principaux standards/formats de représentation 

des animations 3D. 

3. http ://www.dreamworks.com/ 

4. http ://www.disney.fr/FilmsDisney/ratatouille/ 

5. www.autodesk.fr/3dsmax 

6. www.autodesk.fr/maya


Techniques Principe Avantages et limitations 

Déformations 

par transformées 

locales et globales 

[94] 

Deformations de 

formes libres [95, 

96, 97, 98, 99, 100, 

101] 

Déformations par 

contrôleurs [102, 

103, 104, 105] 

Animation 

par squelette 

cinématique 

[106, 107, 108, 

109, 69, 110] 

Animation par 

métamorphoses 

[111, 112, 113] 

Champ de déformation généré par 

combinaison de transformée linéaires 

simples (rotation, homothétie...) qui 

peuvent varier selon la position du 

point àanimer 

Champ de déformation défini par rapport 

au mouvement d’un ensemble de 

points de contrôle structurés en treillis 

Champ de déformation défini par rapport 

au mouvement d’un ensemble de 

points (non structurés) ou de courbes 

(géodésiques ou non) de contrôle avec 

des fonctions d’influence associées 

Champ de déformation défini relativement 

au mouvement d’un squelette 

(i.e, ensemble d’os reliés par des articulations 

et souvent représenté par 

une structure hiérarchique en arbre) en 

exploitant des techniques d’animation 

par modèles de peau (skinning) 

Déformation graduelle d’un objet 

source vers un objet cible avec un 

changement potentiel de topologie 

et/ou de géométrie 

+ Simple et efficace : décrit une 

grande variété de déformations 

géométriques à partir de transformations 

élémentaires 

- Lourde et compliquée à mettre 

en oeuvre dans le cas d’animations 

réalistes (e.g., personnage articulé) 

+ Générique : s’applique directement 

àtouteslesreprésentations de 

surfaces 

+ Déformation globale et semiglobale 

aisée 

-Déformation locale non intuitive à 

cause de la manipulation indirecte 

à travers les points de contrôle 

+ Générique : s’applique directement 

àtouteslesreprésentations de 

surfaces 

+ Faible complexité decalcul 

+Contrôle aisé etintuitif 

- Non adaptée à l’introduction de 

contraintes physiques ou de modèle 

cinématique 

+Contrôle aisé etintuitif 

+ Faible complexité decalcul 

+ Optimisée pour des mouvements 

articulés 

- Coûteuse : la génération du 

modèle de peau nécessite un travail 

semi-automatique fastidieux 

+ Généralité : permet de générer 

des animations à partir d’un 

nombre restreints de trames clefs 

avec topologies arbitraires 

-Complexité de calcul importante 

Table 4.1 : Etat de l’art des modèles d’animation descriptifs.

4.3 Standards de représentation 3D et formats propriétaires 97 

Techniques Principe Avantages et limitations 

Modèles 

physiques 

[114, 115, 116] 

Mèthodes comportementales 

[117, 118] 

Champ de déformation généré en exploitant 

une modélisation physique 

(e.g., dynamique des fluides, système 

de particules, système masses-ressorts) 

de la scène 3D 

Simulation des comportements individuels 

(i.e. perception, décision et 

action) des différents acteurs (e.g., 

piétons, cyclistes, troupeaux d’animaux...) 

d’un environnement ainsi que 

de leurs interactions 

+ Animations complexes et réalistes 

+Génération automatique de l’animation 

-Complexité de calcul importante 

dans le cas de modèles physiques 

complexes 

-Contrôle non-intuitif de l’animation 

+Réalistes : variabilité ducomportement 

des différents acteurs 

+ Adaptées à l’animation de foules 

+Interactives 

-Contrôle non-intuitif de l’animation 

Table 4.2 : Etat de l’art des modèles d’animation par modèles procéduraux. 

4.3 Standards de représentation 3D et formats propriétaires 

4.3.1 Standard VRML 

Le standard VRML (Virtual Reality Modeling Language) 7 ,développé par le consortium 

Web3D, est un langage de description d’univers interactifs 3D virtuels. Il représente une scène 

3D sous forme d’un arbre hiérarchique dont les noeuds décrivent des objets ou des propriétés 

de la scène (e.g., maillages 3D, formes élémentaires, sons, sources de lumières, couleurs...). 

La première version de VRML 8 permettait de décrire uniquement des scènes 3D statiques. 

La version 2.0 du standard introduit entre autre les interpolateurs qui, attachés àunnoeud 

animable (i.e., maillages 3D, transformations géométriques...), permettent de modifier ses paramètres 

en fonction du temps. Plus précisément, un interpolateur est défini par un ensemble 

d’instants temporels (keys) etdevaleurs(key values) associées à ces instants. Les players 

VRML génèrent l’animation en mettant àjour,à chaque instant temporel, les champs animés 

(e.g., position ou des normales associées aux sommets d’un maillage) grâce à des techniques 

d’interpolation (e.g., linéaire pour les positions et les translations, sphérique pour les normales...). 

4.3.2 Standard H-Anim 

Le standard H-Anim 9 vise àdécrire des animations de personnages articulés de type humanoïde. 

La représentation H-Anim modélise le squelette anatomique d’un personnage 3D 

articulé par une structure hiérarchique d’arbre. Dans une scène H-Anim, chaque noeud est un 

objetdetype: 

• humanoïd : correspondant àlaracineà laquelle tous les autres objets sont rattachés, 

• joint :décrivant la position, l’orientation et le facteur d’échelle associés à une articulation, 

7. http ://www.demotride.com/vrml97-spec-html/index.html 

8. http ://www.web3d.org/x3d/specifications/vrml/VRML1.0/index.html 

9. http ://www.h-anim.org/


• segment :spécifiant la géométrie et l’apparence d’une partie, 

• displacers :décrivant des contraintes de mouvement, 

• sites :décrivant les positions de caméras virtuelles, d’effecteurs ou de points d’attachement 

pour des accessoires. 

La version actuelle de la spécification H-Anin supporte l’animation par modèles de peau 

(skinning) en associant des poids d’animation aux sommets du maillage. Ici, le mouvement d’un 

sommet est exprimé comme une combinaison linéaire pondérée des mouvements des différentes 

articulations. Notons que la structure hiérarchique du squelette d’un humanoïde est figée (Figure 

4.3) et que seuls des sous-graphes de ce squelette sont supportés par la norme. Cela 

limite les possibilités d’utilisation du standard, qui ne prend pas en compte des objets et des 

personnages génériques. 

4.3.3 Le standard MPEG-4 

La standard MPEG-4 10 ,dontlapremièreversion est sortie en 1998, est une norme de 

codage d’objets audiovisuels spécifiée par le Moving Picture Experts Group (MPEG). La norme 

MPEG-4 reprend la représentation par graphe de scène, proposée par le standard VRML et 

l’étend, en introduisant des nouveaux noeuds. En particulier, MPEG-4 spécifie des flux binaires 

compressés dédiés à chaque noeud. Plus récemment, la partie 16 du standard, connue sous le 

nom de MPEG-4/AFX [119] (Animation Framework eXtension) définie un cadre générique 

pour les représentations de séquences d’animation 3D. MPEG-4 supporte aujourd’hui un large 

éventail de technologies de modélisation et d’animation 3D, dont les principaux représentants 

sont les suivants : 

• Les interpolateurs : définis de façon analogue à VRML par un ensemble d’instants temporels 

et de valeurs associées à ces instants. Comme dans le cas VRML, les interpolateurs 

MPEG-4 agissent sur les champs animables d’un noeud pour générer une animation. 

• Les métamorphoses (morphShape) : permettant de définir des métamorphoses entre un 

objet source (base shape) et plusieurs objets cibles (target shapes). Le principe est de 

définir une forme àuninstanticomme une combinaison linéaire pondérée de la forme 

de base et des formes cibles. L’animation est obtenue en mettant àjourlespoidsde 

pondération. 

• L’animation FBA (Face and Body Animation) :définit une représentation paramétrique 

d’un personnage virtuel. L’animation est générée en modifiant 1) les paramètres FAPs 

(i.e., Face Animation Parameters : 84 points de contrôle) qui décrivent la déformation du 

visage et les paramètresBAPs(i.e., Body Animation Parameters : 296 angles de rotation 

définis de façon analogue au standard H-Anim) qui génèrent le mouvement articulé d’un 

personnage virtuel. 

• L’animation BBA [69] (Bone Based Animation) :généralise le modèle FBA en proposant 

des structures de squelettes hiérarchiques arbitraires. BBA introduit également un 

modèle de peau pour assurer une animation sans rupture (seamless) au niveau des articulations 

(contrairement à FBA), ainsi qu’une couche de muscles afin de permettre des 

déformations élastiques locales. 

10. http ://www.mpeg-3dgc.org/


Figure 4.3 : Standard H-Anim : squelette hiérarchique d’un humanoïde. (source : http ://hanim.org/)


4.3.4 Standard X3D 

Le standard X3D 11 (eXtensible 3D) étend le standard VRML en introduisant de nouvelles 

fonctionnalités ainsi qu’un format de description à base du language XML 12 (eXtensible Markup 

Language). Concernant la partie animation, X3D introduit de nouveaux noeuds permettant 

de décrire : 

• les humanoïdes animés conformément au standard H-Anim, 

• les interactions physiques entre corps solides (e.g., collision, accélération...), 

• les systèmes de particules nécessaires pour la modélisation des éléments comme le feu, la 

fumée, la neige... 

Le standard X3D exploite également une procédure de compression fondée sur l’algorithme 

GZip 13 . 

4.3.5 Standard COLLADA 

La norme COLLADA 14 ,développée par Khronos Group 15 , a pour objectif de définir un 

format standard d’échange de contenus multimedias entre les différents acteurs de l’industrie 

de l’audiovisuel. Comme X3D, COLLADA combine le langage XML avec une représentation 

par graphe de scène. La partie animation comporte : 

• les interpolateurs, définis de façon analogue àVRML, 

• les métamorphoses, similaire au noeud morphShape de MPEG-4/AFX, 

• lesanimationsparmodèle de peau conformément àlapartieBBAdeMPEG-4/AFX, 

mais en omettant la couche muscle, 

• les interactions physiques et les systèmes de particules de façon analogue àX3D. 

4.3.6 Formats propriétaires 

Les formats propriétaires proposés par les différents créateurs de logicielles de modélisation 

3D (e.g., FBX,3DSdéveloppés par la société Autodesk 16 , BLEND de Blender 17 , X de Direct 

3D 18 ...) supportent un large éventail de représentations (i.e., modèledepeau,métamorphose, 

interactions physiques et les systèmes de particules, interpolateurs), avec des variantes plus ou 

moins sophistiquées. Dans ce cas, le format de représentation est intrinsèquement lié à l’outil 

et à l’approche sousjacente de création des contenus 3D. Ainsi, les documentations détaillées 

de ces formats sont le plus souvent incomplètes voir non-disponibles. En outre, les exportateurs 

proposés (qui visent àréaliser des conversions d’un format à un autre) montrent en pratique 

leurs limitations, puisque seules les fonctionnalités supportées par le format d’export sont transposées 

correctement. Des processus de conversion avec pertes entre différentes représentations 

génèrent le plus souvent des résultats de mauvaise qualité. 

11. http ://www.web3d.org/ 

12. http ://www.w3.org/XML/ 

13. www.gzip.org/ 

14. http ://www.collada.org/ 

15. www.khronos.org/ 

16. www.autodesk.com 

17. www.blender.org/ 

18. http ://www.microsoft.com/


4.3.7 Discussion 

Standard Trames clés Métamorphose Modèles physiques Mouvement articulé 

VRML/H-Anim × × 

MPEG-4 × × × 

X3D × × × 

Collada × × × × 

Table 4.3 : Représentations supportées par les standards d’animation 3D. 

Le tableau 4.3 résume les différentes représentations d’animation 3D supportées par les 

standards d’animation 3D. Notons que les animations articulés ainsi que les animations par 

trames clés (représentées sous forme d’interpolateurs) sont spécifiées par la quasi-totalité de 

ces normes. Contrairement à l’animation par modèles articulés (adaptée uniquement à une 

famille particulière de modèles animés), la représentation par trames-clés permet de décrire 

un large spectre d’animations. De plus, cette représentation est indépendante de la technique 

utilisée pour générer le contenu et permet ainsi de disposer d’un format générique et multiplateformes 

d’animation 3D. En rendant disponible uniquement le résultat final de l’animation, 

la représentation par trames clés permet aux créateurs de contenus de protéger leurs modèles 

d’animation d’une réutilisation illicite par des tiers. 

L’inconvénient majeur de cette représentation est en revanche lié auxcoûts importants 

de stockage et de transmission (de l’ordre de 120 Mo par minute pour un maillage de 10000 

sommets). En effet, mêmepourdecourtesséquences de quelques minutes, des milliers de 

modèles 3D sont nécessaires. 

La problématique de la compression de maillages 3D animés (Figure 4.4) de connectivité 

constanteetdegéométrie variable dans le temps a été considérée pour la première fois par 

Lengyel [120]. Elle peut être formalisée mathématiquement comme suit. 

Soit (Mt)t∈{1,...,T } une séquence de maillages 3D (où T représente le nombre de trames). 

Sous l’hypothèse d’une connectivité fixe,notée Γ, la géométrie du maillage à l’instant t est 

représentée par une matrice Gt de dimension 3 × V (où V estlenombredesommets)définie 

par : 

où χ v,x 

t , χ v,y 

t 

et χ v,z 

t 

⎛ 

⎜ 

Gt = ⎜ 

⎝ 

χ 1,x 

t 

χ 2,x 

t 

χ 3,x 

t 

. 

χ V,x 

t 

χ 1,y 

t 

χ 2,y 

t 

χ 3,y 

t 

. 

χ V,y 

t 

χ 1,z 

t 

χ 2,z 

t 

χ 3,z 

t 

. 

χ V,z 

t 

⎞ 

⎟ , (4.1) 

⎟ 

⎠ 

sont les coordonnées (exprimées dans un repère cartésien) de l’ensemble 

des sommets de Mt. 

L’objectif est alors d’élaborer des représentations compactes de la séquence géométrique 

(Gt)t∈{1,...,T }, capables de prendre en compte les corrélations spatio-temporelles du signal. 

Notons que la connectivité Γ du maillage étant fixe tout au long de la séquence, elle est codée 

une seule fois pour toute la séquence avec une technique arbitraire de compression de maillages 

statiques. Dans nos travaux, nous avons privilégié lecodeurTFANproposé au Chapitre 2.


Figure 4.4 : Exemples de maillages 3D dynamiques.

4.4 Fonctionnalités avancées 103 

4.4 Fonctionnalités avancées 

Dans le contexte industriel moderne de convergence des technologies fixes et mobiles, les 

méthodes de compression 3D doivent impérativement répondre au paradigme d’accès universel. 

Ainsi, permettre la transmission/diffusion des animations 3D sur différents réseaux 

fixes/mobiles de débits variables et vers des terminaux (PDA, PC, téléphone portable...) de 

capacités de calcul, de mémoire et de visualisation variées est aujourd’hui indispensable pour 

la mise en place des applications multimédias futures. De point de vue méthodologique, cela 

se traduit par le support des fonctionnalités suivantes : 

• Streaming :interpréter le flux binaire au fur et à mesure de sa transmission au terminal 

en décodant au fil de l’eau des paquets de données décrivant chacun un segment temporel 

de l’animation, 

• Scalabilité spatiale: adapter (par décodage partiel du flux compressé) la résolution 

spatiale (le nombre de sommets/triangles) du maillage aux performances d’affichage du 

terminal et/ou au débit disponible, 

• Scalabilité temporelle :décoder partiellement le flux binaire afin de générer une animation 

à une cadence vidéo adaptée au performances de calcul du terminal, 

• Scalabilité en qualité : adapter (grâce à une structuration adéquate du flux binaire) 

la qualité (i.e., précision des positions des sommets) de l’animation au débit disponible, 

• Codage des attributs : coder efficacement les attributs associés aux sommets d’un 

maillage dynamique (e.g., normales, couleurs, coordonnées de texture...), 

• Codage quasi-sans pertes : assurer une borne maximale sur l’erreur induite par la 

compression des positions et des attributs d’un maillage dynamique. 

L’élaboration de techniques de compression efficaces avec des fonctionnalités de transmission 

et d’affichage adaptées aux contenus dynamiques est aujourd’hui un enjeu majeur comme 

en témoigne l’important nombre de travaux de la littérature émergente consacrée àcesujet, 

présentée au paragraphe suivant. 

4.5 Synthèse bibliographique 

Depuis les travaux de Lengyel, de nombreuses contributions méthodologiques et techniques 

ont été proposées [2]. L’étude de l’état de l’art permet d’identifier quatre grandes familles : 

1. Les méthodes par prédiction spatio-temporelle locale, 

2. Les approches exploitant une Analyse en Composantes Principales (ACP), 

3. Les représentations par ondelettes, 

4. Les schémas àbasedesegmentation. 

Pour chacune de ces familles, détaillons àprésent principe, avantages, limitations ainsi qu’approches 

représentatives. 

4.5.1 Prédicteurs spatio-temporels locaux 

Les techniques de codage par prédiction spatio-temporelle traitent l’animation localement 

dans l’espace et dans le temps. A un instant donné, la position d’un sommet est prédite à 

partir uniquement des sommets situés dans un voisinage spatio-temporel local.


Comme représentatif de cette famille, citons tout d’abord le schéma de compression IC (Interpolation 

Compression) [121], adopté en 2003 par le standard MPEG-4/AFX 19 [119]. Le principe 

consiste àreprésenter l’animation par un sous-ensemble de trames clés sous-échantillonnant 

la séquence (Mt)t. A partir de ces trames clés, les trames intermédiaires sont déterminées automatiquement 

en appliquant une interpolation linéaire. Pour coder la séquence des trames clés, 

un mécanisme de prédiction spatio-temporelle est appliqué. 

Différentes stratégies peuvent être adoptées pour la sélection des trames-clés, depuis le 

simple échantillonnage temporel uniforme jusqu’à des techniques plus sophistiquées qui minimisent 

un critère d’erreur globale sur l’ensemble de la séquence pour une sélection automatique 

et optimale. Ainsi, dans [121] les auteurs proposent-ils de partir d’un ensemble minimal de 

trames clés constitué delapremière et de la dernière trame de la séquence et de le raffiner 

itérativement, en ajoutant successivement des trames clés jusqu’à obtenir un seuil d’erreur 

d’approximation prédéfini. 

Par principe de causalité, les approches prédictives nécessitent de considérer un ordre de 

parcours des sommets du maillage, spécifiant une relation d’antériorité entre ceux-ci. Cet ordre 

peut être défini de différentes manières, soit en considérant l’ordre naturel dans lequel les 

sommets sont spécifiés dans le format de représentation considéré(e.g., VRML), soit en fonction 

de l’approche de compression statique de la première trame (exploitant le plus souvent les 

relations d’adjacence entre les sommets du maillage). Quelle que soit l’approche retenue, la 

prédiction d’un sommet courant v est effectuée à partir d’un ensemble de sommets antérieurs 

à v par rapport à l’ordre considéré. On parle alors d’une prédiction à partir de sommets déjà 

codés/décodés. 

Dans la formulation initiale introduite dans [121], les trois prédicteurs suivants sont considérés : 

• un prédicteur spatial, noté PS, 

• un prédicteur temporel, noté PT , 

• un prédicteur spatio-temporel noté PST. 

Les positions prédites PS(v, t), PT (v, t) etPST(v, t) du sommet v à l’instant t s’expriment 

respectivement comme décrit par les équations (4.2), (4.3) et (4.4) : 

PS(v, t) =χ w t 

, (4.2) 

PT (v, t) =χ v t−1, (4.3) 

PST(v, t) =χ v t−1 +(χ w t − χ w t−1), (4.4) 

où χv t représente la position du sommet courant v à l’instant t et w désigne l’index d’un sommet 

déjà codé. 

Les prédicteurs spatial et temporel correspondent respectivement à une simple prédiction 

delta par rapport à l’ordre de parcours spatial et temporel. Le prédicteur spatio-temporel 

combine les deux, en ajoutant au prédicteur temporel un facteur différentiel de correction 

spatiale. 

De manière similaire, les techniques [122], [123] et [124] exploitent le mêmeprincipede 

prédiction en proposant des prédicteurs spatio-temporels plus élaborés, fondés sur un parcours 

déterministe des sommets du maillage de voisin à voisin, analogue à ceux décrits dans [3] et 

[125]. 

19. www.mpeg-3dgc.org

4.5 Synthèse bibliographique 105 

Dans [122], le codeur Dynapack introduit deux prédicteurs différents, appelés ELP (Extended 

Lorenzo Predictor)etReplica.Lepremiergénéralise au cas dynamique la règle de prédiction 

du “parallélogramme”, bien connue et largement exploitée pour la compression de maillages 

statiques (cf. 1.3.1.6). Ce prédicteur, noté Pparal(v, t), s’appuie sur l’hypothèse que le sommet 

v àprédire forme un parallélogramme avec le triangle formé par trois de ses voisins déjà codés, 

notés q, r, ets : 

Pparal(v, t) =χ q 

t + χ r t − χst , (4.5) 

Le prédicteur ELP (Figure 4.5), noté PELP(v, t), introduit un facteur supplémentaire de 

correction par rapport àlarègle du “parallélogramme”. Ainsi, la valeur prédite à l’instant t 

est-elle corrigée par l’erreur correspondante de prédiction à l’instant t−1, notée par ɛparal(v, t), 

comme décrit dans l’équation suivante : 

où 

PELP(v, t) =Pparal(v, t)+ɛparal(v, t), (4.6) 

ɛparal(v, t) =χ v t−1 − Pparal(v, t − 1). (4.7) 

Figure 4.5 : Prédicteur ELP. 

Le prédicteur Replica (Figure 4.6), noté PReplica(v, t), exprime la position χv t−1 

v à l’instant t − 1dansunrepère local RReplica(v, t − 1) = (χs t−1 ,Avt−1 ,Bv t−1 ,Cv t−1 

triangle voisin (g, r, s) déjà parcouru, comme décrit par l’équation (4.8) : 

du sommet 

) attaché àun 

χ v t−1 = χst−1 + avt−1 .Avt−1 + bvt−1 .Bs t−1 + cvt−1 .Cv t−1 . (4.8) 

Ici, χ s t−1 est l’origine du repère RReplica(v, t− 1) considéré et les vecteurs A v t−1 , Bv t−1 et Cv t−1 

sont définis par (Figure 4.6) : 

A v t−1 = χrt−1 − χst−1 , (4.9) 

B v t−1 

= χqt−1 

− χst−1 , (4.10) 

C v t−1 = 

Av t−1 ∧ Bv t−1 

 

v ||At−1 ∧ Bv , (4.11) 

3 

t−1|| 

où l’opérateur ∧ désigne le produit vectoriel de deux vecteurs et ||.|| la norme euclidienne. 

Notons que le repère ainsi construit n’est pas orthogonal, seul le vecteur C v t−1 étant par 

définition orthogonal aux vecteurs A v t−1 et Bv t−1 . 

Les coordonnées relatives (a v t−1,b v t−1,c v t−1)deχ v t−1 dans le repère RReplica(v, t−1) s’expriment 

alors comme : 

a v t−1 = Avt−1 · Dv t−1 × Bv t−1 · Bv t−1 + Bv t−1 · Dv t−1 × Avt−1 · Bv t−1 

Av t−1 · Av t−1 × Bv t−1 · Bv t−1 + Av t−1 · Bv t−1 × Av t−1 · Bv , (4.12) 

t−1


b v t−1 = Avt−1 · Dv t−1 × Av t−1 · Bv t−1 + Bv t−1 · Dv t−1 × Av t−1 · Av t−1 

Av t−1 · Bv t−1 × Avt−1 · Bv t−1 + Bv t−1 · Bv t−1 × Avt−1 · Av , 

t−1 

(4.13) 

c v t−1 = Dv t−1 · Cv t−1 , 

avec D 

(4.14) 

v t−1 =(χvt−1 − χst−1 ). 

Ces coordonnées locales sont enfin exploitées pour prédire la position du sommet v à 

l’instant t sous l’hypothèse que les coordonnées relatives au nouveau repère RReplica(v, t) = 

(χs t ,Avt ,Bv t ,Cv t )à l’instant t sont conservées de l’instant (t − 1) à t. 

La prédicteurPReplica(v, t) est alors défini par : 

PReplica(v, t) =χ s t + av t−1 .Av t + bv t−1 .Bv t + cv t−1 .Cv t 

. (4.15) 

Notonsqueleprédicteur ELP est idéal (i.e., conduit à une erreur résiduelle de prédiction nulle) 

pour les translations. Le prédicteur Replica, plus complexe, parvient àprédirelegroupedes 

transformations de similarités avec une erreur résiduelle de prédiction nulle. 

Figure 4.6 : Prédicteur Replica. 

Dans [123], les auteurs proposent une variante du prédicteur Replica appelé AP(Angle 

Preserving) qui s’appuie cette fois sur la construction d’un repère orthogonal local, autour de 

chaque sommet du maillage. Plus précisément, le repère orthonormé RAP (v, t) =(O v t ,Xv t ,Yv 

t ,Zv t ) 

associé au sommet v à l’instant t est défini par (figure 4.7) : 

où X v t 

est un vecteur du plan (χq t ,χr t ,χs v 

t ) orthogonal à Yt . 

O v t = 1 

2 (χr t + χ q 

t ), (4.16) 

Y v χqt 

− χ 

t = r t 

||χ q 

t − χr , 

t || 

(4.17) 

Z v t = Xv t ∧ Xv t , (4.18) 

Etant donné que le prédicteur AP définit des repères orthonormés, la matrice de transition 

du repère RAP (v, t−1) vers RAP (v, t) est orthogonale. Cette propriété implique la préservation 

desanglesentrelessommetsv, q, r et s d’où le nom de ce prédicteur. Notons qu’il s’agit d’un 

prédicteur idéal pour les mouvements rigides.


Figure 4.7 : Prédicteur AP. 

Dans [124], les auteurs proposent le prédicteur MV (vertex-wise Motion Vector), noté 

PMV(v, t), dont le principe consiste àprédire le mouvement d’un sommet par une moyenne 

pondérée des mouvements de ses voisins antérieurs. Ce prédicteur peut également être interprété 

comme une généralisation au cas dynamique du prédicteur moyenneur, noté Pmoyen(v, t), 

introduit dans [41] qui associe à un sommet v une moyenne pondérée des positions de ses voisins 

décodés (Figure 4.8). Plus précisément, le prédicteur Pmoyen(v, t) estdéfini comme : 

Pmoyen(v, t) = 

, (4.19) 

w∈ℵ(v) 

αwχ w t 

où ℵ(v) ={w1,w2, ..., wN} est une fenêtre spatiale de prédiction constituée de l’ensemble des 

sommets voisins de v déja décodés et (αw)w∈ℵ(v) sont des poids réels associés à ces sommets. 

sont considérés, les auteurs pro- 

Contrairement à [41], où des poids uniformes α unif 

w 

= 1 

|ℵ(v)| 

posent de dériver les poids optimaux (α opt 

w )w∈ℵ(v) minimisant l’erreur quadratique moyenne de 

prédiction sous la contrainte : 

 

w∈ℵ(v) 

α opt 

w 

=1. (4.20) 

Le prédicteur MV est obtenu en corrigeant la position prédite par le prédicteur moyenneur 

à l’instant t par l’erreur correspondante à l’instant t − 1 (voir figure 4.9) : 

PMV (v, t) =Pmoyen(v, t)+(χ v t−1 − Pmoyen(v, t − 1)). (4.21) 

L’erreur résiduelle de prédiction, notée ɛMV (v, t), est alors définie comme : 

ɛMV (v, t) =χ v t − PMV (v, t). (4.22) 

Notonsquedanslecasdedéformations élastiques, les auteurs montrent que le prédicteur 

MV atteint ses limitations. Ils proposent alors d’appliquer une deuxième étapedeprédiction 

supplémentaire, portant sur les erreurs résiduelles ɛMV (v, t). Quatre modes de prédiction, 

nulle, spatiale, temporelle et spatio-temporelle sont finalement proposés. Une dernière optimisation 

concerne le partitionnement des sommets du maillage en parties caractérisées par des 

modes de prédiction différents, déterminées de façon optimale par la minimisation d’un critère 

débit/distorsion.


Figure 4.8 : Prédicteur moyenneur (N=4). 

En pratique, le prédicteur MV se montre particulièrement efficace àbasdébits comme 

analysé dans [123]. De plus, dans le cas où des poids uniformes sont utilisés, ce prédicteur 

nécessite uniquement des opérations d’addition ce qui réduit considérablement sa complexité 

de calcul. 

Figure 4.9 : Prédicteur MV. 

Dans [126], le codeur SSLPC (Spatial Scalable Linear Predictive Coder) hybride la stratégie 

de prédiction MV avec une structure hiérarchique définie exclusivement à partir de la connectivité 

du maillage. Celle-ci est tout d’abord progressivement décimée, comme décrit dans la 

section 7.4.3. La stratégie de simplification sous-jacente consiste àéliminer àchaqueniveau 

tous les sommets de valence inférieure à 6, puis à appliquer une procédure de remaillage visant 

à maintenir les valences de leurs voisins autour d’une valeur de 6. Soient L le nombre de niveaux 

de décimation appliqués et Γl la connectivité obtenue àl’étape de décimation l. En partant 

du niveau de détails le plus grossier ΓL−1, le processus de simplification est inversé eninsérant 

successivement les sommets dans l’ordre inverse de leur décimation. La position d’un sommet


v ∈ Γl est alors prédite en appliquant le prédicteur MV avec poids uniformes et en considérant 

la connectivitéΓl. Les auteurs introduisent également le codeur STSLPC (Spatio-Temporal Scalable 

Linear Predictive Coder) qui exploite une variante de MV avec une prédiction temporelle 

bidirectionnelle. Enfin dans [127], les codeurs LOPC (Layered One-directionnal Predictive Coder) 

etLBPC(Layered Bi-directionnal Predictive Coder ) exploitent les predicteurs de SSLPC 

et STSLPC relativement àunrepère local lié au voisinage du sommet courant de façon analogue 

à [123]. 

Les techniques MPEG-4/AFX-IC, Dynapack, MV et AP présentent l’avantage d’un faible 

coût de calcul, ce qui les rend particulièrement adaptées aux applications de décodage en tempsréel. 

Toutefois, une règle de parcours déterministe des sommets du maillage est nécessaire, ce 

qui présente un handicap pour des fonctionnalités plus avancées comme la scalabilité spatiale 

ou la scalabilité en qualité. 

Les approches SSLPC, STSLPC, LOPC et LBPC s’affranchissent de ces limitations en 

combinant prédiction spatio-temporelle locale et représentation hiérarchique du maillage dynamique. 

Notons toutefois que la structure hiérarchique proposée est générée exclusivement 

à partir de l’information de connectivité sans aucune référence àlagéométrie du maillage. 

Dans le cas de modèles caractérisés par un échantillonnage spatial non-uniforme, les niveaux 

de détails intermédiaires obtenus ainsi que les prédicteurs hiérarchiques proposés sont alors 

sous-optimaux ou même inefficaces. 

Une deuxième famille de méthodes, décrite dans le paragraphe suivant, assure la scalabilité 

en qualité à l’aide d’une ACP du signal géométrique tout en garantissant l’optimalité, au sens 

de la norme euclidienne, des représentations intermédiaires. 

4.5.2 Compression par ACP 

Cette famille de méthodes a été initiée dans [128], où une ACP du champ de déformation 

du maillage est proposée pour représenter la géométrie dynamique du maillage. Le codeur PCA 

(Principal Component Analysis compression) proposé applique tout d’abord une procédure de 

compensation du mouvement rigide global. Le champ de mouvement résiduel obtenu est ensuite 

décomposé sur la base des vecteurs propres de l’ACP. Pour représenter le signal géométrique, 

on retient un ensemble de vecteurs propres de la base ACP correspondant aux plus grandes 

valeurs propres, ainsi que les coefficients de la décomposition obtenue. 

Dans [129], les auteurs présentent une variante de l’approche PCA avec une procédure de 

compensation du mouvement affine global combinée à une ACP réalisée de manière indépendante 

selon chacune des coordonnées x, y et z. Une procédure de sélection automatique du nombre 

de vecteurs de base retenus fondée sur l’analyse des valeurs propres de l’ACP, est également 

proposée. 

L’approche PCA est encore reprise et améliorée dans [130] à l’aide d’un schéma de prédiction 

linéaire de second ordre dans l’espace des coefficients de la décomposition. Les auteurs montrent 

qu’en combinant ACP et prédiction linéaire il est possible de mieux prendre en compte les 

corrélations temporelles du signal géométrique. Contrairement à [128], le codeur LPCA (Linear 

PCA) propose une étape supplémentaire de quantification uniforme des vecteurs propres et des 

coefficients de la décomposition. 

Dans [131, 132], la procédure de quantification de LPCA est raffinée davantage à l’aide 

d’une quantification adaptative des vecteurs propres, guidée par une procédure d’optimisation 

minimisant les distorsions sous la contrainte d’un débit fixé. A bas débits, l’approche APCA


(Adaptive PCA coder) proposée montre des gains significatifs par rapport aux techniques PCA 

et LPCA. 

Dans une optique légèrement différente, le codeur CODDYAC [133] exploite une ACP dans 

l’espace des trajectoires 20 des sommets (au lieu de l’appliquer dans l’espace des formes 21 ). Une 

prédiction des coefficients de la décomposition, par règle du “parallélogramme” (cf. Section 

4.5.1) est également introduite. La technique proposée est particulièrement efficace dans le 

cas des géométries fortement corrélées spatialement. Afin d’alléger la complexité de calcul, les 

auteurs proposent de segmenter l’animation en sous-séquences temporelles qui sont traitées de 

manière indépendante. 

Sur la même lignée, l’approche CPCA (Clustered PCA) [134] exploite une procédure de 

segmentation [135] des sommets du maillage optimisée pour une représentation par ACP. Les 

trajectoires des sommets de chaque partie sont ensuite analysées par ACP afin d’en extraire 

un ensemble de trajectoires propres. Celles-ci sont à leur tour compressées en appliquant une 

deuxième ACP qui vise àéliminer les corrélations temporelles. Les résultats rapportés [134] 

montrent que l’approche CPCA permet de mieux capturer les comportements linéaires locaux 

du champ de mouvement par rapport aux techniques [128] et [130]. 

L’approche RLPCA (Relative Local Principal Component Analysis) présentée dans [136] 

segmente le maillage dynamique au sens du mouvement afin de dériver un ensemble de repères 

locaux associés aux différents clusters de la partition. Les trajectoires des sommets sont exprimées 

dans ces repères locaux avant compression par ACP. 

Les approches CPCA et RLPCA utilisent le même nombre de vecteurs propres pour l’ensemble 

des clusters considérés. Ce paramètre doit être fixé manuellement par l’utilisateur, ce qui 

constitue une limitation de ces méthodes. Afin de s’affranchir de cet inconvénient, une méthode 

de sélection automatique et adaptative du nombre de vecteurs propres de chaque cluster est 

proposée dans [137]. Le principe est d’appliquer une procédure d’optimisation minimisant les 

distorsions de compression sous la contrainte d’un débit fixé. 

Les approches PCA, LPCA et APCA sont spécifiquement adaptées àdesséquences longues 

et répétitives avec un nombre de sommets relativement réduit par rapport au nombre de trames. 

A l’opposé, les techniques CODDYAC, CPCA et RLPCA sont optimisées pour des séquences 

animées avec de fortes corrélations spatiales. 

En ce qui concerne la complexité de calcul, les approches PCA, LPCA et APCA sont très 

gourmandes en temps de calcul, avec une complexité deO(V × T 2 + V 2 × T + min(V,T) 3 ) 

[129]. Cela est dû au traitement global des séquences animées, aussi bien au niveau spatial que 

temporel. Les techniques CPCA, CODDYAC et RLPCA apportent des éléments de solution 

àceproblème en appliquant une segmentation spatiale et/ou temporelle de l’animation et 

une ACP indépendante sur chacune des parties déterminées. Les procédures de segmentation 

proposées par CPCA et RLPCA restent en revanche relativement complexes en temps de calcul 

et nécessitent l’intervention de l’utilisateur pour spécifier le nombre de clusters. 

Les approches de compression par ACP répondent pleinement à la fonctionnalité descalabilité 

en qualité qui est naturellement acquise en transmettant les vecteurs et les coefficients 

correspondants dans un ordre décroissant des valeurs propres associées. Les représentations 

intermédiaires générées sont en plus optimales par rapport à la norme euclidienne étant donné 

les propriétés de la transformée KL (Karhunen-Loève)[138, 139] sous-jacente. Notons toutefois 

20. Espace vectoriel ou chaque vecteur décrit l’évolution temporelle d’une des trois coordonnées x, y ou z 

d’un sommet arbitraire fixé. 

21. Espace vectoriel ou chaque vecteur décrit la géométrie du maillage àuninstantt donné.


que la scalabilité spatiale des flux compressés n’est pas assurée, la connectivité du maillage 

restant fixe quel que soit le niveau de détaildusignalgéométrique considéré. 

Ces aspects de scalabilité spatiale et en qualité sont notamment pris en compte par les techniques 

à base de transformées en ondelettes, décrites dans le paragraphe suivant, qui s’appuient 

sur le concept d’analyse multirésolution. 

4.5.3 Compression par transformées en ondelettes 

Depuis maintenant plus de 20 ans, les transformées en ondelettes sont intensivement utilisées 

pour le codage d’images et de vidéos dans des contextes aussi bien académiques, industriels 

que de normalisation internationale. Ce large succès s’explique par le riche éventail de fonctionnalités 

offertes, alliant dans un cadre unifié efficacitédecompression, scalabilité spatialeet 

en qualité etcomplexitédecalculréduite. 

L’extension des ondelettes, classiquement définies sur des connectivités régulières (i.e., grille 

régulière de pixels de l’image), à des maillages 3D de topologies arbitraires n’est en revanche pas 

un problème trivial. La littérature relativement récente consacrée à ce sujet fait apparaître trois 

grandes familles d’approches : ondelettes temporelles, spatiales régulières ou semi-régulières et 

spatiales irrégulières. 

La première famille d’approches opère une décomposition en ondelettes 1D selon la dimension 

temporelle de l’animation, seule bénéficiant en général d’une structure d’échantillonnage 

régulière. 

4.5.3.1 Ondelettes temporelles 

Dans [140], les auteurs introduisent une approche de compression fondée sur une analyse 

en ondelettes 1D du champ de vitesses de l’animation. Le codeur proposé calcule tout d’abord 

la séquence des vecteurs vitesse (ϑ v t )t associés à chaque sommet v à l’instant t. Une analyse 

en ondelettes B-spline cubiques 1D [141] aux trois coordonnées x, y et z de (ϑ v t )t est ensuite 

appliquée. En raison des corrélations temporelles du signal vitesse, les coefficients ondelettes 

obtenus sont en pratique concentrés sur les basses fréquences. Les auteurs proposent alors 

de coder et de transmettre uniquement les coefficients supérieurs à un certaine seuil minimal 

ɛ, spécifié par l’utilisateur. Le reste des coefficients est mis àzéro. Au niveau du décodeur, 

une version approchée ( ˜ ϑ v u )t du signal vitesse est reconstruite en appliquant la transformée en 

ondelettes inverse. En disposant de la position initiale du sommet v ainsi que de ses vecteurs 

vitesses à tout instant, la trajectoire reconstruite (˜χ v t )t du sommet v est obtenue comme décrit 

par l’équation (4.23) : 

˜χ v t =˜χv 1 + 

u=t−1 

u=1 

˜ϑ v u . (4.23) 

Notons toutefois que cette dernière étape peut introduire un phénomène de propagation des 

erreurs. En effet, les vecteurs vitesse reconstruits ( ˜ ϑ v u )t peuvent être différents des originaux, 

typiquement dans le cas où ils subissent une procédure de quantification. 

Dans [142], le codeur TWC (Temporal Wavelet-based Compression) compresse l’animation 

en appliquant un schéma de lifiting [58] temporel 1D aux trajectoires des sommets. Une 

prédiction delta est ensuite appliquéeauxcoefficientsdebassesfréquences. Les coefficients ondelettes 

obtenus sont enfin quantifiés de façon adaptative afin d’optimiser la qualité visuelle de


l’animation reconstruite sous la contrainte d’un débit fixé. L’approche TWC est efficace dans le 

cas des animations présentant des corrélations temporelles relativement importantes. Toutefois, 

la non-prise en compte des éventuelles corrélations spatiales pénalise sévèrement son efficacité, 

surtout dans le cas des séquences animées courtes avec un nombre de sommets important. En 

outre, observons que l’étapedeprédiction spatiale des coefficients de basses fréquences de la 

décomposition en ondelettes peut introduire une propagation des erreurs comme le montre la 

dégradation significative des performances du codeur àtrès bas débits [142]. 

Dans [143], les auteurs améliorent les performances de [142] en introduisant une étape 

de compensation de mouvement. Le maillage est partitionné enunnombreK de parties, 

prédéfini par l’utilisateur. Le mouvement de chaque partie est décrit par un vecteur 3D de 

déplacement correspondant à un mouvement translationnel global associéà la partie considérée. 

Aucune procédure de segmentation au sens du mouvement du maillage dynamique n’est en 

revanche proposée. De plus, le modèle translationnel de compensation de mouvement montre 

ses limitations pour des mouvements plus complexes (e.g., rotations, déformations élastiques) 

caractéristiques des animations de personnages articulés. 

Dans [144, 145, 146], les auteurs s’affranchissent de ces limitations en adoptant une stratégie 

de compensation du mouvement par modèle affine par morceaux. Le codeur MCDWT (Motion 

Compensated Discrete Wavelet Transform) proposé exploite une procédure de segmentation 

au sens du mouvement par croissance de région dont le principe est le suivant. Tout d’abord, 

un sommet est choisi au hasard et la transformée affine décrivant de manière optimale (au sens 

des moindres carrés) le mouvement de son voisinage de premier ordre est calculée. L’ensemble 

des sommets dont le mouvement peut être décrit par cette même transformée affine avec une 

erreur de compensation de mouvement inférieure àunseuilɛ sont regroupés dans un même 

cluster. Ensuite, un nouveau sommet est tiré au hasard à partir des sommets restants et le 

processus est réitéré jusqu’à ce que l’ensemble des sommets du maillage soient assignés à une 

partie. Notons que le paramètre ɛ est ici fixé empiriquement. Les résultats rapportés par les 

auteurs montrent que les valeurs optimales peuvent varier significativement d’une animation à 

une autre. 

Une deuxième famille d’approches multirésolution s’appuie sur une conversion de la connectivité 

irrégulière initiale du maillage en une connectivité semi-régulière ou totalement régulière, 

adaptée à la compression par ondelettes spatiales 2D. 

4.5.3.2 Ondelettes spatiales régulières et semi-régulières 

La technique SRWC (Semi-Regular Wavelet-based Compression) présentée dans [147, 148] 

opère un remaillage semi-régulier de la connectivité du maillage dynamique, afin de construire 

un schéma de lifting de type Butterfly [149]. Plus précisément, le codeur SRWC exploite la 

procédure de remaillge décrite dans [62] afin de déduire une paramétrisation de la première 

trame M1 sur un maillage de base obtenu par décimation [150] de M1. La version remaillée 

est obtenue en exploitant un schéma de subdivision de type Butterfly, les informations de 

paramétrisation ainsi qu’une procédure de lancée de rayon. La transformée en ondelettes semirégulière 

ainsi générée est ensuite appliquée au signal d’animation en tenant compte des mouvements 

rigides locaux des sommets. Les coefficients de la décomposition en ondelettes obtenus 

sont enfin quantifiés et compressés avec le codeur SPIHT [60]. 

Dans [12], les auteurs proposent la représentation Geometry Video (GV) dont le principe 

consiste à convertir la géométrie 3D dynamique en une séquence d’images 2D. L’approche GV 

exploite un découpage du maillage (nécessaire pour obtenir une topologie homéomorphe àun


disque) et une paramétrisation sur un domaine 2D carré. La topologie initiale du maillage est 

complètement abandonnée et remplacée par une topologie régulière, obtenue en échantillonnant 

uniformément le domaine paramétrique. Une procédure de compensation du mouvement affine 

global est tout d’abord appliquée aux images géométriques construites. La séquence des erreurs 

résiduelles ainsi obtenues est ensuite compressée par le codeur d’images 2D EZW (Embedded 

Zerotree Wavelet encoder) [151]. 

Les codeurs [147, 148] et [12] offrent des performances de compression compétitives tout en 

assurant des fonctionnalités de scalabilité spatialeetenqualité. En revanche, la procédure de 

remaillage considérée peut conduire à une perte de détails de la surface ainsi qu’à l’apparition 

d’artéfacts visuels dans les régions de forte distorsion de paramétrisation. 

Afin de s’affranchir des distorsions inhérentes à toute technique de paramétrisation, une 

dernière famille d’approches propose une construction directe d’ondelettes irrégulières définies 

sur des structures topologiques arbitraires. 

4.5.3.3 Ondelettes spatiales irrégulières 

Dans [152], les auteurs introduisent une famille d’ondelettes anisotropes irrégulières, définies 

pour un maillage de connectivité arbitraire. Ici, les coefficients des filtres d’analyse varient en 

fonction du voisinage topologique et des propriétés géométriques locales autour de chaque sommet 

du maillage. Par conséquent, ils doivent être codés et intégrés dans le flux binaire, pour assurer 

leur disponibilitéauniveaududécodeur. Cette information paramétrique supplémentaire, 

coûteuse en terme de débit, rend cette approche inadaptée à la compression de maillages statiques. 

Toutefois, elle trouve pleinement son utilité dans le cas des maillages dynamiques, où 

cette information peut être déduite à partir uniquement de la première trame. Les développements 

théoriques introduits dans [152] sont appliqués à des objectifs de compression dans 

[153]. La technique proposée, dite Animation Wavelets Compression (AWC), construit une 

famille d’ondelettes anisotropes irrégulières, à partir d’une structure hiérarchique de maillages 

progressifs [10] déduite à partir de la première trame de la séquence. 

Dans [154], les auteurs appliquent l’approche de codage par ondelettes irrégulières [63] 

définie pour le cas statique (cf. Section 1.3.2.9) à la compression de maillages dynamiques. 

De façon analogue au codage vidéo, trois types de trames sont considérés : (1) les trames de 

type de I traitées de façon indépendante (sans prédiction temporelle), (2) les trames de type 

Pprédites àpartirdeladernière trame I et (3) les trames de type B prédites à partir de 

deux trames de type I ou P. Contrairement à [153], l’approche proposée dans [154] permet un 

codage quasi-sans perte. La famille d’ondelettes proposée reste cependant sous-optimale, les 

filtres utilisés ainsi que la structure de subdivision étant dérivés pour la majorité des sommets 

(cf. Section 1.3.2.9) à partir de la connectivité du maillage sans tenir compte de la géométrie. 

Les approches de compression par ondelettes irrégulières [153] et [154] permettent d’atteindre 

des taux de compression compétitifs. La structure hiérarchique définie par la construction 

des ondelettes leur permet de supporter de façon naturelle les fonctionnalités de scalabilité 

spatiale et de scalabilité en qualité. Ainsi, pour les deux approches, au niveau du décodeur, le 

maillage de base est raffiné eninsérant successivement les sommets décimés dans l’ordre inverse 

de leur simplification. Cela permet de générer des niveaux de détails successifs en décodant à 

chaque étape uniquement les coefficients ondelettes associés aux sommets insérés. 

Les approches [153] et [154] sont en revanche inadaptées aux maillages avec un nombre 

réduit de sommets par composante connexe, où les structures de subdivision utilisées ne comportent 

pas suffisamment de niveaux hiérarchiques pour décomposer le signal de façon efficace. 

Cela limite le domaine d’application de ces techniques.


Une dernière famille d’approches, décrite dans le paragraphe suivant, étend aux maillages 

3D animés les techniques traditionnelles de compression vidéo, en considérant un mécanisme 

de compensation de mouvement associé à une partition du maillage. 

4.5.4 Compression par segmentation 

C’est dans cette famille que s’inscrit la toute première méthode de compression de maillages 

animés introduite par Lengyel [120], dont le principe consiste à segmenter le maillage en composantes 

dont le mouvement peut être décrit fidèlement par une transformée affine. L’approche 

heuristique de segmentation proposée sélectionne au hasard 10% des triangles du maillage et 

réalise une classification des sommets restants par rapport au mouvement de ces triangles. 

L’animation est alors exprimée par l’ensemble des transformées affines obtenues ainsi que par 

l’ensemble des erreurs de compensation de mouvement associées. Les transformées affines sont 

codées sans pertes. Les erreurs de prédiction sont quantifiés et compressées avec un codeur 

arithmétique [26]. 

Une extension du codeur de Lengyel, fondée sur une mise en correspondance des sommets 

du maillage aux différents instants temporel de l’animation par l’algorithme ICP (Iterative Closest 

Point), est proposée dans [155]. Le principe consiste àdériver une segmentation purement 

topologique [156] qui vise à partitionner le maillage en K parties avec un nombre quasi-égale 

de sommets, tout en minimisant le nombre de sommets situés àlafrontière des parties obtenues. 

L’algorithme ICP est ensuite utilisé pour estimer le mouvement affine de chacune de ces 

parties. Les sommets du maillage sont enfin catégorisés en deux types : (1) sommets dont le 

mouvement peut être décrit uniquement par des transformées affines et (2) sommets dont le 

mouvement est décrit par une composante affine et un terme supplémentaire d’erreur résiduelle 

de compensation de mouvement. Dans [157], les auteurs généralisent cette approche au cas des 

maillages dynamiques avec connectivité variable dans le temps. 

Le codeur RT (Rigid Transform) proposé dans [158] étend encore l’approche initiale de 

Lengyel en modélisant cette fois le mouvement des sommets uniquement par un ensemble de 

transformées rigides et en s’affranchissant de toute erreur résiduelle de compensation de mouvement. 

Les auteurs introduisent également une nouvelle procédure de segmentation fondée sur 

une minimisation au sens des moindres carrés. Le principe consiste à regrouper itérativement le 

maillage dynamique en parties jusqu’à ce que l’erreur globale de compensation de mouvement 

devienne supérieure à un certain seuil pré-défini. 

L’approche PSC (Predictive Spectral Compression) introduite dans [159] exploite une procéduredesegmentationausensdumouvement 

par croissance de régions analogue à celle définie 

dans [136]. Les trajectoires des sommets sont ensuite exprimées dans des repères locaux liés à 

chaque cluster. Les trajectoires relatives ainsi obtenues sont enfin compressées en appliquant 

des transformées DCT temporelles aux coordonnées des sommets. Les coefficients DCT sont 

quantifiés uniformément, puis codés à l’aide du codeur arithmétique décrit dans [26]. 

Dans [160], les auteurs proposent le codeur TS (Triangle Strips-based compression) qui 

exploite la connectivité fixe du maillage dynamique pour le décomposer en bandes de triangles 

(BT) de longueurs quasi-uniformes. Par analogie avec les méthodes de codage vidéo, 

une procédure de compensation de mouvement est appliquée àchaqueBTenmodélisant son 

mouvement par un vecteur vitesse moyen. Les erreurs résiduelles de compensation de mouvement 

sont enfin compressées en appliquant des DCT 1D spatiales selon les trois coordonnées 

x, y et z des sommets de chaque bande.


Une représentation différente est proposée dans [161]. Ici, une structure volumique d’arbre 

octal (octree) est initialement définie àpartirdelaboîte englobante de l’objet. Ensuite, huit vecteurs 

de mouvement sont associés aux sommets de chaque sous-cube de l’arbre. Le mouvement 

des sommets du maillage à l’intérieur de chaque sous-cube est alors calculé par interpolation 

trilinéaire [162] à partir de ces vecteurs. Ainsi, le champ de mouvement est-il représenté à l’aide 

de la structure d’arbre octal et des vecteurs de mouvement associés à ses sommets. Une version 

optimisée de cette approche, appelée Dynamic 3D Mesh Compression (D3DMC), est proposée 

dans [162, 163]. Dans [162], les auteurs utilisent un codeur arithmétique avec contextes afin de 

mieux exploiter les propriétés statistiques du signal. Dans [163], ils raffinent la modélisation 

du mouvement en associant à chaque sommet : (1) soit le vecteur vitesse moyen du cube, (2) 

soit le résultat d’une interpolation trilinéaire, (3) soit la valeur exacte du vecteur si les deux 

derniers modèles sont inefficaces. 

En exploitant des représentations semi-globales combinées àdesmodèles de mouvement, les 

approches de compression par segmentation permettent de modéliser de façon compacte une 

large catégorie de mouvements. Les performances de compression ainsi que la complexité de 

calcul de ces approches sont souvent déterminées par la procédure de segmentation considérée. 

Leur limitation majeure est liée principalement aux discontinuités que le modèle de mouvement 

peut présenter àlafrontière entre parties qui peuvent induire des artéfacts visuels notamment 

àbasdébits. 

4.6 Analyse et discussion 

L’analyse de l’état de l’art montre que la grande majorité des approches de compression de 

maillages dynamiques 3D reprend le schéma et les principes traditionnels [164] de codage vidéo 

en deux phases : (1) compensation de mouvement et (2) codage par transformées des erreurs 

résiduelles de prédiction. Les tableaux 4.4 et 4.5 synthétisent respectivement les différentes 

stratégies adoptées par ces techniques ainsi que les différentes fonctionnalités supportées. 

Au niveau de la compensation de mouvement, une première stratégie exploite des modèles 

de mouvement relativement simples fondés sur une prédiction spatio-temporelle locale. A l’opposé, 

un deuxième type d’approches met en oeuvre une compensation du mouvement globale 

du maillage. Ces deux types de prédicteurs s’avèrent en pratique inadaptés pour la modélisation 

des mouvements complexes (e.g., mouvement de personnages articulés). Pour s’affranchir de ces 

limitations, les techniques les plus récentes privilégient une modélisation semi-globale du mouvement. 

Dans ce cas, le maillage animé est tout d’abord segmenté en parties sur lesquelles des 

modèles de mouvement sont ensuite construits. L’inconvénient majeur de cette modélisation 

par morceaux est lié aux discontinuités du champ de mouvement au niveau des frontières 

des parties. Ces discontinuités deviennent particulièrement visibles àbasdébits et dégradent 

considérablement la qualité des animations reconstruites. 

En ce qui concerne le codage des erreurs résiduelles de prédiction, les techniques de l’état de 

l’art exploitent le plus souvent une transformée (temporelle, spatiale ou spatio-temporelle) afin 

de décorréler le signal. Le choix de la transformée a une répercussion considérable sur l’efficacité 

de compression, sur la complexité de calcul ainsi que sur les fonctionnalités supportées. 

Une première classe d’approches exploitent une simple quantification uniforme des erreurs 

résiduelles de compensation de mouvement, couplée avec un codage arithmétique. Elles offrent 

la complexité de calcul la plus basse tout en assurant la fonctionnalité de codage quasi-sans 

pertes sur les erreurs de prédiction. Ces techniques se montrent néanmoins peu efficaces en


termes de performances de compression, surtout àbasdébit. En outre, elles ne supportent la 

fonctionnalité de scalabilité en qualité. Enfin, observons que seules les techniques par prédiction 

hiérarchique offrent la fonctionnalité de scalabilité spatiale. 

Les méthodes exploitant des transformées en DCT ou ondelettes temporelles semblent offrir 

le meilleur compromis entre complexité decalculetefficacité de compression. De plus, ces 

transformées supportent de façon naturelle la scalabilité en qualité puisque les coefficients 

spectraux peuvent être transmis progressivement, à partir des basses fréquences. Ces approches 

n’assurent pas en revanche la fonctionnalité de scalabilité spatiale. 

Les méthodes à base de transformées en ondelettes spatiales régulières ou semi-régulières 

offrent un large éventail de fonctionnalités : scalabilité spatiale, temporelle et en qualité. Les 

principales limitations de ces approches sont liées en revanche àlaprocédure de remaillage sousjacente 

qui est complexe en temps de calcul et peut favoriser l’apparition de discontinuités et 

d’artéfacts visuels. 

Les approches de compression par ondelettes spatiales irrégulières s’affranchissent de ces 

limitations en définissant des ondelettes adaptées à la connectivité du maillage. Ces techniques 

offrent de bonnes performances de compression tout en assurant la scalabilité spatiale, temporelle 

et en qualité. En revanche, elles ne garantissent pas l’optimalité desniveauxdedétails 

intermédiaires générés. 

Les techniques de compression par ACP exploitent une transformée de KL qui assure l’optimalité 

au sens de la norme euclidienne des représentations intermédiaires décodées au cours du 

processus de transmission. Ces techniques souffrent cependant d’une complexité decalculexorbitante, 

ce qui les rend en pratique inexploitables. Une segmentation (spatiale ou temporelle) 

préalable du maillage dynamique est souvent proposée pour s’affranchir de cet inconvénient. 

Toutefois, le flux compressé n’est scalable ni temporellement, ni spatialement. 

Bien que les fonctionnalités de streaming, de codage quasi-sans perte, ou de codage d’attributs 

photométriques liées àlasurfaces(e.g. normales, couleurs...) sont fondamentales pour 

exploitation industrielle des codeurs proposés, ces aspects restent le plus souvent non-traités, 

voire non-supportés par les techniques de la littérature. 


Dans ce chapitre, après une rapide synthèse des domaines d’application des contenus 3D 

dynamiques ainsi que des techniques de création et de représentation de ces données, nous 

avons présenté unétat de l’art des méthodes de compression de maillages 3D animés. Quatre 

grandes familles d’approches, prédictives, par ACP, à base de transformées en ondelettes ou 

encore par segmentation ont été identifiées et décrites avec, principe, méthodes représentatives, 

avantages et limitations. 

L’analyse de l’état de l’art montre qu’il n’existe pas actuellement de méthode satisfaisant 

à la fois aux contraintes d’efficacité de compression, de faible complexité de calcul ainsi qu’à 

des fonctionnalités plus avancées comme le streaming, le codage des attributs, la scalabilité 

(spatiale, temporelle et en qualité) ou encore le codage quasi-sans pertes. 

Les deux méthodes originales de compression de maillages dynamiques que nous proposons 

dans cette thèse s’attaquent notamment à cet objectif. S’inscrivant dans le cadre des approches 

par segmentation au sens du mouvement, elles font cohabiter différentes techniques prédictives


Techniques Compensation de mouvement Codage des erreurs résiduelles 

IC 

[122], 

[121], Dynapack • Prédiction spatio-temporelle • Quantification 

AP [123] et MV [124] locale • Codage arithmétique 

SSLPC, STSLPC [126], • Prédiction hiérarchique spatio- • Quantification uniforme 

LOPC et LBPC [127] temporelle locale • Codage arithmétique 

PCA [128, 129] • Compensation du mouvement 

rigide ou affine global 

• ACP 

LPCA [130] • Compensation du mouvement • ACP 

rigide global • Prediction linéaire temporelle 

• Quantification uniforme 

APCA [131, 132] • Compensation du mouvement • ACP 

rigide global • Quantification adaptative 

CPCA [134] • Compensation des translations • ACP par parties 

globales • Quantification uniforme 

RLPCA [136, 137] • Compensation par parties des • ACP par parties 

mouvements rigides • Sélection adaptative des vecteurs 

propres 

• Quantification uniforme 

CODDYAC [133] • Prédiction par la règle du • ACP 

“parallélogramme” • Quantification uniforme 

TWC [142] • Prédiction spatiale des coefficients • Schéma de lifting 1D 

ondelettes basses fréquences • Quantification adaptative 

MCDWT 

[144, 145, 146] 

• Compensation par parties • Schéma de lifting 1D 

du mouvement affine • Quantification adaptative 

SRWC [147, 148] • Compensation des mouvements • Schéma de lifting semi-régulier 

rigides locaux • Quantification uniforme 

• Codeur SPIHT 

GV [12] • Compensation du mouvement • Ondelette régulières 

afine global • Codeur EZW 

TO irrégulières • Prédiction delta temporelle • Ondelettes anisotropes ou 

[154, 153] paresseuses (lazy) irrégulières 

Lengyel [120], RT [158] • Compensation par parties des • Quantification uniforme 

et ICP [155, 157] mouvements rigides ou affines • Codage arithmétique 

PSC [159] • Compensation par parties des • DCT temporelle 

mouvements rigides • Quantification uniforme 

• Codage arithmétique 

TS [160] • Compensation des translations • DCT spatiale 1D 

par bandes de triangles • Quantification uniforme 

• Codage arithmétique 

D3DMC [161, 162, 163] • Prediction delta temporelle • Quantification uniforme 

• Modélisation àbased’octree • Codage arithmétique 

Table 4.4 : Etat de l’art : stratégies de compensation de mouvements et de codage des erreurs 

résiduelles de prédiction.


Techniques Codage des Scalabilité Scalabilité Scalabilité Quasi-sans Streaming 

attributs spatiale temporelle en qualité pertes 

IC [121] × × 

Dynapack [122] × × × 

AP [123] × × × 

MV [124] × × × 

SSLPC et STSLPC [126] × × × × 

LOPC et LBPC [127] × × × × 

PCA [128, 129] × 

LPCA [130] × 

APCA [131, 132] × 

CPCA [134] × 

RLPCA [136, 137] × 

CODDYAC [133] × × 

TWC [142] × 

MCDWT [144, 145, 146] × × 

SRWC [147, 148] × × × × 

GV [12] × × × × × 

TO irrégulières [154] × × × × × 

AWC [153] × × × 

Lengyel [120] × 

RT [158] × 

ICP [155, 157] × × × 

PSC [159] × 

TS [160] × × 

D3DMC [161, 162, 163] × × × 

Table 4.5 : Etat de l’art : fonctionnalités supportées. IC : Interpolation Compression, AP: 

Angle Preserving, MV : vertex-wise Motion Vector, SSLPC : Spatial Scalable Linear Predictive 

Coder, STSLPC:Spatio-Temporal Scalable Linear Predictive Coder, LOPC:Layered Onedirectionnal 

Predictive Coder, LBPC:Layered Bi-directionnal Predictive Coder, PCA:Principal 

Component Analysis compression, LPCA:Linear PCA, APCA:Adaptive PCA coder, 

CPCA : Clustered PCA, RLPCA:Relative Local PCA, TWC:Temporal Wavelet-based Compression, 

MCDWT:Motion Compensated Discrete Wavelet Transform, SRWC:Semi-Regular 

Wavelet-based Compression, GV:Geometry Videos, AWC (Anisotropic Wavelets Compression), 

TO : Transformée en Ondelettes, RT : Rigid Transform, ICP:Iterative Closest Point, 

PSC : Predictive Spectral Compression, TS:Triangle Strips-based compression, D3DMC: 

Dynamic 3D Mesh Compression.


et par transformées pour augmenter l’efficacité decompressionetrépondre aux besoins fonctionnels 

des applications industrielles modernes. De manière plus précise, nos contributions 

portent sur : 

• l’élaboration d’une procédure automatique de segmentation au sens du mouvement fondée 

sur une représentation hiérarchique, 

• la mise en oeuvre d’un modèledepeau(skinning), inspiré des techniques d’animation 

3D (cf. Section 4.2) qui permet de modéliser de manière fidèlelechampsdemouvement, 

tout en s’affranchissant des problèmes de discontinuités au niveau des frontières, 

• la mise en place d’un schéma de codage générique, avec une architecture flexible et modulable 

supportant notamment les fonctionnalités de streaming, de scalabilité (temporelle, 

spatiale et en qualité), de prise en compte de codage d’attributs photométriques et de 

compression quasi-sans pertes. 

Les aspects relatifs àlamodélisation de mouvement, avec procédure de segmentation et 

modèle de peau (skinning) sontdécrits en détails au Chapitre 5. Ensuite, les chapitres 6 et 7 

présentent en détails les deux shémas de compression proposés, appelés MCGV (Multi-Chart 

Geometry Video) etFAMC(Frame-based Animated Mesh Compression).

120 Représentation et compression de maillages 3D animés : état de l’art

Chapitre5 

Compensation de mouvement par modèle 

de peau (skinning) 

Résumé : Ce chapitre introduit la procédure de compensation de mouvement par 

modèle de peau (skinning). Dans ce contexte, deux approches originales de segmentation 

au sens du mouvement d’un maillage 3D animés, sont tout d’abord proposées. Elles 

permettent, à partir d’une représentation par trames clés, de décomposer un maillage 

dynamique en parties dont les mouvements peuvent être fidèlement décrits par des transformées 

affines 3D. Le segmentation ainsi générée est ensuite exploitée dans le cadre d’une 

stratégie de compensation de mouvement par modèledepeau(skinning). Le principe est 

de modéliser le mouvement de chaque partie par une transformée affine. Un champ de mouvement 

continu sur l’ensemble du maillage est ensuite obtenu en combinant linéairement 

lesmouvementsaffinesdesdifférentes parties avec des poids appropriés. Une procédure 

automatique de calcul des paramètres du modèle de peau (i.e., transformées affines et 

poids d’animation associés) est également proposée. Le modèle généré est enfin exploité 

pour prédire les positions ainsi que les normales associées aux sommets du maillage. 

Mots clés : Modèles de peau, skinning, segmentation au sens du mouvement, modèle 

de prédiction. 

121

122 Compensation de mouvement par modèledepeau(skinning) 

Inspiré des techniques d’animation 3D largement utilisées par les créateurs de contenus 

graphiques 3D dans le cadre des jeux vidéos et des films d’animation, le modèle de skinning 

repose sur une modélisation par parties du champ de mouvement, exploitant une segmentation 

du maillage animé [165]. Intuitivement, chaque partie correspond à un sous-ensemble de 

sommets qui peut subir des mouvements indépendants du reste. Le principe de l’animation 

par modèle de skinning [166] est de modéliser le mouvement de chaque partie par une transformée 

affine. Un champ de mouvement continu sur l’ensemble du maillage est ensuite obtenu 

en combinant linéairement les mouvements affines des différentes parties avec des poids appropriés. 

L’exemple typique est celui des personnages articulés, où les parties correspondent àdes 

composantes anatomiques du corps du personnage (e.g., bras, jambes, mains...). 

Comment déterminer automatiquement, à partir d’une représentation par trames clés, une 

segmentation au sens du mouvement du modèle animé en parties dont les mouvements peuvent 

être fidèlement décrits par des transformées affines 3D ? Comment calculer de manière optimale 

les paramètres du modèle de peau (i.e., transformées affines et poids d’animation associés) 

afin de décrire fidèlement le mouvement global du modèle dynamique ? Ce sont les questions 

auxquelles ce chapitre vise à apporter des éléments de réponse. 

Ce chapitre est structuré en trois parties. La première est dédiée aux deux approches de 

segmentation au sens du mouvement que nous proposons, qui sont décrites en détails. Ensuite, 

nous décrivons le modèledepeau(skinning) associé à la partition ainsi obtenue (Section 5.2). 

Enfin, les résultats expérimentaux sont présentés et discutés Section 5.3. 

5.1 Segmentation au sens du mouvement 

5.1.1 Etat de l’art 

Depuis une trentaine d’années maintenant, les techniques de segmentation des contenus 

visuels ont connu un développement considérable comme en atteste le riche état de l’art dédié 

à ce domaine [167]. Ces techniques ont été exploitées à large échelle dans le domaine de traitement 

d’image depuis le début des années quatre-vingts pour des applications diverses, comme 

la compression, l’indexation, l’analyse et la modélisation. Avec le développement important 

qu’a connu l’imagerie 3D au cours des années quatre-vingt-dix, les techniques de segmentation 

de maillages statiques 3D [168, 169, 170, 171, 172, 173] s’imposent aujourd’hui comme 

un ingrédient indispensable pour un grand nombre d’algorithmes de traitement et d’analyse 

de données 3D (e.g., paramétrisation, re-maillage, compression, morphing...). Bien que la segmentation 

de maillages 3D statiques ait connu un grand essor, un petit nombre de travaux de 

la littérature traite en revanche de la segmentation au sens du mouvement de maillages 3D 

dynamiques. Ce domaine relativement récent a été abordépourlapremière fois dans [120]. 

L’approche de Lengyel a pour but de segmenter le maillage en composantes dont le mouvement 

peut être décrit fidèlement par une transformée affine 3D. Dans [120], il propose une 

approche heuristique de segmentation qui sélectionne au hasard 10% des triangles du maillage 

et réalise une classification des sommets restants par rapport au mouvement de ces triangles. 

L’approche de Lengyel souffre de problèmes de sur-segmentation étant donné le grand nombre 

de clusters considérés proportionnel àlacomplexité du maillage et non de son mouvement. 

Dans [136], la même approche par croissance de régions est considérée. Les triangles de 

départ, appelés aussi triangles germes, sont ici choisis en exploitant la technique itérative 

proposée dans [174]. Le principe consiste à choisir un ensemble N de triangles situés le plus

5.1Segmentationausensdumouvement 123 

loin possible les uns des autres au sens de la distance géodésique calculée sur la première 

trame de l’animation. Le premier triangle est choisi au hasard. A la n-ième étape, le nouveau 

triangle germe est choisi comme étant le triangle le plus éloigné de tous les triangles germes déjà 

déterminés. Notons que le choix des triangles germes est uniquement fondé surlagéométrie de 

la première trame et non sur l’analyse du champ de mouvement de l’animation. Cela explique 

les résultats de segmentation peu précis de l’approche. 

Dans [144], les auteurs proposent une autre variante de l’approche [120]. Le principe consiste 

ici à choisir au hasard un sommet v et à calculer la transformée affine qui décrit de manière 

optimale (au sens des moindres carrés) le mouvement de son voisinage de premier ordre. Les 

sommets dont le mouvement peut être décrit par cette même transformée affine avec une erreur 

de compensation de mouvement inférieure àunseuilɛsontregroupés dans un même cluster. 

Ensuite, un nouveau sommet est tiré au hasard à partir des sommets restants et le processus est 

réitéré jusqu’àceque tous les sommets du maillage soient assignés à une partie. Comme pour 

[120] et [174], le choix sous-optimal des triangles germes conduit à une mauvaise classification 

des sommets situés sur les frontières entres clusters. 

L’approche proposée dans [155] s’appuie sur une segmentation initiale obtenue en appliquant 

l’algorithme [156] qui vise à partitionner le maillage en K parties avec un nombre 

quasi-égal de sommets, tout en minimisant le nombre de sommets situés àlafrontière des 

parties obtenues. L’algorithme ICP (Iterative closest Point) est ensuite utilisé pour estimer le 

mouvement affine de chacune des parties. La partition finale est enfin calculée en associant 

à chaque sommet la partie qui décrit le mieux son mouvement. Notons que la segmentation 

initiale utilisée est obtenue à partir de critères purement topologiques en ne tenant compte 

ni de de la géométrie, ni du mouvement du maillage animé. Cette initialisation sous-optimale 

dégrade considérablement les performances de l’algorithme ICP, très sensible à l’initialisation. 

Dans [158], les auteurs introduisent une procédure de segmentation fondée sur une minimisation 

au sens des moindres carrés. Ici, l’objectif est d’extraire les parties dont le mouvement 

peut être décrit fidèlement par une transformée rigide (i.e., combinaison d’une rotation et d’une 

translation). L’algorithme procèdedefaçon itérative. Au départ, tous les sommets du maillage 

sont considérés comme non classés (i.e., n’appartenant à aucun cluster). A chaque étape du 

processus de segmentation, une procédure de compensation du mouvement rigide global des 

sommets non classés est appliquée. Les sommets qui induisent une erreur de compensation de 

mouvement inférieure àunseuildetolérance tol sont ensuite regroupés dans un même cluster 

et considérés comme classés. Ce processus est réitéré jusqu’àceque tous les sommets du 

maillage soient assignés à une partie. L’approche de segmentation [158] s’avère efficace dans le 

cas d’animations rigides par morceaux (e.g., mouvements articulés). Toutefois, cette méthode 

montre ses limites pour des mouvements non-rigides où desproblèmes de sur-segmentation 

apparaissent. 

L’approche proposée dans [166] vise également àdétecter les parties animées par des mouvements 

quasi-rigides. Elle associe à chaque triangle du maillage une transformée rigide locale 

qui décrit son mouvement à chaque instant de l’animation. L’algorithme mean-shift [175] est 

ensuite appliqué dans l’espace des transformées obtenues afin de détecter les parties quasirigides 

du maillage animé. Si la technique [166] est efficace dans le cas des mouvements rigides, 

elle reste non-adaptée àdesdéformations élastiques, conduisant à une sous-segmentation du 

maillage dynamique. 

Afin de pallier les problèmes de mauvaise classification des sommets de bord (i.e., sommets 

situés àlafrontière entre clusters), ainsi que ceux liés à la sous/sur-segmentation dont souffrent 

la plupart des techniques de l’état de l’art, nous proposons dans ce chapitre deux approches


originales de segmentation au sens du mouvement, qui permettent de gérer efficacement des 

animations à la fois articulées et élastiques. 

Introduisons tout d’abord la formulation mathématique du problème considéré. 

5.1.2 Formulation mathématique 

L’objectif de l’étape de segmentation est d’obtenir une partition Π = (πk)k∈{1,...,K} des 

sommets du maillage en K parties dont le mouvement peut être fidèlement représenté par une 

transformée affine 3D. 

Le critèredefidélité delareprésentation que nous avons retenu est l’erreur quadratique 

moyenne de compensation de mouvement, notée E(Π) et définie par : 

E(Π) = 

1 

V × T × D 2 

T 

i=1 

K 

k=1 v∈πk 

χ v i − A k i χv 1 

 

2 , (5.1) 

avec : 

– A une matrice 4 × 4représentant une transformée affine exprimée en coordonnées homogènes 

: 

⎛ 

⎞ 

A = 

⎜ 

⎝ 

a11 a12 a13 tx 

a21 a22 a23 ty 

a31 a32 a33 tz 

0 0 0 1 

⎟ 

⎠ , (5.2) 

où (aij) sont les coefficients décrivant la partie linéaire du mouvement affine et (tx,ty,tz) 

est la composante translationelle, 

• χ v i =(xv i ,yv i ,zv i , 1)t le vecteur 4D représentant les coordonnes homogènes du sommet v à 

la trame i, 

• A k i la transformée affine 3D associée à la partie πk à l’instant i, 

• D la diagonale de boîte englobante de la première trame de l’animation, 

• V le nombre de sommets du maillage, 

• T le nombre de trames de la séquence d’animation. 

Notons que dans cette formulation, le mouvement de chaque trame i est exprimé par rapport 

àlapremière trame de la séquence. 

Pour déterminer la partition Π minimisant l’erreur globale de compensation de mouvement 

E(Π) (equation 5.1), nous proposons deux approches différentes. La première, décrite dans la 

section suivante, exploite un algorithme de clustering par k-moyennes. 

5.1.3 Segmentation par algorithme de k-moyennes 

Inspirée de l’algorithme de Max-Lloyd [49, 50], l’approche de segmentation par k-moyennes 

que nous proposons a pour objectif de déterminer, pour un nombre de cluster fixé K, une 

partition Π ∗ d’erreur E(Π ∗ ) minimale. 

L’algorithme proposé met en oeuvre deux étapes successives. Une partition initiale Π0 est 

tout d’abord calculée en appliquant l’algorithme original de Max-Lloyd sur un ensemble de 

transformées affines locales, associées à l’ensemble des sommets du maillage. La partition Π0 

est ensuite raffinée en appliquant une variante de ce même algorithme qui vise à minimiser 

l’erreur quadratique moyenne de compensation de mouvement E(Π).


5.1.3.1 Calcul de la partition initiale 

Soit A v i la transformée affine décrivant le mieux (au sens des moindres carrés) le mouvement, 

à l’instant i, du voisinage ℵ(v) du sommet v par rapport àlapremière trame. La matrice A v i 

est définie par : 

A v i =argmin 

A 

⎛ 

⎝ 

p∈ℵ(v) 

Aχ p 

1 − χ p 

i 2 

⎞ 

⎠ , (5.3) 

avec ℵ(v) ={p1,p2,...,pq} l’ensemble des sommets contenant le sommet v ainsi que ses voisins 

topologiques (cf. Section 1.1). 

L’existence et l’unicité d’une solution pour le problème d’optimisation décrit par l’équation 

(5.3) ainsi que la procédure de calcul de la matrice A v i sont discutées en détail dans la Section 

5.2.1. 

Les matrices (A v i )i∈{1,...,T }, définies par l’équation (5.3), permettent de décrire àtoutinstant 

i le mouvement local dans le voisinage du sommet v. L’ensemble de ces transformées est 

représenté par un unique vecteur α v ∈ R 12×T regroupant l’ensemble des coefficients affines (une 

transformée affine étant complètement définie par 12 coefficients réels). La partition initiale 

Π0 est alors obtenue en appliquant directement l’algorithme de segmentation de Max-Lloyd 

[49, 50] sur l’ensemble des vecteurs (α v )v∈{1,...,V }. 

Comme discuté dans [176], la phase d’initialisation est critique pour la vitesse de convergence 

de l’algorithme de segmentation par k-moyennes. Dans [176], plusieurs technique d’initialisation 

sont empiriquement testées. Les résultats obtenus montrent qu’une initialisation 

aléatoire (i.e., les vecteurs sont associés au hasard àundesK clusters) offrent les meilleurs 

résultats de segmentation au prix d’un temps de calcul plus important. Afin de tester les 

meilleures performances de l’approche de segmentation par k-moyennes, nous avons opté pour 

cette technique d’initialisation. Notons cependant qu’une telle approche est sensible à l’initialisation 

du générateur de nombre pseudo-aléatoire utilisé et que des exécutions multiples 

conduisent en général àdesrésultats différents. 

L’algorithme de Max-Lloyd étant appliqué dans le domaine des transformées affines, cette 

première étape permet de détecter les sommets ayant des mouvements affines locaux proches 

au sens de la norme euclidienne dans l’espace des vecteurs (α v )v∈{1,...,V } ∈ R 12×T . En pratique, 

cela se traduit par une détection grossière des parties animées par des mouvements affines 

comme illustré Figure 5.1. Notons en revanche que les frontières entre les parties détectées ne 

sont pas précises (Figure 5.1). En effet, le mouvement caractéristique aux articulations étant 

non-affine, les transformées locales associées aux sommets de bord varient considérablement. 

Cela conduit à une classification non-précise. La partition Π0 calculée par cette première étape 

est certes non-optimale. Elle permet toutefois de détecter les mouvements affines principaux 

(Figure 5.1). Une deuxième étape de raffinement de Π0, décrite dans le paragraphe suivant, est 

alors introduite afin d’optimiser directement l’erreur quadratique moyenne de compensation 

de mouvement E(Π). 

5.1.3.2 Raffinement de la partition 

La procédure de raffinement vise à optimiser la partition Π0 tout en gardant constant le 

nombre de parties considérées. Le principe consiste àalterneritérativement une phase d’estimation 

des transformées affines et une phase de mise à jour de la partition.


(a) (b) (c) (d) 

Figure 5.1 : Résultats de segmentation avec et sans la procédure de raffinement pour le 

maillage dynamique “Dance” : (a) Segmentation par k-moyennes sans raffinement, (b) Segmentation 

par k-moyennes avec raffinement, (c) Segmentation hiérarchique sans raffinement et 

(d) Segmentation hiérarchique avec raffinement. 

Soit Π(n) = (πk(n)) k∈{1,...,K} la partition obtenue à la l’itération n. A l’itération n, la 

phase de calcul des transformées affines associe à chaque partie k de la partition Π(n − 1) la 

transformée affine Hk i (n) quidécrit le mieux son mouvement (cf. Section 5.2.1) : 

H k i 

(n) =argmin 

A 

⎛ 

⎝ 

v∈πk(n−1) 

Aχ v 1 − χv i 2 

⎞ 

⎠ . (5.4) 

La phase de mise àjourpermetdedéduire la partition Π(n) àlanième itération à partir 

des transformées affines (H k i (n))ki .Plusprécisément, chaque sommet v est ici associé àla 

transformée Hk∗ i (n) quidécrit le mieux son mouvement : 

 

T 

 

k 

Hi (n)χ v 1 − χ v 

 

i 

2 

 

. (5.5) 

k ∗ =arg min 

k∈{1,...,K} 

i=1 

Ce processus est itéré jusqu’à ce que la variation de l’erreur quadratique moyenne de compensation 

de mouvement |E(Π(n)) − E(Π(n − 1))| devienne inférieure à une valeur prédéfinie 

ɛ>0. 

Il est notamment intéressant d’investiguer les aspects relatifs à la convergence de l’algorithme 

proposé. En particulier, nous pouvons énoncer la proposition suivante : 

Proposition 5.1.1 L’algorithme de raffinement proposé converge en un nombre fini d’itérations. 

Démonstration 

Soit E(n, n ′ ) l’erreur quadratique moyenne de compensation de mouvement obtenue en considérant


la partition Π(n) etenmodélisant le mouvement des parties par les transformées (H k i (n′ )) k i : 

E(n, n ′ )= 

1 

V × T × D 2 

T 

i=1 

K 

 

k=1 v∈πk(n) 

 

v 

χi − H k i (n′ )χ v 

 

1 

2 , (5.6) 

D’après l’équation (5.4), on a pour tout k ∈{1, ..., K} et àtoutinstanti ∈{1, ..., T } : 

T 

i=1 

⎛ 

⎝ 


⎛ 

K 

⎝ 

k=1 

Il s’ensuit que : 


 

k 

Hi (n)χ v 1 − χ v 

 

i 

2 

⎞ 

⎠ ≤ 

 

k 

Hi (n)χ v 1 − χ v 

 

i 

2 

⎞ 

⎠ ≤ 

⎛ 

⎝ 


T 

i=1 

 

k 

Hi (n − 1)χ v 1 − χ v 

 

i 

2 

⎞ 

⎠ 

⎛ 

K 

⎝ 

k=1 

Il est également évident à partir de l’équation (5.5) que : 

K 

 

k=1 v∈πk(n) 

Il en résulte que : 

 

T 

 

k 

Hi (n)χ v 1 − χv 

 

i 

2 

 

i=1 


 

k 

Hi (n − 1)χ v 1 − χ v 

 

i 

2 

⎞ 

⎠ 

E(n − 1,n) ≤ E(n − 1,n− 1). (5.7) 

≤ 

K 

 

k=1 v∈πk(n−1) 

En combinant les inégalités (5.7) et (5.8), on obtient alors : 

 

T 

 

k 

Hi (n)χ v 1 − χv 

 

i 

2 

 

i=1 

E(n, n) ≤ E(n − 1,n). (5.8) 

E(Π(n)) = E(n, n) ≤ E(n − 1,n− 1) = E(Π(n − 1)). (5.9) 

Cela montre que la suite (E(Π(n)))n est décroissante. En outre, elle admet 0 comme borne 

inférieure. Elle est donc forcément convergente vers une limite E0. Ilexistedoncn0∈Ntel que : 

∀ n1 ≥ n0, |E0 − E(Π(n1))| ≤ ɛ 

. (5.10) 

2 

En additionnant l’inégalité (5.10) pour (n0) et(n0 +1)onobtient: 

|E(Π(n0 +1))− E(Π(n0))| ≤|E(Π(n0)) − E0| + |E(Π(n0 +1))− E0| ≤ɛ. (5.11) 

Cela démontre que l’algorithme converge au bout de (n0 +1)itérations. 

Quant à la vitesse de convergence de l’algorithme proposé, une étude théorique serait très 

difficile en raison des non-continuités introduites par l’algorithme de calcul des transformées 

affines par pseudo-inverse (cf. Section 5.2.1). Néanmoins, les expérimentations que nous avons 

conduites sur un riche corpus de test (cf. Section 5.3) montrent que l’algorithme converge en 

moyenne au bout d’une dizaine d’itérations et ce, avec une variation nulle de l’erreur quadratique 

moyenne de compensation de mouvement (i.e. |E(Π(n0)) − E(Π(n0 +1))| = 0) et une 

stabilisation de la partition.


La technique de segmentation proposée hérite des principales limitations de l’algorithme de 

Max-Lloyd : (1) nécessité de l’intervention de l’utilisateur pour fixer le nombre de parties K, 

et (2) sensibilité à l’initialisation. 

Afin de pallier ces inconvénients, dans la section suivante, nous proposons une nouvelle 

approche hiérarchique de segmentation au sens du mouvement qui permet une détection automatique 

du nombre de parties tout en s’affranchissant du problème d’initialisation. 

5.1.4 Segmentation hiérarchique 

L’approche de segmentation hiérarchique a pour objectif de déterminer, pour une erreur 

quadratique moyenne de compensation de mouvement fixée E0, une partition Π ∗ ayant le 

nombre de patchs minimal K et vérifiant la contrainte E(Π ∗ ) ≤E0. 

L’algorithme proposé estfondésur une stratégie de décimation privilégiant la simplification 

des sommets décrits par un même mouvement affine. Le principe consiste à appliquer successivement 

des opérations de décimation topologique de type half-edge collapse [10] (Figure 5.2). 

Une opération de half-edge collapse appliquée à une arête (v, w), notée hecol(v, w), fusionne 

les deux sommets v et w en un seul sommet. Le sommet w est alors éliminé ettoutesses 

arêtes incidentes sont connectées à v. Achaqueétape du processus de simplification, pour tout 

sommet v, la liste de ses ancêtres, notée A(v), est stockée. Cette liste est définie récursivement 

par : 

1. Initialisation : A(v) =∅. 

2. Mise àjourdeA(v) : pour chaque opération de hecol(v, w) : 

A(v) ←− A(v) ∪A(w) ∪{w}. (5.12) 

Figure 5.2 : Opération half-edge collapse : l’arête (v, w) est contractée, les deux sommets v 

et w fusionnés, et la connectivité du maillage redéfinie, en connectant à v l’ensemble des arêtes 

incidente à w. 

Le processus de décimation est guidé par une stratégie visant à fusionner les sommets avec 

des mouvements affines proches. Le critère de fusion est lié àuncoût C(v, w) defusionde 

l’arête (v, w), mesurant l’erreur de compensation de mouvement qui résulte du regroupement 

des sommets v et w et de leurs ancêtres dans un même cluster, défini par : 

⎛ 

⎞ 

C (v, w) = 

T 

⎝ 

i=1 

p∈ℵ(v,w) 

avec ℵ(v, w) =A(v) ∪A(w) ∪{v, w}, et 

A v,w 

i =argmin 

⎛ 

⎝ 

A 

 

p∈ℵ(v,w) 

A v,w 

i χp1 

− χpi 

2 

Aχ p 

1 − χ p 

i 2 

⎞ 

⎠ , (5.13) 

⎠ . (5.14)


La matrice A v,w 

i 

est calculée comme décrit dans la section 5.2.1. 

Achaqueétape du processus de décimation, l’opération hecol est appliquée à l’arête de 

plus faible coût. Au nième niveau de décimation, une partition Π(n) =(πk(n)) k∈{1,...,K(n)} est 

obtenue comme suit : 

∀ k ∈{1, ..., K(n)}, πk(n) ={pk(n)}∪A(pk(n)), (5.15) 

où (pk(n))k∈{1,...,K(n)} représente l’ensemble des sommets du maillage obtenu àlanième étape 

du processus de simplification. 

Le processus est itéré tant que l’erreur quadratique moyenne de compensation de mouvement 

E(Π(n)) reste inférieure àlavaleurprédéfinie E0. 

Notons que l’approche de segmentation hiérarchique décrite ci-dessus traite indépendamment 

chaque composante connexe (CC) du modèle ce qui peut conduire à des sur-segmentations dans 

le cas de modèles animés à multiples composantes connexes. Par exemple, deux CCs avec un 

même mouvement affine sont considérées comme deux clusters différents. La Figure 5.3 illustre 

ce cas pour le maillage dynamique “Raptor” où les dents et les yeux, représentés par des CCs 

indépendantes, sont classées dans des parties différentes bien qu’elles soient animées par les 

même mouvements affines. Afin de résoudre ce problème de sur-segmentation, un processus 

de simplification itérative qui élimine àchaqueétape la partie induisant une erreur minimale, 

est appliqué. L’erreur minimale induite par la suppression d’une partie k est calculée pour 

la partition obtenue en assignant tous les sommets de k aux autres parties et en appliquant 

ensuite la procédure de raffinement décrite dans la section 5.1.3.2. Ce processus est itéré tant 

que l’erreur quadratique moyenne de compensation de mouvement reste inférieure àlavaleur 

prédéfinie E0. 

(a) (b) 

Figure 5.3 : Segmentation hiérarchique du maillage dynamique “Raptor” : (a) avec fusion 

des CCs et (b) sans fusion des CCs. 

L’approche de segmentation hiérarchique, sus-présentée, permet de fusionner àchaqueétape 

les deux groupes de sommets qui ont les mouvements affines les plus proches au sens de l’erreur 

quadratique moyenne de compensation de mouvement E(Π). Cela permet de détecter 

rapidement les parties animées par des mouvements affines (Figure 5.1). Cette approche reste 

cependant sous-optimale. En effet, àchaqueétape, le choix de fusionner deux sommets implique 

l’assignation de tous leurs ancêtres au même cluster. Ces choix semi-globaux permettent 

d’accélérer le processus de segmentation, mais induisent de mauvais choix de classification surtout 

au niveau des sommets de bord (Figure 5.1). Afin de pallier cet inconvénient, la partition 

obtenue par segmentation hiérarchique est raffinée en appliquant la même procédure que celle 

décrite Section 5.1.3.2.


L’algorithme de segmentation hiérarchique proposé converge en un nombre maximal de 

(V − 1) itérations (V étant le nombre de sommets). Quant àlacomplexitédecalculdechaque 

itération, elle est déterminée par la phase de mise à jour des coûts associés aux arêtes. Afin, 

d’optimiser cette étape, nous exploitons le fait qu’une opération hecol(v, w) ne change que localement 

la connectivité du maillage. Ainsi, àchaqueitération, il suffit de recalculer uniquement 

les coûts des arêtes incidentes au sommet v(cf., Equation (5.13)). 

Le paramètre E0 permet de contrôler l’erreur quadratique moyenne de compensation de 

mouvement obtenue. Plus précisément, la racine carrée de E0 représente l’erreur quadratique 

moyenne de compensation de mouvement par modèle affine par morceaux (sur l’ensemble 

des sommets et des trames), normalisée par la diagonale D de boîte englobante de la première 

trame. Au cours de nos expérimentations (cf. Section 5.3), le paramètre E0 aété fixéà(0.0025) 2 

ce qui correspond à une erreur de compensation de mouvement de l’ordre de 0, 25% de D. 

Une fois qu’on dispose d’une partition du maillage dynamique au sens du mouvement, il est 

possible de lui associer un modèledepeau(skinning), comme décrit dans la section suivante. 

5.2 Modèledepeau 

Soit Π = (πk) k∈{1,...,K)} la partition obtenue suite à la phase de segmentation au sens du 

mouvement. Le principe de l’animation par modèle de peau ou skinning [166] est de modéliser 

le mouvement de chaque partie πk et àtoutinstanti par une transformée affine A k i .Unchamp 

de mouvement lisse sur l’ensemble du maillage est ensuite obtenu en combinant linéairement 

les mouvements affines des différentes parties avec des poids appropriés. La position prédite χ v i 

du sommet v à la trame i s’exprime alors comme : 

où ω v k 

v. 

χ v i = 

K 

k=1 

ω υ kAki χυ1 , (5.16) 

est un coefficient réel qui contrôle l’influence du patch k sur le mouvement du sommet 

Le modèle de skinning décrit par l’Equation (5.16), fait intervenir deux entitées essentielles 

pour la qualité delareprésentation : les transformées affines (A k i )etlespoidsd’animation(ωv k ). 

La procédure proposée d’estimation optimale des transformées affines est présentée Section 

5.2.1. Ensuite, la Section 5.2.2 décrit l’algorithme d’estimation des poids d’animation. Enfin 

dans la section 5.2.3, nous analysons comment le modèle de skinning proposé peutêtre exploité 

pour la prédiction des attributs photométriques et notamment des normales associées aux 

sommets d’un maillage dynamique. 

5.2.1 Estimation des transformée affines 

L’objectif est d’associer à chaque partie k la transformée affine A k i qui décrit le mieux (au 

sens des moindres carrés) son mouvement à l’instant i par rapport àlapremière trame : 

A k i =argmin 

A 

 

v∈πk 

Aχ v 1 − χ v i 2 

 

. (5.17) 

Intéressons-nous en premier lieu aux aspects d’existence et d’unicité de la matrice A k i .

5.2 Modèledepeau 131 

5.2.1.1 Existence et unicité 

L’équation (5.17) peut être reformulée comme un problème classique de minimisation au 

sens des moindres carrés, comme décrit par l’équation suivante : 

min 

α∈R12 

Mkα − β k 

 

i 

2 , (5.18) 

avec α =(a1,1,a1,2,a1,3,tx,a2,1,a2,2,a2,3,ty,a3,1,a3,2,a3,3,tz, ) t , πk = {p1,p2, ..., pq}, 

⎛ 

⎜ 

Mk = ⎜ 

⎝ 

x p1 

1 

x p2 

1 

x p3 

1 

. 

x pq 

1 

y p1 

1 

y p2 

1 

y p3 

1 

. 

y pq 

1 

z p1 

1 1 0 0 0 0 0 0 0 0 

z p2 

1 1 0 0 0 0 0 0 0 0 

z p3 

1 1 0 0 0 0 0 0 0 0 

. 

. 

. 

. 

. 

z pq 

1 1 0 0 0 0 0 0 0 0 

0 0 0 0 x p1 

1 

0 0 0 0 x p2 

1 

0 0 0 0 x p3 

1 

. 

. 

0 0 0 0 x pq 

1 

. 

. 

. 

y p1 

1 

y p2 

1 

y p3 

1 

. 

y pq 

1 

0 0 0 0 0 0 0 0 x p1 

1 

0 0 0 0 0 0 0 0 x p2 

1 

0 0 0 0 0 0 0 0 x p3 

1 

. . . . . . . . . 

0 0 0 0 0 0 0 0 x pq 

1 

De manière equivalente, cela revient àrésoudre : 

. 

. 

z p1 

1 1 0 0 0 0 

z p2 

1 1 0 0 0 0 

z p3 

1 1 0 0 0 0 

. 

. 

. 

z pq 

1 1 0 0 0 0 

min 

y∈Im(ψk) 

. 

. 

y p1 

1 

y p2 

1 

y p3 

1 

. 

y pq 

1 

. 

. 

z p1 

1 

z p2 

1 

z p3 

1 

. 

z pq 

1 

⎞ 

⎟ 

. ⎟ 

. 

⎟ 

1 

⎟ 

1 

⎟ 

1 

⎟ 

. ⎠ 

1 

,β k i = 

⎛ 

⎜ 

⎝ 

x p1 

i 

x p2 

i 

x p3 

i 

. 

x pq 

i 

y p1 

i 

y p2 

i 

y p3 

i 

. 

y pq 

i 

z p1 

i 

z p2 

i 

z p3 

i 

. 

z pq 

i 

⎞ 

⎟ . (5.19) 

⎟ 

⎠ 

 

k 

y − β 

i 

2 , (5.20) 

avec Im(ψk) le sous-espace vectoriel image de l’application linéaire ψk décrite par la matrice 

Mk et définie comme suit : 

ψk : R 12 → R 3q 

α → y = Mkα 

. (5.21) 

Ainsi, résoudre (5.18) revient à calculer la projection du point βk i ∈ R3q sur le sous-espace 

vectoriel Im(ψk), image de l’application ψk. Il est bien connu que celle-ci existe et est unique. 

Soit donc y∗ ∈ R3q la projection orthogonale de βk i sur le sous-espace vectoriel Im(ψk). Tout 

vecteur α∗ ∈ R12 vérifiant ψk(α∗ )=y∗ est alors une solution de (5.18). Deux cas différents cas 

se présentent : 

1. Si rang(Mk) = 12, alors ψk est injective et l’équation (5.18) admet une solution unique. 

2. Si rang(Mk) < 12, alors ψk est non injective et l’équation (5.18) admet une infinité de 

solutions. 

Notons que la matrice Mk est diagonale par bloc et peut être mise sous la forme suivante : 

⎛ 

⎞ 

Δk 0 0 

Mk = ⎝ 0 Δk0 ⎠ , (5.22) 

0 0 Δk


où 

Il en résulte que 

Δk = 

⎛ 

x 

⎜ 

⎝ 

p1 

1 

x p2 

1 

x p3 

1 

. 

x pq 

1 

y p1 

1 

y p2 

1 

y p3 

1 

. 

y pq 

1 

z p1 

1 

z p2 

1 

z p3 

1 

. 

z pq 

1 

⎞ 

1 

1 ⎟ 

1 ⎟ . (5.23) 

⎟ 

. ⎠ 

1 

rang(Mk) =3× rang(Δk). (5.24) 

En appliquant des permutations et des combinaisons linéaires sur les lignes et les colonnes 

de Δk on obtient : 

⎛ 

1 x 

⎜ 

rang(Δk) =rang ⎜ 

⎝ 

p1 

1 y p1 

1 z p1 

1 

0 x p2 

1 − xp1 1 y p2 

1 − yp1 1 z p2 

1 − zp1 1 

0 x p3 

1 − x p1 

1 y p3 

1 − y p1 

1 z p3 

1 − z p1 

⎞ 

⎟ 

1 ⎟ . (5.25) 

⎟ 

. . . . ⎠ 

On a alors : 

⎛ 

⎜ 

rang(Δk) =rang⎜ 

⎝ 

0 x pq 

1 − x p1 

1 

x p2 

1 − x p1 

1 

x p3 

1 − x p1 

1 

x pq 

1 

. 

− xp1 

1 

y pq 

1 − y p1 

1 

y p2 

1 − y p1 

1 

y p3 

1 − y p1 

1 

y pq 

1 

. 

− yp1 

1 

z pq 

1 − z p1 

1 

z p2 

1 − z p1 

1 

z p3 

1 − z p1 

1 

z pq 

1 

. 

− zp1 

1 

⎞ 

⎟ +1. (5.26) 

⎠ 

En combinant les équations (5.24) et (5.26), il en résulte que Δk et Mk sont de rang complet 

(i.e. rang(Δk) =4etrang(Mk) = 12) si et seulement si il existe quatre points non coplanaires 

parmi les q points (χ p 

1)p∈πk . 

En pratique, pour exploiter cette propriété mathématique, il est toutefois indispensable de 

disposer de méthodes de calcul de la solution répondant de manière appropriée à des critères 

de mise en oeuvre algorithmique et de stabilité numérique. 

La section suivante décrit une méthode stable pour calculer une solution possible de (5.17), 

fondée sur une décomposition en valeurs singulières - SVD (Singular Value Decomposition). 

5.2.1.2 Solution par SVD 

Pour résoudre le problème de minimisation (5.17), nous avons opté pour une approche 

fondée sur une décomposition SVD [82]. Ce choix est motivé par la stabilitédecalculd’unetelle 

approche dans le cas de matrices singulières ou numériquement proches de matrices singulières 

[82]. 

Rappelons tout d’abord la proposition suivante [82] qui constitue le fondement de la 

décomposition SVD. 

Théorème 5.2.1 Soit M une matrice de taille m × n. Il existe alors :


1. Une matrice U de taille (m × n) orthogonale par colonnes : 

∀ j, k ∈{1, ..., n}, 

m 

i=1 

UikUij = δjk, (5.27) 

2. Une matrice R de taille (n × n) orthogonale, et 

3. Une matrice diagonale W =(wij)ij de taille (n × n), 

telles que [82] : 

M = U × W × R t . (5.28) 

La factorisation de la matrice M en produit de trois matrices U, R et W telles que décrites 

ci-dessus est appelée décomposition en valeur singulières. 

Notons que les vecteurs colonnes des matrices U et R vérifient les relations suivantes : 

∀ i ∈{1, ..., n}, M t × Ui = wiiRi, M × Ri = wiiUi. (5.29) 

Par analogie avec la diagonalisation de matrices carrées, les valeurs diagonales de W sont 

appelées les valeurs singulières et les vecteurs colonnes de la matrices U (resp. R), vecteurs 

singuliers à gauche (respectivement àdroite). 

L’équation (5.29) permet de déduire que les vecteurs singuliers (Ui)i correspondant aux 

valeurs singulières non nulles définissent une base orthonormée de l’espace vectoriel image de 

M noté Im(M), et que les vecteurs singuliers (Ri)i correspondant aux valeurs singulières nulles 

forment une base orthonormée du noyeau de M, notéKer(M). 

Pour la minimisation (Equation (5.18)), soient Uk, Wk et Rk les matrices obtenues par àla 

décomposition SVD de la matrice Mk. En exploitant les propriétés des vecteurs singuliers de 

la SVD, on peut directement calculer la projection orthogonale y ∗ k de βk i sur Im(ψk) par: 

avec I ∗ k 

Soit alors α ∗ k 

avec W ∗ k 

y ∗ k = Uk × I ∗ k × U t k × βk i 

, (5.30) 

la matrice diagonale de taille (12 × 12) défini par : 

∀ i ∈{1, ..., 12}, (I ∗ k )ii 

 

1 , 

= 

0 , 

si wii = 0 

. 

si wii =0 

(5.31) 

le vecteur définie par : 

α ∗ k = Rk × W ∗ k × U t k × β k i , (5.32) 

la matrice diagonale de taille (12 × 12) définie par : 

Le vecteur α ∗ k 

∀ i ∈{1, ..., 12}, (W ∗ 1 

wii 

k )ii = 

, si wii = 0 

. (5.33) 

0 , si wii =0 

est une solution du problème de minimisation (5.18), étant donné qu’il vérifie : 

Mkα ∗ k = Uk × Wk × (R t k × Rk) × W ∗ k × U t k × β k i 

= Uk × (Wk × W ∗ k ) × U t k × βk i 

= Uk × I ∗ × U t k × βk i 

= y ∗ k .


En pratique, la solution décrite par l’équation (5.32) est calculée pour tout instant i pour 

obtenir une solution α ∗i 

k . Afin d’optimiser les temps de calcul, la matrice (Rk ×W ∗ k ×Ut k )quiest 

la même pour toute trame i, estcalculée une seule fois et stockée en mémoire pour être ensuite 

directement appliquée aux différents vecteurs β k i . La matrice Mk (de dimension 3V × 12) étant 

en plus digonale par blocs, sa décomposition SVD est calculée à partir de celle de Δk qui de 

taille (V × 4). Cela permet de réduire le nombre d’opérations d’un facteur 27, étant donné que 

la complexité de calcul de la SVD pour une matrice m × n (avec m>>n)estenO(m × n 2 ) 

[82]. 

Une fois les transformées affines déterminées, il ne reste, pour compléter la spécification du 

modèle de peau, qu’à obtenir les coefficients de pondération (ωv k ) (Equation(5.16)). 

5.2.2 Estimation des poids d’animation 

L’objectif est de déterminer, pour chaque sommet v, le vecteur des poids optimaux ω v = 

(ω υ k )k∈{1,...K} défini par : 

ω v =arg min 

ϖ∈R K 

 

T K 

 

 

 

i=1 

k=1 

ϖk.˜χ v i (k) − χv i 

 

 

 

 

 

2 

, (5.34) 

où ˜χv i (k) =Ak i χv 1 =(˜xv i (k), ˜y v i (k), ˜z v i (k), 1) t est la position du sommet v prédite par la 

transformée affine Ak i ,exprimée en coordonnées homogènes. 

En pratique, il est raisonnable de considérer qu’une partie influence uniquement ses propres 

sommets et ceux appartenant à une partie voisine. Soient k(υ) la partie contenant le sommet 

v et θ(v) l’ensemble des parties incluant k(v) et ses voisins (i.e. ensemble des parties reliées 

au moins par une arête àlapartiek(v)). L’équation (5.34) est résolue sous les contraintes 

suivantes : 

∀ k/∈ θ(v), ϖk =0. (5.35) 

L’équation (5.34) avec les contraintes (5.35) conduit au problème de minimisation au sens 

des moindres carrés suivant : 

min 

ϖ∈RQ Avϖ − bv 2 , (5.36)


avec Q le cardinal de θ(v) ={k1,k2, ..., kQ}, et 

⎛ 

⎜ 

Av = ⎜ 

⎝ 

˜x v 1(k1) ˜x v 1(k2) ˜x v 1(k3) ... ˜x v 1(kQ) 

˜x v 2 (k1) ˜x v 2 (k2) ˜x v 2 (k3) ... ˜x v 2 (kQ) 

˜x v 3 (k1) ˜x v 3 (k2) ˜x v 3 (k3) ... ˜x v 3 (kQ) 

. 

. 

˜x v T (k1) ˜x v T (k2) ˜x v T (k3) ... ˜x v T (kQ) 

˜y v 1 (k1) ˜y v 1 (k2) ˜y v 1 (k3) ... ˜y v 1 (kQ) 

˜y v 2(k1) ˜y v 2(k2) ˜y v 2(k3) ... ˜y v 2(kQ) 

˜y v 3 (k1) ˜y v 3 (k2) ˜y v 3 (k3) ... ˜y v 3 (kQ) 

. 

. 

˜y v T (k1) ˜y v T (k2) ˜y v T (k3) ... ˜y v T (kQ) 

˜z v 1 (k1) ˜z v 1 (k2) ˜z v 1 (k3) ... ˜z v 1 (kQ) 

˜z v 2(k1) ˜z v 2(k2) ˜z v 2(k3) ... ˜z v 2(kQ) 

˜z v 3 (k1) ˜z v 3 (k2) ˜z v 3 (k3) ... ˜z v 3 (kQ) 

. 

. 

˜z v T (k1) ˜z v T (k2) ˜z v T (k3) ... ˜z v T (kQ) 

. 

. 

. 

. 

. 

. 

. 

. 

. 

⎞ 

⎛ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ,bv ⎟ = ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎠ ⎝ 

x v 1 

x v 2 

x v 3 

. 

x v T 

y v 1 

y v 2 

y v 3 

. 

y v T 

z v 1 

z v 2 

z v 3 

. 

z v T 

⎞ 

⎟ . (5.37) 

⎟ 

⎠ 

Pour les même raisons que celles exposées au Paragraphe 5.2.1, le problème de minimisation 

(5.36) admet toujours une solution qui peut être calculée directement par l’approche SVD 

précédemment décrite. 

L’ensemble des développements réalisés jusqu’à présent concernent uniquement la géométrie 

du maillage animé. Toutefois, en pratique, on associe souvent aux maillages d’autres informations 

et comme notamment des attributs photométriques (e.g., couleur, texture, vecteurs 

normaux...). Le modèle de skinning proposé est-il alors adapté pourreprésenter de façon compacte 

cette information supplémentaire ? La section suivante apporte quelques éléments de 

réponse à cette question, en considérant le problème de la prédiction des vecteurs normaux 

associés à une surface maillée. 

5.2.3 Prédiction des normales 

Dans le cadre des applications de visualisation/rendu rapide ou de lissage de surface, il est 

souvent utile d’associer à chaque sommet du maillage un vecteur normal àlasurfaceaupoint 

considéré. Cela évite de recalculer ces normales par les logiciels de visualisation de contenus 

3D et permet donc d’obtenir une visualisation plus rapide. En outre, cela permet de réaliser 

certains effets de visualisation comme lissage des surfaces illustré Figure 5.4. 

L’inconvénient majeur de ce mécanisme est liéenrevancheà une augmentation considérable 

de la quantité d’information associée au maillage (i.e., un vecteur normal pour chaque sommet 

et à chaque trame). Comment représenter alors de façon efficace cette information ? 

Un petit nombre de travaux de la littérature a abordé jusqu’àprésent ce thème pourtant 

fondamental. Dans [166], les auteurs proposent de prédire la normale unitaire N v i d’un sommet 

v àuninstanti par : 

N v i = 

K k=1 wk vAki N v 1 

 

 

K 

k=1 wk vA k i N v 1 

 

 

 

. (5.38)


(a) (b) (c) (d) 

Figure 5.4 : Rendu des maillages dynamiques “Dance” et “Horse gallop” (a, c) sans et (b, d) 

avec lissage en exploitant les normales associées aux sommets du maillage. 

Le prédicteur N v i est optimal (i.e., conduit à une erreur de prédiction nulle) dans le cas où 

localement le mouvement au voisinage du sommet considéré est une transformation de similarité 

(translation, rotation, homothétie et leurs combinaisons). Cette propriété n’est en revanche 

pas satisfaite dans le cas général des transformées affines. Afin de résoudre ce problème, nous 

proposons le prédicteur suivant : 

où : 

Ũ v i = 

K k=1 wk vAki U v 1 

 

 

K 

k=1 wk v Ak i U v 1 

Ñ v i = U v i 

 

 

 

v 

∧ Wi , (5.39) 

, ˜ W v 

i = 

K k=1 wk vAki W v 1 

 

 

K 

k=1 wk v Ak i W v 1 

 

 

, (5.40) 

 

Le système (U v 1 ,Wv 1 ,Nv 1 ) forme une base orthonormée de R3 , construite en choisissant deux 

vecteurs U v 1 

v et V1 orthogonaux entre eux et orthogonaux àlanormaleNv 1 au sommet v àla 

première trame de la séquence. 

Le prédicteur proposé réalise ainsi la prédiction dans l’espace des vecteurs tangents au lieu 

de traiter directement les normales, ce qui permet d’assurer l’optimalité delaprédiction pour 

le cas affine. 

Proposition Le prédicteur Ñ v i est optimal (i.e., conduit à une erreur de prédiction nulle) 

dans le cas où localement le mouvement au voisinage du sommet considéré estaffine. 

Démonstration 

Soit f(u1,u2) une surface paramétrique différentiable approchant localement autour du sommet 

v le maillage dynamique à l’instant i =1etN v 1 la normale associée. Soient U v 1 et W v 1 deux 

vecteurs unitaires tangents à f au sommet v, telsque: 

avec 

U v 1 

W v 1 

∂f ∂f 

= x1 + x2 , (5.41) 

∂u1 ∂u2 

∂f ∂f 

= y1 + y2 , (5.42) 

∂u1 ∂u2 

||W v 1 || = ||U v 1 || =1et N v 1 = U v 1 ∧ W v 1 . (5.43) 

Supposons qu’à l’instant i, le voisinage du sommet v subit exactement la transformée affine 

Hi =( K k=1 wk vAki )décrite par le modèle de skinning. Montrons que le vecteur Ũ v i est tangent 

à la surface transformée (Hi.f).


On a : 

Ũ v i = HiU v 1 

||HiU v 1 || 

= x ′ 1 Hi 

= x ′ 1 

∂f 

∂u1 

∂(Hi.f) 

∂u1 

+ x ′ 2 Hi 

+ x ′ 2 

∂f 

∂u2 

∂(Hi.f) 

. 

∂u2 

Cela prouve que le vecteur Ũ v i est tangent àlasurface(Hi.f). De la même manière, on 

peut démontrer que le vecteur ˜ W v 

i est également tangent à(Hi.f). Par conséquent, le vecteur 

Ñ v t correspond àlanormaleàlasurface(Hi.f). 


Afin de valider les deux approches de segmentation proposées dans la section 5.1, nous avons 

considéré une base de 12 maillages dynamiques, caractérisée par différents mouvements, formes 

et complexités. Les propriétés de ces animations (type de mouvement, nombre de sommets, de 

trames et de composantes connexes...) ainsi que des extraits illustrant leurs mouvements sont 

présentés dans l’Annexe 8.5. 

Les expérimentations ont été effectuées sur un PC dotée d’un microprocesseur Pentium 4 

à3GHzetà une mémoire RAM de 2 Go. Pour l’algorithme de segmentation hiérarchique le 

paramètre E0 àlavaleur(0.0025) 2 (i.e., erreur de compensation de mouvement de l’ordre de 

0, 25% de la diagonale D de la boîte englobante de la premièretrame)etcepourl’ensemble 

des animations. Pour ne pas biaiser la comparaison, les nombres de clusters obtenus pour les 

différents maillages dynamiques ont été ensuite considérés comme paramètre d’entrée pour 

l’algorithme de segmentation par k-moyennes. 

La suite de ce paragraphe est structurée en deux parties. La section 5.3.1 propose une analyse 

des résultats de segmentation obtenus. Ensuite, la section 5.3.2 présente les performances 

du modèle de prédiction par modèle de skinning. 

5.3.1 Méthodes de segmentation : évaluation expérimentale 

La Figure 5.5 compare les résultats obtenus par l’approche de segmentation hiérarchique à 

ceux de l’approche de segmentation par k-moyennes. Les tableaux 5.2 et 5.3 résument, pour les 

différentes étapes des deux algorithmes : 1) les erreurs quadratiques moyennes de compensation 

de mouvement, 2) les temps de calcul, 3) les nombres de clusters et 4) les nombres d’itérations. 

Les diverses notations utilisés sont résumées Tableau 5.1. 

Notons tout d’abord que pour l’ensemble des animations considérées, les deux approches 

de segmentation convergent tout en offrant de faibles erreurs de compensation de mouvement. 

L’approche de segmentation par k-moyennes (resp. hiérarchique) converge en moyenne au bout 

de 4124 secondes (resp. 378 secondes) avec une erreur Eref de l’ordre de 0,33% (resp. 0,18%) 

de la diagonale de boîte englobante de la première trame de l’animation. 

Dans le cas des maillages dynamiques articulés (e.g., “Horse gallop”, “Elephant gallop”, 

“Dance”, “Wolf”, “Raptor” et “Troll”) les différentes parties anatomiques du corps sont correctement 

déterminées. De manière générale, un nombre maximal d’environ 30 parties est


Notation Description 

Π0 

Partition initiale obtenue suite à la phase d’initialisation de l’approche 

de segmentation par k-moyennes (cf. Section 5.1.3.1) 

Iref 

Nombre d’itérations pour obtenir la partition Πref 

Πhierar 

Partition obtenue suite à la phase de segmentation hiérarchique (cf. 

Section 5.1.4) 

Πref 

Partition finale obtenue suite à la phase de raffinement (cf. Section 

5.1.3.2) 

I0 

E0 = 

Nombre d’itérations pour pour obtenir la partition Π0 

E(Π0) La racine carré de l’erreur quadratique moyenne de compensation 

Eref = 

de mouvement de la partition Π0 

E(Πref) La racine carré de l’erreur quadratique moyenne de compensation 

Ehierar = 

de mouvement de la partition Πref 

E(Πhierar) La racine carré de l’erreur quadratique moyenne de compensation 

de mouvement de la partition Πhierar 

Ttotal 

Temps de calcul total pour la segmentation du maillage dynamique 

T0 

Temps de calcul nécessaire pour obtenir la partition Π0, exprimé 

en pourcentage de Ttotal 

Tref 

Temps de calcul pour obtenir la partition Πref, expriméenpourcentage 

de Ttotal 

Thierar 

Temps de calcul pour obtenir la partition Πhierar, expriméenpourcentage 

de Ttotal 

K Nombre de clusters de la partition finale Πref 

Khierar 

Nombre de clusters de la partition Πhierar 

G kmoy 

E = Eref−E0 

E0 

Gain en terme d’erreur quadratique moyenne suite à la phase de 

raffinement pour l’approche de segmentation par k-moyennes 

Ghierar E = Eref−E0 

E0 

Gain en terme d’erreur quadratique moyenne suite à la phase de 

raffinement pour l’approche de segmentation hiérarchique 

Table 5.1 : Notaions utilisées dans les tableaux 5.2 et 5.3.


suffisant pour représenter fidèlement l’animation. Dans le cas des maillages dynamiques avec 

déformations élastiques de faible ou moyenne amplitude (e.g., “Dolphin” et “Shark”) les 

segmentations générées par les deux approches parviennent également à capturer de façon 

précise le champs de mouvement et ce avec un nombre très réduit de clusters (une dizaines 

en moyenne). Sans surprise, les maillages dynamiques présentant des mouvements élastiques 

importants (e.g., “Camel collapse”, “Chicken” et “Cow”) nécessitent un nombre de parties 

plus important (77 en moyenne). 

De l’analyse du Tableau 5.2 il ressort que l’étape d’initialisation (cf. Section 5.1.3.1) converge 

en moyenne en 27 itérations, ce qui représente 70% du temps de calcul total. L’erreur correspondante 

de compensation du mouvement obtenue E0 est de l’ordre de 0,0301. L’étape de 

raffinement permet de réduire cette erreur d’un facteur de 10, avec une erreur Eref =0, 0033. 

Ces résultats montrent que l’étape d’initialisation, bien que gourmande en terme de temps de 

calcul, offre des résultats de segmentation relativement faibles. L’étapesuivantederaffinement 

est donc indispensable pour améliorer nettement ces performances, avec un gain G kmoy 

E moyen 

de l’odre de 87% ! 

La Figure 5.6 présente les courbes d’évolution de l’erreur de compensation de mouvement en 

fonction du nombre des itérations. Notons que pour l’ensemble des animations et pour les deux 

approches de segmentation, le module de raffinement converge avec une variation nulle de l’erreur 

de compensation de mouvement et donc une stabilisation de la partition. Ces résultats non 

seulement confirment la propriété théorique de décroissance de l’erreur quadratique moyenne 

de compensation du mouvement démontrée dans la Section 5.1.3.2, mais ils montrent également 

une convergence rapide de l’algorithme (environ une vingtaine d’itérations). 

Les résultats relatifs àlaméthode de segmentation hiérarchique (cf. Section 5.1.4) présentés 

dans le Tableau 5.3 montrent que l’approche converge vers la valeur Ehierar = √ E0 =0.0025 

souhaitée (fixée comme paramètre). Contrairement àl’étape d’initialisation de l’algorithme de 

segmentation par k-moyennes, la procédure hiérarchique consomme seulement 27% du temps 

total de calcul tout en offrant des erreurs de compensation de mouvement douze fois inférieures ! 

La partition générée offre également une bonne initialisation pour le module de raffinement qui 

converge en moyenne au bout de 22 itérations (contre 44 itérations pour la segmentation par 

k-moyennes). Les temps calcul totaux sont 11 fois plus petits en moyenne avec une erreur de 

compensation de mouvement finale ERef réduite de presque la moitié : 0,0018 pour l’approche 

hiérarchique contre 0,0033 pour l’approche de segmentation par k-moyennes. 

Ces résultats montrent que l’approche de segmentation hiérarchique surclasse l’approche par 

k-moyennes en termes de performances de segmentation et de temps de calcul. De plus, contrairement 

à l’approche par k-moyennes, elle permet une détection automatique du nombre de clusters. 

Pour ces raisons, dans le reste de ce travail seul l’approche de segmentation hiérarchique 

sera considérée pour générer les modèles de skinning. 

Analysons maintenant l’efficacitédumodèle de skinning pour la représentation de la géométrie 

et des vecteurs normaux. 

5.3.2 Prédiction des positions et des normales 

Les erreurs de prédiction après compensation de mouvement par modèle de skinning,notées 

e v t =(e v,x 

t ,e v,y 

t ,e v,z 

t , 0), sont définies par : 

∀ v ∈{1, ..., V }, e v t = χvt − χv t . (5.44)


Initialisation Raffinement 

Iinit Tinit Einit Iref Tref Eref Ttotal K G kmoy 

E 

Animation (%) (%) (s) (%) 

Camel collapse 50 77 0.0272 85 23 0.0029 20661 98 89 

Chicken 15 84 0.0411 24 16 0.0071 5800 63 83 

Cow 16 88 0.0126 20 12 0.0043 3374 70 66 

Dance 21 58 0.0261 60 42 0.0034 2187 20 87 

Dolphin 36 78 0.0069 47 22 0.0012 1253 23 83 

Elephant gallop 45 66 0.0212 88 34 0.0025 6713 27 88 

Horse collapse 35 91 0.0293 30 9 0.0030 8682 127 90 

Horse gallop 31 59 0.0352 106 41 0.0039 1833 38 88 

Humanoid 22 78 0.0420 29 22 0.0020 1394 21 95 

Raptor 27 87 0.0218 16 13 0.0032 294 24 85 

Shark 5 50 0.0294 18 50 0.0030 4 6 90 

Troll 36 88 0.0208 25 12 0.0032 1082 59 85 

Wolf 6 18 0.0798 30 82 0.0027 334 30 97 

Moyenne 27 71 0.0301 44 29 0.0033 4124 47 87 

Table 5.2 : Performances obtenues par la méthode de segmentation par k-moyenne. 

Seg. hiérarchique Raffinement 

Thierar Ehierar Iref Tref Eref Ttotal K G hierar 

E 

Animation (%) (%) (s) (%) 

Camel collapse 10 0.0025 21 90 0.0020 1192 98 21 

Chicken 13 0.0025 9 87 0.0017 456 63 34 

Cow 10 0.0025 13 90 0.0019 255 70 24 

Dance 39 0.0025 10 61 0.0020 214 20 21 

Dolphin 28 0.0025 56 90 0.0019 354 23 42 

Elephant gallop 31 0.0025 32 69 0.0020 1183 27 21 

Horse collapse 5 0.0025 21 95 0.0019 562 127 23 

Horse gallop 26 0.0025 16 74 0.0018 151 38 31 

Humanoid 42 0.0025 26 58 0.0018 497 21 31 

Raptor 20 0.0025 38 80 0.0015 99 24 39 

Shark 79 0.0025 9 21 0.0021 5 6 17 

Troll 12 0.0025 20 88 0.0018 111 59 29 

Wolf 32 0.0025 11 68 0.0017 16 30 32 

Moyenne 27 0.0025 22 73 0.0018 378 47 27 

Table 5.3 : Performances obtenues par la méthode de segmentation hiérarchique.


(a) k-moy. (b) hiérar. (c) k-moy. (d) hiérar. 

(e) k-moy. (f) hiérar. (g) k-moy. (h) hiérar. 

(i) k-moy. (j) hiérar. (k) k-moy. (l) hiérarchique 

(m) k-moy (n) hiérar. (o) k-moy (p) hiérar. 

(q) k-moy. (r) hiérar. (s) k-moy. (t) hiérar. 

(u) k-moy. (v) hiérar. (w) k-moy. (x) hiérar. 

Figure 5.5 : Segmentation par k-moyennes vs. segmentation hiérarchique : (a, b) “Horse gallop”, 

(b, c) “Chicken”, (e, f) “Cow”, (g, h) “Camel collapse”, (i, j) “Dolphin”, (k, l) “Elephant 

gallop”“, (m, n) “Dance”, (o, p) “Horse collapse”, (q, r) “Raptor”, (s, t) “Shark”, (u, v) “Troll” 

et (w, x) “Wolf”.


(a) (b) 

(c) (d) 

(e) (f) 

(g) (h) 

Figure 5.6 : Processus de raffinement de la partition : évolution de l’erreur quadratique 

moyenne de compensation de mouvement avec le nombre d’itérations.


Comme mesure de performance du prédicteur par modèle skinning, nous avons considéré 

l’erreur globale de compensation de mouvement, notée Eχ et définie par : 

 

 

 

Eχ = 1 

V × T × 

T 

t=1 

V 

v=1 

e v t 2 

. (5.45) 

D2 La Figure 5.7 présente la trame originale 36 de la séquence “Snake”, sa version prédite et la 

distribution des erreurs de prédiction correspondantes, exprimées en pourcentage de la diagonale 

de la boîte englobante de l’objet et représentées en fausses couleurs. Nous remarquons que 

le prédicteur proposé modélise efficacement le mouvement des différentes parties du maillage. 

Ici, l’erreur de prédiction maximale est de l’ordre de 0.6% de la diagonale de boîte englobante 

de l’objet. Notons également que les erreurs les plus importantes sont obtenues au niveau des 

frontières des patchs de la partition. Cela montre les limitations du modèledemouvementaffine 

par morceaux qui introduit des discontinuités de bord. L’introduction des poids d’animation 

associées au modèle de skinning permet de réduire considérablement ces discontinuités comme 

illustré figures 5.7(e) et 5.7(f). 

Le Tableau 5.4 présente les résultats de compensation du mouvement en terme d’erreur Eχ 

par modèle de peau avec et sans poids d’animation pour les maillages dynamiques de la Figure 

5.5. Notons tout d’abord les bonnes performances des deux modèles, les erreurs de prédiction 

étant dans l’ensemble inférieures à 0.2% de la diagonale de la boîte englobante de la première 

trame de l’animation. Ces résultats démontrent àl’évidence l’intérêt de considérer le prédicteur 

avec poids d’animation qui offre un gain moyen de (en terme de réduction de l’erreur Eχ) de 

52%. 

(a) (b) (c) (d) (e) (f) 

Figure 5.7 : Prédicteur affine par morceaux vs. modèle de skinning :(a)première trame 

segmentée, (b) trame 36, (c) trame 36 prédite par transformées affines, (d) distribution des 

erreurs de (c), (e) trame 36 prédite par modèle de skinning et (f) distribution des erreurs de 

(e). 

En ce qui concerne la prédiction des vecteurs normaux par le modèledepeauproposé, nous 

avons considéré pour comparaison les deux prédicteurs définis respectivement par les équations 

(5.38) et (5.39). 

par : 

Soit nv t =(nv,x t ,n v,y 

t ,n v,z 

t ), l’erreur de prédiction du vecteur normal au sommet v définie 

∀ v ∈{1, ..., V }, n v t = N v t − Ñ v t 

. (5.46)


Animation Poids Poids Gain 

unitaires optimaux (%) 

“Camel collapse” 0.0020 0.0010 50 

“Chicken” 0.0017 0.0006 62 

“Cow” 0.0019 0.0012 34 

“Dance” 0.0020 0.0013 37 

“Dolphin” 0.0019 0.0008 58 

“Elephant galllop” 0.0020 0.0010 50 

“Horse collapse” 0.0019 0.0010 48 

“Horse gallop” 0.0018 0.0009 51 

“Humanoid” 0.0018 0.0008 54 

“Raptor” 0.0015 0.0008 47 

“Shark” 0.0021 0.0013 37 

“Troll” 0.0018 0.0003 82 

“Wolf” 0.0017 0.0005 70 

Moyenne 0.0018 0.0009 52 

Table 5.4 : Modèle de skinning : erreurs de compensation de mouvement obtenues avec poids 

optimaux et poids unitaires. 

La mesure d’évaluation retenue est l’erreur quadratique moyenne de prédiction des normales, 

notée EN, exprimée comme : 

 

 

 

EN = 1 

V × T × 

T 

t=1 

V 

n v t 2 

N v=1 

v t 

2 . (5.47) 

Le tableau 5.5 résume les performances des deux prédicteurs des normales N t v et Ñ t v. L’erreur 

EN représente l’erreur relative moyenne induite par les deux prédicteurs. La norme de l’erreur 

de prédiction représente en moyenne 30% et 41% de celle de la normale. Ces résultats montrent 

que les deux prédicteurs proposés sont relativement efficaces, même si le modèle de skinning a 

été généré sans tenir compte des vecteurs normaux. 

Le prédicteur Ñ t v proposé améliore les performances de N t v de 25% en moyenne. Notons 

également que le prédicteur Ñ t v s’avère particulièrement efficace dans le cas d’animations avec 

des déformations élastiques importantes, avec un gain de 64% pour “Cow”, de 40% pour 

“Horse collapse” et de 38% pour “Camel collapse”. Cela s’explique par le fait que pour ce 

type d’animations les transformées affines associées aux différentes parties ne peuvent pas être 

assimilées à des similarités. Dans le cas de maillages dynamiques articulés les gains obtenus 

sont de l’odre de 17% en moyenne. Ici encore, le prédicteur proposé se montre plus efficace 

surtout au niveau des articulations où le mouvement des sommets est élastique.


Animation EN( Ñ t v ) EN( N t “Camel collapse” 0.3290 

v ) 

0.5319 

Gain(%) 

38 

“Chicken” 0.7908 0.8259 4 

“Cow” 0.1772 0.4934 64 

“Dance” 0.1454 0.2068 30 

“Dolphin” - - - 

“Elephant galllop” 0.1236 0.1604 23 

“Horse collapse” 0.4286 0.7182 40 

“Horse gallop” 0.1886 0.2538 26 

“Humanoid” 0.1499 0.1750 14 

“Raptor” 0.4751 0.5495 14 

“Shark” - - - 

“Troll” 0.3407 0.3676 7 

“Wolf” 0.2322 0.2687 14 

Moyenne 0.3074 0.4137 25 

Table 5.5 : Performances des prédicteurs des normales : N t v vs. Ñ t v. 


Dans ce chapitre nous avons présenté une approche automatique pour générer un modèle 

de peau (skinning) de compensation de mouvement, à partir d’une représentation par trames 

clés. 

La construction du modèle de peau repose sur une segmentation au sens du mouvement 

du maillage dynamique. Deux algorithmes de segmentation ont été proposés, l’un par classification 

en k-moyennes et l’autre par décimation hiérarchique. Les résultats expérimentaux, 

obtenus sur un riche corpus de test, démontrent àl’évidence la supériorité de l’algorithme de 

segmentation hiérarchique, qui permet en outre de déterminer automatiquement le nombre de 

parties nécessaires. 

La pertinence des algorithmes proposés pour des objectifs de compensation de mouvement 

par modèledepeauaété également établie. 

La méthode de construction d’un modèle de peau est àlabasedesschémas de compression 

proposés dans cette thèse, décrits dans les chapitres suivants

146 Compensation de mouvement par modèledepeau(skinning)

Chapitre6 

Compression MCGV 

Résumé : Ce chapitre propose une nouvelle méthode de compression de maillages dynamiques 

3D, appelée MCGV (Multi-Chart Geometry Video). MCGV étend la représentation 

GV (Geometry Videos), proposée initialement par Briceno et al. [12], tout en l’améliorant 

en termes de performances de compression. Le mêmeprincipedereprésentation de la 

géométrie du maillage dynamique sous forme d’une séquence vidéo d’images géométriques 

2D, pouvant être compressée à l’aide de méthodes standards de codage d’images (i.e., 

JPEG a ou MPEG-4 V2 [177]) est ici exploité. En revanche, MCGV s’affranchit de toute 

procédure de re-maillage, en préservant la connectivité initiale du maillage, qui est codée 

sans perte. Cela permet d’éviter les problèmes d’artéfacts visuels de retriangulation dont 

souffre l’approche GV. En outre, les optimisations apportées, comme la procédure de 

compensation de mouvement par modèle de skinning et la paramétrisation par altas, permettent 

d’améliorer significativement (de l’ordre de 10% à 60%) l’efficacité de compresion. 

Mots clés : MCGV, images géométriques, atlas de paramétrisation, compression, 

maillages dynamiques, MPEG-4, JPEG. 

a. http ://www.jpeg.org/ 

147

148 Compression MCGV 

Dans ce chapitre, nous proposons de représenter un maillage dynamique 3D sous forme 

d’une séquence d’images 2D qui est directement compressée en exploitant les standards JPEG 1 

ou MPEG-4 V2 [177]. Le codeur proposé, appelé Multi-Chart Geometry Video MCGV, étend 

la représentation Geometry Videos (GV) introduite dans [12]. La section suivante présente une 

comparaison entre ces deux techniques et détaille les améliorations introduites. Les sections 

6.2, 6.3 et 6.4 décrivent respectivement le schéma global du codeur MCGV, le processus de 

codage du modèle de peau (skinning) et la compression par images géométriques des erreurs 

résiduelles de compensation de mouvement. La section 6.5 analyse ensuite les fonctionnalités 

supportées par le codeur MCGV. Enfin, les résultats expérimentaux sont présentés et discutés 

Section 6.6. 

Rappelons tout d’abord le principe de la représentation GV, en en soulignant les principales 

limitations. 

6.1 Approche GV : principe et limitations 

L’approche GV représente un maillage 3D sous forme d’une séquence d’images géométriques 

2D (cf. Section 3.1). Les images 2D générées sont ensuite compressées en exploitant une 

procédure de compensation de mouvement affine global combinée à un codage par ondelettes 

régulières 2D. Les limitations majeures de l’approche GV sont liées notamment àlaprocédure 

de remaillage considérée qui peut introduire (Figure 6.1.a) : 

• Despertesdedétails de la surface à cause des problèmes de sous-échantillonnage du 

domaine paramétrique, 

• Une mauvaise triangulation des surfaces remaillées dans le cas de fortes distorsions de 

paramétrisation, 

• Des discontinuités des vecteurs normaux au niveau des courbes de découpage, considérées 

pour effectuer la paramétrisation. 

La technique MCGV proposée s’affranchit de ces limitations tout en optimisant les performances 

de compression. En effet, le codeur MCGV (Figure 6.1) : 

• Evite les problèmes de remaillage en préservant la connectivité initiale du maillage dynamique, 

qui est codée sans pertes, 

• Améliore la stratégie de compensation de mouvement en exploitant le modèle de skinning 

proposé etdécrit au chapitre 5, 

• Minimise les distorsions inhérentes de paramatérisation en exploitant un atlas de paramétrisations 

[178] au lieu d’une unique paramétrisation sur un domaine 2D carré. 

Détaillons àprésent l’approche MCGV proposée. 

6.2 Approche MCGV : schéma global 

Le schéma synoptique du codeur MCGV est présenté Figure 6.2. L’approche proposée 

exploite la stratégie de compensation de mouvement par modèle de skinning décrite au chapitre 

5. Le principe est de : 

• Segmenter (c.f. Section 5.1) les sommets du maillage dynamiques en parties, 

• Modéliser le mouvement de chaque cluster par une transformée affine 3D (cf. Section 

5.2.1), 


6.2 Approche MCGV : schéma global 149 

(a) GV (b) MCGV 

Figure 6.1 : MCGV versus GV : la procédure de remaillage opérée par GV conduit àdes 

pertes de détails et àdesartéfacts visuels. 

Figure 6.2 : Schéma synoptique du codeur MCGV.


• Prédire le mouvement de chaque sommet par une combinaison linéaire pondérée des 

mouvements des différentes parties (c.f. Section 5.2.2). 

La première trame de la séquence, considérée comme trame de référence lors de la prédiction 

par modèle de skinning, est compressée en appliquant un codeur de maillages statiques arbitraire. 

Dans notre cas, nous avons prévilégié lecodeurTFAN(cf. Chapitre 2). Les erreurs 

résiduelles de prédiction sont ensuite converties en images géométriques en exploitant un atlas 

de paramétrisation [178], calculé exclusivementàpartir de la première trame de l’animation. 

Le modèle de skinning ainsi que les coordonnées paramétriques associées aux sommets du 

maillage sont quantifiés uniformément et compressés avec le codeur arithmétique adaptatif 

proposé dans [68]. Les images géométriques décrivant les erreurs de prédiction sont finalement 

codées en appliquant directement : (1) le codeur d’images 2D JPEG ou (2) le codeur vidéo 

MPEG-4 V2 [177]. 

6.3 Codage du modèle de skinning 

Compresser le modèle de skinning (cf. Chapitre 5) revient à trouver une représentation 

compacte pour chacune de ses composantes : (1) la partition, (2) les transformées affines 

et (3) les poids d’animation. Le Tableau 6.1 décrit chacun de ces différents éléments de la 

représentation ainsi que les stratégies de codage adoptées pour leur compression. 

Composante Description Stratégie de codage 

Partition Tableau 1D de taille V associant à chaque sommet 

l’index du cluster auquel il appartient 

Codage arithmétique [68] 

Transformées 

affines 

Ensemble de (K × T ) transformées affines (Ak i )ki décrivant les mouvements des clusters k ∈ 

{1,...,K} aux trames i ∈{1,...,T} 

Quantification uniforme 


Poids d’animation 

Ensemble de coefficients réels (ωv k )v k contrôlant l’influence 

de chaque cluster k ∈ {1,...,K} sur le 

mouvement des sommets v ∈{1, ..., V } 

Quantification uniforme 


Table 6.1 : Stratégie de compression des différentes composantes du modèle de skinning. 

La procédure de quantification uniforme permet de représenter un ensemble de valeurs 

réelles (rj)j∈{1,...,J} par des entiers (gj)j∈{1,...,J} ∈{0, ..., 2 Q − 1} (Q étant le nombre de bits 

de quantification). Cette étape est nécessaire pour pouvoir exploiter le codeur arithmétique 

[68] qui s’applique uniquement à des sources d’information avec un nombre fini de symboles. 

Dans notre cas, les valeurs réelles (rj)j∈{1,...,J} à coder correspondent, soit aux coefficients 

réels des transformées affine (Ak i )ki , soit aux poids d’animation (ωv k )vk . Les sorties entières du 

quantificateur, notées (gj)j, sontdéfinies par : 

 

rj − minj(rj) 

gj = 

maxj(rj) − minj(rj) × (2Q − 1) + 1 

 

, 

2 

(6.1) 

où ⌊x⌋ désigne la valeur entière d’un réel x. 

Achaquevaleurgj on associe une valeur reconstruite, notée ˜rj, qui correspond àlavaleur 

quantifiée de l’échantillion rj, définie par : 

˜rj = 

gj 

(2 Q − 1) × [maxj(rj) − minj(rj)] + minj(rj). (6.2)

6.4 Compression des erreurs résiduelles 151 

Notons que la connaissance des valeurs minimale minj(rj) et maximale maxj(rj) est indispensable 

pour déterminer les valeurs reconstruites (˜rj)j∈{1,...,J} à partir des valeurs entières 

(gj)j∈{1,...,J}. Laprocédure décrite par la relation (6.2) est appelée, par abus de language, quatification 

inverse. Signalons toutefois que la quantification est un processus inversible, avec 

perte d’information. Les deux valeurs minj(rj) etmaxj(rj) sontcodées sans perte et incluses 

dans le flux binaire. 

L’erreur de quantification maximale (appelée aussi pas de quantification), notée δQ, est 

donnée par : 

δQ = maxj(rj) − minj(rj) 

2Q . (6.3) 

− 1 

Détaillons àprésent le codage des erreurs résiduelles de prédiction. 

6.4 Compression des erreurs résiduelles 

Les erreurs de prédiction après compensation de mouvement par modèle de skinning,notées 

e v i =(e v,x 

i ,e v,y 

i ,e v,z 

i , 0), sont définies par : 

∀ v ∈{1, ..., V }, e v i = χvi − χv i . (6.4) 

Le principe de l’approche MCGV proposée consiste à représenter la séquence des erreurs 

résiduelles (ev i )vi sous forme d’une séquence d’images 2D pixéllisées qui peut être compressée 

en appliquant des techniques classiques de codage d’images, comme celles proposées par les 

standards JPEG et MPEG. 

Pour cela, il est nécessaire de construire une paramétrisation du maillage 3D sur un domaine 

image 2D, comme décrit dans la section suivante. 

6.4.1 Atlas de paramétrisations 

Afin de minimiser les distorsions inhérentes à toute technique de paramétrisation, nous 

avons adopté laméthode Iso-Chart introduite dans [178] qui construit un atlas de paramétrisation. 

Pour minimiser les distorsions de paramétrisation, le principe est de segmenter tout 

d’abord le maillage en patchs, puis de dériver une paramétrisation indépendante sur chaque 

partie. Afin de réduire encore plus les distorsions, l’approche Iso-Chart permet de paramétrer 

chaque patch sur un domaine 2D d’une forme adaptée (au lieu d’utiliser un domaine carré 2D). 

Les domaines paramétriques 2D associés à l’ensemble des patchs sont enfin regroupés dans 

un domaine carré 2D(i.e., [0, 1] × [0, 1]). Ici, l’algorithme de regroupement (ou empaquetage) 

introduit dans [74] est utilisé afin de minimiser les espaces entre patchs. 

La Figure 6.3 illustre l’atlas de paramétrisation obtenu pour la première trame de l’animation 

“Dance”. Notons que pour chaque point à l’intérieur de l’un des domaines paramétriques 

associés aux patchs du maillage correspond un point 3D sur la surface. En revanche, l’ensemble 

des points situés entre les différents domaines paramétriques (qui forment un espace 

paramétrique non-utilisé) n’a pas de correspondant sur la surface du maillage. 

Contrairement à l’approche de codage par B-Splines présenté au Chapitre 3, la méthode 

MCGV calcule les coordonnées paramétriques associées aux sommets du maillage en tenant 

compte àlafoisdesespropriétés topologiques et géométriques. Cela permet notamment de


Figure 6.3 : Atlas de paramétrisation. 

minimiser les distorsions de paramétrisation. L’information de paramétrisation, i.e. l’ensemble 

des coordonnées paramétriques (u1(v),u2(v)) des sommets du maillage, est incluse directement 

dans le flux binaire pour être transmise au décodeur. Notons qu’une telle approche serait inefficace 

dans le cadre de la compression de maillages statiques, en raison du volume relativement 

important de cette information additionnelle de paramétrisation. Toutefois, elle trouve pleinement 

son utilité dans le cas des maillages dynamiques, où la paramétrisation est transmise 

uniquement pour la première trame de la séquence. 

En pratique, le codeur MCGV applique l’algorithme Iso-Chart sur la première trame de 

l’animation conditionellement à la partition au sens du mouvement calculée lors de la construction 

du modèle de skinning. La partition finale en patchs qui est obtenue correspond ainsi à 

une sur-segmentation de la partition associée au modèledepeau. 

L’atlas de paramétrisations ainsi obtenu est ensuite exploité pour convertir l’ensemble des 

trames de l’animation en images géométriques 2D, comme décrit dans le paragraphe suivant. 

6.4.2 Construction des images géométriques 

Afin de générer les images géométriques associées au différentes trames de l’animation, le 

principe consiste àré-échantillonner uniformément l’espace paramétrique de représenter les 

erreurs de compensation de mouvement (ev i )vi selon une grille régulière pouvant être stockée 

sous forme d’une image. Intuitivement, cela correspond à une “pixellisation” de cet espace. 

Toutefois, dans le domaine paramétrique, les seuls points qui ont une information géométrique 

associée sont ceux correspondant aux sommets du maillage (i.e., l’ensemble {(u1(v),u2(v))/v ∈ 

. Pour associer une information 

{1,...,V}}, pour lesquels on dispose des erreurs (ev } 

i )i∈{1,...,T 

v∈{1,...,V }


Figure 6.4 : Images géométriques des erreurs de compensation de mouvement. 

Figure 6.5 : Image géomatrique obtenue après l’application de la procédure de remplissage 

(padding) sur l’image de la Figure 6.4.


d’erreur de compensation de mouvement à chaque pixel du domaine paramétrique, il est alors 

nécessaire d’appliquer une procédure d’interpolation à partir des données éparses (scattered 

data interpolation) [179]. 

Dans notre cas, nous avons adopté une méthode d’interpolation simple mais efficace, àbase 

de coordonnées barycentriques. 

Plus rigoureusement, notons par (Gj)j∈{1,...,NG} ⊂ [0, 1] × [0, 1] l’ensemble des domaines 

paramétriques de l’atlas de paramétrisation. Soient : 

• μ un point du domaine paramétrique Gj, 

• tj le triangle 2D de Gj auquel le point μ appartient, 

• vA, vB et vC les trois sommets du triangle tj, et 

• μvA(μ), μvB(μ) et μvC(μ) les vecteurs 2D des coordonnées paramétriques associés à vA, vB 

et vC. 

Soit φ i j la fonction associée àlatramei et définie sur le domaine paramétrique Gj par : 

φi j : Gj → R3 μ → α(μ)e vA 

i + β(μ)evB i + γ(μ)evC i 

, (6.5) 

avec α(μ), β(μ) etγ(μ) les coordonnées barycentriques [80] du point μ dans le triangle tj de 

Gj, définies par : 

(μvB − μ) ∧ (μvC − μ)| 

α(μ) = 


(6.6) 

(μvA − μ) ∧ (μvC − μ) 

β(μ) = 


(6.7) 

(μvA − μ) ∧ (μvB − μ) 

γ(μ) = 


(6.8) 

où ∧ désigne le produit vectoriel entre deux vecteurs. 

En combinant les fonctions (φ i j )j , nous pouvons dériver la fonction φ i associée à la trame 

i et définie sur tout le domaine paramétrique par : 

∀ μ ∈ [0, 1] × [0, 1], φ i 

i φj (μ) , 

(μ) = 

0 , 

si μ ∈Gj 

. 

sinon 

(6.9) 

Notons que la fonction φ i ,définie dans l’Equation (6.9), permet d’interpoler les erreurs de 

compensation de mouvement (e v i )v i 

sur le domaine [0, 1] × [0, 1]. En particulier, la fonction φi 

est interpolatrice au sens où elle garantit pour tout sommet v du maillage la propriétésuivante: 

φ i (μv) =e v i , (6.10) 

avec μv le vecteur des coordonnées paramétriques associées au sommet v. 

Une fois la procédure d’interpolation des erreurs définie pour l’ensemble des trames de 

l’animation, l’étapesuivanteconsisteàéchantillonner uniformément le domaine paramétrique 

aux points (μunif(k, l)) l∈{1,...,M} 

k∈{1,...,N} (M et N désignant respectivement la largeur et la hauteur des 

images géométriques que l’on souhaite déterminer) du domaine paramétrique définis par : 

 

∀ l ∈{1,...,M}, ∀ k ∈{1,...,N} μunif(k, l) = . (6.11) 

l 

M−1 

k 

N−1


Soient (ei unif (k, l))l∈{1,...,M} 

k∈{1,...,N} les erreurs de compensation de mouvement associées au points 

(μunif(k, l)) l k aux différents instants de l’animation, comme décrit par l’équation (6.12) : 

∀ i ∈{1,...,T}, ∀ l ∈{1,...,M}, ∀ k ∈{1,...,N} e i unif(k, l) =φi(μunif(k, l)). (6.12) 

La séquence des erreurs de compensation de mouvement (ei unif (k, l)) est ensuite quantifiée 

sur 8 bits (cf. Section 6.3). Les erreurs quantifiées associées à chaque trame sont stockées 

sous forme d’une image couleur. Ici, les valeurs quantifiéesdeserreursselonlesaxesx, y et 

z sont considérées comme étant les trois plans de couleur R, G et B des pixels des images 

géométriques. 

La Figure 6.4 illustre l’image des erreurs de compensation de mouvement générée pour la 

trame 48 de l’animation “Dance”. 

Les images géométriques des erreurs de compensation de mouvement ainsi obtenues montrent 

des discontinuités importantes au niveau des frontières entre les parties de l’image correspondants 

aux domaines paramétriques (Gj)j∈{1,...,NG} et le domaine non-utilisé de l’image correspondant 

à l’ensemble Gfree (représenté en noir dans Figure 6.4) défini par : 

Gfree =([0, 1] × [0, 1]) / (Gj)j∈{1,...,NG}. (6.13) 

Compresser directement ces images à l’aide de techniques classiques de compression d’images 

rectangulaires (e.g. JPEG/MPEG) conduirait à de faibles performances de compression en raison 

des hautes fréquences générées par ces discontinuités. Pour s’affranchir de cet inconvénient, 

nous proposons d’appliquer une technique de remplissage (padding) inspirée de celle utilisée 

par le codeur MPEG-4 V2 [177]. Notons que la procédure de padding n’affectera pas le processus 

de reconstruction étant donnée que les pixels correspondant au domaine Gfree peuvent 

prendre des valeurs arbitraires, sans aucune influence sur les maillages reconstruits. Toutefois, 

elle est essentielle pour garantir une compression efficace. 

6.4.3 Remplissage des images géométriques 

En vue d’une compression JPEG ou MPEG encore plus efficace, la méthode de remplissage 

ou padding proposée est spécifiquement adaptée àdesschémas de codage qui mettent en oeuvre 

une DCT par blocs de taille (8 × 8) pixels. 

Les images géométriques sont donc tout d’abord partitionnées en blocs (8×8) pixels. Notons 

que la méthode de paramétrisation Iso-Chart[178] (cf. Section 6.4.1) permet de construire 

l’atlas de paramétrisation tout en assurant une distance minimale entre les différents domaines 

paramétriques (Gj)j∈{1,...,NG}. Conaissant apriorila largeur M et la hauteur N des images 

géométriques (en pixels), la distance minimale entre domaines paramétriques est choisie de 

façon à ce qu’aucun bloc ne contienne des pixels associés à deux domaines paramétriques 

différents. 

Chaque bloc B est composé, soit de pixels avec des valeurs bien définies (fixées), correspondant 

aux domaines paramétriques (Gj)j∈{1,...,NG}, soit de pixels dits libres (ou non-définis), 

associés au domaines non-utilisés Gfree. Notons par Bfree et Bfix respectivement l’ensemble des 

pixels libres et fixés du bloc B. 

Comme mesure du degré decontinuitéd’un bloc B, nous considérons la fonction ψ définie 

par : 

ψ(B) = 

ep − eq 2 , (6.14) 

(p,q)∈ℵB


où ℵB est l’ensemble des couples de pixels voisins en 8-connectivitédublocB et ep =(e R p ,eG p ,eB p ) 

est la valeur de l’image géométrique considérée au pixel p. 

Minimiser la fonction ψ(B) par rapport aux valeurs des pixels de Bfree revient àrésoudre 

le système d’équations linéaires suivant : 

∀p ∈Bfree, 

∂ψ(B) 

∂Bp 

=2 

(ep − eq) =0, (6.15) 

où ℵp représente l’ensemble des pixels voisins de p. 

Résoudre (6.15) est alors équivalent à trouver la solution du système linéaire suivant : 

∀p ∈Bfree, 8 ep − 

eq = 

eh. (6.16) 

q∈ℵp 

q∈ℵp∩Bfree 

h∈ℵp∩Bfix 

Le système linéaire (6.16) étant creux, symétrique et défini positif, il peut être résolu de façon 

stable et rapide en appliquant l’algorithme du gradient conjugué [82]. La Figure 6.5 illustre 

l’image des erreurs de compensation de mouvement obtenue pour la trame 48 de l’animation 

“Dance”. Nous observons que la procédure de remplissage proposée conduit à une image lisse 

sur l’ensemble des blocs de taille (8 × 8) pixels de l’image. 

6.4.4 Codage des images géométriques 

Suite àl’étape de padding, les images géométriques des erreurs résiduelles de compensation 

de mouvement sont enfin compressées en appliquant soit le codeur d’images statiques JPEG 

(dans une approche de codage trame par trame), soit le codeur vidéo MPEG-4 V2 [177]. 

Notons que chaque image couleur correspond aux trois images en niveaux de gris, une pour 

chaque plan R, G et B, codés de façon indépendante. Les coordonnées paramétriques des 

sommets du maillage (μv)v∈{1,...,V } sont quantifiées uniformément (cf. Section 6.3), puis codées 

arithmétiquement [68]. 

Au niveau du décodeur, la reconstruction des erreurs de compensation de mouvement 

(ev } 

i )i∈{1,...,T 

v∈{1,...,V } associées aux sommets du maillage est effectuée comme suit. Les images géométriques, 

ainsi que les coordonnées paramétriques sont tout d’abord décodées. 

l’image géométrique des erreurs de compensation de mouvement 

Notons par (˜e i 

unif (k, l))lk reconstruite à la trame i. L’erreur de compensation de mouvement reconstruite ˜e v i associée au 

sommet v à la trame i est alors déterminée en appliquant la relation suivante : 

1 

˜μ v × M , ˜μ 2 v × N , (6.17) 

˜e v i 

=˜e i 

unif 

avec ˜μ =(˜μ 1 v, ˜μ 2 v) le vecteur des coordonnées paramétriques reconstruit. 

Notons que les erreurs de compensation de mouvement reconstruites (˜e v } 

i )i∈{1,...,T 

v∈{1,...,V } 

générale différentes des erreurs (˜e v } 

i )i∈{1,...,T 

v∈{1,...,V } 

sont en 

associées intialement aux sommets du maillage. 

Ces erreurs de reconstruction sont inhérentes àla“pixéllisation” (i.e., quantification du domaine 

paramétrique sur un nombre de pixels finis) appliquée lors de la génération des images 

géométriques. 

Analysons àprésent dans quelle mesure l’approche MCGV proposée répond aux fonctionnalités 

enoncées Section 4.4.

6.5 Fonctionnalités 157 

6.5 Fonctionnalités 

Le codeur MCGV représente la géométrie d’un maillage dynamique sous forme d’une 

séquence d’images 2D dont l’interprétationentermedegéométrie 3D est assurée par une 

information supplémentaire relative au modèle de skinning et aux coordonnées paramétriques 

associées aux sommets du maillage. Cette information supplémentaire est codée de façon statique 

une seule fois, pour toute la séquence, au début du processus de transmission. Les trois 

images géométriques qui représentent la composante la plus importante en volume du flux 

binaire (i.e., plus de 80% en moyenne) sont codées en exploitant les deux standards de codage 

d’images JPEG 2 et MPEG-4 V2 [177]. Cette approche permet àMCGVd’hériter directement 

des fonctionnalités supportées par ces deux codeurs et qui sont synthétisées dans le Tableau 

6.2. 

Techniques Codage des Scalabilité Scalabilité Scalabilité Quasi-sans Streaming 

attributs spatiale temporelle en qualité pertes 

MCGV/JPEG × × × 

MCGV/MPEG-4 V2 × × × × 

Table 6.2 : Fonctionnalités supportées par le codeur MCGV. 

Dans le cas du codeur MCGV/JPEG, les trames sont codées indépendamment les unes des 

autres. Cette approche permet un accès aléatoire aux trames sans avoir besoin de décoder toute 

la séquence. En plus, la scalabilité en qualité supportée par le codeur JPEG est directement 

héritée par le codeur MCGV. 

Le codeur MCGV/MPEG-4 V2 permet un accès direct aux trames de type I (i.e., mode 

intra). Ces points d’accès aléatoire, permettent entre autres d’assurer la fonctionnalité de 

streaming. Laprocédure de prédiction supplémentaire appliquée ici exploite efficacement les 

corrélations temporelles entre trames successives et offre ainsi de meilleures performances de 

compression que l’approche MCGV/JPEG (cf. Section 6.6.3.1). Les fonctionnalités de scalabilité 

temporelle et de scalabilité en qualité supportées par le standard MPEG-4 V2 [177] sont 

elles-aussi directement héritées par le codeur MCGV. Dans ce cas, le codeur MCGV reconstruit 

les erreurs de compensation de mouvement en appliquant l’Equation (6.17) aux différentes 

trames des vidéos scalables (temporellement ou en qualité) produites par le codeur MPEG-4 

V2. 

Le codage des attributs photométriques (e.g., normales, couleurs...) est également possible 

et ce pour les deux versions du codeur MCGV/JPEG et MCGV/MPEG-4 V2. Comme proposé 

dans [12], il suffit de générer des images géométriques supplémentaires pour chacune 

de ces informations de façon analogue à l’approche décrite dans la Section 6.4 pour les attributs 

géométriques. Ces images peuvent être également codées par l’un des deux codeurs 

MCGV/JPEG ou MCGV/MPEG-4 V2. 

Notons en revanche que les fonctionnalités de scalabilité spatiale et de codage quasi-sans 

perte ne peuvent pas être supportées par le codeur MCGV. En effet, la représentation par 

images géométriques utilisée induit des pertes d’information inhérentes àlaprocéduredereéchantillonnage 

considérée. Ainsi, la discrétisation du domaine paramétrique en un nombre fini 

de pixels et la quantification des coordonnées paramétriques associées aux sommets du maillage 

conduisent à des pertes de précision lors du processus de reconstruction des erreurs résiduelles 



(équation 6.17). Ces pertes sont inhérentes àlareprésentation par images géométriques et 

dépendent fortement de la qualité de la paramétrisation utilisée (cf. Section 6.4.1). Il est alors 

impossible d’imposer à l’avance une borne maximale sur les erreurs de reconstruction des 

images géométriques. 

Analysons àprésent les performances de l’approche MCGV proposée en termes d’efficacité 

de compression. 


6.6.1 Corpus d’évaluation 

Afin de réaliser une comparaison objective, nous avons considéré comme corpus de test six 

animations utilisées par la majorité des travaux de la littérature : “Dance”, “Chicken”, “Dolphin”, 

“Humanoid”, “Cow” et “Snake”. Les propriétés de ces animations (type de mouvement, 

nombre de sommets, de trames et de composantes connexes...), ainsi que des extraits illustrant 

leurs mouvements sont présentés dans l’Annexe 8.5. 

6.6.2 Critères d’évaluation 

Afin d’évaluer les performances de compression pour des maillages dynamiques avec des 

nombres de sommets et de trames différents, les débits sont exprimés en bits par trame par 

sommet (bpts). Les débits rapportés correspondent à la taille totale du flux binaire nécessaire 

pour le décodage de l’animation qui inclut : 

• la première trame compressée avec le codeur TFAN, 

• les coordonnées paramétriques des sommets, 

• la partition, 

• les transformées affines, 

• les poids d’animation, 

• les images géométriques des erreurs de compensation de mouvement. 

Les distorsions de compression sont mesurées en utilisant l’erreur RMSE [51] entre maillages 

originaux et reconstruits (décodés). L’erreur RMSE entre deux séquences de maillages animés 

(Si)i∈{1,...,T } et (S ′ i)i∈{1,...,T } est définie comme étant la moyenne (sur l’ensemble des trames) 

des erreurs RMSE pour chaque couples de trames : 

RMSE(S, S ′ )= 

1 

D × T × 

T 

RMSE(Si,S ′ i). (6.18) 

Le facteur de normalisation D représente la longueur de la diagonale de la boîte englobante 

de l’objet àlapremière trame. Notons que l’utilisation de l’erreur RMSE est indispensable 

pour l’évaluation de l’approche GV, puisque la comparaison doit être effectuée entre deux 

maillages, initial et reconstruit, caractérisés par des connectivités différentes. Cela pénalise 

l’exploitation de mesures plus simples, fondées sur des distances de sommet à sommet comme 

celles considérées dans la Section 8.2. 

i=1


6.6.3 Résultats de compression 

Les paramètres du codeur MCGV utilisés pour l’ensemble des animations sont les suivants : 

• le paramètre E0 utilisé dans la construction du modèle de skinning (cf. chapitre 5) est 

fixé àlavaleur(0.0025) 2 , 

• les coordonnées paramétriques des sommets sont quantifiées sur 8 bits, 

• les poids d’animation et les transformées affines sont quantifiées sur 16 bits, 

• leserreursrésiduelles de prédiction par modèle de skinning sont quantifiées sur 8 bits, 

• la taille des images géométriques est de 256 × 256. 

L’approche MCGV a été comparée à six techniques de l’état de l’art : D3DMC, AFX-IC, 

RT, PCA, Dynapack et GV. Les résultats de compression des approches retenues sont ceux 

rapportés dans [162], [158], [122] et [12]. Le Tableau 6.3 résume les résultats de compression 

disponibles dans la littérature pour les séquences animées considérées ainsi que les références 

sources correspondantes. 

Analysons tout d’abord de façon comparée les performances des deux variantes de codage 

MCGV considérées, par JPEG et par MPEG-4/V2. 

Animation D3DMC AFX-IC RT PCA Dynapack GV 

“Cow” - - - - - [12] 

“Chicken” [162] [162] [158] - [122] - 

“Dolphin” - - - - - - 

“Dance” - - - - - [12] 

“Humanoid” [162] [162] - - - - 

“Snake” - - [158] [158] - [12] 

Table 6.3 : Résultats de compression disponibles et références des sources associées. 

6.6.3.1 MCGV/JPEG versus MCGV/MPEG-4 V2 

Les Figures 6.6 et 6.7 présentent les courbes débit/distorsion des codeurs MCGV/JPEG et 

MCGV/MPEG-4 V2 obtenues pour les animations “Dance”, “Chicken”, “Dolphin”, “Humanoid”, 

“Cow” et “Snake”. Le Tableau 6.4 résume les gains moyens en termes de débits obtenus 

par le codage prédictif MCGV/MPEG-4 V2 par rapport au codage intra MCGV/JPEG. Sur 

l’ensemble des séquences, nous constatons un gain moyen de 33%. Ce gain s’explique par les 

corrélations temporelles résiduelles relativement importantes qui sont bien prises en compte 

par l’approche prédictive MPEG-4 V2. 

Etudions àprésent les performances de l’approche MCGV par rapport àlatechniqueoriginale 

de vidéos géométriques GV [12]. 

6.6.3.2 MCGV versus GV 

L’approche GV supporte deux modes de codage : 

1. le mode I (intra) : toutes les trames sont codées indépendamment les unes des autres, 

2. le mode P (prédictif) : la première trame est codée de façon indépendante et les autres 

trames sont prédites.


(a) “Chicken” 

(b) “Cow” 

(c) “Dance” 

Figure 6.6 : MCGV/JPEG versus MCGV/MPEG-4 V2 pour les animations : a) “Chicken”, 

b)“Cow”etc)“Dance”.


(a) “Dolphin” 

(b) “Snake” 

(c) “Humanoid” 

Figure 6.7 : MCGV/JPEG versus MCGV/MPEG-4 V2 pour les animations : a) “Dolphin”, 

b) “Snake” et c) “Humanoid”.


Animation Gain (%) 

“Chicken” 42 

“Cow” 17 

“Dance” 24 

“Dolphin” 42 

“Snake” 36 

“Humanoid” 36 

Moyenne 33 

Table 6.4 : Gains moyens en débits obtenus par le codage prédictif MCGV/MPEG-4 V2 par 

rapport au codage intra MCGV/JPEG. 

Figure 6.8 : Courbes débit/distorsion des approches prédictives MCGV/MPEG-4 V2 et GV 

en mode P. 

NotonsquelecodeurGVnepeutpass’appliquer aux maillage dynamiques “Chicken” et 

“Dolphin”. En effet, cette méthode ne prend pas en compte les maillages composés de multiples 

composantes connexes et les maillages non-manifolds qui ne sont pas pris en compte par cette 

méthode. Dans le cas de l’animation “Cow”, seules les 81 premières trames ont été considérées 

dans [12]. 

La Figure 6.9 présente les distributions des erreurs RMSE en fonction des trames de l’animation 

“Dance” pour les deux approches prédictives MCGV/MPEG-4 V2 et GV en mode P à 

2 et 4 bpts. La Figure 6.8 montre les courbes débit/distorsion associées à ces deux approches. 

Le gain moyen en distorsion (pour un même débit) est de l’ordre de 30%. En termes de débits, 

le gain moyen obtenu (sur toute la plage des distorsions considérées) est de 60%. 

La Figure 6.10 montre les courbes des erreurs RMSE en fonction des trames obtenues, à8 

bpts, pour les codeurs MCGV/JPEG et GV en mode I. Le Tableau 6.5 présente les gains en 

termes d’erreurs RMSE obtenues par le codeur MCGV/JPEG par rapport à l’approche GV 

mode I. Ces gains sont respectivement de l’ordre de 50%, 60% et 10% pour les animations 

“Cow”, “Dance” et “Snake”. 

Ces résultats montrent que l’approche MCGV proposée améliore de 60% en moyenne les 

performances (en termes de débits) du codeur GV. Elle est particulièrement efficace dans le cas 

de maillages dynamiques articulés (e.g., animation “Dance”) où la stratégie de compensation 

de mouvement par modèle de skinning est pleinement exploitée. En outre, àhautsdébits (i.e.,


(a) “Dance” à 4 bpts 

(b) “Dance” à 2 bpts 

Figure 6.9 : MCGV/MPEG-4 V2 versus GV-mode P à:a)2etb)4bpts. 

Sequence GV MCGV Gain 

“Cow” 0,00122 0,00067 45% 

“Dance” 0,00020 0,00049 60% 

“Snake” 0,00015 0,00017 10% 

Table 6.5 : MCGV/JPEG versus GV mode I à 8 bpts.


à partir de 8 bpts), le codeur MCGV permet d’atteindre des erreurs RMSE plus basses. Cela 

s’explique par l’atlas de paramétrisation considéré, qui permet de réduire considérablement les 

distorsions de paramétrisation. De plus, l’absence de procédures de re-maillage permet évite les 

problèmes de sous-échantillonnage, de mauvaise triangulation et de discontinuités des normales. 

Notons également que l’approche MCGV permet de gérer une classe plus grande de maillages,à 

multiples composantes connexes (e.g., “Chicken”), non-manifold (e.g., “Dolphin”) et de genres 

arbitraires grâce à l’approche de paramétrisation par atlas considérée [178]. 

6.6.3.3 MCGV versus les techniques de l’état de l’art 

La Figure 6.12 illustre les performances des codeurs MCGV, AFX-IC et D3DMC pour 

le maillage dynamique “Humanoid”. Ici, à 2.2 bpts, l’approche MCGV/MPEG-4 V2 offre en 

moyenne dans gains en terme de distorsions RMSE de l’ordre de 80% et 94% par rapport 

aux approches D3DMC et AFX-IC. Les performances de compression relativement basses du 

codeur AFX-IC s’expliquent par la simplicité duprédicteur spatio-temporel utilisé qui n’arrive 

pas en pratique à exploiter efficacement les redondances spatio-temporelles de l’animation. 

La Figure 6.13 compare les performances du codeur MCGV à celles des approches D3DMC, 

AFX-IC, RT et Dynapack pour l’animation “Chicken”. Ici, les techniques D3DMC et MCGV 

surclassent les autres codeurs dans la plage des bas débits (i.e., moins de 4bpts). A 2.2 bpts, 

le codeur MCGV/MPEG-4 V2 offre un gain de 30% en terme d’erreur RMSE par rapport àla 

technique D3DMC. Cela s’explique par la non-optimalité deladécomposition du mouvement 

par arbre octale (octree) exploité par D3DMC. En effet, dans le cas de mouvements complexes, 

une telle structure de subdivision régulière nécessite un nombre important de niveaux ce qui 

conduit à une dégradation des performances de compression. 

La Figure 6.11 montre les courbes débit/distorsion des codeurs MCGV, RT et PCA pour 

le maillage dynamique “Snake”. Ici, l’approche PCA coduit au plus mauvais résultats de compression. 

Cela s’explique par le fait que la technique PCA est optimisée pour des séquences 

animées longues avec un nombre de sommets beaucoup moins important que le nombre de 

trames (T ≫ V ). Une telle hypothèse n’est pas vérifiée dans le cas de l’animation “Snake” 

(T = 134, V = 9179). L’approche MCGV en revanche offre les meilleurs résultats de compression 

avec des gains en distorsion RMSE de l’ordre 50% par rapport àlatechniqueRT.Cela 

prouve que la modélisation par modèle de skinning est plus efficace qu’un modèle rigide par 

morceaux.


(a) “Dance” 

(b) “Cow” 

(c) “Snake” 

Figure 6.10 : MCGV/JPEG versus GV-mode I à 8 bpts.


Figure 6.11 : Animation “Snake” : MCGV versus les techniques de l’état de l’art. 

Figure 6.12 : Animation “Humanoid” : MCGV versus les techniques de l’état de l’art. 

Figure 6.13 : Animation “Chicken” : MCGV versus les techniques de l’état de l’art.



Dans ce chapitre, nous avons présenté une approche de compression de maillages dynamiques, 

dites MCGV, fondée sur une représentation par images géométriques. L’approche 

MCGV proposée étend la représentation GV [12] a une classe plus large de maillages dynamiques 

(non-manifold, à multiples composantes connexes et de genre arbitraire) tout en 

s’affranchissant des problèmes de remaillage (e.g., discontinuités et de sous-échantillonnage). 

En exploitant des standards de compression déjà matures(i.e., JPEG et MPEG-4 V2) la 

technique MCGV améliorent considérablement les performances de compression de GV (des 

gains en débits de l’odre de 60%) tout en héritant des fonctionnalités avancées offertes par ces 

standards : scalabilité temporelle, la scalabilité en qualité, streaming et codage des attributs. 

Notons en revanche que le codeur MCGV ne supporte pas les fonctionnalités de scalabilité 

spatiale et de codage quasi-sans perte. En effet, la conversion de la géométrie irrégulière des 

maillages dynamiques sous forme d’images géométriques étant un processus avec pertes, il est 

complexe voire impossible de garantir dans le cas général une borne maximale des erreurs 

de conversion. De plus, la scalabilité spatialeétant assurée uniquement dans le domaine des 

images géométriques, il est difficile de la transposer dans le domaine des maillages dynamiques. 

Afin de répondre aux contraintes d’efficacité de compression tout en assurant la totalité 

des fonctionnalités requises, nous proposons dans le chapitre suivant une deuxième technique 

de compression de maillages dynamiques. L’approche proposée, appelée FAMC (Frame-based 

Animated Mesh Compression), fait cohabiter différentes techniques prédictives et par transformées 

pour augmenter l’efficacité decompressionetrépondre aux besoins fonctionnels des 

applications industrielles. De manière plus précise, nos contributions portent sur la mise en 

place d’un schéma de codage général, avec une architecture flexible et modulaire supportant 

notamment les fonctionnalités de streaming, de scalabilité (temporelle, spatiale et en qualité), 

de prise en compte de codage d’attributs photométriques et de compression quasi-sans perte.

168 Compression MCGV

Chapitre7 

L’approche FAMC : la nouvelle 

spécification MPEG-4 

Résumé : Ce chapitre propose une nouvelle méthode de compression de maillage dynamique 

3D, appelée Frame-based Animated Mesh Compression (FAMC). Le codeur FAMC 

offre une architecture flexible et modulaire combinant une stratégie de compensation de 

mouvement par modèle de skinning avec différentes techniques de codage par transformées 

des erreurs résiduelles. En outre, l’approche proposée supporte un ensemble de fonctionnalités 

telles que le streaming, la scalabilité (temporelle, spatiale et en qualité), le codage 

d’attributs photométriques et de la compression quasi-sans pertes. 

Mots clés : FAMC, compression, maillage dynamique 3D, standard MPEG-4. 

169

170 L’approche FAMC : la nouvelle spécification MPEG-4 

7.1 Schéma global 

Le schéma synoptique de l’algorithme de compression FAMC est présenté Figure 7.1. 

Figure 7.1 : Schéma synoptique du codeur FAMC. En grisé, les modules optionnels. 

Tout d’abord, la première trame de la séquence est compressée à l’aide d’un codeur de 

maillage statique. Toute approche de compression de maillage statique peut être ici exploitée. 

Pour nos expérimentations, nous avons prévilégié lecodeurTFANproposéauChapitre 2. 

Le module de générationdumodèle de peau (skinning) exploite la procéduredesegmentation 

hiérarchique présentée dans la Section 5.1. Ici, les sommets du maillage sont partitionnés 

en un ensemble de clusters, defaçon à ce que le mouvement de chacun puisse être décrit par 

une unique transformée affine 3D. Un modèle de mouvement affine est alors associé demanière 

optimale àchaquecluster et pour chaque trame (cf. Section 5.2.1). Ce modèle est alors exploité 

dans l’étape de compensation de mouvement, le mouvement de chaque sommet étant exprimé 

comme une combinaison linéaire pondérée des mouvements des différentes parties (cf. Section 

5.2.2). 

Notons, que le mouvement affine est toujours estimé par rapport àlapremière trame de 

l’animation afin de : 

1. Permettre un accès aléatoire aux trames de l’animation, 

2. Gérer efficacement les pertes d’information dans le contexte de transmission en environnements 

bruités. 

Leserreursrésiduelles de compensation de mouvement sont finalement codées à l’aide d’une 

transformée temporelle ou spatio-temporelle. Une dernière étapedeprédiction hiérarchique

7.2 Codeur arithmétique avec contexte CABAC 171 

peut être optionnellement appliquée. Celle-ci exploite une décomposition en niveaux hiérarchiques 

du maillage, adaptée à une prédiction spatio-temporelle locale qui assure la scalabilité spatiale 

du flux FAMC. 

Dans nos expérimentations, nous avons retenu les transformées suivantes : 

• l’identité pour permettre un codage uniquement par prédiction hiérarchique, 

• la DCT (Discrete Cosine Transform) bien connue pour ses propriétés de concentration 

de l’énergiedusignalenunnombreréduit de coefficients, 

• la transformée en ondelettes (TO) implantée par schéma de lifting [180], pour sa 

capacité d’allier compacité dereprésentation et faible complexité de calcul, ainsi que 

pour le support du codage quasi-sans perte, 

• une décomposition par ACP, pour l’optimalité delareprésentation. 

Notons la grande flexibilité de l’architecture modulaire proposée qui rend possible l’intégration 

de plusieurs méthodes, pouvant répondre àdifférentes contraintes d’application. 

Quelquesoitletyped’information(paramètres du modèle de skinning, coefficients spectraux...), 

les différents éléments de la représentation FAMC sont codés à l’aide du codeur 

arithmétique binaire adaptatif avec contextes - CABAC (Context-based Adaptive Binary Coding). 

Pour faciliter la compréhension de la suite des développements présentés dans ce chapitre, 

présentons en premier lieu le codeur CABAC, avec ses principes et différents modes de fonctionnement. 

7.2 Codeur arithmétique avec contexte CABAC 

Afin d’assurer un codage binaire efficace et de faible complexité de calcul, nous avons adopté 

le codeur arithmétique binaire CABAC retenu par le standard de codage vidéo H.264/AVC 

[181] en raison de ses performances élevées. 

Le schéma fonctionnel du codeur CABAC est présenté Figure 7.2. Il repose sur les trois 

étapes suivantes : 

1. Binarisation qui consiste à associer de façon unique à des symboles non-binaires des 

mots de code binaires, d’une manière adaptée à leurs propriétés statistiques. Un principe 

bien connu en théorie de l’information est ici exploité : plus un symbole est fréquent, plus 

le code binaire qui lui est associé est court. 

2. Modélisation des contextes qui vise à adapter la probabilité d’apparition d’un symbole 

binaire à son contexte (e.g., type de l’information codée, valeurs des symboles déjà 

traités dans un voisinage spatio-temporel...). 

3. Codage arithmétique binaire qui exploite une quantification sur quatre bits des probabilités 

d’apparition des symboles binaires obtenus àl’étape (1), ainsi que des tables de 

probabilités pré-calculées pour leur mise à jour adaptative.


Figure 7.2 : Schéma fonctionnel du codeur CABAC. 

NotonsquelecodeurCABACpermetégalement un codage direct des symboles binaires 

(sans passer par le codeur arithmétique) et ce afin de simplifier et d’accélérer le codage d’informations 

binaires caractérisées par des répartitions équiprobables (e.g., bits de signe, bits les 

moins significatifs...). Au contraire, le codage arithmétique est en général utilisé dans le cas des 

symboles présentant des répartitions de probabilités concentrées autour de certaines valeurs, 

où une modélisation par contextes est efficace. Pour une présentation in extenso de CABAC, 

le lecteur est invité à consulter [181]. 

L’intégration du codeur CABAC dans la structure modulaire de FAMC nécessite de développer 

des procédures de binarisation optimisées et adaptées aux composantes du flux FAMC (e.g. 

coefficients DCT/TO, poids d’animation, transformées affines...). 

D’une manière générale, l’objectif est d’associer à chaque symbole x d’une source d’information 

S, un mot de code binaire b(x), d’une façon adaptée aux propriétés statistiques de 

la source. Les symboles x prennent leurs valeurs dans un ensemble A, appelé alphabet de la 

source, et leurs probabilités d’apparition, notées p(x), sont supposées connues. 

Sans restreindre la généralité duproblème, considérons une source à symboles prenant des 

valeurs entières, dans l’alphabet A = {0, 1, ..., X − 1}, avecX le nombre total des symboles. 

Les différents schémas de binarisation adoptés ainsi que leurs principales propriétés sont 

présentés dans les sections suivantes. 

7.2.1 Schéma de binarisation à longueur fixe 

Le schéma de binarisation à longueur fixe - FL (Fixed Length) associe àtoutentierx ∈A 

sa représentation binaire sur ⌈log2(X)⌉ 1 bits. Cette procédure est illustrée dans le Tableau 7.1, 

pour un alphabet composé de cinq symboles. Les mots de code étant de longueur constante, 

la binarisation FL est en générale utilisée pour des alphabets dont les symboles sont plus ou 

moins équiprobables. 

1. ⌈.⌉ : la fonction qui associe àunréel r le plus petit entier n tel que n ≥ r.

7.2 Codeur arithmétique avec contexte CABAC 173 

Valeur Code FL binaire 

0 000 

1 001 

2 010 

3 001 

4 100 

5 101 

Table 7.1 : Schéma de binarisation FL pour l’alphabet A = {0, 1, 2, 3, 4, 5}. 

7.2.2 Schémas de binarisation Unary et Truncated Unary 

Le schéma de binarisation Unary associe àtoutentierx ≥ 0lecodebinairecomposé d’une 

séquence de x bits de valeur 1 suivie d’un bit de terminaison de valeur 0. 

La binarisation Truncated Unary, notée TU, associée à une valeur 0 ≤ x


Le code EGk associé ausymbolx est défini par la concaténation de deux codes binaires : 

un code préfixe et un code suffixe. 

Le code préfixe correspond àlareprésentation Unary de l’entier l(x) = log2(x/2 k +1) . 

Le code suffixe est donné parlareprésentation FL (cf. Section 7.2.1) sur k +l(x) bits de l’entier 

x +2 k (1 − 2 l(x) ). 

Le Tableau 7.3 présente un exemple de binarisation pour le schéma EG0. 

Notons que la longueur du mot binaire associé ausymbolex a pour longueur lEGk(x) = 

2.l(x) +k + 1 bits. En inversant encore une fois la relation de Shannon, on peut déduire que 

le code EGk est optimal pour un alphabet avec des probabilités de la forme : 

∀ x ≥ 0, p(x) =2 −(2.l(x)+k+1) . (7.3) 

En particulier, le code EG0 est optimal pour des probabilités du type : 

∀ x ≥ 0, p(x) = 1 

2 .(x +1)−2 . (7.4) 

En pratique, le schéma de binarisation EG0 est exploité afin de coder les erreurs résiduelles de 

prédiction qui peuvent être modélisées efficacement par ce type de distribution [181]. 

Valeur Code EG0 binaire 

0 0 

1 100 

2 101 

3 11000 

4 11001 

5 11010 

. 

Table 7.3 : Schéma de binarisation EG0. 

7.2.4 Schéma de binarisation Unary/Exponential Golomb 

De manière similaire au schéma EGk, le schéma de binarisation Unary/Exponential Golomb 

d’ordre k et de longueur de préfixe X, noté UEG(k, C), associe également àtoutentierx ≥ 0 

une concaténation de deux codes binaires : un code préfixe et un code suffixe. 

Le code préfixe est ici spécifié parlareprésentation TU de l’entier min(x, C). 

Le code suffixe est vide si x ≤ C. Dans le cas contraire (x >C), le code suffixe correspond à 

la représentation EGk de l’entier (x−C−1). Le Tableau 7.4 présente un exemple de binarisation 

pour le schéma UEG(0, 6). 

Notonsqueleschéma de binarisation UEG(k, C) généraliseleschéma EGk (i.e. pour C =0 

on obtient exactement le EGk). Ce schéma est exploité dans [181] pour le codage des coefficients 

DCT. 

.

7.3 Compression du modèle de mouvement 175 

Valeur Prefixe TU Suffixe EG0 

0 0 

1 10 

2 110 

3 1110 

4 11110 

5 111110 

6 111111 

7 111111 0 

8 111111 100 

9 111111 101 

10 111111 11000 

. 

. 

Table 7.4 : Schéma de binarisation UEG(0, 6). 

Cela complète la spécification des schémas de binarisation CABAC utilisés pour le codage 

des différents éléments de la représentation FAMC. Décrivons àprésent la méthodologie adoptée 

pour la compression du modèledemouvementFAMC. 

7.3 Compression du modèle de mouvement 

Il s’agit en premier lieu de coder le modèle de peau considéré. 

7.3.1 Codage du modèle de peau (skinning) 

Le modèledepeauFAMC(cf. Chapitre 5) est composé : 

1. D’une partition des sommets du maillage en clusters, 

2. D’un ensemble de transformées affines associées à la partition, 

3. De l’ensemble des poids d’animation associés aux sommets du maillage. 

Le schéma de compression FAMC associe à chaque type de données une méthode de codage 

adaptée, comme décrit dans les sections suivantes. 

7.3.1.1 Codage de la partition 

La partition Π = (πk)k∈{1,...,K} est stockée sous forme d’un tableau 1D associant àchaque 

sommet v l’index entier du cluster auquel il appartient. Afin de coder ce tableau, FAMC exploite 

un codage par plages de valeurs (run-length encoding). Le principe consiste àreprésenter 

le tableau par un ensemble de couples (symbole, occurrence), comme illustré Figure 7.3 pour un 

exemple de maillage simple. L’occurrence d’un symbole est définie comme le nombre d’apparitions 

consécutives du symbole en question. La binarisation des symboles et de leurs occurrences 

est effectuée en utilisant respectivement une représentation binaire FL et les codes EG0. 

Notons que les performances d’un tel codage dépend de l’ordre de stockage des sommets 

dans le tableau. Etant donnés que deux sommets voisins ont une forte probabilité d’être dans 

.


le même cluster, lecodeurFAMCréordonne les sommets de manière à ce que la distance topologique 

2 entre les couples de sommets du maillage soit au mieux préservée dans le tableau 

1D. Un tel problème, connu dans la littérature [184] sous le nom d’arrangement linéaire minimum 

(minimal linear arrangement), étant NP-complet [184], nous proposons une solution 

sous-optimale, mais plus efficace en temps de calcul, qui consiste à exploiter l’ordre induit par 

le parcours de voisin en voisin des sommets du maillage présenté au Chapitre 2. En pratique, 

cette heuristique donne des résultats satisfaisants 

Figure 7.3 : Exemple de codage par plages de valeurs d’une partition, pour un maillage avec 

14 sommets partitionnés en 3 clusters. 

7.3.1.2 Codage des transformées affines 

Au lieu de coder directement les coefficients réels des transformées affines (A k i )k∈{1,...,K} 

i∈{1,...,T } ,nous 

avons opté pour une représentation à base de trajectoires de points. A partir de la première 

trame de la séquence (instant i =1)etpourchaquecluster, quatre points (Pn(1,k))n∈{1,...,4} 

sont dérivés àpartirdelaboîte englobante du cluster considéré, comme décrit par les équations 

(7.5) et (7.6) (Figure 7.4) : 

P2(1,k)= 

⎛ 

⎜ 

⎝ 

x k g 

+ dx 

y k g 

z k g 

1 

⎞ 

P1(1,k)= 1 

χ 

|πk| 

v∈πk 

v 1 = 

⎛ 

⎟ 

⎠ ,P3(1,k)= 

⎜ 

⎝ 

xk g 

yk g + dy 

zk g 

1 

⎛ 

⎜ 

⎝ 

⎞ 

x k g 

y k g 

z k g 

1 

⎞ 

⎟ 

⎠ , (7.5) 

⎛ 

⎟ 

⎠ ,P4(1,k)= 

⎜ 

⎝ 

z k g 

xk g 

yk g 

+ dz 

1 

⎞ 

⎟ 

⎠ . (7.6) 

Ici, |πk| désigne le nombre de sommets de la partie πk et dx, dy et dz les longueurs de la boîte 

2. La distance topologique entre deux sommets u et v est définie comme étant le nombre d’arêtes qui compose 

le chemin le plus court (au sens de Dijkstra [183]) entre u et v.

7.3 Compression du modèle de mouvement 177 

Figure 7.4 : Les quatre points utilisés pour la représentation du mouvement affine d’un cluster. 

englobante selon les trois axes x, y et z, définies respectivement par : 

. 

dx =max|χ 

v∈πk 

v,x 

1 − x k g|, (7.7) 

dy =max|χ 

v∈πk 

v,y 

1 − y k g |, (7.8) 

dz =max|χ 

v∈πk 

v,z 

1 − z k g |. (7.9) 

A chaque instant i ≥ 2, les positions des quatre points caractéristiques sont données par : 

∀ n ∈{1, ..., 4}, Pn(i, k) =A k i Pn(1,k). (7.10) 

Cette représentation étend au cas 3D celle déjà utilisée pour le codage des mosaïques 2D 

par le standard MPEG-4 (partie vidéo). Elle permet de s’affranchir des problèmes de stabilité 

des coefficients affines, tout en restant équivalente, en terme de représentation de mouvement, 

à celle par coefficients. 

Les trajectoires Pn(i, k) ainsi obtenues sont ensuite considérées comme signaux 1D et compressées 

en exploitant une transformée DCT, comme décrit Section 7.4.1. 

7.3.1.3 Codage des poids d’animation 

La Figure 7.5 décrit la processus de codage des poids d’animation associés aux sommets du 

maillage. Tout d’abord les relations d’adjacence entre clusters sont calculées en exploitant la 

connectivité du maillage ainsi que la partition associée au modèle de skinning. Ici, deux clusters 

πk1 et πk2 sont dit voisins si et seulement si il existe une arête e =(v1,v2) telquev1∈πk1 et v2 ∈ πk2. Rappelons que ces relations d’adjacences sont utilisées pour limiter le calcul des 

poids d’animation d’un sommet v à ceux associés aux parties voisines (cf. Section 5.2.2). 

Une fois les poids d’animation optimaux calculés, une procédure de sélection est appliquée. 

Notons que les poids optimaux offrent toujours de meilleures performances que les poids unitaires. 

Néanmoins, dans le cas de sommets influencés majoritairement par le mouvement d’une 

seule partie, les poids optimaux et les poids unitaires sans quasi-identiques. Comme de plus les 

poids unitaires peuvent être générés à partir de l’information de partition sans coût de codage 

supplémentaire, il est plus efficace de les considérer au lieu coder des poids optimaux. Ainsi, le 

codeur FAMC compare-t-il les performances du modèle de skinning avec et sans poids d’animation 

pour un sommet donné. Le principe est de coder les poids d’un sommet si et seulement


Figure 7.5 : Codage des poids d’animation. 

si cela permet d’atteindre un gain minimal en terme d’erreur Eχ. Unbit,ditbit de sélection,est 

alors associé à chaque sommet pour indiquer si ses poids sont codés ou non. Cette information 

est compressée directement en utilisant le codeur CABAC. Les poids d’animation des sommets 

retenus sont ensuite quantifiés uniformément, binarisés en plans de bits (bit planes) etcodés 

avec CABAC. 

Enfin, une information décrivant pour chaque cluster le nombre de ses voisins et leurs index 

est envoyée au décodeur. FAMC code ces relations de voisinage en appliquant une binarisation 

EG0 pour les nombres de voisins et une représentation FL pour les index avant de les compresser 

avec CABAC. 

Afin de mieux tirer profit des éventuelles corrélations entre valeurs codées, un contexte 

binaire différent est défini pour chacun des éléments d’information suivants : 1) poids d’animation, 

2) la séquences des bits de sélection, 3) nombres des voisins des clusters et leurs index. 

Ces éléments de représentation décrivent complètement le codage du modèle de peau utilisé. 

Détaillons maintenant le codage des erreurs résiduelles de prédiction. 

7.4 Compression des erreurs résiduelles 

Leserreursdeprédiction après compensation de mouvement par modèle de skinning, notées 

ev i =(ev,x i ,e v,y 

i ,e v,z 


∀ v ∈{1, ..., V }, e v i = χvi − χv i . (7.11) 

De façon similaire, les erreurs de prédiction associées aux normales des sommets, notées 

nv i =(nv,x i ,n v,y 

i ,n v,z 


Soit (Λv } 

i )v∈{1,...,V 

i∈{1,...,F } 

∀ v ∈{1, ..., V }, n v i = N v i − Ñ v i . (7.12) 

l’ensemble des attributs photométriques (couleurs, coordonnées 2D de 

texture...) associés au sommets du maillage dynamique. Les erreurs de prédiction correspondantes 

sont définies par : 

∀ v ∈{1, ..., V }, a v i =Λvi − Λv1 . (7.13)


Quel que soit le signal géométrique ou photométrique considéré, l’étape de compensation 

de mouvement accomplit une première décorrélation de ses échantillions. Toutefois, afin de 

prendre en compte les éventuelles corrélations résiduelles, nous avons considéré une étape 

supplémentaire de décorrélation, à base d’une transformée temporelle ou spatio-temporelle, 

couplée avec une prédiction spatiale ou spatio-temporelle locale. 

Une première approche proposée est fondée sur des transformées DCT ou en ondelettes 

(TO), dont les propriétés de décorrélation du signal sont bien connues. 

7.4.1 Compression par DCT/TO 

Dans ce qui suit nous proposons de coder les erreurs résiduelles de prédiction associées aux 

sommets du maillage soit par une transformée DCT soit par une transformée en ondelettes 

bi-orthogonales (4,2) [185] avec implantation en entiers [180]. Le choix d’une implantation en 

entiers vise à assurer la fonctionnalité de codage quasi-sans perte, où une borne sur l’erreur 

maximale de reconstruction doit être garantie. Cette condition n’est pas assurée par la DCT 

qui garantit seulement une borne sur l’erreur quadratique moyenne. 

7.4.1.1 Tansformée DCT 

La transformée DCT consiste à exprimer un vecteur x =(x0,x1,...,xn−1) t ∈ Rn dans la 

base orthonormée définie par les vecteurs (bi(k)) k∈{1,...,n−1} 

i∈{1,...,n−1} suivants : 

bi(k) = 

b0(k) = 1 

√ n , (7.14) 

 

2 

n cos 

 

(2k +1)i 

π . (7.15) 

2n 

Le vecteur s =(s0,s1,...,sn−1) t ∈ R n image de x par la transformée DCT est donné par: 

n−1 

∀i ∈{1,...,n− 1}, s(i) = x(i) bi(k). (7.16) 

Etant une transformée orthogonale, la transformée DCT est une isométrie. Elle conserve 

donc la norme euclidienne et admet une transformée inverse. 

7.4.1.2 Transformée en ondelettes biorthogonales (4,2) 

Dans ce travail, nous avons considéré la transformée en ondelettes bi-orthogonales (4,2) 

[185] avec implantation en entiers introduite dans [180]. 

Le principe du schéma de lifiting est de transformer un signal x =(x0,x1,...,x2n) ∈ N 2n 

en un signal de plus faible résolution g =(g0,g1,...,gn) ∈ N n et un vecteur de détails d = 

(d0,d1,...,dn) ∈ N n . 

Le vecteur d est obtenu grâce à une étapedeprédiction qui exploite les échantillions du 

signal x ayant des indices pairs pour prédire les échantillions avec des indices impairs. Plus 

précisément, le vecteur de détails d est obtenu comme suit : 

k=0 

∀i ∈{1, ..., n} di = x2i+1 −⌊Pi(x0,x2,x4 ...,x2k,...,x2n)⌋ , (7.17)


où Pi représente une fonction de prédiction. Dans notre cas, la fonction Pi est donnée par : 

Pi(x0,x2,x4 ...,x2k,...,x2n) =βx2i−2 + αx2i + αx2i+2 + βx2i+4, (7.18) 

avec α =0.5625 et β = −0.0625 [185]. 

Le vecteur g est obtenu en lissant les échantillons pairs de x grâce à une procédure de mise 

à jour qui exploite le vecteur d. Ici,gest exprimé par: 

∀i ∈{1, ..., n} gi = x2i + ⌊Ui(d0,d1,...,dn)⌋ , (7.19) 

où Ui est une fonction de mise à jour. La fonction de mise à jour correspondante à la transformée 

bi-orthogonale (4,2) est la suivante : 

Ui(d0,d1,...,dn) = 1 

2 di−1 + 1 

2 di. (7.20) 

La transformée inverse de ce shéma de lifitng est directe. En effet, en inversant la phase de 

mise à jour, on obtient les échantillions paires, comme décrit dans l’équation suivante : 

∀i ∈{1, ..., n} x2i = gi −⌊Ui(d0,d1,...,dn)⌋ . (7.21) 

Les échantillons impairs sont ensuite générés àleurtourenexploitantlarelationsuivante: 

∀i ∈{1, ..., n} x2i+1 = di + ⌊Pi(x0,x2,x4 ...,x2k,...,x2n)⌋ . (7.22) 

Afin de générer plusieurs niveaux de résolution, la décomposition précédemment décrite est 

appliquée itérativement aux signaux g obtenus. 

7.4.1.3 Prédiction spatiale des coéfficients spectraux 

Le principe consiste àconsidérer les trois séquences d’erreurs associées à chaque sommet v, 

(e v,x 

i )i,(e v,y 

i )i et (e v,z 

i )i comme des signaux temporels. Une transformée DCT/TO 1D temporelle 

est appliquée sur chacune des séquences. Les coefficients spectraux obtenus sont alors quantifiés, 

ensuite prédits et enfin codés en utilisant CABAC. 

Notons que dans le cas du codage par ondelettes, l’étape de quantification est appliquée 

dans l’espace des erreurs résiduelles, antérieurement à la transformée. Cela est nécessaire pour 

pouvoir exploiter le schéma de lifting avec une implantation en entiers. 

Soient (c v,x 

i ,c v,y 

i ,c v,z 

i 

)v∈{1,...,V } 

i∈{1,...,T } 

les coefficients entiers obtenus. S’agissant de transformées 

temporelles, des corrélations spatiales résiduelles peuvent être présentes. Afin de les éliminer, 

une étape finale de prédiction spatiale des coéfficients spectraux est appliquée. 

La stratégie de prédiction des coefficients proposée consiste àprédire les coefficients de 

basses fréquences associés à un sommet v à partir de ceux d’un sommet déjà codév ′ par une 

simple prédiction delta. Notons δ(v) =(v−v ′ )ladifférence des index entre le sommet àprédire 

et le sommet choisi comme prédicteur, par n(v) lenombredecoefficientsdebassesfréquences à 

prédire et par P δ(v) 

n(v) le prédicteur associé au sommet v. Lesrésidus (rv i )i∈{1,...,T } de la prédiction 

delta obtenus pour le sommet v en appliquant le prédicteur P δ(v) 

n(v) sont donnés par : 

avec 

∀ v ∈{1, ..., V }, r v i = c v i −P δ(v) 

n(v) , (7.23) 

P δ(v) 

n(v) = 

v−δ(v) 

ci , si i ≤ n(v) 

0 , sinon 

. (7.24)


7.4.1.4 Codages des coefficient spectraux 

Afin de coder les paramètres δ(v) etn(v) duprédicteur, un bit, dit de saut (skip), est 

codé afin d’indiquer au décodeur si le prédicteur du sommet courant v est indentique ou non 

à celui de dernier sommet codé (v− 1). Si P δ(v) 

n(v) = Pδ(v−1) 

n(v−1) alors la différence d’index δ(v) est 

binarisée en utilisant une représentation UEG(0, 2). Enfin, la différence (n(v) − n(v − 1)) entre 

les nombres de coefficients basses fréquences associés respectivement aux sommets v et (v − 1) 

est binarisée en exploitant le schéma UEG(0, 2) et codée avec CABAC. 

Des contextes binaires différents sont utilisés lors du codage des bits de saut, des différences 

d’index δ(v) etdesnombresdebassesfréquences prédits (n(v) − n(v − 1)). 

Le prédicteur P δ(v) 

n(f) associé au sommet v est déterminé demanière optimale, à l’aide d’une 

procédure de recherche exhaustive selon les paramètres n(v) etδ(v) dans l’ensemble {1, ..., N = 

64}×{1, ..., T }.Leprédicteur sélectionné est celui qui minimise la taille du flux binaire CABAC 

obtenu après codage des résidus (rv i )i∈{1,...,T }. 

Le codage des résidus (r v,w 

i ) x∈x,y,z 

i∈{1,...,T } 

afin d’indiquer si le résidu r v,w 

i 

indiquant s’il s’agit du dernier résidu non null (i.e., r v,w 

k 

est effectué comme suit. Tout d’abord, un bit est codé 

est nul ou non. Pour tout coefficent non null, un deuxième bit 

=0,∀ k>i)estégalement codé. 

Enfin, pour tout résidu non nulle r v,w 

i , un bit de signe ainsi que sa valeur absolue sont également 

codés. Plus précisément, la quantité (|r v,w 

i |−1) est binarisée en exploitant une représentation 

du type UEG(0, 16) avec des contextes binaires différents selon la position du bit du préfix 

Unary du code associé. Notons que des contextes binaires différents sont utilisés pour chaque 

type d’information et selon la position i du résidu en question. 

La troisième transformée que nous avons retenue, décrite dans la section suivante, concerne 

une analyse en composante principales (ACP) du signal géométrique. 

7.4.2 Compression par ACP 

Pour des raisons évidentes de complexité de calcul, la compression par ACP est appliquée 

sur chaque partie de la partition Π = (πk)k∈{1,...,K} du maillage obtenue lors de la construction 

du modèle de skining (cf. Section 5.1). 

Contrairement à l’approche CPCA proposée dans [134], la décomposition ACP est ici appliquée 

dans l’espace des formes et non dans l’espace des trajectoires (cf. Section 4.5.2). Nous 

optimisons également l’étape de quantification en introduisant une procédure adaptative analogue 

à celle proposée dans APCA [131, 132]. 

Soient Ax k , Ay 

k et Azk aux sommets du cluster πk = {pk 1 ,pk2 , ..., pkq les matrices décrivant les erreurs résiduelles de prédiction associées 

} et définies par : 

A x k = 

⎛ 

e 

⎜ 

⎝ 

pk 1 ,x 

1 

e pk 2 ,x 

1 

e pk 3 ,x 

1 

. 

e pkq ,x 

1 

e pk 1 ,x 

2 

e pk 2 ,x 

2 

e pk 3 ,x 

2 

. 

e pkq ,x 

2 

e pk 1 ,x 

3 ... e pk 1 ,x 

T 

e pk 2 ,x 

3 ... e pk 2 ,x 

T 

e pk 3 ,x 

3 ... e pk 3 ,x 

T 

. 

. 

e pk q ,x 

3 ... e pk q ,x 

T 

. 

⎞ 

⎟ , (7.25) 

⎟ 

⎠


A y 

k = 

⎛ 

e 

⎜ 

⎝ 

pk 1 ,y 

1 e pk 1 ,y 

2 e pk 1 ,y 

3 ... e pk 1 ,y 

T 

e pk 2 ,y 

1 e pk 2 ,y 

2 e pk 2 ,y 

3 ... e pk 2 ,y 

T 

e pk 3 ,y 

1 e pk 3 ,y 

2 e pk 3 ,y 

3 ... e pk 3 ,y 

T 

. . . . . 

e pkq ,y 

1 e pkq ,y 

2 e pkq ,y 

3 ... e pkq ,y 

⎞ 

⎟ et (7.26) 

⎟ 

⎠ 

T 

A z k = 

⎛ 

e 

⎜ 

⎝ 

pk 1 ,z 

1 e pk 1 ,z 

2 e pk 1 ,z 

3 ... e pk 1 ,z 

T 

e pk 2 ,z 

1 e pk 2 ,z 

2 e pk 2 ,z 

3 ... e pk 2 ,z 

T 

e pk 3 ,z 

1 e pk 3 ,z 

2 e pk 3 ,z 

3 ... e pk 3 ,z 

T 

. . . . . 

e pkq ,z 

1 e pk ⎞ 

⎟ . (7.27) 

⎟ 

⎠ 

q ,z 

2 

e pk q ,z 

3 ... e pk q ,z 

T 

Dans la suite, pour simplifier les notations, désignons par A, l’une des trois matrices Ax k , 

A y 

k et Azk .SoitC = AAt la matrice de covariance associée. S’agissant d’une matrice carrée, 

symétrique et positive, C∈MV (R) (V étant le nombre de sommets du maillage dynamique) 

est diagonalisable à l’aide d’une matrice orthogonale O : 

C = O t ⎛ 

σ1 

⎜ 0 

⎜ 

× ⎜ . 

⎜ 

⎝ . 

0 

σ2 

0 

. 

0 

0 

σ3 

0 

... 

... 

... 

. .. 

0 

0 

0 

. 

avec 0 ≤ σV ≤ σV −1 ≤ ...≤ σ2 ≤ σ1. 

. 

. 

. 0 σV 

⎞ 

⎟ × O, (7.28) 

⎟ 

⎠ 

Les vecteurs colonnes de la matrice O, notés (Oi)i∈{1,...,V } sont les vecteurs propres de C. 

Soit (σi)i∈{1,...,V } les valeurs propres associées. 

La décomposition décrite par l’équation (7.28) est connue sous le nom d’analyse en composantes 

principales ou de transformée de Karhunen-Loève (KL). Le principe de l’ACP permet 

d’obtenir une approximation optimale, au sens de la norme euclidienne, des vecteurs 

colonnes (Ai)i∈{1,...,T } ∈ RV de la matrice A dans un sous-espace de dimension réduite N, avec 

1 ≤ N ≤ V [82]. 

Soient ON le sous-espace vectoriel de dimension N engendré par les vecteurs propres 

(Oi)i∈{1,...,N} et PON la projection orthogonale sur ON définie dans RV . Quel que soit le sousespace 

vectoriel EN de RV , la projection PEN des vecteurs (Ai)i∈{1,...,V } sur ce sous-espace 

satisfait la relation suivante : 

T 

Ai − PON (Ai) 2 ≤ 

i=1 

T 

Ai − PEN (Ai) 2 . (7.29) 

La projection PON obtenue par ACP assure une représentation optimale au sens de la norme eu- 

clidienne des vecteurs (Ai)i∈{1,...,V } dans un sous-espace (dimension inférieure). Cette propriété 

est connue sous le nom de réduction de dimensionnalité. 

En pratique, les vecteurs propres de l’ACP sont calculés en appliquant une décomposition 

en valeurs singulières (SVD - Singular Value Decomposition) de la matrice A. SoientU, R et 

i=1


W les trois matrices de la décomposition SVD décrites par le théorème 5.2.1. Ces matrices 

vérifient l’équation suivante : 

A = U × W × R t . (7.30) 

Notons par (Ui)i∈{1,...,T } et (Ri)i∈{1,...,T } les vecteurs colonnes des matrices U et R. Comme 

les matrices U, R et W sont respectivement orthogonale par colonnes, orthogonale et diagonale 

et en exploitant l’équation (7.30), nous pouvons directement déduire les relations suivantes : 

C×U = A × A t × U 

=(U × W × R t ) × (R × W × U t )U 

= UW 2 . 

Cela démontre que les vecteurs (Ui)i∈{1,...,T } sont les vecteurs propres de C. 

(7.31) 

Le principe de l’algorithme de compression de la matrice A que nous avons adopté repose 

sur la représentation SVD définie par les trois matrices U, R et W . 

La décomposition SVD décrite par l’équation (7.30) peut être reformulée comme suit : 

⎛ 

w11 

⎜ 

0 

⎜ 

A =(U1U2 ...UT ) × ⎜ . 

⎜ 

⎝ . 

0 

w22 

0 

. 

0 

0 

w33 

0 

... 

... 

... 

. .. 

0 

0 

0 

. 

⎞ ⎛ 

R 

⎟ ⎜ 

⎟ ⎜ 

⎟ ⎜ 

⎟ × ⎜ 

⎟ ⎜ 

⎠ ⎝ 

t 1 

Rt 2 

Rt 3 

. 

⎞ 

⎟ T 

⎟ = 

⎟ 

⎠ i=1 

. 

. 

. 0 wVV 

R t T 

wiiUiR t i . (7.32) 

L’équation (7.32) montre que la contribution des vecteurs Ui et Ri dans la construction de la 

matrice A est pondérée par la valeur singulière wii. Comme suggéré dans [131, 132], il paraît 

alors naturel de quantifier plus finement les vecteurs singuliers associésauxplusgrandesvaleurs 

singulières. Les valeurs singulières (wii)i∈{1,...,T } ayant une gamme de variation relativement 

importante (avec un rapport entre la plus grande et la plus petite valeur singulière de l’ordre 

de 106 ), celles-ci sont codées sans perte, afin d’éviter une quantification trop brutale, pouvant 

conduire à des importantes distorsions. 

Analysons àprésent plus en détail l’effet de la quantification des vecteurs Ui et Ri sur les 

distorsions de la représentation. 

7.4.2.1 Distorsion de quantification 

Soit Qi le quantificateur scalaire uniforme de pas δi appliqué individuellement àchaque 

composante des deux vecteurs Ui et Ri, défini par : 

où ⌊α⌋ désigne la partie entière d’un réel α. 

Qi : R → R 

x ↦→ 

x 

δi 

 

δi 

, (7.33) 

Supposons que les coefficients réels (uij) j et (rij) j des deux vecteurs Ui et Ri sont des 

réalisations d’une même variable aléatoire réelle ξi, décrite par une fonction de densité de 

probabilité f. La distorsion quadratique moyenne Di induite par le quantificateur Qi est donnée 

par [186] :


Di = 1 

V 

= 1 

V 

V +∞ 

j=1 −∞ f(uij)(uij − Qi(uij)) 2duij V (n+1)δi 

j=1 n∈Z f(uij)(uij − nδi) nδi 

2duij (7.34) 

Supposons que la fonction de densité de probabilité f est lisse de classe C ∞ .Pourun 

pas de quantification δi suffisamment petit, la fonction f peut être alors considérée comme 

quasi-constante sur l’intervalle [nδi, (n +1)δi]. Il en résulte l’expression suivante : 

Di ≈ 1 V V j=1 

≈ 1 V V j=1 

≈ 1 V V j=1 n∈Z 

≈ δ2 

i 

(n+1)δi 

12 n∈Z nδi 

≈ δ2 

i +∞ 

12 −∞ f(x)dx 

≈ δ2 i 

12 

 

n∈Z f(nδi) (n+1)δi 

nδi 

 

n∈Z f(nδi) 1 

3 (uij − nδi) 3 (n+1)δi 

nδi 

 

1 f(nδi) 

12 δ3 i 

f(x)dx 

(uij − nδi) 2 duij 

, (7.35) 

qui traduit la relation de dépendance quadratique de la distorsion Di d’un quantificateur 

uniforme avec le pas δi. 

Soit (Bi)i∈{1,...,T } l’ensemble des matrices de taille (V × T )définies par : 

∀ i ∈{1, ..., F }, Bi = wiiUiR t i . (7.36) 

D’après l’équation (7.32), la matrice A s’exprime comme la somme des matrices (Bi)i : 

A = 

T 

Bi. (7.37) 

i=1 

Soit Δi la distorsion quadratique moyenne induite sur Bi par la quantification conjointe des 

vecteurs Ui et Ri. Enconsidérant les coefficients uij (respectivement rik) comme la réalisation 

d’une variable aléatoire ξUi (respectivement ξRi ), et en notant par g la densité de probabilité 

conjointe décrivant le couple de variables aléatoires (ξUi ,ξRi ), la distorsion Δi s’exprime comme : 

Δi = 1 V VF 

avec 

= w2 ii 

VF 

= w2 ii 

VF 

= w2 ii 

VF 

F +∞ +∞ 

j=1 k=1 −∞ −∞ g(uij,rik) {wiiuijrik − wiiQi(uij)Qi(rik))} 2 duijdrik 

V F +∞ +∞ 

j=1 k=1 −∞ −∞ g(uij,rik) {uijrik − Qi(uij)Qi(rik))} 2 duijdrik 

V F +∞ +∞ 

j=1 k=1 −∞ −∞ g(uij,rik) {uijrik − (uij − τi(uij))(rik − τi(rik))} 2 duijdrik 

V F +∞ +∞ 

j=1 k=1 −∞ −∞ g(uij,rik) {uijτi(rik) − τi(uij)τi(rik)+rikτi(uij))} 2 duijdrik 

τi(u) =u − Qi(u). (7.38) 

En supposant que les variables aléatoires rik, uij, τi(rik) etτi(uij) sontindépendantes et 

que les moyennes de τi(rik) etτi(uij) sont nulles, nous obtenons : 

Δi = w2 

ii V 

VF j=1 

= w2 ii 

VF 

+ w2 ii 

VF 

+ w2 ii 

VF 

F +∞ +∞ 

k=1 −∞ 

V 

F +∞ 

j=1 k=1 −∞ u2 +∞ 

ijf(uij)duij −∞ τ(rik) 2 

f(rik)drik 

V 

F +∞ 

j=1 k=1 −∞ τ(uij) 2 +∞ 

f(uij)duij −∞ τ(rik) 2f(rik)drik V 

F +∞ 

j=1 k=1 −∞ r2 ikf(rik)drik +∞ 

−∞ τ(uij) 2 

f(uij)duij 

−∞ g(uij,rik) u 2 ij τi(rik) 2 + τi(uij) 2 τi(rik) 2 + r 2 ik τi(uij) 2 ) duijdrik


En exploitant maintenant l’approximation décrite par l’équation (7.35), on obtient : 

 

 

Δi ≈ w2 

δ2 i 1 

ii 12 V 

V 

j=1 

+∞ 

−∞ u2 ijf(uij)duij 

+ δ2 i 

12 × δ2 i 

12 + δ2 i 

12 

1 

F 

F 

k=1 

+∞ 

−∞ r2 ik f(rik)drik 

(7.39) 

En outre, les vecteurs Ui et Vi sont unitaires (i.e. V 

j=1 u2 ij = 1 et T 

r=1 v2 ir = 1). En 

exploitant le théorème centrale limite, nous pouvons alors déduire les relations suivantes : 

On obtient ainsi : 

1 

V 

1 

F 

V 

+∞ 

u 

j=1 −∞ 

2 ijf(uij)duij F 

+∞ 

v 

k=1 

−∞ 

2 irf(rik)drik Δi ≈ w 2 ii 

 

 

= 1 

V 

(7.40) 

= 1 

. (7.41) 

F 

2 δi 12V + δ4 i 

144 + δ2 

i 

. (7.42) 

12T 

La connaissance de l’expression de la distorsion Δi en fonction du pas de quantification δi nous 

permet d’aborder la problématique d’optimisation débit/distorsion. Plus précisément, il s’agit 

de déterminer le pas de quantifications δi minimisant la distorsion globale Δ = F 

i=1 Δi sous 

la contrainte d’un débit fixé. 

7.4.2.2 Optimisation débit/distorsion 

La sortie du quantificateur Qi est considérée comme une source discrète, caractérisée par 

entropie Hi, définie par : 

Hi = − 

pn log(pn), (7.43) 

où pn est la probabilité d’apparition du symbol nδi, donnée par : 

pn = 

n∈Z 

(n+1)δi 

nδi 

f(x)dx. (7.44) 

Sous les mêmes hypothèses de continuité C ∞ de la fonction f et de pas de quantification δi 

suffisamment petit, nous pouvons approcher la probabilité pn par : 

pn ≈ δif(nδi). (7.45) 

L’entropie Hi peut être alors approchée par : 

Hi ≈− 

n∈Z δif(nδi)log(δif(nδi)) 

≈ − log(δi) 

n∈Z δif(nδi) − 

 

n∈Z δif(nδi)log(f(nδi)) 

 

(n+1)δi 

 

(n+1)δi 

≈−log(δi) n∈Z f(x)dx − 

nδi 

n∈Z f(x)log(f(x)) 

nδi 

≈−log(δi) 

+∞ +∞ 

f(x)dx − 

−∞ −∞ f(x)log(f(x)) 

 

≈ H0 − log(δi) 

avec H0 = +∞ 

f(x)log(f(x)) l’entropie de f. 

−∞ 

(7.46)


Dans [182], Shannon démontre que l’entropie d’une source continue définie sur R est maximale 

pour une distribution gaussienne. Supposons que la distribution f est une gaussienne de 

variance σ. L’entropie H0 est alors donnée par [182] : 

L’entropie Hi peut être alors approchée par : 

H0 = log( √ 2πeσ). (7.47) 

Hi ≈ log( √ 2πe σ 

). (7.48) 

Le débit Ri nécessaire pour coder la matrice Bi est donné par: 

Ri = V × log( √ 2πe σ 

)+T × log( √ 2πe σ 

δi 

δi 

δi 

)+Rwii , (7.49) 

où la constante Rwii représente le débit alloué pour le codage la valeur singulière wii. 

Le débit total R nécessaire pour le codage de la matrice A est obtenu en sommant les débits 

élémentaires : 

T 

R = 

(7.50) 

i=1 

Qaunt à la distorsion globale Δ, elle est donnée par : 

Δ= 

Ri 

T 

Δi. (7.51) 

i=1 

Soit R0 un débit fixé par l’utilisateur. L’objectif est de déterminer les pas de quantification 

optimaux qui minimisent la distorsion globale Δ sous la contrainte R = R0. 

On cherche le vecteur δ ∗ =(δ ∗ i )i∈{1,...,T } ∈ R T solution du problème de minimisation suivant : 

δ ∗ = argmin Δ. 

R = R0 

(7.52) 

Ce problème de minimisation avec contraintes peut être résolu [187] en minimisant le Lagrangien 

J =Δ+λR associé. En imposant maintenant les conditions nécessaires d’extremum de 

la fonction J, qui stipule que ses dérivées partielles par rapport aux variables (δi)i sont nulles, 

on obtient : 

Par conséquent, 

w 2 ii 

∂J 

= 0 (7.53) 

∂δi 

 

T 

T 

 

∂ 

Δi + λ Ri = 0 (7.54) 

∂δi i=1 

i=1 

 

δi 

6V + δ3 

i δi (T + V ) 

+ − λ = 0 (7.55) 

36 6T 

δi


λ = 

w 2 ii 

λ ≈ w2 iiδ 2 i 

 

δ2 i 

6V + δ4 i 

36 + δ2 

i 

6T 

(T + V ) 

1 

6V 

(T + V ) 

+ 1 

6T 

 

(7.56) 

(7.57) 

En particulier, 

w2 iiδ2 

1 1 

i + 6V 6T = λ = 

(T + V ) 

w2 11δ2 

1 1 

1 + 6V 6T . 

(T + V ) 

(7.58) 

En simplifiant les deux membres de l’équation (7.58), on retrouve la relation suivante : 

δi = w11 

wii 

δ1. (7.59) 

La relation décrite par l’équation (7.59) démontre que la solution optimale du problème de 

minimisation (7.52) est obtenue en choisissant des pas de quantification δi inversement proprtionnels 

aux valeurs singulières de la matrice Ai. 

En pratique, le codeur FAMC prend la valeur de δ1 comme paramètre et dérive tous les 

autres pas de quantification (δi)i∈{2,...,T } en exploitant la relation (7.59). Les deux matrices 

j∈{1,...,V } 

j∈{1,...,T } 

quantifiées (Qi(uij)) i∈{1,...,T } et (Qi(rij)) i∈{1,...,T } sont représentées par des entiers et codées 

avec CABAC de façon analogue à celle décrite dans la Section 7.4.1. 

La dernière transformée considérée par le codeur FAMC est fondée sur une prédiction 

hiérarchique. Elle est décrite en détails dans la section suivante. 

7.4.3 Compression par prédiction hiérarchique LD (Layered Decomposition) 

Dans cette section, nous proposons de coder les erreurs résiduelles de compensation de 

mouvement en exploitant une prédiction hiérarchique spatio-temporelle locale comme celle 

décrite dans [126, 127]. 

Le principe de l’approche de simplification développée dans [126, 127] est fondé surla 

construction d’une structure hiérarchique àpartirdelaconnectivité du maillage, obtenue en 

appliquant sucessivement une séquence d’opérations de décimation topologique du type vertex 

removal [7]. L’opération de vertex removal appliquée au sommet v, notée VRem(v), consiste 

en deux étapes successives : (1) suppression du sommet v ainsi que de toutes les arêtes et 

triangles qui lui sont incidents ; (2) re-triangulation du trou généré parl’étape (1). 

La Figure 7.6 présente un exemple d’opération de simplification VRem(v) appliquée àun 

sommet de valence 6. Notons que plusieurs re-triangulations peuvent être ici considérées [188]. 

La Figure 7.7 illustre toutes les configurations possibles pour des sommets de valences comprises 

entre 3 et 6. 

Différentes stratégies peuvent être adoptées afin de sélectionner la séquence d’opérations 

VRem à appliquer au maillage. Dans [126, 127], les auteurs exploitent exclusivement l’information 

de connectivité, disponible àlafoisaucodeuretaudécodeur, afin de déterminer 

le processus de simplification du maillage. Ils proposent de décomposer la connectivité du


Figure 7.6 : Opération de décimation topologique VRem(v):(a)patch original ; (b) supression 

du sommet v ainsi que de l’ensemble des arêtes et des triangles qui lui sont incidents ; (c) retriangulation 

du patch obtenu. 

maillage en un ensemble de patchs sans recouvrement. Un patch ℘(v) de centre v est défini 

comme l’ensemble des triangles incidents à v, formant une surface homéomorphe à une disque 

ouvert (Figure 7.6.a). Deux patchs sont dits sans recouvrement s’ils partagent au maximum 

une arête. Les centres de ces patchs sont ensuite successivement décimés. Le choix de la retriangulation 

àopérer àchaqueétape est guidé paruncritère topologique qui vise à concentrer, 

avec une dispersion minimale, les valences des sommets autour de la valeur 6. 

Ce processus est décrit en détails dans la section suivante. 

7.4.3.1 Décomposition en patchs 

En premier lieu, l’ensemble des patchs du maillage initial est déterminé. Un sous-ensemble 

de ces patchs, assurant la propriété de non-recouvrement, est ensuite obtenu en appliquant 

une procéduredeconquête itérative de la connectivité du maillage. Le principe de l’algorithme 

adopté consiste àalterneritérativement : (1) une étape d’initialisation et (2) une étape de 

conquête. 

Al’étape d’initialisation, la liste des patchs est balayée. Le premier patch ℘(v0) non-conquis 

de degré 3 compris entre 3 et 6 est alors insèré dans une structure de file F. 

L’étape de conquête consiste en plusieurs itérations, indéxées selon i. Achaqueétape i, le 

premier patch ℘(vi) delafileFest sorti et marqué comme conquis. L’ensemble de ses patchs 

voisins 4 de degré entre 3 et 6 sont ensuite successivement insérés dans F. L’étape (2) est 

réitérée jusqu’à ce que la file F devienne vide. 

Ce processus permet de construire une suite de patchs (℘(vi))i∈{1,...,NP } (NP étant le nombre 

de patchs obtenus). La deuxième phase, dite de décimation, est alors appliquée. Elle consiste à 

décimer itérativement les centres (vi)i∈{1,...,Ni} des patchs obtenus, comme décrit dans la section 

suivante. 

7.4.3.2 Phase de décimation 

A l’étape i, le sommet vi centre du patch ℘(vi) est décimé en appliquant l’opération 

VRem(vi). Le patch ℘(vi) est ensuite retriangulé defaçon à minimiser la dispersion D(vi) 

3. Le degré d’unpatch℘(v) estdéfini comme la valence de son centre v. 

4. Deux patchs sont dis voisins s’ils partagent une unique arête.


Figure 7.7 : Re-triangulations possibles pour des sommets de degrés : (a) 6, (b) 5, (c) 4 et 

(d) 3.


des valences des voisins de vi autour de la valeur 6. Le dispersion D(vi) estdéfinie comme : 

D(vi) = 1 

|ℵ(v)| 

 

w∈ℵ(vi) 

|Val(w) − 6|, (7.60) 

où ℵ(vi) est l’ensemble des voisins de vi, |ℵ(vi)| son cardinal et Val(w) la valence du sommet 

w, calculée après la re-triangulation du patch considéré. 

La triangulation optimale, au sens du critère Di est déterminée à l’aide d’un processus de 

recherche exhaustive conduite dans l’ensemble des configurations possibles. 

Afin de dériver une décomposition des sommets du maillage en niveaux hiérarchiques, il 

suffit de réitérer les deux phases de décomposition en patchs et de décimation, comme décrit 

dans la section suivante. 

7.4.3.3 Décomposition en niveaux hiérarchiques 

Soit L le nombre de niveaux de résolution souhaité etV = {1,...,V} l’ensemble des sommets 

du maillage dynamique. Notons par Vl (avec l ∈{1, ..., L − 1}) l’ensemble des sommets 

décimés au cours de la l-ème phase de décomposition/décimation. Soit VL l’ensemble des sommets 

obtenus après L étapes successives de simplification. L’ensemble VL s’exprime par la 

relation suivante : 

 

 

VL = V\ 

 

(7.61) 

1≤l


(a) V5 (b) V5 ∪V4 (c) V5 ∪V4 ∪V3 (d) V5 ∪V4 ∪V3 ∪V2 (e) V5∪V4∪V3∪V2∪V1 

Figure 7.8 : Exemple de décomposition en cinq niveaux hiérarchiques du maillage dynamique 

“Cow”. 

7.4.3.4 Prédiction hiérarchique 

Le principe de la procédure de prédiction hiérarchique proposée est de coder successivement 

les sommets du maillage dynamique en partant de la résolution la plus basse (i.e., VL) vers 

des niveaux de résolution croissante(i.e., VL−1, puis VL−2 jusqu’à V1). Notons que la propriété 

décrite par l’équation (7.64) assure que lors de la prédiction d’un sommet v ∈Vl tous ses voisins 

ont déjà été reconstruits. Cela permet notamment de définir des prédicteurs spatio-temporels 

hiérarchiques efficaces. 

Afin de prédire les erreures résiduelles de compensation de mouvement (ev } 

i )v∈{1,...,V 

i∈{1,...,T } ,le 

codeur FAMC définit trois prédicteurs spatio-temporels locaux, delta, linéaire et non linéaire, 

notés respectivement par Pdelta, Plin, Pnonlin. Chacun de ces prédicteurs se décline en variantes, 

selonletypedetrameconsidérée. Plus précisément, de façon analogue au codage MPEG-4 

vidéo, trois types de trame sont définis : 

• I:modeintra, 

• P : mode prédictif, 

• B : mode de prédiction bi-directionnelle. 

On obtient ainsi un ensemble de neuf prédicteurs différents notés par P I I 

delta (v, i), Plin (v, i), 

P I nonlin (v, i), P P P 

delta (v, i), Plin (v, i), P P nonlin (v, i), P B B 

delta (v, i), Plin (v, i) ouPB nonlin (v, i). 

Le résidu rv i obtenu suite àlaprédiction hiérarchique du sommet v ∈Vl est donné par: 

∀ i ∈{1,...,T}, ∀ v ∈{1,...,V}, r v i = ev i 

− P (v, i), (7.65) 

avec P (v, i) l’un des neuf prédicteurs. 

Dans le cas d’une trame de type I, les trois prédicteurs considérés sont les suivants : 

P I delta (v, i) =0,et (7.66) 

P I 

lin (v, i) =P I nonlin (v, i) =ebary(v, i), (7.67)


avec 

ebary(v, i) = 1 

|ℵl(v)| 

 

w∈ℵl(v) 

e v i , (7.68) 

où ℵl(v) est l’ensemble des voisins de v ∈Vl au niveau de résolution l. Notons que ebary(v, i) 

correspond au barycentre, à l’instant i, des erreurs des voisins de v au niveau de résolution l. 

Pour une trame de type P prédite par rapport à une trame de référence j, les trois 

prédicteurs correspondants sont définis par : 

P P delta (v, i) =evj , (7.69) 

P P 

lin (v, i) =ebary(v, i)+(e v j − ebary(v, j)), et (7.70) 

P P nonlin (v, i) =ebary(v, i)+D(i, j)(e v j − ebary(v, j)), (7.71) 

avec D(i, j) =M(v, i)M(v, j) t la matrice orthogonale qui transforme le patch de centre v de 

l’instant i à l’instant j. La matrice M(v, i) =(Xv i ,Yv i ,Zv i ) associée au sommet v à l’instant i 

est définie par : 

Y v 

i 

X v i 

ev1 i 

= − ebary(i, v) 

ev1 i − ebary(i, 

, (7.72) 

v) 

(ev2 i 

= − ebary(i, v)) −〈e v2 

i − ebary(i, v),Xv i 〉 .Xv i 

e v2 

i − ebary(i, v) −〈e v2 

i − ebary(i, v),Xv i 〉 Xv i ,et 

(7.73) 

Z v i = Xv v 

i ∧ Yi , (7.74) 

avec v1 et v2 deux sommets appartenant au voisinage de v (i.e. v1,v2 ∈ℵ(v)). 

Enfin, les prédicteurs considérés pour une trame de type B prédite par rapport àdeux 

trames de référence j1 et j2 sont donnés par : 

P B delta (v, i) =1 

2 ej1 

1 

i + 

2 ej2 i , (7.75) 

P B 

lin (v, i) =ebary(v, i)+ 1 

2 (evj1 − ebary(v, j1)) + 1 

2 (ev j2 − ebary(v, j2)), et (7.76) 

P B nonlin (v, i) =ebary(v, i)+ 1 

2 D(i, j1)(e v j1 − ebary(v, j1)) + 1 

2 D(i, j2)(e v j2 − ebary(v, j2)). (7.77) 

7.4.3.5 Codage binaire 

Le codeur FAMC offre la possibilité de choisir de façon statique (i.e. le même prédicteur 

pour tous les sommets d’un niveaux hiérarchique) ou adaptative (i.e. le meilleur prédicteur 

entre Pdelta, Plin et Pnonlin pour chaque sommet) la stratégie de prédiction à adopter. Dans le 

cas d’un choix adaptatif des prédicteurs, le codeur inclut dans le flux binaire une information 

auxiliaire (compressée avec CABAC) décrivant le prédicteur associé à chaque sommet v. 

Afin d’assurer la scalabilité spatiale(cf. Section 7.5.1) du flux binaire compressé, le codeur 

FAMC regroupe les coefficients (rv i )vi en niveaux hiérarchiques avant de coder séparément 

chaque niveau, d’une façon analogue à celle décrite Section 7.4.1. 

Le codeur FAMC supporte également la scalabilité temporelle en introduisant une structure 

de prédiction hiérarchique sur les trames de type I, P et B (cf. Section 7.5.2). Le principe est de 

changer l’ordre de codage des trames (Figure 7.9) afin de rendre possible un décodage partiel 

du flux binaire tout en assurant une cadence d’affichage donnée.

7.5 Fonctionnalités supportées 193 

Le codeur FAMC supporte également une prédiction hiérarchique (qui remplace la prédiction 

delta décrite dans la Section 7.4.1) des coefficients spectraux obtenus par les transformées temporelles 

DCT et TO. Cette hybridation permet notamment de supporter des fonctionnalités 

plus avancées, comme discuté dans le paragraphe suivant. 

7.5 Fonctionnalités supportées 

Le Tableau 7.5 résume les différentes configurations FAMC possibles. Le Tableau 7.6 présente 

l’ensemble des fonctionnalités supportées par ces différentes configurations. Notons que toutes 

les configurations de FAMC supportent naturellement les fonctionnalités de streaming et de 

codage des attributs. Cependant, seules les configurations Lift, LD et Lift+LD permettent un 

codage quasi-sans perte de l’animation et ce grâce à la quantification appliquée dans le domaine 

temporel et non spectral, qui permet de garantir une borne supérieure sur les erreurs de 

reconstruction. A l’opposé, les transformées DCT et ACP permettent de contrôler uniquement 

l’erreur quadratique moyenne. 

La fonctionnalité de transmission progressive est supportée par l’ensemble des configurations 

FAMC mais avec des aspects de scalabilitédifférents (Tableau 7.7). Les flux binaires DCT, 

Lift et ACP sont scalables uniquement en qualité. Les flux DCT+LD et Lift+LD sont scalables 

àlafoisenqualitéetenrésolution (scalabilité spatiale). Seul le flux LD offre à la fois les scalabilités 

temporelle et spatiale. En outre, les configuration LD, DCT+LD et Lift+LD permettent 

un rendu scalable de l’animation, grâce àl’étapededécimation hiérarchique considérée. 

Configurations Description 

DCT DCT temporelle et prédiction delta des coefficients spectraux 

Lift Ondelettes bi-orthogonales (4,2) avec implantation en entiers et 

prédiction delta des coefficients spectraux 

ACP ACP 

LD Prédiction hiérarchique 

DCT+LD DCT temporelle et prédiction hiérarchique 

Lift+LD Ondelettes bi-orthogonales (4,2) avec implantation en entiers et 

prédiction hiérarchique 

Table 7.5 : Les différentes configurations FAMC.


Configurations Codage des Rendu Transmission Quasi-sans Streaming 

attributs scalable progressive pertes 

DCT × × × 

Lift × × × × 

ACP × × × 

LD × × × × × 

DCT+LD × × × × 

Lift+LD × × × × × 

Table 7.6 : Fonctionnalités supportées par les différentes configurations du codeur FAMC : 

(1) DCT, (2) Lift, (3) LD, (4) DCT+LD et (5) Lift+LD. 

Configurations Qualité Temporelle Sapatiale 

DCT × 

Lift × 

ACP × 

LD × × 

DCT+LD × × 

Lift+LD × × 

Table 7.7 : Différents types de scalabilité supportés par le codeur FAMC. 

Analysons àprésent les types de scalabilité offerts par les différentes configurations de 

FAMC. 

7.5.1 Scalabilité spatiale 

Pour assurer la scalabilité spatiale du flux binaire, le codeur FAMC exploite la représentation 

hiérarchique introduite dans la Section 7.4.3. Cette décomposition hiérarchique étant totalement 

définie àpartirdeleconnectivité du maillage, elle peut être directement déduite par le 

décodeur. 

Notons cependant que ce choix n’est pas unique, toute autre technique multirésolution 

pouvant être également adoptée. FAMC permet au codeur de définir une structure de maillage 

progressif qui va être inclue dans le flux binaire et transmise au décodeur. 

Le principe consiste àconsidérer comme approximation initiale un maillage de base et 

à le raffiner successivement, à travers différents niveaux de détail, jusqu’à obtenir le maillage 

original. Ce processus de raffinement rend possible le rendu scalable de l’animation qui consiste 

à adapter la résolution (le nombre de triangles) du maillage aux performances du terminal. 

Le mêmeprincipepeutêtre exploité afin de répondre à la fonctionnalité de transmission 

progressive de l’animation. En effet, la transmission des trajectoires, des sommets des niveaux 

de détails les plus grossiers aux résolutions les plus fines, permet au décodeur de décompresser 

et d’afficher à tout instant de la transmission une version plus au moins fidèle de l’animation, 

en fonction de la quantité d’information reçue.

7.5 Fonctionnalités supportées 195 

7.5.2 Scalabilité temporelle 

Inspiréducodeurvidéo H264 [189], FAMC structure le flux binaire en niveaux hiérarchiques 

temporels de tel sorte que les trames appartenant àunniveaudonnésontprédites uniquement à 

partir des trames de niveaux de résolution plus basse (plus “grossiers”). En considérant un ordre 

de codage/décodage des trames respectant cette structure (i.e. les trames sont codées/décodées 

du niveau hiérarchique le plus grossier au niveau le plus fin) une interprétation partielle du flux 

binaire devient possible. Une telle scalabilité temporelle permet d’adapter la résolution temporelle 

(nombre de trames par secondes) de l’animation àlacapacitédedécodage et d’affichage 

du terminal considéré. La Figure 7.9 illustre un exemple de structure de prédiction temporelle 

hiérarchique permettant une scalabilité temporelle du flux FAMC. 

Une information décrivant pour chaque trame son type (i.e. I, P ou B), son ordre d’affichage 

ainsi que les trames de référence à partir desquelles elle est prédite est également transmise au 

décodeur. Cette information auxiliaire est codée directement avec CABAC (cf. Section 7.2). 

Figure 7.9 : Scalabilité temporelle : exemple de structure de prédiction temporelle 

hiérarchique.


7.5.3 Scalabilité en qualité 

Afin d’assurer un flux scalable en qualité, les codeurs FAMC/DCT et FAMC/Lift structurent 

les coefficients spectraux (cv } 

i )v∈{1,...,V 

i∈{1,...,T } (cf. Section 7.4.1) en niveaux de détails correspondant 

chacun à une bande de fréquences, comme illustré Figure7.10. 

Soit (Nl)l∈{1,...L} une suite strictement croissante d’entiers tel que : 

N0 =1


7.5.4 Streaming 

Afin d’assurer la diffusion en flux continu des contenus 3D animés, il est nécessaire de 

pouvoir interpréter et décoder le flux binaire au fil de l’eau, même lorsque seule une sous-partie 

du flux est disponible au décodeur. Le codeur FAMC assure cette fonctionnalité destreaming 

en partitionnant l’information codée en segments (paquets de données), correspondant aux 

intervalles temporels disjoints qui sont codés indépendamment les uns des autres. Cela revient 

àconsidérer séparément chaque segment comme une “mini-séquence” à part, codée sans aucune 

référence aux autres. 

Notons qu’une diminution des performances de compression est attendue, puisque l’information 

relative au modèledepeaudoitêtre associée à chaque segment considéré (au lieu d’un 

modèle unique pour toute la séquence). Toutefois, ce coût supplémentaire en débit peut être en 

pratique compensé par la qualité delareprésentation par modèles de peau multiples, optimisés 

pour chaque segment temporel (cf. Section 8.4.5). 


Dans ce chapitre, nous avons présente la nouvelle technique de compression de maillages 3D 

animés, appelée FAMC (Frame-based Animated Mesh Compression). Fondée sur une stratégie 

de compensation de mouvement par modèle de skinning, laméthode proposée offre àlafois 

une compression efficace de la géométrie et des attributs photométriques associés aux sommets 

du maillage dynamique, tout en assurant des fonctionnalités de streaming, de transmission 

progressive, ou encore de rendu scalable. 

Le chapitre suivant présente une évaluation expérimentale de l’approche FAMC proposée.

198 L’approche FAMC : la nouvelle spécification MPEG-4

Chapitre8 

Résultats expérimentaux 

Résumé : Ce chapitre propose une évaluation expérimentale objective de l’approche 

FAMC proposée dans le chapitre précédent. 

Dans un premier temps, les performances des différentes configurations du codeur FAMC 

ont été comparées, analysées et discutées en termes d’efficacité de compression, de complexité 

de calcul et de fonctionnalités supportées. La technique FAMC a été ensuite évaluée 

par rapport l’approche MCGV, aux codeurs standards MPEG-4/BIFS et MPEG-4/AFX- 

IC ainsi qu’à d’autres techniques de l’état de l’art. Cette comparaison conduite sur le 

corpus de test MPEG-4, établit objectivement la supériorité delaméthode FAMC par 

rapports aux autres techniques. 

La dernière partie du chapitre a été consacrée àl’évaluation des différentes fonctionnalités 

supportés par FAMC : scalabilité, streaming, codage des attributs, codage quasi-sans 

perte... 

En raison de ses performances élevées et de l’ensemble complet des fonctionnalités qu’il 

supporte, FAMC a été retenue pour adoption dans le standard, en tant qu’amendement 2 

de la partie 16 - AFX. 

Mots clés : FAMC, MCGV, évaluation expérimentale, compression, maillages dynamiques, 

MPEG-4. 

199

200 Résultats expérimentaux 

8.1 Corpus de test 

Le corpus de test de maillages animés a été constitué dans le cadre des expérimentations 

techniques MPEG-4 [190]. Il inclut une vingtaine de séquences d’animation 3D, de tailles, topologies, 

géométries et mouvements variés. Le Tableau 8.4 de l’Annexe B résume les différentes 

propriétés géométrico-topologiques ainsi que le type de mouvement de chacune de ces animations. 

Les figures 8.12, 8.13 et 8.14 (Annexe B) présentent des extraits des séquences animées 

considérées. 

Les modèles de la base de test offrent une bonne variabilité spatialeettemporelle: 

• Le nombre de sommets V varie entre 687 et 42321. 

• Le nombre de trames T est compris entre 19 et 400. 

• Six des maillages dynamiques considérés sont à multiples composantes connexes (nombre 

de composantes connexes compris entre 1 et 47), six sont non manifolds, huitsontfermés 

et six sont orientables. 

L’animation “Ball” présente un mouvement purement affine. Dix des animations (e.g., 

“Box”, “Camel gallop”, “Dragon”...) ont un mouvement articulé. Cinq des maillages dynamiques 

considérés (e.g., “Dance”, “Jump”, “Snake” et “Troll”) sont animés par des mouvements 

articulés combinés àdesdéformations élastiques et quatre (“Camel collapse”, “Horse 

collapse”, “Cow” et “Dolphin”) présentent des déformations élastiques d’amplitudes plus au 

moins importantes. 

Afin de pouvoir établir une comparaison objective des différentes techniques de compression, 

il est indispensable de disposer de mesures de distorsion adaptées, pour évaluer la qualité des 

maillages reconstruits àdifférents débits. 

8.2 Critères d’évaluation 

Nous avons considéré les trois mesures de distorsion les plus utilisées dans la littérature afin 

de pouvoir comparer les méthodes proposées à un nombre maximal de techniques de l’état de 

l’art : 

1. L’erreur RMSE définie dans la Section 6.6.2 et utilisée pour comparer FAMC àMCGV. 

2. L’erreur Da (Area Difference) [121] définie dans le cadre de l’évaluation expérimentale de 

FAMC par rapport aux technologies MPEG-4. La distorsion Da mesure la moyenne (selon 

les trois coordonnées x, y et z et sur l’ensemble de sommets du maillage) des différences 

d’aires entre les courbes définies par les trajectoires des coordonnées des sommets de 

l’animation originale et décodée. Plus rigoureusement, l’erreur Da est définie par : 

avec 

∀ w ∈{x, y, z}, D w a = 

Da = Dx a + Dy a + Dz a 

, (8.1) 

3 

1 

V × T × R 

V 

v=1 

T 

0 

|T w 

v (t) − ˘ T w 

v (t)|dt, (8.2) 

∀ w ∈{x, y, z}, ∀ t ∈ [0,T[, T w 

v (t) =(1+⌊t⌋−t) × χv,w 

⌊t⌋ +(t−⌊t⌋)χv,x 1+⌊t⌋ , (8.3)

8.2 Critères d’évaluation 201 

∀ w ∈{x, y, z}, ∀ t ∈ [0,T[, ˘ T w 

v (t) =(1+⌊t⌋−t) × ˘χv,w 

⌊t⌋ +(t−⌊t⌋)˘χv,w 1+⌊t⌋ , (8.4) 

où 

•⌊t⌋représente la partie entière de t, 

• χv i et ˘χv i représentent respectivement les vecteurs des positions des sommets de l’animation 

originale et celle obtenue après décodage, 

•Tvet ˘ Tv représentent les trajectoires (obtenues par interpolation linéaire) originales et 

reconstruites du sommets v. 

Le facteur de normalisation R aété introduit afin d’assurer l’invariance de la mesure Da 

par rapport au facteur d’échelle. Il est donné par: 

R =max(Rx,Ry,Rz), (8.5) 

∀ w ∈{x, y, z}, Rw = max ( max 

v∈{1,...,V } i∈{1,...,T } (χv,w i )) − min ( min 

v∈{1,...,V } i∈{1,...,T } (χv,w i )). (8.6) 

3. L’erreur DPeak (Peak Error) [121], utilisée afin d’évaluer les approches de codage quasisans 

perte. Elle mesure l’erreur maximale entre les géométries initiale et celle décodée. 

En utilisant les mêmes notations que pour l’erreur Da, l’erreur DPeak est définie par : 

avec 

DPeak = 1 

R × max(Dx Peak,D y 

Peak ,Dz Peak), (8.7) 

∀ w ∈{x, y, z}, D w Peak = max 

v∈{1,...,V } max 

i∈{1,...,T } |χv,w i − ˘χv,w i |. (8.8) 

4. L’erreur DKG [130], qui représente une variante de l’erreur quadratique moyenne entre 

la séquence originale et celle décodée. Elle est définie par la relation suivante : 

où χ g 

i 

DKG = 100 × 

 

V T v=1 t=1 χvi − ˘χv i 2 

 

V T v=1 t=1 χvi − χgi 

2 

est le centre de gravité du maillage initial à l’instant i : 

χ g 

i 

= 1 

V 

V 

v=1 

, (8.9) 

χ v i . (8.10) 

5. L’erreur EN (cf. Section 5.3.2) qui mesure l’erreur quadratique moyenne induite par la 

compression des normales associées aux sommets du maillage dynamique. 

Pour évaluer les différentes méthodes, le principe est de comparer les valeurs obtenues de 

ces différentes mesures de distorsion àunmême débit. Le débit est proportionnel à la taille du 

flux binaire obtenu et s’exprime soit en bit par trame par sommet (bpts), soit en kilos bits par 

seconde (Kbits/s), sous l’hypothèse d’une cadence vidéo de 25 trames par secondes. 

L’évaluation expérimentale que nous avons conduite s’appuie sur ces différentes mesures. 

Elle est décrite en détails dans la section suivante.


8.3 Evaluation expérimentale 

Pour analyser en détails les performances de l’approche FAMC, nous avons structuré 

l’évaluation expérimentale en plusieurs parties. Ainsi, la première partie présente une évaluation 

expérimentale des performances de compression des différentes configurations du codeur FAMC 

(Section 8.3.1). Ensuite, les paragraphes 8.3.2, 8.3.3 et 8.3.4 comparent respectivement l’approche 

FAMC àlatechniqueMCGV(cf. chapitre 6), aux codeurs MPEG-4/BIFS et MPEG- 

4/AFX-IC ainsi qu’à d’autres techniques de l’état de l’art. Enfin, la dernière partie (Section 

8.4) est consacrée àl’évaluation des différentes fonctionnalités supportés par FAMC. 

8.3.1 Comparaison des différentes configurations de FAMC 

Lesfigures8.1et8.2présentent les courbes débit/distorsion obtenues pour les différentes 

configuration du codeur FAMC : FAMC/DCT, FAMC/Lift, FAMC/LD, FAMC/DCT+LD, 

FAMC/Lift+LD et FAMC/ACP. Ici, le critère de distorsion retenu est l’erreur Da et les débits 

sont exprimés en Kbits/s. 

Les résultats obtenus montrent que les configurations FAMC/DCT et FAMC/ACP offrent 

les meilleures performances débit/distorsion. L’approche FAMC/ACP se montre particulièrement 

efficace dans le cas d’animations présentant de fortes corrélations spatiales (“Dance”, “Elephant 

gallop”, “Humanoid”, “Snake” et “Horse gallop”) ou temporelles (“Cow” et “Chicken”) avec 

des gains en termes de débits pouvant atteindre 60% par rapport à FAMC/DCT. Rappelons 

que la technique FAMC/ACP exploite une transformée de KL sur les trajectoires des sommets 

de chaque cluster du maillage dynamique. Cela permet de construire une base orthonormale 

de vecteurs propres (cf. Section 7.4.2) associés à une décomposition optimale du signal d’animation. 

Pour que le décodeur puisse reconstruire le signal, ces vecteurs propres doivent être 

inclus dans le flux binaire et transmis en tant qu’information auxiliaire. Dans le cas des animations 

avec de fortes corrélations spatiales ou temporelles, le coût d’envoi d’une telle information 

supplémentaire est pleinement compensé par l’efficacité delareprésentation. Notons cependant 

que pour des animations courtes, avec un nombre réduit de sommets par cluster (e.g., “Eagle” 

et “Rabbit”) le coût relatif d’une telle information auxiliaire devient important, ce qui dégrade 

les performances de compression associées. 

L’approche FAMC/DCT exploite une transformée DCT temporelle appliquée sur les trajectoires 

des sommets, couplée à une prédiction delta spatiale (cf. Section 7.4.1). La transformée 

DCT n’est pas optimale pour représenter le signal d’animation considéré. Néanmoins, elle permet 

de s’affranchir de la transmission de toute information auxiliaire, puisque les vecteurs de 

la base DCT sont les mêmes pour toutes les animations. L’approche DCT est particulièrement 

efficace dans le cas de maillages dynamiques avec un nombre réduit de trames et de sommets 

par cluster (“Eagle” et “Rabbit”). 

Comparée à la configuration FAMC/Lift, l’approche FAMC/DCT offre des performances 

de compression plus élevées. Cela résulte du fait que la majorité des animations considérées 

(e.g., “Eagle”, “Rabbit”, “Troll”, “Horse”, “Collapse”...) sont courtes (de 19 à53trames), 

ce qui pénalise les performances de l’approche par décomposition en ondelettes en raison du 

nombre réduit de niveaux de résolution qui peuvent être construits. Notons également que la 

version en entiers du schéma de lifting de FAMC/Lift exploite une quantification uniforme des 

coefficients, ce qui est sous-optimal [191]. 

L’approche FAMC/LD s’appuie sur une prédiction hiérarchique spatio-temporelle locale (cf. 

Section 7.4.3). Cette approche se montre en général plus efficace que la technique FAMC/Lift.

8.3 Evaluation expérimentale 203 

Cela est particulièrement vrai dans le cas des maillages dynamiques avec un échantillonnage 

spatial quasi-régulier (e.g., “Camel collapse”, “Camel gallop”, “Elaphant gallop”...). Ici, les 

corrélations spatiales sont fidèlement décrites par les relations d’adjacence entre sommets 

(i.e., la moyenne des voisins produit une bonne prédiction du sommet courant). Ainsi, la 

décomposition hiérarchique de FAMC/LD, qui est fondée exclusivement sur la connectivité du 

maillage, conduit à une prédiction efficace. Dans le cas des animations avec un échantillonnage 

spatial irrégulier (e.g., “Eagle”, “Cow”, “Rabbit”...), la connectivité du maillage seule ne traduit 

plus les corrélations spatiales entre les sommets du maillage. Cela explique la baisse des 

performances de compression du codeur FAMC/LD pour ce type d’animation. 

Les configurations FAMC/DCT+LD et FAMC/Lift+LD exploitent respectivement une 

transformée DCT et en ondelettes, hybridées avec une prédiction spatiale hiérarchique des 

coefficients spectraux obtenus. Notons que les performances débit/distorsion de ces approches 

sont soit comparables soit moins efficaces que celle des codeurs FAMC/DCT et FAMC/Lift. 

Cela montre que la procédure de prédiction hiérarchique appliquée aux coefficients spectraux 

(DCT ou ondelettes) est moins efficace qu’une prédiction delta spatiale adaptative appliquée 

uniquement aux coefficients de basses fréquences (cf. Section 7.4.1). Ces configurations permettent 

en revanche de supporter à la fois la scalabilité en qualité et la scalabilité spatiale. 

Le tableau 8.1 présente les complexités de calcul des algorithmes de codage et de décodage 

des différentes configurations de FAMC. Rappelons que V , VΠ et T représentent respectivement 

le nombre des sommets du maillage dynamique, le nombre maximal de sommets par cluster et 

le nombre de trames de l’animation. 

Configuration Complexité ducodeur Complexité dudécodeur 

FAMC/Lift O(V × T ) O(V × T ) 

FAMC/DCT O(V × log(T ) × T ) O(V × log(T ) × T ) 

FAMC/LD O(V × T ) O(V × T ) 

FAMC/Lif+LD O(V × T ) O(V × T ) 

FAMC/DCT+LD O(V × log(T ) × T ) O(V × log(T ) × T ) 

FAMC/ACP O(VΠ × T 2 + V 2 Π × T + min(VΠ,T) 3 ) O(V × T 2 ) 

Table 8.1 : Complexités de calcul des différentes configurations FAMC (VΠ est le nombre 

maximal de sommets par cluster). 

Sans surprise, l’approche FAMC/ACP présente la plus grande complexité de calcul aussi 

bien pour le codage (O(VΠ × T 2 + V 2 Π × T + min(VΠ,T) 3 ))quepourledécodage (O(V × T 2 )). 

En effet, les hautes performances de compression de cette approche sont obtenues au prix 

d’une complexité relativement importante. Appliquer une ACP par parties permet de réduire 

considérablement la complexité decalcul,quidevientO(VΠ × T 2 + V 2 Π × T + min(VΠ,T) 3 ), 

avec VΠ


(a) (b) 

(c) (d) 

(e) (f) 

(g) (h) 

Figure 8.1 : Comparaison des performances de compression des différentes configurations 

FAMC : (1) FAMC/Lift, (2) FAMC/DCT, (3) FAMC/LD, (4) FAMC/Lift+LD, (5) 

FAMC/DCT+LD et (6) FAMC/ACP (partie 1).


(a) (b) 

(c) (d) 

(e) (f) 

(g) (h) 

Figure 8.2 : Comparaison des performances de compression des différentes configuration 

FAMC : (1) FAMC/Lift, (2) FAMC/DCT, (3) FAMC/LD, (4) FAMC/Lift+LD, (5) 

FAMC/DCT+LD et (6) FAMC/ACP (partie 2).


Analysons maintenant de façon comparée les performances de compression des deux approches 

originales proposées dans cette thèse, FAMC et MCGV. 

8.3.2 FAMC versus MCGV 

La Figure 8.3 compare les performances débit/distorsion du codeur FAMC/DCT à celles de 

l’approche MCGV (cf. Chapitre 6). La mesure de distorsion considérée ici est l’erreur RMSE. 

Les débits sont exprimés en bpts. 

Les résultats montrent que l’approche FAMC/DCT surclasse le codeur MCGV avec des 

gains en débits juqu’à 80%. Ces gains significatifs s’expliquent par la représentation par images 

géométriques utilisée par MCGV, qui induit des pertes d’information à cause de la procédure 

de re-échantillonnage régulier de la géométrie du maillage. Ces pertes conduisent à une erreur 

RMSE importante. Nous constatons en effet un phénomène de pallier : quel que soit le débit 

alloué, les distorsions de codage ne peuvent pas descendre au dessous d’une erreur limite. Cela 

rend l’approche MCGV particulièrement inefficace dans la plage des moyens et hauts débits (2 

à 8 bpts) où l’on constate que les courbes débit/distorsion du codeur MCGV tendent vers une 

asymptote horizontale. 

Notons également que le codage optimisé dumodèle de mouvement (partition, transformées 

affines et poids d’animation) considéré permet au codeur FAMC d’être particulièrement efficace 

aux bas et très bas débits (i.e., inférieurs à 2 bpts). Cela démontre àl’évidence la nette 

supériorité de l’approche FAMC. 

Examinons àprésent comment FAMC se positionne par rapport aux technologies antérieures 

proposées par le standard MPEG-4.


(a) (b) 

(c) (d) 

(e) (f) 

Figure 8.3 : Performances de compression du codeur FAMC/DCT vs. l’approche MCGV. 

8.3.3 FAMC versus les technologies MPEG-4 

Avant l’adoption de FAMC, le standard MPEG-4 supportait le codage de maillages 3D 

dynamiques à travers deux technologies : BIFS (BInary Format for Scenes) [192] et IC (Interpolator 

Compression) [121]. 

8.3.3.1 FAMC versus BIFS 

Les performances du codeur FAMC ont été tout d’abord comparées à celles du schéma 

binarisation MPEG-4/BIFS [192]. Rappelons que le codeur BIFS réalise seulement une binarisation 

de l’animation qui correspond à une représentation sans perte. Afin de réaliser une 

comparaison objective, nous avons considéré la configuration FAMC/Lift qui permet de garantir 

une compression quasi-sans perte. Les erreurs résiduelles de prédiction on été iciquantifiées 

sur 16 bits.


Animation GBIFS (%) Animation GBIFS (%) 

“Ball” 80 “Box” 81 

“Camel collapse” 81 “Camel gallop” 79 

“Chicken” 83 “Cow” 77 

“Dance” 84 “Dolphin” 88 

“Dragon” 86 “Eagle” 83 

“Elephant gallop” 82 “Horse collapse” 83 

“Horse gallop” 82 “Humanoid” 87 

“Jump” 79 “Rabbit” 78 

“Raptor” 86 “Sanke” 82 

“Troll” 87 “Wolf” 84 

Table 8.2 : Gains de l’approche FAMC par rapport au schéma de binarisation BIFS. 

Le Tableau 8.2 présente les gains obtenus par FAMC par rapport à BIFS. Le facteur de 

gain, noté GBIFS, estdéfini par : 

GBIFS =1− S(FAMC) 

, (8.11) 

S(BIFS) 

où S(FAMC)etS(BIFS) représentent respectivement la taille (en kbits) des flux binaires 

obtenus par les codeurs FAMC/Lift (cf. Section 7.4.1) et BIFS. 

Ces résultats montrent que l’approche FAMC avec un codage quasi sans perte surclasse le 

schéma de binarisation BIFS avec un gain moyen de l’ordre de 83%. Cela est sans surprise, 

étant donné qu’aucune procédure de compression n’est exploitée par le codeur BIFS. 

Analysons àprésent les performances de FAMC par rapport àlatechniqueAFX-IC,retenue 

par le standard MPEG-4 en 2003. 

8.3.3.2 FAMC versus AFX-IC 

La Figure 8.4 présente les courbes débit/distorsion des codeurs FAMC/DCT et AFX-IC 

[121] sur les modèles “Camel collapse”, “Horse collapse”, “Humanoid”, “Rabbit”, “Snake” et 

“Eagle”. Le Tableau 8.3 synthétise les gains obtenus pour l’ensemble du corpus de test MPEG-4 

considéré. 

Le facteur de gain GIC de la technique FAMC par rapport à l’approche AFX-IC est défini 

par : 

GIC =1− S(FAMC) 

, (8.12) 

S(IC) 

où S(FAMC), S(BIFS) etS(IC) représentent respectivement la taille (en kbits) des flux 

binaires obtenus par les codeurs FAMC/DCT et IC, pour une même distorsion. Les gains 

rapportés dans le Tableau 8.3 correspondent à des gains moyens obtenus pour des pas de 

quantifications allant de 5 à 20 bits pour le codeur IC, ce qui couvre la totalité de la plage de 

débits utiles. 

Ces résultats montrent que l’approche proposée surclasse le codeur AFX-IC avec des gains 

GIC moyens de l’ordre de 76%. En effet, la stratégie de prédiction spatio-temporelle locale du 

codeur AFX-IC est trop élémentaire pour prendre en compte l’ensemble des corrélations spatiales 

et temporelles du signal d’animation. A l’opposé, le codeur FAMC exploite une prédiction


sophistiquée par modèle de skining, combinée à une transformée DCT temporelle et à une 

prédiction spatiale delta. Cela lui permet d’atteindre de hautes performances de compression 

en particuliers àbasettrès bas débits (20 à 150 kbits/s). 

L’approche FAMC surclasse les techniques précédemment proposées par le standard MPEG- 

4, tout en offrant une complexité de calcul compétitive. FAMC offre en même temps d’excellentes 

performances par rapport aux diverses techniques de l’état de l’art, comme discuté dans 

la section suivante.


(a) (b) 

(c) (d) 

(e) (f) 

Figure 8.4 : FAMC/DCT vs. AFX-IC. 

Animation GIC (%) Animation GIC (%) 

“Ball” 99 “Box” 66 

“Camel collapse” 74 “Camel gallop” 76 

“Chicken” 77 “Cow” 71 

“Dance” 86 “Dolphin” 91 

“Dragon” 69 “Eagle” 62 

“Elephant gallop” 72 “Horse collapse” 60 

“Horse gallop” 64 “Humanoid” 94 

“Jump” 72 “Rabbit” 46 

“Raptor” 88 “Snake” 95 

“Troll” 83 “Wolf” 75 

Table 8.3 : Gains de l’approche FAMC par rapport au codeur MPEG-4/AFX-IC.


8.3.4 FAMC versus les techniques de l’état de l’art 

Nous avons retenu pour comparaison les techniques de compression par : (1) ondelettes 

temporelles TWC [142], (2) ondelettes temporelles avec compensation de mouvement MCWT 

[143], (3) ondelettes spatiales irrégulières AWC [153], (4) ACP globale LPCA [130], (5) ACP 

par parties CPCA [134], et (6) ACP globale combinée à une prédiction spatiale CODDYAC 

[133]. 

La figure 8.5 présente les courbes débit/distorsion correspondant à FAMC/DCT et à 

FAMC/ACP ainsi qu’à d’autres méthodes de la littérature pour les animations “Chicken”, 

“Cow”, “Dance“ et “Dolphin”. 

Les débits sont exprimés en bits par sommet par trame (bpst). Les distorsions de compression 

sont mesurées en utilisant l’erreur DKG entre maillages initiaux et reconstruits. 

Notons que pour l’ensemble des modèles et àtouslesdébits, les deux configurations du 

codeur FAMC offrent les meilleures performances. 

La comparaison des performances des approches FAMC/DCT et FAMC/ACP à celles des 

codeurs AWC, TWC et MCWT font état de gains de l’ordre de 20%-80% (e.g. animation “Chicken” 

et “Cow”). Ce résultat s’explique par l’efficacité del’étape de compensation par modèle 

de peau proposée par FAMC qui surclasse celle de MCWT (compensation des translations), 

de TWC (codage delta des coefficients ondelettes) et de AWC (prédiction delta temporelle). 

Le codeur FAMC/DCT proposé permetégalement d’atteindre de meilleurs résultats que 

ceux obtenus par les approches LPCA, CPCA et CODDYAC, tout en offrant une complexité 

de calcul significativement plus faible. Ici encore, la compensation de mouvement par modèle 

de peau s’avère encore une fois déterminante pour les performances de compression. En outre, 

la décomposition des erreurs résiduelles de compensation de mouvements par DCT permet de 

s’affranchir de la transmission des vecteurs de la base, nécessaire dans le cas d’une compression 

par ACP. 

Quant à l’approche FAMC/ACP, elle amélior encore plus les performances de FAMC/DCT 

grâce : (1) à l’optimalité de la transformée KL appliquée, (2) à la quantification adaptative des 

vecteurs de l’ACP et (3) àlamodélisation efficace du mouvement par modèle de skining. 

Comparé aux techniques de l’état de l’art, le codeur FAMC proposé offre des performances 

de compression plus efficace avec des gains en termes de débits compris entre 20% et 80%. En 

outre, FAMC supporte un ensemble complet de fonctionnalités avancées, comme discuté dans 

le paragraphe suivant.


8.4 Fonctionnalités 

8.4.1 Scalabilité spatiale 

(a) (b) 

(c) (d) 

Figure 8.5 : FAMC vs. les techniques de l’état de l’art. 

La figure 8.6 illustre la fonctionnalité de scalabilité spatiale pour la configuration FAMC/LD, 

pour les animations “Horse gallop”, “Dragon”, “Eagle”, “Troll”, “Wolf” et “Raptor”. Ici, la 

représentation hiérarchique LD considérée (cf. Section 7.4.3) permet de dériver une représentation 

multirésolution du maillage dynamique àdifférents niveaux de détails. 

Notonsqueleniveaudedétails de plus basse résolution inclut en moyenne 10 fois moins de 

triangles que le maillage original. Cela permet au décodeur d’adapter les contenus dynamiques 

aux capacités d’affichage du terminal ainsi qu’à la position du maillage dynamique dans la 

scène par rapport àlacaméra. Ainsi, si l’objet est loin de l’observateur, une version grossière 

est affichée. Au fur et à mesure que l’objet se rapproche de l’observateur des résolutions de 

plus en plus fines sont décodées et visualisées. 

Notons également qu’une telle approche permet un décodage progressif du flux compressé, 

àpartirduniveaudedétails le plus grossier et jusqu’aux résolutions les plus fines. Ainsi, le 

décodeur peut décompresser et afficher à tout instant de la transmission une version plus au 

moins fidèle de l’animation, en fonction de la quantité d’information reçue.


(a) 164 KBits/s, 1813 triangles (b) 407 KBits/s, 8696 triangles (c) 609 KBits/s, 16843 triangles 

(d) 46 KBits/s, 708 triangles (e) 84 KBits/s, 3320 triangles (f) 115 KBits/s, 6350 triangles 

(g) 63 KBits/s, 211 triangles (h) 79 KBits/s, 469 triangles (i) 91 KBits/s, 792 triangles 

(j) 270 KBits/s, 1090 triangles (k) 296 KBits/s, 5195 triangles 

(l) 319 KBits/s, 9896 triangles 

(m) 121 KBits/s, 424 triangles (n) 141 KBits/s, 1624 triangles (o) 168 KBits/s, 4242 triangles 

(p) 128 KBits/s, 968 triangles (q) 171 KBits/s, 4746 triangles (r) 209 KBits/s, 4962 triangles 

Figure 8.6 : Scalabilité spatiale du codeur FAMC/LD pour les animations : (a, b, c) “Horse 

gallop”, (d, e, f) “Dragon”, (g, h, i) “Eagle”, (j, k, l) “Troll”, (m, n, o) “Wolf” et (p, q, r) 

“Raptor”.


8.4.2 Scalabilité en qualité 

La figure 8.7 illustre la fonctionnalité de scalabilité en qualité du codeur FAMC/DCT, 

pour les animations “Chicken”, “Cow”, “Dance”, “Dolphin”, “Jump” et “Snake”. Pour toutes 

ces animations, les coefficients spectraux ont été structurés en quatre bandes de fréquences 

de même taille (cf. Section 7.5.3). Le premier point de chacune des courbes débit/distorsion 

correspond à l’animation obtenue juste en codant le modèle de mouvement. Les autre points 

sont obtenus en décodant successivement les quatre bandes spectrales. 

Notons que le décodage de la première bande spectrale permet de réduire considérablement 

la distorsion Da. Cela montre que l’énergie du signal d’animation est concentrée en grande 

partie dans les coefficients de basses fréquences. La structuration du flux binaire sous forme 

de niveaux de détails permet au décodeur de décoder au fur et à mesure du processus de 

transmission différentes versions de l’animation selon la quantité d’information reçue. 

La fonctionnalité de scalabilité en qualité permet notamment de s’adapter aux débits variables 

des réseaux de transmission considérés.


8.4.3 Codage des attributs 

(a) (b) 

(c) (d) 

(e) (f) 

Figure 8.7 : Scalabilité en qualité. 

Afin d’illustrer la fonctionnalité de codage des attributs, nous avons considéré lecasdes 

normales souvent associées aux sommets des maillages dynamiques, dans le cadre d’applications 

de visualisation rapide. 

La Figure 8.8 compare les performances de codage du codeur FAMC/DCT à celles de AFX- 

IC qui est le seul codeur de la littérature antérieur àFAMCà fournir de tels résultats. Notons 

que le codage des normales est rarement considéré par les travaux de la littérature et dans les 

rares cas où il est traités (par exemple [12]) aucun résultat expérimental n’est fourni. Dans 

notre évaluation, nous avons considéré comme mesure de distorsion l’erreur EN. Lesdébits 

sont ici exprimés en kbits/s. 

Les résultats de la Figure 8.8 montrent encore une fois que l’approche proposée surclasse


le codeur AFX-IC avec des gains moyens en débit de l’ordre de 60%. En effet, le codeur 

FAMC/DCT permet d’obtenir des performances de compression élevées à partir des très bas 

débits (50 à 100 kbits/s) et ce grâce àlaprocédure de prédiction des normales par modèle de 

skinning et au codage hybride par DCT et prédiction delta spatiale adaptative. 

(a) (b) 

(c) (d) 

Figure 8.8 : Codage des normales : FAMC/DCT vs. AFX-IC. 

8.4.4 Codage quasi sans perte 

Afin de mettre en évidence la fonctionnalité de codage quasi sans perte, la Figure 8.9 

présente les courbes débit/distorsion obtenues en considérant comme mesure de distorsion 

l’erreur DPeak. 

Ces résultats montrent que les approches de codage LD, Lift et Lift+LD conduisent aux 

meilleures performances de compression. En effet, ces techniques appliquent une quantification 

dans l’espace spatio-temporel initial et non dans celui spectral, ce qui permet de contrôler directement 

l’erreur maximale DPeak. En revanche, les autres configurations (i.e.,FAMC/DCTet 

FAMC/ACP) considérent une quantification dans l’espace spectral. Cela garantit uniquement 

le contrôle de l’erreur moyenne. 

Ainsi, seules les configurations FAMC/LD, FAMC/Lift et FAMC/Lift+LD répondent àla 

fonctionnalité de codage quasi sans pertes. 

Analysons enfin dans quelle mesure FAMC répond à la fonctionnalité destreaming qui 

permet, au niveau du décodeur, la reconstruction àlavolée des séquences d’animation.


8.4.5 Streaming 

(a) (b) 

(c) (d) 

(e) (f) 

Figure 8.9 : Codage quasi sans perte. 

La Figure 8.10 présente les performances de compression du codeur FAMC avec et sans 

streaming. Ici, la longueur maximale des segments d’animation considérée a été fixée à 32, ce 

qui correspond à environ 1,5 secondes d’animation. 

Pour les animations “Dance”, “Dolphin”, “Cow”, “Jump” et “Snake”, la prise en compte 

de l’option de streaming conduit à une légère dégradation des performances de compression. 

L’analyse de ces résultats en termes d’erreurs de prédiction montre que pour ces séquences le 

modèle de peau calculé pourlaséquence entière est quasi-optimal. Déterminer et intégrer des 

modèles de peau pour chaque sous-segment ne fait donc qu’augmenter la taille du flux obtenu. 

Toutefois, dans le cas du maillage dynamique “Chicken”, le codeur FAMC avec streaming offre 

des taux de compression plus élevés. Pour cette séquence relativement longue (400 trames),


les modèles de peau individuels associés à chaque segment temporel se montrent plus adaptés 

qu’un unique modèle global. 

(a) (b) 

(c) (d) 

(e) (f) 

Figure 8.10 : Performances de compression du codeur FAMC/DCT avec et sans streaming. 


Dans ce chapitre, nous avons présenté une évaluation expérimentale et comparée de la 

technique FAMC. 

La comparaison conduite sur le corpus de test MPEG-4 composé d’une vingtaine de séquences 

d’animation, établit objectivement la supériorité delaméthode FAMC par rapport àMCGV, 

aux techniques MPEG-4 BIFS et AFX-IC, ainsi qu’aux méthodes de l’état de l’art. 

En raison de ces performances élevées et des fonctionnalités supportées, FAMC a été retenu 

pour adoption dans le standard, en tant qu’amendement 2 de la partie 16 - AFX.

Conclusion 

Dans cette thèse, nous avons abordé laproblématique de la compression de maillages 3D 

statiques et animés. 

Ce travail a abouti au développement de quatre approches originales de compression de 

maillages 3D, dont deux concernent les modèles statiques et deux les modèles dynamiques. En 

outre, deux méthodes de segmentation au sens du mouvement d’un maillage 3D animé sont 

également proposées. 

Le premier chapitre de ce mémoire de thèse introduit le formalisme mathématique de 

représentation de maillages 3D, avec un rappel des principales définitions et propriétés géométriques 

et topologiques. Un état de l’art des méthodes de compression de maillages 3D statiques 

yestégalement proposé. 

La première méthode de compression de maillages 3D statiques, appelée TFAN (Chapitre 2) 

(Triangle Fan-based compression), vise à assurer une représentation 3D compacte, sous une 

contrainte de basse complexité de calcul au niveau du décodeur. La méthode TFAN se montre 

particulièrement adaptée pour compresser les objets 3D CAO considérés dans le cadre du 

projet RNRT SEMANTIC-3D. En raison de sa généralité, la méthode TFAN offre des gains 

significatifs en taux de compression (6 à 33%) ainsi qu’en temps de décodage (plus de 50% 

en moyenne) par rapports aux méthodes de l’état de l’art sur ce corpus très difficile, incluant 

plus de 4000 objets de topologies irrégulières (de type manifold ou non, orientable ou non, 

présentant de multiples composantes connexes...). 

En raison de sa faible complexitédedécodage et de ses performances de compression élevées, 

le codeur TFAN semble le candidat de premier plan pour le déploiement des contenus de type 

CAO sur téléphones portables. Depuis avril 2008, il est évaluédanslecadredel’expérimentation 

technique du groupe MPEG-4/3DGC sur la compression de basse complexité de maillages 3D. 

La deuxième approche de compression proposée (Chapitre 3) est dédiée au codage des 

maillages 3D denses àgéométries lisses, comme ceux issus des processus de numérisation 3D. 

Elle exploite une approximation (sans perte de connectivité) par surfaces B-Splines couplée 

avec un codage JPEG2000. La représentation proposée offre des performances de compression 

élevées, en particulier àbasdébits, tout en assurant la fonctionnalité de scalabilité en qualité. 

Dans le contexte de compression de maillages 3D animés, nous avons considérélesreprésentations 

par trames clés, à connectivité fixeetgéométrievariabledansletemps,quis’imposent 

aujourd’hui dans les industries des films 3D et des jeux vidéos. Le chapitre 4 propose une revue 

de l’état de l’art des méthodes de compression dédiées à ces représentations. 

L’ensemble des développements effectués sont fondés sur la construction d’un modèle de 

peau (skinning), déterminé automatiquement à partir des séquences animées (Chapitre 5). 

219

220 Conclusion 

Deux approches originales de segmentation au sens de mouvement, l’un par classification en 

k-moyennes et l’autre par décimation hiérarchique, ont été ici proposées et validées expérimentalement. 

La méthode de construction du modèle de peau ouvre la voie aux approches de 

compression par compensation de mouvement développées par la suite. 

Un premier schéma de compression, appelée MCGV (Multi-Chart Geometry Video) et 

présenté au Chapitre 6, combine la stratégie de prédiction par modèle de peau avec une 

représentation des erreurs résiduelles sous forme d’une séquence d’images géométriques 2D 

qui est compressée grâce aux codeurs standardisés JPEG ou MPEG-4. L’approche MCGV assure 

des hautes performances de compression àbasdébit et des fonctionnalités avancées de 

streaming et de scalabilité temporelle et en qualité. 

Un deuxième schéma de compression, appelé FAMC(Frame-based Animated Mesh Compression) 

est ensuite proposé (Chapitre 7). Contrairement à MCGV, l’approche FAMC considère 

un codage hybride, prédictif et par transformées des erreurs résiduelles de compensation de 

mouvement. Plusieurs transformées (en Cosinus Discrère, en ondelettes, de Karhunen-Loève 

ou encore par décomposition en niveaux hiérarchiques), bien connues pour leur propriétés de 

décorrélation du signal sont ici considérées, dans le cadre d’une architecture extensible et modulable. 

L’approche FAMC offre à la fois une compression efficace de la géométrie et des attributs 

photométriques associés aux sommets du maillage dynamique, tout en assurant des fonctionnalités 

de streaming, de scalabilité (spatiale, temporelle et en qualité), ou encore de codage 

quasi-sans pertes. 

En raison de ces performances élevées en terme d’efficacité de compression et de l’ensemble 

complet des fonctionnalités supportées, FAMC a été retenue pour intégration dans le standard 

ISO/MPEG-4, en tant qu’amendement 2 de la partie 16 - AFX (dont la sortie officielle est 

prévue en Juillet 2008). 

Enfin, l’étude expérimentale proposée au Chapitre 8 valide, sur le corpus de test MPEG-4, 

l’ensemble des développements proposés. En particulier, elle met en évidence la supériorité 

de la méthode FAMC aussi bien par rapport àMCGV,qu’àd’autres techniques du standard 

MPEG-4 et de la littérature. 

Les perspectives de cette thèse portent essentiellement sur une combinaison des deux approches 

FAMC et TFAN afin d’assurer un unique flux MPEG-4 capable de représenter de 

façon efficace et unifiée tout maillage 3D statique ou dynamique. Un tel flux unique permettrait 

de décrire, outre les animations spécifiées par trames clés, celles décrites par structures de 

squelettes hiérarchiques arbitraires (BBA - Bone Based Animation) en exploitant la stratégie 

de prédiction par modèle de skinning et celles par métamorphose grâce à la configuration 

FAMC/ACP. 

Un deuxième axe de recherche fort prometteur concerne l’implantation matérielle du codeur 

TFAN. Cela permettra notamment de réduire le flux d’information entre mémoire vive et carte 

graphique, tout en allégeant les calculs réalisés par le CPU, optimisant ainsi à la fois l’utilisation 

de la mémoire graphique et des ressources de calcul disponibles.

Liste de publications et communications 

associées 

Chapitres de livre 

K. Mamou, F. Prêteux, R. Prost, S. Valette, Compression of static and dynamic 3-D 

meshes, A. Naït-Ali, C. Cavaro-Ménard (Ed.), Compression of Biomedical Images and Signals, 

ISTE, Chippenham, UK, October 2007, p. 211-245. 

K. Mamou, F. Prêteux, R. Prost, S. Valette Compression des maillages surfaciques 3D 

statiques et dynamiques, A. Naït-Ali, C. Cavaro-Ménard (Ed.), Compression des images et 

des signaux médicaux, Traité IC2-Série Information et Science du Vivant, Hermès-Lavoisier, 

Paris, France, February 2007, p. 231-267. 

Articles de journaux 

K. Mamou, T. Zaharia, F. Prêteux, A DCT-based approach for dynamic 3D mesh 

compression, WSEAS Transactions on Information Science and Applications, Vol. 3(8), October 

2006, p. 1947-1954. 

K. Mamou, T. Zaharia, F. Prêteux, A skinning approach for dynamic 3D mesh compression, 

Computer Animation and Virtual Worlds, Vol. 17(3-4), July 2006, p. 337-346. 

K. Mamou, T. Zaharia, F. Prêteux, Progressive 3D mesh compression : a B-spline 

approach, WSEAS Transactions on Communications, Vol. 8(4), August 2005, p. 587-597. 

Articles de conférences internationales 

K. Mamou, T. Zaharia, F. Prêteux, FAMC : the MPEG-4 standard for animated mesh 

compression IEEE International Conference on Image Processing (ICIP’2008), San Diego, 

CA, U.S.A. (to appear), October 2008. 

221

222 

K. Mamou, T. Zaharia, F. Prêteux, A. Kamoun, F. Payan, M. Antonini, Two Optimizations 

of the MPEG-4 FAMC standard for Enhanced Compression of Animated 3D 

Meshes IEEE International Conference on Image Processing (ICIP’2008), San Diego, CA, 

U.S.A. (to appear), October 2008. 

K. Mamou, T. Zaharia, F. Prêteux, N. Stefanoski, J. Ostermann, Frame-based compression 

of animated meshes in MPEG-4 IEEE International Conference on Multimedia & Expo 

(ICME’2008), Hannover, Germany (to appear), June 2008. 

K. Mamou, N. Stefanoski, H. Kirchhoffer, K. Müller, T. Zaharia, F. Prêteux, D. Marpe, J. 

Ostermann, The new MPEG-4/FAMC standard for animated 3D mesh compression, 

3DTV Conference (3DTV-CON 2008), Istanbul, Turkey (to appear), May 2008. 

K. Mamou, T. Zaharia, F. Prêteux, FAMC : La nouvelle technologie MPEG-4 pour 

la compression d’animations 3D Actes 5èmes Ateliers de Travail sur l’Analyse d’Images, 

Méthodes et Applications (TAIMA’2007), Hammamet, Tunisia, May 2007, p. 381-388. 

K. Mamou, T. Zaharia, F. Prêteux, Image-based compression scheme for dynamic articulated 

3D meshes, International Symposium on Image/Video Communications over Fixed 

and Mobile Networks (ISIVC’06), Hammamet, Tunisia (CDROM), September 2006. 

K. Mamou, T. Zaharia, F. Prêteux, A skinning prediction scheme for dynamic 3D 

mesh compression, SPIE Conference on Mathematics of Data/Image Pattern Recognition, 

Compression, and Encryption with Applications IX, San Diego, CA, Vol. 6315, August 2006, 

p. 631502 :1-12. 

K. Mamou, T. Zaharia, F. Prêteux, Temporal-DCT-based compression of 3D dynamic 

meshes, WSEAS International Conference on Communications, Vouliagmeni, Greece, 

(CDROM), July 2006. 

K. Mamou, T. Zaharia, F. Prêteux, Multi-Chart Geometry Video : A compact representation 

for 3D animations, International Conference on 3D Processing, Visualization and 

Transmission (3DPVT 2006), IEEE Computer Society Press, Chapel Hill, NC (CD-ROM), 

May 2006. 

K. Mamou, T. Zaharia, F. Prêteux, Evaluation des approches de compression 3D pour 

les maillages de type CAO Actes 4ème Ateliers de Travail sur l’Analyse d’Images, Méthodes 

et Applications (TAIMA’2005), Hammamet, Tunisia, September 2005, p. 381-388. 

K. Mamou, T. Zaharia, F. Prêteux, A preliminary evaluation of 3D mesh animation 

coding techniques, SPIE Conference on Mathematical Methods in Pattern and Image Analysis, 

San Diego, CA, Vol. 5916, August 2005, p. 44-55. 

K. Mamou, T. Zaharia, F. Prêteux, A multiple B-Spline representation for progressive 

3D mesh compression, WSEAS International Conference on Communications, Vouliagmeni, 

Greece (CDROM), July 2005.

K. Mamou, T. Zaharia, F. Prêteux, 3D mesh coding techniques applied to CAD 

data : a comparative evaluation, International Conference on Intelligent Access of Multimedia 

Documents on Internet (MediaNet’2004), Tozeur, Tunisia, November 2004, p. 17-35. 

Articles de conférences nationales 

K. Mamou, T. Zaharia, F. Prêteux, FAMC:lanouvellenormeMPEG-4pourlecodage 

de maillage 3D animé, Actes 14ème Congrès Francophone AFRIF-AFIA Reconnaissance des 

Formes et Intelligence Artificielle (RFIA’2008), Amiens, France (CDROM), January 2008. 

K. Mamou, T. Zaharia, F. Prêteux, Segmentation au sens du mouvement de maillages dynamiques, 

Actes 21eme Colloque GRETSI sur le Traitement du Signal et des Images (GRET- 

SI’2007), Troyes, France, September 2007, p. 69-72. 

K. Mamou, T. Zaharia, F. Prêteux, Modèle de skinning pour la compression de maillages 

dynamiques 3D, Actes 11èmes Journées d’Etudes et d’Echanges Compression et Représentation 

des Signaux Audiovisuels (CORESA’2006), Caen, France (CDROM), November 2006. 

K. Mamou, T. Zaharia, F. Prêteux, Compression progressive de maillages 3D par 

approximation B-spline, Actes 10èmes Journées d’études et d’échanges Compression et 

Représentation des Signaux Audiovisuels (CORESA’2005), Rennes, France, November 2005, 

p. 183-188. 

Rapports de standardisation 

K. Mamou, T. Zaharia, F. Prêteux, TFAN : A low complexity approach for static 3D 

mesh compression, Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG2008/M15438, 

Artchamps, France, april 2008. 

K. Mamou, T. Zaharia, F. Prêteux, On the status of the FAMC encoder source code, 

Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG2008/M15440, Artchamps, France, 

april 2008. 

K. Mamou, T. Zaharia, M. Preda, F. Prêteux, FAMC integration into the MPEG-4 

RefSoft, Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG2008/M15150, Antalya, 

Turkey, January 2008. 

K. Mamou, T. Zaharia, F. Prêteux, FAMC decoder conformance, Standardization Report 

ISO/IEC JTC1/SC29/WG11, MPEG2008/M15149, Antalya, Turkey, January 2008. 

K. Mamou, T. Zaharia, M. Preda, F. Prêteux, Low-complexity approach for static mesh 

compression, Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG2008/M15153, 

Antalya, Turkey, January 2008. 

K. Mamou, T. Zaharia, F. Prêteux, Progress report on the FAMC integration into the 

MPEG-4 RefSoft, Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG06/M14958, 

Shenzhen, China, October 2007. 

223

224 

K. Mamou, H. Kirchhoffer, N. Stefanoski, D. Marpe, K. Müller, J. Ostermann, T. Zaharia, F. 

Prêteux, FAMC decoder conformance, Standardization Report ISO/IEC JTC1/SC29/WG11, 

MPEG06/M14936, Shenzhen, China, October 2007. 

K. Mamou, H. Kirchhoffer, N. Stefanoski, D. Marpe, K. Müller, J. Ostermann, T. Zaharia, 

F. Prêteux, FAMC decoder software description, Standardization Report ISO/IEC 

JTC1/SC29/WG11, MPEG07/M14934, Shenzhen, China, October 2007. 

K. Mamou, T. Zaharia, F. Prêteux, FAMC with progressive transmission and scalable 

rendering functionalities Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG07/ 

M14654, Lausanne, Switzerland, July 2007. 

H. Kirchhoffer, D. Marpe, K. Mamou, K. Müller, T. Wiegand, Proposed modifications 

to residual coding part of Frame-based Animated Mesh Compression, Standardization 

Report ISO/IEC JTC1/SC29/WG11, MPEG07/M14697, Lausanne, Switzerland, July 

2007. 

K. Mamou, N. Stefanoski, T. Zaharia, J. Ostermann, F. Prêteux, FAMC’s layer-based scalable 

extension, Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG07/M14652, 

Lausanne, Switzerland, July 2007. 

K. Mamou, N. Stefanoski, T. Zaharia, J. Ostermann, F. Prêteux, FAMC : bitstream description 

for the layer-based scalable extension, Standardization Report ISO/IEC JTC1/ 

SC29/WG11, MPEG07/M14653, Lausanne, Switzerland, July 2007. 

K. Mamou, M. Preda, T. Zaharia, F. Prêteux, FAMC bitstream description, Standardization 

Report ISO/IEC JTC1/SC29/WG11, MPEG07/M14491, San Jose, CA, April 2007. 

K. Mamou, D. Marpe, T. Zaharia, M. Preda, F. Prêteux, Frame-based Animated Mesh 

Compression : integration of the CABAC arithmetic encoder, Standardization Report 

ISO/IEC JTC1/SC29/WG11, MPEG07/M14493, San Jose, CA, April 2007. 

K. Mamou, T. Zaharia, B. Ivanova, M. Preda, F. Prêteux, B. Meaujean, J. Gaillard, O. 

Marre, Results of Core Experiment CE1 on mesh animation compression : skinningbased 

dynamic mesh compression, Standardization Report SO/IEC JTC1/SC29/WG11, 

MPEG07/M14197, Marrakech, Morocco, January 2007. 

K. Mamou, T. Zaharia, M. Preda, F. Prêteux, Results of evaluation experiment EE1 

on static and animated 3D mesh coding : skinning-based dynamic mesh compression, 

Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG06/13888, Hangzhou, 

China, October 2006. 

T. Zaharia, K. Mamou, M. Preda, F. Prêteux, Results of evaluation experiment EE1 on 

static and animated 3D mesh coding : skinning-based compression versus MPEG-4 

AFX-IC, Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG06/14028, Hangzhou, 

China, October 2006.

K. Mamou, T. Zaharia, M. Preda, F. Prêteux, An evaluation test data set for dynamic 

3D mesh compression, Standardization Report ISO/IEC JTC1/SC29/WG11, MPEG06/13626, 

Klagenfurt, Austria, July 2006. 

K. Mamou, T. Zaharia, M. Preda, F. Prêteux, Dynamic 3D mesh compression : State of 

the art and preliminary evaluation, Standardization Report ISO/IEC JTC1/SC29/WG11, 

MPEG06/ 13653, Klagenfurt, Austria, July 2006. 

M.Gutierrez,F.Vexo,K.Mamou,F.Prêteux, 3D CGI films, Standardization Report ISO/IEC 

JTC1/SC29/WG11, MPEG05/11729, Hong Kong, China, January 2005. 

225

226

AnnexeA:Exempledeconstructiondela 

représentation TFan 

La Figure 8.11, illustre un exemple de codage pour l’approche TFAN. Dans ce qui suit nous 

détaillons les différentes étapes ainsi que les valeurs prises par les différentes variables locales 

et de sortie de l’algorithme. 

– Sommet courant v1, F = {}, O(v1) =1,L(1) = {}, N(1) = 1 

• TF1(1) = {v1,v6,v4}, d(1, 1) = 1 

1. w1 1(1) = v6, O(v6) =2,F = {v6}, L(1) = {v6}, S(1, 1) = {0}, I(1, 1) = {} 

2. w1 1 (2) = v4, O(v4) = 3, F = {v6,v4}, L(1) = {v6,v4}, S(1, 1) = {0, 0}, 

I(1, 1) = {} 

– Sommet courant v6, F = {v4}, L(2) = {v4}, N(2) = 2 

• TF1(2) = {v6,v5,v4}, d(2, 1) = 1 

1. w1 2 (1) = v5, O(v5) =4,F = {v4,v5}, L(2) = {v4,v5}, S(2, 1) = {0}, I(2, 1) = 

{}, 

2. w1 2 (2) = v4, F = {v4,v5}, L(2) = {v4,v5}, S(2, 1) = {0, 1}, I(2, 1) = {1} 

• TF2(2) = {v6,v2,v9,v7}, d(2, 2) = 2 

1. w2 2 (1) = v2, O(v2) =5,F = {v4,v5,v2}, L(2) = {v4,v5,v2}, S(2, 1) = {0}, 

I(2, 1) = {} 

2. w2 2 (2) = v9, O(v9) =6,F = {v4,v5,v2,v9}, L(2) = {v4,v5,v2,v9}, S(2, 1) = 

{0, 0}, I(2, 1) = {} 

3. w2 2 (3) = v7, O(v7) = 7, F = {v4,v5,v2,v9,v7}, L(2) = {v4,v5,v2,v9,v7}, 

S(2, 1) = {0, 0, 0}, I(2, 1) = {} 

– Sommet courant v4, F = {v5,v2,v9,v7}, L(3) = {v5}, N(3) = 0 

– Sommet courant v5, F = {v2,v9,v7}, L(4) = {}, N(4) = 0 

– Sommet courant v2, F = {v9,v7}, L(5) = {v9}, N(5) = 1 

• TF1(5) = {v2,v10,v9}, d(5, 1) = 1 

1. w1 5 (1) = v10, O(v10) =8,F = {v9,v7,v10}, L(5) = {v9,v10}, S(5, 1) = {0}, 

I(5, 1) = {} 

2. w2 5(2) = v9, F = {v9,v7,v10}, L(5) = {v9,v10}, S(5, 1) = {0, 1}, I(5, 1) = {2} 

– Sommet courant v9, F = {v7,v10}, L(6) = {v7,v10}, N(v1) =2 

• TF1(6) = {v9,v10,v8}, d(6, 1) = 1 

1. w1 6 (1) = v10, F = {v7,v10}, L(6) = {v7,v10}, S(6, 1) = {1}, I(6, 1) = {2} 

227

228 

2. w1 6 (2) = v8, O(v8) =9,F = {v7,v10,v8}, L(6) = {v7,v10,v8}, S(6, 1) = {1, 0}, 

I(6, 1) = {2} 

• TF2(6) = {v9,v3,v7}, d(6, 2) = 1 

1. w2 6 (1) = v3, O(v3) = 10, F = {v7,v10,v8,v3}, L(6) = {v7,v10,v8,v3}, S(6, 2) = 

{0}, I(6, 2) = {} 

2. w2 6 (2) = v7, F = {v7,v10,v3}, L(6) = {v7,v10,v8,v3}, S(6, 2) = {0, 1}, 

I(6, 2) = {1} 

– Sommet courant v7, F = {v10,v3}, L(7) = {v3}, N(7) = 0 

– Sommet courant v10, F = {v3}, L(8) = {v8}, N(8) = 0 

– Sommet courant v8, F = {}, L(9) = {}, N(9) = 0 

– Sommet courant v3, F = {}, L(10) = {}, N(10) = 0

(a) V =10 (b) N(1) = 1, d(1, 1) = 1, 

S(1, 1) = {0, 0} 

229 

(c) N(2) = 2, d(2, 1) = 1, 

S(2, 1) = {0, 1}, I(2, 1) = {1} 

(d) d(2, 2) = 2, S(2, 2) = {0, 0, 0} (e) N(3) = 0 (f) N(4) = 0 

(g) N(5) = 1, d(5, 1) = 1, 

S(5, 1) = {0, 1}, I(5, 1) = {1} 

(h) N(6) = 2, d(6, 1) = 1, 

S(6, 1) = {1, 0}, I(6, 1) = {2} 

(i) d(6, 2) = 1, S(6, 2) = {0, 1}, 

I(6, 2) = {1} 

(j) N(7) = 0 (k) N(8) = 0 (l) N(9) = 0 

(m) N(10) = 0 (n) 

Figure 8.11 : Exemple de codage pour l’approche TFAN.

230

Annexe B : Corpus de test pour 

l’évaluation de l’approche FAMC 

231

232 

Animation V T Manifold CC Fremé Orienté Mouvement 

“Ball” 5552 100 oui 1 oui oui Affine global 

“Box” 687 29 oui 3 non oui Articulé 

“Camel collapse” 21887 53 non 1 non non Déformations 

élastiques de fortes 

amplitudes 

“Camel gallop” 21887 48 non 1 non non Articulé 

“Chicken” 3030 400 oui 41 oui non Articulé avec 

déformations 



“Cow” 2904 204 oui 1 oui oui Déformations 



“Dance” 7061 201 oui 1 oui oui Articulé avec 

déformations 

élastiques locales 

“Dolphin” 6180 101 non 1 non non Déformations 

élastiques de 

faibles amplitudes 

“Dragon” 3211 38 oui 3 non oui Articulé 

“Eagle” 636 31 non 15 non non Articulé 

“Elephant gallop” 42321 48 oui 1 oui oui Articulé 

“Horse collapse” 8431 53 oui 1 non oui Déformations 



“Horse gallop” 8431 53 oui 1 non oui Articulé 

“Humanoid” 7646 154 oui 1 oui oui Articulé 

“Jump” 15830 222 oui 1 oui oui Articulé avec 

déformations 


“Rabbit” 434 19 non 8 non oui Articulé 

“Raptor” 4952 41 non 47 non non Articulé 

“Snake” 9179 134 oui 1 oui oui Articulé avec 

déformations 


“Troll” 4961 36 non 1 non non Articulé avec 

déformations 

élastiques 

“Wolf” 2320 31 oui 1 non oui Articulé 

Table 8.4 : Propriétés des animations du corpus de test.

(a) “Ball” 

(b) “Box” 

(c) “Camel collapse” 

(d) “Camel gallop” 

(e) “Chicken” 

(f) “Cow” 

(g) “Dance” 

Figure 8.12 : Extraits des animations : (a) “Ball”, (b) “Box”, (c) “Camel collapse”, (d) 

“Camel gallop”, (e) “Chicken”, (f) “Cow” et (g) “Dance”. 

233

234 

(a) “Dolphin” 

(b) “Dragon” 

(c) “Eagle” 

(d) “Elephant gallop” 

(e) “Horse collapse” 

(f) “Horse gallop” 

(g) “Humanoid” 

Figure 8.13 : Extraits des animations : (a) “Dolphin”, (b) “Dragon”, (c) “Eagle”, (d) “Elephant 

gallop”, (e) “Horse collapse”, (f) “Horse gallop” et (g) “Humanoid”.

(a) “Jump” 

(b) “Rabbit” 

(c) “Raptor” 

(d) “Snake” 

(e) “Troll” 

(f) “Wolf” 

Figure 8.14 : Extraits des animations : (a) “Jump”, (b) “Rabbit”, (c) “Raptor”, (d) “Snake”, 

(e) “troll” et (f) “Wolf”. 

235

236

Bibliographie 

[1] G. Taubin et J. Rossignac. Geometric compression through topological surgery. ACM 

Transactions on Graphics, 17(2) :84–115, 1998. 

[2] C. L. Bajaj, V. Pascucci, et G. Zhuang. Single resolution compression of arbitrary 

triangular meshes with properties. Computational Geometry : Theory and Applications, 

14 :167–186, 1999. 

[3] C. Touma et C. Gotsman. Triangle mesh compression. In Graphics Interface, pages 

26–34, Vancouver, Canada, 1998. 

[4] J. Rossignac. Edgebreaker : Connectivity compression for triangle meshes. IEEE Transactions 

on Visualization andComputer Graphics, 5(1) :47–61, 1999. 

[5] J. Popovic et H. Hoppe. Progressive simplicial complexes. In International Conference 

on Computer Graphics and Interactive Techniques, pages 217–224, 1997. 

[6] G. Taubin, A. Gueziecand W. Horn, et F. Lazarus. Progressive forest split compression. 

In International Conference on Computer Graphics and Interactive Techniques, pages 

123–132, 1998. 

[7] P. Alliez et M. Desbrun. Progressive compression for lossless transmission of triangle 

meshes. In International Conference on Computer Graphics and Interactive Techniques, 

pages 195–202, New York, États-Unis, 2001. 

[8] P. M. Gandoin et O. Devillers. Progressive lossless compression of arbitrary simplicial 

complexes. ACM Transactions on Graphics, 21(3) :372–379, 2002. 

[9] A. Khodakovsky, P. Schröder, et W. Sweldens. Progressive geometry compression. In 

Computer Graphics, pages 271–278, 2000. 

[10] H. Hoppe. Progressive meshes. Computer Graphics, 30(Annual Conference Series) :99– 

108, 1996. 

[11] M. Preda. WD 1.0 of ISO/IEC 14496-16 :2006 AMD 4 (Scalable Complexity 3D Mesh 

Compression). In ISO/IEC JTC1/SC29/WG11 N9883, Archamps, France, May 2008. 

[12] H. M. Briceño, P. V. Sander, L. McMillan, S. Gortler, et H. Hoppe. Geometry videos : 

a new representation for 3D animations. In Eurographics/SIGGRAPH Symposium on 

Computer Animation, pages 136–146, San Diego, États-Unis, 2003. 

[13] C.-C. J. Kuo J. Peng. Geometry-guided progressive lossless 3D mesh coding with octree 

(OT) decomposition. ACM Transactions on Graphics (TOG), 24(3) :609–616, 2005. 

[14] P.-L. George et H. Borouchaki. Delaunay triangulation and meshing : Application to 

finite elements. Hermes Science, 1998. 

[15] Y. Ore et O. Ore. Graphs and Their Uses. Hermes Science, 1996. 

237

238 BIBLIOGRAPHIE 

[16] M. Deering. Geometry compression. In International Conference on Computer Graphics 

and Interactive Techniques, pages 13–20, 1995. 

[17] M. Chow. Optimized geometry compression for real-time rendering. In IEEE conference 

on Visualization, pages 347–354, 1997. 

[18] E. M. Arkin, M. Held, J. S. B. Mitchell, et S. Skiena. Hamiltonian triangulations for fast 

rendering. The Visual Computer, 12(9) :429–444, 1996. 

[19] F. Evans, S. Skiena, et A. Varshney. Completing sequential triangulations is hard. Rapport 

Technique, Department of Computer Science, State University of New York at Stony 

Brook, 1996. 

[20] B. Speckmann et J. Snoeyink. Easy triangle strips for tin terrain models. In Candian 

Conference on Computational Geometry, page 1997, 239-244. 

[21] X. Xiang, M. Held, et J. Mitchell. Fast and efficient stripification of polygonal surface 

models. In ACM Symposium on Interactive 3D Graphics, pages 71–78, 1999. 

[22] G. Turan. On the succinct representations of graphs. Discrete Applied Mathematics, 

8 :289–294, 1984. 

[23] J. Teuhola. A compression method for clustered bit-vectors. Information Processing 

Letters, 7 :308–311, 1978. 

[24] F. Lazarus A. Guéziec, G. Taubin et B. Horn. Cutting and stitching : converting sets 

of polygons to manifold surfaces. IEEE Transaction on Visualization and Computer 

Graphics, 7(2) :136–151, 2001. 

[25] M. J. Golin, C. Kenyon, et N. E. Young. Huffman coding with unequal letter costs. In 

ACM symposium on Theory of computing, pages 785–791, 2002. 

[26] I. H. Witten, R. M. Neal, et J. G. Cleary. Arithmetic coding for data compression. 

Communications of the ACM, 30(6) :520–540, 1987. 

[27] P. Alliez et M. Desbrun. Valence-driven connectivity encoding of 3D meshes. In Conference 

Eurographics, pages 480–489, 2001. 

[28] S. Gumhold et W. Straßer. Real time compression of triangle mesh connectivity. In 

International Conference on Computer Graphics and Interactive Techniques, pages 133– 

140, 1998. 

[29] S. Gumhold. Improved cut-border machine for triangle mesh compression. In Erlangen 

Workshop ’99 on Vision, Modeling and Visualization, 1999. 

[30] D. King et J. Rossignac. Guaranteed 3.67v bit encoding of planar triangle graphs. In 

Canadian Conference on Computational Geometry, pages 146–149, 1999. 

[31] S. Gumhold. New bounds on the encoding of planar triangulations. Rapport Technique 

WSI-2000-1, Wilhelm-Schickard-Institut für Informatik, Allemagne, University of 

Tübingen, 2000. 

[32] J. Rossignac et A. Szymczak. Wrap and zip decompression of the connectivity of triangle 

meshes compressed with edgebreaker. Computational Geometry, 14(1-3) :119–135, 1999. 

[33] M. Isenburg et J. Snoeyink. Spirale reversi : Reverse decoding of the edgebreaker encodin. 

In Canadian Conference on Computational Geometry, pages 247–256, 2000. 

[34] A. Szymczak, A. King, et J. Rossignac. An edgebreaker-based efficient compression 

scheme for regular meshes. In Canadian Conference on Computational Geometry, pages 

257–264, 2000.

BIBLIOGRAPHIE 239 

[35] A. Khodakovsky, P. Alliez, M. Desbrun, et P. Schröder. Near-optimal connectivity encoding 

of 2-manifold polygon meshes. Graphical Models, 64(3-4) :147–168, 2002. 

[36] C. Gotsman. On the optimality of valence-based connectivity coding. Computer Graphics 

Forum, 22(1) :99–102, 2003. 

[37] J. Li et C. C. J. Kuo. A dual graph approach to 3D triangular mesh compression. In 

IEEE International Conference on Image Processing (ICIP’1998), pages 891–894, 1998. 

[38] S. M. Curila, , T. Zaharia, G. Mozelle, et F. Prêteux. A new predictive scheme for 3D 

mesh coding within a mpeg-4 compliant framework. 

[39] E.-S. Lee et H.-S. Ko. Vertex data compression for triangular meshes. In Pacific Conference 

on Computer Graphics and Applications, pages 225–234, 2000. 

[40] P. H. Chou et T. H. Meng. Vertex data compression through vector quantization. IEEE 

Transactions on Visualization and Computer Graphics, 8(4) :373–382, 2002. 

[41] G. Taubin. A signal processing approach to fair surface design. In International Conference 

on Computer Graphics and Interactive Techniques, pages 351–358, New York, 

États-Unis, 1995. 

[42] W. J. Schroeder, J. A. Zarge, et W. E. Lorensen. Decimation of triangle meshes. In 


70, 1992. 

[43] M. Soucy et D. Laurendeau. Multiresolution surface modeling based on hierarchical 

triangulation. 

[44] D. Cohen-Or, D. Levin, et O. Remez. Progressive compression of arbitrary triangular 

meshes. In IEEE Visualization, pages 67–72, 1999. 

[45] J. Li et C. C. J. Kuo. Progressive coding of 3-D graphic models. Proceedings of the 

IEEE, 86(6) :1052–1063, 1998. 

[46] C. Bajaj, V. Pascucci, et G. Zhuang. Progressive compression and transmission of arbitrary 

triangular meshes. In IEEE Visualization, pages 307–316, 1999. 

[47] O. Devillers et P. Gandoin. Geometric compression for interactive transmission. In IEEE 

Conference on Visualization, pages 319–326, 2000. 

[48] J. Peng, I. Eckstein, et C.-C. J. Kuo. A novel and efficient progressive lossless mesh 

coder. In International Conference on Computer Graphics and Interactive Techniques, 

pages 180–180, 2006. 

[49] S. P. Lloyd. Least squares quantization in PCM. IEEE Transactions on Information 

Theory, 28(12) :129–136, 1982. 

[50] J. Max. Quantizing for minimum distortion. IEEE Transactions on Information Theory, 

6(1) :7–12, 1960. 

[51] N. Aspert, D. Santa-Cruz, et T. Ebrahimi. MESH : Measuring errors between surfaces 

using the hausdorff distance. In IEEE International Conference in Multimedia and Expo 

(ICME), pages 705–708, Lausanne, Suisse, 2002. 

[52] Z. Karni et C. Gotsman. Spectral compression of mesh geometry. In International 

Conference on Computer Graphics and Interactive Techniques, pages 279–286, 2000. 

[53] Z. Karni et C. Gotsman. 3D mesh compression using fixed spectral bases. In Graphics 

Interface, pages 1–8, 2001. 

[54] 

[55] Y. Meyer. Les ondelettes : Algorithmes et applications. Armand Collin, Paris, 1993.


[56] S. Mallat. A theory for multiresolution signal decomposition : The wavelet representation. 

IEEE Transactions on Pattern Analysis and Machine Intelligence, 11(7) :674–69, 1989. 

[57] M. Lounsberry. Multiresolution analysis for surfaces of arbitrary topological type. ACM 

Transactions on Graphics, 16(1) :34–73, 1997. 

[58] W. Sweldens. The lifting scheme : A construction of second generation wavelets. SIAM 

Journal on Mathematical Analysis, 29(2) :511–546, 1997. 

[59] A. W. F. Lee, W. Sweldens, P. Schröder, L. Cowsar, et D. Dobkin. MAPS : multiresolution 

adaptive parametrization of surfaces. In ACM Siggraph, pages 95–104, 1998. 

[60] A. Said et W. Pearlman. A new, fast, and efficient image codec based on set partitioning 

in hierarchical trees. IEEE Transactions on Circuits and Systems for Video Technology, 

6(3) :243–250, 1996. 

[61] A. Khodakovsky et I. Guskov. Normal mesh compression. In Preprint, California Institute 

of Technology, http ://www.multires.caltech.edu, 2000. 

[62] I. Guskov, K. Vidimce W. Sweldens, et P. Schröder. Normal meshes. In ACM Siggraph, 

pages 95–102, 2000. 

[63] S. Valette et R. Prost. A wavelet-based progressive compression scheme for triangle 

meshes : Wavemesh. IEEE Transactions on Visualization and Computer Graphics, 

10(2) :123–129, 2004. 

[64] X.Gu,S.J.Gortler,etH.Hoppe. Geometryimages. ACM Transactions on Graphics, 

21(3) :355–361, 2002. 

[65] F. Losasso, H. Hoppe, S. Schaefer, et J. Warren. Smooth geometry images. In Eurographics/ACM 

SIGGRAPH symposium on Geometry processing, pages 138–145, Grenade, 

Espagne, 2003. 

[66] P. Sander, Z. Wood, S. Gortler, J. Snyder, et H. Hoppe. Multi-chart geometry images. In 

Eurographics Symposium on Geometry Processing, pages 146–155, Aachen, Allemagne, 

2003. 

[67] S. W. Lee, B. Kim, M. Chen, et M. Preda. CE on scalable complexity 3D mesh coding 

3DGC. In ISO/IEC JTC1/SC29/WG11 N9888, Archamps, France, page May, 2008. 

[68] A. Moffat, R. Neal, et I. Witten. Arithmetic coding revisited. ACM Transactions on 

Information Systems, 16(3) :256–294, 1998. 

[69] M. Preda et F. Prêteux. Virtual character within MPEG-4 animation framework extension. 

IEEE Transactions on Circuits and Systems for Video Technology, 14(7) :975–988, 

2004. 

[70] E.-Y. Chang, N. Hur, et E. S. Jang. 3D model compression in MPEG. In IEEE International 

Conference on Image Processing, page àparître, 2008. 

[71] W. T. Tutte. How to draw a graph. In Proceedings of the London Mathematical Society, 

pages 743–767, 1963. 

[72] V. Krishnamurthy et M. Levoy. Fitting smooth surfaces to dense polygon meshes. In 


324, Grenade, Espagne, 1996. 

[73] S. Yoshizawa, A. Belyaev, et H.-P. Seidel. A fast and simple stretch-minimizing mesh 

parameterization. In International Conference on Shape Modeling, pages 200–208, 2004. 

[74] B. Lévy, S. Petitjean, N. Ray, et J. Maillot. Least squares conformal maps for automatic 

texture atlas generation. ACM Transactions on Graphics, 21(3) :362–371, 2002.


[75] G. Taubin. Estimating the tensor of curvature of a surface from a polyhedral approximation. 

In International Conference on Computer Vision, pages 902–909, 1995. 

[76] G. Karypis et V. Kumar. Multilevel k-way partitioning scheme for irregular graphs. 

Journal of Parallel and Distributed Computing, 48(1) :96–129, 1998. 

[77] E. W. Dijkstra. A note on two problems in connection with graphs. Numerische Mathematik, 

1 :269–271, 1998. 

[78] K. Hormann, B. Lévy, et A. Sheffer. Mesh parameterization : theory and practice. In 


115, 2007. 

[79] M. S. Floater et K. Horman. Surface parametrization : a tutorial and survey. Advances 

in Multiresolution for Geometric Modelling, pages 157–186, 2005. 

[80] M. Meyer, A. Barr, H. Lee, et M. Desbrun. Generalized barycentric coordinates on 

irregular polygons. Journal of Graphics Tools, 7(1) :13–22, 2002. 

[81] M. S. Floater. Parametrization and smooth approximation of surface triangulations. 

Computer Aided Geometric Design, 14(3) :231–250, 1997. 

[82] W. H. Press, S. A. Teukolskyand, W. T. Vetterling, et B. P. Flannery. Numerical Recipes 

in C : The Art of Scientific Computing. Cambridge Press, New York, États-Unis, 2nd 

edition, 1992. 

[83] L. A. Piegl et W. Tiller. The NURBS Book. Springer, 1996. 

[84] B. Gregorski et B. Hamann. Reconstruction of b-spline surfaces from scattered data 

points. In International Conference on Computer Graphics, page 163, Grenade, Espagne, 

2000. 

[85] M. Eck et H. Hoppe. Automatic reconstruction of B-spline surfaces of arbitrary topological 

type. In International conference on Computer graphics and interactive techniques, 

pages 325–334, 1996. 

[86] M. Preda, M. Steliaros, A. Mignot, M. Han, et P.Gioia. Ad Hoc Group report on online 

gaming (OLGA). Research Report ISO/IEC JTC1/SC29/WG11, MPEG02/M8783, 

Shanghai, China, October 2002. 

[87] K. Shoemake. Animating rotation with quaternion curves. In Annual conference on 

Computer graphics and interactive techniques, pages 245–254, New York, NY, États- 

Unis, 1985. 

[88] D. Pletincks. The Use of Quaternions for Animation, Modelling and Rendering. Springer, 

New Trends in Computer Graphics,, 1988. 

[89] E. B. Dam, M. Koch, et M. Lillholm. Quaternions, interpolation and animation. Rapport 

Technique. DIKU, 1998. 

[90] L. Vicci. Quaternions and rotations in 3-space : The algebra and its geometric interpretation. 

Rapport Technique, Chapel Hill, NC, USA, 2001. 

[91] M. Gleicher. Animation from observation : Motion capture and motion editing. Computer 

Graphics, 33(4) :51–54, 1999. 

[92] V.B. Zordan et J.K. Hodgins. Motion capture-driven simulations that hit and react. In 

ACM SIGGRAPH/Eurographics symposium on Computer animation, pages 89–96, 2002. 

[93] J. Lee, J. Chai, P.S.A. Reitsma, J.K. Hodgins, et N.S. Pollard. Interactive control of 

avatars animated with human motion data. In Annual conference on Computer graphics 

and interactive techniques, pages 491–500, 2002.


[94] A.H. Barr. Global and local deformations of solid primitives. SIGGRAPH Computer 

Graphics, 18 :21–30, 1984. 

[95] T.W. Sederberg et S.R. Parry. Free-form deformation of solid geometric models. In 

Annual conference on Computer graphics and interactive techniques, volume 20, pages 

151–160, New York, NY, États-Unis, 1986. 

[96] J. Lasseter. Principles of traditional animation applied to 3D computer animation. In 

Annual conference on Computer graphics and interactive techniques, pages 35–44, New 

York, NY, États-Unis, 1987. 

[97] S. Coquillart. Extended free-form deformation : a sculpturing tool for 3D geometric 

modeling. In Annual conference on Computer graphics and interactive techniques, pages 

187–196, Dallas, TX, États-Unis, 1990. 

[98] W.M. Hsu, John F. Hughes, et Henry Kaufman. Direct manipulation of free-form deformations. 

Computer Graphics, 26(2) :177–184, 1992. 

[99] R. MacCracken et K.I. Joy. Free-form deformations with lattices of arbitrary topology. 

In Computer Graphics and Interactive Techniques, pages 181–188, 1996. 

[100] Y. Ono, B.Y. Chen, T. Nishita, et J. Feng. Free form deformation with automatically 

generated multiresolution lattices. In IEEE Cyberworlds Conference, pages 472–479, 

Tokyo, Japan, 2002. 

[101] T. Boubekeur, O. Sorkine, et C. Schlick. Scalable freeform deformation. In ACM Siggraph 

2007 - Sketch Program, 2007. 

[102] K. Singh et E. Fiume. Wires : a geometric deformation technique. In Annual conference 

on Computer graphics and interactive techniques, pages 405–414, New York, NY, États- 

Unis, 1998. 

[103] S. Yoshizawa, A.G. Belyaev, et H.P. Seidel. A simple approach to interactive free-form 

shape deformations. In Pacific Conference on Computer Graphics and Applications, 

pages 471–474, Beijing, China, 2002. 

[104] S. Zelinka et M. Garland. Mesh modelling with curve analogies. In Pacific Conference 

on Computer Graphics and Applications, pages 94–98, Seoul, Koré, 2004. 

[105] A. Nealen, T. Igarashi, O. Sorkine, et M. Alexa. FiberMesh : Designing freeform surfaces 

with 3D curves. ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH), 

26(3), 2007. 

[106] N. Magnenat-Thalmann, R. Laperrière, et D. Thalmann. Joint-dependent local deformations 

for hand animation and object grasping. In Graphics interface, pages 23–33, 

1988. 

[107] J.E. Chadwick, D.R. Haumann, et R.E. Parent. Layered construction for deformable 

animated characters. In Annual conference on Computer graphics and interactive techniques, 

pages 243–252, New York, NY, États-Unis, 1989. 

[108] R. Turner. LEMAN : a system for constructing and animating layered elastic characters. 

Academic Press, 1995. 

[109] D. Thalmann, J. Shen, et E. Chauvineau. Fast realistic human body deformations for 

animation and VR applications. In Computer Graphics International, pages 166–174, 

1996. 

[110] O. Weber, O. Sorkine, Y. Lipman, et C. Gotsman. Context-aware skeletal shape deformation. 

Computer Graphics Forum, 26(3) :265–273, 2007.


[111] F. Lazarus et A. Verroust. 3D metamorphosis : A survey. Visual Computer, 14(8-9) :373– 

389, 1998. 

[112] M. Alexa. Recent advances in mesh morphing. Computer Graphics Forum, 21(2) :173– 

196, 2002. 

[113] H. Jianwei, W. Guozhao, et L. Ligang. Dual laplacian morphing for triangular meshes. 

Computer Animation and Virtual Worlds, 18(4-5) :271–277, 2007. 

[114] S. Redon, N. Galoppo, et M.C. Lin. Adaptive dynamics of articulated bodie. ACM 

Transaction on Graphics, 24(3) :936–945, 2005. 

[115] D. Baraff et A. Witkin. Physically based modeling : principles and practice. SIGGRAPH 

course notes, 1997. 

[116] N. Foster et R. Fedkiw. Practical animation of liquids. In Annual conference on Computer 

graphics and interactive techniques, pages 23–30, New York, NY, États-Unis, 2001. 

[117] H. Noser, O. Renault, D. Thalmann, et N. Magnenat Thalmann. Navigation for digital 

actors based on synthetic vision, memory and learning. Computers and Graphics, 

19(1) :7–19, 1995. 

[118] C.W. Reynolds. Flocks, herds, and schools : a distributed behavioral model. Computer 

Graphics, pages 25–34, 1987. 

[119] Special issue on MPEG-4’s animation framework extension (AFX). IEEE Transactions 

on Circuits ans Systems for Video Technology, 14(7) :925–1045, 2004. 

[120] J. Lengyel. Compression of time-dependent geometry. In ACM Symposium on Interactive 

3D Graphics, pages 89–96, Atlanta, États-Unis, 1999. 

[121] E. S. Jang, J. D. K. Kim, S. Y. Jung, M. J. Han, S. O. Woo, et S. J. Lee. Interpolator 

data compression for MPEG-4 animation. IEEE Transactions on Circuits and Systems 

for Video Technology, 14(7) :989–1008, 2004. 

[122] L. Ibarria et J. Rossignac. Dynapack : space-time compression of the 3D animations 

of triangle meshes with fixed connectivity. In Eurographics Symposium on Computer 

Animation, pages 126–133, San Diego, États-Unis, 2003. 

[123] N. Stefanoski et J. Ostermann. Connectivity-guided predictive compression of dynamic 

3D meshes. In IEEE International Conference on Image Processing, pages 2973–2976, 

Atlanta, États-Unis, 2006. 

[124] J.-H. Yang, C.-S. Kim, et S.-U. Lee. Compression of 3-D triangle mesh sequences based 

on vertex-wise motion vector prediction. IEEE Transactions on Circuits and Systems 

for Video Technology, 12(12) :1178–1184, 2002. 

[125] J. Rossignac. Edgebreaker : Connectivity compression for triangle meshes. IEEE Transactions 

on Visualization and Computer Graphics, 5(1) :47–61, 1999. 

[126] N. Stefanoski, P. Klie, X. Liu, et J. Ostermann. Scalable linear predictive coding of 

time-consistent 3D mesh sequences. In The True Vision - Capture, Transmission and 

Display of 3D Video, pages 1–4, Kos Island, Grèce, 2007. 

[127] N. Stefanoski, X. Liu, P. Klie, et J. Ostermann. Layered predictive coding of timeconsistent 

dynamic 3D meshes using a non-linear predictor. In IEEE International 

Conference on Image Processing, pages 109–112, San Antonio, États-Unis, 2007. 

[128] M. Alexa et W. Müller. Representing animations by principal components. Computer 

Graphic Forum, 3(19) :411–418, 2000.


[129] P.-F. Lee, C.-K. Kao, J.-L. Tseng, B.-S. Jong, et T.-W. Lin. 3D animation compression 

using affine transformation matrix and principal component analysis. Transactions on 

Information and Systems, E90-D(7) :1073–1084, 2007. 

[130] Z. Karni et C. Gotsman. Compression of soft-body animation sequences. Computers and 

Graphics, 28(1) :25–34, 2004. 

[131] J. Heu, J.-H. Yang, C.-S. Kim, et S.-U. Lee. Effective quantisation scheme for principal 

components of 3-D mesh sequences. IEEE Transactions on Electronics Letters, 

42(14) :799–800, 2006. 

[132] J. Heu, J.-H. Yang, C.-S. Kim, et S.-U. Lee. R-D optimized compression of 3-D mesh 

sequences based on principal component analysis. In CM Southeast Regional Conference 

archive, pages 68–73, Floride, États-Unis, 2006. 

[133] V. Libor et S. Václav. Coddyac : Connectivity driven dynamic mesh compression. In 

3DTV International Conference : True Vision-Capture, Transmission and Display of 3D 

Video, Kos Island, Grèce, 2007. 

[134] M. Sattler, R. Sarlette, et R. Klein. Simple and efficient compression of animation 

sequences. In Eurographics Symposium on Computer Animation, pages 209–217, Los 

Angeles, États-Unis, 2005. 

[135] N. Kambhatla et T. K. Leen. Dimension reduction by local principal component analysis. 

Neural Computation, 9(7) :1493–1516, 1997. 

[136] R. Amjoun, R. Sondershaus, et W. Straßer. Compression of complex animated meshes. 

In Computer Graphics International 2006 Conference, LNCS by Springer, volume 4035, 

pages 606–613, 2006. 

[137] R. Amjoun et W. Straßer. Efficient compression of 3D dynamic mesh sequences. In 

Journal of the WSCG, 2007. to appear. 

[138] M. Loève. Probability theory. Springer-Verlag, Graduate Texts in Mathematics, 1978. 

[139] K. K. Karhunen. Über lineare methoden in der wahrscheinlichkeitsrechnung. Ann. Acad. 

Sci. Fennicae. Ser. A. I. Math.-Phys., (37) :1–79, 1947. 

[140] A.C. Lopes et M.N. Gamito. Wavelet compression and transmission of deformable surfaces 

over networks. In Portuguese Computer Graphics Meeting, pages 107–114, Portugal, 

2001. 

[141] E. J. Stollnitz, T. D. DeRose, et David H. Salesin. Wavelets for Computer Graphics : 

Theory and Applications. Morgan Kaufmann, San Fransisco, États-Unis, 1996. 

[142] F. Payan et M. Antonini. Temporal wavelet-based geometry coder for 3D animations. 

Elsevier Computer & Graphics, 31(1) :78–88, 2005. 

[143] Y. Boulfani et M. Antonini. Scan-based compression of 3D mesh sequences with geometry 

compensation. In EURASIP 14th EUSIPCO 2006 (CD-ROM), Florence, Italie, 2006. 

[144] Y. Boulfani-Cuisinaud et M. Antonini. Motion-based geometry compensation for dwt 

compression of 3D mesh sequence. In IEEE International Conference in Image Processing 

(CD-ROM), Texas, États-Unis, 2007. 

[145] Y. Boulfani, M. Antonini, et F. Payan. Motion-based mesh clustering for mcdwt compression 

of 3D animated meshes. In EURASIP 14th EUSIPCO 2007 (CD-ROM), Poznan, 

Poland, 2007. 

[146] Y. Boulfani, M. Antonini, et F. Payan. Temporal wavelet-based compression of 3D 

animated meshes using motion-based clustering. In 5ème édition des ateliers de travail 

sur le Traitement et l’Analyse de l’Information : Méthodes et Applications, pages 341– 

348, Hammamet, Tunisie, 2007.


[147] J.-H. Yang, C.-S. Kim, et S.-U. Lee. Progressive compression of 3D dynamic sequences. 

In IEEE International Conference on Image Processing, pages 1975–1978, Singapore, 

2004. 

[148] J.-H. Yang, C.-S. Kim, et S.-U. Lee. Semi-regular representation and progressive compression 

of 3-D dynamic mesh sequences. IEEE Transactions on Image Processing, 

15(9) :2531 – 2544, 2006. 

[149] D. Zorin, P. Schröder, et W. Sweldens. Interpolating subdivision for meshes with arbitrary 

topology. In International Conference on Computer Graphics and Interactive Techniques, 

pages 189–192, New York, États-Unis, 1996. 

[150] M. Garland et P. S. Heckbert. Surface simplification using quadric error metrics. In 

Annual conference on Computer graphics and interactive techniques, pages 209–216, New 

York, NY, États-Unis, 1997. 

[151] J. M. Shapiro. Embedded image coding using zerotrees of wavelet coefficients. IEEE 

Transactions on Signal Processing, 41(12) :3445–3462, 1993. 

[152] I. Daubechies, I. Guskov, P. Schröder, et W. Sweldens. Wavelets on irregular point sets. 

Royal Society Typescript, 357(1760) :2397–2413, 1999. 

[153] I. Guskov et A. Khodakovsky. Wavelet compression of parametrically coherent mesh sequences. 

In Eurographics Symposium on Computer Animation, pages 183–192, Grenoble, 

France, 2004. 

[154] J.W. Cho, M.S. Kim, S. Valette, H.Y. Jung, et R. Prost. 3D dynamic mesh compression 

using wavelet-based multiresolution analysis. In IEEE International Conference on Image 

Processing, pages 529–532, Atlanta, États-Unis, 2006. 

[155] S. Gupta, K. Sengupta, et A. Kassim. Compression of dynamic 3D geometry data using 

iterative closest point algorithm. Computer Vision and Image Understanding Archive, 

87(1-3) :116–130, 2002. 

[156] B. Hendrickson et R. Leland. A multilevel algorithm for partitioning graphs. Rapport 

Technique SAND93-1301, 1995. 

[157] S. Gupta, K. Sengupta, et A. Kassim. Registration and partitioning-based compression 

of 3-D dynamic data. IEEE Transactions on Circuits and Systems for Video Technology, 

13(11) :1144–1155, 2003. 

[158] G. Collins et A. Hilton. A rigid transform basis for animation compression and level of 

detail. In Vision, Video, and Graphics, pages 21–28, Édimbourg, Royaume-Uni, 2005. 

[159] R. Amjoun et W. Straßer. Predictive-spectral compression of dynamic 3D meshes. In 

2nd International Conference on Computer Graphics Theory (Grapp), 2007. to appear. 

[160] J.-H. Ahn, C.-S. Kim, C.-C.J. Kuo, et Y.-S. Ho. Motion-compensated compression of 3D 

animation models. IEEE Electronics Letters, 37(24) :1445–1446, 2001. 

[161] J. Zhang et C.B. Owen. Octree-based animated geometry compression. In IEEE Data 

Compression Conference, pages 508–517, Snowbird, États-Unis, 2004. 

[162] K. Müller, A. Smolic, M. Kautzner, P. Eisert, et T. Wiegand. Predictive compression 

of dynamic 3D meshes. In IEEE International Conference on Image Processing, pages 

621–624, Genève, Suisse, 2005. 

[163] K. Müller, A. Smolic, M. Kautzner, P. Eisert, et T. Wiegand. Rate-distortion optimization 

in dynamic mesh compression. In IEEE International Conference on Image 

Processing, pages 533–536, Atlanta, États-Unis, 2006.


[164] M. Yuen et H. R. Wu. A survey of hybrid MC/DPCM/DCT video coding distortions. 

Signal Processing, 70(3) :247–278, 1998. 

[165] K. Ladislav. Real-time Skeletal Animation. PDH Thesis, Czech Technical University, 

2007. 

[166] D. L. James et C. D. Twigg. Skinning mesh animations. ACM Transactions on Graphics, 

24(3) :399–407, 2005. 

[167] R. Xu et D. Wunsch. Survey of clustering algorithms. Neural Networks, 16(3) :645–678, 

2005. 

[168] A. Shamir. A survey on mesh segmentation techniques. Neural Networks, 2008 (à 

paraître). 

[169] A. Shamir. A formulation of boundary mesh segmentation. In International Symposium 

on 3D Data Processing, Visualization, and Transmission, pages 82–89, Caroline du Nord, 

NC, États-Unis, 2004. 

[170] V. Jain, H. Zhang, et O.V. Kaick. Non-rigid spectral correspondence of triangle meshes. 

International Journal on Shape Modeling, 13(1) :101–124, 2007. 

[171] Y. Lee, S. Lee, A. Shamir, D. Cohen-Or, et H.-P. Seidel. Intelligent mesh scissoring using 

3D snakes. In Computer Graphics and Applications, pages 429–436, Seoul, Corée, 2004. 

[172] R. Liu et H. Zhang. Segmentation of 3D meshes through spectral clustering. In Computer 

Graphics and Applications, pages 298–305, Seoul, Corée, 2004. 

[173] A. Shamir, L. Shapira, et D. Cohen-Or. Mesh analysis using geodesic mean-shift. International 

Journal of Computer Graphics archive, 22(2) :99–108, 2006. 

[174] Z. Yan, S. Kumar, et C.-C. J. Kuo. Error-resilient coding of 3-d graphic models via 

adaptive mesh segmentation. IEEE Transactions on Circuits and Systems for Video 

Technology, 11(7) :860–873, 2001. 

[175] D. Comaniciu et P. Meer. Mean shift : A robust approach toward feature space analysis. 

IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(5) :603–619, 2002. 

[176] J. M. Peña, J. A. Lozano, et P. Larrañaga. An empirical comparison of four initialization 

methods for the k-means algorithm. Pattern Recognition Letters, 20(10) :1027–1040, 

1999. 

[177] F. Pereira et T. Ebrahimi. The MPEG-4 book. Springer-Verlag, Graduate Texts in 

Mathematics, 2002. 

[178] K. Zhou, J. Snyder, B. Guo, , et H. Y. Shum. Iso-charts : Stretch-driven mesh parameterization 

using spectral analysis. In Eurographics Symposium on Geometry Processing, 

pages 45–54, Nice, France, 2004. 

[179] I. Amidror. Scattered data interpolation methods for electronic imaging systems : a 

survey. Journal of Electronic Imaging, 11(2) :157–176, 2002. 

[180] R. Calderbank, I. Daubechies, W. Sweldens, et B.-L. Yeo. Wavelet transforms that map 

integers to integers. Applied and Computational Harmonic Analysis, 5(3) :332–369, 1998. 

[181] D. Marpe, H. Schwarz, et T. Wiegand. Context-based adaptive binary arithmetic coding 

in the H.264/AVC video compression standard. IEEE Transactions on Circuits and 

Systems for Video Technology, 13(7) :620–636, 2003. 

[182] C. E. Shannon. A mathematical theory of communication. Bell System Technical Journal, 

27 :379–423 and 623–656, 1948. 

[183] E. W. Dijkstra. A Short Introduction to the Art of Programming. T. H. Eindhoven, 1971.


[184] M.R. Garey et D.S. Johnson. Computers and Intractability : A Guide to the Theory of 

NP-Completeness. W.H. Freeman and Company, 1979. 

[185] W. Sweldens. Wavelets and the lifting scheme : A 5 minute tour. Zeitschrift für Angewandte 

Mathematik und Mechanik, 76(2) :41–44, 1996. 

[186] H. Gish et J. Pierce. Asymptotically efficient quantizing. IEEE Transactions on Information 

Theory, 14(5) :676– 683, 1968. 

[187] Y. Shoham et A. Gersho. Efficient bit allocation for an arbitrary set of quantizers. IEEE 

Transactions on Signal Processing, 36(9) :1445–1453, 1988. 

[188] R. Sedgewick et P. Flajolet. An Introduction to the Analysis of Algorithms. Addison- 

Wesley, 1996. 

[189] H. Schwarz et D. Marpe T. Wiegand. Overview of the scalable video coding extension 

of the H.264/AVC standard. IEEE Transactions on Circuits and Systems for Video 

Technology, 17(9) :1103 – 1120, 2007. 

[190] K. Mamou, T. Zaharia, B. Ivanova, M. Preda, F. Prêteux, B. Meaujean, J. Gaillard, et 

O. Marre. Results of core experiment ce1 on mesh animation compression : skinning-based 

dynamic mesh compression. In IISO/IEC JTC 1/SC 29/WG 11/M14197, Marakech, 

Morocco, Janvier 2007. 

[191] K. Mamou, T. Zaharia, F. Prêteux, A. Kamoun, F. Payan, et M. Antonini. Two optimizations 

of the MPEG-4 FAMC standard for enhanced compression of animated 3D 

meshes. In IEEE International Conference on Image Processing (ICIP’2008), page à 

paraître, 2008. 

[192] ISO/IEC 14496-11 :2005 Information technology, Coding of audio-visual objects, Part 

11 : Scene description and application engine. Décembre 2005.

Résumé 

Les contenus 3D statiques et dynamiques sont aujourd’hui exploités àgrandéchelle dans 

le cadre d’applications multimédias professionnelles et grand public (Conception Assistée par 

Ordinateur, télé-médecine, jeux vidéos, films d’animation 3D...). 

Pour des raisons d’interopérabilité multi-plateformes, de généralité ouencoredeprotection 

de la propriété intellectuelle, ces contenus sont le plus souvent représentés sous forme de 

maillages 3D, statiques ou dynamiques. L’inconvénient majeur de cette représentation est lié 

aux coûts importants de stockage et de transmission, ce qui nécessite d’élaborer des outils de 

compression efficace optimisés pour ce type de contenus. 

Cette thèse propose quatre approches originales de compression de maillages 3D : deux 

concernent les modèles statiques et les deux autres les modèles dynamiques. En outre, une 

méthode de segmentation au sens du mouvement d’un maillage 3D animé est également 

développée. 

La première méthode, appelée TFAN (Triangle Fan-based compression), vise à assurer une 

représentation 3D compacte, sous une contrainte de basse complexité de calcul au niveau du 

décodeur. Validée sur le corpus CAO du projet RNRT SEMANTIC-3D, la méthode TFAN se 

montre particulièrement efficace pour la compression de maillages 3D de topologies arbitraires. 

Elle offre des gains significatifs en termes de taux de compression (6 à33%)etdetempsde 

décodage (de l’ordre de 50%), par rapports aux méthodes de l’état de l’art. Le codeur TFAN 

aété récemment (Avril 2008) retenu par le standard ISO/MPEG-4 pour une normalisation 

future. 

La deuxième approche est dédiée au codage des maillages 3D denses comme ceux issus 

des scanners 3D. Elle exploite une approximation (sans perte de connectivité) par surfaces B- 

Splines, couplée à un codage JPEG2000. Elle offre des performances de compression efficaces 

àbasdébit tout en assurant la fonctionnalité de scalabilité en qualité. 

La troisième technique, appelée MCGV (Multi-Chart Geometry Video), traite de la compression 

de maillages 3D dynamiques. MCGV exploite une représentation sous forme d’images 

géométriques 2D, compressée par les codeurs standardisés JPEG ou MPEG-4. L’approche 

MCGV assure de hautes performances de compression à bas débit et des fonctionnalités 

avancées de streaming, de scalabilité temporelle et en qualité. 

Enfin, la quatrième contribution de cette thèse concerne la méthode de compression dite 

FAMC (Frame-based Animated Mesh Compression), fondée sur une stratégie de compensation 

du mouvement 3D par modèledepeau(skinning). FAMC s’appuie sur un algorithme de 

segmentation de maillages 3D au sens du mouvement. Cet algorithme permet de déterminer 

automatiquement et sous contrainte d’erreur moyenne de compensation de mouvement, une 

partition d’un modèle 3D en parties ayant des mouvements quasi-affines. 

En raison de ses hautes performances de compression et de l’ensemble des fonctionnalités 

supportées, FAMC est promu dans le standard ISO/MPEG-4 en tant qu’amendement 2 de la 

partie 16 - AFX.

Compression de maillages 3D statiques et dynamiques - Artemis

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?