Algorithmes de la morphologie mathématique pour - Pastel - HAL

More documents

Recommendations

Info

Algorithmes de la morphologie mathématique pour les architectures orientées fluxJaromír BRAMBORsndsndABCD E FG H IA TDD TDB TDE TDG TDI TDC TDF TDH TDfstÉlémentsinfortmatifsde l’image64-bit(8x8-bit)FIG. 6.7 : La transposition d’un array dont les dimensions ne sont pas un multiple de la taille d’un registremultimédia de 64 bits ; TD = macro bloc transposé par la diagonalefstservent comme les invariables architecturales dans notre code. Ainsi, le même code peut être réutilisé surplusieurs architectures multimédia.Le deuxième exemple est présenté sur la fig. 6.8. Il#define MRPH_MACRO_TrByMainDiagonal_8x8_t8(\s’agit d’un code écrit manuellement qui assure la mêmeA0, A1, A2, A3, A4, A5, A6, A7, \B0, B1, B2, B3, B4, B5, B6, B7 \fonctionnalité de transposition d’un macro bloc par la) \diagonale mais qui utilise les fonctions intrinsèques{\B0 = mrph_asm_mshflo_iu8vec8(A0, A4);\du compilateur pour les processeurs compatibles IntelB1 = mrph_asm_mshflo_iu8vec8(A1, A5);\B2 = mrph_asm_mshflo_iu8vec8(A2, A6);\MMX/SSE2.B3 = mrph_asm_mshflo_iu8vec8(A3, A7);\B4 = mrph_asm_mshfhi_iu8vec8(A0, A4);\La table 6.1 présente les résultats expérimentauxB5 = mrph_asm_mshfhi_iu8vec8(A1, A5);\B6 = mrph_asm_mshfhi_iu8vec8(A2, A6);\pour la transposition par la diagonale et par l’antidiagonaled’une image 512 × 512 dont les éléments sontB7 = mrph_asm_mshfhi_iu8vec8(A3, A7);\\A0 = mrph_asm_mshflo_iu8vec8(B0, B2);\A1 = mrph_asm_mshflo_iu8vec8(B1, B3);\du type unsigned integer de 8 bits sur le processeur IntelPentium 4 de 2.4 GHz par l’exécution en un seulA2 = mrph_asm_mshfhi_iu8vec8(B0, B2);\A3 = mrph_asm_mshfhi_iu8vec8(B1, B3);\A4 = mrph_asm_mshflo_iu8vec8(B4, B6);\A5 = mrph_asm_mshflo_iu8vec8(B5, B7);\thread. La zone de mémoire où sont stockées les donnéesest distincte à l’entrée et à la sortie. Nous consta-A6 = mrph_asm_mshfhi_iu8vec8(B4, B6);\A7 = mrph_asm_mshfhi_iu8vec8(B5, B7);\\B0 = mrph_asm_mshflo_iu8vec8(A0, A1);\tons un gain de temps déjà entre l’implémentation génériquequi consiste en l’utilisation des fonctions d’ac-B1 = mrph_asm_mshfhi_iu8vec8(A0, A1);\B2 = mrph_asm_mshflo_iu8vec8(A2, A3);\B3 = mrph_asm_mshfhi_iu8vec8(A2, A3);\B4 = mrph_asm_mshflo_iu8vec8(A4, A5);\cès au pixel et une implémentation qui utilise le travailavec les pointeurs. Mais le gain que nous obtenonsB5 = mrph_asm_mshfhi_iu8vec8(A4, A5);\B6 = mrph_asm_mshflo_iu8vec8(A6, A7);\B7 = mrph_asm_mshfhi_iu8vec8(A6, A7);\}lors de l’utilisation des instructions MMX est plus intéressant,surtout si nous comptons utiliser la transpositioncomme une des opérations de base dans nos algo-FIG. 6.6 : Code de la transposition par diagonaled’un macro bloc 8 × 8 en langage C utilisantl’outil de développement multiplateformerithmes de morphologie mathématique.MorphoMediaCe qui peut être assez surprenant c’est la duréede l’implémentation générique et même celle via pointer++pour un tel algorithme de base sur une machine relativement puissante de nos jours et cadencée à2.4 GHz. Ainsi, nous accueillons avec plaisir la possibilité d’obtenir, sans aucun investissement dans lematériel existant, un algorithme plus rapide.La figure 6.9 nous montre les représentations graphiques des tests de performance que nous avonseffectué pour l’algorithme de la transposition par diagonale et plusieurs tailles d’images. À l’échellelogarithmique, nous verrons bien que la différence entre les implémentations non-SIMD (générique etvia pointer++) où nous avons laissé toutes les optimisations au compilateur, et celles qui implémententnotre algorithme SIMD est importante pour toutes les tailles d’images. Avec grands taux d’accélérationss’élevant jusqu’à 33.8 pour les images de 1024 × 1024 de 8 bits si on compare l’implémentation SIMDutilisant la technologie Intel SSE2 et l’implémentation classique via pointer++ (cf. tab. 6.1).142
Jaromír BRAMBOR6.4. NOTES SUR L’IMPLÉMENTATION, RÉSULTATS EXPÉRIMENTAUXImageTransposition parMéthode diagonale antidiagonaled’implémentation Temps Taux Temps Tauxms d’accélération ms d’accélérationgénérique élément par élément 2.61 0.58 3.02 0.50512 2 × 8 bitsvia pointer++ 1.51 1.00 1.51 1.00instructions MMX 0.30 5.03 0.31 4.87instructions SSE2 0.23 6.57 — —générique élément par élément 61.3 0.99 61.9 0.991024 2 × 8 bitsvia pointer++ 60.9 1.00 61.7 1.00instructions MMX 2.2 27.7 2.2 28.0instructions SSE2 1.8 33.8 — —Implémentation sur Intel Pentium 4 @ 2.4 GHz (single thread, 8 ko L1, 512 ko L2). La zone de mémoire de sortie est distincte decelle d’entrée. Compilateur Intel ICC 8. Taux d’accélération est calculé par rapport à l’implémentation via pointer++ que nousprenons comme étalon (en gras).TAB. 6.1 : Algorithmes de transposition par diagonale et antidiagonale ; comparaison des temps de calcul etdes taux d’accélération pour diverses implémentations et des tailles d’imagesLe deuxième graphique de la même figure, 6.9(b),void inline Transpose8x8_SSE2(nous présente encore un comportement intéressant desIu8vec8 & mm0, Iu8vec8 & mm1,Iu8vec8 & mm2, Iu8vec8 & mm3,processeurs sur les chiffres des temps d’exécution normaliséspour 1 pixel. Il s’agit de l’impact de la mémoire)Iu8vec8 & mm4, Iu8vec8 & mm5,Iu8vec8 & mm6, Iu8vec8 & mm7{cache sur le calcul des images dont la taille excède celle__m128i xmm0, xmm1, xmm2, xmm3,__m128i xmm4, xmm5, xmm6, xmm7;de la mémoire cache. Il s’agit, dans ce cas précis, de laxmm0 = _mm_movpi64_epi64( (__m64 &) mm0 );mémoire cache L2 de notre processeur Intel Pentium 4xmm1 = _mm_movpi64_epi64( (__m64 &) mm1 );xmm2 = _mm_movpi64_epi64( (__m64 &) mm2 );et dont la taille est de 512 ko.xmm3 = _mm_movpi64_epi64( (__m64 &) mm3 );xmm4 = _mm_movpi64_epi64( (__m64 &) mm4 );Il y a, en effet, deux points à remarquer. Premièrement,on voit bien que pour les images qui entrent en-xmm7 = _mm_movpi64_epi64( (__m64 &) mm7 );xmm5 = _mm_movpi64_epi64( (__m64 &) mm5 );xmm6 = _mm_movpi64_epi64( (__m64 &) mm6 );tièrement dans la mémoire cache (images 128 2 , 256 2 etxmm4 = _mm_unpacklo_epi8(xmm0, xmm4);xmm5 = _mm_unpacklo_epi8(xmm1, xmm5);512 2 ), le coût du calcul est moindre à celui des imagesxmm6 = _mm_unpacklo_epi8(xmm2, xmm6);xmm7 = _mm_unpacklo_epi8(xmm3, xmm7);qui n’y entrent pas (1024 2 , 2048 2 , 4096 2 ). Pour lesxmm2 = xmm6;dernières, nous ne profitons pas d’un accès rapide auxxmm2 = _mm_unpacklo_epi8(xmm4, xmm2);xmm3 = xmm7;données et le surcoût devrait correspondre au tempsxmm3 = _mm_unpacklo_epi8(xmm5, xmm3);xmm6 = _mm_unpackhi_epi8(xmm4, xmm6);d’attente relative à la préparation des données nonprésentesdans la mémoire cache.xmm1 = _mm_unpacklo_epi8(xmm2, xmm1);xmm7 = _mm_unpackhi_epi8(xmm5, xmm7);xmm1 = xmm3;xmm3 = _mm_unpackhi_epi8(xmm2, xmm3);Deuxièmement, nous pouvons apercevoir un comportementparticulier pour les images 1024 2 , 2048 2 ,xmm7 = _mm_unpackhi_epi8(xmm6, xmm7);xmm5 = xmm7;xmm5 = _mm_unpacklo_epi8(xmm6, xmm5);4096 2 , c’est-à-dire les images dont la taille est plus(__m64 &)mm0 = _mm_movepi64_pi64(xmm1);xmm1 = _mm_srli_si128(xmm1, 8);grande que celle de la mémoire cache L2. Pour ces(__m64 &)mm1 = _mm_movepi64_pi64(xmm1);(__m64 &)mm2 = _mm_movepi64_pi64(xmm3);dernières, l’écart entre les implémentations SIMD etxmm3 = _mm_srli_si128(xmm3, 8);(__m64 &)mm3 = _mm_movepi64_pi64(xmm3);non-SIMD est beaucoup plus important que pour les(__m64 &)mm4 = _mm_movepi64_pi64(xmm5);xmm5 = _mm_srli_si128(xmm5, 8);images qui entrent entièrement dans la mémoire cache.(__m64 &)mm5 = _mm_movepi64_pi64(xmm5);Pourtant, le surcoût des transferts des données entre la(__m64 &)mm6 = _mm_movepi64_pi64(xmm7);xmm7 = _mm_srli_si128(xmm7, 8);mémoire cache et la mémoire principale devrait être,(__m64 &)mm7 = _mm_movepi64_pi64(xmm7);en théorie, le même pour les deux manières d’implémentation,puisque le volume de données transférées }_mm_empty();return;est identique.FIG. 6.8 : Code de la transposition par diagonaleL’explication de ce comportement n’a pas pu êtred’un macro bloc 8 × 8 écrit manuellement enidentifiée mais vu que les temps de traitement deviennentimportants pour les grandes images, nous bits Intel SSE2langage C en utilisant le jeu d’instructions 128n’excluons pas la possibilité que ce comportement soitlié à la manière d’exécution de notre programme dans le système d’exploitation multi-tâche, Linux Man-143
Page 2 and 3:
Marques commerciales déposées et/
Page 4 and 5:
Cette page est blanche par intentio
Page 7 and 8:
ALGORITHMES DE LA MORPHOLOGIE MATH
Page 9 and 10:
ALGORITHMS OF MATHEMATICAL MORPHOLO
Page 11:
Table des matièresGuide de thèse
Page 14 and 15:
Algorithmes de la morphologie math
Page 16 and 17:
Page 20 and 21:
Page 22 and 23:
Page 24 and 25:
Page 26 and 27:
Page 28 and 29:
Page 30 and 31:
Cette page est blanche par intentio
Page 32 and 33:
Page 34 and 35:
Page 36:
Page 39 and 40:
Jaromír BRAMBOR3.2. FACTEURS INFLU
Page 41 and 42:
Jaromír BRAMBOR3.2. FACTEURS INFLU
Page 43 and 44:
Jaromír BRAMBOR3.3. CONSOMMATION D
Page 45 and 46:
Jaromír BRAMBOR3.4. MODÈLE STREAM
Page 47 and 48:
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
Page 55 and 56:
Page 57 and 58:
Page 59 and 60:
CHAPITRE 4Formalisme fonctionnelado
Page 61 and 62:
Jaromír BRAMBOR4.2. HASKELL ET LES
Page 63 and 64:
Jaromír BRAMBOR4.3. PRIMITIVES DE
Page 65 and 66:
Page 67 and 68:
Jaromír BRAMBOR4.4. PRIMITIVES DU
Page 69 and 70:
Page 71 and 72:
Page 73 and 74:
Page 75 and 76:
Page 77 and 78:
Jaromír BRAMBOR4.5. MODÈLE FORMEL
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92: Jaromír BRAMBOR4.6. PRIMITIVES DE
Page 97 and 98: Partie IIAlgorithmeset les skeleton
Page 99 and 100: CHAPITRE 5Algorithmes de voisinagen
Page 101 and 102: Jaromír BRAMBOR5.1. ALGORITHMES É
Page 115 and 116: Jaromír BRAMBOR5.3. ALGORITHMES G
Page 117 and 118: Jaromír BRAMBOR5.3. ALGORITHMES G
Page 119 and 120: Jaromír BRAMBOR5.4. ALGORITHMES PO
Page 121 and 122: Jaromír BRAMBOR5.4. ALGORITHMES PO
Page 123 and 124: Jaromír BRAMBOR5.5. RÉSULTATS EXP
Page 125 and 126: Jaromír BRAMBOR5.6. RÉCAPITULATIO
Page 127 and 128: CHAPITRE 6Permutation SIMD des arra
Page 129 and 130: Jaromír BRAMBOR6.2. APPROCHE MACRO
Page 131 and 132: Jaromír BRAMBOR6.2. APPROCHE MACRO
Page 133 and 134: Jaromír BRAMBOR6.3. ALGORITHMES RA
Page 141: Jaromír BRAMBOR6.4. NOTES SUR L’
Page 147 and 148: CHAPITRE 7Algorithmes de voisinaged
Page 149 and 150: Jaromír BRAMBOR7.1. PARTICULARITÉ
Page 151 and 152: Jaromír BRAMBOR7.3. SKELETON ALGOR
Page 159 and 160: Jaromír BRAMBOR7.5. NOTES SUR L’
Page 161 and 162: Jaromír BRAMBOR7.5. NOTES SUR L’
Page 165 and 166: CHAPITRE 8Algorithmes de la dilatat
Page 167 and 168: Jaromír BRAMBOR8.2. APPROCHE EMPLO
Page 177 and 178: CHAPITRE 9Algorithmes et complexit
Page 179 and 180: Jaromír BRAMBOR9.4. ESTIMATION DE
Page 181 and 182: Jaromír BRAMBOR9.5. EXEMPLE D’ES
Page 189 and 190: Conclusion et perspectives
Page 191 and 192: Conclusion et perspectivesConclusio
Page 193 and 194:
Jaromír BRAMBORtations sur les GPU
Page 195 and 196:
Jaromír BRAMBORsemble inadapté, d
Page 197 and 198:
Annexe
Page 199 and 200:
Annexe AFonctions pour assurer l’
Page 201 and 202:
Annexe BDéfinitions des fonctions
Page 203 and 204:
Jaromír BRAMBORtestSIMD :: PVec I
Page 205 and 206:
Liste des termes et des abréviatio
Page 207 and 208:
Liste des figures1.1 Évolution du
Page 209 and 210:
Jaromír BRAMBORListe des figures7.
Page 211 and 212:
Liste des tableaux1.1 Évolution de
Page 213 and 214:
Bibliographie[AD03] Marco ALDINUCCI
Page 215 and 216:
Jaromír BRAMBORBibliographie[Cou02
Page 217 and 218:
Jaromír BRAMBORBibliographie[Gha99
Page 219 and 220:
Jaromír BRAMBORBibliographie[Lem96
Page 221 and 222:
Jaromír BRAMBORBibliographie[RS01]
Page 223 and 224:
Jaromír BRAMBORBibliographie[Wik06
Page 225 and 226:
IndexSymbols+, fonction . . . 62, 7
Page 227 and 228:
Jaromír BRAMBORINDEXICL . . . . .
Page 229:
Jaromír BRAMBORINDEXspecNgbSQR, fo
show all

Algorithmes de la morphologie mathématique pour - Pastel - HAL

Create successful ePaper yourself

Delete template?

Save as template?