Algorithmes de la morphologie mathématique pour - Pastel - HAL

More documents

Recommendations

Info

Algorithmes de la morphologie mathématique pour les architectures orientées fluxJaromír BRAMBORÀ partir de ces indices, nous pouvons estimer la complexité de l’approche naïve par O comme :C N = O(KMN) = O(KN 2 ) (9.4)Pour exprimer la complexité et sa structure plus en détail, nous devons spécifier d’autres paramètrescruciaux. Que α(K) désigne le coût du calcul des opérations arithmétiques ou logiques dans le kernel, cecoût et une fonction du nombre des éléments de l’élément structurant. Que L désigne le nombre d’accèsqui devrait être effectués au-delà du domaine de l’image lors de l’extraction des voisins. Que τ désignele coût que nous payons pour tester si l’index d’un élément est dans le domaine de l’image ou pas etque µ désigne le coût d’accès à un élément dans a mémoire et que π désigne le coût de l’obtention d’unélément au-delà des bords de l’image.Lors du calcul d’un algorithme de la morphologie mathématique qui utilise le skeleton algorithmiquengbAlgo, la complexité pratique peut être exprimé comme :C N = Θ(α(K)MN + τKMN + µ(KMN − L) + πL) (9.5)où le premier terme α(K)MN désigne le coût des opérations arithmétiques, le deuxième τKMN lecoût des testes si l’élément à extraire est à l’intérieur du domaine, troisième µ(KMN − L) représentele coût d’accès à la mémoire pour les éléments qui sont à l’intérieur du domaine. Le quatrième πLreprésente un coût généralisé pour l’obtention des éléments qui sont à l’extérieur du domaine, ce termepeut exprimer aussi bien le coût d’un bord d’une valeur constante mais également le coût d’extractiond’un pixel du domaine de l’image si nous travaillons avec les bords qui reflètent le contenu de l’image.L’équation 9.5 peut être récrite comme :C N = Θ((τ + µ)KMN + α(K)MN + (π − µ)L) (9.6)L’équation 9.6 nous démontre la structure des coûts de cette approche naïve. Les idées pour une améliorationdes performances surgissent directement de cette équation et nous verrons par la suite commentnous pouvons réduire des coûts en changeant la structure de notre algorithme.En ce qui concerne les stratégies de parallélisation de cette approche naïve, nous exploiterons lesparadigmes de la parallélisation de données et la parallélisation des tâches. La forme exacte de parallélisationdépend des possibilités de notre matériel parmi lesquelles la réplication fonctionnelle exprimépar le skeleton farm est la plus simple est conduirait à un changement dans l’algorithme 5.1 dont nousprésentons ici les lignes changées et où nous utilisons à la place de la fonction map la fonction farm :4 ◦ (farm op)5 ◦ (farm (extr ar))Ce changement est mineur en ce qui concerne la forme de cet algorithme mais il introduit des conséquencesmajeures sur la conception de l’architecture et sur les performances. Vu que l’extraction duvoisinage d’un pixel peut prendre un temps différent et le plus souvent plus long que le calcul de l’opérationdu kernel, les stratégies de parallélisation peuvent varier fortement. Pour le bon équilibre de lacharge des blocs dans le pipeline d’exécution, nous pouvons choisir, dans le cas général, la multiplicationdes moyens matériels différente pour le kernel d’extraction des voisins et pour le kernel de l’opérationmorphologique.Notons que d’exprimer la complexité d’une telle stratégie de parallélisation à partir de l’équation 9.4à l’aide d’O posera des problèmes car cette formule ne décrit pas explicitement la complexité des différentesparties du pipeline d’exécution mais celle du pipeline tout entier. C’est pourquoi nous nous basonssur l’équation 9.6 de la complexité pratique où nous distinguons les opérations avec la mémoire desopérations arithmétiques. Si E est le nombre des unités qui sont dédiées à l’exécution en parallèle de lafonction d’extraction des voisins et P est le nombre de processeurs qui sont dédiés au calcul de l’opérationsur le voisinage en parallèle, la complexité qui estime le temps du calcul pour la configuration182
Jaromír BRAMBOR9.6. ESTIMATION DE LA COMPLEXITÉ ET DES PERFORMANCES POUR LES GPUparallèle pourra être exprimée comme :C N ′ (τ + µ)KMN + (π − µ)L= Θ(E+ α(K)MN ) (9.7)PIl est évident que nous obtenons les meilleures performances vis-à-vis du temps de calcul dans le cas oùle traitement sur toutes les unités parallélisées de notre chaîne est équilibré.9.6 Estimation de la complexité et des performances pour les GPUMême s’il n’est pas très difficile de décrire la complexité des algorithmes pour les GPU à l’aide deO() en se basant sur les éléments traités, la prévision des performances, comme nous le faisons pour lesGPP à l’aide de Θ() n’est pas simple à effectuer.C’est la combinaison des processeurs GPP - GPU qui rend cette estimation difficile. Dans cettecombinaison, il s’agit d’une machine distribuée, avec tous les phénomènes qui sont propres au calculdistribué, dont les plus importants sont les délais dûs au transfert de données d’entrée et de sortie et lesdélais dûs au temps de synchronisation et au passage des commandes graphiques qui peuvent avoir unestructure complexe et représenter un volume de données important.Il faut également percevoir le GPU lui-même comme une structure de multiples processeurs, cf.fig. 3.18, page 52. Puisqu’il s’agit d’une structure architecturale qui est chaînée, la performance finale estfortement dépendante du type des algorithmes que nous effectuons et de la manière dont nous utilisonsles unités exécutives de cette chaîne. Chacune de ces unités est constituée d’un matériel informatiquespécialisé et est caractérisée par un niveau de parallélisation différent. Ce qui se traduit par des capacitésde calcul différentes d’une unité à l’autre. Si une des unités est saturée par le traitement, tout le pipelineest saturé et on parle, dans le domaine de la programmation des GPU, du traitement limité par cetteunité. Les capacités des ces unités sont optimisées par le fabricant pour les applications de la synthèsegraphique, elles peuvent s’avérer non-optimales ou complètement inadaptées au traitement d’analysed’images que nous visons dans cette thèse. L’optimisation des programmes pour obtenir un bon équilibredu calcul entre ces unités et pour augmenter ainsi la performance est même le sujet de nombreux articlesque l’on peut trouver dans la littérature CW02, Spi03 .9.6.1 Transfert de donnéesLe premier facteur très limitant pour notre traitement est représenté par les temps que nous perdonslors du transfert de données et cela dans les deux sens (GPP↔GPU). Notons que les articles traitant dutransfert de données du point de vue de la programmation, un sujet particulier mais important, ont étédéjà présentés et nous les recommandons au lecteur Ake03 .Le bus AGP que nous avions à disposition est asymétrique. Le débit dans le sens GPP→GPU estsupérieur (théoriquement jusqu’à 2.1 Go/s pour AGP 8x) à celui dans le sens opposé (théoriquement 266Mo/s, ce qui est équivalent à "1x").Nous présentons les temps obtenus expérimentalement pour le transfert de données GPU→GPP surla fig. 9.1. Ces temps correspondent à AGP 1x et nous montrent les temps excessivement longs pourun travail en temps réel : par exemple, le transfert d’une image 256 2 × 4 bits prend 1.5 ms, ce qui estsupérieur dans certains cas à la durée du traitement de ces données par le processeur graphique, commenous l’avons pu voir dans les résultats expérimentaux du chapitre 5, page 123, notamment sur le tempsd’exécution de 0.65 ms de la dilatation par un disque en 4-voisinage de taille 1 pour une image de 1 Mo.Ces données représentent un aspect linéaire de croissance pour un volume de données transféréesgrandissant, cf. fig. 9.1(a), avec une déviation pour les images relativement petites (128 2 × 4) qui estperceptible à échelle logarithmique, cf. fig. 9.1(a).L’utilité du bus AGP pour le calcul GPGPU est discutable. Ce bus devint obsolète avec l’arrivée dunouveau bus PCI Express. Il s’agit d’un bus sériel (AGP était un bus parallèle), il est symétrique et plus183
Page 2 and 3:
Marques commerciales déposées et/
Page 4 and 5:
Cette page est blanche par intentio
Page 7 and 8:
ALGORITHMES DE LA MORPHOLOGIE MATH
Page 9 and 10:
ALGORITHMS OF MATHEMATICAL MORPHOLO
Page 11:
Table des matièresGuide de thèse
Page 14 and 15:
Algorithmes de la morphologie math
Page 16 and 17:
Page 20 and 21:
Page 22 and 23:
Page 24 and 25:
Page 26 and 27:
Page 28 and 29:
Page 30 and 31:
Cette page est blanche par intentio
Page 32 and 33:
Page 34 and 35:
Page 36:
Page 39 and 40:
Jaromír BRAMBOR3.2. FACTEURS INFLU
Page 41 and 42:
Jaromír BRAMBOR3.2. FACTEURS INFLU
Page 43 and 44:
Jaromír BRAMBOR3.3. CONSOMMATION D
Page 45 and 46:
Jaromír BRAMBOR3.4. MODÈLE STREAM
Page 47 and 48:
Page 49 and 50:
Page 51 and 52:
Page 53 and 54:
Page 55 and 56:
Page 57 and 58:
Page 59 and 60:
CHAPITRE 4Formalisme fonctionnelado
Page 61 and 62:
Jaromír BRAMBOR4.2. HASKELL ET LES
Page 63 and 64:
Jaromír BRAMBOR4.3. PRIMITIVES DE
Page 65 and 66:
Page 67 and 68:
Jaromír BRAMBOR4.4. PRIMITIVES DU
Page 69 and 70:
Page 71 and 72:
Page 73 and 74:
Page 75 and 76:
Page 77 and 78:
Jaromír BRAMBOR4.5. MODÈLE FORMEL
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96:
Page 97 and 98:
Partie IIAlgorithmeset les skeleton
Page 99 and 100:
CHAPITRE 5Algorithmes de voisinagen
Page 101 and 102:
Jaromír BRAMBOR5.1. ALGORITHMES É
Page 103 and 104:
Page 105 and 106:
Page 107 and 108:
Page 109 and 110:
Page 111 and 112:
Page 113 and 114:
Page 115 and 116:
Jaromír BRAMBOR5.3. ALGORITHMES G
Page 117 and 118:
Jaromír BRAMBOR5.3. ALGORITHMES G
Page 119 and 120:
Jaromír BRAMBOR5.4. ALGORITHMES PO
Page 121 and 122:
Jaromír BRAMBOR5.4. ALGORITHMES PO
Page 123 and 124:
Jaromír BRAMBOR5.5. RÉSULTATS EXP
Page 125 and 126:
Jaromír BRAMBOR5.6. RÉCAPITULATIO
Page 127 and 128:
CHAPITRE 6Permutation SIMD des arra
Page 129 and 130:
Jaromír BRAMBOR6.2. APPROCHE MACRO
Page 131 and 132: Jaromír BRAMBOR6.2. APPROCHE MACRO
Page 133 and 134: Jaromír BRAMBOR6.3. ALGORITHMES RA
Page 141 and 142: Jaromír BRAMBOR6.4. NOTES SUR L’
Page 145 and 146: Jaromír BRAMBOR6.5. RÉCAPITULATIO
Page 147 and 148: CHAPITRE 7Algorithmes de voisinaged
Page 149 and 150: Jaromír BRAMBOR7.1. PARTICULARITÉ
Page 151 and 152: Jaromír BRAMBOR7.3. SKELETON ALGOR
Page 165 and 166: CHAPITRE 8Algorithmes de la dilatat
Page 167 and 168: Jaromír BRAMBOR8.2. APPROCHE EMPLO
Page 173 and 174: Jaromír BRAMBOR8.3. RÉSULTATS EXP
Page 175 and 176: Jaromír BRAMBOR8.3. RÉSULTATS EXP
Page 177 and 178: CHAPITRE 9Algorithmes et complexit
Page 179 and 180: Jaromír BRAMBOR9.4. ESTIMATION DE
Page 181: Jaromír BRAMBOR9.5. EXEMPLE D’ES
Page 185 and 186: Jaromír BRAMBOR9.6. ESTIMATION DE
Page 189 and 190: Conclusion et perspectives
Page 191 and 192: Conclusion et perspectivesConclusio
Page 193 and 194: Jaromír BRAMBORtations sur les GPU
Page 195 and 196: Jaromír BRAMBORsemble inadapté, d
Page 197 and 198: Annexe
Page 199 and 200: Annexe AFonctions pour assurer l’
Page 201 and 202: Annexe BDéfinitions des fonctions
Page 203 and 204: Jaromír BRAMBORtestSIMD :: PVec I
Page 205 and 206: Liste des termes et des abréviatio
Page 207 and 208: Liste des figures1.1 Évolution du
Page 209 and 210: Jaromír BRAMBORListe des figures7.
Page 211 and 212: Liste des tableaux1.1 Évolution de
Page 213 and 214: Bibliographie[AD03] Marco ALDINUCCI
Page 215 and 216: Jaromír BRAMBORBibliographie[Cou02
Page 217 and 218: Jaromír BRAMBORBibliographie[Gha99
Page 219 and 220: Jaromír BRAMBORBibliographie[Lem96
Page 221 and 222: Jaromír BRAMBORBibliographie[RS01]
Page 223 and 224: Jaromír BRAMBORBibliographie[Wik06
Page 225 and 226: IndexSymbols+, fonction . . . 62, 7
Page 227 and 228: Jaromír BRAMBORINDEXICL . . . . .
Page 229: Jaromír BRAMBORINDEXspecNgbSQR, fo
show all

Algorithmes de la morphologie mathématique pour - Pastel - HAL

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?