Implementación en GPU del algoritmo K-Means para ... - UMBC

More documents

Recommendations

Info

Implementación en GPU del algoritmo K-Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google Maps 8.6. Técnicas de Optimización. Es un apartado a tener en cuenta cuando estamos implementando un código en CUDA para después aplicarlo en una arquitectura paralela como puede ser el caso de una GPU. Para ello, comentamos los principales problemas que nos encontraremos cuando un código se encuentra sin optimizar: • Paralelización + implementación en CUDA: o Intensidad aritmética (cálculos frente al BW): a veces resulta necesario tener que re-calcular un dato antes que re-acceder al dato. Por ello, es importante optimizar las transferencias de Memoria. o Maximizar paralelismo a nivel de datos: minimizar la dependencia entre hilos. Por ello, es importante evitar la divergencia de threads en un warp. o Maximizar la utilización de HW: hay que prestar atención en la elección de los tamaños de bloque y de grid. Además hay que tener cuidado con la Ocupancia (ocultar latencia memoria). De los tres problemas señalados anteriormente, que podrán encontrarse fácilmente cuando nos encontrarnos programando en CUDA, pasaremos a describir una serie de indicaciones para poderlos contrarrestarlos. 1) Optimizar las transferencias de Memoria. Reducir la penalización de transferencias de memoria según el tipo de memoria utilizado: Memoria global: copias entre memoria CPU – GPU y viceversa. En este tipo de copias tendremos que simultanear las copias con los cálculos en CPU, es decir, cuando estemos utilizando la primitiva cudaMemcpy(…) devuelve el control a CPU sólo al finalizar: Trabajo Fin de Máster -94- Sergio Bernabé García
Implementación en GPU del algoritmo KK-Means Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google MMaps La solución sería reservar memoria no paginable y emplear la primitiva cudaMemcpyAsync(…) en vez de malloc(…) pero sin abusar: Otro problema dentro de la memoria global son los accesos ccesos coalescentes kernel GPU – Memoria GPU y viceversa. En este caso los accesos por threads van a ser agrupados para minimizar el número de transferencias. Vamos a poder tener segmentos de 32,64 y 128 bits. Un ejemplo lo podemos tener al realizar la traspuesta de una matriz, en donde las lecturas serán coalescentes, pero las escrituras NO (ver figura 8.4). Figura 8.4. Ejemplo: traspuesta de una matriz utilizando memoria global global. En este caso tendremos que aprovechar la memoria compartida (shared memory) para solucionarlo. Trabajo Fin de Máster -95- Sergio Bernabé García
Page 1 and 2:
UNIVERSIDAD DE EXTREMADURA Escuela
Page 3 and 4:
Implementación en GPU del algoritm
Page 5 and 6:
Page 7 and 8:
Page 9 and 10:
Page 11 and 12:
Page 13 and 14:
Page 15 and 16:
Page 17 and 18:
Page 19 and 20:
Page 21 and 22:
Page 23 and 24:
Page 25 and 26:
Page 27 and 28:
Page 29 and 30:
Page 31 and 32:
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
Page 41 and 42:
Page 43 and 44: Implementación en GPU del algoritm
Page 93: Implementación en GPU del algoritm
show all

Implementación en GPU del algoritmo K-Means para ... - UMBC

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?