Implementación en GPU del algoritmo K-Means para ... - UMBC

More documents

Recommendations

Info

Implementación en GPU del algoritmo K-Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google Maps Extensiones básicas: Modificadores de función: Indica donde se ejecuta la función: GPU (device) o CPU (host) __device__: la función debe ejecutarse en el dispositivo. • Sólo podrá ser llamada por el propio dispositivo. • No soporta recursividad. • No podrán declararse variables estáticas dentro de la función. • La función no puede tener un número variable de argumentos. __global__: la función es un kernel que debe ejecutarse en el dispositivo. • Sólo puede ser llamada por el host. • No soporta recursividad. • No podrán declararse variables estáticas dentro de la función. • La función no puede tener un número variable de argumentos. • La función debe devolver siempre void. __host__: la función debe ejecutarse en el host. • Sólo puede ser llamada por el host. • No puede utilizarse junto con __global__. Modificadores de función: Indica en qué parte de la memoria se localiza la variable. __device__: la variable reside en el dispositivo. • Requiere que se indique uno de los otros dos modificadores de variables para indicar dónde exactamente reside la variable en el dispositivo. Trabajo Fin de Máster -92- Sergio Bernabé García
Implementación en GPU del algoritmo K-Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google Maps __constant__: la variable reside en el espacio de memoria constante del dispositivo. • Está viva durante todo el tiempo de ejecución de la aplicación. • Accesible por todos los threads del grid, así como desde el host. __shared__: la variable reside en el espacio de memoria compartida del bloque de threads en el dispositivo. • Está viva mientras el bloque está vivo. • Accesible sólo por los threads del bloque. Herramientas de sincronización: Todas las ejecuciones de los kernels son asíncronas. El control es devuelto a la CPU inmediatamente. Los kernels que se ejecuten después de llamadas CUDA previas tienen que completarse. De la misma manera la llamada cudaMemcpy síncrona, por lo que el control se devuelve a la CPU después de que las copias se han completado. Las copias que comienzan después de llamadas CUDA previas tienen que completarse. Para sincronizar contamos con la siguiente llamada: cudaThreadSynchronize() cudaError_t cudaThreadSynchronize(void); La CPU espera hasta que el device ha completado todas las áreas pendientes anteriores. CudaThreadSynchronize() retorna error si una de las tareas pendientes falla. Existe otra herramienta de sincronización interna a un kernel que se utiliza para sincronizar hilos dentro de un bloque, esto resulta útil por ejemplo cuando todos los hilos de un bloque necesitan leer un dato común que debe ser calculado previamente, suele utilizarse también tras finalizar una escritura en la memoria compartida de manera que ningún hilo lea de ésta hasta que no se haya finalizado la escritura. Utilizamos la siguiente llamada: syncthreads() cudaError_t syncthreads(void); Trabajo Fin de Máster -93- Sergio Bernabé García
Page 1 and 2:
UNIVERSIDAD DE EXTREMADURA Escuela
Page 3 and 4:
Implementación en GPU del algoritm
Page 5 and 6:
Page 7 and 8:
Page 9 and 10:
Page 11 and 12:
Page 13 and 14:
Page 15 and 16:
Page 17 and 18:
Page 19 and 20:
Page 21 and 22:
Page 23 and 24:
Page 25 and 26:
Page 27 and 28:
Page 29 and 30:
Page 31 and 32:
Page 33 and 34:
Page 35 and 36:
Page 37 and 38:
Page 39 and 40:
Page 41 and 42: Implementación en GPU del algoritm
Page 91: Implementación en GPU del algoritm
show all

Implementación en GPU del algoritmo K-Means para ... - UMBC

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?