Implementación en GPU del algoritmo K-Means para ... - UMBC

More documents

Recommendations

Info

Implementación en GPU del algoritmo K-Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google Maps CUDA proporciona una memoria compartida on-chip a modo de caché de datos que permite accesos muy rápidos de lectura y de escritura. Mediante ésta los hilos pueden compartir datos. Como se muestra en la figura 3.8, las aplicaciones pueden beneficiarse de esta memoria minimizando los accesos a memoria DRAM lo que les hace menos dependientes del ancho de banda de la DRAM que es mucho menor que el de la shared memory. 3.3. Procesamiento en la GPU Figura 3.8. Shared memory. En la siguiente sección presenta a la GPU como un coprocesador multihilo para la CPU, seguidamente se exponen los diferentes mecanismos de los que se hace uso para llevar a cabo el procesamiento en la GPU, estos son los hilos de ejecución, los bloques en los que se organizan estos hilos y los llamados grid en los que se estructuran estos bloques. La sección finaliza con el modelo de memoria utilizado por CUDA. Un coprocesador multihilo Cuando se programa con CUDA, la GPU se ve como un dispositivo de cálculo (device) capaz de ejecutar un gran número de hilos en paralelo. Éste opera como un Trabajo Fin de Máster -34- Sergio Bernabé García
Implementación en GPU del algoritmo K-Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google Maps coprocesador de la CPU principal, o host. En otras palabras, los datos paralelos, cálculo intensivo de porciones de aplicaciones ejecutándose en el host son cargados en el device. De forma más precisa, una parte de una aplicación que se ejecuta muchas veces, pero con datos diferentes e independientes, puede ser aislada en una función que es ejecutada en el device como muchos hilos independientes. Como dicha función es compilada, la instrucción obtenida a partir del device (en nuestro caso, la GPU) y el programa resultante, llamado kernel, se descargan en el device. Tanto el host como el device mantienen su propia DRAM, referidas como memoria del host y memoria del device respectivamente. Una puede copiar datos de una memoria a la otra a través de llamadas a una API optimizada, que usa el Acceso Directo a Memoria (DMA) del device [23]. Hilos, Bloques y Grids El tratamiento por lotes de los hilos que ejecuta el kernel está organizado como un grid de bloques de hilos, ilustrado en la figura 3.9. Un bloque de hilos es un lote de hilos que pueden cooperar juntos compartiendo datos eficientemente a través de la memoria compartida y sincronizar sus ejecuciones para coordinar los accesos a memoria. De forma precisa, uno puede especificar puntos de sincronización en el kernel, donde los hilos en un bloque están suspendidos hasta que todos ellos alcancen el punto de sincronización. Cada hilo es identificado por su identificador de hilo (thread ID), que es el número de hilo dentro de un bloque [23]. Hay un número máximo de hilos que un bloque puede contener (512 hilos concretamente). Sin embargo, los bloques de misma dimensión y tamaño que ejecutan el mismo kernel pueden ser tratados por lotes de forma conjunta, en un grid de bloques, así que el número total de hilos puede ser lanzado en una única invocación del kernel es mucho más grande. Esto se debe al gasto de reducir la cooperación entre hilos, porque los hilos en diferentes bloques del mismo grid no pueden comunicarse ni sincronizarse con los de los demás. Este modelo permite a los kernels ejecutarse eficientemente sin recompilación en varios devices con diferentes capacidades paralelas: un device puede ejecutar todos los bloques de un grid secuencialmente si tiene poca capacidad, o en paralelo si tiene mucha, o Trabajo Fin de Máster -35- Sergio Bernabé García
Page 1 and 2: UNIVERSIDAD DE EXTREMADURA Escuela
Page 3 and 4: Implementación en GPU del algoritm
Page 33: Implementación en GPU del algoritm
Page 85 and 86:
Implementación en GPU del algoritm
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96:
Page 97 and 98:
Page 99 and 100:
Page 101 and 102:
Page 103 and 104:
show all

Implementación en GPU del algoritmo K-Means para ... - UMBC

Create successful ePaper yourself

Delete template?

Save as template?