Implementación en GPU del algoritmo K-Means para ... - UMBC

More documents

Recommendations

Info

Implementación en GPU del algoritmo K-Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google Maps Un grid de bloques de hilos se ejecuta en el device mediante la programación de los bloques en cada multiprocesador. Cada multiprocesador procesa los bloques por lotes, un lote tras otro. Un bloque solo se procesa en un multiprocesador, así el espacio de memoria compartida reside en la memoria on-chip compartida por lo que se puede beneficiar de la velocidad que proporciona dicha memoria. El número de bloques que cada multiprocesador puede procesar en un lote depende de cuantos registros necesita cada hilo y de cuanta memoria compartida necesita cada bloque en un kernel ya que estos recursos se deben compartir entre todos los hilos de los bloques del lote. Si no hay una cantidad suficiente de registros o de memoria compartida disponible en un multiprocesador para procesar al menos un bloque, el kernel fallará en su ejecución. Los bloques que se procesan en un multiprocesador en un lote se llaman activos. Cada bloque activo se divide en grupos de hilos SIMD llamados warps. Cada uno de estos warps contiene el mismo número de hilos, este número se llama warp size, y se ejecuta en un multiprocesador en modo SIMD. Los warps activos (los warps de los bloques activos) se dividen en el tiempo: un programador de hilos cambia de un warp a otro para maximizar el uso de recursos computacionales del multiprocesador. Se llama half warp a la primera o a la segunda mitad de un warp. La forma en la que un bloque se divide en warps es siempre la misma; cada warp contiene hilos consecutivos, incrementando sus identificadores de hilo (thread ID). El primer warp contiene al hilo 0. El orden de emisión de los warps de un bloque no está definido y no existe un mecanismo de sincronización entre bloques para coordinar los accesos a memoria global o compartida. El orden de emisión de los bloques en un grid de bloques de hilos tampoco está definido y no hay un mecanismo de sincronización entre bloques, así que los hilos de dos bloques diferentes pertenecientes al mismo grid no se pueden comunicar de una forma segura a través de la memoria global durante la ejecución de un grid. Si una instrucción no atómica ejecutada por un warp escribe en la misma Trabajo Fin de Máster -40- Sergio Bernabé García
Implementación en GPU del algoritmo K-Means para procesamiento paralelo de imágenes de satélite disponibles en la herramienta Google Maps posición ya sea de memoria global o compartida por más de un hilo de warp, el número de de escrituras serializadas que ocurran en esa posición así como el orden de las escrituras es indefinido, pero se garantiza que al menos una escritura tenga éxito. Si una instrucción atómica ejecutada por un warp lee, modifica o escribe en una posición de memoria ya sea global o compartida por más de un hilo del warp, cada lectura, modificación o escritura en la posición ocurre de forma serializada aunque el orden es indefinido. Especificaciones generales A continuación en la tabla 3.3 se listan una serie de especificaciones generales que se deben tener en cuenta a la hora de programar una GPU con CUDA para lograr una ejecución más eficiente en función de la capacidad de cómputo (Compute capability) de la GPU. Parámetro Valor según gener. CPU CUDA Compute Capabilities 1.0 y 1.1 1.2 y 1.3 Fermi Limitación Impacto Multiprocesadores / GPU 16 30 16 HW. Escalabilidad Procesadores / Multiprocesador 8 8 32 HW. Escalabilidad Hilos / Warp 32 32 32 SW. Throughput Bloques de hilos / Multiprocesador 8 8 8 SW. Throughput Hilos / Bloque 512 512 512 SW. Paralelismo Hilos / Multiprocesador 768 1024 1536 SW. Paralelismo Registros de 32 bits / Multiproc. 8192 16384 4096 HW. Working Set Memoria compartida / Multiproc. 16384 16384 16 K 48 K HW. Working Set Tabla 3.3. Recursos y limitaciones según la GPU que utilicemos para programar CUDA. A continuación en la tabla 3.4 se muestra la capacidad de cómputo y el número de multiprocesadores de cada GPU de NVidia. Trabajo Fin de Máster -41- Sergio Bernabé García
Page 1 and 2: UNIVERSIDAD DE EXTREMADURA Escuela
Page 3 and 4: Implementación en GPU del algoritm
Page 39: Implementación en GPU del algoritm
Page 91 and 92:
Implementación en GPU del algoritm
Page 93 and 94:
Page 95 and 96:
Page 97 and 98:
Page 99 and 100:
Page 101 and 102:
Page 103 and 104:
show all

Implementación en GPU del algoritmo K-Means para ... - UMBC

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?