universidade feevale douglas neves spindler algoritmos para ...

More documents

Recommendations

Info

48 Conforme já citado, os kernels são rotinas que são executadas paralelamente por diversas threads nos núcleos da GPU. A definição de um kernel é feita simplesmente com a adição da palavra-chave __global__ antes do nome da rotina. Além desta, duas outras palavras-chave são utilizadas em CUDA C de modo a definir onde uma rotina deve ser executada. Um resumo destas palavras-chave é exibido no quadro abaixo: Palavra-chave Executada no Chamada apenas pelo __global__ Dispositivo Host __device__ Dispositivo Dispositivo __host__ Host Host Quadro 3 – Palavras-chave para definição de um kernel. Fonte: Adaptado de Kirk e Hwu (2010, p. 52). Visto que todas as threads de um kernel executam a mesma porção de código, faz-se necessário um modo de distingui-las, de modo que cada uma acesse e processe as porções de dados às quais cada uma está destinada. Para tanto, CUDA provê variáveis que identificam os índices e das threads e blocos. Esta identificação é feita usando as variáveis blockIdx (para o índice do bloco) e threadIdx (para o índice da thread). Além disso, são disponibilizadas as variáveis gridDim e blockDim com os valores da dimensão da grade e de cada bloco, respectivamente (KIRK E HWU, 2010). Ainda conforme os autores (2010), ao iniciar-se um kernel deve-se informar os parâmetros referentes à configuração de execução deste. O primeiro parâmetro se refere à dimensão da grade em termos de número de blocos, enquanto o segundo parâmetro informa as dimensões de cada bloco em termos de número de threads. Cada um destes parâmetros é do tipo dim3, o qual é uma estrutura composta por três campos do tipo inteiro sem sinal: x, y e z. Visto que grades possuem uma estrutura bidimensional, o terceiro parâmetro é ignorado ao se especificar o tamanho da mesma. A figura a seguir ilustra um exemplo de configuração de um kernel, composto por uma grade de 4 blocos e cada bloco contendo 16 threads: Figura 17 – Exemplo de chamada de um kernel. Fonte: Kirk e Hwu (2010 p. 62).
49 4.2 WARPS Quando um kernel é chamado, o multiprocessador cria, gerencia, agenda e executa as threads em grupos, geralmente compostos de 32, chamados warps. Farber (2011) cita que o warp é a unidade básica de escalonamento de processos dentro de um SM. Esta organização é necessária para reduzir os efeitos de algumas limitações de hardware, especialmente para otimizar os acessos à memória. A estratégia de agrupar threads em warps permite que os processadores em um dispositivo CUDA executem operações de longa latência de forma eficiente, quando há um número adequado de warps. Isto se deve ao fato de que CUDA possui um mecanismo de escalonamento que “preenche” as latências de operações muito custosas com operações de outros warps. Esta é a principal razão pela qual as GPUs não possuem tanta área de seus chips dedicadas a memória cache ou mecanismos de predição de desvios como as CPUs, o que permite que as GPUs dediquem mais área a suas unidades de cálculo de ponto-flutuante (KIRK E HWU, 2010). Dado que um warp executa uma instrução por vez, a eficiência ótima é alcançada apenas quando todas as threads de um warp percorrem o mesmo caminho de execução. Ou seja, caso haja divergência na execução das threads, por exemplo, devido a desvios condicionais, o warp é executado de maneira sequencial, percorrendo cada caminho do desvio, para que apenas ao final as threads convirjam novamente ao mesmo caminho de execução (NVIDIA, 2010a). Projetar a aplicação de forma a tentar evitar ao máximo divergências dentro dos warps caracteriza um grande desafio, mesmo que muitas vezes não há como eliminar completamente tais divergências. 4.3 MEMÓRIAS Para fazer uso eficiente do poder computacional da arquitetura CUDA, é necessário utilizar apropriadamente a memória do dispositivo, para que esta não seja um fator limitador de desempenho nas aplicações. Kirk e Hwu (2010) comentam que um dos principais gargalos no desempenho de uma aplicação CUDA é gerado devido ao mau uso desta memória, especialmente a memória global. Tal memória, pelo fato de ser geralmente construída utilizando-se memória dinâmica de acesso aleatório (DRAM), tende a possuir altas latências e
Page 1 and 2: UNIVERSIDADE FEEVALE DOUGLAS NEVES
Page 3 and 4: DOUGLAS NEVES SPINDLER Trabalho de
Page 5 and 6: ABSTRACT The advent of multi-core p
Page 7 and 8: LISTA DE QUADROS Quadro 1 - Configu
Page 9 and 10: LISTA DE ABREVIATURAS E SIGLAS AMD
Page 11 and 12: INTRODUÇÃO A indústria de microp
Page 13 and 14: 13 algoritmos para geração de fra
Page 15 and 16: 15 F tem, muitas vezes, alguma for
Page 17 and 18: 17 um vetor de valores de amostrage
Page 19 and 20: 19 Figura 2 - Transposição do pla
Page 21 and 22: 21 então aplicada sobre cada pixel
Page 23 and 24: 23 Figura 4 - O conjunto de Mandelb
Page 25 and 26: 25 Figura 6 - Conjunto de Julia em
Page 27 and 28: 27 O IFS descrito acima define o tr
Page 29 and 30: 29 Figura 8 - Um fractal do tipo fl
Page 31 and 32: 31 (8) onde a, b, c e d são númer
Page 33 and 34: 33 2 PROGRAMAÇÃO PARALELA A ideia
Page 35 and 36: 35 inicialmente projetada por um am
Page 37 and 38: 37 Figura 11 - Exemplo de execuçã
Page 39 and 40: 39 particionadas, o que faz com que
Page 41 and 42: 41 necessário transformar o proble
Page 43 and 44: 43 3.2 AMD ACCELERATED PARALLEL PRO
Page 45 and 46: 45 possui 32kB para instruções e
Page 47: 47 Aparentemente não existe um con
Page 51 and 52: 51 alcançado quando os dados estã
Page 53 and 54: 53 maior são baseados na mesma arq
Page 55 and 56: 55 através do programa Device Quer
Page 57 and 58: 57 ( ) ( ) ( ) (11) ( ) ( ) (12) (1
Page 59 and 60: 59 que é necessário para a execu
Page 61 and 62: 61 milissegundos. Estas médias, pa
Page 63 and 64: 63 Dimensões da imagem Função 25
Page 65 and 66: Tempo (ms) 65 8000 7000 6000 5000 4
Page 67 and 68: 67 Os tempos obtidos durante estas
Page 69 and 70: 69 dynamic alcançam níveis de des
Page 71 and 72: 71 estas execuções são longas de
Page 73 and 74: 73 De posse do aumento de desempenh
Page 75 and 76: 75 Em comparação com as execuçõ
Page 77 and 78: Speedup 77 3,5 3 2,5 2 1,5 1 0,5 25
Page 79 and 80: 79 As execuções com CUDA, em comp
Page 81 and 82: 81 um hardware com latências de me
Page 83 and 84: 83 O terceiro e quarto capítulos r
Page 85 and 86: REFERÊNCIAS BIBLIOGRÁFICAS ADDISO
Page 87 and 88: 87 MICROSOFT. About timers. 2012. D
Page 89 and 90: 89 APÊNDICE APÊNDICE A - KERNELS
Page 91 and 92: 91 int y = blockDim.y * blockIdx.y
Page 93 and 94: 93 boolean openmp. A diretiva paral

universidade feevale douglas neves spindler algoritmos para ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?