universidade feevale douglas neves spindler algoritmos para ...

More documents

Recommendations

Info

50 largura de banda limitada – de 177 GB/s, conforme Farber (2011). Assim, uma aplicação que faça uso de muitas threads acessando a memória global pode facilmente congestionar o acesso a esta, acarretando em perda de desempenho. Outro fator limitador de desempenho é a taxa de transferência de dados entre o host e o dispositivo. A NVIDIA (2010b) afirma que o pico da largura de banda entre a memória do dispositivo e a GPU é muito mais alto que o pico da largura de banda entre a memória do host e a memória do dispositivo, com valores de 141 GB/s (para a placa GeForce GTX 280, por exemplo) e 8 GB/s, respectivamente. Esta limitação de 8 GB/s se deve ao pico do barramento PCIe x16 Gen2. Isto demonstra a importância de minimizar tais transferências, mantendo os dados o máximo possível na memória do dispositivo. Para contornar tais problemas, CUDA provê diferentes tipos de memória que podem ser utilizadas para diminuir o tráfego à memória global. Ao alocar uma variável em um destes tipos de memória, define-se a visibilidade, velocidade de acesso, escopo e tempo de vida da mesma. Estas memórias e algumas de suas características são ilustradas no quadro abaixo, e detalhadas na sequência: Memórias na arquitetura CUDA Tipo de memória Localização Cache Acesso Escopo Tempo de vida Registrador No chip Não Leitura/escrita Thread Kernel Local No chip Sim Leitura/escrita Thread Kernel Compartilhada No chip - Leitura/escrita Bloco Kernel Fora do chip (exceto Global se em cache) Sim Leitura/escrita Grade e host Aplicação Fora do chip (exceto Constante se em cache) Sim Leitura Grade e host Aplicação Textura Fora do chip (exceto se em cache) Sim Leitura Grade e host Aplicação Quadro 4 – Características dos diferentes tipos de memória na arquitetura CUDA. Fonte: Adaptado de Kirk e Hwu (2010, p.80) e Farber (2011, p. 116). Farber (2011) comenta a respeito dos diferentes tipos de memória da GPU. A memória global é a maior disponível em um dispositivo CUDA. Entretanto, é também a mais lenta, de modo que a latência de acesso a essa memória pode ser até 600 vezes maior que a de um registrador. Para reduzir os efeitos desta alta latência e minimizar o congestionamento na memória global, o hardware da GPU coalesce os acessos de leitura e escrita. Isto significa que uma única operação é utilizada para retornar os dados de posições consecutivas de memória. Dado que a coalescência é feita por warps, o melhor desempenho é
51 alcançado quando os dados estão organizados na memória de modo que todas as threads em um warp acessem posições sequenciais (KIRK E HWU, 2010). Os registradores compõem a memória mais rápida da GPU, sendo a única com suficiente largura de banda – conforme Farber (2011), aproximadamente 8 TB/s – e latência baixa a ponto de atingir o pico de desempenho. A NVIDIA (2010a) afirma que cada multiprocessador possui um conjunto de registradores de 32 bits que são divididos entre os warps. Geralmente, variáveis declaradas dentro de um kernel são alocadas nos registradores, com exceção de grandes estruturas ou arrays que consumam muito espaço, ou quando o kernel utiliza mais registradores do que há disponíveis no multiprocessador. Nestes casos, o compilador decide alocar os dados na memória local. Entretanto, o número de registradores disponíveis é extremamente reduzido, chegando a apenas 16.384 por multiprocessador em dispositivos com capacidade computacional 1.2. A memória compartilhada pode ser tanto de 16 kB ou 48 kB por multiprocessador, dividida em 32 bancos com largura de 32 bits. Farber (2011) menciona que, ao contrário da documentação inicial da NVIDIA, a memória compartilhada não é tão rápida quanto os registradores. Porém, com largura de banda de aproximadamente 1,6 TB/s, esta memória é quase dez vezes mais rápida que a memória global, o que a torna um excelente recurso para o desenvolvimento das aplicações. Em circunstâncias ideais, 32 threads são capazes de acessar a memória compartilhada paralelamente sem perda de desempenho. A memória constante tem tamanho igual a 64 kB, e sua principal utilização é em situações onde os dados devem ser disponibilizados para leitura a todas as threads. Por isto, é comum que tal memória sirva para armazenar informações de entrada para o processamento a ser feito dentro do kernel (KIRK E HWU, 2010). Ainda conforme os autores, a memória constante provê acesso de baixa latência e alta largura de banda quando todas as threads em um warp acessam um mesmo endereço de memória. Por fim, CUDA provê ainda um tipo adicional de memória, chamada memória de texturas. Conforme a NVIDIA (2010a), a arquitetura fornece um subconjunto do hardware de texturas utilizado pela GPU para gráficos para acessar esta memória. Sanders e Kandrot (2011) mencionam que, visto que tal memória possui um cache dentro do chip, em determinadas situações o uso da mesma trará um aumento de desempenho por necessitar menos acessos à memória do dispositivo. Ainda (2011, p. 116), “os caches de texturas são projetados para aplicações gráficas onde os padrões de acesso à memória exibem uma grande quantidade de localidade espacial”. Isto implica que a memória é otimizada para armazenar em cache os endereços de memória em uma perspectiva 2D, ao invés de prover um padrão de
Page 1 and 2: UNIVERSIDADE FEEVALE DOUGLAS NEVES
Page 3 and 4: DOUGLAS NEVES SPINDLER Trabalho de
Page 5 and 6: ABSTRACT The advent of multi-core p
Page 7 and 8: LISTA DE QUADROS Quadro 1 - Configu
Page 9 and 10: LISTA DE ABREVIATURAS E SIGLAS AMD
Page 11 and 12: INTRODUÇÃO A indústria de microp
Page 13 and 14: 13 algoritmos para geração de fra
Page 15 and 16: 15 F tem, muitas vezes, alguma for
Page 17 and 18: 17 um vetor de valores de amostrage
Page 19 and 20: 19 Figura 2 - Transposição do pla
Page 21 and 22: 21 então aplicada sobre cada pixel
Page 23 and 24: 23 Figura 4 - O conjunto de Mandelb
Page 25 and 26: 25 Figura 6 - Conjunto de Julia em
Page 27 and 28: 27 O IFS descrito acima define o tr
Page 29 and 30: 29 Figura 8 - Um fractal do tipo fl
Page 31 and 32: 31 (8) onde a, b, c e d são númer
Page 33 and 34: 33 2 PROGRAMAÇÃO PARALELA A ideia
Page 35 and 36: 35 inicialmente projetada por um am
Page 37 and 38: 37 Figura 11 - Exemplo de execuçã
Page 39 and 40: 39 particionadas, o que faz com que
Page 41 and 42: 41 necessário transformar o proble
Page 43 and 44: 43 3.2 AMD ACCELERATED PARALLEL PRO
Page 45 and 46: 45 possui 32kB para instruções e
Page 47 and 48: 47 Aparentemente não existe um con
Page 49: 49 4.2 WARPS Quando um kernel é ch
Page 53 and 54: 53 maior são baseados na mesma arq
Page 55 and 56: 55 através do programa Device Quer
Page 57 and 58: 57 ( ) ( ) ( ) (11) ( ) ( ) (12) (1
Page 59 and 60: 59 que é necessário para a execu
Page 61 and 62: 61 milissegundos. Estas médias, pa
Page 63 and 64: 63 Dimensões da imagem Função 25
Page 65 and 66: Tempo (ms) 65 8000 7000 6000 5000 4
Page 67 and 68: 67 Os tempos obtidos durante estas
Page 69 and 70: 69 dynamic alcançam níveis de des
Page 71 and 72: 71 estas execuções são longas de
Page 73 and 74: 73 De posse do aumento de desempenh
Page 75 and 76: 75 Em comparação com as execuçõ
Page 77 and 78: Speedup 77 3,5 3 2,5 2 1,5 1 0,5 25
Page 79 and 80: 79 As execuções com CUDA, em comp
Page 81 and 82: 81 um hardware com latências de me
Page 83 and 84: 83 O terceiro e quarto capítulos r
Page 85 and 86: REFERÊNCIAS BIBLIOGRÁFICAS ADDISO
Page 87 and 88: 87 MICROSOFT. About timers. 2012. D
Page 89 and 90: 89 APÊNDICE APÊNDICE A - KERNELS
Page 91 and 92: 91 int y = blockDim.y * blockIdx.y
Page 93 and 94: 93 boolean openmp. A diretiva paral

universidade feevale douglas neves spindler algoritmos para ...

Create successful ePaper yourself

Delete template?

Save as template?