universidade feevale douglas neves spindler algoritmos para ...

More documents

Recommendations

Info

44 CAL interage com os stream processors – nome dado aos processadores do dispositivo que executam os kernels – como estes sendo uma matriz de processadores SIMD (Single Instruction, Multiple Data), cada um operando independente e paralelamente sobre os fluxos de dados. 3.3 INTEL LARRABEE Larrabee é o codinome da arquitetura many-core apresentada pela empresa Intel, baseada em uma versão estendida do conjunto de instruções x86, para computação gráfica e de alto desempenho. Glaskowsky (2008) define a arquitetura como sendo basicamente um modelo que utiliza múltiplos núcleos x86, como os de uma CPU, para implementar um processador gráfico. A principal motivação por trás deste conceito é prover uma solução mais flexível que as GPUs existentes. Para Seiler et al. (2008), a programabilidade de GPUs para computações de propósito geral é restrita devido a limitações no modelo de memória e pelos blocos de funções fixas que controlam as threads executando paralelamente. Deste modo, esta flexibilidade, conforme Seiler et al. (2008), é alcançada na arquitetura Larrabee por meio de suporte a sub-rotinas e page faults (faltas de página), além do fato de que algumas operações que tradicionalmente são realizadas pelas GPUs são executadas inteiramente em software com Larrabee, como rasterização de imagens e postshader blending. Glaskowsky (2008), entretanto, não vê este fato como sendo um ponto a favor da arquitetura, afirmando que uma solução baseada em software certamente consumirá mais recursos computacionais. Seiler et al. (2008) ainda definem a arquitetura como sendo derivada dos processadores Pentium, com seus processadores executando em ordem. Os núcleos de processamento foram aumentados com unidades de processamento vetorial. Cada núcleo possui apenas duas unidades de execução: uma para instruções escalares e outra para vetoriais. Em comparação com CPUs quad-core, com mais de seis unidades de execução, esta é uma redução significativa de complexidade, o que torna a arquitetura adequada para processamento linear e com código previsível (GLASKOWSKY, 2008). Além disso, cada núcleo acessa subconjuntos próprios de 256kB de cache de nível L2 coerente. A cache L1
45 possui 32kB para instruções e mais 32kB para dados. A Figura 15 mostra os blocos de execução de um núcleo Larrabee: Figura 15 – Núcleo de um processador Larrabee Fonte: Seiler et al. (2008, p. 3). O modelo de programação para a arquitetura da Intel se chama Larrabee Native. Segundo Seiler et al. (2008), este modelo assemelha-se ao já utilizado para programação para arquiteturas multi-core x86. Ainda, Larrabee Native proporciona um compilador C/C++ que compila os programas para o conjunto de instruções x86 utilizado pela arquitetura. Desta forma, muitas das aplicações escritas nessas linguagens podem ser recompiladas para o uso com Larrabee sem necessitarem de nenhuma modificação, o que por si só já traz ganhos enormes de produtividade para os desenvolvedores (SEILER et al., 2008). O projeto, entretanto, foi cancelado em 2010. A empresa anunciou que não traria um produto discreto para gráficos ao mercado em curto prazo (SMITH, 2010). Apesar disso, algumas ideias foram reaproveitadas em outros desenvolvimentos, como a arquitetura MIC e a família de processadores Knight‟s Ferry. Esta seção finaliza a apresentação dos principais modelos de programação com GPUs. O próximo capítulo é destinado à apresentação do modelo de programação e arquitetura CUDA, escolhido para o desenvolvimento deste trabalho.
Page 1 and 2: UNIVERSIDADE FEEVALE DOUGLAS NEVES
Page 3 and 4: DOUGLAS NEVES SPINDLER Trabalho de
Page 5 and 6: ABSTRACT The advent of multi-core p
Page 7 and 8: LISTA DE QUADROS Quadro 1 - Configu
Page 9 and 10: LISTA DE ABREVIATURAS E SIGLAS AMD
Page 11 and 12: INTRODUÇÃO A indústria de microp
Page 13 and 14: 13 algoritmos para geração de fra
Page 15 and 16: 15 F tem, muitas vezes, alguma for
Page 17 and 18: 17 um vetor de valores de amostrage
Page 19 and 20: 19 Figura 2 - Transposição do pla
Page 21 and 22: 21 então aplicada sobre cada pixel
Page 23 and 24: 23 Figura 4 - O conjunto de Mandelb
Page 25 and 26: 25 Figura 6 - Conjunto de Julia em
Page 27 and 28: 27 O IFS descrito acima define o tr
Page 29 and 30: 29 Figura 8 - Um fractal do tipo fl
Page 31 and 32: 31 (8) onde a, b, c e d são númer
Page 33 and 34: 33 2 PROGRAMAÇÃO PARALELA A ideia
Page 35 and 36: 35 inicialmente projetada por um am
Page 37 and 38: 37 Figura 11 - Exemplo de execuçã
Page 39 and 40: 39 particionadas, o que faz com que
Page 41 and 42: 41 necessário transformar o proble
Page 43: 43 3.2 AMD ACCELERATED PARALLEL PRO
Page 47 and 48: 47 Aparentemente não existe um con
Page 49 and 50: 49 4.2 WARPS Quando um kernel é ch
Page 51 and 52: 51 alcançado quando os dados estã
Page 53 and 54: 53 maior são baseados na mesma arq
Page 55 and 56: 55 através do programa Device Quer
Page 57 and 58: 57 ( ) ( ) ( ) (11) ( ) ( ) (12) (1
Page 59 and 60: 59 que é necessário para a execu
Page 61 and 62: 61 milissegundos. Estas médias, pa
Page 63 and 64: 63 Dimensões da imagem Função 25
Page 65 and 66: Tempo (ms) 65 8000 7000 6000 5000 4
Page 67 and 68: 67 Os tempos obtidos durante estas
Page 69 and 70: 69 dynamic alcançam níveis de des
Page 71 and 72: 71 estas execuções são longas de
Page 73 and 74: 73 De posse do aumento de desempenh
Page 75 and 76: 75 Em comparação com as execuçõ
Page 77 and 78: Speedup 77 3,5 3 2,5 2 1,5 1 0,5 25
Page 79 and 80: 79 As execuções com CUDA, em comp
Page 81 and 82: 81 um hardware com latências de me
Page 83 and 84: 83 O terceiro e quarto capítulos r
Page 85 and 86: REFERÊNCIAS BIBLIOGRÁFICAS ADDISO
Page 87 and 88: 87 MICROSOFT. About timers. 2012. D
Page 89 and 90: 89 APÊNDICE APÊNDICE A - KERNELS
Page 91 and 92: 91 int y = blockDim.y * blockIdx.y
Page 93 and 94: 93 boolean openmp. A diretiva paral

universidade feevale douglas neves spindler algoritmos para ...

Create successful ePaper yourself

Delete template?

Save as template?