Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Антон</strong> <strong>Джораев</strong>, <strong>NVIDIA</strong><br />
1
Гетерогенные вычисления<br />
CPU<br />
GPU<br />
Ускорение<br />
АКСЕЛЕРАТОР:<br />
Сочетание GPU и CPU ускоряет<br />
приложения до 10-ков раз
Минимальное портирование для<br />
значительного ускорения<br />
Только критические<br />
Код приложения<br />
GPU функции<br />
CPU код CPU<br />
Параллелизация<br />
в соответствии<br />
с программной<br />
моделью CUDA<br />
Весь остальной<br />
последовательный
3 способа получить ускорение<br />
Приложение<br />
Библиотеки Директивы<br />
Языки<br />
программирования<br />
Самый простой путь для 2-10 кратного ускорения Максимум<br />
производительности
Директивы: добавление одной строки<br />
CPU GPU<br />
main() {<br />
…<br />
<br />
…<br />
#pragma acc region<br />
{<br />
<br />
}<br />
…<br />
}<br />
Исходный код<br />
на C/Fortran<br />
Метки для<br />
компилятора<br />
Добавляются только метки<br />
Простой путь к параллелилизму<br />
Компилятор параллелизует код<br />
Работает на многоядерных CPU и<br />
массивно параллельных GPU
В 2 раза за 4 недели. Гарантировано.<br />
Бесплатная 30-дневная лицензия PGI Accelerator*<br />
+ поддержка.<br />
www.nvidia.com/2xin4weeks<br />
*для 1000 разработчиков
Программно-аппаратная архитектура для<br />
параллельных вычислений
Что использовать - CUDA или OpenCL?<br />
CUDA<br />
Процессоры <strong>NVIDIA</strong> (решения Cray, HP, IBM, T-Platforms, NextIO…)<br />
Производительность<br />
Функциональность<br />
Удобство разработки<br />
Поддержка<br />
Учебные материалы и библиотеки<br />
OpenCL<br />
Архитектура не фиксирована, требуется универсальность<br />
Производительность не приоритетна
<strong>NVIDIA</strong> открыла платформу CUDA<br />
Исходный код компилятора<br />
CUDA для исследователей и<br />
разработчиков инструментов<br />
Поддержка<br />
Новых языков<br />
Новых процессоров<br />
Доступ<br />
http://developer.nvidia.com/cuda-source<br />
<strong>NVIDIA</strong> PGI<br />
C C++ Fortran<br />
Новые языки<br />
CUDA компилятор<br />
LLVM<br />
<strong>NVIDIA</strong><br />
GPUs<br />
x86<br />
CPUs<br />
Новые<br />
процессоры
Вычисления на GPU в цифрах:<br />
>350,000,000<br />
>1,000,000<br />
>120,000<br />
>450<br />
100%<br />
CUDA GPU<br />
Скачиваний набора для разработчиков<br />
Активных CUDA разработчиков<br />
Университетов преподают CUDA<br />
OEM предлагают решения с CUDA GPU / Tesla<br />
11
Курс по архитектуре CUDA в<br />
200 университетах в Китае<br />
“<br />
20,000 студентов<br />
ежегодно<br />
Модель параллельного программирования CUDA позволяет<br />
нам учить будущих инженеров и исследователей создавать<br />
инновации за счет использования мощи современных<br />
параллельных процессоров.<br />
”<br />
Профессор Steve Deng<br />
Университет Цинхуа
GPU для сейсмоанализа (HESS)<br />
Global Tier 1 RTM<br />
Seismic Contractor<br />
Время моделирования 7 дней вместо 28 дней<br />
Расходы на обеспечение 75% экономия<br />
Общее число Tesla GPU<br />
тысячи
Обработка спутниковых<br />
изображений<br />
Машинное<br />
зрение<br />
Видео аналитика<br />
Гидро- газодинамика<br />
GPU для государственных нужд<br />
Обработка<br />
сигналов<br />
Электромагнетизм
GPU для финансового сектора<br />
Бонды<br />
2 часа вместо 16 часов<br />
Страхование<br />
Минуты вместо дней<br />
Капитализация<br />
В 10 раз меньше энергии<br />
Опционы<br />
В 70 раз быстрее
GPU ускоряет естественные науки<br />
Секвенирование<br />
генов<br />
Анализ цепочек Молекулярное<br />
моделирование<br />
Медицинская<br />
визуализация
Инженерные расчеты на GPU<br />
• ANSYS Mechanical<br />
• Abaqus/Standard (Silmulia)<br />
• MSC Nastran<br />
• Matlab<br />
• CST Microwave Studio<br />
Ускорение моделирования = больше итераций = выше качество и надежность<br />
Меньше отказов у клиентов / меньше отзывов
MATLAB<br />
MATLAB R2011b<br />
Критическая масса функционала уже на GPU<br />
Преимущества<br />
177 функций портированны на GPU (из ~250)<br />
• Random number generation<br />
• FFT<br />
• Matrix multiplications<br />
• Solvers<br />
• Convolutions<br />
• Min/max<br />
Поддержка компилятора MATLAB<br />
GPU функционал в Communications Systems Toolbox<br />
Дальнейшее повышение производительности<br />
Фокусный рынок: наука, исследования и ...<br />
• SVD<br />
• Cholesky and LU<br />
factorization<br />
18
#2 : Tianhe-1A<br />
7168 Tesla GPU’s 2.5 PFLOPS<br />
GPU Tesla в основе 3 из Top 5 СК<br />
#4 : Nebulae<br />
4650 Tesla GPU’s 1.2 PFLOPS<br />
#5 : Tsubame 2.0<br />
4224 Tesla GPU’s 1.194 PFLOPS<br />
“ Мы не только создали самый быстрый компьютер, но так же<br />
внедрили гетерогенную вычислительную архитектуру, использующую<br />
CPU и GPU, это действительно инновация. ” Премьер министр Вен Цзябао<br />
Публичный комментарий Tianhe-1A<br />
19
Топ50 – РФ и СНГ. Интересные факты<br />
• 12 кластеров на базе <strong>NVIDIA</strong> Tesla<br />
• 5 систем из Toп10, включая № 1 и 2<br />
12 GPU-систем обеспечивают 61% суммарной пиковой<br />
производительности списка Топ50 и 53% Linpack
В 8 раз лучше результат по Linpack<br />
CPU 1U Server: 2x Intel Xeon X5550 (Nehalem) 2.66 GHz, 48 GB memory, $7K, 0.55 kw<br />
GPU-CPU 1U Server: 2x Tesla C2050 + 2x Intel Xeon X5550, 48 GB memory, $11K, 1.0 kw<br />
21
Два суперкомпьютера, построенных одновременно<br />
Tsubame 2.0<br />
4,224 Tesla GPUs + 2,816 x86 CPUs 12,784 x86 CPUs<br />
1.4 МВт<br />
Самый зеленый петафлопсный СК<br />
Hopper-NERSC<br />
2.9 МВт<br />
22
Экзаскейл сегодня с CPU<br />
DATA: U.S. Dept. of Energy<br />
2 Гигаватта<br />
Hoover Dam<br />
23
CARMA - набор для разработчиков CUDA для ARM<br />
Tegra 3 Quad-core ARM A9<br />
Quadro 1000M (96 CUDA cores)<br />
Ubuntu<br />
CUDA GPU Tegra ARM CPU<br />
Gigabit Ethernet<br />
SATA Connector<br />
HDMI, DisplayPort, USB<br />
24
DP GFLOPS per Watt<br />
16<br />
14<br />
12<br />
10<br />
8<br />
6<br />
4<br />
2<br />
Tesla: в 2-3 раза быстрее каждые 2 года<br />
T10<br />
Fermi<br />
Kepler<br />
Maxwell<br />
2008 2010 2012 2014
Параллелизм – это просто<br />
GPU доступны<br />
Путь к Exascale<br />
Заключение<br />
Директивы OpenACC:<br />
Просто, быстро, удобно<br />
Increase<br />
GPU делают<br />
Effectiveness<br />
доступными<br />
&<br />
Efficiency<br />
суперкомпьютерные<br />
вычисления<br />
Суперкомпьютеры на базе<br />
ARM CPU + CUDA GPU<br />
26
Курс по программированию GPU<br />
Время: 11-13 апреля<br />
Место: Сибирский Суперкомпьютерный Центр<br />
Increase Effectiveness &<br />
Efficiency<br />
Регистрация и программа будет размещены на<br />
www.sscc.ru<br />
27
Спасибо за внимание<br />
<strong>Антон</strong> <strong>Джораев</strong><br />
adzhoraev@nvidia.com
Решения Tesla для рабочих станций и ЦОД<br />
Tesla M-series GPUs<br />
M2090 | M2075<br />
Серверы & блейды<br />
M2090 M2075<br />
Кол-во ядер 512 448<br />
Объем памяти 6 GB 6 GB<br />
Пс памяти<br />
(ECC откл)<br />
Пиковая<br />
произв<br />
Gflops<br />
Одинарная<br />
точность<br />
Двойная<br />
точность<br />
177.6 GB/s 150 GB/s<br />
1331 1030<br />
665 515<br />
Tesla C-series GPUs<br />
C2075<br />
Рабочие станции<br />
C2075<br />
448<br />
6 GB<br />
148.8<br />
GB/s<br />
1030<br />
515
Технологическая конференция по GPU<br />
14-17 мая 2012 | Сан Хосе, Калифорния<br />
Одно из мероприятий, которое нельзя пропустить<br />
� Передовые достижения в области вычислений на GPU<br />
� Новые научные и коммерческие приложения<br />
� Лучшие умы в области параллельных вычислений<br />
� Самые инновационные продукты и решения<br />
Способы участия<br />
� Докладчик – презентация полученных результатов<br />
� Посетитель – общение с экспертами и коллегами из вашей предметной области<br />
� Участник/стенд – реклама вашей организации, как ключевого игрока в экосистеме GPU<br />
www.gputechconf.com
Будущее сегодня<br />
Система Titan в лаборатории Oak Ridge<br />
18,000 GPU Tesla<br />
20+ петафлопс<br />
~90% флопс дают GPU<br />
В 2 раза быстрее, в 3 раза энергоэффективнее,<br />
чем текущий #1 (K Computer)
Первая в мире полная симуляция<br />
вируса H1N1<br />
Точная полная модель<br />
Лучшее понимание природы вируса<br />
Mole-8.5<br />
GPU суперкомпьютер<br />
в CAS-IPE<br />
32