20.01.2013 Views

Антон Джораев, NVIDIA

Антон Джораев, NVIDIA

Антон Джораев, NVIDIA

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Антон</strong> <strong>Джораев</strong>, <strong>NVIDIA</strong><br />

1


Гетерогенные вычисления<br />

CPU<br />

GPU<br />

Ускорение<br />

АКСЕЛЕРАТОР:<br />

Сочетание GPU и CPU ускоряет<br />

приложения до 10-ков раз


Минимальное портирование для<br />

значительного ускорения<br />

Только критические<br />

Код приложения<br />

GPU функции<br />

CPU код CPU<br />

Параллелизация<br />

в соответствии<br />

с программной<br />

моделью CUDA<br />

Весь остальной<br />

последовательный


3 способа получить ускорение<br />

Приложение<br />

Библиотеки Директивы<br />

Языки<br />

программирования<br />

Самый простой путь для 2-10 кратного ускорения Максимум<br />

производительности


Директивы: добавление одной строки<br />

CPU GPU<br />

main() {<br />

…<br />

<br />

…<br />

#pragma acc region<br />

{<br />

<br />

}<br />

…<br />

}<br />

Исходный код<br />

на C/Fortran<br />

Метки для<br />

компилятора<br />

Добавляются только метки<br />

Простой путь к параллелилизму<br />

Компилятор параллелизует код<br />

Работает на многоядерных CPU и<br />

массивно параллельных GPU


В 2 раза за 4 недели. Гарантировано.<br />

Бесплатная 30-дневная лицензия PGI Accelerator*<br />

+ поддержка.<br />

www.nvidia.com/2xin4weeks<br />

*для 1000 разработчиков


Программно-аппаратная архитектура для<br />

параллельных вычислений


Что использовать - CUDA или OpenCL?<br />

CUDA<br />

Процессоры <strong>NVIDIA</strong> (решения Cray, HP, IBM, T-Platforms, NextIO…)<br />

Производительность<br />

Функциональность<br />

Удобство разработки<br />

Поддержка<br />

Учебные материалы и библиотеки<br />

OpenCL<br />

Архитектура не фиксирована, требуется универсальность<br />

Производительность не приоритетна


<strong>NVIDIA</strong> открыла платформу CUDA<br />

Исходный код компилятора<br />

CUDA для исследователей и<br />

разработчиков инструментов<br />

Поддержка<br />

Новых языков<br />

Новых процессоров<br />

Доступ<br />

http://developer.nvidia.com/cuda-source<br />

<strong>NVIDIA</strong> PGI<br />

C C++ Fortran<br />

Новые языки<br />

CUDA компилятор<br />

LLVM<br />

<strong>NVIDIA</strong><br />

GPUs<br />

x86<br />

CPUs<br />

Новые<br />

процессоры


Вычисления на GPU в цифрах:<br />

>350,000,000<br />

>1,000,000<br />

>120,000<br />

>450<br />

100%<br />

CUDA GPU<br />

Скачиваний набора для разработчиков<br />

Активных CUDA разработчиков<br />

Университетов преподают CUDA<br />

OEM предлагают решения с CUDA GPU / Tesla<br />

11


Курс по архитектуре CUDA в<br />

200 университетах в Китае<br />

“<br />

20,000 студентов<br />

ежегодно<br />

Модель параллельного программирования CUDA позволяет<br />

нам учить будущих инженеров и исследователей создавать<br />

инновации за счет использования мощи современных<br />

параллельных процессоров.<br />

”<br />

Профессор Steve Deng<br />

Университет Цинхуа


GPU для сейсмоанализа (HESS)<br />

Global Tier 1 RTM<br />

Seismic Contractor<br />

Время моделирования 7 дней вместо 28 дней<br />

Расходы на обеспечение 75% экономия<br />

Общее число Tesla GPU<br />

тысячи


Обработка спутниковых<br />

изображений<br />

Машинное<br />

зрение<br />

Видео аналитика<br />

Гидро- газодинамика<br />

GPU для государственных нужд<br />

Обработка<br />

сигналов<br />

Электромагнетизм


GPU для финансового сектора<br />

Бонды<br />

2 часа вместо 16 часов<br />

Страхование<br />

Минуты вместо дней<br />

Капитализация<br />

В 10 раз меньше энергии<br />

Опционы<br />

В 70 раз быстрее


GPU ускоряет естественные науки<br />

Секвенирование<br />

генов<br />

Анализ цепочек Молекулярное<br />

моделирование<br />

Медицинская<br />

визуализация


Инженерные расчеты на GPU<br />

• ANSYS Mechanical<br />

• Abaqus/Standard (Silmulia)<br />

• MSC Nastran<br />

• Matlab<br />

• CST Microwave Studio<br />

Ускорение моделирования = больше итераций = выше качество и надежность<br />

Меньше отказов у клиентов / меньше отзывов


MATLAB<br />

MATLAB R2011b<br />

Критическая масса функционала уже на GPU<br />

Преимущества<br />

177 функций портированны на GPU (из ~250)<br />

• Random number generation<br />

• FFT<br />

• Matrix multiplications<br />

• Solvers<br />

• Convolutions<br />

• Min/max<br />

Поддержка компилятора MATLAB<br />

GPU функционал в Communications Systems Toolbox<br />

Дальнейшее повышение производительности<br />

Фокусный рынок: наука, исследования и ...<br />

• SVD<br />

• Cholesky and LU<br />

factorization<br />

18


#2 : Tianhe-1A<br />

7168 Tesla GPU’s 2.5 PFLOPS<br />

GPU Tesla в основе 3 из Top 5 СК<br />

#4 : Nebulae<br />

4650 Tesla GPU’s 1.2 PFLOPS<br />

#5 : Tsubame 2.0<br />

4224 Tesla GPU’s 1.194 PFLOPS<br />

“ Мы не только создали самый быстрый компьютер, но так же<br />

внедрили гетерогенную вычислительную архитектуру, использующую<br />

CPU и GPU, это действительно инновация. ” Премьер министр Вен Цзябао<br />

Публичный комментарий Tianhe-1A<br />

19


Топ50 – РФ и СНГ. Интересные факты<br />

• 12 кластеров на базе <strong>NVIDIA</strong> Tesla<br />

• 5 систем из Toп10, включая № 1 и 2<br />

12 GPU-систем обеспечивают 61% суммарной пиковой<br />

производительности списка Топ50 и 53% Linpack


В 8 раз лучше результат по Linpack<br />

CPU 1U Server: 2x Intel Xeon X5550 (Nehalem) 2.66 GHz, 48 GB memory, $7K, 0.55 kw<br />

GPU-CPU 1U Server: 2x Tesla C2050 + 2x Intel Xeon X5550, 48 GB memory, $11K, 1.0 kw<br />

21


Два суперкомпьютера, построенных одновременно<br />

Tsubame 2.0<br />

4,224 Tesla GPUs + 2,816 x86 CPUs 12,784 x86 CPUs<br />

1.4 МВт<br />

Самый зеленый петафлопсный СК<br />

Hopper-NERSC<br />

2.9 МВт<br />

22


Экзаскейл сегодня с CPU<br />

DATA: U.S. Dept. of Energy<br />

2 Гигаватта<br />

Hoover Dam<br />

23


CARMA - набор для разработчиков CUDA для ARM<br />

Tegra 3 Quad-core ARM A9<br />

Quadro 1000M (96 CUDA cores)<br />

Ubuntu<br />

CUDA GPU Tegra ARM CPU<br />

Gigabit Ethernet<br />

SATA Connector<br />

HDMI, DisplayPort, USB<br />

24


DP GFLOPS per Watt<br />

16<br />

14<br />

12<br />

10<br />

8<br />

6<br />

4<br />

2<br />

Tesla: в 2-3 раза быстрее каждые 2 года<br />

T10<br />

Fermi<br />

Kepler<br />

Maxwell<br />

2008 2010 2012 2014


Параллелизм – это просто<br />

GPU доступны<br />

Путь к Exascale<br />

Заключение<br />

Директивы OpenACC:<br />

Просто, быстро, удобно<br />

Increase<br />

GPU делают<br />

Effectiveness<br />

доступными<br />

&<br />

Efficiency<br />

суперкомпьютерные<br />

вычисления<br />

Суперкомпьютеры на базе<br />

ARM CPU + CUDA GPU<br />

26


Курс по программированию GPU<br />

Время: 11-13 апреля<br />

Место: Сибирский Суперкомпьютерный Центр<br />

Increase Effectiveness &<br />

Efficiency<br />

Регистрация и программа будет размещены на<br />

www.sscc.ru<br />

27


Спасибо за внимание<br />

<strong>Антон</strong> <strong>Джораев</strong><br />

adzhoraev@nvidia.com


Решения Tesla для рабочих станций и ЦОД<br />

Tesla M-series GPUs<br />

M2090 | M2075<br />

Серверы & блейды<br />

M2090 M2075<br />

Кол-во ядер 512 448<br />

Объем памяти 6 GB 6 GB<br />

Пс памяти<br />

(ECC откл)<br />

Пиковая<br />

произв<br />

Gflops<br />

Одинарная<br />

точность<br />

Двойная<br />

точность<br />

177.6 GB/s 150 GB/s<br />

1331 1030<br />

665 515<br />

Tesla C-series GPUs<br />

C2075<br />

Рабочие станции<br />

C2075<br />

448<br />

6 GB<br />

148.8<br />

GB/s<br />

1030<br />

515


Технологическая конференция по GPU<br />

14-17 мая 2012 | Сан Хосе, Калифорния<br />

Одно из мероприятий, которое нельзя пропустить<br />

� Передовые достижения в области вычислений на GPU<br />

� Новые научные и коммерческие приложения<br />

� Лучшие умы в области параллельных вычислений<br />

� Самые инновационные продукты и решения<br />

Способы участия<br />

� Докладчик – презентация полученных результатов<br />

� Посетитель – общение с экспертами и коллегами из вашей предметной области<br />

� Участник/стенд – реклама вашей организации, как ключевого игрока в экосистеме GPU<br />

www.gputechconf.com


Будущее сегодня<br />

Система Titan в лаборатории Oak Ridge<br />

18,000 GPU Tesla<br />

20+ петафлопс<br />

~90% флопс дают GPU<br />

В 2 раза быстрее, в 3 раза энергоэффективнее,<br />

чем текущий #1 (K Computer)


Первая в мире полная симуляция<br />

вируса H1N1<br />

Точная полная модель<br />

Лучшее понимание природы вируса<br />

Mole-8.5<br />

GPU суперкомпьютер<br />

в CAS-IPE<br />

32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!