Память HBM2 – ускоренный обмен данных с применением продуктов Xilinx Alveo

Новая эпоха в сфере обмена данными

Подсистемы памяти часто является самым узким местом по скорости при проектировании аппаратуры с интенсивными потоками пересылаемых данных. Но благодаря появлению двух новых устройств в линейке ускорительных карт Alveo™ от Xilinx (модели Alveo U50 и Alveo U280) с интегрированной широкополосной памятью второго поколения (HBM2), нам удалось устранить это узкое место. Память типа HBM2 представляет собой динамическую память, изготовленную в виде отдельных чипов, монтируемых в виде стека (одна микросхема над другой) внутри микросхемы FPGA. Такой подход способствует снижению энергопотребления и сокращению площади печатной платы. В то же время память HBM2 обеспечивает невероятную пропускную способность – 460 Гбайт/с. Такой пропускной способности достаточно для устранения описанного выше узкого места в работе систем на высоких нагрузках и при решении ресурсоемких задач. Поэтому HBM2 полностью раскрывает невероятные возможности микросхем FPGA в области параллельных вычислений.

Ускоренный обмен данных с применением памяти HBM2 в продуктах Xilinx Alveo U200, U250, U280, U50

Основные преимущества памяти HBM2

  • Более высокая энергоэффективность – потребление около 7 пДж/бит (в 4 раза меньше, чем у DDR4 форм-фактора DIMM).
  • Увеличенная пропускная способность – 460 Гбайт/с (в 20 раз выше, чем пропускная скорость канала памяти DDR4-2400 форм-фактора DIMM).
  • Компактные размеры микросхемы – 12×8 мм (в 45 раз меньше, чем плата памяти DDR4 форм-фактора DIMM, имеющая размеры 133×33 мм).
  • Устойчивая пропускная способность – 32 канала (число каналов в 5,3 раза превышает это же значение у процессоров).

Реальные преимущества использования памяти с пропускной способностью в 460 Гбайт/с в дата-центрах

Возможности большинства современных систем анализа данных ограничены производительностью модуля памяти. СУБД оптимизированы для работы с памятью с возможностью параллельного доступа к данным через несколько каналов одновременно. Например, обычные процессоры Intel содержат всего 6 каналов, в то время как в картах Alveo U280 и U50 обеспечена поддержка 32 каналов памяти. То есть, эти карты содержат в 5,3 раза больше каналов в программируемой матрице, способной поддерживать и обрабатывать непрерывный поток входящих и исходящих данных по всем этим каналам одновременно. Для выполнения требовательных к памяти задач, например, таких как  поиск и хранение ключей, поиск хэшей, сравнение с образцом и многих других, теперь используется большее число каналов, благодаря чему обеспечивается суперлинейное ускорение.

Схема Xilinx Alveo U280, U50

Различия в использовании HBM2 и DDR4 DIMM в ускорительных картах Alveo

На каждый HBM-канал выделено 256 Мбайт памяти. Поэтому максимальный размер объекта буфера, передаваемого хостом, может составлять не более 256 Мбайт на один HBM-канал. Микросхемы FPGA Xilinx содержат AXI-переключатель, обеспечивающий доступ ко всем 8 Гбайт памяти для каждого канала. В сравнении с DDR, здесь поддерживаются буферные объекты размером до 1 Гбайт для заполнения 16 Гб модулей памяти DDR4 форм-фактора DIMM.

 

 

DDR4-2667

HBM2

Описание

Стандартная DRAM память, используемая в серверах и ПК

DRAM память с высокой пропускной способностью, интегрированная внутри микросхемы FPGA

Пропускная способность

21,3 Гбайт/c на DIMM

230 Гбайт/c на стек

Каналов

1 канал

16 псевдо каналов

Типичная плотность

16 Гбайт

4 Гбайт

Цена / Гбайт

$

$$

Площадь на печатной плате

большая (133 × 33 мм)

размер микросхемы (12 × 8 мм)

пДж / бит

~27 (память + I/O)

~7 (память + 2,5D I/O)

Задержки

средние

средние

Насколько сложен переход от DDR4 на HBM2?

При проектировании в среде Xilinx’s SDAccel™ ядра RTL и HLS  преобразуются автоматически без внесения изменений в проект. Разработчик использует единый  интерфейсов памяти AXI-4. SDAccel обеспечивает возможность автоматического или ручного сопоставления AXI-портов с технологией памяти на этапе компоновки. Этот инструмент по умолчанию выполняет автоматическое сопоставление каналов памяти в зависимости от доступности ресурсов. В то же время, продвинутые пользователи, которые хотят обеспечить оптимальное размещение, могут достичь этого, используя следующие дополнительные параметры:

Параметры режима подключения XOCC для DDR:

--sp   vadd_1.A:DDR[0]

Параметры режима подключения XOCC для HBM:

--sp   vadd_1.B:HBM[0]

 

 

Максимальная пропускная способность памяти для приложений на C++

Теперь разработчикам ПО доступны все преимущества микросхем FPGA в среде SDAccel™ с производительностью, сопоставимой высоко оптимизированному коду RTL. Для демонстрации простоты использования памяти HBM, на GitHub был загружен программный код, показывающий высокую пропускную способность памяти HBM2. Ядро, написанное на языке C++, считывает два вектора и выполняет одновременно две простые операции над ними: сложение и умножение. Этот пример включает ядро с восемью вычислительными блоками, которые обеспечивают доступ к 32 HBM-каналам по всей полосе пропускания. Во время тестирования удалось добиться скорости передачи данных в 421,8 Гбайт/с. Среда разработки Xilinx SDAccel обеспечивает возможность высокоуровневого синтеза (HLS) в приложениях, написанных на языке C++, что выглядит весьма впечатляюще.

Для получения подробных сведений о последних моделях ускорительных карт Alveo с HBM2-памятью перейдите по следующим ссылкам:

https://www.xilinx.com/products/boards-and-kits/alveo/u280.html

https://www.xilinx.com/products/boards-and-kits/alveo/u50.html 

Для загрузки документации для карты U50 перейдите по ссылке - https://www.xilinx.com/publications/product-briefs/alveo-u50-product-brief.pdf

Компании, использующие системы обработки больших объемов данных уже оценили преимущества HBM-памяти.

Автор: Курт Вортман, старший менеджер по маркетингу продуктов Data Center Group.