Подробности об архитектуре AMD CDNA ускорителей Instinct MI100

16.11.2020 - Просмотров: 64

Лидером в использовании графических архитектур для вычислений долгое время была NVIDIA, но давний соперник перед лицом AMD не собирается сдаваться. В ответ на анонс архитектуры Ampere и педалей газа нового поколения A100 компания AMD сегодня объявила о выпуске первого в мире ускорителя на базе CDNA — высокопроизводительного процессора Instinct MI100.

Долгое время подход к проектированию графических чипов оставался унифицированным, но быстро выяснилось, что то, что хорошо для игр, не всегда хорошо для вычислений, а некоторые возможности для приложений, не связанных с рендерингом 3D графики, просто избыточны. Примером могут служить модули растровых операций (RBE/ROP) или наложения текстур. Что должно было случиться, так это то, что эволюционные ветви "графических" и "вычислительных" процессоров на некоторое время слились воедино и снова начали расходиться. А новый процессор AMD Instinct MI100 принадлежит к чисто вычислительной ветви разработки такого рода микросхем.

Теперь AMD имеет в своем распоряжении две основные архитектуры, RDNA и CDNA, которые являются вышеупомянутыми ветвями разработки GPU. Естественно, новый процессор Instinct MI100 унаследовал многое от своих эволюционных аналогов, таких как блоки выполнения скалярных и векторных инструкций: в конце концов, неважно, работают ли они для графических вычислений или для вычислений чего-то другого. Однако новинка также имеет ряд отличий, которые позволяют ей претендовать на звание самой мощной и универсальной педали газа в мире на базе GPU.

схема эволюции графического процессора: наблюдается дивергенция возможностей

AMD значительно укрепила свои позиции за последние годы, что нашло свое отражение в создании собственной унифицированной IP-инфраструктуры: новый чип выполнен с использованием 7нм процесса, а все межкомпонентные системы, как внутренние, так и внешние, в МИ100 построены на базе шины AMD Infinity второго поколения. Внешние каналы имеют ширину 16 бит и работают со скоростью 23 Гт/с, однако если в предыдущих моделях Instinct их было максимум два, то теперь количество каналов Infinity Fabric увеличено до трех. Это позволяет легко организовать системы на базе четырех МИ100 с организацией межпроцессорной связи по схеме "все со всеми", что минимизирует задержки.

Ускорители Instinct MI100 получили третий канал Infinity Fabric

Общая организация внутренней архитектуры унаследована от архитектуры GCN, с 120 вычислительными единицами (БЕ). При принятой AMD схеме "64 шейдерных блока на 1 CU" это позволяет говорить о 7680 процессорах. Однако на уровне вычислительных блоков архитектура значительно переработана для лучшего соответствия требованиям современных вычислительных педалей газа.

В дополнение к стандартным блокам выполнения скалярных и векторных инструкций был добавлен новый модуль матричной математики, так называемый Matrix Core Engine, но из кремния MI100 были удалены все блоки фиксированных функций: растеризация, тесселяция, графические кэши и, конечно же, вывод изображения. При этом сохранен универсальный движок кодирования-декодирования видеоформатов — он довольно часто используется в вычислительных нагрузках, связанных с обработкой мультимедийных данных.

Структурная схема вычислительных модулей в МИ100

Каждая БУ содержит один блок скалярных инструкций с собственным регистровым файлом и кэшем данных, а также четыре блока векторных инструкций, оптимизированных для вычислений формата FP32 по саналогическим блокам. Векторные модули имеют ширину 16 потоков и обрабатывают 64 потока (так называемый волновой фронт в терминологии AMD) в четыре цикла. Но самое главное в архитектуре нового процессора — это новые блоки матричных операций.

Наличие Matrix Core Engines позволяет МИ100 работать с новым типом инструкций — MFMA (Matrix Fused Multiple-Add). Операции с матрицами размера KxN могут содержать смешанные типы входных данных: поддерживаются режимы INT4, INT8, FP16, FP32, а также новый тип Bfloat16 (bf16), однако результат отображается только в форматах INT32 или FP32. Для универсальности введена поддержка такого большого количества типов данных, а MI100 может показывать высокую эффективность в вычислительных сценариях любого типа.

Использование Infinity Fabric 2.0 еще больше увеличило производительность MI100

Каждая БУ имеет свой планировщик, блок ветвления, 16 модулей загрузочного магазина, а также кэши L1 и Data Share объемом 16 и 64 Кбайт соответственно. Но кэш второго уровня является общим для всей микросхемы, он имеет ассоциативность 16 и объём 8 Мбайт. Суммарная пропускная способность кэша L2 достигает 6 Тбайт/сБолее серьезные объемы данных уже лежат на подсистеме внешней памяти. В MI100 это HBM2, новый процессор, который поддерживает четыре или восемь HBM2 сборок, работающих со скоростью 2,4 Гт/с. Общая пропускная способность памяти подсистемы может достигать 1.23 Тбайт в секунду, что на 20% быстрее, чем предыдущие AMD, обрабатывающие газовые педали. Объем памяти составляет 32 Гб и поддерживает коррекцию ошибок.

Общая блок-схема Instinct MI100

"Мозг" микросхемы Instinct MI100 состоит из четырех командных процессоров (ACE на блок-схеме). Их задача — получение потока команд из API и распределение рабочих заданий по отдельным вычислительным модулям. Для подключения к системе хост-процессор MI100 имеет контроллер PCI Express 4.0, который дает полосу пропускания 32 Гбайта/с в каждом направлении. Таким образом"уютнейшая" педаль газа Instinct MI100 будет ощущаться вместе с процессором AMD EPYC второго поколения или в системах на базе IBM POWER9/10.

Избавление от ненужных архитектурных блоков и оптимизация архитектуры для вычислений в максимально широком количестве форматов позволяют Instinct MI100 претендовать на универсальность. Педали газа с такими функциями, как справедливо считает AMD, станут важным строительным блоком в экосистеме нового поколения экзафлопных высокопроизводительных вычислительных машин. AMD утверждает, что это первая педаль газа, способная развивать более 10 Тфлоп в режиме двойной точности FP64 с пиком 11.5 Тфлоп.

Специфическая и пиковая производительность MI100

В менее точных форматах новинка пропорционально быстрее, и особенно хороша для матричных вычислений: для FP32 производительность достигает 46,1 Тфлопс, а в новом, оптимизированном для задач машинного обучения bf16 — 92,3 Тфлопс, а педали газа Instinct предыдущего поколения не могут выполнять такие вычисления вообще. В зависимости от типа данных превосходство МИ100 над МИ50 варьируется от 1,74x до 6,97x. Тем не менее, NVIDIA A100 все еще заметно быстрее в этих задачах, но проигрывает в FP64/FP32.

Источник:

Читайте также