50 млрд транзисторов, 400 Вт мощности и возможность объединения в плитки по 25 единиц. Tesla представила специализированный процессор D1

Сегодня Tesla представила свой новый специализированный процессор D1. Решение предназначено для машинного обучения.

Процессор изготовлен по нормам 7 нм и содержит 50 миллиардов транзисторов. Площадь при этом составляет 645 мм2, что довольно много, хотя и меньше, чем у того же графического процессора Nvidia GA100. Tesla D1 оснащен 354 обучающими узлами на базе 64-разрядного суперскалярного процессора с четырьмя ядрами. Решение поддерживает инструкции FP32, BFP16, CFP8, INT32, INT16 и INT8.

Производительность при вычислениях с одной точностью (FP32) составляет 22,6 TFLOPS, а в случае режима BF16/CFP8 речь идет о 362 TFLOPS. Такие результаты достигаются при TDP 400 Вт.

Поскольку масштабируемость важна для машинного обучения, Tesla разработала специализированный интерфейс с пропускной способностью 10 ТБ/с. Кольцо ввода-вывода включает 576 полос, каждая из которых имеет пропускную способность 112 Гбит/с.

В результате Tesla может собирать чипы D1 в специальные плитки по 25 процессоров в каждой. И такие плитки также могут быть соединены друг с другом. Компания продемонстрировала такую плитку с процессорами, работающими на частоте 2 ГГц. Производительность такого решения составила 9 ПФЛОПС (BF16/CFP8).

Компания также планирует создать суперкомпьютер на базе процессоров D1. Система ExaPOD будет основана на 120 плитках с 3000 процессорами. Конечная производительность достигнет 1,1 эксафлопса (FP16/CFP8). После того, как система будет построена, она станет самым мощным суперкомпьютером для обучения ИИ. По сравнению с нынешними суперкомпьютерами Tesla на базе графического процессора Nvidia, такая система обеспечит в четыре раза большую производительность и в 1,3 раза большую производительность на ватт при пятикратном сокращении занимаемой площади.

PriceMedia