EPYC Milan 7003, возможно, следует рассматривать как эволюцию EPYC Rome 7002. Важная, но все же эволюция. В этих чипах AMD сохранила общий подход MCM, улучшив отдельные компоненты, но принципиально ничего не изменив. При взгляде "с высоты" мы видим все те же 7-нм чипы с максимумом 64 ядер, 256 МБ кэша L3, восемь каналов памяти DDR4 с поддержкой модулей 3200 МГц и емкостью до 256 ГБ, а также 128 линий PCIe 4.0, которые обычно доступны как в одно-, так и в двухсетевых системах.
В стартовом наборе все модели условно делятся на три группы: процессоры с акцентом на производительность (высокие частоты и большой объем кэша L3 на ядро), с акцентом на плотность ядра (максимальное количество ядер/потоков) и просто сбалансированные с точки зрения производительности и стоимости владения процессором. Всего на старте компания предложит 19 моделей, из которых четыре имеют варианты с одним сокетом (P), четыре имеют повышенные частоты (F), а еще одна выбита из общего числа ядер-28 (это максимум, что Intel может предложить сейчас в Xeon Cascade Lake).
Две вещи также привлекают к себе внимание. Во-первых, у более старого процессора 7763 по сравнению с 7742 при не столь высоком росте базовой и форсирующей частоты базовый уровень TDP увеличился до 280 Вт (а максимальный cTDP еще выше). Во-вторых, младшим процессором теперь можно считать 16-ядерный 7313P с базовым TDP 155 В вместо 120-Вт 8-ядерный 7232P. В целом, 7003 наблюдал увеличение тактовых частот и тепловыделения. Если даже младшая модель слишком горячая для кого-то, то вы можете взять что-то из 7002 и/или ограничить cTDP. Платформы сохраняют совместимость между Римом и Миланом (но не с Неаполем, что не имеет смысла), но это больше на совести вендоров, а не AMD.
Можно спекулировать на том, что сокращение стартового набора хотя бы частично вызвано производственными трудностями на TSMC, но в случае с EPYC это не такая уж большая проблема, так как у них есть только один базовый строительный блок — восьмиядерные CCX — комплексы Zen 3. Подробнее о нововведениях в Zen 3 можно прочитать в отдельной статье, а здесь отметим некоторые ключевые особенности: IPC увеличился в среднем на 19%, появилась дополнительная аппаратная защита от атак по сторонним каналам и, самое главное," удвоение " самого комплекса, который теперь имеет 32 МБ общего кэша L3 на 8 ядер.
AMD Zen 3 core
Наличие восьми CCX в одном EPYC Milan CCD позволяет легко формировать новые модели, выбирая количество ядер, объем кэша на одно ядро, а также регулируя частоты и TDP. Именно поэтому вас не должны удивлять 28-ядерный 7453 (4 CCX с 7 ядрами, но с уменьшенным вдвое кэшем L3) или 8-ядерный 72F3 (8 CCX с 1 ядром) с фантастическим кэшем L3 32 МБ на ядро и частотами 3,7/4,1 ГГц с TDP 180 Вт. Это также дает возможность дополнительной настройки чипов под нужды конкретных клиентов. И вообще, больший кэш позволяет уменьшить задержку, ускорить работу приложений, требовательных к его объему, а также улучшает взаимодействие NUMA.
Технические характеристики и цены AMD EPYC 7003 | ||||||||||||
Модель | Ядра | Потоки | Базовая частота, ГГц | Boost-частота, ГГц | TDP, Вт | cTDP Min, Вт | cTDP Max, Вт | Объём L3-кеша, Мбайт | Каналы памяти DDR4 | Частота памяти (1DPC) | Линии PCIe 4.0 | Цена (1Ku) |
7763 | 64 | 128 | 2,45 | 3,50 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $7 890 |
7713 | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $7 060 |
7713P | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $5 010 |
7663 | 56 | 112 | 2,00 | 3,50 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $6 366 |
7643 | 48 | 96 | 2,30 | 3,60 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $4 995 |
7543 | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 761 |
7543P | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 730 |
7513 | 32 | 64 | 2,60 | 3,65 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 840 |
7453 | 28 | 56 | 2,75 | 3,45 | 225 | 225 | 240 | 64 | 8 | 3200 | x128 | $1 570 |
7443 | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 010 |
7443P | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 337 |
7413 | 24 | 48 | 2,65 | 3,60 | 180 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 825 |
7343 | 16 | 32 | 3,20 | 3,90 | 190 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 565 |
7313 | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $1 083 |
7313P | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $913 |
F-серия (оптимизация по частотам и объёму L3-кеша) | ||||||||||||
75F3 | 32 | 64 | 2,95 | 4,00 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $4 860 |
74F3 | 24 | 48 | 3,20 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 900 |
73F3 | 16 | 32 | 3,50 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 521 |
72F3 | 8 | 16 | 3,70 | 4,10 | 180 | 165 | 200 | 256 | 8 | 3200 | x128 | $2 468 |
Центральный чип IO Die также получил незначительные изменения, хотя и не столь значительные. Он по-прежнему имеет парные контроллеры памяти, корневой комплекс PCI 4.0 и контроллер шины Infinity Fabric, частота которого в случае Milan привязана к частоте памяти (DDR4-3200), что дает небольшое увеличение обмена данными. В дополнение к традиционным режимам 1DPC/2DPC (DIMM на канал, модули на канал) для всех восьми каналов для любого процессора и 1DPC для четырех каналов для процессоров с емкостью L3 до 128 МБ, наконец, существует режим 1DPC/2DPC для установки памяти в шесть каналов, а не во все восемь. Это позволяет поддерживать баланс между расходованием памяти и производительностью, получая лучшую равномерность доступа к памяти. Кроме того, такая конфигурация может быть полезна для систем высокой плотности или компактных систем. Для сравнения, в Риме был рекомендован режим 12 DIMM, который фактически предлагал 1DPC для нечетных каналов и 2DPC для четных каналов. "Исключительными "оказались только 7F72 и 7552 с шестью CCX, для которых шесть каналов были"родными".
Stream 5.1, Мбайт/с | ||
2 × EPYC 7763 | 2 × EPYC 7543 | |
Copy | 339627,3 | 319521,6 |
Scale | 335561,8 | 318395,5 |
Add | 337742,8 | 322929,4 |
Triad | 332141,0 | 317128,1 |
Типы поддерживаемых модулей не изменились: RDIMM, LRDIMM, 3DS, NVDIMM-N. При использовании восьмиранговых 256-гигабайтных модулей LRDIMM-2933 вы можете получить до 4 ТБ оперативной памяти на сокет. AMD настоятельно рекомендует использовать официальное руководство по заполнению памяти, которое обеспечивает правильную и сбалансированную конфигурацию. Например, при использовании 4 или 6 DIMM на сокет становится очень важным даже то, в каких каналах они будут установлены.
Но в целом AMD рекомендует использовать все восемь каналов памяти, так как и Рим, и Милан значительно расширили возможности работы с ECC. При достаточном количестве каналов вместо стандартных 64 + 8 слов (64 бита для данных, 8 для избыточности) чтение/запись будет выполняться со словами 128 + 16 или даже 256 + 32 бита. С таким уровнем избыточности, говорят в компании, исправить ошибки гораздо проще. Если базовая реализация ECC предусматривает только обнаружение многоразрядных ошибок (исправление не гарантируется), то EPYC выдержит даже полностью выбитый чип x4 на одном из модулей памяти без потери данных, давая время перенести нагрузку на другой сервер и заменить неисправный модуль без простоев.
Функции защиты получили дальнейшее развитие. В дополнение к полному шифрованию памяти SME, шифрованию SEV (для изоляции виртуальной машины и гипервизора друг от друга) и шифрованию SEV-ES (для регистров после остановки виртуальной машины) было добавлено шифрование SEV-SNP (Secure Nested Paging), которое защищает гостей от вмешательства в их память уже гипервизором. Максимальное количество ключей осталось прежним — 509. Эти функции важны для реализации конфиденциальных вычислений в виртуализированных и облачных средах.
Шифрование по стандарту AES-128 обрабатывается тем же отдельным Arm SoC, интегрированным в процессор, который также отвечает за безопасность цепочки загрузки. Сами ядра уже устойчивы — во всяком случае, AMD заявляет, что не видела эксплойтов в "живой природе" — к сенсационным атакам по сторонним каналам. Однако одно дополнение к защите все же есть — это Теневой стек (shadow stacks). Идея не нова, и оба производителя реализовали ее в свежих ядрах, в Zen 3 и Willow Cove соответственно.
Сравнение производительности EPYC 7003 и Xeon Cascade Lake Refresh от AMD
В маркетинговых материалах AMD, как и прежде, фокусируется на безопасности, производительности и TCO (стоимости) по сравнению с Intel Xeon. С точки зрения производительности при сравнении top to top, что, вообще говоря, может быть не совсем корректно, AMD на основе тестов SPECrate 2017 указывает на 106% более высокую производительность для облачных нагрузок (int_base) и HPC (fp_base) и 117% для корпоративных задач (SPECjbb 2015). В среднем сегменте 75F3 (32 ядра) на 70% быстрее, чем 6258R (28 ядер) (fp_base). Что касается ТШО, то давайте осторожно скажем, что все зависит от конкретного проекта. Кроме того, стоимость процессоров не всегда является самой большой статьей расходов. И даже аргумент об экономии на лицензиях постепенно становится все менее весомым.
Технические характеристики и цены AMD EPYC 7003 | ||||||||||||
Модель | Ядра | Потоки | Базовая частота, ГГц | Boost-частота, ГГц | TDP, Вт | cTDP Min, Вт | cTDP Max, Вт | Объём L3-кеша, Мбайт | Каналы памяти DDR4 | Частота памяти (1DPC) | Линии PCIe 4.0 | Цена (1Ku) |
7763 | 64 | 128 | 2,45 | 3,50 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $7 890 |
7713 | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $7 060 |
7713P | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $5 010 |
7663 | 56 | 112 | 2,00 | 3,50 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $6 366 |
7643 | 48 | 96 | 2,30 | 3,60 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $4 995 |
7543 | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 761 |
7543P | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 730 |
7513 | 32 | 64 | 2,60 | 3,65 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 840 |
7453 | 28 | 56 | 2,75 | 3,45 | 225 | 225 | 240 | 64 | 8 | 3200 | x128 | $1 570 |
7443 | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 010 |
7443P | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 337 |
7413 | 24 | 48 | 2,65 | 3,60 | 180 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 825 |
7343 | 16 | 32 | 3,20 | 3,90 | 190 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 565 |
7313 | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $1 083 |
7313P | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $913 |
F-серия (оптимизация по частотам и объёму L3-кеша) | ||||||||||||
75F3 | 32 | 64 | 2,95 | 4,00 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $4 860 |
74F3 | 24 | 48 | 3,20 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 900 |
73F3 | 16 | 32 | 3,50 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 521 |
72F3 | 8 | 16 | 3,70 | 4,10 | 180 | 165 | 200 | 256 | 8 | 3200 | x128 | $2 468 |
Технические характеристики и цены AMD EPYC 7003 | ||||||||||||
Модель | Ядра | Потоки | Базовая частота, ГГц | Boost-частота, ГГц | TDP, Вт | cTDP Min, Вт | cTDP Max, Вт | Объём L3-кеша, Мбайт | Каналы памяти DDR4 | Частота памяти (1DPC) | Линии PCIe 4.0 | Цена (1Ku) |
7763 | 64 | 128 | 2,45 | 3,50 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $7 890 |
7713 | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $7 060 |
7713P | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $5 010 |
7663 | 56 | 112 | 2,00 | 3,50 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $6 366 |
7643 | 48 | 96 | 2,30 | 3,60 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $4 995 |
7543 | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 761 |
7543P | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 730 |
7513 | 32 | 64 | 2,60 | 3,65 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 840 |
7453 | 28 | 56 | 2,75 | 3,45 | 225 | 225 | 240 | 64 | 8 | 3200 | x128 | $1 570 |
7443 | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 010 |
7443P | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 337 |
7413 | 24 | 48 | 2,65 | 3,60 | 180 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 825 |
7343 | 16 | 32 | 3,20 | 3,90 | 190 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 565 |
7313 | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $1 083 |
7313P | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $913 |
F-серия (оптимизация по частотам и объёму L3-кеша) | ||||||||||||
75F3 | 32 | 64 | 2,95 | 4,00 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $4 860 |
74F3 | 24 | 48 | 3,20 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 900 |
73F3 | 16 | 32 | 3,50 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 521 |
72F3 | 8 | 16 | 3,70 | 4,10 | 180 | 165 | 200 | 256 | 8 | 3200 | x128 | $2 468 |
EPYC 7003, по приблизительным подсчетам, стал в среднем на пару сотен долларов дороже, чем 7002, партиями по 1 тысяче шт. С равным количеством ядер, если сравнивать с прошлогодними ценами на Рим. Но общая политика AMD осталась: цена зависит от ядер/частоты/кэша, а во всем остальном чипы идентичны; односокетные P-версии дешевле двухсокетных версий примерно на треть; F-версии с повышенными частотами и всегда максимальным объемом кэша L3 (256 МБ, то есть всегда с 8 CCX) заметно дороже других модификаций с таким же количеством ядер. В то же время односокетные платформы с EPYC выглядят интереснее, чем двухсокетные платформы Intel.
Stream 5.1, Мбайт/с | ||
2 × EPYC 7763 | 2 × EPYC 7543 | |
Copy | 339627,3 | 319521,6 |
Scale | 335561,8 | 318395,5 |
Add | 337742,8 | 322929,4 |
Triad | 332141,0 | 317128,1 |
Однако все это верно до тех пор, пока мы не увидим Ледяное озеро-SP, которое по ряду параметров будет подтягиваться к EPYC. Если учесть их двухсокетную природу, то главным отличием от AMD станет поддержка AVX-512 (с DL Boost) и Optane PMem 200-обе функции востребованы далеко не всеми приложениями и нагрузками, хотя Intel очень активно строит программно-аппаратную платформу. И это касается не только процессора и памяти. AMD, впрочем, тоже не сидела сложа руки и за полтора года с момента выхода Rome значительно увеличила количество партнеров ISV и валидированных решений.
Что AMD все еще отстает от Intel, так это своевременная подготовка инструментов разработки и платформ: ядра Linux, GCC, LLVM и связанных с ними библиотек. Соответствующие патчи попадают в основные ветви проекта довольно поздно, что приводит к тому, что они не попадают в следующие крупные релизы основных дистрибутивов. Для, скажем, гиперскалеров или HPC это не проблема, так как у них есть возможность самостоятельно поддерживать ядра. А средний пользователь может получить прирост производительности на 5-6% с обновлением ядра Linux 5.11, которое вышло в феврале, но еще не дошло до всех дистрибутивов. В то же время продукты Zen 3 присутствуют уже более месяца, а новые EPYCS были отгружены с четвертого квартала прошлого года. Есть надежда, что ситуация скоро улучшится.
Но это еще малая часть того, что предстоит сделать. Потому что с аппаратной частью у AMD проблем нет — на данный момент EPYC 7763, по данным компании, является самым быстрым процессором x86-64, по крайней мере, с точки зрения "чистой" производительности. Чтобы убедиться в этом, AMD предоставила удаленный доступ к эталонной двухсетевой платформе Quanta DAYTONA. Это точно такая же система, которая использовалась полтора года назад для теста EPYC Rome. Для работы с Milan ему нужны только обновления прошивки и BIOS/UEFI.
Конфигурация накопителей на этот раз была чуть более победоносной, поэтому тесты дисковой подсистемы были исключены. В ОС использовался 256-гигабайтный SATA SSD Micron 1100 (MTFDDAK256TBN) с ext4 и настройками по умолчанию. Основной накопитель, с которого запускались все тесты — это, судя по ID (HUSMR7632BDP3M1), Western Digital Ultrastar DC ME200: NVMe, PCIe 3.0 x4, 3 ТБ. Он был развернут xfs с настройками по умолчанию и смонтирован /var, где хранились все тестовые файлы.
Память была набрана с помощью модулей Kingston KSM32RD4/32MEI: 32 ГБ RDIMM ECC DDR4-3200. Для всех тестов в рамках Phoronix Test Suite 10.2.2 (PTS) было установлено в общей сложности 1 ТБ для двух EPYC 7763, то есть 2DPC в режиме DDR4-2933. Хотя, надо отметить, небольшой дополнительный стресс-тест показал, что он также может успешно работать в режиме DDR4-3200. Для двух 7543 и PTS: 512 ГБ, то есть 1DPC и DDR4-3200. Из общего пула в 8 ГБ" съедает"пара Mellanox ConnectX-4 Lx (MT27710).
Технические характеристики и цены AMD EPYC 7003 | ||||||||||||
Модель | Ядра | Потоки | Базовая частота, ГГц | Boost-частота, ГГц | TDP, Вт | cTDP Min, Вт | cTDP Max, Вт | Объём L3-кеша, Мбайт | Каналы памяти DDR4 | Частота памяти (1DPC) | Линии PCIe 4.0 | Цена (1Ku) |
7763 | 64 | 128 | 2,45 | 3,50 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $7 890 |
7713 | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $7 060 |
7713P | 64 | 128 | 2,00 | 3,675 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $5 010 |
7663 | 56 | 112 | 2,00 | 3,50 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $6 366 |
7643 | 48 | 96 | 2,30 | 3,60 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $4 995 |
7543 | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 761 |
7543P | 32 | 64 | 2,80 | 3,70 | 225 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 730 |
7513 | 32 | 64 | 2,60 | 3,65 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 840 |
7453 | 28 | 56 | 2,75 | 3,45 | 225 | 225 | 240 | 64 | 8 | 3200 | x128 | $1 570 |
7443 | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $2 010 |
7443P | 24 | 48 | 2,85 | 4,00 | 200 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 337 |
7413 | 24 | 48 | 2,65 | 3,60 | 180 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 825 |
7343 | 16 | 32 | 3,20 | 3,90 | 190 | 165 | 200 | 128 | 8 | 3200 | x128 | $1 565 |
7313 | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $1 083 |
7313P | 16 | 32 | 3,00 | 3,70 | 155 | 155 | 180 | 128 | 8 | 3200 | x128 | $913 |
F-серия (оптимизация по частотам и объёму L3-кеша) | ||||||||||||
75F3 | 32 | 64 | 2,95 | 4,00 | 280 | 225 | 280 | 256 | 8 | 3200 | x128 | $4 860 |
74F3 | 24 | 48 | 3,20 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $2 900 |
73F3 | 16 | 32 | 3,50 | 4,00 | 240 | 225 | 240 | 256 | 8 | 3200 | x128 | $3 521 |
72F3 | 8 | 16 | 3,70 | 4,10 | 180 | 165 | 200 | 256 | 8 | 3200 | x128 | $2 468 |
Отдельно мы представим результаты HPL (High-Performance Linpack) 2.3 и Stream 5.10, так как они были скомпилированы вручную инженером AMD с использованием компилятора AOCC 3.0, который должен быть выпущен вместе с официальным анонсом EPYC 7003, и некоторых библиотек AMD (AOCL, например), а также с дополнительными настройками платформы. Здесь есть много возможностей для оптимизации, но это также требует времени. Например, в BIOS есть интересный параметр детерминизма производительности. В режиме по умолчанию c NPS1 он имеет значение Performance, то есть в пределах данного теплового пакета процессор балансирует все свои 8 CCX для примерно одинаковой производительности. Однако вы можете установить этот параметр в Power и включить NPS4 — каждый кристалл будет работать с максимальной производительностью, не фокусируясь на своих соседях.
Stream 5.1, Мбайт/с | ||
2 × EPYC 7763 | 2 × EPYC 7543 | |
Copy | 339627,3 | 319521,6 |
Scale | 335561,8 | 318395,5 |
Add | 337742,8 | 322929,4 |
Triad | 332141,0 | 317128,1 |
Для HPL SMT был отключен, использовался режим NPS4 (4 узла NUMA на сокет) и память 1DPC. Для двух 7763-х наилучшая производительность составила 3,184 Тфлопс, а для двух 7543-х-2,2044 Тфлопс. По данным самой AMD, пик для 7763 составляет 4097 Тфлопс. Можете ли вы догадаться, с чьим компилятором вы можете достичь этого результата? В потоковых тестах-результаты приведены в таблице выше-память работала в режиме DDR4-3200 и с NPS1. В принципе, вы можете получить еще + 10-15% скорости, включив режим NPS4 и запустив отдельную копию в каждом домене. Для потоковой триады AMD дает цифру 371,5 Гбит / с для EPYC 75F3.
Stream 5.1, Мбайт/с | ||
2 × EPYC 7763 | 2 × EPYC 7543 | |
Copy | 339627,3 | 319521,6 |
Scale | 335561,8 | 318395,5 |
Add | 337742,8 | 322929,4 |
Triad | 332141,0 | 317128,1 |
Прежде чем перейти к основным тестам, давайте проведем небольшое сравнение с результатами EPYC 7742. Следует иметь в виду, что в то время была такая же ситуация, как и сейчас — ядро, библиотеки и компиляторы не имели должной оптимизации. В качестве компромисса нам пришлось сделать их в Ubuntu 20.04, так как в более новой версии слишком много тестов не собирается из-за смены системных библиотек. Прирост от поколения к поколению по нашему набору ориентиров составил в среднем 13,2% — полные результаты приведены в отчете. Если это сработает, то через пару дней после выхода материала мы добавим тесты 7742 на основную платформу.
UEFI / BIOS AMD DAYTONA
И в качестве такового был выбран текущий сервер Ubuntu 20.10 с ядром Linux 5.8.0-44-generic и компилятором GCC 10.2.0. Параметр governor был принудительно установлен в performance. На стороне BIOS были включены Автоматическая настройка ACPI и SMT, а CSM был отключен. Значения TDP не изменились. Другие параметры остаются по умолчанию (например, NPS1). Набор тестов охватывает различные типы нагрузок и включает, по возможности, самые последние версии тестов, доступных в PTS.
Полный отчет с результатами доступен в формате PDF. Любопытно, что в среднем результаты были примерно одинаковыми. Естественно, в многопоточных нагрузках 64-ядерный процессор быстрее 32-ядерного, но в однопоточном он не всегда и не везде так сильно отстает. Заметные результаты включают ACES DGEMM, NAS Parallel Benchmarks, Blender, OpenSSL или John The Ripper, которые масштабируются почти линейно по мере увеличения числа ядер. Среди очевидных аномалий-LAMMPS и Cpuminer-Opt.
Однако сами по себе эти тесты не так интересны. Этот же набор планируется использовать для тестирования Intel Xeon Ice Lake-SP, когда (и если) такая возможность появится. А пока вы можете сравнить его с другими результатами OpenBenchmarking. Например, с Ampere Altra или с большим готовым тестом от Phoronix с Ubuntu 20.04, но с ядром Linux 5.8. Обратите внимание, что в обоих случаях перекрываются только небольшие подмножества тестов. Первый набор довольно мал, но разнообразен, а второй представляет в основном "тяжелые" приложения.
Несмотря на то, что переход из Рима в Милан принес гораздо меньше изменений, чем из Неаполя в Рим, Intel со стороны "кремния" по-прежнему нечего противопоставить. Ключевое слово здесь "пока" — выпуск Ice Lake-SP не за горами, и мы пока не знаем, каково его исполнение. И предстоящий Sapphire Rapids также получит многочиповую компоновку, которая доказала свою жизнеспособность, эффективность и гибкость. А с нынешними технологическими стандартами Милан, похоже, приближается к разумному пределу возможностей. Не забывайте, однако, что процессор является важной, но не единственной частью платформы. И даже его цена зачастую не является решающей в конечной стоимости решения. Клиенты все больше интересуются инструментом для решения своих проблем и все меньше — тем, что находится внутри него. AMD сумела" продать "EPYC как "белым" аппаратным брендам, так и OEM/ODM, а также многим ISV, и постепенно пробивается во все большее число ниш, но говорить о реальной победе пока еще очень рано. Если смотреть шире, то сейчас наступает эпоха интегрированных программных и аппаратных решений. AMD, NVIDIA и Intel, каждый по-своему, уже создают их