Как не ошибиться в выборе трансиверов для NVIDIA SuperPOD c HGX H200?

Проблема совместимости в высокоскоростных ИИ-кластерах
Архитектура NVIDIA SuperPOD на базе ускорителей HGX H200 — эталонное решение для масштабного обучения ИИ-моделей и высокопроизводительных вычислений. Каждый вычислительный узел включает восемь графических процессоров H200 с памятью 141 ГБ, объединённых в NVLink Network через восемь однопортовых адаптеров NVIDIA ConnectX‑7 400 Гбит/с.
Критический элемент такой архитектуры — выбор оптических трансиверов. Ошибки на этапе проектирования приводят к физической несовместимости оборудования, срыву сроков и значительным финансовым потерям. Основная техническая дилемма: форм‑фактор OSFP допускает несколько конструктивных вариантов, которые не взаимозаменяемы. Адаптеры ConnectX‑7 поддерживают только модули типа RHS (Riding Heat Sink), тогда как коммутаторы часто требуют модули с интегрированным теплоотводом (Finned Top). Один и тот же форм‑фактор не гарантирует совместимости между разными типами оборудования в единой сети.
Технические особенности платформы HGX H200 и сетевого стека
Платформа HGX H200 — модульная архитектура, где восемь GPU объединены через четыре NVSwitch и 18 линий NVLink от каждого чипа SXM5 с пропускной способностью 900 ГБ/с. Для расширения NVLink Network за пределы одного сервера используются технология SHARP и восемь адаптеров NVIDIA ConnectX‑7, поддерживающих как InfiniBand NDR (400 Гбит/с), так и Ethernet 400GbE для внешнего взаимодействия.
Ключевое решение при проектировании сети — выбор протокола передачи данных:
- InfiniBand NDR обеспечивает ультранизкую задержку (<1 мкс), встроенную поддержку RDMA и адаптивную маршрутизацию. Это критично для распределённого обучения больших языковых моделей, но требует специализированных коммутаторов и строгих требований к кабельной инфраструктуре.
- Ethernet 400GbE даёт гибкость архитектуры, совместимость с существующей инфраструктурой ЦОД и поддержку стандартных протоколов. Для производительности, сопоставимой с InfiniBand, применяются RoCEv2 и механизмы предотвращения перегрузок (PFC, ECN).
Выбор протокола напрямую влияет на требования к оптике: физический интерфейс одинаков, но различаются спецификации кодирования, синхронизации и управления потоком.
Конструктивные различия OSFP-модулей: RHS против Finned Top
Форм‑фактор OSFP стандартизирован для скоростей до 1600 Гбит/с, но допускает два варианта теплового исполнения.
3.1. OSFP RHS (Riding Heat Sink) / Flat Top
Модули RHS имеют плоскую верхнюю поверхность без выступающих элементов. Охлаждение осуществляется через внешний теплосъёмник, установленный на печатной плате адаптера или сервера. Такая конструкция критически важна для ConnectX‑7:
- Высота модуля ≤10,5 мм позволяет размещать адаптеры вплотную в конфигурациях высокой плотности.
- Внешний теплосъёмник эффективно отводит тепло от модуля мощностью до 14 Вт без увеличения габаритов трансивера.
- Спецификация ConnectX‑7 однозначно указывает поддержку только слотов RHS — использование Finned Top физически невозможно.
3.2. OSFP Finned Top
Модули Finned Top имеют встроенный алюминиевый радиатор, выступающий на 4–6 мм над корпусом. Такая конструкция применяется преимущественно в коммутаторах:
- В коммутаторах достаточно пространства между портами для модулей высотой до 16 мм.
- Интегрированный теплоотвод обеспечивает автономное охлаждение без внешних теплосъёмников, упрощая конструкцию шасси.
- Для мощных модулей (16–20 Вт), используемых в магистральных линках, встроенный радиатор эффективнее пассивного решения.
Критерии выбора оптических модулей для ИИ-кластеров по дальности
При проектировании сети на базе HGX H200 важно учитывать не только тип теплоотвода, но и дальность передачи, определяющую архитектуру кабельной инфраструктуры.
- 400G‑SR4 — многомодовое волокно OM4/OM5, до 100 м. Использует 4 пары волокон (8 жил), длина волны 850 нм, модуляция PAM4.
Сценарии: соединение серверов с коммутатором внутри стойки, горизонтальные связи между соседними стойками в ряду. - 400G‑DR4 — одномодовое волокно, до 500 м, длина волны 1310 нм. 4 пары волокон (8 жил) с параллельной передачей 4×100 Гбит/с.
Сценарии: вертикальные связи между рядами стоек в пределах машинного зала. - 400G‑FR4 — одномодовое волокно, до 2 км, длина волны 1310 нм. Использует волновое мультиплексирование (CWDM4): четыре длины волны (1271/1291/1311/1331 нм) по одной паре волокон (2 жилы).
Сценарии: соединения между машинными залами в пределах комплекса, межэтажные связи в многоэтажных ЦОД.
Как избежать ошибок при интеграции
Построение сетей на скоростях 400/800 Гбит/с — относительно новая задача, и опыта интеграции таких решений у инженеров пока недостаточно. Ошибки при выборе оптических модулей (например, установка модуля с радиатором в адаптер ConnectX‑7) приводят к физической несовместимости и срыву сроков внедрения дорогостоящих кластеров HGX H200.
Команда ITPOD заранее проработала эту проблему и разработала линейку OSFP-модулей с чётким разделением тепловых типов: RHS для серверных адаптеров и Finned Top для коммутаторов. Все решения прошли валидацию в реальных сценариях ИИ-кластеров, включая тестирование стабильности в конфигурациях высокой плотности.