Arquitetura de referência da NVIDIA Enterprise (Enterprise RA)
Acessórios
ARMAZENAMENTO
08/07/2025
Acessórios
ARMAZENAMENTO
O que é a NVIDIA Enterprise RA
AArquitetura de Referência Corporativa da NVIDIA(Enterprise RA) é um conjunto abrangente de diretrizes e práticas recomendadas comprovadas, projetadas para fornecer uma infraestrutura escalável, produtiva e segura para soluções corporativas de AI. Ela abrange hardware, software e configurações ideais de servidor, cluster e rede para os desafios atuais dos negócios de AI.
Objetivo:
- Reduzir a complexidade ao projetar e implantar a infraestrutura do data center.
- O Enterprise RA fornece recomendações de design comprovadas e abrangentes para a implementação em larga escala de sistemas como o H200 NVL.
- O Enterprise RA ajuda a acelerar o tempo de lançamento no mercado para parceiros e clientes que estão criando soluções de data center
Composição
- No centro de cada Enterprise RA está um servidor certificado NVIDIA System otimizado que segue um padrão de design prescrito para garantir o desempenho ideal quando implantado em um ambiente de cluster.
- Existem diferentes tipos de configurações de servidor para os quais as Enterprise RAs são projetadas, incluindo sistemas PCIe Optimized 2-4-3, PCIe Optimized 2-8-5 e HGX. As designações numéricas, como em "2-8-5", indicam o número de soquetes (processadores), o número de unidades de processamento gráfico (GPUs) e o número de adaptadores de rede, respectivamente.
- Por exemplo, o Enterprise RA para o H200 NVL usa a configuração de referência PCIe Optimized 2-8-5. Essa configuração reduz a latência, reduz a utilização da CPU e aumenta a largura de banda da rede para operações em tempo real, o que é fundamental para o processamento eficiente de dados.
Integração da tecnologia NVIDIA
- Os RAs corporativos incluem recomendações para o uso da plataforma NVIDIA Spectrum-X Ethernet para maximizar o desempenho ao implantar sistemas de IA em um ambiente de cluster. Isso inclui os switches Spectrum-4 e os adaptadores de rede SuperNIC BlueField-3.
- Para obter o máximo desempenho da rede, a Enterprise RA recomenda uma SuperNIC BlueField-3 dedicada com conectividade de 400 Gbps para cada duas GPUs H200 NVL no cluster.
- Além disso, o Enterprise RA para o H200 NVL utiliza a NVIDIA Collective Communications Library (NCCL) para fornecer comunicação eficiente e de baixa latência e escalabilidade para cargas de trabalho que exigem comunicação eficiente entre várias GPUs.
Aplicações:
- Adequado para data centers corporativos, nuvens, transferência de dados em tempo real, soluções de direção autônoma e análise de big data, bem como para a construção de fábricas de IA focadas em IA generativa e modelos de linguagem grandes (LLMs).
- A Dell Technologies implementa o Enterprise RA em seus clusters baseados em servidores PowerEdge (por exemplo, R760xa com uma configuração 2-4-3 e XE9680 com 2-8-9), demonstrando a aplicação industrial da arquitetura.
- Pilha de software: Desenvolvido pela NVIDIA AI Enterprise, que inclui drivers, ferramentas de gerenciamento de GPU para Kubernetes (GPU Operator), rede (Network Operator), microsserviços de AI (NeMo, NIM) e gerenciamento de infraestrutura (Base Command Manager).