A OpenAI anunciou, na terça-feira (5), o Multipath Reliable Connection (MRC), um novo protocolo para acelerar o treinamento de IA em larga escala. Ele foi desenvolvido em parceria com gigantes como Microsoft, Nvidia, AMD, Intel e Broadcom.
O padrão de código aberto é capaz de melhorar o desempenho e a resiliência das redes de GPUs em grandes clusters de treinamento. Um dos problemas que a novidade promete resolver é a variação da velocidade nas transferências de dados, causada por diferentes fatores.
Nossos vídeos em destaque
Diferenciais do MRC
Desenvolvido ao longo dos últimos dois anos, o MRC é um protocolo de rede para clusters gigantes de IA integrado às mais recentes interfaces de 800 Gb/s. Com ele, é possível dividir uma única transferência de dados em diversos pacotes.
- Esses pacotes são espalhados simultaneamente entre centenas de caminhos diferentes da rede, evitando que o tráfego se concentre em apenas uma via;
- O padrão também pode detectar congestionamentos e falhas em microssegundos, redirecionando os pacotes, automaticamente, para caminhos confiáveis;
- Além disso, cada pacote traz instruções sobre qual parte da memória da GPU deve ser escrito;
- Com tais características, a desenvolvedora do ChatGPT afirma que o protocolo evita atrasos imprevisíveis e a necessidade de reiniciar treinamentos enormes se houver pequenas falhas.
"Um switch que pode conectar 64 portas a 800 Gb/s pode, em vez disso, conectar 512 portas a 100 Gb/s. Isso permite construir uma rede que interligue cerca de 131.000 GPUs com apenas duas camadas de switches. Uma rede convencional de 800 Gb/s exigiria três ou quatro camadas", explicou a OpenAI.
O MRC também possibilita criar uma rede com menor custo e gastos energéticos abaixo dos registrados em projetos convencionais, ajudando a solucionar problemas enfrentados pelos laboratórios de IA.
Onde o MRC é usado?
No momento, o novo padrão já foi integrado aos maiores supercomputadores da startup, como o do projeto Stargate que funciona no Texas (Estados Unidos). A instalação planeja implantar 10 GW de capacidade computacional para IA até o fim da década.
Considerado um dos data centers de IA mais poderosos do mundo, o Microsoft Fairwater, localizado em Wisconsin (EUA), é outro que adotou o MRC para o treinamento de modelos de ponta. A tecnologia está, ainda, em instalações que usam processadores Nvidia GB200.
A OpenAI também liberou as especificações do MRC por meio do Open Compute Project (OCP). Dessa forma, outras empresas poderão utilizar e contribuir para aprimorar o protocolo.
Siga no TecMundo e confira os detalhes do acordo entre a dona do ChatGPT e a Amazon que resultou em uma nova casa para seus modelos de IA.
)
)
)
)
)
)
)