A Amazon Web Services anunciou na sexta-feira que irá colocar processadores da Cerebras dentro dos seus centros de dados sob uma parceria plurianual focada em inferência de IA.
O acordo dá à Amazon uma nova forma de acelerar como os modelos de IA respondem a prompts, escrevem código e lidam com pedidos de utilizadores em tempo real. A AWS disse que irá utilizar a tecnologia Cerebras, incluindo o Wafer-Scale Engine, para tarefas de inferência.
As empresas não partilharam os termos financeiros. A configuração está planeada para o Amazon Bedrock dentro dos centros de dados da AWS, colocando a parceria diretamente dentro de um dos principais produtos de IA da Amazon.
A AWS disse que o sistema irá combinar servidores alimentados por Amazon Trainium, sistemas Cerebras CS-3 e a rede Amazon Elastic Fabric Adapter.
Mais tarde este ano, a AWS também planeia oferecer os principais modelos de linguagem de grande escala de código aberto e Amazon Nova em hardware Cerebras. David Brown, vice-presidente de Compute and ML Services na AWS, disse que a velocidade continua a ser um grande problema na inferência de IA, especialmente para ajuda de codificação em tempo real e aplicações interativas.
David disse: "A inferência é onde a IA entrega valor real aos clientes, mas a velocidade continua a ser um gargalo crítico para cargas de trabalho exigentes como assistência de codificação em tempo real e aplicações interativas."
A AWS disse que o design utiliza um método chamado desagregação de inferência. Isso significa dividir a inferência de IA em duas partes. A primeira parte é o processamento de prompt, também chamado prefill. A segunda parte é a geração de output, também chamada decode.
A AWS disse que as duas tarefas comportam-se de forma muito diferente. O prefill é paralelo, intensivo em computação e precisa de largura de banda de memória moderada. O decode é serial, mais leve em computação e muito mais dependente da largura de banda de memória. O decode também leva a maior parte do tempo nestes casos porque cada token de output tem de ser produzido um por um.
É por isso que a AWS está a atribuir hardware diferente a cada etapa. O Trainium irá lidar com o prefill. O Cerebras CS-3 irá lidar com o decode.
A AWS disse que a rede EFA de baixa latência e alta largura de banda irá conectar ambos os lados para que o sistema possa funcionar como um único serviço enquanto cada processador se concentra numa tarefa separada.
David disse: "O que estamos a construir com a Cerebras resolve isso: ao dividir a carga de trabalho de inferência entre Trainium e CS-3, e conectá-los com o Amazon Elastic Fabric Adapter, cada sistema faz aquilo em que é melhor. O resultado será uma inferência uma ordem de magnitude mais rápida e com desempenho superior ao que está disponível hoje."
A AWS também disse que o serviço irá funcionar no AWS Nitro System, que é a camada base para a sua infraestrutura de nuvem.
Isso significa que os sistemas Cerebras CS-3 e as instâncias alimentadas por Trainium deverão operar com a mesma segurança, isolamento e consistência que os clientes da AWS já utilizam.
O anúncio também dá à Amazon outra abertura para pressionar o Trainium contra chips da Nvidia, AMD e outras grandes empresas de chips. A AWS descreve o Trainium como o seu chip de IA interno construído para desempenho escalável e eficiência de custos em treino e inferência.
A AWS disse que dois grandes laboratórios de IA já estão comprometidos com ele. A Anthropic nomeou a AWS como seu principal parceiro de treino e usa o Trainium para treinar e implementar modelos. A OpenAI irá consumir 2 gigawatts de capacidade Trainium através da infraestrutura AWS para Stateful Runtime Environment, modelos de fronteira e outras cargas de trabalho avançadas.
A AWS acrescentou que o Trainium3 teve forte adoção desde o seu recente lançamento, com clientes de várias indústrias a comprometer grande capacidade.
A Cerebras está a lidar com o lado de decode da configuração. A AWS disse que o CS-3 é dedicado à aceleração de descodificação, o que lhe dá mais espaço para tokens de output rápidos. A Cerebras diz que o CS-3 é o sistema de inferência de IA mais rápido do mundo e oferece milhares de vezes maior largura de banda de memória do que a GPU mais rápida.
A empresa disse que os modelos de raciocínio agora representam uma quota maior do trabalho de inferência e geram mais tokens por pedido à medida que trabalham através de problemas. A Cerebras também disse que a OpenAI, Cognition, Mistral e outros usam os seus sistemas para cargas de trabalho exigentes, especialmente codificação agêntica.
Andrew Feldman, fundador e diretor executivo da Cerebras Systems, disse: "A parceria com a AWS para construir uma solução de inferência desagregada trará a inferência mais rápida para uma base de clientes global."
Andrew acrescentou: "Todas as empresas em todo o mundo poderão beneficiar de uma inferência extremamente rápida dentro do seu ambiente AWS existente."
O acordo adiciona mais pressão sobre a Nvidia, que em dezembro assinou um acordo de licenciamento de 20 mil milhões de dólares com a Groq e planeia revelar na próxima semana um novo sistema de inferência usando tecnologia Groq.
Se está a ler isto, já está à frente. Mantenha-se assim com a nossa newsletter.


