A Amazon Web Services anunciou na sexta-feira que irá colocar processadores da Cerebras dentro dos seus centros de dados sob uma parceria plurianual focada na inferência de IA. O acordo dáA Amazon Web Services anunciou na sexta-feira que irá colocar processadores da Cerebras dentro dos seus centros de dados sob uma parceria plurianual focada na inferência de IA. O acordo dá

Amazon utiliza chips em escala de wafer da Cerebras para turbinar modelos de IA na AWS

2026/03/14 08:32
Leu 5 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

A Amazon Web Services anunciou na sexta-feira que irá colocar processadores da Cerebras dentro dos seus centros de dados sob uma parceria plurianual focada em inferência de IA.

O acordo dá à Amazon uma nova forma de acelerar como os modelos de IA respondem a prompts, escrevem código e lidam com pedidos de utilizadores em tempo real. A AWS disse que irá utilizar a tecnologia Cerebras, incluindo o Wafer-Scale Engine, para tarefas de inferência.

As empresas não partilharam os termos financeiros. A configuração está planeada para o Amazon Bedrock dentro dos centros de dados da AWS, colocando a parceria diretamente dentro de um dos principais produtos de IA da Amazon.

A AWS disse que o sistema irá combinar servidores alimentados por Amazon Trainium, sistemas Cerebras CS-3 e a rede Amazon Elastic Fabric Adapter.

Mais tarde este ano, a AWS também planeia oferecer os principais modelos de linguagem de grande escala de código aberto e Amazon Nova em hardware Cerebras. David Brown, vice-presidente de Compute and ML Services na AWS, disse que a velocidade continua a ser um grande problema na inferência de IA, especialmente para ajuda de codificação em tempo real e aplicações interativas.

David disse: "A inferência é onde a IA entrega valor real aos clientes, mas a velocidade continua a ser um gargalo crítico para cargas de trabalho exigentes como assistência de codificação em tempo real e aplicações interativas."

Amazon divide prefill e decode em chips separados

A AWS disse que o design utiliza um método chamado desagregação de inferência. Isso significa dividir a inferência de IA em duas partes. A primeira parte é o processamento de prompt, também chamado prefill. A segunda parte é a geração de output, também chamada decode.

A AWS disse que as duas tarefas comportam-se de forma muito diferente. O prefill é paralelo, intensivo em computação e precisa de largura de banda de memória moderada. O decode é serial, mais leve em computação e muito mais dependente da largura de banda de memória. O decode também leva a maior parte do tempo nestes casos porque cada token de output tem de ser produzido um por um.

É por isso que a AWS está a atribuir hardware diferente a cada etapa. O Trainium irá lidar com o prefill. O Cerebras CS-3 irá lidar com o decode.

A AWS disse que a rede EFA de baixa latência e alta largura de banda irá conectar ambos os lados para que o sistema possa funcionar como um único serviço enquanto cada processador se concentra numa tarefa separada.

David disse: "O que estamos a construir com a Cerebras resolve isso: ao dividir a carga de trabalho de inferência entre Trainium e CS-3, e conectá-los com o Amazon Elastic Fabric Adapter, cada sistema faz aquilo em que é melhor. O resultado será uma inferência uma ordem de magnitude mais rápida e com desempenho superior ao que está disponível hoje."

A AWS também disse que o serviço irá funcionar no AWS Nitro System, que é a camada base para a sua infraestrutura de nuvem.

Isso significa que os sistemas Cerebras CS-3 e as instâncias alimentadas por Trainium deverão operar com a mesma segurança, isolamento e consistência que os clientes da AWS já utilizam.

Amazon pressiona mais o Trainium enquanto a Nvidia enfrenta outra ameaça

O anúncio também dá à Amazon outra abertura para pressionar o Trainium contra chips da Nvidia, AMD e outras grandes empresas de chips. A AWS descreve o Trainium como o seu chip de IA interno construído para desempenho escalável e eficiência de custos em treino e inferência.

A AWS disse que dois grandes laboratórios de IA já estão comprometidos com ele. A Anthropic nomeou a AWS como seu principal parceiro de treino e usa o Trainium para treinar e implementar modelos. A OpenAI irá consumir 2 gigawatts de capacidade Trainium através da infraestrutura AWS para Stateful Runtime Environment, modelos de fronteira e outras cargas de trabalho avançadas.

A AWS acrescentou que o Trainium3 teve forte adoção desde o seu recente lançamento, com clientes de várias indústrias a comprometer grande capacidade.

A Cerebras está a lidar com o lado de decode da configuração. A AWS disse que o CS-3 é dedicado à aceleração de descodificação, o que lhe dá mais espaço para tokens de output rápidos. A Cerebras diz que o CS-3 é o sistema de inferência de IA mais rápido do mundo e oferece milhares de vezes maior largura de banda de memória do que a GPU mais rápida.

A empresa disse que os modelos de raciocínio agora representam uma quota maior do trabalho de inferência e geram mais tokens por pedido à medida que trabalham através de problemas. A Cerebras também disse que a OpenAI, Cognition, Mistral e outros usam os seus sistemas para cargas de trabalho exigentes, especialmente codificação agêntica.

Andrew Feldman, fundador e diretor executivo da Cerebras Systems, disse: "A parceria com a AWS para construir uma solução de inferência desagregada trará a inferência mais rápida para uma base de clientes global."

Andrew acrescentou: "Todas as empresas em todo o mundo poderão beneficiar de uma inferência extremamente rápida dentro do seu ambiente AWS existente."

O acordo adiciona mais pressão sobre a Nvidia, que em dezembro assinou um acordo de licenciamento de 20 mil milhões de dólares com a Groq e planeia revelar na próxima semana um novo sistema de inferência usando tecnologia Groq.

Se está a ler isto, já está à frente. Mantenha-se assim com a nossa newsletter.

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!