NVIDIA Nemotron 3 Super Chega ao Together AI Com Janela de Contexto de 1M Tokens

Jessie A Ellis 11 de mar. de 2026 21:43

O modelo Nemotron 3 Super de 120B parâmetros da NVIDIA já está disponível no Together AI, oferecendo ganhos de throughput 5x superiores para sistemas de IA multi-agente e cargas de trabalho empresariais.

NVIDIA Nemotron 3 Super Chega ao Together AI Com Janela de Contexto de 1M Tokens

A Together AI anunciou a disponibilidade do Nemotron 3 Super da NVIDIA na sua plataforma Dedicated Inference a 11 de março, dando aos programadores empresariais acesso a um modelo de raciocínio de 120 mil milhões de parâmetros otimizado para sistemas de IA multi-agente. As ações da NVIDIA foram negociadas a $186,03, subindo 0,66% com a notícia.

O momento é importante. O Nemotron 3 Super representa o segundo modelo de pesos abertos da NVIDIA na família Nemotron 3, após o lançamento do Nano em dezembro, e visa um ponto problemático específico na IA de produção: a sobrecarga computacional de executar fluxos de trabalho complexos de agentes em escala.

Por Que a Arquitetura Importa

Eis o que torna este modelo diferente da típica corrida armamentista de contagem de parâmetros. Apesar dos seus 120B parâmetros totais, apenas 12B estão ativos durante a inferência. O design híbrido—combinando atenção Transformer com processamento de sequência Mamba—entrega o que a NVIDIA afirma ser um throughput 5x superior ao modelo Nemotron Super anterior.

A janela de contexto de 1 milhão de tokens aborda o que os programadores chamam de "explosão de contexto". As aplicações multi-agente podem consumir 15x mais tokens do que as interações de chat padrão, e a maioria dos modelos sufoca com essa carga. O Nemotron 3 Super lida com bases de código inteiras, armazenamentos extensos de documentos e trajetórias de agentes prolongadas sem o declínio de desempenho.

O treino Multi-Token Prediction permite ao modelo gerar vários tokens simultaneamente por passagem direta. Para geração de código ou saídas estruturadas, a NVIDIA reporta uma geração de tokens 50% mais rápida em comparação com os principais modelos abertos.

A Estratégia da Together AI

Executar um modelo híbrido de 120B com contexto de milhão de tokens normalmente exige computação distribuída através de múltiplos nós. A oferta Dedicated Inference da Together AI simplifica a implementação para GPUs NVIDIA H200 ou H100 únicas—sem necessidade de provisionamento de GPU do lado do programador.

A plataforma promete SLA de 99,9% de tempo de atividade e conformidade SOC 2, posicionando isto como infraestrutura pronta para empresas em vez de experimentação de nível de investigação.

Aplicações de Produção

Os casos de uso alvo incluem assistentes de programadores que analisam bases de código, sistemas empresariais de processamento de documentos, triagem de vulnerabilidades de cibersegurança e camadas de orquestração que encaminham tarefas através de agentes especializados.

A abordagem de pesos abertos—lançada sob a Licença de Modelo Aberto Nemotron da NVIDIA—permite que as equipas afinarem para ambientes específicos e implementem no local, uma consideração crítica para empresas com requisitos de soberania de dados.

A NVIDIA também anunciou o NemoClaw a 10 de março, uma plataforma de código aberto para Agentes de IA que pode complementar as implementações do Nemotron 3 Super. Os programadores podem aceder ao modelo através do nível de inferência dedicado da Together AI imediatamente.

Fonte da imagem: Shutterstock