NVIDIA Nemotron 3 Super 登陸 Together AI，配備 100 萬 Token 上下文視窗

Jessie A Ellis 2026 年 3 月 11 日 21:43（UTC +8）

NVIDIA 的 1,200 億參數 Nemotron 3 Super 模型現已在 Together AI 上推出，為多代理 AI 系統和企業工作負載提供 5 倍的吞吐量提升。

Together AI 於 3 月 11 日宣布在其專用推理平台上推出 NVIDIA 的 Nemotron 3 Super，讓企業開發者能夠使用這款針對多代理 AI 系統優化的 1,200 億參數推理模型。NVIDIA 股價報 186.03 美元，因此消息上漲了 0.66%。

時機很重要。Nemotron 3 Super 是 NVIDIA 在 Nemotron 3 系列中的第二款開放權重模型，繼 12 月推出的 Nano 之後，針對生產 AI 中的一個特定痛點：大規模運行複雜代理工作流程的運算開銷。

架構為何重要

這就是讓這個模型與典型的參數計數競賽不同之處。儘管其總參數達 1,200 億，但推理期間只有 120 億處於活躍狀態。混合設計——結合 Transformer 注意力機制與 Mamba 序列處理——提供 NVIDIA 聲稱比前一代 Nemotron Super 模型高 5 倍的吞吐量。

100 萬 Token 的上下文視窗解決了開發者所稱的「上下文爆炸」問題。多代理應用程式消耗的 Token 可能比標準聊天互動多 15 倍，而大多數模型在這種負載下會卡頓。Nemotron 3 Super 能處理完整的程式碼庫、冗長的文件儲存庫和延伸的代理軌跡，而不會出現效能斷崖。

多 Token 預測訓練允許模型在每次前向傳遞中同時生成多個 Token。對於程式碼生成或結構化輸出，NVIDIA 報告其 Token 生成速度比領先的開放模型快 50%。

運行具有百萬 Token 上下文的 1,200 億混合模型通常需要跨多個節點的分散式運算。Together AI 的專用推理服務將部署簡化為單個 NVIDIA H200 或 H100 GPU——開發者端無需配置 GPU。

該平台承諾 99.9% 的正常運行時間 SLA 和 SOC 2 合規性，將其定位為企業級基礎設施而非研究級實驗。

目標使用案例包括分析程式碼庫的開發者助手、企業文件處理系統、網路安全漏洞分類，以及在專業代理之間路由任務的編排層。

開放權重方法——根據 NVIDIA 的 Nemotron Open Model License 發布——允許團隊針對特定環境進行微調並部署在本地，這對於有資料主權要求的企業來說是關鍵考量。

NVIDIA 還於 3 月 10 日宣布推出 NemoClaw，這是一個用於 AI 代理的開源平台，可以補充 Nemotron 3 Super 的部署。開發者可以立即透過 Together AI 的專用推理層存取該模型。

圖片來源：Shutterstock