NVIDIA Nemotron 3 Super 登陸 Together AI,配備 100 萬 Token 上下文視窗
Jessie A Ellis 2026 年 3 月 11 日 21:43(UTC +8)
NVIDIA 的 1,200 億參數 Nemotron 3 Super 模型現已在 Together AI 上推出,為多代理 AI 系統和企業工作負載提供 5 倍的吞吐量提升。
Together AI 於 3 月 11 日宣布在其專用推理平台上推出 NVIDIA 的 Nemotron 3 Super,讓企業開發者能夠使用這款針對多代理 AI 系統優化的 1,200 億參數推理模型。NVIDIA 股價報 186.03 美元,因此消息上漲了 0.66%。
時機很重要。Nemotron 3 Super 是 NVIDIA 在 Nemotron 3 系列中的第二款開放權重模型,繼 12 月推出的 Nano 之後,針對生產 AI 中的一個特定痛點:大規模運行複雜代理工作流程的運算開銷。
架構為何重要
這就是讓這個模型與典型的參數計數競賽不同之處。儘管其總參數達 1,200 億,但推理期間只有 120 億處於活躍狀態。混合設計——結合 Transformer 注意力機制與 Mamba 序列處理——提供 NVIDIA 聲稱比前一代 Nemotron Super 模型高 5 倍的吞吐量。
100 萬 Token 的上下文視窗解決了開發者所稱的「上下文爆炸」問題。多代理應用程式消耗的 Token 可能比標準聊天互動多 15 倍,而大多數模型在這種負載下會卡頓。Nemotron 3 Super 能處理完整的程式碼庫、冗長的文件儲存庫和延伸的代理軌跡,而不會出現效能斷崖。
多 Token 預測訓練允許模型在每次前向傳遞中同時生成多個 Token。對於程式碼生成或結構化輸出,NVIDIA 報告其 Token 生成速度比領先的開放模型快 50%。
Together AI 的策略
運行具有百萬 Token 上下文的 1,200 億混合模型通常需要跨多個節點的分散式運算。Together AI 的專用推理服務將部署簡化為單個 NVIDIA H200 或 H100 GPU——開發者端無需配置 GPU。
該平台承諾 99.9% 的正常運行時間 SLA 和 SOC 2 合規性,將其定位為企業級基礎設施而非研究級實驗。
生產應用
目標使用案例包括分析程式碼庫的開發者助手、企業文件處理系統、網路安全漏洞分類,以及在專業代理之間路由任務的編排層。
開放權重方法——根據 NVIDIA 的 Nemotron Open Model License 發布——允許團隊針對特定環境進行微調並部署在本地,這對於有資料主權要求的企業來說是關鍵考量。
NVIDIA 還於 3 月 10 日宣布推出 NemoClaw,這是一個用於 AI 代理的開源平台,可以補充 Nemotron 3 Super 的部署。開發者可以立即透過 Together AI 的專用推理層存取該模型。
圖片來源:Shutterstock- nvidia
- ai 基礎設施
- nemotron
- together ai
- 企業 ai








