NVIDIA DynamoがエージェントワークフローのストリーミングをEnhances
Luisa Crawford 2026/5/8 16:34
NVIDIA Dynamoは、より高速で正確なエージェントワークフローのための新しいツールを導入し、トークンストリーミングとツールコール処理を改善します。
NVIDIAは、Dynamoプラットフォームへの大幅なアップデートを発表しました。これは、強化されたストリーミング、パース、およびツールコール処理によってエージェントワークフローを最適化することを目的としています。これらのアップデートは、コーディングアシスタントやその他のAI駆動ツールなど、マルチターンインタラクションに依存するアプリケーションの応答性と精度の向上に焦点を当てています。
主なハイライトの一つは、ストリーミングツールコールディスパッチの導入です。この新機能により、ツールコールはデコードされると同時に実行でき、完全なレスポンスターンの完了を待つ必要がなくなります。この改善により、ユーザーの初回トークン生成時間(TTFT)が短縮されるだけでなく、推論とツールレスポンスが交互に発生するエージェントワークフローにおける非効率性も解消されます。
プロンプト安定性によるパフォーマンス向上
核心的な改善は、プロンプトの安定性とKVキャッシュの再利用に関するものです。Anthropicの課金ヘッダーなど、セッション固有のプリアンブルを排除することで、Dynamoはセッション間で一貫したトークンプレフィックスを確保します。この変更により、52Kトークンのプロンプトを使用するシステムでのNVIDIAのテストにおいて、TTFTが912msから169msへと約5倍短縮されました。
開発者にとって、複数のユーザーセッションにわたって大規模で複雑なプロンプトを処理する際に、安定したプレフィックスを維持することは不可欠です。これらの最適化は、正確で再現可能なインタラクションを必要とするClaude CodeやCodexのようなエージェントモデルにとって特に有効です。
複雑なインタラクションのための強化されたパース
Dynamoはまた、推論とツールコールのパーサーを全面的に見直し、再利用可能なモジュールとして抽出しました。これにより、開発者はパース済み出力とハーネス要件のより良い整合性を実現できます。このアップデートは、マルチターンインタラクション中に以前の推論が削除または破損されるという長年の問題に対処しています。ツールコールシーケンスを推論で説明するエージェントワークフローでは、構造化された推論を保持することが重要です。
例として、NVIDIAはNemotron-3-Super-120Bモデルが推論とツールコールが交互に現れる処理をより効果的に行えるようになり、各推論セグメントが対応するツールアクションに正しく紐付けられることを実証しました。これにより、推論が以前は誤ってグループ化され、コンテキストが失われていた問題が防止されます。
ストリーミング動作とツールディスパッチ
もう一つの大きな改善は、サイドチャネルを介してツールコールをディスパッチしながら、トークン化されたレスポンスをストリーミングする機能です。以前は、ツールコールはレスポンスの終わりまでバッファリングされ、実行が遅延していました。新しいインラインストリーミングとディスパッチ機能により、ツールコールはパースされるとすぐに実行可能となり、リアルタイムアプリケーションの応答性が大幅に向上します。
NVIDIAは、Dynamoがレスポンスの途中でツールコールをパースしてストリーミングし、即時実行を可能にする方法を示すタイムライン比較でこれを説明しました。この再設計により、ハーネス側の複雑さが最小化され、カスタムシステムとのシームレスな統合が確保されます。
APIコンプライアンスの改善
このアップデートはまた、Claude CodeやOpenClawなどのツールにとって重要なインターフェースであるAnthropic Messages APIとのDynamoの互換性を強化します。修正内容には、ストリーム開始時の適切なトークンカウントと、モデルメタデータエンドポイントを提供する機能が含まれており、どちらもDynamoをネイティブバックエンドのパリティに近づけます。
Codexユーザーにとっては、OpenAIのResponses APIとの互換性も改善されました。NVIDIAは内部リクエスト処理中に発生したフィールド保持の問題に対処し、推論サマリーやツールコールの切り捨てなど、Codex固有の機能がパフォーマンスを低下させることなくサポートされることを確保しました。
今後の展開
今後、NVIDIAはDynamoのサービングスタックの一部を、プロトコル、パーサー、トークナイザークレートを含むモジュールコンポーネントとして提供する予定です。このモジュール性により、開発者はDynamoのコア機能を複製することなく、カスタムハーネスを構築したり、既存のものを拡張したりすることができます。
これらのアップデートにより、Dynamoはエージェントワークロードのための主要なソリューションとして位置付けられ、幅広いアプリケーションにわたってより効率的で正確なマルチターンインタラクションを実現します。AI駆動ツールに依存する開発者や企業にとって、これらの機能強化はコーディング、データ分析などのタスクに向けた、より信頼性が高くハイパフォーマンスなインフラを提供します。
Image source: Shutterstock- nvidia
- ai tools
- agentic workflows
- token streaming






