NVIDIA Nemotron 3 Ultra の Amazon SageMaker JumpStart 対応
NVIDIA Nemotron 3 Ultra が Amazon SageMaker JumpStart でワンクリックデプロイ可能になった。このモデルは 550B の総パラメータを持ちながら、55B のアクティブパラメータのみを使用する Hybrid Transformer-Mamba Mixture-of-Experts (MoE) アーキテクチャを採用している。
エージェント型 AI ワークロードに特化した設計により、従来比で 5 倍の推論速度と最大 30% のコスト削減を実現する。最大 100 万トークンのコンテキスト長をサポートし、長時間実行される自律エージェントでの複雑な推論・オーケストレーション処理に最適化されている。
(出典: AWS Machine Learning Blog)
エージェント型 AI に特化したアーキテクチャの仕組み
従来のモデルと異なり、エージェントは一度の回答で終わらない。計画立案、ツール呼び出し、サブエージェントへの作業委譲、結果確認を数百ターンにわたって繰り返す。各ステップでトークンと計算量が蓄積されるため、タスク完了精度、完了時間、タスク単価が重要な指標となる。
Nemotron 3 Ultra の MoE アーキテクチャは、フォワードパス毎に 550B パラメータのうち 55B のみを活性化する。これにより 100 万トークンのコンテキスト長でも高いスループットを維持し、エージェントが数百ターンにわたる計画・ツール呼び出し・自己修正ループを持続できる。
NVFP4 精度フォーマットへの最適化により、ホスティングの高速化とコスト効率化を実現している。
(出典: AWS Machine Learning Blog)
SageMaker JumpStart での実装手順
SageMaker Studio から GUI でデプロイする場合、JumpStart の Foundation Models セクションで Nemotron 3 Ultra を選択し、ワンクリックでエンドポイントを作成できる。
Python SDK を使用する場合は以下のコードで実装する:
import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
role=sagemaker.get_execution_role(),
)
predictor = model.deploy(accept_eula=True)
推論実行時は以下の形式でリクエストを送信する:
payload = {
"messages": [{
"role": "user",
"content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
使用後は predictor.delete_endpoint() でエンドポイントを削除し、継続課金を回避する。
(出典: AWS Machine Learning Blog)
企業向けユースケースとコスト考慮
Nemotron 3 Ultra は持続的な多段階推論が必要なワークロードで威力を発揮する。具体的な企業向けユースケースとして、複雑なビジネスプロセスの自動化、長期間の意思決定支援、マルチステップの分析タスクなどが挙げられる。
デプロイ時の注意点として、ml.p5en.48xlarge などの GPU インスタンスは時間あたり数ドルの費用が発生する。Amazon SageMaker AI の料金体系を事前に確認し、使用後は必ずエンドポイントを削除することが重要だ。
モデルのデプロイには EULA(エンドユーザーライセンス契約)への同意が必要で、accept_eula=True パラメータを指定する必要がある。
(出典: AWS Machine Learning Blog)
まとめ
- SageMaker JumpStart の GUI または Python SDK を使って Nemotron 3 Ultra を即座にデプロイし、エージェント型 AI アプリケーションの開発を開始できる
- MoE アーキテクチャの特性を活用して、従来の密なモデルでは実現困難だった長期間・多段階の推論タスクを効率的に処理できる
- NVFP4 最適化により、同等品質の密なモデルと比較して大幅なコスト削減を実現しながら、企業の複雑なビジネスプロセス自動化に適用できる