NVIDIAが1分動画生成AIを公開　精密な視点制御で映像制作の前提が変わる

2026年5月14日、米NVIDIAの研究チームは、最長1分の動画生成に対応したAIモデル「SANA-WM」を発表した。カメラの動きを精密に制御できる点が特徴で、長尺かつ一貫性のある映像生成の実用化に一歩近づいた。

1分動画と6自由度制御を実現

SANA-WMは、約26億パラメータ規模のオープンソース型ワールドモデル（※）であり、720p解像度の動画を最長60秒まで生成できる。従来の動画生成AIは数秒単位の出力が主流で、長時間の映像では構図や物体の整合性が崩れやすいという課題があった。

同モデルはこの課題に対し、「ハイブリッド線形注意機構」を採用することで対応する。長い時間の流れを効率よく保持しながら、必要な場面では細部情報を参照する仕組みを組み合わせており、長尺でも一貫性を維持しやすい構造となっている。

さらに特徴的なのが、6自由度のカメラ制御への対応である。前後・左右・上下の移動に加え、回転を含む視点操作が可能となり、任意のカメラ軌道に沿った映像生成を実現する。加えて、粗いカメラ動作とフレーム単位の細かな変化を扱う2系統の制御により、長時間でも視点のズレを抑制する設計が採用されている。

画質面では、生成後に品質を補正するリファイナーを組み合わせた2段階構成を採用する。これにより、フレーム間のつながりや細部表現が補強される。学習には約21万本の動画が用いられ、64基のH100 GPUで約15日間の訓練を実施。推論時には単一GPUでも60秒動画の生成が可能で、蒸留モデルではRTX 5090上で処理時間を大幅に短縮できるとされる。

※ワールドモデル：現実や仮想空間の構造や視点の変化をAI内部で再現し、時間的連続性を持つ映像や状態を生成するモデル

制御性が拓く用途拡大と課題

SANA-WMの意義は、動画生成AIの価値軸を「長さ」から「制御性」へと拡張する可能性を示した点にある。カメラワークを精密に指定できることで、映像制作における演出の自由度が高まり、制作工程の効率化や試行回数の増加につながると考えられる。

特にゲーム開発や自動運転のシミュレーション領域では、視点の正確な再現が重要とされる場面が多く、実データに依存しない環境生成の価値は高まる可能性がある。検証コストの削減や開発スピードの向上といった波及効果も期待される。

一方で、計算資源への依存は依然として大きな制約となる可能性がある。高品質な長尺動画の生成には高性能GPUが必要であり、利用環境によっては導入障壁が高い。また、長時間生成における物理的整合性や細部の破綻といった問題も完全には解消されていない。

SANA-WM 公式プロジェクトページ

NVIDIAがコーニングに5億ドル規模の権利取得　AIデータセンター競争は供給網争奪戦へ

NVIDIA、AI「Ising」発表　量子エラー訂正で実用化加速

NVIDIAが1分動画生成AIを公開　精密な視点制御で映像制作の前提が変わる

1分動画と6自由度制御を実現

制御性が拓く用途拡大と課題

PlusWeb3 編集部

Web3・AI・ディープテック領域のキャリアに興味がありますか？

NVIDIAが1分動画生成AIを公開 精密な視点制御で映像制作の前提が変わる

1分動画と6自由度制御を実現

制御性が拓く用途拡大と課題

PlusWeb3 編集部

関連する最新記事

ベライゾン警告、AIが“脆弱性発見”を加速 認証情報盗用を超えた新たなサイバー脅威へ

Pacific Meta、ブロックチェーン導入支援開始 日本企業向け海外基盤導入を支援

GitHub、VS Code拡張機能経由の不正アクセスを確認 内部リポジトリ流出可能性を調査中

Web3・AI・ディープテック領域のキャリアに興味がありますか？

NVIDIAが1分動画生成AIを公開　精密な視点制御で映像制作の前提が変わる

ベライゾン警告、AIが“脆弱性発見”を加速　認証情報盗用を超えた新たなサイバー脅威へ

Pacific Meta、ブロックチェーン導入支援開始日本企業向け海外基盤導入を支援

GitHub、VS Code拡張機能経由の不正アクセスを確認　内部リポジトリ流出可能性を調査中