メインコンテンツへスキップ
最新ニュース 3分で読める

NVIDIAが1分動画生成AIを公開 精密な視点制御で映像制作の前提が変わる

PlusWeb3 編集部
PlusWeb3 編集部 Web3・AI専門メディア

2026年5月14日、米NVIDIAの研究チームは、最長1分の動画生成に対応したAIモデル「SANA-WM」を発表した。カメラの動きを精密に制御できる点が特徴で、長尺かつ一貫性のある映像生成の実用化に一歩近づいた。

1分動画と6自由度制御を実現

SANA-WMは、約26億パラメータ規模のオープンソース型ワールドモデル(※)であり、720p解像度の動画を最長60秒まで生成できる。従来の動画生成AIは数秒単位の出力が主流で、長時間の映像では構図や物体の整合性が崩れやすいという課題があった。

同モデルはこの課題に対し、「ハイブリッド線形注意機構」を採用することで対応する。長い時間の流れを効率よく保持しながら、必要な場面では細部情報を参照する仕組みを組み合わせており、長尺でも一貫性を維持しやすい構造となっている。

さらに特徴的なのが、6自由度のカメラ制御への対応である。前後・左右・上下の移動に加え、回転を含む視点操作が可能となり、任意のカメラ軌道に沿った映像生成を実現する。加えて、粗いカメラ動作とフレーム単位の細かな変化を扱う2系統の制御により、長時間でも視点のズレを抑制する設計が採用されている。

画質面では、生成後に品質を補正するリファイナーを組み合わせた2段階構成を採用する。これにより、フレーム間のつながりや細部表現が補強される。学習には約21万本の動画が用いられ、64基のH100 GPUで約15日間の訓練を実施。推論時には単一GPUでも60秒動画の生成が可能で、蒸留モデルではRTX 5090上で処理時間を大幅に短縮できるとされる。

※ワールドモデル:現実や仮想空間の構造や視点の変化をAI内部で再現し、時間的連続性を持つ映像や状態を生成するモデル

制御性が拓く用途拡大と課題

SANA-WMの意義は、動画生成AIの価値軸を「長さ」から「制御性」へと拡張する可能性を示した点にある。カメラワークを精密に指定できることで、映像制作における演出の自由度が高まり、制作工程の効率化や試行回数の増加につながると考えられる。

特にゲーム開発や自動運転のシミュレーション領域では、視点の正確な再現が重要とされる場面が多く、実データに依存しない環境生成の価値は高まる可能性がある。検証コストの削減や開発スピードの向上といった波及効果も期待される。

一方で、計算資源への依存は依然として大きな制約となる可能性がある。高品質な長尺動画の生成には高性能GPUが必要であり、利用環境によっては導入障壁が高い。また、長時間生成における物理的整合性や細部の破綻といった問題も完全には解消されていない。

SANA-WM 公式プロジェクトページ

関連記事:

NVIDIAがコーニングに5億ドル規模の権利取得 AIデータセンター競争は供給網争奪戦へ

NVIDIA、AI「Ising」発表 量子エラー訂正で実用化加速

Share this article コピーしました
WRITTEN BY

PlusWeb3 編集部

Web3・AI専門メディア

PlusWeb3 編集部は、ブロックチェーン・Web3・AIの最新動向をわかりやすくお届けする専門メディアチームです。業界経験豊富な編集者とリサーチャーが、信頼性の高い情報を厳選してお届けします。

コピーしました

Web3・AI・ディープテック領域のキャリアに興味がありますか?

業界特化メディアを運営する専門エージェントが、企業のカルチャー・技術スタック・選考ポイントまで踏まえてキャリアをご提案します。相談は完全無料です。