Stability AI、2D画像を3D動画に変換する新AIモデル「Stable Virtual Camera」を発表

2025年3月18日、Stability AI社は2D画像から3D動画を生成できる新たなAIモデル「Stable Virtual Camera」を発表した。最低1枚から、最大32枚の画像を元に、3D一貫性のある新視点を生成し、ダイナミックな画角で最大30秒の動画を作成できる。現在、研究目的での利用が可能となっており、映画制作からメタバースコンテンツまで幅広い分野での活用が期待されている。
3D空間を自由に移動するカメラワークを実現
Stability AI社は、画像や動画などのビジュアル面に専門性があるAI企業だ。特に、テキストから画像を生成できるAIモデル、「Stable Diffusion」が有名だが、今回の発表により、「画像⇒動画」という領域にも本格的に進出したことになる。
「Stable Virtual Camera」の特徴は、単一または複数の2D画像から、3D空間における新たな視点からの動画を生成できる点にある。ユーザーは、写真一枚あれば、動画を撮影せずとも別角度からの動画を生成することが可能だ。
カメラワークの指示も柔軟に行うことができる。360度回転、スパイラル、ドリーズーム、パンなど、ダイナミックなカメラ軌道を自由に指定できるため、従来の静止画像から想像もつかなかった空間的広がりを表現することが可能となった。カメラワークの自由度から、ユーザーのイメージ通りの動画を作成することができる。
アスペクト比を指定する機能も備えており、現在は正方形(1:1)、縦長(9:16)、横長(16:9)の比で動画を生成できる。
経営体制刷新と技術革新で勢力を拡大
Stable Virtual Cameraの発表は、Stability AIの経営体制刷新と技術革新の両輪による事業拡大戦略の一環と見られる。資金面においても、元グーグルCEOのエリック・シュミット氏やFacebookの共同創業者ショーン・パーカー氏らからの新規資金調達に成功。さらに半導体企業Armとの提携によりモバイル向けAIモデル開発も進行中であり、AIモデルの普及拡大を目指した包括的な事業展開を加速させている。
Stable Virtual Cameraの応用範囲は広く、デジタル映画制作や3Dアニメーション制作の効率化にとどまらず、メタバース空間のコンテンツ制作、NFTプレゼンテーションの強化、マーケティング資料の動的表現、教育コンテンツの視覚化など、多岐にわたる分野での活用が見込まれている。
現在、同モデルは非商用ライセンスの下でHugging Faceからアクセス可能となっており、研究目的での利用が認められている。現在は商用利用への利用拡大への方針は不透明だが、許可されればクリエイティブ産業にも大きな影響が出るだろう。
一方で、AIによる映像生成技術の発展に伴い、著作権問題や偽情報拡散といった倫理的課題への対応も求められることになる。今後の動きに注目が必要だ。