2026年3月6日、動画生成AIモデル「LTX-2.3」が公開された。ローカル環境で実行可能なオープンモデルとして提供され、画像から動画を生成する精度や音声品質が大幅に向上している。同時にWindowsとmacOS向けの無料アプリ「LTX Desktop」も公開され、PC上で動画生成を行う環境が拡大する可能性がある。
LTX-2.3公開 ローカル動画生成AIが進化
今回公開されたLTX-2.3は、ローカル環境で動作する動画生成AIモデルの最新版である。前世代の「LTX-2」を基盤に、プロンプト理解力や動画生成の一貫性、音声品質など複数の要素が強化された。
特に注目されるのが、画像から動画を生成する「I2V(Image-to-Video)」処理を前提に設計された点だ。複数の画像を入力し、それらを自然につなげて動画化する処理精度が向上しており、キャラクターや背景の連続性が維持された映像生成が可能になった。
また、テキストエンコーダー(※)の規模が従来の約4倍に拡張され、プロンプトの理解力も改善された。カメラワークや構図、キャラクターの動作など細かな指示をより正確に反映できるようになり、クリエイターの意図を動画に反映しやすくなったと言える。
さらに、映像生成の内部表現を担うVAE(※)も更新され、描写の精細化と動きの安定性が高まった。音声品質も改善されており、ノイズの少ない明瞭な音声付き動画を生成できる点も特徴の一つとなっている。
LTX-2.3の公開と同時に、動画生成を実行できるデスクトップアプリ「LTX Desktop」も公開された。Windows版ではLTX-2.3をローカルで直接実行でき、macOS版ではAPIを介してモデルを利用する仕組みを採用している。
Windows版の最小要件として、32GB以上のVRAM、32GB以上のRAM、60GB以上のストレージが必要とされる。
現在の時点ではNVIDIA製GPUにのみ対応しており、AMDやIntelへの対応も開発が進められている段階だ。
※テキストエンコーダー:入力された文章(プロンプト)をAIが理解できる数値表現へ変換するモデル。規模が大きいほど複雑な指示を解釈しやすくなる。
※VAE(Variational Autoencoder):画像や動画の特徴を圧縮し再構成する生成AI技術。映像品質や動きの滑らかさに影響する重要な要素。
ローカル動画生成AIがもたらす可能性
LTX-2.3の登場は、動画生成AIの利用環境を大きく変える可能性を持つと言える。
これまで高品質な動画生成はクラウド型サービスが中心であり、生成回数や料金、処理待ち時間といった制約が存在していた。ローカル実行が可能になれば、ユーザーはPC上で自由に試行錯誤を行いながら映像制作を進められるようになる。
また、データを外部サーバーへ送信せずに生成できる点も重要である。企業の機密資料や未公開コンテンツを扱う場合、クラウド利用には情報漏えいの懸念が伴う。ローカル環境で処理を完結できれば、このリスクを一定程度抑えられると考えられる。
一方で、普及にはハードウェア面の課題も残る。現時点で必要とされるVRAM32GBという要件は一般的なPCユーザーには高く、対応GPUもNVIDIA製に限られている。高性能GPUの導入コストが、利用拡大の障壁になる可能性は否定できない。
それでも、ローカル動画生成AIが実用段階へ近づいていることは重要な転換点と言える。今後さらにモデルの軽量化やGPU性能の向上が進めば、より一般的なPCやモバイル端末でも動画生成が可能になるだろう。
画像生成AIが急速に普及したように、動画生成も同様に「個人制作の標準ツール」へと進化していく展開が期待される。