米Googleは開発者会議「Google I/O 2026」で新たなコンテンツ生成モデル「Gemini Omni」を発表した。
動画を起点に、画像、音声、テキストなど複数入力からメディアを生成・編集できるモデルである。
Gemini Omniで動画生成・編集に対応
Googleは2026年5月19日、開発者会議「Google I/O 2026」において、新たなコンテンツ生成モデル「Gemini Omni」を発表した。
Gemini Omniは、Geminiの推論能力と生成能力を融合し、動画などのあらゆる入力からメディア生成に対応する新モデルである。
同モデルは、画像、音声、動画、テキストを入力として組み合わせ、Geminiが持つ実世界に関する知識をもとに動画を生成する。
まずは動画から対応を開始し、将来的には画像や音声などの出力形式にも対応する予定としている。
Omniファミリーの最初のモデルとなる「Gemini Omni Flash」は、Geminiアプリ、Google Flow、YouTube Shortsで提供が始まった。
Gemini Omniでは、自然言語だけで動画を編集できる。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴を一貫して維持し、物理法則やシーン全体の流れも保持できるという。
自分で撮影した動画をもとに、キャラクターの動きの編集、新しいキャラクターやオブジェクトの追加、背景の入れ替えにも対応する。
提供面では、Gemini Omni Flashが19日からGoogle AI Plus、Pro、Ultraユーザーに向けて、GeminiアプリとGoogle Flowを通じて順次提供される。
今週からはYouTube ShortsとYouTube Createアプリユーザーにも提供され、数週間以内にはAPIを通じてデベロッパーや企業向けにも展開される予定である。
Gemini Omniで作成されたすべての動画には、電子透かし技術「SynthID(※)」が埋め込まれる。
AI生成かどうかの判定は、Geminiアプリ、Gemini in Chrome、Google検索などで確認できるほか、来歴記録のC2PA対応も強化していくとしている。
※SynthID:Googleが用いる電子透かし技術。AIで生成されたコンテンツに識別情報を埋め込み、AI生成物かどうかを判定しやすくする仕組みである。
制作効率化の一方で透明性が課題に
Gemini Omniは、動画制作のハードルを大きく下げる可能性がある。
従来は編集ソフトの操作や合成技術、撮影素材の準備が必要だった作業でも、自然言語で指示を重ねることで、映像の雰囲気や動き、背景、登場人物を調整しやすくなる。
クリエイターだけでなく、企業のマーケティング担当者や個人発信者にとっても、企画から試作までの時間を短縮する手段になりうる。
特に、画像、音声、動画、テキストを組み合わせて1つの動画作品を作れる点は、制作フローの変化につながる。
文章で構成を示し、画像で世界観を補い、既存動画を素材として編集するような使い方が広がれば、短尺動画や広告、SNS投稿の制作スピードはさらに高まるだろう。
YouTube ShortsやYouTube Createとの連携は、日常的な動画投稿にAI生成を組み込む導線として機能する可能性がある。
今後は、利便性と信頼性の両立が普及の鍵になる。
Gemini Omniが動画以外の出力形式にも広がれば、コンテンツ制作の基盤としての存在感は増すと考えられる。制作効率を高めながら、透明性を確保できるかが重要になりそうだ。
関連記事:
グーグル、「Veo 3.1 Lite」発表 動画生成AIのコスト50%削減
