Geminiが動画生成AI「Omni」を発表

Googleは2026年5月20日、新しいモデルファミリー「Gemini Omni」を発表しました。第一弾となるGemini Omni Flashは、画像、音声、動画、テキストなどを組み合わせて入力し、動画を中心としたコンテンツ生成や編集を行えるモデルです。自然な言葉で指示するだけで、撮影した映像に新しい動きや人物、効果を加えたり、背景やカメラの見え方を調整したりできる点が特徴です。

また、生成された動画にはSynthIDによる電子透かしが埋め込まれ、AIで作られた動画かどうかを確認しやすくする仕組みも用意されています。クリエイターだけでなく、企業の発信、教育、SNS動画などにも活用が広がる可能性があるため、本プロジェクトの詳細を考察します。

言葉だけで動画を作り変えるGemini Omniの登場

Gemini Omniは、Googleが発表した新しい生成AIモデルファミリーです。第一弾となるGemini Omni Flashは、動画を中心に、画像、音声、動画、テキストなどを組み合わせて入力できる点が大きな特徴です。これまでの動画制作では、撮影、編集、音の調整、効果の追加などに専門的な知識や複数のツールが必要になることが多くありました。しかしGemini Omniでは、ユーザーが自然な言葉で指示するだけで、撮影した映像に新しい動きを加えたり、背景やカメラの見え方を変えたり、別の雰囲気の作品へ作り変えたりできるとされています。

Googleは、Geminiを開発の早い段階からマルチモーダルなAIとして作ってきたと説明しています。マルチモーダルとは、文章だけでなく、画像、音声、動画など、いくつもの種類の情報をまとめて扱える仕組みのことです。Gemini Omniは、その流れをさらに動画表現へ広げるものだと考えられます。

特に注目されるのは、単に動画の見た目を変えるだけでなく、前の指示や映像の流れを保ちながら編集を重ねられる点です。たとえば、一度作った映像に対して「背景を変えてください」「もう少し映画のような雰囲気にしてください」と伝えることで、やり取りをしながら完成に近づけられる可能性があります。これにより、動画制作に慣れていない人でも、自分のイメージを形にしやすくなると考えられます。

参照：Google Japan Blog「Gemini Omni を発表」

会話するように映像を編集できる新しい制作体験

Gemini Omniの特徴は、動画を一度作って終わりにするのではなく、やり取りを重ねながら少しずつ完成形に近づけられる点にあります。本項では、Gemini Omniが動画編集の体験をどのように変えようとしているのかを3つの視点から整理します。

前の流れを保ったまま編集を重ねられる

Gemini Omniでは、ユーザーが出した指示が前の内容を引き継ぐ形で扱われます。たとえば、登場人物の見た目やシーン全体の雰囲気を保ちながら、「背景だけを変える」「動きを追加する」「カメラの角度を変える」といった編集ができると説明されています。これは、動画制作に慣れていない人にとって大きな助けになると考えられます。通常であれば、少しの変更でも全体のつながりが崩れないように気を配る必要があります。登場人物の見た目が急に変わったり、場面の流れが不自然になったりすると、見る人に違和感を与えてしまいます。Gemini Omniは、シーンの流れを理解しながら編集を重ねることを目指しているため、何度か指示を出しながら作品を整えやすくなる可能性があります。

撮影した動画を別の作品へ作り変えられる

Gemini Omniは、すでに撮影した動画をもとに、そこで起きている出来事を変えたり、新しい要素を加えたりできるとされています。たとえば、人物が鏡に触れた瞬間に鏡面が液体のように波打つ映像や、腕が鏡のような素材へ変化する映像のように、現実の撮影だけでは表現しにくい演出も作れる可能性があります。これは、単なる色味の変更やフィルター加工ではなく、映像の中で起きる出来事そのものを作り変える使い方に近いものです。個人のSNS投稿では印象に残る短い動画の制作に役立つ可能性があり、企業の情報発信や商品紹介でも表現の選択肢を広げる手段になると考えられます。

背景や雰囲気の変更が試行錯誤を支える

Gemini Omniでは、背景、カメラの見え方、映像の雰囲気、細かい部分まで調整できると紹介されています。これは、動画制作における「もう少し明るい雰囲気にしたい」「別の角度から見せたい」「映画のような質感にしたい」といった感覚的な要望を、言葉で伝えられることを意味します。特に、企画段階で複数の表現案を試したい場合には、制作のスピードを上げる効果が期待できます。完成前のイメージを確認するための試作や、複数の案を比べる用途にも使われる可能性があります。広告案、プレゼン用の映像、教育向けの説明動画などを検討する場面でも役立つと考えられます。

現実の知識を活かして意味のある動画を作る仕組み

Gemini Omniは、見た目がきれいな動画を作るだけでなく、映像の中で起きることに自然なつながりを持たせる点にも力が入れられています。本項では、単なる映像加工にとどまらないGemini Omniの特徴を3つの視点から紹介します。

物の動きや水の表現をより自然に見せられる

動画生成AIで難しい要素のひとつが、現実らしい動きの再現です。水が流れる様子、物が転がる動き、重さを感じる落下の様子などは、少しでも不自然だと見る人に違和感を与えます。Gemini Omniは、重力、物の動き、水や液体の動きなどに対する理解を高めることで、より自然な映像表現を目指しているとされています。たとえば、ビー玉が連鎖反応のコースを転がるような映像では、スピード感や物同士のつながりが重要になります。途中で動きが急に変わったり、現実では起こりにくい動きをしたりすると、映像としての説得力が弱くなってしまいます。

言葉と映像の意味をつなげて表現できる

Gemini Omniは、Geminiが持つ知識を活用し、入力された言葉と映像の意味を結びつけることを目指しています。これは、単に「それらしい映像」を出すだけではなく、指示に含まれる意図や背景をくみ取って動画に反映する方向性だと考えられます。たとえば、アルファベットごとに珍しいアイテムを登場させる動画では、文字、対象物、画面上のテロップ、音楽のテンポなど、複数の条件を同時に扱う必要があります。こうした複雑な指示に対応できれば、教育コンテンツやSNS向けの短い動画、商品紹介などで、より伝わりやすい演出がしやすくなります。

複雑なテーマをわかりやすい動画に変えられる

Gemini Omniは、短い指示から説明動画を作れる可能性も示されています。Googleの紹介では、タンパク質の折りたたみをクレイアニメ風に説明する例が挙げられています。タンパク質の構造変化のような専門的なテーマは、文章や図だけでは理解しにくい場合があります。しかし、動きのある映像にすることで、流れや変化を直感的に伝えやすくなります。教育分野では、授業や研修の内容に合わせた補助動画づくりに役立つ可能性があります。企業でも、複雑なサービス内容や技術の仕組みを顧客に伝える場面で活用が考えられます。文章で説明すると長くなってしまう内容でも、短い動画にすることで理解しやすくなることがあります。

複数の素材を組み合わせて作品化するGemini Omniの強み

Gemini Omniのもうひとつの重要な特徴は、ひとつの指示文だけでなく、画像、音声、動画、テキストなどの素材を組み合わせて使える点です。Googleは、入力リファレンス機能によって、キャラクター画像、背景、手描きスケッチ、音声素材などをもとに、まとまりのある動画を生成できると説明しています。ユーザーは頭の中にある完成イメージを、より具体的にAIへ伝えやすくなります。

たとえば、参考画像で映像の雰囲気を伝え、音楽のリズムに合わせて動きを加え、別の動画を参考にして演出の方向性をそろえるような使い方が考えられます。これは、文章だけでは伝えにくい「質感」「テンポ」「世界観」を素材で補える仕組みだといえます。

特に、ブランド動画やSNS向けの短い映像では、色味、動き、音の印象が見る人の記憶に残りやすくなります。そのため、複数の素材を自然にまとめられることは大きな価値になると考えられます。手描きのスケッチや好きな雰囲気の画像をもとにできれば、映像制作の経験が少ない人でも完成イメージを伝えやすくなります。

一方で、手元の素材を使う場合は、権利や利用許可にも注意が必要です。画像や音楽、人物の映像を使う際には、使ってよい素材かどうかを確認する必要があります。Gemini Omniは、創作の自由度を高めるだけでなく、素材をどう組み合わせて伝えるかという制作の考え方も変えていく可能性があります。

今後の展望

Gemini Omniは、動画生成AIを「一部の専門家が使う高度な制作ツール」から「多くの人が言葉で扱える表現手段」へ近づける可能性があります。今後は、動画編集、教育、広告、アバター活用、AI生成コンテンツの透明性など、複数の領域で使われ方が広がっていくと考えられます。

個人や小規模チームでも動画制作を進めやすくなる

Gemini Omniの活用が広がると、これまで動画制作に十分な予算や人員をかけにくかった個人や小規模チームにも、新しい選択肢が生まれると考えられます。たとえば、店舗の新商品紹介、イベント告知、採用向けの短い動画、SNS投稿用のコンテンツなどは、従来であれば撮影、編集、ナレーション、効果音、テロップ制作を分けて進める必要がありました。制作に慣れていない人にとっては、最初の一歩が重く感じられる場面も少なくありませんでした。

Gemini Omniでは、手元の写真や短い動画、音声、文章の指示を組み合わせることで、完成イメージに近い動画を作れる可能性があります。これにより、完成前のイメージを確認するための試作や、企画段階で複数の表現を比べる用途にも使われる可能性があります。特に、自然な言葉で修正を重ねられる点は、動画編集ソフトに慣れていない人にとって大きな助けになります。

ただし、AIが作った動画をそのまま使うだけでは、どの企業や個人の発信も似た印象になる可能性があります。そのため今後は、AIに任せる部分と、人が判断する部分を分けて考えることが重要になります。

教育や説明動画で難しい内容を伝えやすくなる

Gemini Omniは、教育や研修の分野でも活用の可能性があります。特に、科学、歴史、医療、工学、金融、法律のように、文章だけでは理解しにくいテーマでは、短い動画による説明が役立つことがあります。Googleが紹介しているように、Gemini Omniは物の動きや世界知識を活用した映像表現に対応する方向で設計されています。そのため、タンパク質の折りたたみ、物体の運動、歴史上の出来事の流れ、製品の仕組みなどを、視覚的にかみ砕いて示す使い方が期待できます。

たとえば、授業では、先生が説明した内容を補う短い動画として使える可能性があります。企業研修では、複雑な業務手順や安全に関する注意点を、文字のマニュアルだけでなく映像でも伝えられるかもしれません。新入社員向けの説明や、顧客向けの使い方ガイドなどでも、動画にすることで理解しやすくなる場面が考えられます。

一方で、教育用途では内容の正確さがとても重要です。AIがもっともらしい映像を作ったとしても、細かい部分が間違っていれば、見る人に誤解を与える恐れがあります。そのため、今後はAIで作った動画を先生や専門家、担当者が確認し、必要に応じて修正する流れが大切になります。

AIで作られた動画の透明性と信頼性がより重要になる

Gemini Omniが広く使われるようになるほど、AIで作られた動画をどのように見分け、どのように信頼するかが重要になります。Googleは、Gemini Omniで作成されたすべての動画に電子透かし技術SynthIDを埋め込むと説明しています。さらに、Geminiアプリ、Gemini in Chrome、Google検索を通じて、その動画がGemini Omniで生成されたものか確認できるようにするとしています。

これは、AI動画が日常的に広がる時代において、とても重要な取り組みです。動画は文章や画像よりも人の感情に強く届きやすく、現実の出来事のように受け取られやすい特徴があります。そのため、広告、報道、政治、教育、企業広報などでAI動画を使う場合には、どのように作られたものなのかを分かりやすく示す姿勢が求められます。

今後は、AI動画を作れるかどうかだけでなく、「AIで作ったことをどう示すか」「視聴者にどこまで説明するか」が、企業やクリエイターの信頼を左右する可能性があります。また、デジタルアバターの活用では、自分の声や姿に近い動画を作れる一方で、なりすましや誤った使い方を防ぐ仕組みも欠かせません。

Geminiが動画生成AI「Omni」を発表

言葉だけで動画を作り変えるGemini Omniの登場