2026年5月29日、米Googleは画像生成AIモデル「Nano Banana 2」と「Nano Banana Pro」の一般提供(GA)を開始した。Google AI StudioおよびGemini Enterprise Agent PlatformのAPIを通じて利用できる。動画入力機能や高解像度出力の拡充により、画像生成AIの業務活用範囲がさらに広がりそうだ。
動画入力対応で画像生成AIを一般開放
Googleが一般提供を開始した「Nano Banana 2」と「Nano Banana Pro」は、テキストプロンプトから画像を生成できるほか、既存画像の編集にも対応する画像生成AIモデルである。
両モデルは用途に応じて設計されている。Nano Banana 2は高速処理を重視したモデルであり、大量の画像生成やリアルタイム処理に適している。一方、Nano Banana Proはより高品質な出力を目的とした上位モデルとして提供される。
今回の一般提供にあわせて、Nano Banana 2には動画ファイルを入力として利用できる機能が追加された。現時点ではプレビュー提供だが、テキスト、画像、PDFに加え、動画データも解析対象となる。
これにより、動画内の被写体や動作、場面の文脈を理解し、その内容に沿った画像生成が可能となった。例えば動画からサムネイル画像やインフォグラフィックを生成する用途などが想定されている。
また、出力解像度については1Kおよび2K出力が正式提供となった。さらに4K出力もプレビュー版として利用可能となり、高精細なクリエイティブ制作への対応も進められている。
Googleはこれらの機能をAPI経由で提供しており、企業や開発者は自社アプリケーションや業務システムに画像生成機能を直接組み込むことができる。単体ツールとして利用するだけでなく、業務フローの一部として活用できる点も特徴の一つだ。
動画理解AIが制作業務を変える可能性
今回の発表は、画像生成AIの競争が単純な画像生成能力から、複数のデータを理解するマルチモーダルAI(※)へと移行しつつあることを示す動きと考えられる。
特に動画入力への対応は企業にとって大きなメリットとなる可能性がある。動画コンテンツから販促素材やサムネイル画像を自動生成できれば、制作工程の効率化やコスト削減につながるだろう。広告やEC、メディア業界などでは、動画コンテンツを活用した制作業務への導入が進む可能性もある。
一方で、高品質な画像生成機能の普及に伴い、新たな課題が生じる可能性もある。AI生成画像の著作権管理や真正性の証明、誤情報の拡散防止などは、引き続き重要な論点として議論されるとみられる。4Kレベルの高精細画像が容易に作成できる環境が広がれば、人間が制作したコンテンツとの識別はさらに難しくなる可能性がある。
今後は画像生成の品質競争だけでなく、動画や音声を含む複数のデータをどこまで活用できるかがAIプラットフォームの競争力を左右するとみられる。Googleの今回の一般提供は、生成AIが企業の業務基盤へ本格的に組み込まれていく流れを加速させる一歩と言えそうだ。
※マルチモーダルAI:テキスト、画像、音声、動画など異なる種類のデータを統合的に理解・処理できるAI技術。
関連記事: