2026年3月10日、米テクノロジー大手Googleはマルチモーダル対応の埋め込みモデル「Gemini Embedding 2」を発表した。Gemini APIとVertex AIを通じてパブリックプレビューで提供し、テキスト・画像・動画・音声・文書を横断したAI検索やRAGの高度化を狙う。
Google、マルチモーダル埋め込み公開
Googleは、マルチモーダル対応の埋め込みモデル「Gemini Embedding 2」を発表し、Gemini APIおよびVertex AIから利用できる形でパブリックプレビューの提供を開始した。テキスト、画像、動画、音声、ドキュメントなど複数のメディアを単一の埋め込み空間にマッピングし、異なるデータ形式を横断した検索や分類を可能にする。
同モデルは、Geminiアーキテクチャを基盤とした同社初のネイティブなマルチモーダル埋め込みモデルである。100以上の言語に対応し、データの意味的な関連性を捉える能力を備えるとされる。これにより、RAG(※)やセマンティック検索、感情分析、データクラスタリングといった処理の精度向上につながる可能性がある。
入力仕様も多様なメディアを前提に設計されている。テキストは最大8192トークン、画像はPNGまたはJPEG形式で1リクエストあたり最大6枚、動画はMP4またはMOV形式で最大120秒まで処理可能だ。音声は文字起こしを経由せず直接埋め込みでき、PDFドキュメントも最大6ページまで入力できる。
さらに、画像とテキストのように複数のモダリティを1つのリクエストでまとめて処理できるため、異なるデータ間の意味関係を同時に捉えられる。出力ベクトルはデフォルト3072次元だが、Matryoshka Representation Learning(MRL)(※)により1536次元や768次元などへ柔軟に縮小できる仕組みも採用された。開発者はGemini APIやVertex AIに加え、LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDBなどのツールからも利用できる。
※RAG(Retrieval-Augmented Generation):外部データベースから関連情報を検索し、その内容を生成AIの入力に加えることで回答の精度や最新性を高める技術。企業のナレッジ検索やAIチャットボットなどで活用されている。
※MRL(Matryoshka Representation Learning):高次元の埋め込みベクトルを保持したまま、必要に応じて低次元へ縮小できる学習手法。検索精度を保ちながら計算コストを抑えられる特徴を持つ。
AI検索の高度化 広がる可能性と課題
マルチモーダル埋め込みモデルの進化は、生成AIの実用化を支える基盤技術として注目されている。特にRAGでは、外部データから関連情報を検索して生成AIに提供するため、検索精度が回答品質に大きく影響するとされる。異なるメディアを同一の意味空間で扱える埋め込みは、この精度向上に寄与する可能性がある。
企業のデータ環境では、文書だけでなく画像、動画、音声など多様な情報が蓄積されている。これらを横断的に検索できれば、ナレッジ管理や顧客サポート、コンテンツ分析などの効率化が進むと考えられる。AI検索の基盤として、マルチモーダル埋め込みの重要性は今後さらに高まる可能性がある。
一方で、扱うデータの種類が増えるほど、プライバシー保護やデータ管理の難しさも増す。音声や動画には個人情報が含まれるケースが多く、企業がAI検索基盤を構築する際にはセキュリティやガバナンスの設計が重要になる可能性がある。
それでも、生成AIの精度向上には「どれだけ適切な情報を取得できるか」が大きく影響すると指摘されている。マルチモーダル検索の基盤が整えば、AIはより現実世界に近い形で情報を理解し活用できるようになる可能性がある。今回のモデルは、その方向性を示す技術的な一歩と見ることもできる。
関連記事:
グーグル、スマホでも動作する小型AIモデル「EmbeddingGemma」を公開

Google、Gemini 3.1 Flash-Lite発表 開発者向け低コスト・高速AIモデル
