Google、検索に画像認識AI機能を統合 LensとGeminiの連携で検索体験が進化

米Googleは2025年4月7日、同社の実験的検索機能「AIモード」に、Google Lensの画像認識とGeminiモデルを活用したマルチモーダル検索機能を統合したと発表した。
現在は米国の一部ユーザー向けに提供されているが、今後のグローバル展開が注目される。
画像とテキストを融合する検索
今回のアップデートは、検索の実験的機能である「AIモード」に追加されたものだ。
画像・テキスト・音声など複数の情報形式を同時に処理する「マルチモーダル」(※)機能が組み込まれたことで、ユーザーは写真をアップロードして、その画像に関連する質問を投げかけるだけで文脈に沿った回答が得られるようになった。
これにより、従来の「キーワード入力による検索」では実現できなかった、画像による情報取得が可能になる。
具体的には、画像内のオブジェクト同士の関係や配置、色彩、素材感といった視覚情報を読み取り、それに関連するテキスト情報と結びつけて判断することができるようになる。
たとえば本棚の写真を読み込ませ、「似たジャンルでおすすめの作品は?」と尋ねると、AIモードが該当書籍を認識し、ユーザーの嗜好に合った作品を提案することもできるという。
こうした応答は、Query Fan-outと呼ばれる技術によって支えられている。
画像内情報を基に複数の検索クエリを自動生成し、それを統合・再構成することで、より自然かつ正確な回答を導き出す技術だ。
今回のアップデートは、ユーザーが提示された答えに対して対話的に情報を絞り込んでいけるインターフェースも備えており、直感的かつ深掘り可能な検索体験が実現している。
※マルチモーダル:
視覚・言語・音声など、異なる種類のデータを統合的に処理・理解する人工知能技術。近年の生成AIにおいて急速に注目を集めている。
競争激化する検索領域
今回のアップデートには、検索エンジン市場での競争を勝ち抜くための戦略的意図があると見られる。
OpenAIの「ChatGPT Search」など、対話型かつ生成型の検索サービスが台頭する中、Googleは視覚情報を活用することで他社との差別化を図ろうとしている。
従来はGoogle Lensと検索機能を行き来する必要があったが、AIモード内で検索が完結できる点は、利便性という点でも明確なアドバンテージとなる。
一方、現在この機能が使えるのは米国内のGoogle Search Labs参加者に限られており、日本を含む他地域への展開時期は未定だ。
言語的・文化的なバイアスが内在した状態での初期展開であることには、注意が必要だろう。
日本のように、視覚文化が独自に発展した市場においては、モデルが想定する「標準的な視覚的意味」がうまく噛み合わないケースも考えられる。
今後は、ユーザーとのインタラクションを通じてモデルの精度が高められ、より多様な画像やシナリオへの対応力が期待される。