Gemini、声のトーンに反応するAI対話機能「ネイティブオーディオ」を提供 より自然な音声コミュニケーションが可能に

2025年6月3日、米Googleは、同社の生成AI「Gemini 2.5 Flash」において、ユーザーの声のトーンや感情表現を認識できる音声対話機能のプレビュー提供を開始したことを発表した。
AI Studioを通じて試用可能で、音声による自然なインタラクションの実現に向けた新たなステップとして注目されている。
音声の抑揚や感情に反応する次世代AI対話機能
Googleは、Gemini 2.5 Flashにおいて、リアルタイムでAIと音声会話が可能なネイティブオーディオダイアログ機能を導入した。
従来の音声認識にとどまらず、ユーザーの声のトーンや話し方から感情や意図を読み取る高度な対話を可能にした。
Gemini 2.5は音声をマルチモーダル情報の一部として処理し、声の高低、抑揚、アクセント、さらにはささやき声といった表現の違いをAIが認識する。
同じ単語でも話し方によって異なる意味として理解することができるという。
さらに、会話のリズムや一時停止など自然なやり取りを模倣し、短い遅延での応答や、ユーザーの発話を遮らないタイミング制御も実現。
周囲の雑音や同時会話の識別により、適切なタイミングでの応答も可能となっている。
オーディオとビデオの同時理解により、ユーザーが画面共有している映像についても文脈に沿った対話ができる点も、ビジネスシーンでの活用に広がりをもたらす。
感情理解による自然なコミュニケーションとリスク
Gemini 2.5は、単なる音声認識を超えて、感情を読み取り、より人間に近い対話を目指す。
たとえば、怒りや困惑、落ち着いたトーンなどを聞き分け、それに適した返答を生成できる設計がなされている。
これにより、従来のAIチャットとは一線を画す、感情を伴ったコミュニケーション体験が可能になる。
音声読み上げ(TTS)機能にも進化が見られる。自然言語によるプロンプトを用いれば、読み上げの感情表現、速度調整、単語の発音指定など、細やかな制御が可能となった。
ニュース記事や詩、物語など、用途に応じた抑揚や語り口の調整が可能で、読み手を複数に分けた音声生成にも対応している。
対応言語は日本語を含めた24以上におよび、1つのフレーズ内で複数言語を混ぜるマルチリンガル対話にも対応。グローバルな展開を視野に入れた設計がうかがえる。
一方で、音声のリアルさが深刻な偽情報リスクにつながる懸念もある。
AIが感情を模倣する精度が高まるほど、その「人間らしさ」は真偽の境界を曖昧にする。
この点についてGoogleは、生成音声に透かし技術「SynthID(※)」を埋め込み、AI生成であることを識別可能とする対策を講じている。
しかし、一聴しただけでの判別は困難で、今後さらなる対策が必要になるだろう。
音声を介したAIとの対話は、今後のUI/UXの根幹をなす領域であり、Gemini 2.5の進化は音声AIの新たなスタンダードとなる可能性が高い。
※SynthID:Google DeepMindが開発したAI生成メディアの識別技術。画像・音声・動画などの出力に、視認・聴取できない識別情報(デジタル透かし)を埋め込み、後からAI生成物かどうかを検出できる仕組み。