Google、Gemini音声モデル強化 自然な対話やリアルタイム翻訳を改善

2025年12月12日、米Googleは公式ブログで、生成AI「Gemini」の音声モデルを強化し、会話能力とリアルタイム翻訳を大幅に改善したと発表した。
対話性能と翻訳機能を強化
Googleは、Gemini 2.5 Flash Native Audio(※)のアップデートを公開し、ライブ音声エージェントとしての性能を高めた。
今回の更新では、複雑な指示への追従性や会話の一貫性が向上し、より自然な音声対話が可能になった点が大きなアピールポイントだ。Google AI StudioやVertex AIに加え、Gemini LiveやSearch Liveにも順次展開されている。
技術面では、外部機能を呼び出す際の精度が改善され、会話の流れを途切れさせずに最新情報を反映できるようになった。
様々な制約付きでの複数ステップ機能呼び出しを評価する指標であるComplexFuncBench Audioでは、71.5%のスコアを記録し、業界内でも高い水準を達成した。
指示遵守率も90%まで向上し、Googleは「より信頼性の高い出力を提供する」とした。
あわせて、ライブ音声翻訳機能も強化された。70以上の言語と約2000の言語ペアに対応し、話者の抑揚や話速、声の高さを保ったまま翻訳する点が特徴である。
Google翻訳アプリではベータ版として提供が始まり、イヤホンを通じて周囲の会話を即時に理解できる体験を実現する。
※Gemini 2.5 Flash Native Audio:Googleの生成AI「Gemini」シリーズの音声特化モデル。低遅延での音声生成と理解を特徴とし、リアルタイム会話や翻訳、音声エージェント用途を想定して設計されている。
音声AIが変える実用シーン 利便性向上と課題
今回のアップデートは、日常利用だけでなく、ビジネス領域への波及効果も大きいと考えられる。
Googleによれば、すでに金融やEC分野で顧客対応や業務効率化に活用されており、自然な対話性能がユーザー満足度の向上につながっている。
言語の壁を意識せずに会話できる環境は、グローバル展開を進める企業にとって大きなメリットとなるだろう。
一方で、リアルタイム翻訳が普及するほど、誤訳や文脈の取り違えが与える影響も無視できない。特に商談や医療、法務といった分野では、翻訳結果の正確性と責任の所在が課題になる可能性がある。
音声データを常時処理する仕組みである以上、プライバシーやデータ管理への懸念も残る。
Googleは今後、音声機能を拡張し、2026年にはGemini APIを含むより多くのプロダクトへ展開する計画を示している。
音声AIが「補助的な翻訳ツール」から「会話の基盤」へ進化できるかどうかは、実用性と信頼性の両立にかかっていると言えそうだ。
関連記事:
Google翻訳、AIの進歩によりリアルタイム翻訳と学習が実現 米国などで提供開始












