2026年5月7日、米OpenAIはリアルタイム音声向け「Realtime API」において、新たな音声AIモデル群を発表した。対話向け「GPT-Realtime-2」、翻訳向け「GPT-Realtime-Translate」、音声認識向け「GPT-Realtime-Whisper」の3種で構成され、低遅延かつ自然な音声処理を実現する。AI音声エージェントの実用化が一段と加速しそうだ。
OpenAI、会話・翻訳・字幕を同時処理する新音声AIを投入
今回発表された「GPT-Realtime-2」は、GPT-5クラスの推論能力を備えたリアルタイム音声対話モデルである。従来の音声AIは、音声入力後に応答生成を行なう構造が一般的だったが、新モデルでは会話中に推論を進め、割り込みや修正にも柔軟に対応できる。
特徴的なのは、応答前に「確認します」「少々お待ちください」といった自然な短文を差し込める点だ。人間の会話に近いテンポを再現しながら、裏側では複数ツールを並列実行できるようになった。コンテキストウィンドウ(※)も32Kから128Kへ拡張され、長時間の会話や複雑なタスク管理に対応しやすくなっている。
同時に公開された「GPT-Realtime-Translate」は、70以上の入力言語から13言語へリアルタイム翻訳を行なうモデルである。話者の速度に合わせて翻訳と文字起こしを同時進行できるため、海外カスタマーサポートや国際会議、ライブ配信などでの活用が想定される。
さらに、「GPT-Realtime-Whisper」は低遅延のストリーミング音声認識モデルとして提供される。発話とほぼ同時に字幕表示が可能となり、会議や授業、営業、医療現場など音声コミュニケーション中心の業務で導入が進む可能性がある。
※コンテキストウィンドウ:AIが一度に保持・参照できる情報量のこと。数値が大きいほど長文や長時間の会話内容を記憶しながら応答できる。
音声AI競争は“即応性”へ 人間との境界さらに曖昧に
今回の発表が示す本質は、音声AIの競争軸が「精度」から「リアルタイム性」へ移行し始めた点にある。従来の生成AIは、高品質な回答を返せても待ち時間が課題だった。しかし今後は、会話を止めずに理解・翻訳・処理を進める能力が重要になると考えられる。
特に企業領域では、音声インターフェース(※)を中心とした業務設計が広がる可能性が高い。顧客対応ではAIオペレーターがリアルタイム翻訳しながら応対し、社内会議では自動字幕と議事録生成を同時に行なう世界が現実味を帯び始めた。音声がそのまま業務データへ変換されることで、入力作業そのものが減少する可能性もある。
一方で、リアルタイム翻訳や音声認識は、誤変換や文脈誤解が即座に広がるリスクを抱える。医療や法務など高精度が求められる領域では、人間による確認工程が依然として不可欠と言える。また、常時音声取得への懸念から、プライバシー管理や録音データの取り扱いを巡る議論も強まる可能性がある。
OpenAIは性能評価において、GPT-Realtime-2が従来モデルを10%以上上回ったと説明している。今後、GoogleやAnthropic、Metaなど主要AI企業も低遅延音声モデル競争を本格化させる可能性があり、AI市場は「読むAI」から「話し続けるAI」の時代へ移行しつつある。
※音声インターフェース:音声入力や会話を通じて機器やAIを操作する仕組み。キーボードや画面操作を使わず対話形式で利用できる。
関連記事: