OpenAI、Realtime API正式公開 AI音声対話モデルgpt-realtime搭載

2025年8月28日、米OpenAIは新たな音声対話モデル「gpt-realtime」を搭載した「Realtime API」を正式リリースした。
電話番号やナンバープレートなどの英数字認識精度が向上し、多言語対応や外部システム連携も強化された。
OpenAI、音声エージェント向け「gpt-realtime」を発表
OpenAIが提供を開始した「Realtime API」は、音声会話に関連する様々な機能を搭載した新サービスだ。
音声対話に特化したモデル「gpt-realtime」を搭載し、外部ツールとの連携を容易にする「MCPサーバー」に対応している。
そのほか、会話の中で画像を読み込み対応できる「画像入力機能」、電話網と直接接続する「SIP通話機能」などがAPIに含まれる。
従来は難しかった自然な音声対話や複数システムを跨いだ業務自動化が現実味を帯びてきた。
gpt-realtimeは顧客サポート、パーソナルアシスタント、教育などの分野での活用を想定し、非言語的要素や多言語の切替を含む複雑な対話をスムーズに処理できる新モデルだ。
電話番号やナンバープレートといった英数字の認識精度も改善し、社内評価ではスペイン語、中国語、日本語、フランス語を含む他の言語でより正確な結果を記録したという。
推論能力の評価指標「Big Bench Audio」では82.8%の精度を達成し、前モデルの65.6%から大きく向上した。
また、複数ターンの会話における一貫性や指示追従性も進化し、専用ベンチマーク「MultiChallenge」ではスコアが前モデルの20.6%から30.5%へと上昇している。
このモデルは関数呼び出しの精度も高め、DB検索など時間を要する処理中でも会話が途切れない。
開発者にとってはユーザー体験の改善だけでなく、外部システムとの統合や導入コスト削減という実利も期待できる。
多言語認識と電話連携が広げる実用化の可能性
gpt-realtimeの特徴は、音声理解と発話生成の自然さに加え、業務現場への直接適用が見込まれる点にある。
外部ツール連携の容易化により、CRMや決済システムなど既存の業務基盤との統合が進めば、企業は迅速にAI音声エージェントを導入できるようになるだろう。
SIP通話機能はPBXや一般電話網と直結し、AIが電話を受発信できるようになった点も画期的である。予約受付や問い合わせ対応といった業務の自動化が一気に加速することが予想される。
一方で、価格設定は入力100万トークンあたり32ドル、出力100万トークンあたり64ドルとされ、中小企業にとっては導入コストが課題となる可能性がある。
さらに、顧客対応の完全自動化が進むことで、利用者の信頼やプライバシー保護をどう確保するかも議論が必要だ。
それでも、自然な多言語会話や精度の高い識別機能は、国際的なコールセンターや教育サービスにとって強力な武器になると見られる。
OpenAIの最新発表は、音声AI市場の次なる競争軸を示したと言える。