OpenAIのRealtime API向け音声モデルが変える「話すAI」の新しい使い方

2026年5月、OpenAIはAPI向けに新しいリアルタイム音声モデルとして、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperを発表しました。これらは、人が話している最中に内容を理解し、考え、翻訳し、文字起こしまで行える音声AIです。

これまでの音声AIは「聞いて答える」役割が中心でしたが、今後は予約変更、問い合わせ対応、多言語での会話、会議メモ作成など、実際の作業を支える存在になる可能性があります。声がソフトウェアを使う自然な入口になりつつあるのため、本プロジェクトの詳細を考察します。

声で使うAIが、より身近な仕事の入口になる

OpenAIが発表した新しいRealtime API向け音声モデルは、AIの声が自然になったという話だけではありません。大きなポイントは、人が話している流れをそのまま受け取り、内容を理解し、必要に応じて考え、別のツールを使いながら返事ができる方向へ進んでいることです。ユーザーは長い文章を入力したり、画面を何度も操作したりしなくても、声だけでサービスを使える場面が増えると考えられます。

たとえば、移動中に旅行予定を変える、車の中で予定を確認する、問い合わせ窓口で自分の話しやすい言語で相談する、といった使い方がより現実的になります。これまでの音声AIは、聞き取って返事をする「会話相手」のように見られることが多くありました。しかし、GPT-Realtime-2は、会話の流れを保ちながら、ユーザーの依頼が途中で変わった場合にも対応し、複数の作業を同時に進められる仕組みが紹介されています。

参考：OpenAI「Advancing voice intelligence with new models in the API」

音声AIが広げる3つの新しい使い方

OpenAIの発表では、音声AIの使い方として大きく3つの流れが示されています。ここで重要なのは、音声AIが単なる会話機能ではなく、アプリや業務システムとつながることで、ユーザーの行動を助ける存在になる点です。

声で頼んだことを、そのまま作業につなげる

1つ目は、ユーザーが声で伝えた内容をAIが理解し、必要な作業につなげる使い方です。OpenAIは、住宅探しの場面を例として紹介しています。たとえば「自分の予算に合う家を探したい」「交通量の多い道は避けたい」「土曜日に内見を入れたい」といった希望を、ユーザーが自然な言葉で伝えます。音声AIは、その内容を整理し、条件に合う候補を探し、予定調整のような次の行動へつなげる役割を持つとされています。これにより、ユーザーは細かい検索条件を一つずつ入力しなくても、話すだけで目的に近づきやすくなります。アプリを使う体験そのものが、ボタン操作中心から会話中心へ変わる可能性があります。

システム側の情報を、声でわかりやすく届ける

2つ目は、アプリや業務システムが持っている情報を、音声で利用者に伝える使い方です。OpenAIは、旅行アプリが搭乗予定や乗り継ぎ情報をもとに、利用者へその場で案内する例を示しています。たとえば、到着便が遅れていても乗り継ぎに間に合うこと、新しい搭乗口、空港内の移動ルート、預けた荷物の見込みなどを、声でまとめて知らせるような形です。これは、ユーザーが画面を何度も確認する体験とは異なります。必要な情報をシステム側が整理し、状況に合わせて声で伝えることで、移動中や作業中でも理解しやすくなります。特に旅行、物流、店舗運営、サポート業務のように手がふさがりやすい場面では、音声による案内が大きな助けになると考えられます。

言語の違いを越えて、会話を続けやすくする

3つ目は、声と声のあいだにAIが入り、多言語の会話を支える使い方です。GPT-Realtime-Translateは、70以上の入力言語から13の出力言語へのリアルタイム翻訳に対応すると説明されています。これにより、利用者は自分が話しやすい言語で話し、相手は別の言語で内容を受け取ることができます。カスタマーサポート、海外営業、教育、イベント、動画配信などでは、言語の違いが大きな負担になることがあります。音声AIが会話の流れに近い形で翻訳できれば、相手を長く待たせずにやり取りを続けやすくなります。ただし、専門用語や地域ごとの発音、話し方の違いもあるため、実際に導入する際は、使う業界や言語に合わせた確認が必要になると考えられます。

新モデルごとに見える音声AIの進化

引用：OpenAI「Advancing voice intelligence with new models in the API」

OpenAIが発表した3つのモデルは、同じ音声AIの分野にありますが、それぞれ役割が異なります。会話を進めながら考えるモデル、言語の違いを越えて会話をつなぐモデル、話している内容をすぐ文字にするモデルという3つの視点で見ると、Realtime API向け音声モデルが目指す方向がわかりやすくなります。ここでは、それぞれの特徴を整理します。

GPT-Realtime-2は、会話を止めずに考えて動く

GPT-Realtime-2は、音声でのやり取りを続けながら、少し複雑な依頼にも対応するためのモデルです。特徴として、依頼を受けたあとに「確認します」といった短い言葉をはさみ、ユーザーに処理中であることを伝えられる点が挙げられています。また、カレンダー確認や検索など、複数のツールを同時に使う仕組みにも対応するとされています。これにより、ユーザーは沈黙の時間に不安を感じにくくなり、AIが何をしているのかも把握しやすくなります。さらに、会話の流れを長く保てるようになり、専門用語や固有名詞の扱いも強化されています。声でのやり取りでは、途中で言い直したり、条件を変えたりすることがよくあります。そのため、自然に会話を続ける力は、実際のサービスで使ううえで大切になると考えられます。

GPT-Realtime-Translateは、翻訳を待つ時間を短くする

GPT-Realtime-Translateは、話された言葉をリアルタイムに近い形で別の言語へ変えるためのモデルです。OpenAIは、70以上の入力言語と13の出力言語に対応すると説明しています。従来の翻訳では、話し終わってから訳を待つ流れになりやすく、会話のテンポが崩れることがありました。このモデルは、話し手のペースに合わせながら翻訳することを重視しており、カスタマーサポートや国際的な商談、教育、イベント配信などで活用が見込まれます。特に、利用者が得意な言語で話せることは、問い合わせ時の不安を減らす可能性があります。一方で、地域ごとの発音や専門分野の言葉を正しく扱うには、実際の現場での確認が欠かせません。翻訳の正しさだけでなく、聞きやすさや会話の間も大切になります。

GPT-Realtime-Whisperは、話す内容をすぐ記録に変える

GPT-Realtime-Whisperは、話している内容をその場で文字にする音声認識モデルです。会議、授業、配信、イベントなどでは、発言内容をあとから記録するよりも、話している途中で文字が表示されたほうが便利な場面があります。リアルタイムの字幕、進行中の会議メモ、問い合わせ内容の記録などに使える可能性があります。特に業務では、音声の内容をすぐに次の作業へつなげられる点が重要です。たとえば、サポート対応の会話を記録しながら要点を整理したり、営業や採用面談の内容を後から確認しやすくしたりする使い方が考えられます。音声をその場限りの会話で終わらせず、検索できる記録や共有しやすい情報に変えることで、働き方の改善にもつながると見られます。

実用化で重要になる安全性・料金・導入のしやすさ

新しいRealtime API向け音声モデルは、会話体験や翻訳、文字起こしの進化に注目が集まりやすいですが、企業や開発者が実際に使ううえでは、安全性や料金、導入のしやすさも大切です。OpenAIはRealtime APIについて、悪用を防ぐための複数の安全対策を用意していると説明しています。たとえば、有害な内容につながる会話を検知した場合に、セッションを止められる仕組みがあります。また、開発者側でもAgents SDKを使い、自社サービスに合った追加の安全ルールを組み込めるとされています。

利用者への説明も重要です。OpenAIの利用方針では、スパムやだまし行為などの有害な目的で出力を使うことは禁止されています。さらに、文脈上明らかな場合を除き、エンドユーザーがAIとやり取りしていることをわかるようにする必要があるとされています。音声AIは人と話しているように感じやすいため、相手がAIなのか人なのかを誤解させない設計が、信頼を守るうえで欠かせません。

料金面では、GPT-Realtime-2は音声入力100万トークンあたり32ドル、キャッシュされた入力は100万トークンあたり0.40ドル、音声出力100万トークンあたり64ドルとされています。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルです。用途によって料金の見方が変わるため、会話型のAI、ライブ翻訳、文字起こしのどれを中心に使うかでコスト設計も変わります。まずはPlaygroundで試し、小さな業務から確認する流れが現実的だと考えられます。

今後の展望

OpenAIのRealtime API向け音声モデルは、音声AIを「会話する機能」から「その場で作業を支える仕組み」へ広げるきっかけになると考えられます。今後は、問い合わせ対応、旅行案内、会議記録、教育、接客などと結びつき、声を中心にした新しいサービス設計が進む可能性があります。

カスタマーサポートは「待つ窓口」から「会話で進む窓口」へ変わる

今後、Realtime API向け音声モデルの活用が広がる領域として、まず考えられるのがカスタマーサポートです。従来の問い合わせ対応では、利用者が番号を選んだり、長い案内を聞いたり、担当者につながるまで待ったりすることが多くありました。しかし、音声AIが会話の流れを理解し、必要に応じて社内システムを確認しながら返答できるようになると、サポート体験は大きく変わる可能性があります。たとえば、契約内容の確認、予約変更、配送状況の案内、返金手続きの説明などを、利用者が自然な言葉で話すだけで進められるようになると考えられます。

特に重要なのは、GPT-Realtime-2が会話の途中で処理中であることを短く伝えたり、複数のツールを同時に使ったりできる点です。利用者は「今、何を確認しているのか」がわかりやすくなります。音声の問い合わせでは沈黙が不安につながりやすいため、このような小さな反応は体験の質を左右します。また、GPT-Realtime-Translateと組み合わせれば、外国語を話す利用者にも同じ窓口で対応しやすくなります。今後のサポート窓口では、人の担当者がすべてを受けるのではなく、AIが初期対応や定型的な処理を担い、人は複雑な判断や気持ちに寄り添う対応に集中する形が増えると見られます。

旅行・移動サービスでは、画面を見る時間を減らす案内役になる

Realtime API向け音声モデルは、旅行や移動の分野でも大きな役割を持つ可能性があります。空港、駅、ホテル、レンタカー、観光地では、利用者が常に画面を見られるとは限りません。荷物を持っていたり、移動しながら急いでいたり、予定変更に追われていたりする場面が多くあります。そのようなときに、音声AIが利用者の状況を理解し、必要な情報を声で伝えられれば、サービスの使いやすさは大きく高まります。OpenAIの発表でも、フライトの遅れ、乗り継ぎ、新しい搭乗口、空港内の移動ルート、荷物の見込みなどを音声で案内する例が紹介されています。

今後は、旅行アプリが単に予約情報を表示するだけでなく、利用者の予定全体を見ながら次の行動を提案する存在になるかもしれません。公式で紹介されている旅行中の音声案内の考え方を広げれば、将来的にはホテルのチェックイン確認や、空港から目的地までの移動手段の提案などにも応用される可能性があります。さらに、現地での会話にGPT-Realtime-Translateを組み合わせれば、レストラン、交通機関、宿泊施設でのやり取りも支援しやすくなります。旅行者にとっては、検索する手間や言語の不安が減り、サービス提供側にとっては問い合わせ対応や案内業務の負担を下げられる可能性があります。

会議や現場の会話は、あとで使える知識として残りやすくなる

Realtime API向け音声モデルのもう一つの大きな展望は、話された内容をその場で記録し、仕事に使える情報へ変えることです。GPT-Realtime-Whisperは、話している最中に文字起こしを行うモデルとして紹介されています。これにより、会議、授業、面談、イベント、医療やサポートの現場などで、発言内容をあとから思い出してまとめる負担が減る可能性があります。従来は、会話が終わってから録音を聞き直したり、メモを整理したりする必要がありました。しかし、リアルタイムに文字化できれば、重要な発言をその場で確認し、次の作業にすぐつなげやすくなります。

今後は、文字起こしが単なる記録ではなく、業務を進める入口になると考えられます。たとえば、会議中の決定事項を整理してタスク化につなげる、顧客との会話から要望をまとめる、採用面談の内容を後から確認しやすくする、授業の内容を復習用の資料にする、といった使い方です。さらに、GPT-Realtime-2の考える力と組み合わせれば、会話の流れをふまえて「次に確認したほうがよいこと」や「足りない情報」を声で返すことも考えられます。これにより、会話はその場で消えるものではなく、あとから探し、共有し、改善に使える知識として扱われるようになります。企業にとっては、現場の声を業務改善に生かす新しい土台になる可能性があります。

OpenAIのRealtime API向け音声モデルが変える「話すAI」の新しい使い方

声で使うAIが、より身近な仕事の入口になる