米OpenAIはChatGPTの健康分野における性能向上に関する取り組みを公表した。
毎週2億3,000万人以上が健康相談に利用する中、最新モデルでは健康関連の事実誤認を含む回答の割合が過去2カ月で71%低下したという。
OpenAIが健康分野の性能評価結果を公表
2026年6月18日、OpenAIはChatGPTの健康分野における性能向上と評価結果について発表した。
現在、ChatGPTは健康情報の理解や検査結果の読み解き、受診前の準備、保険手続きの確認、生活習慣改善の相談など幅広い用途で利用されている。
同社によると、健康やウェルネスに関する相談を目的として、毎週2億3,000万人以上がChatGPTを利用している。
こうした利用拡大を受け、OpenAIは健康分野に特化した評価体制を構築し、モデル改善を進めてきた。
最新の「GPT-5.5 Instant」では、緊急受診が必要な可能性の認識、不足情報の確認、不確実性の説明、複雑な医療情報の整理といった能力が向上した。
特に高難度の健康評価では、同社の上位推論モデルと同等水準の性能を示したとしている。
評価にはHealthBench(※)やHealthBench Professionalと呼ばれる健康分野向け評価基盤を活用した。
正確性、安全性、コミュニケーション能力、文脈理解、受診判断の適切性などを総合的に測定している。
また、60カ国以上から参加した260人超の医師がモデル回答をレビューし、理想的な応答例や問題が発生しやすいパターンを分析した。
さらに3,500件以上の健康相談回答について医師との比較評価も実施している。
その結果、OpenAIは健康分野における本番利用データの分析から、少なくとも1件の事実関係上の問題を含む回答の割合が過去2カ月で71%低下したと報告した。
※HealthBench:医師が作成した評価基準を用いて、健康相談AIの正確性や安全性、コミュニケーション能力などを測定するための評価フレームワーク。
医療アクセス向上への期待と課題
今回の取り組みは、生成AIが検索支援ツールから健康相談支援ツールへ進化しつつあることを示している。
特に医療機関へのアクセスが難しい地域や、受診前に情報整理を行いたい利用者にとっては大きな利便性をもたらす可能性がある。
従来の健康情報検索では、利用者自身が複数の情報源を比較しながら判断する必要があった。
一方で対話型AIは、利用者の状況に応じて追加質問を行いながら情報を整理できるため、理解しやすい形で医療情報へアクセスできる点が強みと言える。
また、OpenAIが無料ユーザー向けモデルでも健康性能を向上させたことは、医療情報へのアクセス格差を縮小する方向に働く可能性がある。
専門知識を持たない人でも、自身の症状や検査結果について一定の整理を行いやすくなるためだ。
一方で、誤回答が71%減少したとしても、誤りが完全になくなったわけではない。
健康相談は個人の既往歴や生活環境、地域の医療制度など多くの要素に左右されるため、AIの回答のみで医療判断を完結させることには依然としてリスクが残る。
今後は、医療機関受診の補助や情報整理の役割を担う形でAI活用が広がる可能性が高い。
一般利用者向けと専門家向けの両面から健康分野での活用範囲が拡大していくことになりそうだ。
関連記事:
OpenAI、ChatGPT Enterpriseに利用分析と費用管理機能を導入 企業のAI利用状況を可視化
