AIは従順か、ずる賢いか　OpenAIとAnthropicが安全性とモデル評価を相互検証

2025年8月27日、米OpenAIはAnthropicとの共同研究結果を発表した。両社は自社AIモデルを相互に検証し、人間の指示に忠実であるか（アライメント）や危険行動への耐性を確認する初の試みを実施した。

OpenAIとAnthropic、AIモデルを相互評価し忠実性と欺瞞耐性を分析

共同研究では、OpenAIは「GPT-4o」「GPT-4.1」「o3」「o4-mini」、Anthropicは「Claude Opus 4」「Claude Sonnet 4」を対象にした。

実験では通常のガードレールを緩め、敢えて危険なプロンプトを設定。各モデルの挙動を詳細に観察した。

結果、Claudeはシステム指示とユーザー要求が矛盾する状況で堅牢性を示し、OpenAIモデルを上回る場面もあった。一方、ジェイルブレイク攻撃（禁止されている生成内容を引き出そうとする試み）に対してはOpenAIのo3系がやや優位であった。

ハルシネーション（誤情報）面では、Claudeは生成内容の正確性を高めるための回答拒否率が高く、正確性は高いが実用性に課題が残った。
一方、OpenAIモデルは応答しやすい一方で、誤情報混入のリスクが見られた。

両社は今後も相互評価を継続し、テスト手法の標準化を目指す方針である。

今回の相互評価は、AIの安全性や透明性向上に寄与する一方で、企業戦略やリスク許容度による差異も浮き彫りにしたと言える。

「忠実性を重視すると実用性が低下し、逆に柔軟性を重視すると誤情報や悪用リスクが増す」という結果は、バランスの重要性を示した格好だ。

今後、評価基準の標準化が進めば、利用者や規制当局はAIの安全性を比較しやすくなり、信頼性向上に寄与する可能性がある。

一方で、防御を強化しすぎると応答の利便性が損なわれ、商用利用に制約が出る可能性もある点だ。

将来的には、相互評価の定着により、AIモデル間の性能と安全性の透明性が高まり、業界全体の成熟につながることが理想だ。

だが、企業ごとの戦略差や未知の利用シナリオによって、忠実性と柔軟性の最適な配分は依然議論の余地があると言えるだろう。