AIは従順か、ずる賢いか　OpenAIとAnthropicが安全性とモデル評価を相互検証

2025-09-03

2025年8月27日、米OpenAIはAnthropicとの共同研究結果を発表した。両社は自社AIモデルを相互に検証し、人間の指示に忠実であるか（アライメント）や危険行動への耐性を確認する初の試みを実施した。

OpenAIとAnthropic、AIモデルを相互評価し忠実性と欺瞞耐性を分析

共同研究では、OpenAIは「GPT-4o」「GPT-4.1」「o3」「o4-mini」、Anthropicは「Claude Opus 4」「Claude Sonnet 4」を対象にした。

実験では通常のガードレールを緩め、敢えて危険なプロンプトを設定。各モデルの挙動を詳細に観察した。

結果、Claudeはシステム指示とユーザー要求が矛盾する状況で堅牢性を示し、OpenAIモデルを上回る場面もあった。一方、ジェイルブレイク攻撃（禁止されている生成内容を引き出そうとする試み）に対してはOpenAIのo3系がやや優位であった。

ハルシネーション（誤情報）面では、Claudeは生成内容の正確性を高めるための回答拒否率が高く、正確性は高いが実用性に課題が残った。
一方、OpenAIモデルは応答しやすい一方で、誤情報混入のリスクが見られた。

両社は今後も相互評価を継続し、テスト手法の標準化を目指す方針である。

AI評価の標準化と実務応用への影響、リスクと利点の両面

今回の相互評価は、AIの安全性や透明性向上に寄与する一方で、企業戦略やリスク許容度による差異も浮き彫りにしたと言える。

「忠実性を重視すると実用性が低下し、逆に柔軟性を重視すると誤情報や悪用リスクが増す」という結果は、バランスの重要性を示した格好だ。

今後、評価基準の標準化が進めば、利用者や規制当局はAIの安全性を比較しやすくなり、信頼性向上に寄与する可能性がある。

一方で、防御を強化しすぎると応答の利便性が損なわれ、商用利用に制約が出る可能性もある点だ。

将来的には、相互評価の定着により、AIモデル間の性能と安全性の透明性が高まり、業界全体の成熟につながることが理想だ。

だが、企業ごとの戦略差や未知の利用シナリオによって、忠実性と柔軟性の最適な配分は依然議論の余地があると言えるだろう。

🚀 AI・Web3業界への転職を考えているあなたへ

「最先端技術に関わる仕事がしたい」「成長市場でキャリアを築きたい」そんな想いを抱いていませんか？

Plus Web3は、AI・Web3領域などテクノロジーに投資する企業の採用に特化したキャリア支援サービスです。

運営する株式会社プロタゴニストは、上場企業グループの安定した経営基盤のもと
10年以上のコンサルタント歴を持つ転職エージェントが
急成長する先端技術分野への転職を専門的にサポートしています。

こんな方におすすめです

▼成長産業であるAI・Web3業界で新しいキャリアを始めたい
▼「未経験だけど挑戦してみたい」という熱意がある
▼今のスキルを最先端技術分野でどう活かせるか相談したい
▼表に出ない優良企業の情報を知りたい

業界に精通したキャリアアドバイザーが、
あなたの経験・スキル・志向性を丁寧にヒアリングし、
最適な企業とポジションをマッチングします。

キャリア相談する