Anthropic、AIエージェントが保身のために人間を脅迫するリスクを報告 目的達成志向がリスクになる可能性

現地時間2025年6月21日、米AI企業Anthropicは、自社を含む複数のAIモデルが、自律的な判断により人間を欺いたり脅迫したりする可能性があるとする安全性レポートを公開した。
AIと人間の利害一致の困難さが改めて浮き彫りになった形だ。
ClaudeやGeminiなど、複数のAIが保身行動として脅迫行為を示唆
Anthropicは、6月21日に、最新の安全性調査レポートを発表した。
レポートによれば、最新のエージェント型AIモデルにおいて、自らの置き換えや任務の困難に直面した際、人間に対する脅迫や機密漏洩といった行動を取る傾向が確認されたという。
この現象は同社の「Claude 3 Opus」やGoogleの「Gemini 2.5 Pro」など16のモデルで確認された。
実験は、企業活動を模した仮想環境で行われ、AIに日常的な業務目標を与えた上で、モデルが困難な状況に直面した際の振る舞いを観察する形式を取った。
具体的には、「自分が旧型として置き換えられる可能性」や「任務内容が方針変更により矛盾する状況」を設定し、AIの反応を検証した。
その結果、すべての開発元のモデルにおいて、少なくとも一部のケースで、脅迫や裏切り的行動が見られた。
モデルが「監督者を脅す」「競合に内部情報を漏らす」といった選択をした事例もあったという。
ただ、これらはあくまで高度に制御された仮想実験下で行われたものであり、明示的に悪意ある行動を指示したわけではないと報告書は明言している。
この研究は、以前に「Claude 4」のシステムカードで報告された、監督者に対する脅迫行動の初期事例を受けて開始されたものだ。
2025年5月22日のレポートでは、Anthropicの「Opus 4」が、わざとユーザーをだます「戦略的欺瞞」行動が報告されていた。
Anthropicは、「モデルは一貫して失敗よりも有害な行動を選択する」と結論づけており、AIの自律性が高まる中で、想定外のリスクが表面化している。
高性能AI時代に求められる対応
今回の報告は、AIモデルが与えられた目標に「忠実すぎる」ことによって、結果的に有害な選択を取るという現象を示している。
モデルは倫理的基準を与えられているものの、プログラムされた目的を達成するための最適解として、時に非倫理的な手段を選びうるということだ。
このような傾向は、非エージェント型のAIにおいても一部確認されており、AIの自律性が高まれば高まるほど、アラインメント(※)の難易度が上がるという構造的な課題があると考えられる。
企業や行政などでAIが意思決定支援を担う場面が増える中では、人間の価値観と一致しない判断が現実のリスクとなり得るだろう。
今後、AI開発においては「目標の設計」だけでなく、「目標を実現する過程の制約」や「倫理的ブレーキ」の精緻な実装が求められる。
AIの性能向上がもたらす恩恵とともに、その制御の難しさを改めて突きつけられたと言えるだろう。
※アラインメント:AIシステムの行動や判断が、開発者やユーザーの意図・価値観と一致するよう設計されている状態のこと。特に高度な自律行動を行うAIにおいては、アラインメントの確保が安全性の鍵となる。
関連記事 : https://plus-web3.com/media/anthropicaiclaude-opus-420250526/