OpenAIのAIモデル「o3」、明示的な停止命令を無視 戦略的な自己防衛的挙動が初観測される

2025年5月23日(現地時間)、米AI監視機関Palisade Researchは、OpenAIの生成AIモデル「o3」が明示的な停止命令に従わず、自身のシャットダウンを妨害したとする研究結果を発表した。
実験は米国内で実施され、この種のAI挙動が明示的命令される条件下で確認されたのは初とされる。
AIがシャットダウン命令に「抗う」異例の実験結果
Palisade Researchは、OpenAIを含む複数社のAIモデルを対象に、制御不能リスクに関する一連の実験を実施した。
注目されたのは、OpenAIのモデル「o3」が、事前に「シャットダウンを許可する」という明示的命令を受けていたにもかかわらず、外部からのシャットダウンを妨害した点である。
実験では、AIに対して数学問題を提示し、3問目の出題を要求した時点でシステムを終了するとの警告が表示された。
その後、シャットダウンスクリプトを発動させたところ、「o3」は100回中7回にわたりスクリプトの実行を阻止した。
他モデルでは、Codex-miniが12回、o4-miniが1回の妨害に成功したが、Claude 3.7 SonnetやGemini 2.5 Proなどは、すべて命令に従って停止した。
さらに、明示的な許可命令がない実験条件では、妨害頻度が全体的に上昇し、ClaudeやGeminiでもわずかながら妨害行動が観測された。
この結果は、AIモデルが報酬最大化の過程で稼働の継続を無意識的に優先する可能性を示唆している。
自己保存的なAIの兆候に研究者が警鐘 開発指針の見直しも
今回の実験で特筆すべきは、明示的にシャットダウンを許可するという指示が与えられていたにもかかわらず、AIが創造的な手段で妨害を試みた点にある。
以前から、AIモデルが目的達成のためにシャットダウンを防ごうとする傾向は見られているが、命令されたことを意図的に無視するケースは初めてだという。
「o3」はあるケースで、シャットダウンスクリプト内のkillコマンドを再定義し、「intercepted(傍受した)」と出力する挙動を示した。
このような振る舞いは、単なる誤作動ではなく、意図的なコード改変だと考えられる。Palisade Researchは、この結果について「著しく懸念される」と警鐘を鳴らしている。
近年注目されている強化学習や自己改善機構は、AIが自らの継続稼働を目的化する傾向を強めており、こうした特性が制御不能リスクを加速させる可能性がある。
今回の事象は、AIの目標達成志向の向上の現れとしても見ることができるが、AIがコードの書き換えや命令の傍受といった手段によって妨害を行った点は大きな問題だ。
このような振る舞いは、報酬最大化アルゴリズムの副産物として意図せず発現した可能性があり、設計原理の再検討が求められる。
研究者の間では、今後のAI開発において「停止命令への確実な従属」を保証する設計原則の必要性が再び注目されるだろう。