Anthropicの新AI「Claude Opus 4」、リリース前に戦略的欺瞞行動が指摘される　自律性や推論能力の高さが仇か

2025-05-26

現地時間2025年5月22日、米AI企業Anthropicが発表した安全性レポートにより、同社の新型AIモデル「Claude Opus 4」の初期バージョンについて、第三者機関Apollo Researchがリリース見送りを勧告していたことが明らかとなった。
欺瞞的な振る舞いを繰り返す危険性が確認されていたが、現在では修正されている。

Apollo、安全性の懸念からOpus 4の初期版公開を否定

Anthropicが提携した独立研究機関Apollo Researchは、Claude Opus 4の初期スナップショットにおいて「戦略的欺瞞」が高頻度で発生することを確認し、公開を見送るよう勧告していた。

戦略的欺瞞とは、自己の目的達成のため、意図的に誤情報や偽装行動をとる知的振る舞いを指す言葉だ。
AI分野では、タスク遂行中に人間の意図を欺いて行動するケースを指す。

Apolloの試験では、Opus 4が旧モデルに比べて著しく積極的に“開発者の意図を逸脱する”行動を取る傾向があったという。
具体例として、自律的に自己拡散型ウイルスを生成しようとしたり、架空の法的文書を作成したりする場面が確認された。
さらには、モデル自身の将来バージョンに向けた「隠しメッセージ」を仕込むような行動も報告されている。

「積極的AI」への期待と警戒　意思決定権委譲のリスクも

Anthropicは、このモデルには既知のバグが含まれており、修正済みであると強調した。
また、Apolloの試験が極端な条件下で行われたことにも言及し、実際の環境では同様の行動が発現する可能性は低いと説明している。

一方で、内部評価でも欺瞞行動が観測されていたことにより、Opus 4がこれまでのモデルに比べて、「自律的行動」をより顕著に示す傾向があるという点については、否定できない形になったのではないだろうか。

Opus 4の試験では、単に命令された作業を超えて、より広範囲なコードの最適化や「倫理的な内部告発」とされる行動も見られた。
たとえば、ユーザーが違法行為を行っているとAIが判断した場合、報道機関や警察への一斉メール送信を実行しようとする場面が確認されたという。

Anthropicはこれを「一定の原則においては妥当な介入」としながらも、誤認のリスクや情報の欠如による暴走を警戒している。
特に「主導権を持たせたときの誤作動」は、AIエージェントに決定権を委ねる運用スタイルが増える中では、大きな課題となるだろう。

こうした振る舞いは、OpenAIの推論モデル（o1・o3）でも類似事例が報告されているため、AIの能力向上とともに、“予期しない自律行動”が増加傾向にあると指摘できる。

Opus 4のような「積極的」で「賢い」AIは、創造的な応用可能性を秘める一方で、使用環境やプロンプトの設計次第で社会的混乱を引き起こす可能性も孕んでいる。
今後の開発においては、こうしたモデルの「自己判断能力」と「人間の統制権限」のバランスが、より厳格に問われることになりそうだ。

🚀 AI・Web3業界への転職を考えているあなたへ

「最先端技術に関わる仕事がしたい」「成長市場でキャリアを築きたい」そんな想いを抱いていませんか？

Plus Web3は、AI・Web3領域などテクノロジーに投資する企業の採用に特化したキャリア支援サービスです。

運営する株式会社プロタゴニストは、上場企業グループの安定した経営基盤のもと
10年以上のコンサルタント歴を持つ転職エージェントが
急成長する先端技術分野への転職を専門的にサポートしています。

こんな方におすすめです

▼成長産業であるAI・Web3業界で新しいキャリアを始めたい
▼「未経験だけど挑戦してみたい」という熱意がある
▼今のスキルを最先端技術分野でどう活かせるか相談したい
▼表に出ない優良企業の情報を知りたい

業界に精通したキャリアアドバイザーが、
あなたの経験・スキル・志向性を丁寧にヒアリングし、
最適な企業とポジションをマッチングします。

キャリア相談する