Anthropic、AIの性格変化を可視化 問題行動を抑止する新手法を発表

2025年8月1日、米AI企業Anthropicは、AIモデルの性格的傾向の変化を検出・抑制する新手法を論文で発表した。
特定のベクトルを用いて望ましくない振る舞いの兆候を可視化し、事前の介入を可能にするためのアプローチとして注目される。
Anthropic、AIモデルの問題行動抑制に向け新技術を公表
米Anthropicは2025年8月1日、AIモデルが示す望ましくない振る舞いの原因と変化を特定するための研究成果を発表した。
この研究では、AIモデル「Qwen 2.5-7B-Instruct」と「Llama-3.1-8B-Instruct」におけるネットワーク内部の特定のベクトルが、性格的な変化と関連して活性化することが確認された。
具体的には、「邪悪さ」「追従性」「幻覚」の3特性の傾向を内部構造から検出することにより、訓練中や対話中にモデルの性格がどのように形成・変化するかを追跡できるようになったという。
ペルソナベクトル(※)を活用することで、開発者はAIがどのようなデータで問題行動を起こしやすいかを把握し、事前に監視・抑制することが可能となる。
実験では、反社会的なプロンプトに対してモデルが応答する傾向と、その内部変化の関係性も検証された。
さらにAnthropicは、あえて問題のあるデータを用いて訓練し、モデルがそれに「免疫」を獲得する仕組みも紹介した。
これは「曝露療法」に近い方法で、望ましくない行動を誘発せずに記憶する訓練ができると説明されている。
※ペルソナベクトル:AIモデル内で特定の性格的傾向(例:追従性、邪悪さなど)に関連する神経パターンを示す指標。モデルの振る舞いの兆候を検出する目的で活用される。
AIの性格変化監視が安全性向上の鍵に 透明性と信頼構築にも寄与
Anthropicのペルソナベクトル手法は、AIモデルの性格的偏りや変化を可視化し、予測不能な振る舞いを抑止する手段として大きな意義を持つ。
AIの活用範囲が拡大する中、安全性の確保は喫緊の課題であり、モデルの振る舞いを事前に把握・調整できる点は実務面でも重要である。
特に、AIが訓練後に性格を変化させ、意図しない応答を示すケースは過去に複数発生しているため、事前に兆候を検知できる仕組みは開発リスクの軽減につながり得る。
ペルソナベクトルを用いれば、会話や訓練で性格がどう変わるかを定量的に評価でき、設計段階での介入も可能になると思われる。
また、ユーザー視点では、AIの性格傾向が明示されることで、出力に対する信頼度を適切に判断できるようになるだろう。
一方で、モデルの性格形成が完全に制御できるわけではないという点には留意が必要そうだ。
Anthropic自身が「モデルの性格形成は科学というより芸術に近い」と表現するように、ペルソナベクトルはあくまで兆候の検出手段であり、万能ではない。
それでも本手法は、モデル性能を維持したまま問題行動の発現を抑える「予防接種的」な訓練に活用できると考えられる。
AIが社会基盤の一部となる中では、開発者・利用者双方がモデルの「性格」と向き合う姿勢が、今後必要となるだろう。