汎用AI向け新テスト「ARC-AGI-2」で人間がAIに圧勝 AIの新たな課題が浮き彫りに

米時間2025年3月24日、非営利法人Arc Prize Foundationが開発した人工汎用知能(AGI)評価テスト「ARC-AGI-2」が公開された。
このテストでは人間の平均スコアが約60%だったのに対し、最新AIモデルは約1%という低スコアにとどまり、AIと人間の知能の差が浮き彫りになった。
AIの「一般知能」を測定する新しいテスト
「ARC-AGI-2」は、AIが新しい問題に適応し、効率的にスキルを習得・適用する能力を評価するテストである。
従来のAI評価方法が特定のタスクに特化していたのに対し、このテストはAIの汎用性と適応性に焦点を当てている。テストの構造は視覚的なパズル問題で構成され、計算能力ではなく問題解決の効率性を重視するという特徴がある。
前バージョンでは計算リソースに依存する傾向があったが、新バージョンではAIが記憶に頼らず新たな問題に対応する能力を測定する。つまり、AIが持っている膨大な知識を使って問題を解くことはできず、思考して解決策を導かなければならない。
この変更により、AIの汎用的な「真の知能」をより正確に評価できるようになったとされる。
現在、AI業界では、AGI、人工汎用知能の実現を急ぐ動きがある。
AGIとは、特定のタスクだけでなく、人間のように様々な状況や問題に柔軟に対応できる汎用的な知能を持つAIのことで、現在の特化型AIとは異なり、人間のような幅広い知的作業を自律的に行うことができる。
今回のテストで計測されるような適応性は、様々な状況に対応する必要のあるAGIには重要な能力と言える。
テスト結果は衝撃的なものだ。
OpenAIの「o1-pro」やDeepSeekの「R1」といった最新の推論モデルでさえ、スコアは1%〜1.3%に留まった。非推論モデル(GPT-4.5やClaude3.7 Sonnetなど)も約1%のスコアを記録した。
一方、400人以上の人間参加者による平均スコアは約60%と、AIを大きく上回る結果となった。
この結果から、より汎用的な知能においては、最新のAIモデルでも人間にはるかに及ばないという現状が明らかになった。
「ARC-AGI-2」が示す、今後のAI開発
テスト開発者のフランソワ・ショレ氏は「ARC-AGI-2は、AIの一般知能を測定するための新しい基準を提供する」と述べ、従来の評価方法の限界を指摘した。
ショレ氏が言うように、「ARC-AGI-2」はAI評価の新たなスタンダードになる可能性が高い。
現在、AIの性能を測るためのベンチマークテストは無数に存在しているが、そのどれもが攻略されつつあり、高い点数で微妙な差を競い合うという「飽和」状態にある。
そんな中、「ARC-AGI-2」は、主要モデルの点数が著しく低いこと、また人間は高スコアを取れることなどから、AI企業にとっては高い壁になるだろう。
今後、このテストによって、これまでとは違った側面でもAIの強化が進み、より汎用的なモデルが開発されていくことが見込まれる。