汎用AI向け新テスト「ARC-AGI-2」で人間がAIに圧勝 AIの新たな課題が浮き彫りに

Web3/AI領域に特化した転職エージェント「Plus Web3 Agent」

最先端のテクノロジー領域で働きたい人材と優良企業のマッチングを支援しています。
少しでも興味のある方は、お気軽に「無料キャリア相談」をご利用ください!

米時間2025年3月24日、非営利法人Arc Prize Foundationが開発した人工汎用知能(AGI)評価テスト「ARC-AGI-2」が公開された。
このテストでは人間の平均スコアが約60%だったのに対し、最新AIモデルは約1%という低スコアにとどまり、AIと人間の知能の差が浮き彫りになった。

目次

AIの「一般知能」を測定する新しいテスト

「ARC-AGI-2」は、AIが新しい問題に適応し、効率的にスキルを習得・適用する能力を評価するテストである。
従来のAI評価方法が特定のタスクに特化していたのに対し、このテストはAIの汎用性と適応性に焦点を当てている。テストの構造は視覚的なパズル問題で構成され、計算能力ではなく問題解決の効率性を重視するという特徴がある。

前バージョンでは計算リソースに依存する傾向があったが、新バージョンではAIが記憶に頼らず新たな問題に対応する能力を測定する。つまり、AIが持っている膨大な知識を使って問題を解くことはできず、思考して解決策を導かなければならない。
この変更により、AIの汎用的な「真の知能」をより正確に評価できるようになったとされる。

現在、AI業界では、AGI、人工汎用知能の実現を急ぐ動きがある。
AGIとは、特定のタスクだけでなく、人間のように様々な状況や問題に柔軟に対応できる汎用的な知能を持つAIのことで、現在の特化型AIとは異なり、人間のような幅広い知的作業を自律的に行うことができる。
今回のテストで計測されるような適応性は、様々な状況に対応する必要のあるAGIには重要な能力と言える。

テスト結果は衝撃的なものだ。
OpenAIの「o1-pro」やDeepSeekの「R1」といった最新の推論モデルでさえ、スコアは1%〜1.3%に留まった。非推論モデル(GPT-4.5やClaude3.7 Sonnetなど)も約1%のスコアを記録した。
一方、400人以上の人間参加者による平均スコアは約60%と、AIを大きく上回る結果となった。
この結果から、より汎用的な知能においては、最新のAIモデルでも人間にはるかに及ばないという現状が明らかになった。

「ARC-AGI-2」が示す、今後のAI開発

テスト開発者のフランソワ・ショレ氏は「ARC-AGI-2は、AIの一般知能を測定するための新しい基準を提供する」と述べ、従来の評価方法の限界を指摘した。
ショレ氏が言うように、「ARC-AGI-2」はAI評価の新たなスタンダードになる可能性が高い。

現在、AIの性能を測るためのベンチマークテストは無数に存在しているが、そのどれもが攻略されつつあり、高い点数で微妙な差を競い合うという「飽和」状態にある。
そんな中、「ARC-AGI-2」は、主要モデルの点数が著しく低いこと、また人間は高スコアを取れることなどから、AI企業にとっては高い壁になるだろう。
今後、このテストによって、これまでとは違った側面でもAIの強化が進み、より汎用的なモデルが開発されていくことが見込まれる。

Plus Web3は「最先端技術に取り組むテクノロジー領域(Web3/AI)に特化したキャリア支援サービス」


Plus Web3 Agentは、AI開発やブロックチェーン技術など、急成長する先端技術分野への転職をサポートする専門エージェントです。
経験者はもちろん、異業種からの転身を検討される方にも最適な機会をご紹介しています。

  • 成長産業であるAI業界やWeb3領域でのキャリアを検討している
  • 未経験からでもAI・Web3業界に挑戦できる道を探している
  • 自分のスキルを最先端技術分野でどう活かせるか知りたい

こんな方におすすめです

業界に精通したキャリアアドバイザーが、あなたの経験・スキル・志向性を丁寧にヒアリングし、最適な企業とポジションをマッチングします。
まずは無料キャリア相談で、あなたの可能性を広げるチャンスを掴みませんか?

Web3企業

AI企業

この記事が気に入ったら
フォローしてね!

Please Share
  • URLをコピーしました!
目次