数独パズルでAIの推論能力を測定 日本のSakana AIが新ベンチマーク「Sudoku-Bench」を公開

日本のAI企業Sakana AIは3月21日、AIの推論能力を評価するための新しいベンチマーク「Sudoku-Bench」を公開した。数独パズルを活用したこの評価基準により、最新のAIモデルでさえも論理的思考を必要とするタスクにおいて限界があることが明らかになった。
数独の特性を活かしたAIテスト
Sakana AIが開発した「Sudoku-Bench」は、2000年代に世界的に普及した「数独」を用いてAIの推論能力を測定する試みだ。このベンチマークは、コアとなる100個の標準的な数独、ニコリが特別に作成した100個の数独、そして英国のYouTubeチャンネル「Cracking The Cryptic」(CTC)が紹介した2565個のパズルから構成されている。
評価結果によれば、ほとんどの最新AIモデルは数独を解く際に1つの数字も正しく配置できないことが判明し、論理的、数理的な推論能力には、いまだ課題が残っていることがわかった。
一方で、OpenAIの「ChatGPT o3」のみがベンチマーク内のいくつかのパズルを解くことに成功したと報告されている。
Sakana AIは、「Sudoku-Benchは、AIの現在の限界を明確にし、今後の研究方向性を示す重要なツールになると確信している」とコメントしている。
今回数独が選ばれた理由としては、シンプルなルールながら多様なバリエーションが存在し、人間の論理的思考プロセスを模倣する能力を評価するのに適していることが挙げられる。
今後のAI研究への影響
医療診断や自動運転などの分野で、AIが人間のように論理的に考え、状況に応じた判断を下すことが求められている現状において、今回の取り組みはAI研究における推論能力向上の重要性を改めて浮き彫りにしたと言えるだろう。
Sudoku-Benchの公開は、AIが人間のような推論能力を獲得するための長い道のりの第一歩になると考えられる。今後は数独以外のパズルやタスクを用いた評価方法の開発も進められる見通しであり、AIの論理的思考能力向上に向けた研究がさらに加速するだろう。
Sakana AIは日本史上最速でのユニコーンを達成したAI企業で、異なる特徴を持つ複数の小規模な人工知能を組み合わせるというユニークなアプローチを取っている。
先日は、自律的に論文を執筆するAIシステム、「The AI Scientist v2」を公開し、このAIが生成した論文が国際カンファレンスにおいて査読を通過したことが話題を集めた。
今後もAIに関するユニークなアプローチに注目が集まるだろう。