2026年5月29日、株式会社リコーは、図表を含む日本語業務文書に対する生成AIの推論性能を評価するベンチマーク「JDocQA Reasoning Benchmark」を無償公開したと発表した。計算や比較、傾向分析などの推論能力を測定できることが特徴で、国内における生成AI開発基盤の強化につながる取り組みとして注目されている。
図表を含む日本語文書の推論力を評価
リコーは、図表を含む日本語ドキュメント理解における生成AIの推論性能を評価するベンチマーク「JDocQA Reasoning Benchmark」を開発し、無償公開した。本取り組みは、経済産業省とNEDOが推進する生成AI開発支援プロジェクト「GENIAC」の第3期における活動の一環として実施されたものである。
近年、生成AIは文章生成能力の向上が著しい一方で、企業の実務で扱われる財務諸表やグラフ、業務フロー図などを正確に理解し、そこから論理的な判断を導き出す能力が重要視されている。しかし、日本語の図表を含む文書を対象とした評価環境は十分に整備されていなかった。
今回公開されたベンチマークは、日本語の質問応答データセット「JDocQA」を基に構築された。棒グラフや折れ線グラフ、財務諸表、路線図など20種類以上の図表を対象とし、全1,287問の質問を収録している。
評価項目には、情報の抽出だけでなく、数値計算や要素間の比較、欠損データの補完などが含まれる。これにより、AIが図表と文章を組み合わせて理解し、多段階の推論を行えるかどうかを測定できる。評価コードやデータセットはオープンソースとして公開されており、商用・非商用を問わず利用可能となっている。
評価基盤整備がAI競争の新たな焦点に
今回の公開は、日本の生成AI開発において、モデルそのものの性能競争だけでなく、評価基盤の整備への関心が高まりつつあることを示唆している。
企業における生成AI活用では、単純な文章生成よりも、複雑な業務資料を理解し適切な判断を行えるかが重要になる。そのため、推論能力を客観的に測定できる共通基準が整備されれば、企業はAI導入時の比較検討を行いやすくなり、開発企業も改善すべき課題を明確に把握できるようになると考えられる。
一方で、ベンチマークのスコア向上が実際の業務成果と必ずしも一致するわけではない。評価項目への最適化が進み過ぎれば、実利用環境との乖離が生じる可能性もある。また、業界や業務内容によって求められる推論能力は異なるため、単一の指標だけでAIの実力を判断することには限界があると言える。
それでも、日本語の図表や業務文書に特化した評価環境の整備は、国内AI開発の発展に寄与する可能性がある。今後はモデル開発だけでなく、評価基盤やデータセットの充実を含めた総合的な競争が進み、日本発の生成AIの実用化や国際競争力向上を後押しする可能性がある。
※JDocQA:日本語の文書画像を対象とした質問応答データセット。文章だけでなく図表やレイアウト情報も含めてAIの理解能力を評価するために利用される。
関連記事: