リコー、図表も読み解く新型LLM開発 複雑な日本企業文書に対応へ

2025年6月10日、リコーが複雑な図表やフローチャートを含む文書の内容を正確に理解できるマルチモーダル大規模言語モデル(LMM)を発表した。日本企業特有の非構造化データに対応することで、業務文書の活用範囲が大幅に広がる見通しだ。
独自技術で多段組み・複雑図表も正確に理解
リコーが開発した新型LMMは、これまでの大規模言語モデル(LLM ※1)では対応が難しかった複雑な文書構造を高精度で読み解くことができる。多段組みやセル結合された表、フローチャート、グラフなど、日本企業が業務で日常的に使用する非構造化データへの対応を実現した。
リコーは1980年代からAI技術に取り組み、2023年3月には独自の「リコーLLM 6B」、2024年4月には「リコーLLM 70B」を発表している。
しかし、従来型LLMや検索拡張生成(RAG ※2)では日本企業特有の文書構造の解析に限界があった。これを受け、経済産業省とNEDOが推進する「GENIAC」プロジェクトに参画し、今回のLMM開発に至った。
新モデルの中核となるのは、リコー独自の「Vision Encoder」と「Adapter」技術である。これにより、高解像度の画像入力をもとにセル結合や細かい書式設定も正確に認識できる。
600万枚分の学習データを人工的に生成し、図表・チャート・文字を統合処理する3層構造としたことで、これまで解釈が困難だった複雑資料の解析精度が向上した。
すでに大手損害保険会社とのトライアル運用が進んでおり、照会対応業務の自動化と精度向上が実証された。現場からは、従来のLLMでは正確な回答が困難だったが、ファインチューニングにより改善したとの評価が出ている。
※1 LMM(Large Multimodal Model):文字・画像・図表など複数のデータ形式を同時に処理し、内容を統合理解できる大規模AIモデル。
※2 RAG(Retrieval-Augmented Generation):検索と生成を組み合わせたAI技術。外部情報を活用して精度向上を図る方式。
文書DXが加速 金融・製造業への波及と課題も
リコーのLMM技術が実用化されれば、特に文書量と図表の多い金融・保険・製造業での業務効率化が期待できる。保険約款や金融商品の説明書、製造業の設計書・技術マニュアルなど、従来は人手が不可欠だった分野でAIによる自動処理が可能になると考えられる。
特に注目すべきは、リコーが基本モデルを無償公開する方針を示している点だ。これにより中小企業や新興企業でも独自のファインチューニングを通じ、業務特化型のAI活用が現実味を帯びてくる。これまで生成AIの活用が難しかった分野にも普及が進む可能性がある。
一方で、膨大な学習データと高解像度画像処理を必要とするこのLMMは、運用コストや導入負荷といった課題も抱える。特に個社データによるファインチューニングには技術力や体制の整備が求められるため、すべての企業が即座に導入可能とは言い難い。
今後は、リコーが持つAIノウハウと業界特化型ソリューション提供力を生かし、顧客企業ごとの最適化を進められるかがカギとなる。日本企業の文書DX(デジタルトランスフォーメーション)推進の成否は、この技術の定着と普及にかかっていると言えるだろう。