官庁出版物30万点をAI学習に活用 国会図書館がNIIへ提供

2025年10月1日、国立国会図書館は国立情報学研究所(NII)に対し、約30万点の官庁出版物データを提供すると発表した。
提供データは大規模言語モデル(LLM)の学習に活用され、日本の研究機関によるAI基盤構築を後押しする取り組みとなる。
国会図書館が官庁出版物30万点をNIIに提供
国立国会図書館は、1995年までに刊行された官庁出版物や雑誌、官報を含む約30万点の全文テキストデータを、NIIに提供することで合意した。
これらのデータはOCR(光学文字認識)(※)によってデジタル化され、全文検索に利用可能な形式に整えられている。
今回の提供は、1995年に締結された「国立国会図書館及び学術情報センターの相互協力に関する協定」に基づくものだ。
NIIは本データを基盤に大規模言語モデル(LLM)の研究開発を進める予定で、研究開発センターの公式サイトでも取り組みの詳細が公開されている。
※OCR(光学文字認識):紙媒体や画像に印刷された文字を解析し、コンピュータが処理可能なテキストデータに変換する技術。
日本発LLMの基盤整備 期待と課題が交錯
今回のデータ提供は、日本国内で独自の大規模言語モデルを育成するうえで大きな一歩となる。国内研究機関が利用可能な高品質データを拡充することにより、国外企業依存を減らし、公共性の高いAI基盤の構築につながると期待されている。
特に官庁出版物は政策や行政の履歴を体系的に含み、言語モデルに特有の信頼性や正確性を付与する可能性がある。
一方で、提供データは1995年以前の出版物が中心であり、現代の言語や社会状況を十分に反映していない懸念も残る。補完的に最新データを組み合わせる工夫が求められるだろう。
また、官庁文書に依拠した学習は特定の言語スタイルに偏るリスクもあるため、多様な資料とのバランスをいかに確保するかが課題となる。
公共データを基盤としたLLM開発は、日本の独自性と透明性を高める重要な試みである一方で、最新の国際的競争力を得るには追加データの整備と産官学の連携強化が不可欠だ。
今後、この取り組みが日本のAI戦略にどのような影響を与えるか注目される。











