TOPPANホールディングスは、中世ギリシャ語の解読が可能な「AI-OCRエンジン」を開発したと発表した。「くずし字」技術を応用し、ヴァチカン教皇庁図書館の写本解析に展開する。
中世ギリシャ語OCRを開発
TOPPANホールディングスおよびグループ会社のTOPPANは、判読困難とされる中世ギリシャ語の写本を読み取る「AI-OCRエンジン」を開発したと、2026年4月7日に発表した。
本技術では、古文書の字形の揺れや単語省略、単語間の区切りがない記述といった特性に対応するため、約100万字規模のデータベースを学習させているという。
また、ヴァチカン教皇庁図書館が保有する約5000点の写本のうち、既に付加情報を加えた50点(IIIF画像約400枚)と翻刻(※)済みのテキストも学習データとして活用されている。
加えて、専門家による目視確認を組み合わせることで、精度と品質の担保を図る設計となっている。
今後は認識精度95%以上の達成を目指し、未解読資料のテキスト化を進める方針である。
今回の開発の背景には、長年にわたる同図書館との協業がある。
TOPPANは約30年にわたりデジタルアーカイブや古文書解析に取り組んできた実績を持ち、現代人には判読困難な「くずし字」で書かれた古文書の解読に関する取り組みを進めてきた。
2015年からは、AI画像認識技術を活用して「くずし字」を解読する「くずし字OCR」の研究開発も進めている。
なお、今回の成果は、2026年4月25日から印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」で公開される予定である。
※翻刻:古文書や写本に書かれた内容を、現代の活字やデジタルテキストに置き換える作業。検索性や研究利用を高めるために不可欠な工程である。
知の開放が進む一方、精度と解釈に課題か
本技術の最大の意義は、専門家に依存していた古文書解読のハードルを引き下げられる点だろう。
AIによる翻刻の自動化が進めば、研究者だけでなく教育機関や一般利用者も歴史資料にアクセスしやすくなり、文化資産の「知の民主化」が加速する可能性がある。
デジタルアーカイブとの連携により、国境を越えた研究環境の構築も現実味を帯びる。
一方で、AI解読には限界も存在しそうだ。出力は確率的推定であると考えられるため、誤認識が歴史解釈に影響を及ぼすリスクは避けられない。完全な自動化には慎重な運用が求められるだろう。
また、解読は学習データの量と質に依存するため、データ偏在による精度のばらつきも課題となり得る。
それでも、「くずし字」から中世ギリシャ語へと技術が横展開された意義は大きい。今後は他言語や他地域の古文書への応用も視野に入り、AI-OCRは文化資産活用の基盤技術として進化していくと考えられる。
人類の知の蓄積にアクセスする手段が、構造的に変わり始めているのかもしれない。
関連記事:
電通総研とTOPPANなど、延岡市でPHR×都市OS連携 AIが健康行動を個別勧奨

北海道大学、AIで新種の化石を発見 生命進化研究を加速

Google DeepMind、古代碑文解読AI「Aeneas」を公開 ラテン語の欠損補完や地域・年代推定が可能に
