ニュース

LINE、国⽴国会図書館のデジタル化資料247万点をテキストデータ化

 LINE AIカンパニーは、国立国会図書館が保有するデジタル化資料247万点、2億2300万画像を対象とした「デジタル化資料のOCRテキスト化」プロジェクトを受託し、全文のテキストデータ化が完了したと発表した。

 今回取り扱ったデジタル化資料の多くは昭和前期以前の資料で、レイアウトも複雑なため、既存のOCRでは同プロジェクトに必要な精度に達しないことや、2億2300万枚を超えるデジタル化資料の処理に時間を要する点が課題だったという。

 そのため、同社のAI-OCRモデル研究開発チームは、書類・画像に記載された文字などの情報をテキストデータへ変換するサービス「CLOVA OCR」の技術を元に、本プロジェクト用のOCRモデルを開発した。

 「CLOVA OCR」は現代の書籍や文章、言葉・記号の用法に最適化されているモデルのため、今回のモデル開発では文字サイズや字間・行間が不揃いな書籍や、本文と非本文(ルビなど)、書籍内のインク汚れや透けて見えている文字、右読みの文章など、昭和前期以前の資料特有の点についてチューニングを行った。

 その結果、全33区分中、1970年代に出版された雑誌資料を除く32区分で国立国会図書館の目標値よりも高い認識性能を発揮するモデルが完成し、全文テキストデータ化に成功した。

 改善結果やプロジェクト結果の詳細については、国立国会図書館がNDLラボで公開中。たとえば著作権保護期間を終えたものついては、国立国会図書館の「次世代デジタルライブラリー」や「NDL Ngram Viewer」で見られる。たとえば人名などでキーワード検索すると、その名前を収録するテキスト化された文書を閲覧できる。