ニュース
機械学習で古文書のくずし字を読み取れるアプリ「みを」、正式公開
2021年8月31日 06:00
ROIS-DS人文学オープンデータ共同利用センター(CODH)は、スマートフォンアプリ「みを(miwo)」の提供を開始した。
利用料は無料。機械学習により、古くから伝わる文書に用いられる「くずし字」を認識してくれる。
主な機能
源氏物語の第14帖「みをつくし」にちなんで命名された「みを」は、かつて日本で多く用いられたくずし字を読み取れるようにするスマートフォンアプリ。カメラで撮影した画像、あるいはネットからダウンロードした画像からくずし字を認識して、現在の文字へ変換できるという。
認識した内容はアプリ内へ保存できるほか、テキストとしてコピーしてほかのアプリでも使える。もし正しくない内容だった場合は修正できる。
専門家が資料調査で用いることを想定しているほか、初心者でも使いやすいよう認識したくずし字と、現代の文字を比較できるようにした。また文字の領域を四角形で示し、文字と文字が繋がっていても、その切れ目をわかるようにしている。
なお、くずし字の認識結果には誤りが含まれる可能性がある。
江戸時代のデータから学習
CODHによれば、「くずし字」を読み取れる人は、現代では数千人程度しかいないとのことで、歴史的資料を読みとるには時間がどうしてもかかってしまう状況にあった。
カラーヌワット・タリン氏がリードし、くずし字認識モデル「KuroNet」が開発された。その内容は2019年、グーグルの報道関係者向け説明会でも披露されており、今回の「みを」でも活用。また、Kaggleくずし字認識コンペで1位となったくずし字認識モデルも用いられている。
AIが学習したデータは、江戸時代の版本から集めたくずし字とのこと。そのため「江戸時代の版本への認識制度は比較的高めだが、ほかの時代の資料・写本・古文書などでは精度が低下する可能性がある」という。
またシミや虫食いなどの状態、あるいは撮影時の照明などの影響では精度が下がることもある。
iOS版とAndroid版が用意されているが、その開発にあたってはグーグルが進める「Flutter」を活用したクロスプラットフォーム開発が役立ったという。
「みを」は、日本の文化や、日本の古典文学を広めるという目的で、無料配布となった。アプリで用いるサーバーの運用はROIS-DS人文学オープンデータ共同利用センターが担う。