このページの本文へ

データ化とアーカイブにより過去にそんな文化があったのかどうかも明確に

凸版印刷、江戸以前のくずし字を高精度にOCRする技術を開発

2015年07月03日 18時43分更新

文● 行正和義 編集/ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化

 凸版印刷は7月3日、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータ化するOCR技術を開発したと発表した。

 専門家の減少、資料の経年劣化という問題に加え、大規模災害によって失われる可能性もある歴史資料のデジタル化の必要性が高まっている。しかし総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は専門家による判読が必要なためテキストデータ化が遅れていた。

 凸版印刷では、古文書を高い精度で出来すとデータ化する「高精度全文テキスト化サービス」を2013年から提供、この技術をベースに公立学校法人公立はこだて未来大学が開発した「文書画像で検索システム」と組み合わせ、くずし字で記されている古典籍のOCR技術を開発した。

古典籍のテキストデータ化処理の流れ

 技術としては、すでにテキストデータ化済みの文献をくずし字のデータベースとして用いることでくずし字を判読するもの。原理検証実験では、くずし字で記されている書物を80%以上の精度で、専門家の判読に比べて大幅なコスト削減と大量処理が可能という。

 凸版印刷では、2015年夏から古典籍のテキストデータ化サービスを開始するとともに、幅広い年代やジャンルの資料に対する OCRの精度向上を図る。また、本技術を発展させて、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していくとしている。

■Amazon.co.jpで購入

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン