富士通は2月21日、教師データ数を削減できるディープラーニング技術を開発。中国古文書の文字認識において成果を上げたと発表した。
これは富士通研究開発中心有限公司が開発したもので、中国古文書文字を文字認識してテキストデータ化するプロジェクトに用いられる。ディープラーニングによる文字認識では文字画像と文字を関連付けた教師データを用い、教師データの数が多いほど認識精度が高くなるが、古文書文字では充分な数の教師データを用意できず、また欧文以上に多彩な書体があるため難しかった。
富士通研究開発中心有限公司では、これまで正解となる文字と関連付けられていなかった文字画像も学習に活用。文字認識できていないが、仮の文字コードを与えつつ別の認識エンジンに通して比較させ、手順を繰り返すことで可能性のある文字が絞られるという手法を用いた。
文字認識用データとして公開されている1000枚の中国敦煌古籍文献画像を学習させた結果、従来技術と同じ文字認識精度を少ない教師データで達成でき、また教師データが同数であれば認識率が向上することが確認できたという。富士通研究開発中心有限公司は、中国各地の古文書の電子化ソリューションとして展開するという。