OCRの精度に挑む！日本語認識率を漱石の三四郎でチェックした

2012年08月28日 12時00分更新

文● 柳谷智宣

　デジタルガジェットには未検証の事象が多く存在している。それは予算の問題だったり、労力の問題で検証を回避されていることが多い。今回はASCII.jp夏休み企画として、そんなデジタルガジェットの謎をいくつか取り上げて紹介しよう。

OCRのテキスト認識率はどのくらい？

紙に打ち出すとA4用紙で160ページ以上の小説が、デジタルデータだと400KBもない。今更ながら時代を感じる

　セミナーでもらった資料や購入した製品に付属しているマニュアルをドキュメントスキャナーで読み込み、デジタルで管理している人は多いことだろう。しかし、基本的にスキャンしたデータは画像扱いとなっている。閲覧には問題ないが、キーワード検索などはできない。ファイルが少ないならファイル名やサムネイルで判別できるが、数が多くなってくると見つけるだけでも一苦労。そこで、OCRソフトの出番だ。

　OCR（Optical Character Recognition）とは、光学文字認識という意味で、画像データを解析し、文字列に変換することを意味する。スキャンしたデータをOCRソフトで解析すると、テキストデータを生成できるというわけだ。しかし、人間の目では当たり前に読める文字でも、コンピュータが認識するにはいくつものハードルがある。さまざまなフォントがあるうえ、英文が混じったり、ルビが付いたりするためだ。

　ドキュメントスキャナーにOCRソフトが付属している製品も多いが、あまり認識率が高いとはいえない。筆者は、すでに全文認識はあきらめており、特集名や著者名の検索に使えればいいくらいのつもりで利用している。とはいえ、OCR技術も日々進歩している。そこで最新のOCRソフトを使って、認識率をチェックしてみた。

　利用するのはメディアドライブの「e.Typist v.14.0」。2012年4月に発売された定番OCRソフトの最新版だ。スキャナーやデジカメから取り込んだ画像やPDFファイルを解析し、テキストデータを生成する機能を備えている。レイアウトを維持したまま、ワードやPDF、EPUB形式で出力することも可能だ。

「e.Typist v.14.0」（メディアドライブ）。価格はダウンロード版が1万2800円となる。5日間使える無料体験版も用意されている

「三四郎」を1冊丸ごと認識させてたが
全ページ認識でも3分10秒しかかからかった

　著作権のこともあるので、今回は「青空文庫」で公開されている夏目漱石の「三四郎」を使ってテストしてみる。「青空文庫」とは、著作権が消滅した作品を公開しているサイトで、古い名作が無料でダウンロードできる。まずは、「三四郎」のXHTMLファイルをダウンロードし、ルビ付きでPDFファイルに出力。そのPDFファイルをOCRソフトに読み込ませるという段取りだ。

　「e.Typist」は画面左側にナビゲーションメニューが表示され、やりたいことをクリックすれば作業を進められるようになっているのが便利。わかりにくい作業にはヘルプも用意されている。「三四郎」はA4用紙で約160枚分のデータで、読み込みだけでも約3分かかった。レイアウトを認識させたら、認識開始。全ページの認識には3分10秒かかった。これは、想像よりもずっと速かった。「Phenom II X6 1090T Black Edition」（3.2GHz）のCPUと16GB搭載したメモリーのおかげだろうか。