デジタルガジェットには未検証の事象が多く存在している。それは予算の問題だったり、労力の問題で検証を回避されていることが多い。今回はASCII.jp夏休み企画として、そんなデジタルガジェットの謎をいくつか取り上げて紹介しよう。
OCRのテキスト認識率はどのくらい?
セミナーでもらった資料や購入した製品に付属しているマニュアルをドキュメントスキャナーで読み込み、デジタルで管理している人は多いことだろう。しかし、基本的にスキャンしたデータは画像扱いとなっている。閲覧には問題ないが、キーワード検索などはできない。ファイルが少ないならファイル名やサムネイルで判別できるが、数が多くなってくると見つけるだけでも一苦労。そこで、OCRソフトの出番だ。
OCR(Optical Character Recognition)とは、光学文字認識という意味で、画像データを解析し、文字列に変換することを意味する。スキャンしたデータをOCRソフトで解析すると、テキストデータを生成できるというわけだ。しかし、人間の目では当たり前に読める文字でも、コンピュータが認識するにはいくつものハードルがある。さまざまなフォントがあるうえ、英文が混じったり、ルビが付いたりするためだ。
ドキュメントスキャナーにOCRソフトが付属している製品も多いが、あまり認識率が高いとはいえない。筆者は、すでに全文認識はあきらめており、特集名や著者名の検索に使えればいいくらいのつもりで利用している。とはいえ、OCR技術も日々進歩している。そこで最新のOCRソフトを使って、認識率をチェックしてみた。
利用するのはメディアドライブの「e.Typist v.14.0」。2012年4月に発売された定番OCRソフトの最新版だ。スキャナーやデジカメから取り込んだ画像やPDFファイルを解析し、テキストデータを生成する機能を備えている。レイアウトを維持したまま、ワードやPDF、EPUB形式で出力することも可能だ。
「三四郎」を1冊丸ごと認識させてたが
全ページ認識でも3分10秒しかかからかった
著作権のこともあるので、今回は「青空文庫」で公開されている夏目漱石の「三四郎」を使ってテストしてみる。「青空文庫」とは、著作権が消滅した作品を公開しているサイトで、古い名作が無料でダウンロードできる。まずは、「三四郎」のXHTMLファイルをダウンロードし、ルビ付きでPDFファイルに出力。そのPDFファイルをOCRソフトに読み込ませるという段取りだ。
「e.Typist」は画面左側にナビゲーションメニューが表示され、やりたいことをクリックすれば作業を進められるようになっているのが便利。わかりにくい作業にはヘルプも用意されている。「三四郎」はA4用紙で約160枚分のデータで、読み込みだけでも約3分かかった。レイアウトを認識させたら、認識開始。全ページの認識には3分10秒かかった。これは、想像よりもずっと速かった。「Phenom II X6 1090T Black Edition」(3.2GHz)のCPUと16GB搭載したメモリーのおかげだろうか。
この連載の記事
-
第5回
トピックス
USBの限界に挑む! 規格上の接続数127台は可能か? -
第4回
トピックス
どこかで見たようなゲーム機で汗だくスポゲーに挑戦 -
第3回
トピックス
一眼レフのシャッターをスマホのアプリで切る 何の意味が!? -
第2回
トピックス
2アカプレイに必要! サブノートに使えるPCクーラーを研究 -
第1回
トピックス
指紋リーダーの限界に挑む! 本当に他人の指では通らない? - この連載の一覧へ