本文の誤認識率は0.6%
ルビの認識には難ありか
元原稿とOCRデータを見比べながら、認識ミスをチェックしてみた。まずは、個別に誤認識したところを確認してみよう。1ページ目、最初にタイトルや凡例が記載されているのだが、相当ぐちゃぐちゃだった。「頓狂」(とんきょう)のルビからして認識しておらず、JISコードやURLなどの英数字は全滅だった。縦書きのなかに、半角英数字が横に倒れて表示されているのがだめだったのだろうか。また、縦書きでも、全角数字は半角として認識されていた。
ルビは認識されているのだが、表示部分がまちまち。例えば「三四郎」には「さんしろう」ときちんと付いているが、「頓狂」の「とんきょう」は文節まるごとにかかって表示されている。さらに、本文4行目は途中で改行になっているのだが、なぜか均等表示になっている。これは、画面下部に表示されているページ数を本文と誤認識したためのようだ。そもそも、1行に複数のルビが振られていると、くっついてしまい均等割り付けになってしまう。ルビが多いテキストの場合は読みにくくなってしまうだろう。
さらに、画面左上にはファイル名が表示されているのだが、こちらも文字化けしている。ページ数とファイル名は、全体にわたって認識できていなかった。また、すべての行の最後には改行が入っている。これは、OCRでは認識できないので仕方のないところ。
原本では、ルビではなく注釈が小さい文字で付いていることがある。「帰って来た」はOCRで読み込んだ底本では「帰った来た」のような注釈の漢字は表示されず、ひらがな部分だけが表示されていた。認識ミスなのか、OCRのテキスト表示の仕様なのかは不明。そのほか、「――」(棒線)は数字の「1」に、漢数字の「二」は「一」と「一」に認識されるなど、惜しいミスが散見される。読点「。」が中黒「・」になっているところもあった。
誤変換をあげつらったので、ミスが多いように感じるかもしれないが、実は本文のほとんどはきちんと認識しているので驚いた。基本的には問題なく読め、誤変換があっても文意が通らないところはほとんどない。「欅」が「樫」になっていたり、「俯いて」が「傭向いて」になっているところなどが数ヵ所あったくらいだ。
思った以上にOCRソフトは使える!
ルビのない原稿なら誤認識は実質わずかに0.04%
1ページ目から1万文字ぶんの原稿とOCR変換したデータを精査したところ、誤変換は63ヵ所。ほとんどが、「二」や「……」「。」の誤認識だった。「草鞋」を「草鮭」、「花崗岩」を「花]岡石」とするなどのミスは3~4ヵ所あった。ルビは165ヵ所あり、ミスは90ヵ所。そのほとんどが、1行に複数のルビがあるためにくっついたもの。文字の認識ミスは10ヵ所程度だった。
ルビのない原稿なら、高い確率で認識してくれることがわかった。本文の誤認識は0.6%、実質的には0.04%といったところだ。これだけあれば、キーワード検索はもちろん、文章での検索も問題なし。セミナーのテキストなどを認識する際には活躍することだろう。雑誌やマニュアル、ウェブページなど、複雑なレイアウトの場合は認識率がやや落ちるものの、実用レベルには達している。今時のOCRソフトはあなどれない。スキャンデータをたくさん所有しているなら、OCRソフトでインデックス化し、積極的に活用しよう。
筆者紹介─柳谷智宣
1972年生まれ。ネットブックからワークステーションまで、日々ありとあらゆる新製品を扱っているITライター。日経パソコンオンラインで「ビジネスPCテストルーム」、週刊SPA!で「デジペディア」を連載するほか、パソコンやIT関連の特集や連載、単行本を多数手がける。近著に「ポケット百科 GALAXY SII LTE 知りたいことがズバッとわかる本」(翔泳社)「Twitter Perfect GuideBook」(ソーテック社)、「Dropbox WORKING」(翔泳社)、「仕事が3倍速くなるケータイ電話秒速スゴ技」(講談社)。
この連載の記事
-
第5回
トピックス
USBの限界に挑む! 規格上の接続数127台は可能か? -
第4回
トピックス
どこかで見たようなゲーム機で汗だくスポゲーに挑戦 -
第3回
トピックス
一眼レフのシャッターをスマホのアプリで切る 何の意味が!? -
第2回
トピックス
2アカプレイに必要! サブノートに使えるPCクーラーを研究 -
第1回
トピックス
指紋リーダーの限界に挑む! 本当に他人の指では通らない? - この連載の一覧へ