柳谷智宣がAdobe Acrobat DCを使い倒してみた 第7回
画像から文字を認識するOCR機能を活用
スキャンしたデータのPDFを文字検索可能にしてみる
2017年05月10日 11時00分更新
本連載は、Adobe Acrobat DCを使いこなすための使い方やTIPSを紹介する。第7回は、スキャンしたデータのPDFを文字検索可能にしてみる。

前回(第6回 紙資料をスキャンしてPDFファイルを作成してみる)では、紙資料をスキャンしてPDFファイルにする方法を紹介した。しかし、この状態では画像データのままなので、人の目で読むことはできるが、キーワード検索することはできない。
「Adobe Acrobat DC」なら、このPDFファイルにOCR機能を使い、画像から文字を認識させてテキストを埋め込むことができる。すると、オフィス文書から作成したPDFファイルのようにキーワード検索ができるようになるのだ。
まずは、既存のPDFファイルをスキャン可能にしてみよう。「スキャン補正」を開き、「テキスト認識」→「このファイル内」を選択すると、第2ツールバーが開く。ここにある「テキスト認識」をクリックすると、OCRが実行される。
OCRが完了すると、画像データの上に見えないテキストデータが埋め込まれる。これでキーワード検索ができるようになる。試しに、Ctrl+Fキーを押して文字を検索してみよう。該当箇所が反転し、検索できていることがわかる。
OCR処理でエラーが起きていると思われる部分があると、第2ツールバーに「認識されたテキストを修正」というボタンが現れる。ここで、認識できなかった部分を確認し、修正したり「同意する」をクリックする。この時、「認識されたテキストをレビュー」のチェックをオンにすると、画像の上に認識したテキストが重ねて表示される。
実は、スキャンしてPDFファイルを作成するときに、同時にOCR処理を実行することもできる。今後スキャンする際は、この機能をオンにしておくと手間が省ける。
初期設定では、「検索可能な画像」として出力される。元の画像はそのままに、透明なテキストデータが埋め込まれるのだ。必要に応じて、画像の歪みなどが補正され、ダウンサンプルされてサイズをコンパクトにしてくれる。「設定」では、そのほかに「検索可能な画像(非圧縮)」や「編集可能なテキストと画像」という項目も選べる。「検索可能な画像(非圧縮)」は画像をそのまま維持する設定。「編集可能なテキストと画像」はページの背景を利用しつつ、元の画像と似ているフォントを合成してくれる。見た目は微妙に変わるものの、オフィス文書から生成したPDFファイルのように普通にテキスト編集できるようになるのがメリットだ。
時々、OCR処理をして検索したのにヒットしないことがある。「認識されたテキストをレビュー」にチェックすればわかるが、時々日本語が認識されていないところがある。きちんとスキャンしていて、上記のような手順でOCR処理を実行しても解消されない場合はどうしようもないのであきらめるしかない。

この連載の記事
- 第154回 Acrobat有償ライセンスならAdobe Fontsで好みのフォントを使い放題!
- 第152回 ChromeブラウザでPDFを開いたときに便利な、Acrobatの機能が使える拡張機能
- 第151回 スキャンしたPDFをOCR処理・編集するとエラーになる場合のトラブルシューティング
- 第150回 オンラインPDF編集サービスを比較してみた! Acrobat webは文字の追加、修正、検索はできる?
- 第149回 Acrobatで新入社員の同意書を一括送信して手軽に署名してもらう方法
- 第148回 電子サイン付きWebフォームをAcrobatで作成する
- 第147回 自己流でやってない? 文書レビュー時に便利なコメントツールの使い分け
- 第146回 体験版の7日間で総務職の人に試してもらいたいAcrobat活用テク
- 第145回 体験版の7日間でマーケティング職に試してもらいたいAcrobat活用テク
- 第144回 体験版の7日間で営業マンに試してもらいたいAcrobat活用テク
- 第143回 ExcelやWordの印刷機能で作るPDFとAcrobat DCで作るPDFの違いをチェック!
- この連載の一覧へ