柳谷智宣がAdobe Acrobat DCを使い倒してみた 第7回
画像から文字を認識するOCR機能を活用
スキャンしたデータのPDFを文字検索可能にしてみる
2017年05月10日 11時00分更新
本連載は、Adobe Acrobat DCを使いこなすための使い方やTIPSを紹介する。第7回は、スキャンしたデータのPDFを文字検索可能にしてみる。

前回(第6回 紙資料をスキャンしてPDFファイルを作成してみる)では、紙資料をスキャンしてPDFファイルにする方法を紹介した。しかし、この状態では画像データのままなので、人の目で読むことはできるが、キーワード検索することはできない。
「Adobe Acrobat DC」なら、このPDFファイルにOCR機能を使い、画像から文字を認識させてテキストを埋め込むことができる。すると、オフィス文書から作成したPDFファイルのようにキーワード検索ができるようになるのだ。
まずは、既存のPDFファイルをスキャン可能にしてみよう。「スキャン補正」を開き、「テキスト認識」→「このファイル内」を選択すると、第2ツールバーが開く。ここにある「テキスト認識」をクリックすると、OCRが実行される。
OCRが完了すると、画像データの上に見えないテキストデータが埋め込まれる。これでキーワード検索ができるようになる。試しに、Ctrl+Fキーを押して文字を検索してみよう。該当箇所が反転し、検索できていることがわかる。
OCR処理でエラーが起きていると思われる部分があると、第2ツールバーに「認識されたテキストを修正」というボタンが現れる。ここで、認識できなかった部分を確認し、修正したり「同意する」をクリックする。この時、「認識されたテキストをレビュー」のチェックをオンにすると、画像の上に認識したテキストが重ねて表示される。
実は、スキャンしてPDFファイルを作成するときに、同時にOCR処理を実行することもできる。今後スキャンする際は、この機能をオンにしておくと手間が省ける。
初期設定では、「検索可能な画像」として出力される。元の画像はそのままに、透明なテキストデータが埋め込まれるのだ。必要に応じて、画像の歪みなどが補正され、ダウンサンプルされてサイズをコンパクトにしてくれる。「設定」では、そのほかに「検索可能な画像(非圧縮)」や「編集可能なテキストと画像」という項目も選べる。「検索可能な画像(非圧縮)」は画像をそのまま維持する設定。「編集可能なテキストと画像」はページの背景を利用しつつ、元の画像と似ているフォントを合成してくれる。見た目は微妙に変わるものの、オフィス文書から生成したPDFファイルのように普通にテキスト編集できるようになるのがメリットだ。
時々、OCR処理をして検索したのにヒットしないことがある。「認識されたテキストをレビュー」にチェックすればわかるが、時々日本語が認識されていないところがある。きちんとスキャンしていて、上記のような手順でOCR処理を実行しても解消されない場合はどうしようもないのであきらめるしかない。

この連載の記事
- 第144回 体験版の7日間で営業マンに試してもらいたいAcrobat活用テク
- 第143回 ExcelやWordの印刷機能で作るPDFとAcrobat DCで作るPDFの違いをチェック!
- 第142回 Adobe Scan Premiumなら紙資料をOffice文書にラクラク変換
- 第141回 ビジネス文書の長期保存にはAcrobat DCのポートフォリオ機能が便利
- 第140回 スマホでAcrobatのレビューや署名依頼を進めるには?
- 第139回 Acrobatで署名依頼が飛んできたらどうすればいい?(PC編)
- 第138回 スムーズに仕事を進めたいマーケティングチームに贈る、オススメAcrobat DC活用術
- 第137回 Acrobatでレビュー依頼が飛んできたらどうすればいい?(PC編)
- 第136回 成果物を複数人にレビューしてもらうならAcrobat DCを活用しよう
- 第135回 業務効率をアップさせたい営業マンにおすすめのAcrobat DC活用術
- 第134回 Dropbox BusinessとAcrobat DCを連携させて大容量ストレージを活用しよう
- この連載の一覧へ