本連載は、Adobe Acrobat DCを使いこなすための使い方やTIPSを紹介する。第7回は、スキャンしたデータのPDFを文字検索可能にしてみる。
前回(第6回 紙資料をスキャンしてPDFファイルを作成してみる)では、紙資料をスキャンしてPDFファイルにする方法を紹介した。しかし、この状態では画像データのままなので、人の目で読むことはできるが、キーワード検索することはできない。
「Adobe Acrobat DC」なら、このPDFファイルにOCR機能を使い、画像から文字を認識させてテキストを埋め込むことができる。すると、オフィス文書から作成したPDFファイルのようにキーワード検索ができるようになるのだ。
まずは、既存のPDFファイルをスキャン可能にしてみよう。「スキャン補正」を開き、「テキスト認識」→「このファイル内」を選択すると、第2ツールバーが開く。ここにある「テキスト認識」をクリックすると、OCRが実行される。
OCRが完了すると、画像データの上に見えないテキストデータが埋め込まれる。これでキーワード検索ができるようになる。試しに、Ctrl+Fキーを押して文字を検索してみよう。該当箇所が反転し、検索できていることがわかる。
OCR処理でエラーが起きていると思われる部分があると、第2ツールバーに「認識されたテキストを修正」というボタンが現れる。ここで、認識できなかった部分を確認し、修正したり「同意する」をクリックする。この時、「認識されたテキストをレビュー」のチェックをオンにすると、画像の上に認識したテキストが重ねて表示される。
実は、スキャンしてPDFファイルを作成するときに、同時にOCR処理を実行することもできる。今後スキャンする際は、この機能をオンにしておくと手間が省ける。
初期設定では、「検索可能な画像」として出力される。元の画像はそのままに、透明なテキストデータが埋め込まれるのだ。必要に応じて、画像の歪みなどが補正され、ダウンサンプルされてサイズをコンパクトにしてくれる。「設定」では、そのほかに「検索可能な画像(非圧縮)」や「編集可能なテキストと画像」という項目も選べる。「検索可能な画像(非圧縮)」は画像をそのまま維持する設定。「編集可能なテキストと画像」はページの背景を利用しつつ、元の画像と似ているフォントを合成してくれる。見た目は微妙に変わるものの、オフィス文書から生成したPDFファイルのように普通にテキスト編集できるようになるのがメリットだ。
時々、OCR処理をして検索したのにヒットしないことがある。「認識されたテキストをレビュー」にチェックすればわかるが、時々日本語が認識されていないところがある。きちんとスキャンしていて、上記のような手順でOCR処理を実行しても解消されない場合はどうしようもないのであきらめるしかない。
この連載の記事
-
第159回
sponsored
図の代替テキストや読み上げ順序を設定してアクセシブルなPDFを作成する -
第158回
sponsored
あなたの会社が公開しているPDFファイル、アクセシビリティに対応していますか? -
第157回
sponsored
ページ数の多い資料にしおりを挟んで手軽にジャンプできるようにしてみる -
第156回
sponsored
都内の子供に月額5000円支給される018サポート、必要書類のマスキングはAcrobatでできる! -
第155回
sponsored
AcrobatアプリのUIが刷新! より簡単に操作できるようになった -
第154回
sponsored
Acrobat有償ライセンスならAdobe Fontsで好みのフォントを使い放題! -
第152回
sponsored
ChromeブラウザでPDFを開いたときに便利な、Acrobatの機能が使える拡張機能 -
第151回
sponsored
スキャンしたPDFをOCR処理・編集するとエラーになる場合のトラブルシューティング -
第150回
sponsored
オンラインPDF編集サービスを比較してみた! Acrobat webは文字の追加、修正、検索はできる? -
第149回
sponsored
Acrobatで新入社員の同意書を一括送信して手軽に署名してもらう方法 -
第148回
sponsored
電子サイン付きWebフォームをAcrobatで作成する - この連載の一覧へ