このページの本文へ

柳谷智宣の「真似したくなるPC活用術」 第5回

あらゆる紙資料をパソコンに取り込んで活用する技

2010年03月09日 12時00分更新

文● 柳谷智宣

  • この記事をはてなブックマークに追加
  • 本文印刷
ドキュメントスキャナーで取り込み

裁断機でばらした雑誌を、ドキュメントスキャナーで取り込み

 裁断が済んだら、ばらした紙束をしごき、ドキュメントスキャナーにセットする。量が多くてフィーダーに入りきらないなら、分けてスキャンすればいい。180ページの週刊アスキーなら4分で取り込める。その間は、待っているだけなのでほかの作業をしていてもいい。

 電子化作業を始めた頃は、1日に約30冊ずつ取り込んでいたので、リビングにパソコンとスキャナーを持ち込んで、映画を観たりストレッチをしたりする間に作業をしていた。全部取り込むのに2ヵ月くらいかかったが、本棚を粗大ごみで出した時の爽快感で報われた。

 ただ、予定していたコミックのスキャンは途中で諦めた。娯楽のために全部電子化するのは手間と負担が大きい。今後、何十回も読むであろう作品だけスキャンし、残りは売り払ってしまった。

 1日に1~2冊の取り込みなら、5~10分程度の作業時間で済む。溜まらないようにルーチン化すれば、取り込みの手間はそれほど負担にならない。データを手元に残しつつ、ごみに出してすっきりできるのは気持ちがいいものだ。


スキャンデータはPDFにしてデータベース化

 取り込んだデータはPDFで保管するのがベストだ。ScanSnap S1500の場合、付属ソフトのOCR機能で画像を解析し、日本語データを埋め込んでおけばキーワード検索もできる。ただし、OCR機能を有効にしていると後処理に時間がかかるので、複数の資料を取り込む際は無効にしている。スキャンが終わってから、まとめてOCR処理すればいい。

スキャン時にはOCR機能を止めておく

スキャン時にはOCR機能を止めておく(赤枠内)

 ファイル名には、初期設定でスキャン日時が付けられるが、書籍タイトルにしておくと検索しやすい。雑誌の場合、雑誌名に加えて2010年3月号なら「201003」のような数字を付けるといいだろう。

 またインデックスを作成しておけば、Windowsの検索機能(Windows Desktop Search、WDS)で内容を検索できる。OCRで作成した透明テキストから全文検索するなら、「Adobe Acrobat」の検索機能を利用できる。定番のドキュメントスキャナーなら大抵の場合、Acrobatは付属している。

ファイル名やインデックスは、内容がわかるような文字列を付ける

ファイル名やインデックスは、内容がわかるような文字列を付ける

 WDSやGoogleデスクトップは、PDFに貼付けられたクリアテキストを検索できない。フィルターやフリーウェアを利用して対応させることもできるが、検索結果がいまいち不安定だ。そもそも、OCR機能でテキスト化していると言っても、完璧に正しく認識しているわけではない。

 取り込む解像度が低いとほとんど認識しないし、推奨解像度にしてもレイアウトによってはミスが多い。極端に解像度を上げても、ファイルサイズが大きくなるだけで、OCRの精度はあまり変わらない。大量のPDF管理は、全文検索機能を過信しないのが要点だ。それでも「昨年の週刊アスキーに載っていた記事」とか、「昔どこかで書いた記事」といった程度の検索は十分に可能だ。

取り込んだPDFを自分の名前で全文検索

取り込んだPDFを、自分の名前で全文検索してみる。対象ファイルが多いと時間がかかる

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン