![]() |
|---|
| 裁断機でばらした雑誌を、ドキュメントスキャナーで取り込み |
裁断が済んだら、ばらした紙束をしごき、ドキュメントスキャナーにセットする。量が多くてフィーダーに入りきらないなら、分けてスキャンすればいい。180ページの週刊アスキーなら4分で取り込める。その間は、待っているだけなのでほかの作業をしていてもいい。
電子化作業を始めた頃は、1日に約30冊ずつ取り込んでいたので、リビングにパソコンとスキャナーを持ち込んで、映画を観たりストレッチをしたりする間に作業をしていた。全部取り込むのに2ヵ月くらいかかったが、本棚を粗大ごみで出した時の爽快感で報われた。
ただ、予定していたコミックのスキャンは途中で諦めた。娯楽のために全部電子化するのは手間と負担が大きい。今後、何十回も読むであろう作品だけスキャンし、残りは売り払ってしまった。
1日に1~2冊の取り込みなら、5~10分程度の作業時間で済む。溜まらないようにルーチン化すれば、取り込みの手間はそれほど負担にならない。データを手元に残しつつ、ごみに出してすっきりできるのは気持ちがいいものだ。
スキャンデータはPDFにしてデータベース化
取り込んだデータはPDFで保管するのがベストだ。ScanSnap S1500の場合、付属ソフトのOCR機能で画像を解析し、日本語データを埋め込んでおけばキーワード検索もできる。ただし、OCR機能を有効にしていると後処理に時間がかかるので、複数の資料を取り込む際は無効にしている。スキャンが終わってから、まとめてOCR処理すればいい。
![]() | スキャン時にはOCR機能を止めておく(赤枠内) |
|---|
ファイル名には、初期設定でスキャン日時が付けられるが、書籍タイトルにしておくと検索しやすい。雑誌の場合、雑誌名に加えて2010年3月号なら「201003」のような数字を付けるといいだろう。
またインデックスを作成しておけば、Windowsの検索機能(Windows Desktop Search、WDS)で内容を検索できる。OCRで作成した透明テキストから全文検索するなら、「Adobe Acrobat」の検索機能を利用できる。定番のドキュメントスキャナーなら大抵の場合、Acrobatは付属している。
![]() | ファイル名やインデックスは、内容がわかるような文字列を付ける |
|---|
WDSやGoogleデスクトップは、PDFに貼付けられたクリアテキストを検索できない。フィルターやフリーウェアを利用して対応させることもできるが、検索結果がいまいち不安定だ。そもそも、OCR機能でテキスト化していると言っても、完璧に正しく認識しているわけではない。
取り込む解像度が低いとほとんど認識しないし、推奨解像度にしてもレイアウトによってはミスが多い。極端に解像度を上げても、ファイルサイズが大きくなるだけで、OCRの精度はあまり変わらない。大量のPDF管理は、全文検索機能を過信しないのが要点だ。それでも「昨年の週刊アスキーに載っていた記事」とか、「昔どこかで書いた記事」といった程度の検索は十分に可能だ。
![]() | 取り込んだPDFを、自分の名前で全文検索してみる。対象ファイルが多いと時間がかかる |
|---|
この連載の記事
- 第86回 iPhone 4Sと上手につきあう技
- 第85回 iPod nanoを腕時計として利用する技
- 第84回 まだ始まったばかりのGoogle+でデビューする技
- 第83回 ワイヤレス給電規格「Qi」対応機器で充電忘れを防ぐ技
- 第82回 Androidスマートフォンをウィルス・不正アクセスから防御する技
- 第81回 iPhone・iPadのメディアファイルを外部ストレージに保存する技
- 第80回 Tumblrで情報を収集・活用する技
- 第79回 Androidタブレットで画面キャプチャーなどを活用する技
- 第78回 Bluetoothキーボードでスマホを快適に文字入力する技
- 第77回 RGBやDVI出力の画像をキャプチャーする技
- この連載の一覧へ



















