アンテナハウス(株)は9日、PDF文書とWord/一太郎/Excel文書を相互に変換できるPDF活用ツールの新バージョン、『リッチテキストPDF2 for Windows』を8月下旬に発売すると発表した。価格は1万290円。バージョンアップ価格は3600円。対応OSはWindows 2000 Professional/XP。
『リッチテキストPDF2 for Windows』 | ドラッグ&ドロップで変換できるインターフェース |
リッチテキストPDF2が提供する機能は、以下のとおり。
- PDF文書からWord/一太郎/Excel文書へのフォーマット変換
- PDF文書からテキスト、画像の抽出
- 各種アプリケーションからPDFを作成
- PDF文書をページ単位で分割・結合
今回のバージョンでは変換エンジンの見直しにより、Word/一太郎への変換精度を向上。具体的には、従来バージョンでは段組テキストをWordや一太郎形式に変換した際に、左右に分割されたテキストボックスとなっていた。これは、PDFがページ上での座標を指定したレイアウト情報を扱う文書形式であり、段落情報などの論理構造を扱えないためにあった制限。今回は、PDFにある段組のレイアウト情報から論理構造を推定。ワープロ文書でデータ構造を再現するという処理を行なう。
同様に、文字の下線、取消線なども、PDFデータ中では罫線であるか下線であるかといった論理構造をもたないために変換が難しかったが、新バージョンでは自動的に認識・変換するようになった。
また、変換作業時にはプレビュー中のPDFで余白や表、画像部分といった指定をユーザーが行なえるようになった。
PDFデータのExcelへの変換エンジンも刷新。従来はテキストと罫線データの組み合わせとして変換されていたが、新バージョンでは数値データや貨幣データといった数字列の属性を自動認識。変換後にそのまま集計作業などを継続できるようになった。
類似ソフトではPDFを画像として読み込んでOCR処理をかけるものが多い。このため文字の誤変換が多いのが問題だが、リッチテキストPDF2は実際のテキストを抽出するので誤変換はないのが特徴という。