仕事に差がつく!阿久津良和「Office 365のスゴ技」 第96回
古いバージョンのOfficeファイルのテキスト変換
WSLでWord文書ファイルをテキスト化する
2020年04月09日 10時30分更新
本連載は、マイクロソフトのSaaS型デスクトップ&Webアプリケーション(以下、アプリ)「Office 365」について、仕事の生産性を高める便利機能や新機能、チームコラボレーションを促進する使い方などのTipsを紹介する。
Office 365を使いこなして仕事を早く終わらせたい皆様にお届けする本連載。今回はWSL(Windows Subsystem for Linux)を使ってWord文書ファイルをテキスト形式に変換する。
古いOfficeファイルからテキストを抽出せよ
私的な話で恐縮だが、居住するマンションの理事を請け負うようになった。書記担当のため、配布用の議事録を作成するのだが、元原稿は管理会社の担当者が作成するため、それ自体の負担はない。ただ、某管理会社が使用しているのはOffice 11(Microsoft Office System 2003)のため、送ってくるWord文書ファイルはOffice Open XMLファイル形式ではなく、Microsoft Officeバイナリファイル形式だ。そのまま修正するのはファイルが破損するリスクもあり、加えて文言の修正などを必要とするため、Office 365のWordに文字列をコピー&ペーストするのだが、元の書式が維持されるため煩雑である。本来は設定で動作を制御できるが、文言の修正が多く、テキストエディターで修正した方が早いことに気付く。
当然ながらWordもテキスト形式で保存する機能を備えているが、確認ダイアログを含めたGUI操作は煩雑だ。そこで、WSL+LinuxでWord文書ファイルをテキスト化する手順を紹介したい。現在のWindows 10 バージョン1909はPro以上のエディションを要するWSLだが、今後登場する予定のWindows 10 バージョン2002では、Homeエディションでも動作可能になる予定のため、多くの方が利用できるだろう。なお、下記手順では[Ubuntu 18.04 LTS](https://www.microsoft.com/store/apps/9N9TNGVNDL3Q)を用いているが、後段の手順は[Debian GNU/Linux](https://www.microsoft.com/store/apps/9MSVKQC78PK6)を使用している。あらかじめご了承いただきたいが、どちらのパッケージ管理システムもAPT系なので大きな問題にならないはずだ。
ちなみにWindows 10 Insider Previewのファーストリングで検証しているためだと思われるが、Linuxカーネルの更新は求められなかった。今後LinuxカーネルはWindows Update経由での提供を予定しているらしいが、お使いの環境で導入を求められた場合は[こちらのサイト](https://docs.microsoft.com/ja-jp/windows/wsl/wsl2-kernel)からLinuxカーネル更新パッケージを入手してほしい。
WSL/WSL2の設定を終え、Linuxディストリビューションのインストールを終えたら、Linuxを起動してWord文書ファイルをテキスト化するツールをインストールする。今回は対象がMicrosoft Officeバイナリファイル形式なので「catdoc」を選択した。Office Open XMLファイル形式からテキスト形式などに変換する場合は、「docx2txt」を使用するとよい。今回はワードラップ(折り返し)を無効にするオプション「-w」を付与しているが、catdocの使い方は「man catdoc」を実行するか、Linuxコマンドの[マニュアルページ](https://linux.die.net/man/1/catdoc)を参照することをお薦めする。
この連載の記事
-
第100回
Team Leaders
Office 365の更新チャネル名が“また”変更へ -
第99回
Team Leaders
今さら聞けないMicrosoft Teamsの便利な機能 -
第98回
Team Leaders
進化するMicrosoft Teams――2020年4月に追加された新機能を紹介 -
第97回
Team Leaders
SlackからTeamsを呼び出すアドオン、Teamsのカスタム背景画像を試す -
第95回
Team Leaders
中堅中小企業向けOffice 365もMicrosoft 365へ -
第94回
Team Leaders
共有メールボックスでOutlookのメール容量を2倍に -
第93回
Team Leaders
見送られたMicrosoft SearchでのBingの強制利用 -
第92回
Team Leaders
外部との仕事がはかどるOneDrive for Businessの「ファイル要求」 -
第91回
Team Leaders
Office 365でシンプルなタイトルバーを復活させる -
第90回
Team Leaders
Excelの新自動化ソリューション「Office Scripts」プレビュー版が登場 - この連載の一覧へ