このページの本文へ

仕事に差がつく!阿久津良和「Office 365のスゴ技」 第96回

古いバージョンのOfficeファイルのテキスト変換

WSLでWord文書ファイルをテキスト化する

2020年04月09日 10時30分更新

文● 阿久津良和 編集●大谷イビサ

  • この記事をはてなブックマークに追加
  • 本文印刷

 本連載は、マイクロソフトのSaaS型デスクトップ&Webアプリケーション(以下、アプリ)「Office 365」について、仕事の生産性を高める便利機能や新機能、チームコラボレーションを促進する使い方などのTipsを紹介する。

 Office 365を使いこなして仕事を早く終わらせたい皆様にお届けする本連載。今回はWSL(Windows Subsystem for Linux)を使ってWord文書ファイルをテキスト形式に変換する。

古いOfficeファイルからテキストを抽出せよ

 私的な話で恐縮だが、居住するマンションの理事を請け負うようになった。書記担当のため、配布用の議事録を作成するのだが、元原稿は管理会社の担当者が作成するため、それ自体の負担はない。ただ、某管理会社が使用しているのはOffice 11(Microsoft Office System 2003)のため、送ってくるWord文書ファイルはOffice Open XMLファイル形式ではなく、Microsoft Officeバイナリファイル形式だ。そのまま修正するのはファイルが破損するリスクもあり、加えて文言の修正などを必要とするため、Office 365のWordに文字列をコピー&ペーストするのだが、元の書式が維持されるため煩雑である。本来は設定で動作を制御できるが、文言の修正が多く、テキストエディターで修正した方が早いことに気付く。

「ファイル>」メニューの「オプション」を選択すれば、「詳細設定」の「切り取り、コピー、貼り付け」セクションでコピー&ペースト時の書式を取捨選択できる。なお、「文書間~」は異なるWord同士のコピー&ペーストを意味する

 当然ながらWordもテキスト形式で保存する機能を備えているが、確認ダイアログを含めたGUI操作は煩雑だ。そこで、WSL+LinuxでWord文書ファイルをテキスト化する手順を紹介したい。現在のWindows 10 バージョン1909はPro以上のエディションを要するWSLだが、今後登場する予定のWindows 10 バージョン2002では、Homeエディションでも動作可能になる予定のため、多くの方が利用できるだろう。なお、下記手順では[Ubuntu 18.04 LTS](https://www.microsoft.com/store/apps/9N9TNGVNDL3Q)を用いているが、後段の手順は[Debian GNU/Linux](https://www.microsoft.com/store/apps/9MSVKQC78PK6)を使用している。あらかじめご了承いただきたいが、どちらのパッケージ管理システムもAPT系なので大きな問題にならないはずだ。

「Win」+「X」キー→「A」キーと順に押すか、タスクバーのスタートボタンを右クリック→「Windows PowerShell(管理者)」をクリックする

「Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Windows-Subsystem-Linux」と入力して「Enter」キーを押す。WSLのインストールを終えたら、再び「Enter」キーを押してPCを再起動する

間もなく登場するであろうWindows 10 バージョン2002以降の場合も、Windows PowerShellを管理者権限で起動し、「dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart」と入力して「Enter」キーを押す。続いて、「dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all」と入力して「Enter」キーを押す。インストール完了後は「Y」キーを押してPCを再起動する

Windows 10 バージョン1909および同バージョン2002でも、LinuxディストリビューションのインストールはMicrosoft Store経由で実行する

ちなみにWSL2へ変換する場合は、「wsl --set-version [Linuxディストリビューション名] 2」と入力して「Enter」キーを押す

Linuxディストリビューション初回起動時は専用のユーザー名およびパスワードの設定が必要となる。任意のユーザー名を入力して「Enter」キーを押し、パスワード入力後に「Enter」キーを押す。再び同じ操作を行えば準備完了だ

 ちなみにWindows 10 Insider Previewのファーストリングで検証しているためだと思われるが、Linuxカーネルの更新は求められなかった。今後LinuxカーネルはWindows Update経由での提供を予定しているらしいが、お使いの環境で導入を求められた場合は[こちらのサイト](https://docs.microsoft.com/ja-jp/windows/wsl/wsl2-kernel)からLinuxカーネル更新パッケージを入手してほしい。

 WSL/WSL2の設定を終え、Linuxディストリビューションのインストールを終えたら、Linuxを起動してWord文書ファイルをテキスト化するツールをインストールする。今回は対象がMicrosoft Officeバイナリファイル形式なので「catdoc」を選択した。Office Open XMLファイル形式からテキスト形式などに変換する場合は、「docx2txt」を使用するとよい。今回はワードラップ(折り返し)を無効にするオプション「-w」を付与しているが、catdocの使い方は「man catdoc」を実行するか、Linuxコマンドの[マニュアルページ](https://linux.die.net/man/1/catdoc)を参照することをお薦めする。

そのままでは日本語ファイル名を扱えないため、アプリメニューの「プロパティ」を選択し、「フォント」タブで任意の日本語フォントを選択してから「OK」ボタンをクリックする

今回は「catdoc」というコマンドをインストールするため、「sudo apt install catdoc -y」と入力して「Enter」キーを押す

「catdoc -w [Word文書ファイル名] > [任意のテキストファイル名]」と入力して「Enter」キーを押せば、現在のディレクトリにテキストファイル化したファイルが作成される

■関連サイト

カテゴリートップへ

この連載の記事
ピックアップ