このページの本文へ

前へ 1 2 次へ

Windows Info 第164回

Windows Subsystem for LinuxとWindows内の文字コード

2019年03月17日 10時00分更新

文● 塩田紳二 編集● ASCII編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

コードページ65001でもShift-JISが出ることがある

 こうしたコードページを切り替えているWSLだが、まだ問題もある。たとえばsc.exeは、コードページ65001でもShift-JISでメッセージを出力することがあるのだ。

sc.exeの出力文字エンコードを調べてみるとShift-JISになっている。なお、Ubuntuでnkfを使うにはインストールが必要

 sc.exeは、システムのサービスやデバイスドライバーに関する情報を出力するもの。実際には、このコマンド自体はWindowsのAPIから情報を得て、単にそれを標準出力に出しているにすぎない。APIはコンソールの外で実行されるため、Shift-JISコードを含むサービス関連の情報(たとえばDisplay Nameなど)は、文字コード変換されることなく出力されてしまうわけだ。

 本来なら、sc.exeはコンソールのコードページを見て、メッセージのエンコードを切り替えねばならない。なぜならコードページを調べることができるのはsc.exeだけで、Windows API側ではコンソールのコードページを知ることはできないからだ。API側は日本語版のWindowsなので、Shift-JISで日本語メッセージを出力するのが当然と考えており、この動作には問題はないはずだ。

 このように、Win32コマンドの中には、コードページの設定にかかわらず、正しくない文字コードを出してしまう可能性がある。逆にすべてのコマンドで、すべてのコードページに対応するというのも無理がある。なぜならコードページは150以上定義されているからだ。もちろん、この中には単純なASCIIコードのものもあれば、日本語の932のように複雑なエンコードをするものもある。

 これをスッキリさせる方法の1つは、Windowsの標準コードをUTF-8にしてしまうことだ。実際には、Windowsは、内部的にはUnicodeを使っており、APIには、Shift-JIS文字列を受け付けるシングルバイトバージョンとUnicode文字列を受け付けるダブルバイトバージョンがある。このため、やろうと思えば、UTF-8化は不可能ではない。

 実は、Windowsには、Unicode対応でないアプリケーションで、言語やコードページなどを想定していないプログラムがどの文字コードを使うのかを指定する「システムロケール」設定がある。これは、コントロールパネルの「地域」→「管理タブ」→「Unicode対応でないプログラムの言語」→「システムロケールの変更ボタン」で設定する。

 Windows 10は、Ver.1803(RS4)でここに「ベータ:ワールドワイド言語サポートでUnicode UTF-8を使用」という設定が追加されている。これまでシステムロケールと連動していた文字コードをエンコーディングをどの言語が選択されていてもUTF-8にするものだ。従来、日本語(日本)を選択していた場合、Shift-JISが文字エンコーディングとして仮定されていた。ただし、RS5でも(19H1でも)「ベータ」と表記されているように、注意して使うべき設定である。

 機能としてはかなりできているものの、現実にUTF-8に対応できないアプリケーションが存在しているため、Windows自体は問題なくても、ユーザーによっては、大変な問題となる可能性もある(なので利用はご自身のリスクで)。

 この機能をオンにすると、システムの標準文字コードがUTF-8エンコードになる。コンソールなどもコードページ65001で立ち上がるようになり、メッセージは原則英語に切り替わる。日本語も出力できるUTF-8なのに日本語メッセージを出さないのは問題を感じるが、コマンド自体が過去に設計されたものなので、今後の改良を期待したいところ、逆にこの機能の「ベータ」がなくなる頃には、標準コマンドのUTF-8対応が完了していると考えられる。

 この機能をオンにすると、前述のsc.exeは、UTF-8を出力するようになる。これは、APIから受け取る文字列がUTF-8になったからだろう。

システムロケールでUTF-8を使う設定を行うと、sc.exeは、UTF-8を出力するようになり、コンソールのデフォルトのコードページも65001となる

 また、メモ帳も標準コードがUTF-8になる。保存時にShift-JISにしたい場合には、「ANSI」を選択すればよい。Windowsには「ANSIコードページ」という用語がある。コードページには、PCメーカーがハードウェアに応じて定義するOEMコードページと標準化された文字セットを使うANSIコードページの2種類がある。これはコードページが作られた時期にANSI(American National Standards Institute。米国国家規格協会)内で文字コードに関する技術が検討されていたためだが、その後、ANSIは規格化をしなくなったため、名称だけが残った。メーカーごとに違うコードページではなく、Windows内で共通となるコードページという程度の意味でしかない。

 最近のドキュメントでは単にコードページとすることが多いが、古くからあるWindowsアプリケーションのメモ帳は、従来との互換性を保つためにずっとANSIの名称が使われ続けている。

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン