コードページ65001でもShift-JISが出ることがある
こうしたコードページを切り替えているWSLだが、まだ問題もある。たとえばsc.exeは、コードページ65001でもShift-JISでメッセージを出力することがあるのだ。
sc.exeは、システムのサービスやデバイスドライバーに関する情報を出力するもの。実際には、このコマンド自体はWindowsのAPIから情報を得て、単にそれを標準出力に出しているにすぎない。APIはコンソールの外で実行されるため、Shift-JISコードを含むサービス関連の情報(たとえばDisplay Nameなど)は、文字コード変換されることなく出力されてしまうわけだ。
本来なら、sc.exeはコンソールのコードページを見て、メッセージのエンコードを切り替えねばならない。なぜならコードページを調べることができるのはsc.exeだけで、Windows API側ではコンソールのコードページを知ることはできないからだ。API側は日本語版のWindowsなので、Shift-JISで日本語メッセージを出力するのが当然と考えており、この動作には問題はないはずだ。
このように、Win32コマンドの中には、コードページの設定にかかわらず、正しくない文字コードを出してしまう可能性がある。逆にすべてのコマンドで、すべてのコードページに対応するというのも無理がある。なぜならコードページは150以上定義されているからだ。もちろん、この中には単純なASCIIコードのものもあれば、日本語の932のように複雑なエンコードをするものもある。
これをスッキリさせる方法の1つは、Windowsの標準コードをUTF-8にしてしまうことだ。実際には、Windowsは、内部的にはUnicodeを使っており、APIには、Shift-JIS文字列を受け付けるシングルバイトバージョンとUnicode文字列を受け付けるダブルバイトバージョンがある。このため、やろうと思えば、UTF-8化は不可能ではない。
実は、Windowsには、Unicode対応でないアプリケーションで、言語やコードページなどを想定していないプログラムがどの文字コードを使うのかを指定する「システムロケール」設定がある。これは、コントロールパネルの「地域」→「管理タブ」→「Unicode対応でないプログラムの言語」→「システムロケールの変更ボタン」で設定する。
Windows 10は、Ver.1803(RS4)でここに「ベータ:ワールドワイド言語サポートでUnicode UTF-8を使用」という設定が追加されている。これまでシステムロケールと連動していた文字コードをエンコーディングをどの言語が選択されていてもUTF-8にするものだ。従来、日本語(日本)を選択していた場合、Shift-JISが文字エンコーディングとして仮定されていた。ただし、RS5でも(19H1でも)「ベータ」と表記されているように、注意して使うべき設定である。
機能としてはかなりできているものの、現実にUTF-8に対応できないアプリケーションが存在しているため、Windows自体は問題なくても、ユーザーによっては、大変な問題となる可能性もある(なので利用はご自身のリスクで)。
この機能をオンにすると、システムの標準文字コードがUTF-8エンコードになる。コンソールなどもコードページ65001で立ち上がるようになり、メッセージは原則英語に切り替わる。日本語も出力できるUTF-8なのに日本語メッセージを出さないのは問題を感じるが、コマンド自体が過去に設計されたものなので、今後の改良を期待したいところ、逆にこの機能の「ベータ」がなくなる頃には、標準コマンドのUTF-8対応が完了していると考えられる。
この機能をオンにすると、前述のsc.exeは、UTF-8を出力するようになる。これは、APIから受け取る文字列がUTF-8になったからだろう。
また、メモ帳も標準コードがUTF-8になる。保存時にShift-JISにしたい場合には、「ANSI」を選択すればよい。Windowsには「ANSIコードページ」という用語がある。コードページには、PCメーカーがハードウェアに応じて定義するOEMコードページと標準化された文字セットを使うANSIコードページの2種類がある。これはコードページが作られた時期にANSI(American National Standards Institute。米国国家規格協会)内で文字コードに関する技術が検討されていたためだが、その後、ANSIは規格化をしなくなったため、名称だけが残った。メーカーごとに違うコードページではなく、Windows内で共通となるコードページという程度の意味でしかない。
最近のドキュメントでは単にコードページとすることが多いが、古くからあるWindowsアプリケーションのメモ帳は、従来との互換性を保つためにずっとANSIの名称が使われ続けている。
この連載の記事
-
第458回
PC
Windows上でhostsファイルを活用する -
第457回
PC
IPv6アドレスは先頭を見ればどんな種類かわかる -
第456回
PC
あらためてIPv6基本のキ -
第455回
PC
Windowsで現在どのネットワークアダプタがインターネット接続に使われているかを調べる方法 -
第454回
PC
Windows 11 24H2では「デバイスの暗号化」の条件が変わり、より多くのPCでドライブが暗号化される -
第453回
PC
Windows 11 24H2の配布開始後もすぐにはやってこない Windows UpdateとSafeguard Holds -
第452回
PC
Windows 11 Ver.24H2が登場 Copilot+ PCとそうでないPCで実質Windowsが2つに分かれる -
第451回
PC
新しいWindowsサンドボックスではコマンドラインからの制御が可能に -
第450回
PC
ユニコードで文字数を数える方法 -
第449回
PC
WSLはプレビュー版でGUIでの設定が加わった! リリース2.3.xの新機能を見る -
第448回
PC
PowerShellで面倒なオブジェクトはPSCustomObjectに変換するのが早道 - この連載の一覧へ