Windowsはサロゲートペアを使う
Windowsが使うUTF-16という方式は、1つの文字を表すのに16bitを使う。しかし、Unicodeの文字は大量にあり、16bitであってもすべてを表わすことができない。Unicodeの仕様策定時には、世界中の文字を16bitで表現する前提で作られた。しかし、それは不可能なことが判明し、文字範囲を拡大した。しかし、それがわかったときには、すでにWindowsなどは文字を16bitとして決めてしまい、もう変更ができなかった。そこで登場したのがサロゲートペアという機能で、一部の文字に関しては16bitの文字を2つ使って表現することにした。こうした文字のうち、よく使うものに絵文字がある。
では、絵文字の文字コードを調べて見ることにしよう。Windows 10/11では、絵文字はWindowsキーを押しながらピリオドキーを押すと「絵文字入力パネル」が表示される。まずは、Windows PowerShellにダブルクオートを入力。次に「Win+.」を押して絵文字パネルを表示させ、最下段の左から3番目の顔のアイコンをクリックして顔の絵文字を入力しよう。ここでは、左上の女性の顔を入力したとする。とりあえず、ここではこの絵文字を選択してほしい。他の絵文字を選ぶとまったく違う結果になることがある。
前と同じく「[int][char]」を絵文字に対してキャストするとエラーになる。これは絵文字がサロゲートペアにより2文字で表わされているからだ。このような場合には、前に「[int[]][char[]]」をつける。前のキャストとちょっと違って「[]」が入っているが、これは配列という意味でデータが複数あることを意味する。
プログラムの作成などをしないと、キャストの考えを理解するのはちょっと難しいので、ここでは、どんな文字に対してでもおまじないのように「[int[]][char[]]」を前におけば、文字コードになると思っていただいてかまわない。このキャストであれば、ダブルクオートの内側に何文字いれてもエラーにはならない。
16進数で表示する
文字コードは多くの場合16進数で表記することが多い。特にUnicodeになってからは、文字コードの値が大きくなったので、桁数を圧縮するため16進数表記が普通だ。PowerShellで文字コードなどの整数値を16進数にするには、パイプを使って、以下のように記述する。
[int[]][char[]]"漢" | %{ $_.ToString("X2")}
パイプ文字「|」から後ろの部分は一定なので、これもおまじないのように覚えてしまってもかまわない。意味としては、パイプ文字の左側からやってくる個々のオブジェクトについて(foreach-object。%が略記方法)、16進数2桁("X2")という書式を設定する(ToString)という意味である。
他の文字エンコードで表現する
Unicodeの文字エンコード方法には、Windowsで使うUTF-16のほかに「UTF-8」や「UTF-32」などがある。UTF-8は8bitの複数の文字でUnicodeの1文字を表現する方法であり、UTF-32は、1文字を32bitとする方法である。
文字をUTF-8で表現するには、以下のコマンドを使う。
[System.Text.Encoding]::UTF8.GetBytes("漢") | %{$_.ToString("X2")}
同じくUTF-32で表現するには、
[System.Text.Encoding]::UTF32.GetBytes("漢") | %{$_.ToString("X2")}
とする。どちらも後半のパイプ文字から後ろは、16進数への変換である。
なお、Windowsが使うUTF-16とUTF-32は、サロゲートペアにならない文字の範囲では、単に表現する桁数が違うだけで、下位16bitは同じものになる。
またUnicodeでは、コードポイントを16進数で表現して、先頭に「U+」をつけた表記がよくつかわれる。これは、前記のUTF-32で表現したものを逆順に並べたものになる。たとえば、「漢」の場合、上から「22」「6F」「00」「00」という並びになるが、これを逆順にして先頭のゼロの部分を省けば「U+6F22」となる。
文字とエンコードのコマンドに慣れると、文字コードを調べるだけでなく、エンコードの変換などもでき、文字コードを扱うのがラクになる。ちょっと複雑なコマンドだが、基本的には固定パターンだ。本文中に置いたコマンドをコピーしてWindows PowerShellに貼り付けて、チョコチョコっと書き換えてEnterキーを押すだけでいい。
この連載の記事
-
第456回
PC
あらためてIPv6基本のキ -
第455回
PC
Windowsで現在どのネットワークアダプタがインターネット接続に使われているかを調べる方法 -
第454回
PC
Windows 11 24H2では「デバイスの暗号化」の条件が変わり、より多くのPCでドライブが暗号化される -
第453回
PC
Windows 11 24H2の配布開始後もすぐにはやってこない Windows UpdateとSafeguard Holds -
第452回
PC
Windows 11 Ver.24H2が登場 Copilot+ PCとそうでないPCで実質Windowsが2つに分かれる -
第451回
PC
新しいWindowsサンドボックスではコマンドラインからの制御が可能に -
第450回
PC
ユニコードで文字数を数える方法 -
第449回
PC
WSLはプレビュー版でGUIでの設定が加わった! リリース2.3.xの新機能を見る -
第448回
PC
PowerShellで面倒なオブジェクトはPSCustomObjectに変換するのが早道 -
第447回
PC
この秋登場のWindows 11の新バージョン、Ver.24H2の状況を見る -
第446回
PC
Windows 11のフォトアプリがUWPからWin32アプリになったことで今更わかるUWPの問題点 - この連載の一覧へ