このページの本文へ

前へ 1 2 次へ

Windows Info 第302回

Windowsでちょっと文字コードを調べたいときの方法

2021年11月21日 10時00分更新

文● 塩田紳二 編集● ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Windowsはサロゲートペアを使う

 Windowsが使うUTF-16という方式は、1つの文字を表すのに16bitを使う。しかし、Unicodeの文字は大量にあり、16bitであってもすべてを表わすことができない。Unicodeの仕様策定時には、世界中の文字を16bitで表現する前提で作られた。しかし、それは不可能なことが判明し、文字範囲を拡大した。しかし、それがわかったときには、すでにWindowsなどは文字を16bitとして決めてしまい、もう変更ができなかった。そこで登場したのがサロゲートペアという機能で、一部の文字に関しては16bitの文字を2つ使って表現することにした。こうした文字のうち、よく使うものに絵文字がある。

 では、絵文字の文字コードを調べて見ることにしよう。Windows 10/11では、絵文字はWindowsキーを押しながらピリオドキーを押すと「絵文字入力パネル」が表示される。まずは、Windows PowerShellにダブルクオートを入力。次に「Win+.」を押して絵文字パネルを表示させ、最下段の左から3番目の顔のアイコンをクリックして顔の絵文字を入力しよう。ここでは、左上の女性の顔を入力したとする。とりあえず、ここではこの絵文字を選択してほしい。他の絵文字を選ぶとまったく違う結果になることがある。

 前と同じく「[int][char]」を絵文字に対してキャストするとエラーになる。これは絵文字がサロゲートペアにより2文字で表わされているからだ。このような場合には、前に「[int[]][char[]]」をつける。前のキャストとちょっと違って「[]」が入っているが、これは配列という意味でデータが複数あることを意味する。

Windowsが使うUTF-16形式では、1文字を16bitで表現するが、絵文字などの一部の文字は2文字分を使う。このため、どんな場合にもエラーにならないようにするには“[int[]][char[]]” を前に付ける

 プログラムの作成などをしないと、キャストの考えを理解するのはちょっと難しいので、ここでは、どんな文字に対してでもおまじないのように「[int[]][char[]]」を前におけば、文字コードになると思っていただいてかまわない。このキャストであれば、ダブルクオートの内側に何文字いれてもエラーにはならない。

16進数で表示する

 文字コードは多くの場合16進数で表記することが多い。特にUnicodeになってからは、文字コードの値が大きくなったので、桁数を圧縮するため16進数表記が普通だ。PowerShellで文字コードなどの整数値を16進数にするには、パイプを使って、以下のように記述する。

[int[]][char[]]"漢" | %{ $_.ToString("X2")}

文字コードを求めるコマンドの後ろに「 | %{ $_.ToString("X2")}」を付けると、数字は16進数に変換される

 パイプ文字「|」から後ろの部分は一定なので、これもおまじないのように覚えてしまってもかまわない。意味としては、パイプ文字の左側からやってくる個々のオブジェクトについて(foreach-object。%が略記方法)、16進数2桁("X2")という書式を設定する(ToString)という意味である。

他の文字エンコードで表現する

 Unicodeの文字エンコード方法には、Windowsで使うUTF-16のほかに「UTF-8」や「UTF-32」などがある。UTF-8は8bitの複数の文字でUnicodeの1文字を表現する方法であり、UTF-32は、1文字を32bitとする方法である。

 文字をUTF-8で表現するには、以下のコマンドを使う。

[System.Text.Encoding]::UTF8.GetBytes("漢") | %{$_.ToString("X2")}

現在のウェブページではUTF-8が一般的だ。WindowsのUTF-16をUTF-8に変換することもできる。このコマンドでは最初のダブルクオートの中だけ書き換えればよい

 同じくUTF-32で表現するには、

[System.Text.Encoding]::UTF32.GetBytes("漢") | %{$_.ToString("X2")}

とする。どちらも後半のパイプ文字から後ろは、16進数への変換である。

同様にUTF-32にも変換できる。ただし、サロゲートペアを使わない文字の場合には、後半に「00」「00」が追加されるだけ。絵文字などのサロゲートペアのある文字はコードが異なる

 なお、Windowsが使うUTF-16とUTF-32は、サロゲートペアにならない文字の範囲では、単に表現する桁数が違うだけで、下位16bitは同じものになる。

 またUnicodeでは、コードポイントを16進数で表現して、先頭に「U+」をつけた表記がよくつかわれる。これは、前記のUTF-32で表現したものを逆順に並べたものになる。たとえば、「漢」の場合、上から「22」「6F」「00」「00」という並びになるが、これを逆順にして先頭のゼロの部分を省けば「U+6F22」となる。

 文字とエンコードのコマンドに慣れると、文字コードを調べるだけでなく、エンコードの変換などもでき、文字コードを扱うのがラクになる。ちょっと複雑なコマンドだが、基本的には固定パターンだ。本文中に置いたコマンドをコピーしてWindows PowerShellに貼り付けて、チョコチョコっと書き換えてEnterキーを押すだけでいい。

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン