このページの本文へ

前へ 1 2 次へ

Windows Info 第400回

Windowsにおける音声認識など、ボイス機能を整理

2023年10月08日 10時00分更新

文● 塩田紳二 編集● ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 Windowsには「Windows 音声認識」(Windows Speech Recognition、以下WSR)という機能が、Windows Vistaから標準で搭載されている。しかし、Windows 11 22H2からは英語に限り「Windows音声アクセス」(Windows Voice Access)が用意された。さらにこれとは別に、Windows 11には「Windows音声入力」(Voice Typing)という機能が導入されている。今回は、Windowsの「ボイス」関連機能を整理する。

Windowsにおける音声認識など、ボイス機能を整理

Windows VistaからWindows 10までは「Windows音声認識」が、Windowsのボイス機能として使われていた。起動すると、画面上部に音声入力状態などを示すインジケーターが表示される

そもそもボイス機能とは?

 本記事では音声認識などの「音声」を「ボイス」と表記する。というのも、日本語の「音声」には、声以外の楽曲などを含んだ音全体を意味することがあるからだ(たとえば音声入力端子など)。ボイス関連機能とは、音声認識技術を使いなんらかの作業をするものだ。音声認識技術にもいろいろあるが、さらにそれを使った作業によってボイス機能は分類される。

 ボイスをテキストに変換するのが「Speech to Text(STT)」だ。この逆、テキストをボイスに変換が「Text To Speech(TTS)」。STTの音声認識に対して、こちらは音声合成と呼ばれる。

 もう1つは、音声でなんらかの操作をさせる「Voice Command」や「Speech Command」などだ。GUIでは、対象や機能の選択、アプリケーションの起動などをマウスなどのポインティングデバイスを用いるが、これらを含めて音声でコンピュータを操作するのがVoice Commandである。

 コンピュータにおける音声認識技術では、実はこちらのほうが先に実用化されている。発声の中から適切な単語を見つけることができるなら、正確に発音を認識してテキスト化する必要がないからだ。16ビットCPU時代、メーカー製PCのオプションとして音声認識ボードなどが作られ、簡単な操作が可能だった。

 Voice Commandは、単にキーやマウス操作を音声で代用するだけでなく、現在のコンピュータの状態を音声で伝える技術も必要になる。画面上のテキストを読み上げる「スクリーンリーダー」に似ているが、音声で伝えるのは画面に表示されているテキストだけでなく、現在のウィンドウでどのような操作が可能なのかなど、文字以外の情報も伝える必要がある。

 基本機能として、STT、Voice Commandなどの機能を統合したのがWindows Vistaに搭載された「Windows Speech Recognition」だ。マイクロソフトは、以前からボイス関連の機能を開発してきた。その成果としてWindows XP Tablet PC Editionに統合されたボイス機能があった。

 このエディションでは、汎用的に音声入力や音声操作が可能だった。しかし、Tablet PC Editionは、通常のWindowsとは異なるライセンス製品で、一般的なWindowsの機能として統合されたボイス機能の提供はWindows VistaのWSRからとなる。なお、同時にTTSとしてWindowsナレーターも提供され、音声認識/音声合成データは、言語パックの基本的な要素となった。

 ただし、WSRはいきなり現在のような形になったわけではなく、Vistaから時間をかけて段階的に発達してきた。たとえば、ボイス機能の下位で使われるオーディオスタック(オーディオ関連機能)の改良などがあった。

Windows 11でのボイス機能はどうなっている?

 Windows 10までは、ボイス機能の中心はWSRだったが、Windows 11になってクラウド上のAzure Speech serviceを使う「音声タイプ」(Voice Typing)機能が提供されるようになった。

Windowsにおける音声認識など、ボイス機能を整理

Windows 11 Ver.21H2(初版)には、Azure Speech serviceを使う「Windows音声入力」が搭載された。こちらは最初から日本語対応していた

 この機能に関しては、Windows 11 21H2(ビルド22000)のプレビュー段階、Windows Insider ProgramのDev Channelで配布されたビルド21301で日本語対応されており、Windows 11は、最初から日本語の音声入力が可能だ。

 そもそもAzureのAI音声機能は、クラウド側サーバーで実行されるAI技術利用した音声技術をローカルで利用するためのサービスで、TTS、STT、話者認識などに加え、音声翻訳などの機能を提供する。

 しかし、Windows 11 22H2では、従来のWSRに代わるボイス機能としてWindows音声アクセスが別途提供されることになった。なぜ、このような状態になったのかについての説明はないが、Windows音声アクセスの英語以外の言語への展開に時間がかかることを想定して、音声入力だけはAzureの機能を使って他言語に対応させたかったのかもしれない。

 ただし、クラウドの利用では、プライバシーへの懸念やセンシティブな内容に関して、組織外に情報が出ることへの懸念などから、消極的になるユーザーも少なくない。このためか、音声アクセスは、ローカルでの実行であることを強調している。

 音声認識などのボイス関連技術も、画像認識などと同じくAIの大きな恩恵をうけた分野の1つだ。音声認識のためのニューラルネットワークの学習には、膨大なデータと高い計算力を持ったシステムが必要だが、学習が完了したネットワークは適切な後処理で、推論計算処理を簡略化でき、PC程度のCPU性能があれば、音声のリアルタイム認識程度の推論処理は難しくなくなってきた。また、Windowsも推論ハードウェアの搭載を推奨している。

前へ 1 2 次へ

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,680
2
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
3
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
4
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
5
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,677
6
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,899
7
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
¥1,040
8
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
¥844
9
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,599
10
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
¥3,140

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン