このページの本文へ

仕事に差がつく!阿久津良和「Office 365のスゴ技」 第15回

英語の音声入力は実用レベル、では日本語はどうか?

Office 365の音声入力機能「Dictate」を試す

2017年12月19日 10時30分更新

文● 阿久津良和 編集 ● 羽野/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

本連載は、マイクロソフトのSaaS型デスクトップ&Webアプリケーション「Office 365」について、仕事の生産性を高める便利機能や新機能、チームコラボレーションを促進する使い方などのTipsを紹介する。

 Office 365を使いこなして仕事を早く終わらせたい皆様にお届けする本連載。第15回は音声入力を取り上げる。

 市場を見渡せば、スマートフォンは既に音声入力をサポートし、今年に入って音声で情報取得や家電の制御などができるスマートスピーカーが続々登場した。WindowsはXPの時代から音声入力をサポートしているが、その精度から利用するユーザーは多くない。ではOfficeはどうだろうか。

 Officeは音声合成機能を備えているが、音声入力機能は見当たらないのが現状だ。この現状をMicrosoftの開発者が憂いたかどうかは不明だが、同社の実験的プロジェクト「Microsoft Garage」で、「Microsoft Dictate」を2017年6月にリリースしている。

Microsoft Dictateのホームページ。32ビット版と64ビット版があるのでダウンロード時は注意してほしい

 Dictateは、マイクロソフトが提供するAI API群「Microsoft Cognitive Services」に含まれる音声認識API「Bing Speech API」や機械翻訳API「Microsoft Translator」などを利用して、音声入力内容をテキストに変換したり、テキストを多言語に翻訳したりするもの。WordやExcel、PowerPoint、Outlook上で動作する。本稿執筆時点では、日本語を含む24言語による音声入力と、60言語以上の翻訳に対応する。なお、音声入力を行う度にAPIを叩くため、利用時はネットワーク環境が必要だ。

インストール後は<Dictate>タブが加わり、音声入力言語や翻訳言語を選択し、<Start>ボタンを押す

Fiddlerでネットワーク状態を見ると、api.cognitive.microsoft.comやbing.comへのアクセスが確認できる

 入力・翻訳のほかに、Dictateでは音声でOfficeコマンドの一部を利用できる。改行なら「New Line」、最終行削除は「Delete」、「Stop Dictation」と話せば音声入力が終了する仕組みだが、音声入力言語として英語を選択した場面に限られ、日本語を選択して「New Line」を話しかけても違う認識が行われてしまう。少なくとも現時点で日本語を使う我々は恩恵を受けることができない。

日本語と英語で音声入力を試してみる

 では、Dictateの音声入力に目を向けてみよう。音声入力言語を日本語、翻訳言語を日本語に設定し、PCに取り付けたマイクに向かってゆっくりと話しかければ、誤認識も見受けられるがある程度は入力できる。ただし、まだまだキー入力の代替ツールとはなりがたい出来栄えだ。

マイクに向かって話し始めると、Bing Speech API経由で音声認識が始まり、その結果がテキストとして入力される

こちらはとあるニュース番組を読み込ませた結果。通常のスピードを読み取るのは、まだ難しい

 ここで、音声入力言語と翻訳言語を英語に設定してみると、それまでの引っかかりが嘘のように英文が入力されるのだ。正直な感想を述べれば驚き以外の何物でもない。英語であれば、キー入力の代替ツールとなり得るだろう。

こちらは音声入力言語を英語。翻訳言語を日本語にして、1分程度のニュース番組を読み込ませた。一部API側が応答せず、取りこぼしが多かった

同じソースで音声入力言語と翻訳言語を英語で試してみたところ、日本語の時と大きくことなり、スムーズに入力された。これなら実用レベルである

 冒頭で述べたようにDictateは実験的なツールだ。今後改良が積み重なれば、会議中の議事録も自動作成可能になるはずだ。その日を一日千秋の思いで待ちたい。

■関連サイト

カテゴリートップへ

この連載の記事
ピックアップ