このページの本文へ

日本IBM、音声認識ソフト『ViaVoice』の新バージョンを発表

1999年09月28日 00時00分更新

文● 中澤勇/編集部 桑本美鈴

  • この記事をはてなブックマークに追加
  • 本文印刷

ViaVoice Proは『ViaVoice 98 Friendly Speak』の後継製品で、音声による文章入力が可能な“ディクテーション機能”と、音声によるOSおよびアプリケーションの操作を行なえる“ナビゲーション機能”を搭載する。ViaVoice Standardは、ディクテーション機能のみを搭載し、音声ワープロや音声メールなどの文書作成に特化した低価格パッケージ製品。

ViaVoice Standard/Pro共通の機能

今回のバージョンアップは、多くの新機能が追加されたほか、全面的な改良、改善が施された大掛かりなものであるが、基本的な使い方はそれほど変わっていない。そのため、従来のViaVoice 98ユーザーはまったく迷うことなく使用できる。また、音声入力に関するトラブル解決をサポートする“音声認識ウィザード”や、ユーザー設定を行なう“ユーザーウィザード”が追加されたため、新規ユーザーに対する敷居もより低くなっている。

音声認識ウィザードの画面。何度も認識に失敗すると自動的に起動する。なお、画面はβ版のため英語表記が残っているが、製品版では完全に日本語化される
音声認識ウィザードの画面。何度も認識に失敗すると自動的に起動する。なお、画面はβ版のため英語表記が残っているが、製品版では完全に日本語化される



ViaVoiceミレニアムを起動すると、画面上部にタスクバーのような“VoiceCenter”が現れるのも従来どおりだ。目に付く変更点は、ボタンなどのデザインがより洗練されて美しくなったことくらいである。

VoiceCenterの使い方はタスクバーとまったく同じ。もちろん、ViaVoice Proなら音声でVoice Centerの各機能を起動することも可能だ
VoiceCenterの使い方はタスクバーとまったく同じ。もちろん、ViaVoice Proなら音声でVoice Centerの各機能を起動することも可能だ



VoiceCenterの新機能としては、タスクバー形態からMicrosoft Agentを利用したキャラクターに変更できるようになったことがあげられる。Microsoft Agentはマイクロソフトが開発した、キャラクターによるユーザーインターフェイスの共通仕様。また、このAgentキャラクターを使ってテキストの音声読み上げを行なわせることも可能だ。

VoiceCenterをキャラクターの“ブロッコリー”君にするとこうなる。かわいいかどうかは個人の判断にお任せしよう。「“ブロッコリー”は、内部でも好き嫌いがはっきり分かれるんですよ」(日本IBMソフトウェア事業部岡部春樹氏)。画面上のウインドーはViaVoiceミレニアムの“SpeakPad”。音声で文章を入力できる
VoiceCenterをキャラクターの“ブロッコリー”君にするとこうなる。かわいいかどうかは個人の判断にお任せしよう。「“ブロッコリー”は、内部でも好き嫌いがはっきり分かれるんですよ」(日本IBMソフトウェア事業部岡部春樹氏)。画面上のウインドーはViaVoiceミレニアムの“SpeakPad”。音声で文章を入力できる



最も重要な音声認識エンジンはアルゴリズムが改良され、認識精度が大幅に向上している。認識精度向上のために認識エンジンの演算量が増大したそうだが、データ圧縮などの技法を併用することで認識速度の低下を防いでいるという。

強化されたエンロール関連機能

認識エンジンの強化と平行して、エンロール関連機能も変更されている。

エンロールとは、ユーザーの声の特徴を登録して認識処理を最適化することで、これにより認識精度が大幅に向上する。ViaVoice 98 Friendly Speakまでは、このエンロールのために300の文を読み上げる必要があった。

ViaVoiceミレニアムの場合、新機能の“アンスーパーバイズドエンロール”によって、通常使用時の音声入力もエンロールに利用するようになった。つまり、ViaVoiceを使っているだけで自動的にエンロール用のデータが蓄積されていくのである。ViaVoiceを使えば使うほど音声認識の精度向上が見込めることになり、なおかつユーザーの負担も少なくなるという。

エンロール機能自体も改良されている。ViaVoice 98 Friendly Speakまでのエンロール機能は、前述したとおり300文も読み上げねばならなかったことに加え、エンロール用の文章がつまらない、エンロールに失敗すると同じ文を始めから読み直さなければならないなど、いくつかの問題点があった。

ViaVoiceミレニアムでは、エンロールに必要な文を100程度に短縮。エンロールに失敗した場合はその部分から開始できるようになり、エンロール用の文章も、『手袋を買いに』(作:新美南吉)といった童話、科学の話(星や星座に関する文章)など4種類から選べるようになった。ViaVoiceのエンロール機能に関する不満点はほぼ解消されたといってもいいだろう。

エンロール用の文章が選択できるようになった。『手袋を買いに』を選ぶと、小学校時代を思い出す
エンロール用の文章が選択できるようになった。『手袋を買いに』を選ぶと、小学校時代を思い出す



基本的には、この100文程度のエンロールを行なうことが推奨されているが、日本IBMの岡部氏によると「実際には、エンロールしなくても十分使えるレベルに達した」という。とりあえずエンロールなしで使ってみて、認識精度に不満がある場合はエンロールを行なう、という使い方も可能だ。ちなみに、ViaVoice 98でもエンロールなしでほぼ100パーセントの認識率のユーザーもおり、認識率にはかなりの個人差があるという。

句読点の発話が不要

また、句読点の発話が不要な“句読点自動挿入トピック”が追加されている。従来は“、”や“。”を挿入するために、「てん」「まる」と発声する必要があった。たとえば、“今日は、天気がよい。”と入力するには「きょうはてんてんきがよいまる」と発声するのである。しかし、句読点自動挿入トピックを使用すると適切な位置に句読点が自動挿入されるので、「きょうはてんきがよい」と発声するだけでよくなる。

句読点の自動挿入は、ViaVoice 98と(株)ジャストシステムの『VoiceATOK2』との連携によっても実現可能だが、VoiceATOK2がViaVoiceの認識結果に対し、句読点を挿入しているのに対し、ViaVoiceミレニアムのトピックは、句読点の情報を認識結果に反映させることで、より認識精度を向上させているという。

基本辞書の登録語数は、ViaVoice 98の6万語から8万語に増加。人名や地名の強化が中心となっている。住所入力用ユーティリティが付属することもあり、音声での宛て名入力などが大幅に効率化するだろう。ViaVoiceに従来から搭載されている“ボキャブラリエクスパンダ”機能を利用すると、既存のテキストファイルから未登録語を検出してユーザー辞書に登録できる。また、ディクテーション用エディター“SpeakPad”にキーボードで入力した単語も辞書登録する機能が追加されている。

ViaVoice Proのみの機能

前述したように、ナビゲーション機能が使えるのはViaVoice Proのみ。このナビゲーション機能も強化されている。まず、“ボイスマウス”により、従来の音声認識ソフトでは不可能とされていたドラッグ&ドロップ操作などが音声で行なえるようになった。マウスポインタの移動やマウスボタンのクリックなども制御できるようになり、音声だけでほとんどの作業が行なえるという。

また、WordやOutlook上で直接ディクテーション機能を利用したり、書式設定が行なえる。「この行を明朝12ポイントに変更」というような自然文の発声で、書式などを変更できる“ナチュラル・コマンド”機能も搭載されている。

価格と発売日

ViaVoiceミレニアムは、日本語版のほか、英語版やドイツ語版など、10か国語のバージョンがある。米国ではすでに英語版の出荷が開始されており、StandardとProのほか、インターネット系の機能にフォーカスした『ViaVoice Webミレニアム・エディション』が用意されている。日本では、ViaVoice Webの機能はViaVoice Proに同梱という形になり、単独製品としての発売はない。

価格は、『ViaVoice Pro ミレニアム 日本語版』が1万8000円。『ViaVoice Standard ミレニアム 日本語版』が9800円。『ViaVoice Pro ミレニアム 日本語版』のアップグレード版が1万2000円。

英語版である『ViaVoice Pro Millennium Edition 米国英語版』が2万3000円。『ViaVoice Web Millennium Edition 米国英語版』が1万3800円。『ViaVoice Stabdard Millennium Edition 米国英語版』が9800円。

すべての製品が10月22日発売で、対応OSはWindows 95/98/NT 4.0。アップグレード版以外の製品には、ノイズ消去機能付きのマイクロフォンが同梱される。

また、同社と、(株)コジマ、(株)ジャストシステム、(株)日立製作所の4社は、コジマ、ジャストシステム、日立の3社が、ViaVoice ミレニアムの音声認識技術を利用した新製品を発売すると発表した。

発表されたのは、コジマの英会話学習用ソフト、ジャストシステムの音声ワープロソフト『Voice一太郎10 e-Talk』、日立のマルチポジショナルPC『FLORA 220MP』。各製品の詳細については、別記事を参照のこと。

発表会場には、日本IBM理事でソフトウェア事業部長の長野一隆氏(右)、コジマ専務取締役の小島章利氏(右から2番目)、ジャストシステム代表取締役専務の浮川初子氏(左から2番目)、日立製作所PC事業部長の百瀬次生氏(左)と、4社の代表者が並んだ。日本IBMの長野氏は「今日発表された各社製品のほかにも、カーナビなど音声が利用できるところはいくらでもある。今後、音声技術はさらに家庭や職場に入っていくだろう」としている。
発表会場には、日本IBM理事でソフトウェア事業部長の長野一隆氏(右)、コジマ専務取締役の小島章利氏(右から2番目)、ジャストシステム代表取締役専務の浮川初子氏(左から2番目)、日立製作所PC事業部長の百瀬次生氏(左)と、4社の代表者が並んだ。日本IBMの長野氏は「今日発表された各社製品のほかにも、カーナビなど音声が利用できるところはいくらでもある。今後、音声技術はさらに家庭や職場に入っていくだろう」としている。

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン