驚異の日本語音声認識性能を備え、入力した音声をテキスト化するiPhone/iPod touch/iPad用アプリ「Dragon Dictation」(関連記事)。その音声認識技術は、先日無償提供が開始された開発キット「Dragon Mobile SDK」を利用すれば、任意のアプリに組み込むことが可能だ。
音声認識技術の仕組みと、SDKを公開した意図について、開発元のNuance Communications(ニュアンス コミュニケーションズ) グローバルビジネスデベロップメントのディレクター、Aaron Masih氏に話を聞いた。
|
|||
Dragon Dictation | |||
---|---|---|---|
作者 | Nuance Communications | 価格 | 無料 |
ファイル容量 | 5.1MB | カテゴリ | ビジネス |
対応デバイス | iPhone/iPod touch およびiPad互換 |
対応OS | iOS 4.0以降 |
iOSアプリ「Dragon Dictation」について
――「Dragon Dictation」において、日本語など英語以外の言語を複数サポートしたことと、iOSデバイスをターゲットにした理由を教えてもらえますか?
Aaron Masih氏(以下、Masih):現在Dragon Dictationでは、英語や日本語、韓国語など12の言語をサポートしています。ただし、イギリス英語やアメリカ英語などの変化形もまとめて1言語としているため、実際の数はそれ以上です。それらの言語を選択した理由は、アプリケーション/サービスの浸透率や、どの地域でイノベーションが起きているかを考慮した結果です。サポートする言語は、今後も増やしていく予定です。
iOSデバイスをターゲットにした理由は、スマートフォンだからというわけではなく、市場全体でイノベーションがどこに起きているのかを考えた結果です。
――Dragon Dictationを早速試用させていただき、日本語の認識精度がかなり高いと感じました。その理由はどこにあるのでしょうか?
Masih:認識精度が高い理由のひとつは、音声サンプルを含むデータ量を常に増やしているからです。サンプルデータが増えれば増えるほど、音声認識の正確性は増します。Nuanceの音声認識技術には20年以上の蓄積があり、当然そのノウハウも反映されています。
Dragon Dictationではクラウドモデルを採用しており、音声サンプルなどのデータもクラウド上に存在します。利用開始時に確認のメッセージが表示されますが、iOSデバイスに話しかけた音声データもサンプルとして収集し、さらなる認識精度向上に役立たせていただいています。あなた(筆者)がテストしたときの声も、サンプルデータ化されていますよ。
また、これら音声データは個人情報とは切り離されており、プライバシー侵害の可能性はありません。またわが社ではデスクトップ版製品も展開していますが、それらはスタンドアローン型で音声データはクラウドに蓄積されません。
――かな漢字変換という日本語独特の処理も適切に行なわれているようです。この処理も、クラウド上で行なわれているのですか?
Masih:そのとおりです。デバイス側には小さなライブラリーしかなく、音声などのデータをクラウドと送受信するための“器”にすぎません。かな漢字変換エンジンはクラウド上にあり、こちらも継続的に改善しています。
(次ページへ続く)