このページの本文へ

前へ 1 2 次へ

Apple Geeks 第3回

"iOSより賢い"日本語対応音声認識システムを試す

2010年08月16日 18時00分更新

文● 海上忍

  • この記事をはてなブックマークに追加
  • 本文印刷

「Julius」を導入する

 残念ながら現在OS Xに標準装備の音声認識機能では、iOS 4のような使い方は難しい。しかし、Apple以外による日本語対応音声認識エンジンは開発が進み、クセのない言い回しと滑舌良い発音を心がければ、長めのセンテンスでもそれなりの精度で認識されると聞く。そのひとつが、複数の大学・研究室により開発が進められる「Julius」だ。

 その精度を体感すべく、手元のMacへインストールしてみよう。なお、動作確認はSnow Leopard(v10.6.4)で行なっているため、それ以前のシステムおよびPowerPC搭載機については考慮しないので念のため。


「PortAudio」のインストール

 音声の入力に内蔵マイクを利用するため、オープンソースのオーディオ入出力ライブラリ「PortAudio」を導入する。なお、現行バージョンの「Julius」は64bitバイナリでは動作しない都合上、ここでは32bitバイナリとしてビルドしている。


$ tar xzf pa_stable_v19_20071207.tar.gz
$ cd portaudio
$ CFLAGS='-arch i386' ./configure
$ make
$ sudo make install



「Julius」のインストール

 「Julius」のビルドも「PortAudio」同様、CFLAGS環境変数を「-arch i386」としてビルドを実行する。これで、/usr/local/binディレクトリーに「julius」コマンドがインストールされるはずだ。


$ tar xzf julius4.tar.gz
$ cd julius4
$ CFLAGS='-arch i386' ./configure --with-mictype=portaudio
$ make
$ sudo make install



ディクテーション実行キットを試す

 「Julius」の機能をチェックするには、不特定話者の音響モデルと汎用言語モデルを収録した「ディクテーション実行キット」が必要だ。「Julius プロジェクト日本語トップページ」から最新版の書庫ファイル(dictation-kit-v4.0.tar.gz)を入手し、展開ののちカレントディレクトリーとしよう。


$ tar xzf dictation-kit-v4.0.tar.gz
$ cd dictation-kit-v4.0


 これで、「Julius」を実行する準備は完了。以下のコマンドラインを実行し、何か意味のある言葉(もちろん日本語)をマイクに向かって話してほしい。反応が鈍いようであれば、システム環境設定の「サウンド」ペインで内蔵マイクの入力音量を高めに調整してみよう。


$ julius -C fast.jconf -charconv EUC-JP UTF-8


 音声認識システムは話者の特性が大きく影響するはずで、一人の結果でもって断定することは難しいが、筆者が語りかけた内容はかなりの精度で認識された。このディクテーションでは、日本語における単語の統計量や、「私」の次には「は」や「の」が続くことが多いといった統計量に基づき確率を推定するほか、文法や意味において不当なものを除外する機能を備えているため、意味の通る日本語として認識されやすい。

 たとえば、「鈴木さんに電話します」と話しかけたところ、認識された語句は「鈴木さんでは島」だったが、「鈴木さんに電話します」に補正されたうえで認識された。それ自体に意味はない数字の羅列はどうかと思い、「一、二、三、四、五、六、七、八、九、十」を試してみると、認識された語句は「いつ に 三 し 、 思う の か ? 生 八 九 九」だったが、補正後は「一 二 三 一 、 五 、 六 、 七 、 八 、 九十」になった。

ディクテーションキットで「Julius」の日本語認識精度を検証しているところ。リアルタイムにセンテンスを補正する様子を確認できる

 電話をかけるなど特定用途に絞り開発されたiOSの音声コントロールと、日本の研究機関により開発された「Julius」を一律に比較はできないが、日本語の認識精度に大きな隔たりがあることは確かだ。UIがウリのAppleなだけに、OS XとiOSともども今後の改良に期待……という型通りの文言で第3回を終わりとしたい。


筆者紹介──海上忍


 ITジャーナリスト・コラムニスト。アップル製品のほか、UNIX系OSやオープンソースソフトウェアを得意分野とする。現役のNEXTSTEP 3.3Jユーザーにして大のデジタルガジェット好き。近著には「改訂版 Mac OS X ターミナルコマンド ポケットリファレンス」(技術評論社刊、Amazon.co.jpで見る)など。



■関連サイト

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

ASCII.jp RSS2.0 配信中