「Julius」を導入する
残念ながら現在OS Xに標準装備の音声認識機能では、iOS 4のような使い方は難しい。しかし、Apple以外による日本語対応音声認識エンジンは開発が進み、クセのない言い回しと滑舌良い発音を心がければ、長めのセンテンスでもそれなりの精度で認識されると聞く。そのひとつが、複数の大学・研究室により開発が進められる「Julius」だ。
その精度を体感すべく、手元のMacへインストールしてみよう。なお、動作確認はSnow Leopard(v10.6.4)で行なっているため、それ以前のシステムおよびPowerPC搭載機については考慮しないので念のため。
「PortAudio」のインストール
音声の入力に内蔵マイクを利用するため、オープンソースのオーディオ入出力ライブラリ「PortAudio」を導入する。なお、現行バージョンの「Julius」は64bitバイナリでは動作しない都合上、ここでは32bitバイナリとしてビルドしている。
$ tar xzf pa_stable_v19_20071207.tar.gz
$ cd portaudio
$ CFLAGS='-arch i386' ./configure
$ make
$ sudo make install
「Julius」のインストール
「Julius」のビルドも「PortAudio」同様、CFLAGS環境変数を「-arch i386
」としてビルドを実行する。これで、/usr/local/bin
ディレクトリーに「julius
」コマンドがインストールされるはずだ。
$ tar xzf julius4.tar.gz
$ cd julius4
$ CFLAGS='-arch i386' ./configure --with-mictype=portaudio
$ make
$ sudo make install
ディクテーション実行キットを試す
「Julius」の機能をチェックするには、不特定話者の音響モデルと汎用言語モデルを収録した「ディクテーション実行キット」が必要だ。「Julius プロジェクト日本語トップページ」から最新版の書庫ファイル(dictation-kit-v4.0.tar.gz)を入手し、展開ののちカレントディレクトリーとしよう。
$ tar xzf dictation-kit-v4.0.tar.gz
$ cd dictation-kit-v4.0
これで、「Julius」を実行する準備は完了。以下のコマンドラインを実行し、何か意味のある言葉(もちろん日本語)をマイクに向かって話してほしい。反応が鈍いようであれば、システム環境設定の「サウンド」ペインで内蔵マイクの入力音量を高めに調整してみよう。
$ julius -C fast.jconf -charconv EUC-JP UTF-8
音声認識システムは話者の特性が大きく影響するはずで、一人の結果でもって断定することは難しいが、筆者が語りかけた内容はかなりの精度で認識された。このディクテーションでは、日本語における単語の統計量や、「私」の次には「は」や「の」が続くことが多いといった統計量に基づき確率を推定するほか、文法や意味において不当なものを除外する機能を備えているため、意味の通る日本語として認識されやすい。
たとえば、「鈴木さんに電話します」と話しかけたところ、認識された語句は「鈴木さんでは島」だったが、「鈴木さんに電話します」に補正されたうえで認識された。それ自体に意味はない数字の羅列はどうかと思い、「一、二、三、四、五、六、七、八、九、十」を試してみると、認識された語句は「いつ に 三 し 、 思う の か ? 生 八 九 九」だったが、補正後は「一 二 三 一 、 五 、 六 、 七 、 八 、 九十」になった。
電話をかけるなど特定用途に絞り開発されたiOSの音声コントロールと、日本の研究機関により開発された「Julius」を一律に比較はできないが、日本語の認識精度に大きな隔たりがあることは確かだ。UIがウリのAppleなだけに、OS XとiOSともども今後の改良に期待……という型通りの文言で第3回を終わりとしたい。
筆者紹介──海上忍
ITジャーナリスト・コラムニスト。アップル製品のほか、UNIX系OSやオープンソースソフトウェアを得意分野とする。現役のNEXTSTEP 3.3Jユーザーにして大のデジタルガジェット好き。近著には「改訂版 Mac OS X ターミナルコマンド ポケットリファレンス」(技術評論社刊、Amazon.co.jpで見る)など。
この連載の記事
-
第187回
iPhone
NFCの世界を一変させる!? iOS 11「Core NFC」の提供開始が意味するもの -
第186回
iPhone
Appleと「4K HDR」 - iOS 11で写真/動画を変える「HEIF」と「HEVC」 -
第185回
iPhone
iPhone 7搭載の「A10 Fusion」「W1」は何を変えるか -
第184回
iPhone
オープンソース化された「PowerShell」をMacで使う -
第183回
iPhone
アップル製デバイス連携の鍵、「Continuity」とは? -
第182回
iPhone
DCI-P3準拠へと歩むiPhone/iPad - WWDC基調講演で秘められた新技術は、ここにある(2) -
第181回
iPhone
WWDC基調講演で秘められた新技術は、ここにある(1) -
第180回
iPhone
WWDC直前、買い替え前にマイMacのココをチェック -
第179回
iPhone
私がiTunesを使わなくなった5つの理由 -
第178回
iPhone
今あえてiPhone「Live Photos」を知る -
第177回
iPhone
「Windows Subsystem for Linux」はOS Xのライバルとなるか? - この連載の一覧へ