本連載「Apple Geeks」は、Apple製ハードウェア/ソフトウェア、またこれらの中核をなすOS X/iOSに関する解説をあますことなくお贈りする連載です(連載目次はこちら)。
UNIX使い向けをはじめ、Apple関連テクノロジー情報を知りつくしたいユーザーに役立つ情報を提供します。
新Apple TVの噂がまことしやかに流れていますが、モノが出るまでわからぬ/語れぬこの世界、過度の期待は禁物です。とはいえ、Mac miniもこんな感じに進化していますし、何かあるはず。Google TV対抗馬たりうるデバイスに進化するかどうか、要注目といえます。
さて、今回は「音声認識」について。OS X界隈の現状を整理しつつ、オープンソースの日本語対応音声認識システム「Julius」(ジュリアス)を利用して、その必要性を検討してみよう。
OS Xにおける音声認識システムの現状
「入力した音声を解析し文字データとしてシステムに伝える」という音声認識技術の歴史は古く、数十年前にまでさかのぼる。しかし、声質は性別や体型による個体差が大きく、さらに言語の違いや方言の存在などバリエーションが多岐にわたることもあり、認識精度の向上が長年の課題とされてきた。
OS Xにも音声認識機能は用意されているが、対応する言語は英語のみ。Tigerの頃から大きな変化はなく、Snow Leopardの現在も日本語にも対応しないままだ。
一方、OS Xから派生したiOSでは、日本語やドイツ語、中国語など多国語対応の音声認識システムが搭載されている。認識可能な語句は限られるが、「音楽を再生」でiPodを再生開始、「<番号>に電話」でアドレス帳に登録された人名宛に電話するなど、ひととおりの操作が可能になっている。
OS X/iOSにおける音声認識機能は、技術仕様が非公開のプライベートフレームワークであり、その仕様は明らかにされていないが、大々的にアピールするほどの完成度には達していないのは事実だろう。iOS 4のそれを例にすると、確かに日本語での命令は受け付けるが、数回に1度程度は誤認識(筆者に限っていえば5回に2回程度の成功率)されるうえ、確認なしに誤認識した番号へ電話をかけ始めてしまうなどのトラブルは少なくない。認識精度という点では、大いに改良の余地があるはずだ。

この連載の記事
-
第187回
iPhone
NFCの世界を一変させる!? iOS 11「Core NFC」の提供開始が意味するもの -
第186回
iPhone
Appleと「4K HDR」 - iOS 11で写真/動画を変える「HEIF」と「HEVC」 -
第185回
iPhone
iPhone 7搭載の「A10 Fusion」「W1」は何を変えるか -
第184回
iPhone
オープンソース化された「PowerShell」をMacで使う -
第183回
iPhone
アップル製デバイス連携の鍵、「Continuity」とは? -
第182回
iPhone
DCI-P3準拠へと歩むiPhone/iPad - WWDC基調講演で秘められた新技術は、ここにある(2) -
第181回
iPhone
WWDC基調講演で秘められた新技術は、ここにある(1) -
第180回
iPhone
WWDC直前、買い替え前にマイMacのココをチェック -
第179回
iPhone
私がiTunesを使わなくなった5つの理由 -
第178回
iPhone
今あえてiPhone「Live Photos」を知る -
第177回
iPhone
「Windows Subsystem for Linux」はOS Xのライバルとなるか? - この連載の一覧へ