このページの本文へ

柳谷智宣の「真似したくなるPC活用術」 第21回

音声認識ソフトを使って声で原稿を書く技

2010年07月06日 17時43分更新

文● 柳谷智宣

  • この記事をはてなブックマークに追加
  • 本文印刷

認識率を上げるには
マイクに口を近づけて大きな声で話す

 AmiVoiceの機能で筆者が魅力を感じたのが、ICレコーダーで録音したデータをテキストに起こす機能だ。外出先での音声メモをドラッグ&ドロップするだけで、認識してくれる。

 まずは、AmiVoiceエディターを起動するのだが、実はインストールの際に、AmiVoiceエディターのメニューやショートカットは用意されない。音声入力を開始すれば自動的に開くのだが、やや手間だ。そこで、一度音声入力を始めて、エディターが空の状態でファイルを保存しておく。その後はそのファイルを開くことで、AmiVoiceエディターが起動するようになる。

 AmiVoiceエディターが起動したら、録音データの音声ファイルをドラッグ&ドロップする。ファイル形式はwav、wma、wmv、asfに対応している。対応するデータは周波数が16kHzで、16bitのPCMのみとなる。筆者が使っているICレコーダーの録音データはこの形式に対応していたので、普通に読み込めた。iPhoneの音声メモが読み込めないのは残念だ。

音声ファイルをエディター上にドラッグ&ドロップ

音声ファイルをエディター上にドラッグ&ドロップ

 ICレコーダーのデータを認識させたところ、録音内容によって大きく結果が異なった。まず対面取材の録音は完全に駄目だった。複数の話者が話しているのに加えて、ICレコーダーのマイクから口が離れていることが原因だ。耳で聞く分には普通に聞き取れるのだが、認識率は低く下書きにもならない。

 逆に効果があったのは、ICレコーダーに録音した音声メモだ。筆者は外出先などで製品をチェックする際、音声メモを利用することがある。店頭で新製品の所感を残したり、パソコンの製品レビュー執筆の際に、その場で気になるポイントを一気にチェックするのだ。そんな時はiPhoneに入力したり紙のメモ帳に書くよりも、しゃべった方が早い。その録音データを認識させたところ、良好な認識結果が得られた。

 認識結果をそのまま掲載してみた。

元原稿(実際にしゃべった内容)
iPhone4をチェック
マルチタスクをサポートした。Skypeが3Gにも対応し活用できるが、有料なのは要注意。
フォルダ機能でアプリを分類できる。最大2180個まで。
メールの添付ファイルをアプリで読み込めるようになった。ただ、フォルダ分けできるかどうかは不明。
iBooksが導入される。あまり意味はなさそう。
広告のiAdは自信満々。これはGoogle対策だと思われるが、ユーザーとしては邪魔になりそう。
ディスプレーはきれいすぎる。人間の目のレベルとは大げさだろうが、最高水準であることは間違いない。
ICレコーダーから読み込み
iPhone for をチェック
マルチタスクをサポートした。 Skype が CG にも対応し活用できるが、優良なのは要注意。
フォルダ機能でアプリを分類できる。最大2180個まで。
メールの添付ファイルをアプリを認めるようになった。ただ、フォルダ分けできるかどうかは不明。
iBooks が導入される。あまり意味はなさそう。
広告の解約等は自信満々これは Google 対策だと思われるが、ユーザとしては邪魔になりそう。
ディスプレーは綺麗すぎる人間の目のレベルとは大げさだろうが最高水準であることは間違いない。
原稿を直接朗読
iPhone 4 をチェック
マルチタスクをサポートした。 Skype がスリー G にも対応し、活用できるが、優良なのは要注意。
フォルダ機能で、アプリを分類できる。最大2180個まで。
メールの添付ファイルをアプリで読み込め量になった。ただ、フォルダ分けできるかどうかは不明。
iBooks が導入される。あまり意味はなさそう。
広告の愛やっとは自信満々これは Google 対策だと思われるが、ユーザとしては邪魔になりそう。
ディスプレーは綺麗すぎる。人間の目のレベルとは大げさだろうが。最高水準であることは間違いない。

 普通の日本語は、相当な精度で変換してくれる。あえてゆっくり話したりはしておらず、標準的なスピードだ。声は大きい方が認識しやすい。「Google」などの有名な単語は、カタカナ発声でも英語に変換してくれる。逆に、英語らしい発音で発声すると認識してくれない。数字も普通に「にせんひゃくはちじゅっこ」と発声している。

 明確な誤認識は「有料」→「優良」、「3G」→「CG」、「読み込める」→「認める」などだ。これは耳で聞いても聞き間違えかねない内容だったので、精度には納得するレベル。iPhone 4の4は「ふぉー」ではなく「よん」と読み上げるといった、ユーザー側の工夫も役立つ。

 ネックとしては、辞書にない単語はどうやってもまともに入力できないことか。たとえば、「iAd」(あいあど)は誤変換される。このあたりは、辞書登録によってチューニングしていく必要がある。

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン