文字起こしのプロに聞いた「議事録作成支援システム」の現在

音声認識市場シェアNo1の実力やいかに!?

2019.01.15 11:00

文● 柳谷智宣　編集●北島幹雄／ASCII STARTUP

1 2 3

単体で欲しくなるほど便利な文字起こしソフトAmiVoice Rewiter

　もちろん、クリアな音声を利用したとしても誤認識は発生するので、修正作業が必要になる。「AmiVoice Recorder」での録音を終了させると、Vテキスト形式のファイルが作成される。これを「AmiVoice Rewiter」という編集ソフトで聞きながら修正するのだ。

　Vテキストには音声と時間情報と認識結果がまとめられており、音声を聞きながら文字起こしや修正が行える。エクセルのような見た目で、話者の息継ぎごとに改行されている。「あのー」とか「えー」といった言葉を自動的に削除してくれるのもとても助かる。

　便利なのが、入力部分のテキストと再生する音声が自動で同期されているところ。音を聞いている時、わざわざ入力部分を探す必要がなく、即該当箇所を修正できるのが便利。逆に、誤認識の箇所を見つけて、ぴったりその部分を再生できるのも手間が省ける。巻き戻しも再生/一時停止もすべてキーボードのショートカットで操作でき、マウスに手を伸ばして文字起こし作業が中断することもない。

　同音異義語がある場合は選択肢が表示されるが、認識の候補などは表示されない。修正は耳で聞いて直接入力することになる。修正作業が終われば、WordやCSV、テキストファイルに出力して完了だ。

「AmiVoice Rewiter」で音声を聞きながら該当部分のテキストの修正が行なえる

　話者を特定する声紋認識機能も備えている。最初に、「この発言は〇〇さん」と指定し、そのVテキストをサーバーにアップロードすると、学習してくれるのだ。その後、音声認識をする際、同一人物と判断したら、自動で話者を登録してくれるという。これは非常に便利な機能だ。

　「一字一句を文字起こしすると、録音時間のだいたい6倍から8倍の時間がかかるといわれています。『AmiVoice Rewiter』だと、音声の認識率にも寄るのですが、だいたい2倍くらいで済みます」（満山氏）

　文字起こしの時間が3～4分の1というのは、とてつもない時短になる。実際のユーザーで音源の音質が悪い場合、ほとんど正常に認識できない場合もある。手動で文字起こしをすることになるのだが、その時も「AmiVoice Rewiter」を使う人がいるそうだ。確かに便利そうなので、筆者としても単体で販売してほしいほどだ。

　ちなみに、今回の取材をiPhoneの録音アプリで録ったデータを、実験として「AmiVoice Recognizer」に読み込ませてみた。当たり前だが、マイクなどは使っておらず、3人がタイミングも関係なく自由に発言している。当然、話者の仕分けは無理だった。また、会話としてはざっくり認識できているが、個々の名詞の誤認識が目立つ。適当にICレコーダーを置いて録音したものから完全な文字起こしをするのはまだ難しいようだ。

　しかし、お世辞をいうわけではないが、この認識率の悪いテキストでもないよりまし。実際、この原稿の文字起こしは、音声を聞きながらそのテキストを修正したものがベースとなっている。

　iPhoneで録音したデータを認識させてみた比較サンプルは以下のとおりだ。

音声「（満山氏）3本のマイクがオンになっている状態ですと、結局私のマイクで今、音を拾っててもそちら側のマイクのそういうノイズとかも拾っちゃってる形になりますので、はい。なので若干認識率が低下してしまう可能性がございます。（編集）打鍵音とかでも当然それは邪魔になるわけですよね」

認識結果「3本のマイクがオンになっている状態ですと、結局私のマイクで今思う人って手も足も白川のマイクのそういうノイズとか拾っちゃって優しいなりますのではい。若干認識率が低下してしまう可能性がございますだけんは当然されちゃうんじゃないですよね」

1 2 3