会議の音声をテキスト化してくれる「VoXTプロ」を使ってみた

音声認識AIを利用したテープ起こしサービスを徹底レビュー

2018.12.27 18:00

文● 柳谷智宣　編集●北島幹雄／ASCII STARTUP

1 2

　日々取材を繰り返している筆者は、2～3日に1度は2時間程度のテープ起こしを行なっている。執筆よりも手間と時間のかかるこの作業どうにか圧縮しようとずっと試行錯誤を繰り返している。そんな流れで、今回は、エグゼクティブな会議の文字起こしに活用されている「VoXTプロ」（株式会社アドバンスト・メディア）を試用させていただくことができた。プロ仕様の文字起こしサービスを実際に1ヵ月以上使い倒してみたので、そのレビューをお伝えしよう。

「VoXTプロ」のテープ起こしツール「AmiVoiceRewriter」

録音データをアップロードして専用形式に変換してもらう

　「VoXT」は音声認識AIを利用したテープ起こしサービスで、音声認識ソリューションを多数手がけるアドバンスト・メディアが提供している。テープ起こしとは、取材や会議、セミナーなどの音声を録音したデータからテキストデータを作成すること。ちなみに、テープ起こしと呼ばれているのは、昔はカセットテープに録音していたため。

　「VoXT」にはいくつかのサービスがあるのだが、今回レビューするのはクラウド版の「VoXTプロ」。録音した音声データをサーバーに送信し、音声認識により特殊なテキスト形式に変換したファイルを作成してもらえるのだ。そのファイルを「AmiVoice Rewriter」という専用のテープ起こしアプリで読み込み、人の手でチェック、修正するというものだ。

「VoXT for 議事録作成サービス」のホームページ

　まずは、ファイルをアップロードしてみよう。まずは「VoXT for 議事録作成サービス」のウェブサイトにアクセスし、ユーザーIDとパスワードを入力してログインする。

　ユーザーページが開いたら、「依頼」タブから音声ファイルをアップロードする。サポートしている音声ファイル形式は、wav、mp3、wma、m4a、動画ファイル形式はwmv、avi、mp4、m4vとなっている。今回は、iPhoneの録音アプリで作成した音声ファイルを利用した。

　本来、音声認識でテキスト化する場合に最も重要なのが録音のクオリティーだ。雑音が入らないようにするのは当たり前で、話者の口元にマイクを置いておきたい。できれば、発話する人それぞれが自分の前にあるマイクで録音するとベストだ。とはいえ、通常の取材でそんな設備は利用できない。今回は2～4人が座っているテーブルの上にiPhoneを置いて普通に録音したデータを使ってみた。

　ファイルをアップロードすると、アドバンスト・メディアのサーバーで音声認識がスタートする。1回の依頼で最大5つまでのファイルをアップロード可能。容量の合計は1GBまでとなる。

　変換処理には、ほぼ録音時間と同じくらいの時間がかかる。もちろん、ほかの作業をしながら待っていればいい。変換が終了すると、登録しているメールアドレスに通知が来る。

　変換が終了したデータはユーザーページの「ダウンロード」タブからダウンロードできる。.wav形式の音声とテキストファイル、そして.vtxt形式のファイルが用意されている。文字起こしで利用するのは、この.vtxtファイルだ。