筆者は毎日のように取材をしており、執筆時には録音データから文字起こしをしている。これがとても時間がかかり、生産性を向上するためには自動化したいと常に考えている作業なのだ。
一方スマホのアシスタントにスマートスピーカーと音声認識技術は広く普及している。今や普通に話してコマンドを実行させることが可能だ。何年も前にレビューしたコンシューマー向け製品は取材の文字起こしには使えなかったが、当然、今は音声認識技術も向上しているはず。
音声認識ソフトの「AmiVoice」最新版の実力は実際体験してみた通りだ(「会議の音声をテキスト化してくれる「VoXTプロ」を使ってみた」)。では、本格的なBtoBプロダクトとしての利用についてはどうなのか。実際にアドバンスト・メディアに伺ってみた。
話している言葉がリアルタイムでテキスト化されていく
実際の製品でデモを見せてくれたのは、株式会社アドバンスト・メディア VoXT事業部 営業部 営業部長である満山喜洋氏。今回ご紹介いただいたのは、BtoBのスタンダードな音声認識ソリューションである「議事録作成支援システム」だ。
まずはデモを見せていただいたのだが、なかなかに設備が大掛かりだった。満山氏と筆者、編集の3人で話したのだが、それぞれの前に本格的なマイクがセットされている。そこから伸びたケーブルはミキサーにつながれ、そこからPCにUSB接続している。
早速、満山氏が「本日はお時間をいただきまして、当社の議事録作成支援システムという製品をご説明させていただきます。このような形でマイクに向かって発言していただくとソフトウェアを通じて、発言内容がリアルタイムでテキスト化されます」と言うと、「AmiVoice Recorder」というソフト上でその通りに入力された。満山氏は少々意識してはきはきしゃべっていたが、それでも普通のスピードと話し方だ。それでいて、カタカナも漢字も完璧に認識したのには驚いた。
筆者もマイクをオンにしてしゃべると、文章が入力されていく。特に意識せず普通に話したが、7~8割はきちんと入力されている感じ。時々、単語が似た発音の言葉に誤変換されているが、全体として内容が把握できる文字起こしになっていた。
たとえば、「ICレコーダーを20名様30名様の真ん中に置いてっていうような環境と難しいですね。2人だとICレコーダー次第で行けます」だと、「ICレコーダーを20名様30名様の真ん中に置いてっていうような環境と難しいですね、2人だとICT古代次第で行けます」のようになる。このレベルであれば十分だ。
ただ、話すたびにマイクをオンにし、話し終わったらマイクをオフにする必要がある。これは、音声を綺麗に録音するためだという。
「どの音声認識製品にも共通しているのですが、音質によって認識精度が変わることです。この議事録作成支援システムに関しては、マイクをひとり1本置いていただく構成を推奨しています。たとえば、ICレコーダーを多人数のいる会議室の中央に置いて録音すると、遠い人の音声がほとんど拾えなかったり、紙がこすれる音やプロジェクターの動作音が入ってしまい、認識率がかなり低下してしまうのです」(満山氏)
そのため、マイクは指向性があればなんでもいいとのこと。ハンドマイクでも今回のような据え置きでも、ワイヤレスでもOK。マイクと口元の距離が20㎝くらいになればいいようで、極端な話、普通のICレコーダーを手にもってしゃべってもいいそうだ。
音声を認識したらその人のマイクが自動で有効になるオートモードが使えるのでは? と思ったが、突然喋ると「2千円」と言ったのに、録音では「千円」と認識されてしまうことがあるそう。いちいち、オンオフするのはちょっと手間だが仕方がない。
実は、この高精度認識は、高音質録音に加えて、カスタマイズされた辞書によるもの。製品導入時に、ユーザー企業の過去の議事録を預かり、そこから会議で使われている専門用語や略語、言葉のつながりなどを学習し、データベースのようなものを構築している。そのため、ユーザー企業の会議に特化した形で音声認識ができるのだ。効果のほどを聞いたところ、ケースバイケースではあるが、おおむね20%ほどの認識率向上が見込めるらしい。