半世紀にわたる技術が投入されたVoiceGraphy
音声認識は、NECが半世紀近くにわたって取り組んできたテーマとなる。その祖先は、1960年に京都大学と共同で開発(試作)した「音声タイプライタ」にまでさかのぼる。ここで用いられているのは、人間が「あ」と発音すると「あ」と認識されるという技術。つまり、単音ごとに区切って発音しなければならない「単音認識」の装置だ。
その後も研究は進み、1980年代には単語認識、1990年代には定型文認識、そして2000年に入って自由文の認識が可能になり、現在では話し言葉の認識が可能なまでに達したという。
こうした研究の積み重ねで開発された製品の1つとして紹介されたのが、2007年に製品化されながらも今も改良が続く音声認識ソリューション「VoiceGraphy(ボイスグラフィー)」だ。これは会議録作成を支援する議事録作成支援ソリューションで、
- 事前登録していない話者でも10万語強の語彙や言い回しを認識
- 複数の話者が入れ替わり発言しても平均80%の認識率
- 紙をめくる音や咳払いなどの雑音に対しても強い
といった特徴がある。
VoiceGraphyは、これまでWindows上で動作するソフトウェアとして販売されていたが、今年から「SaaS型会議録作成支援サービス」としての提供も開始。会議音声1時間あたり3万円で利用できるという。会場では、このサービスのデモンストレーションが行なわれ、株主総会の冒頭の議長による挨拶がテキスト化される様子が公開された。一部数字などに誤認識はあったが、おおむね正確にテキスト化されていた。
なお、会場の説明員によると、認識を行なうにはマイクに向かってはっきり話している必要があり、離れた位置に置いたボイスレコーダーで録音した音声の認識などは不得意だという。株主総会やセミナー、講演など、話者がマイクを使って話すシチュエーションが対象となっているのは、こうした理由があるようだ。
裁判員裁判を支える音声認識技術
このVoiceGraphyの技術は、いよいよ始まった裁判員裁判用法廷への採用も決まっているという。裁判員裁判では、法廷で行なわれた被告人質問などの内容をテキスト化し、裁判官と裁判員が行なう評議の資料として使う。すでに新聞テレビなどで報じられているが、このテキスト化にはNECの音声認識技術が使われているのだ。
すでに、裁判員裁判を行なうすべての法廷に導入されており、8月の裁判員裁判の公判を目標に、検証が行なわれているという。方言を話す多くの人も公式の場では標準語を使うが、関西弁の人はそのまま関西弁を使うことが多いという。そのため、本製品においても、標準語に加えて関西弁の認識が対応済みとなっている。