富士通研究所は4月1日、説明音声から資料中の該当箇所をリアルタイムに推定する技術を開発したと発表した。本技術を利用し、説明開始から約2秒で説明箇所の強調表示を行なう設定にした場合、推定精度が70%から97%へ向上したという。
ポイントは、「認識誤りが発生しにくい音声認識辞書を自動生成する技術」と「統計的に算出した説明順序の特徴から推定精度を向上する技術」の開発。
声認識において、「色」、「音」、「日」などの語長が3以下の短い単語は類似した発音の単語が多く、誤認識を生じやすい傾向にある。そこで、それらの語長が短い単語を周囲の隣接する単語と結合し、1つの単語として音声認識辞書に登録することで、誤認識を当社従来技術と比較して約60%低減しましたという。
また、音声による説明の順序と、資料のレイアウトや段落構造、資料中の説明の記載位置などの文章構成情報との関係を統計的に算出した。すると、資料内で一定距離以上説明箇所が離れると、その箇所に説明が遷移する頻度が急激に低くなるという特徴が分かったという。そこで、このような説明順序の特徴と、説明箇所に含まれる言葉の頻度を利用。次の説明箇所の範囲を絞り、少量の言葉しか認識されていない状態でも説明に対応する該当箇所を高精度に推定できるようになったという。