未来の教育現場に【BtoBスマートスピーカー×音声認識技術】を活用。同時複数発話の音声認識を可能に。

フェアリーデバイセズ
2019年04月08日

フェアリーデバイセズ
NECの未来型教育京都モデル実証事業に「Fairy I/O(R)　Tumbler」「mimi(R)」を提供しました.

　フェアリーデバイセズ株式会社（本社：東京都文京区、代表取締役：藤野真人、以下「当社」）は、日本電気株式会社（本社：東京都港区、代表取締役執行役員社長兼CEO：新野隆、以下「NEC」）が、京都市教育委員会と共に行う「未来型教育京都モデル実証事業」に、16chマルチマイクハードウェア「Fairy I/O(R)　Tumbler」およびクラウドでの高速音声処理を実現する「mimi(R)」を提供したことをお知らせいたします。

本実証事業について　

　
今回の「未来型教育京都モデル実証事業」は、文部科学省の新しい学習指導要領の一部としての「協働学習」の実現を目指すものです。生徒同士のディスカッションにおける発話を分析し、発話者を特定し、発話テキスト・発話量・感情変化・学習すべきキーワードの出現状況などを教員向けタブレット端末にリアルタイムで表示。教員による生徒への効果的な働きかけや次回以降の授業改善など、効果的な協働学習が可能であるかを検証しています。

実現に向けた技術的な壁

実証事業の環境において課題となるのが、それぞれの生徒の発話を個別かつ正確に集音・認識するという課題でした。近年、音声認識処理技術の向上によって様々なソリューション開発が進行していますが、スマートスピーカーなどの家庭用コンシューマー製品の応用では、特に今回のような「騒音環境下で」「同時に発話される」「発話者を特定し」「発話を個別にテキスト化する」という課題の解決は極めて困難といえます。

フェアリーデバイセズの提供技術

当社は、実業務現場に音声技術を適用するために必要な、ほぼ全ての要素技術を、ハードウェアを含む形で提供しています。今回の音声集音に関する課題解決の為、マルチマイクハードウェア製品シリーズ「Fairy I/O(R)」を提供。音声認識処理技術については、当社のソフトウェア製品シリーズ「mimi(R)」を提供したことで、正確な音声集音・認識を実現しました。

・音の入り口「Fairy I/O(R)　Tumbler　T-01」

マルチマイクハードウェア「Tumbler」は、「mimi」の開発と運用で培われた知見を基に開発された、音声対話システムを構築する上で最適なホワイトレーベルハードウェア製品です。
　一般的に音声認識処理の精度は、マルチマイク（複数マイク）である方が、精度が高まることが知られています。マルチマイクでの集音時に、マイクの異なる配置による音声の位相差や振幅差などを適切に処理することで、目的とする音声のみを強調することができ、それにより音声認識の精度向上がなされます。Tumblerは16chマルチマイクを搭載するため、発話のエリアを特定し、高精度の音声認識が可能となります。これにより、難度の高い「クリアな集音」「正確な音声認識」にかかる開発工数を削減でき、先進的な音声ソリューションの開発が促進されます。

・前段処理「mimi(R) XFE」（XFE:eXtended Front-End module）　
「mimi XFE」は、世界に溢れる様々な「音」を適切に取り扱うために必要となる、各種の音処理機能を提供しています。Tumblerに搭載され、フロントエンドでの処理を担います。生徒一人一人の発話内容を、隣のグループの音声に影響されずに集音する事ができます。

＞発話区間抽出（VAD：Voice Activity Detection）
人が話し始めた・話終わったタイミングを高速かつ低遅延に判定することができる機能です。雑音には反応せず、人の声にのみ反応します。

＞音源定位（Sound source localization）
音源から発せられた音の位相差、振幅差を複数のマイクで捉え処理することで、音の発生位置を特定します。

＞ビームフォーミング（Beamforming）
音の発生位置を特定したうえで、音声を収音するエリアを限定し、目的とする音声のみを強調して集音する事が可能です。

・高速音声処理クラウド「mimi(R) cloud API service」
多言語による音声認識、翻訳、音声合成の他、話者識別、環境音認識など、ユニークかつ多様な機能を備えたクラウドAPIです。そのうち以下の2つの機能により、どの生徒の発話であるかを特定し、発話内容のテキスト化を実行しました。

＞音声認識（ASR：Automatic Speech Recognition）
実環境で発生する雑音を含めて学習された DNN によって、騒音環境で収録された音声に対する認識精度及び認識速度の向上がなされています。

＞話者識別（SRS：Speaker Recognition System）
事前に発話者の音声を学習しておくことで、数秒程度の発話で高精度に発話者を識別することができます。

今後の展開について

　当社は人間と機械とのコミュニケーションをより自然なものとする技術開発に力を注いでいます。
その為には音声認識処理に関連するソフトウェア開発のみならず、音声を正確に集音するためのハードウェア開発が必要であり、その両面を合わせて行うことで、人と機械の境界面を革新しようとしています。

　今回の「複数グループ同時発話ディスカッション」という環境下における課題の解決ノウハウは、学校教育現場だけでなく、企業研修、社内ブレスト、接客カウンターでの活用など様々な業務現場への応用が可能です。さらに当社の持つ多言語での「翻訳・音声合成」、「環境音認識」などを組み合わせることで、新たなビジネスやソリューション開発を支援することも可能です。

　当社は業務現場における音声AI技術活用のリーディングカンパニーとして、デジタルトランスフォーメーションのさらに先の世界を見据え、これまでの音声認識技術では踏み込めなかった領域を、ソフトウェア・ハードウェアの一体開発によって切り拓いてまいります。

※フェアリーデバイセズ株式会社について
　フェアリーデバイセズ株式会社は、「使う人の心を温かくする一助となる技術開発」をコーポレート・アイデンティティとして掲げ、VUI・VPA関連技術、音／音声認識と関連する機械学習諸分野の応用研究開発、及び対話システム・UXデザインの設計と評価に強みを持ちます。

当社の製品「mimi」「Fairy I/O」について詳しくは、
URL:http://www.fairydevices.jp/

※未来型教育京都モデル実証事業について
　京都市教育委員会、 NEC、京都大学学術情報メディアセンターが進める、義務教育段階における個々の子どもに応じた学習の実現と教員の指導力向上を目的として、京都市内の小中学校を対象に、AIなどの先進技術を活用した協働学習における学習状況の可視化・評価と統合的な学習データ分析を行う実証研究。
詳細についてはNECのプレスリリースをご覧ください
URL：https://jpn.nec.com/press/201812/20181205_04.html