北陸先端科学技術大学院大学(JAIST)と大阪大学の共同研究チームが、音声対話システムと対話している人の生体信号を含むマルチモーダル情報から、対話者がどの程度システムとの対話を楽しんでいるかを推測する機械学習手法を提案。対話者以外の人間が観察・推定した場合と同程度の精度で、対話者の内面状態を推定できることを確認した。人の感情をより理解し、より人間らしく振る舞う対話システムの開発につながる可能性がある。
北陸先端科学技術大学院大学(JAIST)と大阪大学の共同研究チームが、音声対話システムと対話している人の生体信号を含むマルチモーダル情報から、対話者がどの程度システムとの対話を楽しんでいるかを推測する機械学習手法を提案。対話者以外の人間が観察・推定した場合と同程度の精度で、対話者の内面状態を推定できることを確認した。人の感情をより理解し、より人間らしく振る舞う対話システムの開発につながる可能性がある。 今回の研究では、システムと対話している人の発話内容(言語情報)、声色(音声情報)、表情および姿勢(視覚的情報)、皮膚電位(生体信号情報)からそれぞれ単独、あるいは各情報を組み合わせて対話者の内面状態を推定する機械学習モデルを提案し、どの情報が推定に有効かを比較評価した。内面状態の推定はシステムの発話と対話者の発話のペアごとに実施し、実験に参加した26人の対話者から得られた合計2468ペアを分析の対象とした。 評価の結果、対話者が回答した内面状態を推定するには、生体信号情報が音声・表情といった情報よりも有効であり、言語情報と生体信号情報の組み合わせが最も有効であることが明らかになった。研究チームによると、このことは、システム対話時の人の内面状態の推定には外面的な情報だけではなく、目に見えない生理学的な反応も有用であることを示唆しているという。 研究成果は、2022年3月3日に米国電気電子学会の学術誌「IEEEトランザクションズ・オン・アフェクティブ・コンピューティング(Transactions on Affective Computing)」のオンライン版に掲載された。(中條)