このページの本文へ

NTT、LLMモデルに個人の発話を効率よく再現させる技術

2024年01月18日 06時43分更新

文● MIT Technology Review Japan

  • この記事をはてなブックマークに追加
  • 本文印刷

NTTは同社版大規模言語(LLM)モデル「ツヅミ(tsuzumi)」の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」、および少量の音声データから個人の声色を反映した音声を合成する「ゼロ/フューショット(Zero/Few-shot)音声合成技術」を開発した。これまでは個人の特徴を学習し再現するには個人に関するデータが大量に必要だったが、少量データから再現可能になったことで、多くの人が誰でも簡単にデジタル空間内に自身の分身を持てるようになるという。

NTTは同社版大規模言語(LLM)モデル「ツヅミ(tsuzumi)」の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する「個人性再現対話技術」、および少量の音声データから個人の声色を反映した音声を合成する「ゼロ/フューショット(Zero/Few-shot)音声合成技術」を開発した。これまでは個人の特徴を学習し再現するには個人に関するデータが大量に必要だったが、少量データから再現可能になったことで、多くの人が誰でも簡単にデジタル空間内に自身の分身を持てるようになるという。 個人性再現対話技術では、比較的少量のデータによりLLMを効率的に追加学習させる独自の「アダプタ技術」に、対話データとともにプロフィールを学習させることでLLMにペルソナ機能を付加する独自の「ペルソナ対話技術」を統合。再現したい本人の大まかな個人性を反映し、エピソードを交えた発話や口癖など、対象の個人に特化した発話を生成できるようにした。 Zero-shot音声合成技術では、話者の数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をすることなくその特徴を再現した音声を生成。Few-shot音声合成技術では、再現したい口調の音声を含む数分~10分程度の音声データから音声合成モデルを学習し、再現性の高い音声を合成可能にした。これらの技術を実現するためには多くのパラメータを持つ深層学習モデルを必要とするが、演算処理の高速化により一般的なスペックのCPUでも動作可能であるという。 同社は2023年度中にNTTドコモのメタバース・サービス「メタミー(MetaMe)」上で、これらの技術を用いたユーザーのデジタル分身を通じた人間関係の創出効果に関するフィールド実験を開始する予定である。同実験を通して、2024年度中に技術の精度向上を図り、tsuzumiによる個人性再現機能の提供を目指す。

(中條)

カテゴリートップへ

アスキー・ビジネスセレクション

ASCII.jp ビジネスヘッドライン

ピックアップ