NTTは1月17日、NTT版大規模言語モデル「tsuzumi」の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する個人性再現対話技術を発表した。また、本人のように行動し本人と経験を共有する分身のようなAIエージェント「Another Me」を発表した。
同社は、tsuzumiの拡張技術を用い、少量のデータから個人の口調や発話内容を再現する「個人性再現対話技術」や、少量の音声データから個人の声色を反映した音声を合成する「Zero/Few-shot音声合成技術」も開発。これにより、従来の大量のデータが必要な個人再現が、少量のデータでも可能となり、多くの人がデジタル空間内で自身の分身を持つことが可能になる。
背景として、社会のデジタル化とAI技術の進展により、汎用AIへの過度な依存が個人や社会の多様性を損なう可能性が指摘されている中、NTTはIOWN構想を通じて、個人の多様性を尊重し、社会で自然な個性を発揮できる環境の実現を目指している。具体的には、tsuzumiを含む大規模言語モデルの研究開発を進め、個人の特徴を学習し再現する技術をAIにより、人の多様性を様々な社会・経済活動に反映していくAnother Meプロジェクトを推進している。
また、2023年度には「過去の行動から趣味や価値観を推定する個人性抽出技術」や「プロフィールから対話を再現する個人性再現対話技術」も開発しており、今回の技術はこれらの成果を更に発展させたものとなっている。
同社は、Another Meを実現するために、少量データをもとに本人らしい発話を生成する個人性再現対話技術と、数秒~数分程度の音声から本人の音声を合成するZero/Few-shot音声合成技術を開発した。
従来の対話技術の研究においては、個人性を再現するために個人の大量のデータでLLMをファインチューニングしていたが、コストが高くAnother Meで目指す万人のデジタル分身の再現には適用できないという。それに対して個人性再現対話技術では、少量のデータから効率的に学習するアダプター技術とペルソナ対話技術を組み合わせ、個人の特徴を反映した対話生成を可能にする。
また、Zero/Few-shot音声合成技術により、少ない音声データからでも高品質で多様な声を合成する技術を実現し、その運用コストを低く抑えることに成功している。
これらの技術により、デジタル分身を通じて他者とコミュニケーションをとり、社会やコミュニティー活動に参加する機会を提供することが可能となる。本技術によるデジタル分身は、ユーザー自身がログインしていなくても自律的に活動するNPC(Non-Player Character)として他のユーザーやそのデジタル分身とコミュニケーションし、その内容をユーザー本人に持ち帰って共有する。そのため、全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザーと友達になるきっかけが得られるという。
また、趣味や関心が共通する人々のコミュニティーに分身が代理参加したり、有名人やインフルエンサーのデジタル分身をサービス内に常時配置したりするなどの使い方も期待できる。
同社は今後、ユーザーのデジタル分身を通じた人間関係の創出効果に関してMetaMe上でのフィールド実験を実施する予定。tsuzumiによる個人性再現機能の提供に向け、2024年度中に技術の精度向上を図るとしている。
これらの技術により、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員等との関係性を築けるデジタルヒューマンやチャットボットの実現につなげていく。