AIチャットボットの開発を手がけるrinna(リンナ)は、1つのAIモデルから複数の話者と言語を合成できる「多話者多言語音声合成」を発表した。多話者多言語音声合成を用いたAIの音声データは、12月18日に公開予定の「劇場版 仮面ライダーゼロワン REAL×TIME」(東映配給)で採用されるという。発表会では技術の概要が説明されるととともに、東映の担当者も登壇してコラボへの期待を語った。
日本語ネイティブじゃない人の日本語会話もスムースに
rinnaは2020年6月にマイクロソフトのAI&リサーチ部門のチャットボット開発チームがスピンアウトして設立されたAI開発会社で、同年8月にLINE上のAIチャットボットである「りんな」の事業をマイクロソフトから引き継いでいる。「すべての組織とすべての人にAIキャラクターを」をビジョンに掲げ、最新のディープラーニング技術を活用したAIの研究・開発、りんなやAIキャラクターを活かしたマーケティングソリューション「Rinna Charactor Platform」の開発・運営などを手がけている。
5年前にスタートした「AIりんな」のプロジェクトでは、ユーザーと長くチャットすることを目的に、人間がシナリオを用意するのではなく、AIが自律的に返答内容を決定すべく開発された。当初は検索エンジンに仕組みを用いてインデックスから応答文を検索していたが、その後はインデックスを持たずにリアルタイムに文章を生成できるように改良され、現在では相づち、質問、肯定、話題転換、あいさつという5つの戦略に基づいたコンテキストに文章に含められるようになった。この「共感チャットモデル」により、AIが文脈に応じた会話文を自動生成。人間はAIと自然に会話ができるようになっており、さまざまな社会実装にもつながっている。
今後のチャットボットはチャットで話す内容のみならず、コンテンツを元にキャラクター自体が口調を変えていくことも重要になるという。これに対しては大量のテキストと音声データから音声合成モデルを生成する「音声合成技術」を用いることで、話し声や歌声でさまざまな感情表現が可能になる。
今回発表した「多話者多言語音声合成」は、1つの音声合成モデルから複数の話者と言語の音声を生成し、多様な音声表現を迅速に実現する。これまでAIの音声合成を実現するためには、学習パートで大量のテキストと音声のペアが必要で、キャラクターや言語が異なっていれば、その分ペアが増えていた。これに対して、「多話者多言語音声合成」は少量のデータから、キャラクター性を持った音声を合成できるほか、多言語の音声も作ることができる。発表会では、異なるキャラクターが日本語と英語で話す音声のデモも披露され、「英語ネイティブでない人が英語を話す」「日本語ネイティブでない人が日本語を話す」といったことも可能になった。
作品にAIが頻出する仮面ライダーゼロワンでりんなとのコラボ
「劇場版 仮面ライダーゼロワン REAL×TIME」ではこの多話者多言語音声合成で合成した日本語と英語の音声が採用されるほか、「ゼロワン診断」と呼ばれるキャラクター診断コンテンツも提供される。「ゼロワン診断」では、Q20と呼ばれるチャットコマースプラットフォームが用いられ、リコメンドする商品の属性と質問を学習し、質問順をAIが決定する。遊ぶたびに質問順が変わるため、繰り返し遊べるというメリットがあるという。
近未来の設定となっている仮面ライダーゼロワンでは、善・悪の存在としてAIが頻出していることもあり、東映からのラブコールでコラボが実現した。「せっかくAIを取り扱っているので、AIをやっているところとお取り組みしたいなと思って、りんなさんとのコラボをオファーした。限られた期間のコラボではあるが、AIを体験する、AIにふれるきっかけになればと思う」と東映 映画宣伝部 三橋剛氏はコメントした。