株式会社ディー・エヌ・エー(DeNA)は、5月12日、AIを活用した新しい「音声変換AI」のトライアルサービス「VOICE AVATAR 七声ニーナ(以下:七声ニーナ)」を公開した。スマートフォンやPCブラウザー上から誰でも手軽に体験できる七声ニーナは、「AIを用いた完全なキャラクター声の再現」をゴールに開発され、従来の音声変換サービスでは難しかった声を吹き込む話し手の感情表現さえも、キャラクターが発する声に乗せることができるようになる構想だ。
今回は、作詞・作曲家、音楽プロデューサーとして長年エンタメシーンに関わってきた株式会社MAGES.代表取締役会長の志倉千代丸氏が、一足先に七声ニーナの音声変換を体験。開発に携わった、DeNAのプロデューサー岩朝暁彦⽒・エンジニアリングマネージャー加茂雄亮⽒とともに、七声ニーナがもたらすエンタメ業界の変化や今後の開発に期待することを語り合った。
発する声を音素レベルで解析 感情表現をキャラクターの声に乗せる音声変換AI「VOICE AVATAR 七声ニーナ」とは?
岩朝 本日はお会いできて嬉しいです。まずは、七声ニーナの音声変換がどんなレベルか、実際に聞いていただけないでしょうか?
志倉 はい!ぜひよろしくお願いします。
■「VOICE AVATAR 七声ニーナ」とは?
ハッカドールシリーズの流れを汲む、VOICE AVATARのプロトタイプ。話しかけられたユーザーの音声から話者に依存しない音の情報を抽出、それをもとにキャラクターの音声を生成する。これにより、誰の声であっても、事前にユーザーの音声を収録したり、文字起こしをしたりすることなく、自然なキャラクターの声へと変換できる。
岩朝 今回は、予めスマホで撮影した社員の声を七声ニーナで変換してみたのですが、実際に聞いてみていかがでしょうか?
志倉 想像以上に出力が良くてビックリしました。声にイントネーションがあることも驚きで、ちゃんと芝居をしているように聞こえますね。詳しい仕組みも気になりますが、これはユーザーが発した声をテキストに落とし込んでから音声に変換しているのでしょうか? 僕の理解では声をテキスト化した上で、イントネーションを符号化した情報を乗せて出力しているイメージですが。
加茂 ありがとうございます。仕組みは大体仰っていただいた通りです。音声変換サービスはこれまでにもありましたが、声のイントネーションを自動で符号化する技術は、まだ世の中には出てきていないと思います。耳コピでは出力するのが難しいイントネーションの符号化をDeNAのエンジニアやサイエンティストが開発しています。
志倉 七声ニーナは、ソフトウェアですか? 音声の変換はサーバー側で?
加茂 はい、クラウドで動作するソフトウェアですね。なので、基本的にはインターネットにつながっているブラウザーなら、どのデバイスでも、誰でも利用できます。今回は無料で提供するため、サーバー側もそこまでリッチにしているわけではありませんが、10秒程度の音声であれば、ファイル伝送のターンアラウンドを除いて、およそ1秒で帰ってきます。
志倉 それは大きいですね。気軽に使えるだけでなく、このスピードと精度でサーバーを往復しているのは凄いと思います。声にイントネーションを乗せられるということは、音声の波形を調整しているんですか?
岩朝 そういったサウンドエンジニアリング手法とは少し違う手法を使っています。実は、私たちは、お恥ずかしながら志倉さんと違って音楽に関する知識はなく、アルゴリズムだけを見ているチームです。話しかけたユーザーの音声から話者に依存しない音の情報を抽出し、それをもとにキャラクターの音声を生成するABテストをひたすら繰り返してここに辿りつきました。
志倉 僕らが音楽を作るツールでも、クワイヤ(DTM用語で、音色を調整するもの)と呼ばれるジャンルがあります。言葉を喋らせる場合に、音程をつける感覚で音を上げ下げしながら、ある程度イントネーションをコントロールしていくんですね。それを自動で行えるとすれば非常に画期的ですね。先ほど聞いた音声も、元の男性の声が驚くほど自然に女性のピッチに変換されているので、純粋に仕事で使ってみたいと思いました。
ちなみに、七声ニーナは音声変換AIということですが、人工知能という意味でのAIが適用されているのはどのあたりですか? いわゆる世の中で「AI」と言われているサービスは、ほとんどAIではないですよね。中には、ビッグデータからデータを取り出して出力しただけで、AIと謳っているサービスもあります。
加茂 詳細な中身や手法は今後の展開もあるため詳しくはお話しできないのですが、七声ニーナは、志倉さんが仰るような人工知能と呼ばれるAIと考えていただいて問題ありません。
岩朝 補足をすると、アルゴリズムそのものをどう作るかというところがブラックボックスになっています。出力されるアウトプットはシンプルですが、その道のりに至るアルゴリズムが、いわゆるAIと呼ばれる部分になります。
志倉 なるほど(笑)そこが一番気になる部分ではありますが、これ以上突っ込むのは難しいですね。
新型コロナウイルスの影響で
音声変換に対するユースケースが急激に顕在化
志倉 七声ニーナの構想自体はいつ頃からあったのですか?
岩朝 今回のようにキャラクターを作って感情表現やイントネーションを載せる方向性が決まってきたのは、ここ半年から一年くらいの間です。もともと文字情報を音声出力する研究は何年も前から行なっていました。新型コロナウイルスの影響により、ZoomなどのWeb会議やオンラインゲームのボイスチャットをする機会が増えて、急に音声変換の利用シーンのニーズが高まってきて、いけるんじゃないかという感覚がありましたね。
志倉 Web会議で音声変換ですか?
岩朝 例えば、自分の声が嫌いでWeb会議でもできるだけ話したくないという人は、私を含めて結構います。また、私個人の話では、ボイスチャットをしながら「フォートナイト」で遊んでいますが、プレイ中に、みんなが操作しているキャラクターそれぞれの声で話せたら、もっと楽しい世界観を味わえると思うんですよ。
そんな感じで「自分の声を装いたい」という話を加茂やエンジニアとしていたら、「100%変換したいのか」「ちょっと綺麗にするだけでいいのか」といった形でディスカッションをしながらアイデアを出してくれて、ゴールの形と距離が見えてきました。
今回のリリースにあたっても、ユーザーの方に体験してもらって、私たちが思いつきもしなかったようなユースケースを広げていきたいと思っています。エンタメ業界に携わっている志倉さんから見て、どういった使い方ができると面白いと思いますか?
志倉 曲を作る時にこの技術を利用するとどうなるか興味はありますね。例えば、楽曲を作るときには、ボーカルより先に歌ってメロディーに声を入れる仮歌という工程があります。僕は女性の楽曲を手がけることがほとんどなので、自分の声を一オクターブ上げて流したりしていますが、機械的で不自然な声になってしまうため、修正しなければいけません。七声ニーナで仮歌を作れるのであれば、かなり手間が軽減されると思います。
岩朝 なるほど、それは僕らでは思いつかない発想ですね。七声ニーナの声は、高田憂希さんという女性声優の方に担当していただいていますが、仮にアーティスト本人の声をサンプリングすれば、仮歌でも本人が歌っているように作ることができるようになると思います。
志倉 七声ニーナのボイスサンプリングはどのように行なっているのですか?
岩朝 さまざまなパターンの音の要素が網羅されている台本や、日常会話や小話のような頻出の言葉が出てくる台本を使って、地道に収録しました。「これは意味があるのか?」と思うような、プリンターの調子が悪いことを延々と話す台本なども含めて、文章量としては2000文弱ですね。もう少し文章量は減らせるかもしれません。今後は効率化も視野に入れながら、最適な学習量を探っていくつもりです。
志倉 AIの学習はスケールメリットが活かせるところですね。他にパッと思いついたところだと、ユーザーの滑舌のレベルを数値化できるのであれば、声優の専門学校でも採用できると思いますよ。人の滑舌の良し悪しはプロでも判断が難しく、審査をしていても審査員ごとに点数は異なります。デジタルで厳密に評価できると説得力が違いますよね。
ユーザーに奥行きを感じさせるコンテンツの展開を
志倉 当然一般公開されたら、多くのユーザーの注目を集めると思います。これを機にTikTokやYouTubeにもコンテンツがアップされるだけでなく、声優さんが普段言わないようなことを言わせて遊んだり、僕たちが想像もしないような使い方も出てくると思います。
一過性のブームになってしまう恐れもあるので、より注目を集めるのであれば、この技術を使ったコンテンツをプロのチームが作ってみるのもありですよね。例えば、架空の声優ユニットのようなものを作り、注目が集まったタイミングで実は音声変換AIでしたとオープンにすれば、驚きとともに、より幅広い層に注目してもらえるでしょう。運用次第で市場規模は100億円単位になり、世界にも評価される技術だと思うので、うまく展開して欲しいなという思いも、正直に言えばあります。
岩朝 確かに仰る通り、アニメ会社やゲーム会社などのプロユース向けにコンテンツ力を見せると技術の高さは伝わりやいですね。今後の展開方法としては非常に貴重なアドバイスをいただいた感覚です。ありがとうございます。
志倉 ただ、開発者としては早くユーザーの率直な意見を聞きたいでしょうね(笑)
加茂 そうですね。DeNAが運営するライブコミュニケーションアプリ「Pococha(ポコチャ)」のようにたくさんのユーザーに使ってもらうことが、サービスローンチのゴールにあります。広く公開してユースケースを作り、アラを埋める形で進化させていければとも考えています。当然最初は、厳しい声もいただくでしょうが、意見をいただくほどチャレンジするべきポイントが明確になりますので。まずはどんなことができるのかを体験してほしいですね。
志倉 今後の展開として、七声ニーナ以外のキャラクターの投入は予定していないのですか? 最初は注目を集めて多くの人が使うと思うんですが、みんな同じ声なので、そのうち見慣れてしまって「またか」とユーザーが醒めてしまうことも、懸念しています。明確なアナウンスは出さないまでも、そのような準備があることをユーザーにも伝えて、今後の展開に奥行きを持たせてほしいですね。同時に、七声ニーナの遊び方についても、DeNAさんから提案する必要があると思います。これは、厳密に定めるとユーザーのアイデアを縛ってしまうので、ふわっとした形で構いませんが。
ちなみに、キャラクターのコンテンツ化という形で一つの答えを出したのが、ネギを持ったツインテールの某バーチャル・シンガーですよね(笑)。あれは声が一種類しかない性質を逆手に取って、世界クラスのコンテンツに成長しました。
岩朝 キャラクターの展開については、将来的には考えていきたいです。今回は10代の女の子ですが、イケボなおじいさんとか、真面目そうな女性など、ニーズはいくつもあるので、きちんとユーザーの声をキャッチアップしていけたらと。もちろん、悪用されないような工夫だったりといった、新たな技術に伴うリスクのコントロール方法を考えていく事も両輪だと思っています。
七声ニーナが日本のクリエイティビティ活性化の分水嶺に
志倉 今回七声ニーナがトライアルとして公開されますが、開発者のDeNAさんとしては、どのように広がって欲しいと思っていますか?
岩朝 まずは、七声ニーナで自分の声がここまで変わるのかということを純粋に体験してほしいですね。自分の声が女の子に変わるのは新鮮な体験だと思います。あとは私のように、自分の声が苦手で、SNSや動画サービス等での発信を躊躇していた人の枷が取れればいいなと思っています。七声ニーナの登場を機に、声によるコミュニケーションをより楽しめるようになったり、曲や動画を作って配信してみようと思ってくれたりすると嬉しいです。
加茂 岩朝と似ていますが、自分の声が変わるのは結構衝撃的です。実際に使ってみてテンションが上がったら、自分に何ができるのか想像を膨らませてもらって、ぜひSNS等で率直な感想や意見を発信していただきたいです。
志倉 僕は、七声ニーナが日本のクリエイティブ力を上げる転機になるかもしれないと感じました。昔は、プロユースのツールや機材を使った幅広い作品が生まれていましたが、今はスマホ一台で撮影や編集、テロップ入れなど、大抵なんでもできてしまいます。逆に言えば、スマホで実現できる範囲でしかクリエイティビティが発揮されていない時代になっている点は、とても危惧しています。現在はコンテンツがどんどん量産される時代になってきましたが、実はクオリティの高いものがあまり生産されなくなってきてしまった。つまり、実際はクリエイティブなものがどんどんシュリンクしているんですね。
それが七声ニーナのような技術開発の登場により、新しいユースケースや情報発信のアイデアが生まれれば、日本のクリエイティビティが再び活性化するかもしれません。多くのユーザーに長く愛される技術になるか、七声ニーナとDeNAさんの今後の展開に大いに注目したいと思います。
七声ニーナの登場は、日本クリエイティビティが再び活性化するかの分水嶺になると話す志倉氏。5月12日にトライアル公開される七声ニーナは、ブラウザーから手軽に使えるので、ぜひこのまま下のURLから試してほしい。岩朝氏や加茂氏も話す通り、自分の声がリアルタイムで変わる体験には純粋に驚くだろう。
©DeNA