音声生成技術と言えばヤマハの「ボーカロイド」などが思い浮かびますが、今年大きな話題となったのが、4月に公開された中国製と思われる「RVC(Retrieval-based Voice Changer)」。RVCが画期的だったのは、2〜10秒くらいの音声を50パターンほど作れば学習ができてしまうこと。しかもクオリティが非常に高いということで、自分で音声を学習させてモデルを作るのがブームになり、そこから日本でも「音声販売」市場が急速に立ち上がりかけています。
自分の声を「音声モデル」として販売するマーケットの登場
たとえばピクシブの創作物の総合販売サイト「BOOTH」で検索すると、販売されているRVC用の学習済み音声モデルが約130件登録されています。たとえば「解説・実況・朗読向け」として音声を公開していたり、歌声対応も公開していたり。販売値段は、無料から数千円と幅がありますが、今のところBOOTHで販売されている音源は基本的にアマチュア的な傾向が高いようです。声優を目指している方が、二次創作として使ってほしいという目的で公開されている人もいるようです。特に、バーチャルYouTuberやVRChatなどで、自分の音声を変えたいというニーズがあったことがこうした市場の登場の背景になっています。
精度の高い音声データさえきちんとそろえることができれば、数時間の学習プロセスで学習データを作り出すことができるわけです。
この連載の記事
-
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは -
第77回
AI
画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に -
第76回
AI
「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」 -
第75回
AI
商業漫画にAIが使われるようになってきた -
第74回
AI
AIバブル崩壊をめぐって - この連載の一覧へ