このページの本文へ

東大発ベンチャー、超高速「日本語音声生成モデル」を開発グーグルのSoundStormをベースに

2024年08月13日 12時30分更新

文● 田口和裕　編集●ASCII

　東大発ベンチャーのNABLASは8月13日、グーグルが開発した音声生成モデル「SoundStorm」の構造をベースに、数秒のデータを用いて瞬時に日本語の音声生成が可能な「日本語対応音声生成モデル」を開発したことを発表した。

グーグルの音声合成AI「SoundStorm」

　グーグルが開発した最先端の音声生成モデルSoundStormは、わずか3秒程度のオリジナル音声データを元に、テキストプロンプトやサンプル音声データを渡すことで本物のような音声を短時間で生成できるモデルだが、日本語には対応していなかった。

SoundStormをベースに日本語データセットで学習

　上記のSondStormをベースにNABLASが今回開発した日本語対応音声生成モデルは、サンプルとなる数秒の話者Aの日本語音声データと、発話させたい内容を含む話者Bの日本語音声データを基に、話者Aの声質で話者Bの発話内容をわずか0.5秒で生成する「Speech to Speech」型の音声生成が可能となっている。

　同モデルの特徴としては、日本語の音韻体系や韻律パターンを正確に再現し、自然な日本語音声を生成できる点にある。開発にあたっては、SoundStorm内部に構築されているConformerモデルの構造をベースとしつつ、日本語特有の言語構造や音韻規則に対応するよう調整した。

　技術的には、日本語での音声生成に適したオーディオコーデックを用いてモデル開発をしている。その結果、日本語の音声品質や生成音声の類似度スコアにおいて、英語版SoundStormを上回る結果を得たという。

　日本語に特化した音声生成モデルを作るため、学習には独自で処理を行った日本語音声データセットだけを使用されている。このデータセットには、背景の騒音や音を除去する処理を施し、よりクオリティの高い日本語音声の生成を実現しているという。

将来的にはアニメの自動吹き替えも

　現時点での応用範囲としては、医療分野での発話困難者への支援、カスタマーサポートでの感情的な音声の変換、エンターテインメント分野での声質変換などが挙げられる。

　将来的には、アニメやゲームの吹き替え音声などでも、多様な声質や感情表現を持つ日本語音声をリアルタイムに生成できる可能性がある。

　NABLASは今後、SoundStormの他の機能も含め、日本語に特化した音声変換やテキストの読み上げ、リアルタイムでの対話翻訳など、さらなる技術開発を進め、同時に、これらの生成技術の悪用を防ぐための検出技術の開発にも取り組むとしている。

■関連サイト

ツイートする

カテゴリートップへ

AIオススメ記事

2024年12月09日

AI

画像生成AIの進化が早すぎる　2024年に起きたことまとめ
2024年12月09日

AI

人気の画像生成AIツール「ComfyUI」デスクトップアプリがめっちゃラク　初心者にオススメ
2024年12月24日

AI

動画生成AI、無料プランでも使い倒せば月200本作れます　サービス同士の違いも比較しました→Runway、Pika、Hailuo、Kling、Luma、Kaiber、PixVerse
2024年12月09日

AI

AI、人間超えた説　OpenAIの従業員が「AGIを達成した」との見方示す
2024年12月10日

AI

【速攻解説】OpenAI「Sora」の使い方　月額3000円で出来ること、出来ないこと
2024年12月02日

AI

イラストに強すぎる画像生成AIモデル　SDXL系「NoobAI-XL」の衝撃
2024年12月23日

AI

OpenAI「Sora」残念な離陸　中国勢が飛躍する動画生成AI
2024年12月09日

AI

X、AI「Grok」無料で試せるように　写真みたいな画像も生成できる
2024年10月21日

AI

もはや実写と間違えるレベル　動画生成AI「Runway」の進化がすごい
2024年11月25日

sponsored

今後のPCはAI対応が当たり前になる、それならエイサーのCopilot+ PCがいいーー「Swift 14 AI」で生産性アップ

ピックアップ

sponsored
MSI「MAG X870 TOMAHAWK WIFI」レビュー

Ryzen 7 9800X3Dで高性能ゲーミングPCを組みたいならX870マザーボードは耐久性能と程よい価格で選べば間違いなし
sponsored
店舗スタッフが自作パソコン完成まで徹底サポート

業界最安値級から2万円引き!? 普通に買うよりお得・手ブラでPCが組めるアプライドの自作イベント
sponsored
2004年から業界をリード！マウスコンピューターのゲーミングPCブランド「G TUNE」が20周年を迎えた

【今売れているゲーミングPCのスペックはコレ！】「G TUNE」で見る最新ゲーミングPCの最先端
sponsored
JN-IPS27G200F-PPをレビュー

約2.6万円のパープル200Hzゲーミングディスプレー、女性的にはアリ？盲牌でわかるボタンとは？
sponsored

黒くてデカいデスクトップパソコンは不要！在宅ワークこそエレガントに効率アップを狙える「Lenovo IdeaCentre Tower 14IRR9」だ
sponsored

いまゲーミングノートを選ぶなら“薄軽”が必須条件、Ryzen AI 9とRTX 4060搭載の最新「ROG Zephyrus G16」
sponsored
「HUAWEI WATCH GT 5 Pro」に無料アップデートで新機能！「HUAWEI WATCH D2」にも搭載！

より幅広い健康管理が実現！ファーウェイ製スマートウォッチに無料で加わる心電図（ECG）測定機能を試す
sponsored
CORSAIR「iCUE LINK TITAN RX RGB」をチェック

iCUE LINKで面倒な取り付けやRGB設定が超簡単、冷却性能もバッチリ高いCPUクーラーが3万円強！
sponsored
ASUSの新ケース「TUF Gaming GT502 Horizon」にCore Ultra 9 285Kを採用

あれもこれもASUS！新ピラーレスケースも渋カッコいいBTOPCのコダワリを聞く
sponsored
基調講演には総務省 CISOの山内智生氏が登壇、サイバー空間をめぐる脅威動向や政策を紹介

ランサム感染の実体験からMDR導入事例までが語られた「Canon Security Days 2024」
sponsored
「LEVEL-15FXA61-R7-RM4X」を試す、重さは2.26kg、144Hzにも対応

実家・ホテル・コタツでゲームしたいなら、Ryzen 7とRTX 4060のLEVEL∞15.6型ノートPC
sponsored
180Hz駆動でGTG0.5msのRAPID VAパネルを搭載、MSI「MAG 325CQRF QD E2」

ゲームの世界にいるみたい！没入プレイしたいなら大画面の湾曲ゲーミングディスプレーがおすすめ
sponsored
“ツールを入れただけ”じゃ、プロジェクト・タスク管理は回らない！

Backlogの利用をチーム内で定着させたい？初歩のノウハウをまとめます
sponsored
セキュリティログの分析／可視化「FortiAnalyzer」と、高度なAIアシスタント「FortiAI」

“アラート疲れ”で担当者がサイバー攻撃を見落とす！どうやったら防げた？
sponsored

狭い机でも縦置き／横置きどちらもOK！高性能な小型デスクトップパソコンでノートPC以上の作業効率アップを狙う
sponsored
ファーウェイ製スマートウォッチは、家族や知人、自分（!?）へのプレゼントにもピッタリ！

バッテリー長持ちのスマートウォッチで2025年こそ健康的な生活！クリスマスプレゼントに合う製品を紹介！
sponsored
JAPANNEXTの「JN-IB375C144UQR-H」をレビュー

144Hzで21：9の3840×1600ドット37.5型ウルトラワイドディスプレー、ゲームの没入感や仕事の効率アップがスゴイ
sponsored
ポータブルゲーミングスピーカー「TQ-PG300」

パイオニアの小型ゲーミングスピーカー、想像を超える没入感でめちゃくちゃ驚きなんですけど！
sponsored

ビデオカードなしで｢FFXIV: 黄金のレガシー｣の60fps超えが狙える!? 「AMD Ryzen 5 8600G」の実力を見た！