超高速な日本語音声生成モデルを開発

NABLAS株式会社
2024年08月13日

NABLAS株式会社
数秒のデータから日本語の音声生成を実現

AI総合研究所として活動するNABLAS株式会社 (本社 : 東京都文京区本郷、代表取締役所長 : 中山浩太郎、以下「当社」)は、Google社が開発した音声生成モデル「SoundStorm」の構造をベースとして、日本語に対応した超高速な音声生成モデルを開発しました。本モデルは、数秒のデータを用いて瞬時に日本語の音声生成が可能です。当社独自の日本語データセットを用いてモデルの学習を行い、自然な日本語での音声生成を実現しました。本技術により将来的には医療分野における発話困難者への支援や、カスタマーサポートにおける感情的な音声のリアルタイムな声色調整、エンターテインメント分野での音声生成活用など幅広い分野での応用が期待できます。

▼生成された音声データはこちらで試聴いただけます。
https://www.nablas.com/post/japanese-voice-synthesis

■「SoundStorm」について
Google社が開発した、最先端の音声生成モデルです。従来の音声生成モデルから飛躍的に性能が向上し、高速且つ高品質な音声生成が可能で、3秒程度のオリジナル音声データから本物のような音声をわずか0.5秒の速さで生成します。リアルタイムでの音声生成も可能で、単純な音声生成だけでなく、テキストの読み上げ、対話システム等の応用が期待されている最先端の音声生成モデルです。モデルには以下の特徴があります。

・3秒程度の音声データからリアルな音声生成が可能
・わずか0.5秒で30秒程の音声生成が可能
・数秒の対話音声データから、話者同士の声の抑揚や特徴を忠実に模した本物のような対話生成が可能

▼詳細
https://google-research.github.io/seanet/soundstorm/examples/

■日本語対応のモデルについて
SoundStormは現在、英語をベース言語として開発されており日本語での音声生成には未対応ですが、この度の当社の開発では、数秒のデータを用いた超高速での音声生成に対応した日本語モデルを開発しました。※対話生成には未対応。数秒の話者Aの音声データと、発話させたい内容を含む話者Bの音声データを基に、わずか0.5秒程の処理で話者Aの音声で話者Bの発話内容を生成するSpeech to Speechの音声生成が可能です。本技術を活用することにより、将来的には医療、エンターテイメント、メディア、カスタマーサポートなど幅広い分野での活用が期待できます。

〈想定される日本語音声生成モデルの活用シーン〉
・発話困難者への支援
発話に支援を必要とされる方へ、自身または任意の音声データを用い、発言したい内容を発話が矯正された音声で出力することで発話における障壁の解消へと繋がります。

・カスタマーサポートにおける心的負担の軽減
感情的な音声に対して感情を抑えた音声で出力することにより、受電側の心的負担を軽減することに繋がります。

・エンターテインメント分野における活用
メディアやSNSなどの配信活動において、任意の音声でリアルタイムに出力できることにより、コンテンツ制作のコストダウンや創作活動の幅を広げることに繋がります。

１.SoundStormの性能を維持
SoundStorm内部に構築されているConformerモデル（Google社発のテキストの全体的な文脈と局所的な文脈を同時にとらえることができる技術を搭載したモデル）の構造をベースとして開発を行っています。これにより、音声生成のクオリティやスピードを維持した日本語対応のモデルを実現しています。

２.SoundStormを上回る音声品質や生成音声の類似度
出力される音声の品質に関わるオーディオコーデックにおいて、当社では日本語での音声生成に適したオーディオコーデックを用いてモデル開発を行いました。その結果、SoundStormが出力する音声品質（不自然さ、ノイズなど）や生成音声の類似度スコアよりも、当社開発のモデルがわずかに上回る結果を得ています。

３.日本語に特化した音声生成モデル
この度の開発モデルは、当社独自で処理を行った日本語音声データセットだけで学習した日本語特化の音声生成モデルです。データセットには、日本語音声コーパスから取得したデータに対し、人の声だけのデータとなるよう背景の騒音や音を除去する処理を行い、よりクオリティの高い日本語音声の生成を実現しました。

■今後の展望
音声生成技術は様々な分野での活用が期待される技術です。この度の日本語に対応した音声生成モデルの開発だけでなく、音声変換や、テキストの読み上げ、リアルタイムでの対話翻訳など、日本での音声生成技術の活用がより活発化するよう、引き続き技術開発を進めてまいります。また、それら生成技術の悪用防止や検出技術の開発にも引き続き取り組んで参ります。

■お問い合わせ
NABLASの音声生成に関するお問い合わせは以下フォームからお気軽にご相談ください。
https://www.nablas.com/contact

■NABLAS株式会社について
当社は東大発のベンチャーであり、AI人材教育・育成機関、そして最先端のAI技術、特にDeep Learning技術を活用したソリューションを提供するAI総合研究所です。AI人材育成事業では、東京大学で開発したAI人材教育コンテンツと当社でアップデートしたコンテンツを学習環境iLect Systemと共に、AI人材育成サービスとして提供しています。AIコンサル・R&D事業では、AI技術の導入・研究・開発について技術面でのコンサルティング業務を展開し、クライアントの状況に応じてAI技術の導入・開発など技術面でのサービス提供を行っています。社会の不確実性が高まり、ますます未来の予測が難しくなる中で、会社のミッションとして「Discover the gradients, Towards the future」に一層コミットしていきます。

■会社概要
社名：NABLAS株式会社
代表者：代表取締役所長中山浩太郎
本社：東京都文京区本郷6-17-9 本郷綱ビル1F
設立：2017年3月
事業内容：AI人材育成事業/コンサルティング/研究開発
URL：https://nablas.com
お問い合わせ先：pr@nablas.com（広報窓口）