このページの本文へ

超高速な日本語音声生成モデルを開発

NABLAS株式会社
2024年08月13日

  • この記事をはてなブックマークに追加
  • 本文印刷

NABLAS株式会社
数秒のデータから日本語の音声生成を実現




AI総合研究所として活動するNABLAS株式会社 (本社 : 東京都文京区本郷、 代表取締役 所長 : 中山 浩太郎、 以下「当社」)は、Google社が開発した音声生成モデル「SoundStorm」の構造をベースとして、日本語に対応した超高速な音声生成モデルを開発しました。本モデルは、数秒のデータを用いて瞬時に日本語の音声生成が可能です。当社独自の日本語データセットを用いてモデルの学習を行い、自然な日本語での音声生成を実現しました。本技術により将来的には医療分野における発話困難者への支援や、カスタマーサポートにおける感情的な音声のリアルタイムな声色調整、エンターテインメント分野での音声生成活用など幅広い分野での応用が期待できます。

▼生成された音声データはこちらで試聴いただけます。
https://www.nablas.com/post/japanese-voice-synthesis

■「SoundStorm」について
Google社が開発した、最先端の音声生成モデルです。従来の音声生成モデルから飛躍的に性能が向上し、高速且つ高品質な音声生成が可能で、3秒程度のオリジナル音声データから本物のような音声をわずか0.5秒の速さで生成します。リアルタイムでの音声生成も可能で、単純な音声生成だけでなく、テキストの読み上げ、対話システム等の応用が期待されている最先端の音声生成モデルです。モデルには以下の特徴があります。

・3秒程度の音声データからリアルな音声生成が可能
・わずか0.5秒で30秒程の音声生成が可能
・数秒の対話音声データから、話者同士の声の抑揚や特徴を忠実に模した本物のような対話生成が可能

▼詳細
https://google-research.github.io/seanet/soundstorm/examples/

■日本語対応のモデルについて
SoundStormは現在、英語をベース言語として開発されており日本語での音声生成には未対応ですが、この度の当社の開発では、数秒のデータを用いた超高速での音声生成に対応した日本語モデルを開発しました。※対話生成には未対応。数秒の話者Aの音声データと、発話させたい内容を含む話者Bの音声データを基に、わずか0.5秒程の処理で話者Aの音声で話者Bの発話内容を生成するSpeech to Speechの音声生成が可能です。本技術を活用することにより、将来的には医療、エンターテイメント、メディア、カスタマーサポートなど幅広い分野での活用が期待できます。

〈想定される日本語音声生成モデルの活用シーン〉
・発話困難者への支援
発話に支援を必要とされる方へ、自身または任意の音声データを用い、発言したい内容を発話が矯正された音声で出力することで発話における障壁の解消へと繋がります。

・カスタマーサポートにおける心的負担の軽減
感情的な音声に対して感情を抑えた音声で出力することにより、受電側の心的負担を軽減することに繋がります。

・エンターテインメント分野における活用
メディアやSNSなどの配信活動において、任意の音声でリアルタイムに出力できることにより、コンテンツ制作のコストダウンや創作活動の幅を広げることに繋がります。



1.SoundStormの性能を維持
SoundStorm内部に構築されているConformerモデル(Google社発のテキストの全体的な文脈と局所的な文脈を同時にとらえることができる技術を搭載したモデル)の構造をベースとして開発を行っています。これにより、音声生成のクオリティやスピードを維持した日本語対応のモデルを実現しています。



2.SoundStormを上回る音声品質や生成音声の類似度
出力される音声の品質に関わるオーディオコーデックにおいて、当社では日本語での音声生成に適したオーディオコーデックを用いてモデル開発を行いました。その結果、SoundStormが出力する音声品質(不自然さ、ノイズなど)や生成音声の類似度スコアよりも、当社開発のモデルがわずかに上回る結果を得ています。

3.日本語に特化した音声生成モデル
この度の開発モデルは、当社独自で処理を行った日本語音声データセットだけで学習した日本語特化の音声生成モデルです。データセットには、日本語音声コーパスから取得したデータに対し、人の声だけのデータとなるよう背景の騒音や音を除去する処理を行い、よりクオリティの高い日本語音声の生成を実現しました。



■今後の展望
音声生成技術は様々な分野での活用が期待される技術です。この度の日本語に対応した音声生成モデルの開発だけでなく、音声変換や、テキストの読み上げ、リアルタイムでの対話翻訳など、日本での音声生成技術の活用がより活発化するよう、引き続き技術開発を進めてまいります。また、それら生成技術の悪用防止や検出技術の開発にも引き続き取り組んで参ります。

■お問い合わせ
NABLASの音声生成に関するお問い合わせは以下フォームからお気軽にご相談ください。
https://www.nablas.com/contact

■NABLAS株式会社について
当社は東大発のベンチャーであり、AI人材教育・育成機関、そして最先端のAI技術、特にDeep Learning技術を活用したソリューションを提供するAI総合研究所です。AI人材育成事業では、東京大学で開発したAI人材教育コンテンツと当社でアップデートしたコンテンツを学習環境iLect Systemと共に、AI人材育成サービスとして提供しています。AIコンサル・R&D事業では、AI技術の導入・研究・開発について技術面でのコンサルティング業務を展開し、クライアントの状況に応じてAI技術の導入・開発など技術面でのサービス提供を行っています。社会の不確実性が高まり、ますます未来の予測が難しくなる中で、会社のミッションとして「Discover the gradients, Towards the future」に一層コミットしていきます。

■会社概要
社名:NABLAS株式会社
代表者:代表取締役 所長 中山 浩太郎
本社:東京都文京区本郷6-17-9 本郷綱ビル1F
設立:2017年3月
事業内容:AI人材育成事業/コンサルティング/研究開発
URL:https://nablas.com
お問い合わせ先:pr@nablas.com(広報窓口)



カテゴリートップへ

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
2
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
3
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
¥1,980
4
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥2,111
5
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
6
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥7,035
7
Verbatim バーベイタム 1回録画用 ブルーレイディスク BD-R 25GB 50枚+3枚増量パック インクジェットプリンタ対応 ホワイト 片面1層 1-6倍速
Verbatim バーベイタム 1回録画用 ブルーレイディスク BD-R 25GB 50枚+3枚増量パック インクジェットプリンタ対応 ホワイト 片面1層 1-6倍速
¥2,480
8
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
¥1,299
9
Amazon Kindle - 目に優しい、かさばらない、大きな画面で読みやすい、6週間持続バッテリー、6インチディスプレイ電子書籍リーダー、ブラック、16GB、広告なし
Amazon Kindle - 目に優しい、かさばらない、大きな画面で読みやすい、6週間持続バッテリー、6インチディスプレイ電子書籍リーダー、ブラック、16GB、広告なし
¥19,980
10
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,100

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン