このページの本文へ

超高速な日本語音声生成モデルを開発

NABLAS株式会社
2024年08月13日

  • この記事をはてなブックマークに追加
  • 本文印刷

NABLAS株式会社
数秒のデータから日本語の音声生成を実現




AI総合研究所として活動するNABLAS株式会社 (本社 : 東京都文京区本郷、 代表取締役 所長 : 中山 浩太郎、 以下「当社」)は、Google社が開発した音声生成モデル「SoundStorm」の構造をベースとして、日本語に対応した超高速な音声生成モデルを開発しました。本モデルは、数秒のデータを用いて瞬時に日本語の音声生成が可能です。当社独自の日本語データセットを用いてモデルの学習を行い、自然な日本語での音声生成を実現しました。本技術により将来的には医療分野における発話困難者への支援や、カスタマーサポートにおける感情的な音声のリアルタイムな声色調整、エンターテインメント分野での音声生成活用など幅広い分野での応用が期待できます。

▼生成された音声データはこちらで試聴いただけます。
https://www.nablas.com/post/japanese-voice-synthesis

■「SoundStorm」について
Google社が開発した、最先端の音声生成モデルです。従来の音声生成モデルから飛躍的に性能が向上し、高速且つ高品質な音声生成が可能で、3秒程度のオリジナル音声データから本物のような音声をわずか0.5秒の速さで生成します。リアルタイムでの音声生成も可能で、単純な音声生成だけでなく、テキストの読み上げ、対話システム等の応用が期待されている最先端の音声生成モデルです。モデルには以下の特徴があります。

・3秒程度の音声データからリアルな音声生成が可能
・わずか0.5秒で30秒程の音声生成が可能
・数秒の対話音声データから、話者同士の声の抑揚や特徴を忠実に模した本物のような対話生成が可能

▼詳細
https://google-research.github.io/seanet/soundstorm/examples/

■日本語対応のモデルについて
SoundStormは現在、英語をベース言語として開発されており日本語での音声生成には未対応ですが、この度の当社の開発では、数秒のデータを用いた超高速での音声生成に対応した日本語モデルを開発しました。※対話生成には未対応。数秒の話者Aの音声データと、発話させたい内容を含む話者Bの音声データを基に、わずか0.5秒程の処理で話者Aの音声で話者Bの発話内容を生成するSpeech to Speechの音声生成が可能です。本技術を活用することにより、将来的には医療、エンターテイメント、メディア、カスタマーサポートなど幅広い分野での活用が期待できます。

〈想定される日本語音声生成モデルの活用シーン〉
・発話困難者への支援
発話に支援を必要とされる方へ、自身または任意の音声データを用い、発言したい内容を発話が矯正された音声で出力することで発話における障壁の解消へと繋がります。

・カスタマーサポートにおける心的負担の軽減
感情的な音声に対して感情を抑えた音声で出力することにより、受電側の心的負担を軽減することに繋がります。

・エンターテインメント分野における活用
メディアやSNSなどの配信活動において、任意の音声でリアルタイムに出力できることにより、コンテンツ制作のコストダウンや創作活動の幅を広げることに繋がります。



1.SoundStormの性能を維持
SoundStorm内部に構築されているConformerモデル(Google社発のテキストの全体的な文脈と局所的な文脈を同時にとらえることができる技術を搭載したモデル)の構造をベースとして開発を行っています。これにより、音声生成のクオリティやスピードを維持した日本語対応のモデルを実現しています。



2.SoundStormを上回る音声品質や生成音声の類似度
出力される音声の品質に関わるオーディオコーデックにおいて、当社では日本語での音声生成に適したオーディオコーデックを用いてモデル開発を行いました。その結果、SoundStormが出力する音声品質(不自然さ、ノイズなど)や生成音声の類似度スコアよりも、当社開発のモデルがわずかに上回る結果を得ています。

3.日本語に特化した音声生成モデル
この度の開発モデルは、当社独自で処理を行った日本語音声データセットだけで学習した日本語特化の音声生成モデルです。データセットには、日本語音声コーパスから取得したデータに対し、人の声だけのデータとなるよう背景の騒音や音を除去する処理を行い、よりクオリティの高い日本語音声の生成を実現しました。



■今後の展望
音声生成技術は様々な分野での活用が期待される技術です。この度の日本語に対応した音声生成モデルの開発だけでなく、音声変換や、テキストの読み上げ、リアルタイムでの対話翻訳など、日本での音声生成技術の活用がより活発化するよう、引き続き技術開発を進めてまいります。また、それら生成技術の悪用防止や検出技術の開発にも引き続き取り組んで参ります。

■お問い合わせ
NABLASの音声生成に関するお問い合わせは以下フォームからお気軽にご相談ください。
https://www.nablas.com/contact

■NABLAS株式会社について
当社は東大発のベンチャーであり、AI人材教育・育成機関、そして最先端のAI技術、特にDeep Learning技術を活用したソリューションを提供するAI総合研究所です。AI人材育成事業では、東京大学で開発したAI人材教育コンテンツと当社でアップデートしたコンテンツを学習環境iLect Systemと共に、AI人材育成サービスとして提供しています。AIコンサル・R&D事業では、AI技術の導入・研究・開発について技術面でのコンサルティング業務を展開し、クライアントの状況に応じてAI技術の導入・開発など技術面でのサービス提供を行っています。社会の不確実性が高まり、ますます未来の予測が難しくなる中で、会社のミッションとして「Discover the gradients, Towards the future」に一層コミットしていきます。

■会社概要
社名:NABLAS株式会社
代表者:代表取締役 所長 中山 浩太郎
本社:東京都文京区本郷6-17-9 本郷綱ビル1F
設立:2017年3月
事業内容:AI人材育成事業/コンサルティング/研究開発
URL:https://nablas.com
お問い合わせ先:pr@nablas.com(広報窓口)



カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

1
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 タブレットPC 第7世代 Core m3 メモリ4GB SSD128GB Windows11 Office2019搭載 1920×1280 高精細液晶 LTE対応 無線LAN タッチペン付属 カメラ搭載 初期設定済み
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 タブレットPC 第7世代 Core m3 メモリ4GB SSD128GB Windows11 Office2019搭載 1920×1280 高精細液晶 LTE対応 無線LAN タッチペン付属 カメラ搭載 初期設定済み
¥9,999
2
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥35,129
3
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - シルバー
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - シルバー
¥177,333
4
【整備済み品】ノートパソコン N E C Versapro-VKシリーズ core i3 第8世代/ノートPC/Webカメラ内蔵/Windows11/MS & Office2019/メモリ4GB/SSD128GB/DVD/15.6インチ/HDMI/Bluetooth/wifi/マウス付属/初期設定不要/初心者向け(i3-8/SSD 128GB)
【整備済み品】ノートパソコン N E C Versapro-VKシリーズ core i3 第8世代/ノートPC/Webカメラ内蔵/Windows11/MS & Office2019/メモリ4GB/SSD128GB/DVD/15.6インチ/HDMI/Bluetooth/wifi/マウス付属/初期設定不要/初心者向け(i3-8/SSD 128GB)
¥14,850
5
【整備済み品】NEC ノートパソコン VKM16/VKT16 15.6型 第8世代Core i5-8265U(最大動作3.9GHz) /Windows11 Pro/MS Office2019/WIFI内蔵/Webカメラ/DVD-ROM/Bluetooth/HDMI/Type-C(テンキー非搭載/Corei5-8265U, メモリ16GB,SSD512GB)
【整備済み品】NEC ノートパソコン VKM16/VKT16 15.6型 第8世代Core i5-8265U(最大動作3.9GHz) /Windows11 Pro/MS Office2019/WIFI内蔵/Webカメラ/DVD-ROM/Bluetooth/HDMI/Type-C(テンキー非搭載/Corei5-8265U, メモリ16GB,SSD512GB)
¥34,800

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,284
2
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,080
3
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
4
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
5
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,645
6
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
7
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
¥743
8
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ホワイト T-K6A-2630WH
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ホワイト T-K6A-2630WH
¥1,690
9
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
¥1,040
10
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,599

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン