メルマガはこちらから

PAGE
TOP

RTF0.1未満の速度でテキストを音声に変換するニューラル音声合成システム「NeuraVoice2 β」を開発

PR TIMES

ThinkX
音声データの活用が期待される中、ThinkX株式会社はRTF(Real Time Factor)0.01~0.1を切る、高速で自然な音声合成AIシステムNeuraVoice2 βを開発しました。

ThinkX株式会社(東京都港区六本木7丁目7-7 代表取締役 大塚一輝 TEL 03-5562-3466、旧6th Sense,Ltd)は2017年からニューラルネットワークによるEnd to End音声合成モデルを研究、バージョンアップを経て今回、テキストを高速に高品質な音声波形で読み上げる音声合成AIシステム「NeuraVoice2 β」を開発しました。



音声は、生命が陸に上がり聴覚、そして喉頭を発達させて以来、やがて主要なコミュニケーション手段として機能してきました。
コンピューティングの高度化に伴い、聴覚や音声による情報処理は、今後活用の幅が爆発的に広がることが予想され、大きなポテンシャルを秘めています。

先端情報テクノロジー(AI)企業ThinkX(旧6th Sense)はリアルタイム性能を示す指標であるRTF*(Real Time Factor)0.01~1.0で高速に動作するテキストからの音声合成システム「NeuraVoice2 β」を開発しました。




2015年より機械学習をはじめとする先端情報技術(AI)を研究開発してきたThinkX,Inc(旧6th Sense,Ltd)は2017年より大塚一輝と園部良介でニューラルネットによるEnd To End音声合成技術の研究を開始(園部はその後標準的な日本語音声合成データセットとなるJSUTを東京大学猿渡研究室で開発)、Bi-LSTM CRM Entity Recognitionによる音素時間予測モデルやフジサキモデル*2を基礎とする確率的イントネーション包絡予測モデルなどの研究開発を行なってきました。2018年にはリアルタイム性能を超えるEnd to End TTSの実現のため、独自にMel周波数スペクトルの中間表現を用いる並列波形シグナル生成手法を模索、NeuraVoice1では混合ガウスモデルによるAttentionメカニズムからのMel Spectrogram生成エンコーダー/デコーダーを開発してきましたが、期待する性能を実現できませんでした。

Phoneme Duration Prediction, Mel Spectrogram EncoderDecoder with Gaussian Mixture Attention Mechanism (K.Otsuka 2018ー19)
Stochastic F0 Contour Prediction model (K.Otsuka, R.Sonobe, Y. Tseng 2017ー2018)


今回のバージョン「NeuraVoice2 β」では中間表現生成のためのエンコーダー/デコーダーにTransformerが用いられ、速度と合成品質を両立させる高い性能を実現しました。

現在、英語と日本語に対応しており、多言語拡張が比較的容易なため、近々中国語、韓国語、スペイン語などの言語にも対応予定です。

特に日本語についてはデータセットの強化を進めており、学習データを増やすことで合成品質が向上することから、より広範な語彙で自然な発話が可能になります。
NeuraVoice2 β のフロー図


*NeuraVoice2 βの特徴
・RTF(Real Time Factor) 0.01~1.1未満*1の、高速で高品質な音声合成。
・1000兆桁までの数字の正確な読み、上付き文字等の特殊な表記の読みが可能。
・発話速度や音高、強さを調節可能。
・ステミング(語幹)への変換、記号を読むかどうか、ストップワードを排除しキーワードのみ読み上げる、など高度な設定が可能。
・ほぼ同一のアルゴリズムで複数言語への拡張が可能。
・独自の学習データを用意することで、任意の話者の声や特定の語群を強化した音声を合成可能。


本製品はThinkXで開発を進めている音声ガイドシステムCITYWALKの時期バージョンに用いられる他、特に通信環境の限定されるエッジデバイス等での状況に応じた高速な音声合成を必要とする顧客ニーズを中心に提供予定です。


*RTF(Real Time Factor) = 合成にかかる時間 / 合成音の時間長
で計算されるリアルタイム性能を示す指標。
1.0以下であるとき合成音の長さよりも合成にかかる時間が短くなり、リアルタイム性能に達したと見做すことができる。

*1
【GPU】
RTF (Real Time Factor) 平均 0.0227
機種: NVIDIA GTX1080Ti x 1
計測方法: 10のランダムに抽出した短長様々なテキストからのベンチマークテスト

【CPU】
RTF (Real Time Factor) 平均 1.1106
機種: Intel Core i9 2.9GHz
計測方法: 10のランダムに抽出した短長様々なテキストからのベンチマークテスト

*2
Fujisaki, H. and H. Sudo, 1971. 「A model for the generation of fundamental frequency contours of Japanese word accent.」 J. Acoust. Soc. Japan, 57: 445-452.
フレーズ制御メカニズムとアクセント制御メカニズムの重ね合わせとしてF0包絡を数理モデル化


【製品に関するお問い合わせ】
sales@thinkxinc.com
TEL: 03-5562-3466
ThinkX株式会社
URL: https://thinkxinc.com
所在地: 東京都港区六本木7-7-7 Tri-Seven Roppongi 8F
代表者名: 大塚一輝
事業内容: CITYWALK次世代音声案内システム(CITY VOICE OS)の開発