メルマガはこちらから

PAGE
TOP

高速でテキストを音声に変換するニューラル音声合成システム「NeuraVoice2 β」開発

音声による情報処理を実現

 ThinkXは8月13日、テキストを高速に高品質な音声波形で読み上げる音声合成AIシステム「NeuraVoice2 β」を開発したと発表。

 同システムでは、リアルタイム性能を示す指標であるRTF(Real Time Factor)0.01~1.0で高速に動作するという。中間表現生成のためのエンコーダー/デコーダーにTransformerを活用しており、速度と合成品質を両立させる高い性能を実現した。

 現在、英語と日本語に対応している。ほぼ同一のアルゴリズムで多言語拡張が可能なため、中国語、韓国語、スペイン語などの言語にも対応予定。 日本語についてはデータセットの強化を進め、学習データを増やすことで合成品質が向上することから、より広範な語彙で自然な発話が可能としている。

 また、1000兆桁までの数字の正確な読み、上付き文字などの特殊な表記の読みが可能。そのほか発話速度や音高、強さの調節、ステミング(語幹)への変換、記号を読むかどうか、ストップワードを排除しキーワードのみ読み上げる、などの設定が可能。独自の学習データを用意することで、任意の話者の声や特定の語群を強化した音声を合成できる。

■関連サイト

「ASCII STARTUPウィークリーレビュー」配信のご案内

ASCII STARTUPでは、「ASCII STARTUPウィークリーレビュー」と題したメールマガジンにて、国内最先端のスタートアップ情報、イベントレポート、関連するエコシステム識者などの取材成果を毎週月曜に配信しています。興味がある方は、以下の登録フォームボタンをクリックいただき、メールアドレスの設定をお願いいたします。

合わせて読みたい編集者オススメ記事