このページの本文へ

NTT、肉声と遜色のない女声を合成できる音声合成技術を開発

1999年12月21日 00時00分更新

文● 編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

日本電信電話(株)(NTT)は21日、任意の漢字かな混じりテキスト文を合成音声に変換する音声合成技術“FinalFluet”を開発したと発表した。これは、音声合成の単位として、“複合音韻連鎖単位(マルチフォームユニット)”を採用することにより、男声に比べ音声合成が難しいとされてきた女声の合成を、肉声と遜色のない自然さで実現できるという。また、合成音声の声質、発声速度、高低、イントネーション、感情的音声などの制御が可能。

合成音声は、音声合成単位の組み合わせとして作られる。子音-母音単位で結合点が発生する音声合成単位では、不連続が生じやすくなり、人工的で不自然な合成音声になるという。

複合音韻連鎖単位は、(1)母音の連続は1つの合成単位とし、接続は母音から子音に移る箇所とする(2)同じ音韻の系列においてもイントネーションの異なる複数の合成単位を用意する、という2つの条件に基づいて決定される。これにより、音声合成単位の結合点をより少なくすることが可能になったという。

同社では、この2つの条件を前提に、日本語データベースから約6万の音声合成単位を作成。同じ音でも文頭の声の上がる調子の部分と、文末の声の下がる部分など、音声の高低変化による違いが考慮されているという。

また、音声デザインツール『Sesign99』を搭載する。これは、GUIにより、合成音声の大きさ、声質、ピッチなどを変更できる。作成したイントネーションをライブラリ化することも可能。

音声合成単位とは、音声合成の元となる音声素片で、合成単位を結合することによって連続音声を生成する。

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン