このページの本文へ

四本淑三の「ミュージック・ギークス!」 第34回

初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く

2010年08月29日 12時00分更新

文● 四本淑三

  • この記事をはてなブックマークに追加
  • 本文印刷

他のメーカーは写真だけど、うちはイラスト

―― つまりAquesTalkはパラメータに変換していると。

山崎 コーパスベースは波形そのままでパラメータ化しません。逆にパラメータ化すると、たとえば10個くらいの数値で波形を表現するんで、どうしても情報は欠落するんですね。本来持っている情報が、そこで失われてしまうんですけど。

―― 音源は容量を食う録音ファイルではなく、軽いベクトルデータのようなものだと考えていいですか?

山崎 そう考えてもらっていいです。データが持っているのは、スペクトラム包絡と呼ばれているもののパラメーターです。人の声に含まれるピッチ成分を取り除いたピークの部分をプロットしたもので、基本的にはフォルマントの山を想定しています。「か」のように時間的遷移の必要なものは、その遷移のデータも含んでいます。

AquesTalkは「変化していく声のかたち」をデータとして記録しているものという。だから軽い

スペクトラム包絡 : 時間軸上の波形を周波数軸上(スペクトラム)に変換した際の概形

―― パラメータ化するというのは、音を抽象的に表現するということだと思うんですが、実際のデータはどうなっているんですか?

山崎 すべてのデータは実際の音声を参考にしながら、自分で作っています。特徴を掴みながら似顔絵を描くみたいな感じですね。

―― 僕も大学の授業で学生全員のフォルマント分布を調べたことはあるんですけど、同じ発音でも全員、まったくパターンが違うんですね。

山崎 違いますね。同じ人でも毎回違うんですよ。普通に話をしていても、前後の関係で全然違っちゃう。何が正解なんてないんですよね。そこが一番難しいところですね。

―― たとえば昆虫や植物の図鑑なんかは、種の同定がしやすいように線画が必要なわけです。写真より絵のほうが特徴を分かりやすく示せるから。それに近いのかな?

山崎 そのアナロジーは面白いですね。他のメーカーさんは写真だけど、うちはイラストだよってことですね。

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン