このページの本文へ

四本淑三の「ミュージック・ギークス!」第34回

初音ミクと「ゆっくり」の声、何が違う? アクエスト社に聞く

2010年08月29日 12時00分更新

文● 四本淑三

  • この記事をはてなブックマークに追加
  • 本文印刷

ゆっくりの中の人はAquesTalk

―― おそらくニコニコ動画を観ている層には、AquesTalkの音声は「ゆっくり」でおなじみだと思うんですけど。

山崎 ただSofTalkばっかり有名になっちゃってるなぁ、というのはありますけどね。

―― あ、やっぱり。

山崎 「ゆっくりの声はSofTalkの声だ」って言われちゃうと、えーっ、ちょっとなー、とは思いますけどね。SofTalkはAquesTalkのフロントエンドなので。



SofTalk : 無償頒布のテキスト読み上げソフト(公式サイト)。何度も言うように音源はAquesTalk

―― じゃあそこだけ太字で書いておきましょうか?

山崎 いやいやいや! これだけ有名にしていただいたのは、SofTalkのおかげです。

―― SofTalkのあの独特のイントネーションはAquesTalkの地声と思っていいんですか?

山崎 アクセントの記号を入れればちゃんと読むはずだし、AquesTalkはその機能を持っているんです。でも、そうじゃない方がいいらしいですね。あの独特の平坦な声が、あのキャラクターと合ってるし。

―― 音声合成方式の違いを教えてください。たとえばVOCALOIDと比べられますか?

山崎 VOCALOIDはきちんとサーベイしていないので分からないんですが、うちのは古典的な音声合成ですね。

―― 古典的というと、たとえばCHATRとか?

山崎 あっ、詳しいですね。CHATR系は今の主流で、コーパスベースとも言われています。HOYAさんのVoiceTextやエーアイさんが使われている技術は、あの流れなんですね。大量のデータベースの中から合成する文に合う、なるべく長い単位の音素を探し出してきて、くっつけるというやり方なんです。

CHATR : チャター。ATR音声翻訳通信研究所のNick Campbellが開発した音声合成技術。人の声を録音して音声データベースを作り、つなぎ合わせて音声を作成する

コーパスベース : corpus。自然言語処理のために大量の文章を蓄積した用例データベースのこと

VoiceText : Pentaxの同名商品として知られていたものと同じ。ペンタックス株式会社とHOYA株式会社の合併によりHOYA製品となった(公式サイト

エーアイ : 合成音声技術を開発している会社(公式サイト)。同社の技術「VOICELOID」を使った製品として、AHS「月読アイ」などが有名。

―― なるほど。小さな容量は実現できないですよね。

音声読み上げソフト「月読アイ」(1万5750円)

山崎 それに比べてうちのやり方は、非常に細かい単位で、たとえば「あ」「い」「う」「え」「お」のような音素を持っていて、それをつないで行くものです。

―― UTAUに近いんですか?

山崎 近いですね。最終的なシンセサイザーの方式は違っていて、UTAUは時間領域で処理されていると思うんですが、うちのは周波数領域で処理しています。どちらでやっても最終的には同じなんですが、周波数領域に移してパラメータに変換するかしないかが、ひとつのポイントになってくると思います。

時間領域 : オシロスコープで可視化できる波形のように、信号を時間軸で解析して扱うこと

周波数領域 : スペクトラムアナライザで可視化できる周波数分布のように、信号を周波数を軸に解析して扱うこと

この特集の記事

注目ニュース

ASCII倶楽部

最新記事

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン