「生きているよう」を実現するためにかけた努力
MMDAgentは、構想からおよそ1年で作られたもの。特にこだわったのは「まるで生きているような感覚」というところ。反応速度、サイズ、モーション、声質といった要素の調整に、かなり労力がかかったようだ。
特に力が入ってると感じたのは、3Dキャラクターを動かすモーションプログラム。なんと、MMDのプログラムを「あえて使わず」、ウェブ上にある情報を参考に、独力でゼロから開発したのだという。
徳田教授と研究を供にする李晃伸准教授によれば、2つの画面にMMDAgentとMMDを並べ、まったく同じ挙動や表示になるように調整を繰り返したとのこと。「それってMMDの作者に協力を申し込めばよかったんじゃないですか?」という質問に答えた李教授が、「いやー、ちょっと火がついちゃって」と話していたのが印象的だった。
合成部を担当した大浦特任助教授によれば、初音ミクの声にあたる合成用音響モデルも、VOCALOID2のエンジンは使っていない。
インターネットから初音ミクの音声波形を30パターン集め、HTSの「声を真似る」手法を使って合成用音響モデルを学習させた。それをOpen JTalkに読み込ませることで、初音ミクそっくりの声でしゃべらせることができるようにしたのだという。
初音ミクがきっかけ、「役に立つことをやめた」
それにしてもなぜ、3DモデルとしてMMDと互換性を持たせようと思ったのか?
「音声認識や対話システムは、結構、実用レベルまで来ているんですが、なかなか認知されない。読み上げ音声の認識システムなど、役に立つ方面でがんばってきたんですが、普及が難しかった」(徳田教授)
そう悩んでいるとき、産業技術総合研究所(産総研)の後藤真孝氏からアドバイスを受け、初音ミクとそれを取り巻く熱狂的な状況を知った。以来、初音ミクについて勉強を開始し、2009年には楽譜から歌声を合成する「Sinsy」をリリース。
その後、ニコニコ動画でさまざまな作品が生まれてくるのを見て、ネットの力を実感したのだという(「最近では「VOCALOID聴き専ラジオ」も聴いているそうで)。
「ひとまず役に立つことをやめて、エンタテインメント方向に舵を切ったんです。万人に受け入れられるのではなく、熱狂的なサポーターがいればいいんじゃないか。ネットの力をお借りして、エンターテイメント性が高く、ユーザーを強く引き付けることのできる音声対話コンテンツを、ユーザー自身が楽しみながら作成できる仕組みを提供することで、音声認識や合成音声の技術普及のきっかけになればという思いです」(徳田教授)
賽はもうすぐ投げられる。ネットにいる「遊びの天才」たちは、MMDAgentをどう料理するのか? リリース以降の動向に注目だ。
この連載の記事
-
第4回
AV
Silverlightで5.1chサラウンド! SRSの新技術 -
第3回
スマホ
最新スマートフォンから未来技術までCEATECで見たケータイ -
第2回
スマホ
ケータイ向けの新放送!? マルチメディア放送とは? -
第1回
AV
3D一色!? CEATECで体験する最新テレビ -
AV
CEATEC JAPAN 2010レポート - この連載の一覧へ