このページの本文へ

前へ 1 2 3 4 5 6 7 次へ

音声認識ソフト大集合!

音声認識ソフト大集合!

2001年03月08日 16時07分更新

文● 編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

番外編II ~音声やハミングで曲検索できるカラオケシステム登場!~

 ここでは、身近になりつつある音声認識技術について紹介していこう。

★画期的!メロディを口ずさむとカラオケの曲検索ができる!

 カラオケで歌いたい曲があるのに、メロディラインは覚えていても曲名や歌手名が思い出せない~!! とお嘆きのあなたに朗報! 曲の頭やサビを問わず、どのフレーズでも数小節分(例「かごめ、かごめ、かごの中のとりは」まで)を歌えば、そのメロディラインに近い曲のタイトルを、膨大な曲リストの中から候補一覧で表示する“ハミング検索”機能と、曲タイトルとアーティスト名をしゃべって入力し検索する“音声入力”機能を搭載した、画期的なマシンが登場した。それがBIG ECHOでおなじみの第一興商が現在開発中の「デンモク」だ。

 「デンモク」には、口ずさんで曲検索を行う「歌って検索」、音声で曲名、歌手名を入力して検索する「しゃべって検索」のほか、歌った歌を12インチCD-Rに録音できる「CD録音サービス」(実際に焼くのは店の受付にある機械)、温泉情報やアミューズメント情報を表示する「エンタテインメント情報」の機能もある。

インターフェイスは、タッチパネルタイプの液晶モニタが付いたPCで、そこからつながる受話器を使って音声入力を行う(現在は開発途中なので変更される可能性はある)。

★「歌って検索」を使ってみよう!

 まずは、「歌って検索」から見ていくとしよう。

音符の形をしたキャラが左右に動いてメトロノーム代わりになる(受話器からはカチッカチッと音が聞こえる)ので、このリズムに合わせて、メロディを「タタタタ♪」と歌う。

 歌って検索を選ぶと、最初にテンポの早さを調整するバーが表示される。調整し終えて次に進むと、♪の形をしたキャラクターが左右に揺れながらメトロノームの役目を果たすので、このリズムに合わせて「タ・タ・タ・タ」とメロディを歌う。

すると、入力されたメロディに近いメロディを持つ曲タイトルが一覧表示される。この中に目的の曲があれば、そのタイトルにタッチするだけで、即予約して曲をセットできる。

 曲のデータの中から、入力されたメロディに近いフレーズを持つ曲タイトルが5曲まで候補として表示される、という具合だ。

 実はこの仕組み自体はこれまで紹介した音声認識技術とは異なり、日本電信電話(株)NTTサイバースペース研究所の開発した音楽検索技術「NTTサウンドコンパス」が使われている。

 ほとんどの人はハミングしたときに、楽譜どおりに歌えることはまずないし、一定の音程とテンポで歌い続けるのも難しい。しかし、それでは正しいテンポ、正しい音程の“元の曲”とはマッチしない。そこで、NTTサウンドコンパスでは、音声データの“特徴量”を検索キーに使っている。

 特徴量とは、たとえば直前の音と比べて何段高い(低い)音が何拍あるかといった具合にメロディの変化を集計して数値化したもので、直前の音との比較以外にも複数の方法でメロディの特徴を数値化している。

 利用者がメトロノームの音(キャラクター)に合わせてハミングした音声データからこの特徴量を抽出・計算して割り出す。  次に、あらかじめカラオケ用のMIDIデータから計算した特徴量が登録されているデータベースと比較して、類似した特徴量を持つ曲を候補一覧として並べるわけだ。

 メトロノームに合わせて歌うので、テンポが狂いがちな人でもある程度は一定の速度でハミングできるため、テンポずれによる検索率の低下を抑えている。

曲全体をデータベース化する際に、作成する音楽片のイメージ

 また、利用者が曲のどの部分から歌い始めてもいいように、1曲のメロディを、4拍ずつずらしながら16拍分ずつの音楽片に区切り、それから特徴量を算出してデータベースに登録している。こうすれば、たとえば「さいたーさいたーちゅーりっぷのはーなーがー」を「さいたーちゅーりっぷの……」と歌い出しても、ちゃんとヒットする。もちろん、16拍分がほとんど同じメロディもあるだろうから、“類似した”データは候補として表示される。こうした技術によって、自分にあったテンポで、覚えているところから歌い出しても、曲が探し出せるという仕組みなのだ。

 音痴な人ではどうかが気になるところだが、男女の声の違いなどキーの高さの差を吸収するために、検出する特徴量のひとつに“隣合う音の高さの推移”を利用しており、極端な音程ずれの部分は計算から除外するので、声が裏返ったところなどは無視され、さらに類似度計算によって、1、2カ所の音程ずれや音飛ばしがあっても上位にランクされるようになっているという。

 検索成功率は、メトロノームに合わせて歌うことに慣れれば、70~80%の確率で成功するということだ。また、曲自体にも特徴があるほうがヒットしやすいようだ。実際に松田聖子の「青い珊瑚礁」のサビの部分で挑戦したところ、ちゃんと曲候補の1位に表示された。

 利用者の歌い方によっても成功率はあがるので、メトロノームに合わせてリズムよく、「タタタタ♪」と歌おう。

★「しゃべって検索」を使う

 次に、音声認識システムを使った曲検索「しゃべって検索」を見てみよう。

まず、曲名と歌手名を入力。「もーにんぐむすめのらぶましーん」と言う。歌手によっては「もーむす」のように省略できる場合もある。
入力すると、ほとんど待たずに曲名と歌手名が表示される。これで「予約」といえば、登録できたことになり、あとは順番が回ってくるのを待つだけだ。

 こちらに使われている音声認識システムは、(株)アドバンスト・メディアが開発した「AmiVoice」だ。AmiVoiceは、(株)デジキューブが開発した、デジタルフォト(ブロマイド)や音楽ソフトの録音(MDダウンロード)販売、デジタルカメラのプリントサービスを行う衛星配信方式情報Kiosk端末「デジタルコンテンツターミナル」(DCT)でも利用されている。

 これまで紹介してきたPC用ソフトと異なり、不特定多数の人がすぐに使えるようにエンロールが不要で、利用者のしゃべるスピードにも柔軟に対応できるという。

 その秘密は非常に強力な「音響モデル」の構築にあるということだ。認識精度比較のところで、『音声認識では、音の信号を声のパターンと比較して「あ」「い」「う」という語にする』と述べたが、この“声のパターン”というのが、数百~数千人の声を登録して「あ」「い」「う」などの声の特徴をモデル化した「音響モデル」というものになる。

 AmiVoiceではこの音響モデルに、話者依存性の少ない特徴量を使用し不特定多数の話者に対応させ、ノイズについても雑音や雑音下での発話データを使用してモデル内に雑音モデルを構築して除去したり、さらに広範囲の話者(年齢、性別、地方など)に対応するようなモデルを構築しているということだ。

 実際に使ってみたところ、7回のうち1回ほど検索されずに言い直すように促される場面もあったものの、カラオケボックスという場所柄大音量で音楽が流れているにもかかわらず、受話器を使って入力した音声でも、間違い(誤認識)なく目的の曲が表示された。

★そのほか「デンモク」の便利な機能

音痴な人などがどうしても曲を検索できなかった場合でも、タッチパネルだから安心だ。タッチパネルで表示されるコンテンツも充実している。

 タッチパネルを使っても曲検索ができるので、人前でハミングしたり曲名を言うのが恥ずかしいという人には、こちらがオススメ。しかも曲名やタイトルによる曲検索のほか、“結婚式”や“アニメ”などの「ジャンル別」や、自分の現在の年齢を入力して16歳の頃の紅白出場曲もしくはオリコン、発売された曲といった条件で曲を抽出できる「あの頃」といった機能も盛り込まれているので、いろいろと楽しめる端末だ。

 今後は、ユーザーの意見を取り入れつつ、各店舗に大きな負担とならないような端末価格を考慮していくということで、全国的にこのシステムが広まるのは、もうちょっと先のことになりそうだ。

 現在(2001年3月)は東京三鷹市の三鷹中央通り店で62室中19室に設置し、ロケーションテスト(実際に使用時の意見や感想を取り入れるための評価テスト)を行っている。とはいっても、使用に特別な許可がいるわけでなく、ごく普通に利用できるので、お近くの方はいってみてはいかがだろうか?

BIG ECHO三鷹中央通り店:TEL0422-40-2525
http://dkkaraoke.co.jp/

取材協力:
(株)第一興商 宣伝企画部 宣伝企画課係長 関森 英雄氏
日本電信電話(株)NTTサイバースペース研究所 情報ベースプロジェクト 情報ベース検索方式グループ 小島 明氏
(株)アドバンスト・メディア マーケティング本部 植村 恵子氏

前へ 1 2 3 4 5 6 7 次へ

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン