グーグルのLyraは3kbpsに落とした音の情報から、声を再生成
Opusは、最低で6kbpsという低いビットレートでも、音声の聞き取りができると言われている。音楽向けの品質とは言えないが、最近コロナ禍で注目されているテレワークやリモート会議などには有効だ。
このようにOpusは優れたコーデックだが、2月25日にグーグルが発表した「Lyra」という最新のコーデックはさらに衝撃的だ。Opusでは6kbpsが下限だったのをさらにLyraは3kbpsという超低ビットレートでも再生可能だという。詳細は下記のGoogleブログに記載されている。
グーグルはLyraを実現するにあたり、従来の手法に加えて、機械学習の手法を取り入れているとブログには書かれている。従来のように、音声の特徴を抜き出してサンプリングする方式では、低ビットレートになるほどロボット音声のようになるので、グーグルでは「Generative Model」(再作成法)という観点を取り入れた。つまり、機械学習でモデリングして、新しく信号を作り直すというアプローチを取ることによって、自然な音声を再現しているという。元の音声をベースにしながら、再生される音声は再生成するもののようだ。
このことから、Lyraはオーディオ向けのコーデックではなく、音声に特化したいわゆる「音声符号化」の分野の技術である。オーディオのような波形サンプリングと、人の声帯機構のモデリングによる再生成を組み合わせた「ハイブリッド符号化」という技術に属していると考えられる。音声の再生成は別名ボコーダーと言われる、というとピンとくる人がいるかもしれない。
このハイブリッド符号化は、携帯電話のVoLTEなどでもすでに取り入れられている。おそらく、人の声をモデリングする際に、機械学習を採用している点が、Lyraのポイントなのではないかと思う。この辺はいかにもグーグルらしいAI技術の応用だろう。しかも、このモデルは70もの言語に対応しているという。
また、計算コストがかかる方式だが、グーグルは独自手法で計算コストを簡易化し、ミドルクラスのスマートフォンでも対応可能にしたそうだ。
その結果は、上記ブログの「Comparison with Existing Codecs」という文中タイトルの部分に比較がある。実際にOpusの6kbpsと比べてみると、Opusの6kbpsではかなりギクシャクとして聞き取りにくい再生なのに対して、Lyraではオリジナルの肉声に近く、スムーズに音声が再生されることがわかる。
騒音環境下(Noisy Environment)の項で試しても、Opusの6kbpsではバックグラウンドノイズによってさらに聞き取りにくさが増しているのに対して、Lyraでは騒音の影響をさほど受けないことが分かる。グーグル独自の機械学習による音声品質向上の効果は大きいと言えるだろう。
さきにも触れたが、これはオーディオで使われているコーデックの分野とは、似て非なる音声符号化の分野のように思われる。おそらくは、携帯のような通話に特化したものだろう。そのため比較対象としてOpusを取り上げてはいるが、このままオーディオ分野に応用するとか、高ビットレートにも適用できる技術ではないように思われる。
一方で、コロナ禍で需要の高まるリモートカンファレンスやリモートワークには効果的だろう。
特に多数の言語でモデリングしているため、海外とのカンファレンスでは聞き取りやすさに大きな効果があるように思われる。このコロナ禍の中でも、技術が人々に福音をもたらしてくれるという意味で期待感は高いと言える。
この連載の記事
-
第300回
AV
インド発の密閉型/静電式ヘッドホン? オーディオ勢力図の変化を感じた「INOX」 -
第299回
AV
夏のヘッドフォン祭 mini 2024レポート、突然のfinal新ヘッドホンに会場がわく! -
第298回
AV
ポタフェス2024冬の注目製品をチェック、佐々木喜洋 -
第297回
AV
なんか懐かしい気分、あなたのApple WatchをiPodにする「tinyPod」が登場 -
第296回
AV
逆相の音波で音漏れを防げる? 耳を塞がないヘッドホン「nwm ONE」──NTTソノリティ -
第295回
AV
NUARLのMEMS搭載完全ワイヤレス「Inovatör」(旧X878)の秘密とは? -
第294回
AV
AirPodsで使用者の動きからBPMを認識、それを何かに応用できる特許 -
第293回
AV
次世代AirPodsにはカメラが付くらしい、じゃあ何に使う?(ヒント:Vision Pro) -
第292回
AV
OTOTEN発、LinkPlayの多機能ネット再生機「WiiM」とSHANLINGの「EC Smart」を聴く -
第291回
AV
ビクターの新機軸、シルク配合振動板の魅力とは? HA-FX550Tを聴く -
第290回
AV
HDTracksがMQA技術を使ったストリーミング配信開始へ - この連載の一覧へ