佐々木喜洋のポータブルオーディオトレンド 第288回
AIを用い、声の分離を高精度に
「AirPods Proの“会話を検知”だけじゃ不十分」──ワシントン大学が凝視するだけで相手の声を抽出する新技術
2024年06月16日 17時00分更新
アップルは先日開催した“WWDC24”で、AirPods Proの通話品質をより明瞭にするために「声を分離」機能が追加すると発表した。この機能により、騒々しい場所や風が強い場所でも話し手の声がより明瞭に聞こえるようになるという。
声を分離機能についての詳細は定かではないが、同様に対話相手の声をより良く聴くための機能という点では、最近ワシントン大学で面白い研究成果が発表されている。それは5月に公開された「AIヘッドホン」と呼ばれるターゲットスピーチヒアリングシステム(Target Speech Hearing System)だ。
アップルの技術ではユーザーにとっては不十分
ワシントン大学のニュースリリースではAirPods Proの「会話を検知」機能を例に挙げ、ユーザーは誰を聴いているのか、いつ会話検知機能が起動するのかをほとんど制御できないと問題提起をしている。また、ANCヘッドホンでは“auditory blank slate”(ANCで静粛になった状態)は作れるが、特定話者の言葉だけを取り出すことは依然として難しいとしている。
ワシントン大学の研究チームが開発したシステムは、ヘッドホンを装着したユーザーが3~5秒ほど対話相手を見るだけで相手を特定し、騒がしい場所で対話相手が動き回ったり、ヘッドホンを装着しているユーザーと向き合えなかったりしても、対話相手の声だけを聞けるシステムだ。
同大のShyam Gollakota氏は「人はAIをチャットボットのようなものと考える傾向があるが、このプロジェクトではヘッドホンを装着したユーザーの聴覚や知覚を修正するためにAIを使用している」と語っている。
システムを使用するには、「ターゲットスピーチヒアリング」システムを搭載したマイク内蔵ヘッドホンを装着したユーザーが、対話相手に向きながらボタンをタップすることで機能を起動する。どの方向に向いているかは左右に届く声の誤差が16度以内であるということを判別して話者を特定する。
そして、その対話相手の声をコンピューターで機械学習することでその対話相手の声に「ロックオン」することができる。一度ロックされるとその対話相手が動いていてもその話者の言葉だけを聴くことができる。聴く時間が長ければ長いほど学習効果が高いという。
写真はヘッドフォンシステムのプロトタイプで、バイノーラル・マイクロフォンを市販のノイズキャンセリングヘッドフォンに取り付けたものである。
効果としてはこのシステムを21人の被験者にテストしたところ、登録された話者の声の明瞭度は標準の音声に比べて平均で2倍近く高く評価されたという。
なおこのデバイスに用いられたソースコードは他でも使えるようにGitHubに公開されている。このシステムは将来的にはイヤホンや補聴器にも拡張するということだ。
この連載の記事
-
第300回
AV
インド発の密閉型/静電式ヘッドホン? オーディオ勢力図の変化を感じた「INOX」 -
第299回
AV
夏のヘッドフォン祭 mini 2024レポート、突然のfinal新ヘッドホンに会場がわく! -
第298回
AV
ポタフェス2024冬の注目製品をチェック、佐々木喜洋 -
第297回
AV
なんか懐かしい気分、あなたのApple WatchをiPodにする「tinyPod」が登場 -
第296回
AV
逆相の音波で音漏れを防げる? 耳を塞がないヘッドホン「nwm ONE」──NTTソノリティ -
第295回
AV
NUARLのMEMS搭載完全ワイヤレス「Inovatör」(旧X878)の秘密とは? -
第294回
AV
AirPodsで使用者の動きからBPMを認識、それを何かに応用できる特許 -
第293回
AV
次世代AirPodsにはカメラが付くらしい、じゃあ何に使う?(ヒント:Vision Pro) -
第292回
AV
OTOTEN発、LinkPlayの多機能ネット再生機「WiiM」とSHANLINGの「EC Smart」を聴く -
第291回
AV
ビクターの新機軸、シルク配合振動板の魅力とは? HA-FX550Tを聴く -
第290回
AV
HDTracksがMQA技術を使ったストリーミング配信開始へ - この連載の一覧へ