AIを用い、声の分離を高精度に

「AirPods Proの“会話を検知”だけじゃ不十分」──ワシントン大学が凝視するだけで相手の声を抽出する新技術

2024年06月16日 17時00分更新

文● 佐々木喜洋　編集●ASCII

　アップルは先日開催した“WWDC24”で、AirPods Proの通話品質をより明瞭にするために「声を分離」機能が追加すると発表した。この機能により、騒々しい場所や風が強い場所でも話し手の声がより明瞭に聞こえるようになるという。

　声を分離機能についての詳細は定かではないが、同様に対話相手の声をより良く聴くための機能という点では、最近ワシントン大学で面白い研究成果が発表されている。それは5月に公開された「AIヘッドホン」と呼ばれるターゲットスピーチヒアリングシステム（Target Speech Hearing System）だ。

AIヘッドホン／ターゲットスピーチヒアリングシステム

アップルの技術ではユーザーにとっては不十分

　ワシントン大学のニュースリリースではAirPods Proの「会話を検知」機能を例に挙げ、ユーザーは誰を聴いているのか、いつ会話検知機能が起動するのかをほとんど制御できないと問題提起をしている。また、ANCヘッドホンでは“auditory blank slate”(ANCで静粛になった状態)は作れるが、特定話者の言葉だけを取り出すことは依然として難しいとしている。

　ワシントン大学の研究チームが開発したシステムは、ヘッドホンを装着したユーザーが3～5秒ほど対話相手を見るだけで相手を特定し、騒がしい場所で対話相手が動き回ったり、ヘッドホンを装着しているユーザーと向き合えなかったりしても、対話相手の声だけを聞けるシステムだ。

　同大のShyam Gollakota氏は「人はAIをチャットボットのようなものと考える傾向があるが、このプロジェクトではヘッドホンを装着したユーザーの聴覚や知覚を修正するためにAIを使用している」と語っている。

　システムを使用するには、「ターゲットスピーチヒアリング」システムを搭載したマイク内蔵ヘッドホンを装着したユーザーが、対話相手に向きながらボタンをタップすることで機能を起動する。どの方向に向いているかは左右に届く声の誤差が16度以内であるということを判別して話者を特定する。

　そして、その対話相手の声をコンピューターで機械学習することでその対話相手の声に「ロックオン」することができる。一度ロックされるとその対話相手が動いていてもその話者の言葉だけを聴くことができる。聴く時間が長ければ長いほど学習効果が高いという。

　写真はヘッドフォンシステムのプロトタイプで、バイノーラル・マイクロフォンを市販のノイズキャンセリングヘッドフォンに取り付けたものである。

　効果としてはこのシステムを21人の被験者にテストしたところ、登録された話者の声の明瞭度は標準の音声に比べて平均で2倍近く高く評価されたという。

　なおこのデバイスに用いられたソースコードは他でも使えるようにGitHubに公開されている。このシステムは将来的にはイヤホンや補聴器にも拡張するということだ。

■関連サイト

ツイートする

カテゴリートップへ