画像クレジット:Stephanie Arnett/MITTR | Getty, Envato
人間は騒がしい環境の中でも、特定の音を選んで聞き取ることができる。ニューラル・ネットワークを用いることで、それを可能にするシステムが開発された。
未来のノイズキャンセリング・ヘッドフォンは、赤ちゃんの泣き声、鳥のさえずり、アラーム音など、ユーザーが聞きたい特定の音を選べるようになるかもしれない。
これを実現するセマンティック・ヒアリングと呼ばれるテクノロジーは、よりスマートな補聴器やイヤホン実現への道を開く可能性がある。そうした機器が実現すれば、装着者は、ある音を除去し、別の音を増幅することが可能になる。
ワシントン大学の研究チームが開発したシステムはまだ試作段階だが、市販のノイズキャンセリング・ヘッドフォンをスマホのアプリに接続することで機能する。ノイズを打ち消すために使用されるヘッドフォンの内蔵マイクは、このシステムでは装着者の周囲環境の音を検出する目的でも使われる。マイクが拾った音はアプリ上で動いているニューラル・ネットワークに取り込まれ、ユーザーの好みに応じて、特定の音がリアルタイムで増幅または抑制される。このシステムは、10月29日から11月1日にかけて開催された「ユーザー・インターフェイス・ソフトウェア・テクノロジー(UIST)に関するACMシンポジウム」で発表された。
研究チームは、オンラインのデータ・セットから得た何千もの音声サンプルと、さまざまな騒音環境から収集した音でニューラル・ネットワークを訓練した。そして、雷雨、トイレの水を流す音、ガラスが割れる音など、20の日常的な音を認識するように学習させた。
9人の実験参加者が、オフィス、公園、通りを歩き回ってこのシステムをテストしたところ、訓練を受けていない状況でも、音を上手く消したり増幅したりできることが分かった。しかし、人間の話し声を、BGM、特にラップミュージックから分離することは、あまりうまくいかなかった。
研究者らは長い間、「カクテルパーティー問題」を解決しようとしてきた。つまり、人間にできるように、騒がしい部屋の中でコンピューターが1つの声を聞き分けられるようにしようということだ。NTTコミュニケーション科学基礎研究所(京都市)の上席特別研究員で、音声強調と認識を研究しているマルク・デルクロワは、この新しい方法は大きな前進であり、このテクノロジーの可能性を示すものだと言う(同研究員はこのプロジェクトには参加していない)。
「このような成果は、この分野にとって非常に有益です」とデルクロワ研究員は言う。「似たようなアイデアは、特に音声分離の分野ではありましたが、完全なリアルタイム・バイノーラル・ターゲット・サウンド抽出システムを提案したのは、この研究チームが初めてです」。
「今日のノイズキャンセリング・ヘッドセットには、ノイズキャンセリングがオンになっていても音楽を再生できる機能があります」と、この研究プロジェクトに携わったワシントン大学のシャム・ゴラコタ助教授は言う。「音楽を再生する代わりに、聞き手に関心のある実際の音を、機械学習アルゴリズムを用いて環境から抽出して再生しているのです」。
ゴラコタ助教授は、このテクノロジーが難聴者の助けになる可能性に期待を寄せている。騒がしい環境では、補聴器を使ってもうまく聞き取れないことがある。「聴覚の強化を通じて、インテリジェント・ヒアラブルの未来を創造するまたとない機会です」と、同助教授は言う。
聞こえるものと聞こえないものをより選択できるようになれば、仕事で集中的な聞き取りが必要な人々にも恩恵をもたらすかもしれない。医療、軍事、エンジニアリングの専門家や、コミュニケーションを取れるようにしながらも聴覚を保護したい工場や建設現場の作業員などだ。
この種のシステムにより、私たちは初めて、良くも悪くも、自分たちを取り巻く音をある程度コントロールできるようになるかもしれないと語るのは、オハイオ州マイアミ大学のメディアおよびコミュニケーションが専門の准教授で、『Hush: Media and Sonic Self-Control(ハッシュ:メディア・アンド・ソニック・セルフコントロール)』(未邦訳)の著者であるマック・ヘイグッドだ(ヘイグッド准教授はこのプロジェクトには携わっていない)。
「夢のようです。人々が長い間このことを夢に描いているのを私は見てきました」と、ヘイグッド准教授は言う。「私たちは基本的に、その音を聞きたいか聞きたくないか、チェックマークを入れるようになっています。そして、このように体験を狭めることは本当に有益になることがあるかもしれません。本当に必要なことであり、実際により良いコミュニケーションの促進に役立つ可能性があります」。
しかしながら、私たちがコントロールや選択をするときはいつもセレンディピティ(幸せな偶然)を排除しているのだ、ともヘイグッド准教授は言う。「私たちは、聞きたいこと、聞きたくないことをあらかじめ決めています。そしてそのことは、私たちが何かを聞いて本当に楽しかったかどうかを知る機会を奪っているのです」。