何が、いつ、どこで、どう鳴っているのか? 「究極の音認識AI」を目指す研究者。
たくさんの音に囲まれて生活している私たちは、「音」からさまざまな情報を得ている。例えば、道路を歩いていると背後から近づいてくる音で人や車の存在を認識して注意するし、波の音を聞けば近くに海があることがわかる。あるいは、工場で働く熟練工は異音から機器の不調に気づくこともできる。だが、人工知能(AI)は、まだそうではない。
グーグルの小泉悠馬が研究するのは、あらゆる音を機械で認識する「音環境認識技術」である。何が、いつ、どこで、どう鳴っているのか? を認識できる「究極の音認識AI」の開発を小泉は目指している。
すでに具体的な研究成果も上がっている。1つは、騒音下で雑音を抑制し、人間が聞き取りやすくなるようにする技術である。従来の手法では、雑音の低減と音質の劣化はトレードオフの関係にあり、雑音を抑えると本来聞きたい音まで聞き取りづらくなる問題があった。これに対し小泉は、機械学習の手法の1つである強化学習(Reinforcement learning)を取り入れ、音質を犠牲にせずに雑音を抑えることに成功した。
もう1つは、産業機器の故障などを示す音を検知する「異常音検知技術」の確立である。製造業の自動化には欠かせない技術だが、学習に必要な異常音のサンプルが極端に少なく、正確な検知が難しかった。小泉は、誤報率を最小化する新たな学習アルゴリズムを考案。少ないサンプルでも正確に検出できるようにした。また、異常音の公開データセットを構築したり、性能評価指標の策定や国際的なコンペティションを企画したりするなど、同技術の研究活性化にも一役買っている。
過去10年間、AIの世界では、主に画像認識に代表される「目」の分野の進展が注目されてきた。だが、AIの「耳」を育てることができれば、ロボットや自動運転、遠隔コミュニケーションなどの分野で新たな可能性が開く。人間の能力を超える「音の見える化」に取り組む小泉の研究への期待は大きい。
(元田光一)