このページの本文へ

「覚醒プロジェクト」PMに聞く

「粗削りでも、飛び抜けたAI研究に期待」同志社大学・井本桂右准教授

2023年10月10日 09時00分更新

文● 松田 優

  • この記事をはてなブックマークに追加
  • 本文印刷

 産業技術総合研究所(産総研)は2023年、若手AI研究者の育成を支援する覚醒プロジェクトを立ち上げた。35歳未満の若手研究者を対象に独創的な研究テーマを募集し、採択された研究者には研究資金や計算資源、プロジェクトマネージャー(PM)による助言などの支援を提供する。応募は10月13日まで、同プロジェクトのサイトで受付中だ。
 ホットなAI分野で先端を走るプロジェクトマネージャーたちは、「覚醒」にどのような研究者を求めているのか? PMの一人で、AIによる環境音分析を専門とする同志社大学理工学部情報システムデザイン学科の井本桂右准教授に話を聞いた。

同志社大学理工学部 情報システムデザイン学科 准教授
井本桂右氏

2010年京都大学大学院都市環境工学専攻修士課程修了、NTTサイバースペース研究所入社。2017年総合研究大学院大学複合科学研究科博士課程修了、博士(情報学)取得。2017年より立命館大学助教、2020年より同志社大学准教授、現在に至る。機械学習および信号処理を用いた環境音認識や合成技術を専門とし、聴覚ロボットやメディアコンテンツの自動生成の実現を目指している。

「音」分野でも進む生成AIの研究

——井本先生のご専門は「AIによる環境音分析」とのことですが、音の分野に関してAIでは現在、どのようなことができるのでしょうか。
 

井本 まず、AppleのSiriやGoogleアシスタントのような人の声を認識するサービスが普及していることからも分かるように、「音声認識」についてはすでに技術的に成熟しています。また、音楽を認識して譜面を自動的に書き起こしたり、音楽のジャンルを推定したりする技術についてもだいぶ実用化が進んでいます。

 このような人の声や音楽だけでなく、ドアをノックする音、車のクラクションなど、音にはさまざまな種類の「環境音」があります。視覚は範囲が限られますが、音は視覚に映らない出来事を把握することができ、生活する上でとても重要な要素なのです。

 私は、そうした環境音に関する情報を人工知能(AI)で分析して役立てる研究しています。具体的な応用例を挙げると、聴覚障害を持っている方の補助や、投稿型動画サイトの自動タグ付け機能などがあります。投稿型動画サイトでは、動画の投稿者が自分でタグを付けることができます。そのタグを手がかりに視聴者がキーワード検索して、観たい動画を探します。しかし、そうしたタグが付けられていない、まったく視聴されていない動画も大量に存在します。そこでAIを使って動画を分析し、自動的にタグ付けする技術を開発しています。

 音声や音楽だけでなく、あらゆる音を理解することは、実世界の理解につながります。私の研究室では、ほかにも聴覚ロボットや、五感で実世界を理解して動くロボットの実現を目指して開発を進めています。

 

——AIが音を理解し、実世界を理解するようになるとどのようなことが可能になるのでしょうか。

 

井本 具体的な応用例の1つに、産業機器の異音検知があります。工場などで稼働する産業機器はとても高価で、1台数億円の機械が完全に故障してしまうと、その数億円が無駄になってしまうかもしれません。ですが、故障する前に気づいて修理できれば、数千万円の出費で済む可能性がある。産業機器は安全のためにカバーで覆われている部分も多く、状態を目視で確認できないことがあります。そこで音によって、故障の予兆を把握するAIの研究が進んでいます。従来は技術者の「勘」に頼っていた部分ですが、熟練技術者が少なくなってきていることもあり、期待されている応用例の1つです。

 ちなみに、音の種類を当てることに関しては、かなり高い精度で実現されています。iPhoneをお持ちであれば、設定にある「アクセシビリティ」という項目を選んでみてください。「サウンド認識」という機能では、ドアのノック、サイレン、犬の鳴き声などの音を認識できます。

 私の研究では、音を活用して自動運転を高度化する技術の実現にも取り組んでいます。自動運転では通常、光学カメラやLiDARを使って道路や障害物を把握していますが、死角が多いことや、夜間、悪天候の場合に性能が低下しやすいという課題があります。

 光は壁に当たると、そこで情報が失われてしまいますが、音は壁にぶつかっても曲がったり、回り込んだりできます。救急車がサイレンを鳴らして近づいてくる場合、視覚的には確認できなくても、音を認識して確認できることがあります。音による周囲環境の把握技術は、視覚情報の弱点を補う技術として期待されています。

 

——最近では画像生成AIの進歩が話題になっていますが、音の生成・合成について現状どのようになっているのでしょうか。

 

井本 人の声でテキストを読み上げる音声合成についてはやはり古くからあります。一方、市場としてはややニッチですが、効果音や環境音を作成するAIの研究がここ数年で盛んになってきています。

 私の研究室でも、映画やゲームに差し込むような環境効果音をつくり、メディアコンテンツを生成する研究を始めています。例えば、漫画のオノマトペのような効果音を自動で生成するといった取り組みです。性能が高くなってくると、将来的には漫画を自動的にアニメに変換するようなこともできるかもしれません。

 ただ現時点では、本当に欲しい音が生成できるかというと難しく、クオリティの高い音や動画を生成するには、サウンドエンジニアリングなど従来通り専門家の手が必要となっている状況です。

 

同志社大学の井本桂右准教授(インタビューはオンラインで実施した)

やりたいことができる環境で、自由な研究を

 

——「覚醒プロジェクト」についてお尋ねしたいと思います。どのような方に応募してほしいですか。

 

井本 普段の環境ではなかなか思うような研究が実現できない人に参加してもらいたいですね。計算資源が足りなかったり、エキスパートの手が借りられなかったりといった理由で、やりたい研究が進められない人にはぜひ応募いただいて、「覚醒」で自由に研究してほしいと考えています。

音に関するAI研究の場合、画像や映像に比べるとそこまで膨大な計算資源は必要ないことが多いです。今回の「覚醒プロジェクト」で使用できる産総研の「ABCI(AI橋渡しクラウド)」があれば、やりたいことはほぼできると思います。

 

——最後に、応募を考えている方にメッセージをお願いします。

 

井本 応募の時点では多少粗削りであっても構わないと思います。それよりも「こんなことができたらいいのに」という思いの強さを大事にしたいです。小さくきれいにまとまっているよりは、尖っている人を歓迎します。自分なりのこだわりや飛び抜けたところがある方に、ぜひ応募してもらえるとうれしいですね。さまざまな方向性、長所を持った人が集まって、採択者同士で高め合いながら研究を進めたいと考えています。

覚醒プロジェクト概要

応募締切:2023 年 10 ⽉ 13⽇(金)23:59
募集内容:
以下の5つの分野に関する研究開発を提案してください。
・募集分野① 「空間の移動」
・募集分野② 「生産性」
・募集分野③ 「健康・医療・介護」
・募集分野④ 「安心・安全」
・募集分野⑤ 「その他の社会課題解決に資するテーマ」

募集対象:
高等専門学校専攻生、大学院生(学部生は対象外)、ポスドクなど、高専、大学、研究機関、企業等に所属する35歳未満の個人もしくはグループ(2023年4月1日時点)

応募⽅法:
公式サイトで応募を受け付けます。Webフォームに必要事項を記入のうえ、提案書や知的財産の確認書、所属組織の承諾書など、指定する必要書類をアップロードください。

研究開発支援:
採択された研究実施者には、以下の支援を行います。
・プロジェクトマネージャー(PM)の伴走・アドバイス
・1プロジェクトあたり300万円 を支援
・ABCI(AI橋渡しクラウド)等の産業技術総合研究所の共用施設の無償利用

覚醒プロジェクト公式サイト

カテゴリートップへ

ピックアップ