次々に新しいものが出てくるAI分野
日本の最新の研究状況は?
OpenAIが12月9日に一般向けに公開した「Sora」では、最長20秒の動画を生成できるようになった。Google、Appleほか各社も次々に新しい生成AIをリリースし、新たな機能を追加する一方、中国企業からも多種多様な生成AIが公開されている。
では日本はどうか?
我が国でも、すでに多くの企業がLLMを自社開発したり、サービスに実装したりしているが、実はそれらサービスレベルでの実装とは別に、研究開発の面でも、いま大きな進展が得られている。
産業技術総合研究所(産総研)人工知能研究センターでは、「共進化AI」をキーワードとして、人とAIが協調して問題解決に取り組み、その過程を通じて両者が共に向上していく社会の実現を目指している。そして2020年より、新エネルギー・産業技術総合開発機構(NEDO)の委託による「実世界に埋め込まれる人間中心の人工知能技術の研究開発」プロジェクトを実施してきた。
このプロジェクトでは、
・人と共に進化するAIシステムの基盤技術
・容易に構築・導入できるAI技術
の2つの主要なテーマにおいて、研究開発を行ってきた。いまの生成AIのベースにあるLLM(大規模言語モデル)のように容易に構築・導入ができ、そして人と入れ替わるのではなく、人と共に進化するAIという意図で、多様なAI群の大規模な研究・開発を行ってきたのだ。
説明可能なAIをさらに進めた
判断根拠図鑑
人と共に進化するAIシステムの基盤技術の開発においては、AIと人間の相互理解を深めることと、AIやロボットが実世界で人間と協調する場の構築を図ってきた。
そして相互理解を深める研究としては、例えば「判断根拠図鑑」の構築。説明可能なAI(Explainable AI:XAI)を一歩進めて、専門家の持つ知見を判断過程に反映する、かつAIの判断過程から専門家に新たな知識を得てもらうために、AIがどのように判断したのかを可視化した図鑑を作成する。病理画像診断の例でいえば、訓練済みAIが教師データから代表的な画像をクラスタリングして並べ、どのように観察したのかを表す図鑑を作成。病理医がこれを評価することで、双方の知識の向上を図れる。
人間と協調する場の構築を目指す研究では、環境全体を再現するデジタルツインや、人間の知識とAI・ロボットの目的や行動を融合するワールドモデル(世界モデル)の構築をベースとする。そのうえで、例えばロボットの視覚情報と環境中の物体の意味を、ニューラルネットワーク内で特徴表現として融合する技術を研究。他の部屋にあるノートPCを従来手法より効率的に探索できるロボット向け手法を開発した。
数式で生成した画像での学習で
高精度な基盤モデルを構築
容易に構築・導入できるAI技術の開発では、大量の学習データから基盤モデルを作り、それぞれの分野に実装する際には、各分野の実際のデータで追加学習することで、ゼロから大規模なデータで学習する必要はなく、容易に構築できるAIを目指す。これはLLMと、それをもとにした追加学習、といった構造と類似する。
例えば画像認識。今回の成果では、実画像ではなくシミュレーションで生成した画像(例では数式で生成したフラクタル画像)をもとに学習することで、実画像のデータ数や倫理・権利関係の課題、またラベルを付けるコストを不要とする技術が開発され、実画像を用いた学習済モデルと、同等もしくはそれ以上の高い精度がすでに得られている。
そして、開発した学習済モデルを、実装したい分野の少量データで追加学習することで、精度が高くかつ開発が容易なAIを提供できる。今回の例では、開発した画像基盤モデルに追加学習することで、専門医に匹敵する膀胱内視鏡診断支援AIを開発した。数式から生成したフラクタル画像と輪郭形状で学習した画像基盤モデルに、病変と正常な実際の膀胱内視鏡画像を学習させた結果、専門医に匹敵する精度が得られた。
産総研の最新AI研究の
展示+ピッチトーク
産総研が国内外の大学・研究機関、企業やその他公的機関とも連携・協働しながら大規模な研究開発を行ってきた、これらの「実世界に埋め込まれる人間中心の人工知能技術の研究開発」のプロジェクトが今回最終年度を迎えたことから、その成果を発表する最終成果報告会が開催される。
報告会では、上記の研究を含めた24種類の研究テーマの展示、およびピッチトークが開催され、多様な最新のAI研究事情を一気に把握することができる。
我が国のAI研究の最前線を見ることで、自身の研究に資する情報を得たい研究者や、新規事業・ビジネスのヒントを得たい企業担当者は、ぜひ参加してみてはいかがだろうか。
開催概要
開催日時: 2025年1月15日(水)12:30~17:35
開催場所: 東京国際交流館 プラザ平成(東京都江東区青海2−2−1)
主催: 国立研究開発法人 産業技術総合研究所 人工知能研究センター
共催: 国立研究開発法人 新エネルギー・産業技術総合開発機構
概要: 講演・ピッチトーク、24件の研究テーマの展示
参加費: 無料
備考: 対面での開催のみで、オンライン配信等はなし
参加申し込み: こちらのフォームから申し込み
講演等スケジュール:
12:30~ 受付開始
13:00~13:05 開会挨拶
産業技術総合研究所 情報・人間工学領域 領域長 田中 良夫氏
13:05~13:10 共催者挨拶
NEDO AI・ロボット部 部長 高田 和幸氏
13:10~13:40 プロジェクトリーダによる講演
産業技術総合研究所 情報・人間工学領域 フェロー 辻井 潤一氏
13:40~15:10 ピッチトーク(3分×24展示ブース)
15:10~17:25 ブース展示
17:25~17:35 閉会挨拶
産業技術総合研究所 人工知能研究センター センター長 片桐 恭弘氏
個別ブースの研究テーマ
タイトル | 概要 | |
---|---|---|
人と共に進化するAIシステムの基盤技術開発 | ||
1 | デジタルツインを活用した人とロボットの協働支援システム | 人とロボットが協調して業務を遂行する労働環境において、人の業務スキルを向上させ、かつ、ロボットの自律行動や人の支援行動を発展させることを目的とした、人とロボットのためのデジタルツインシステムを開発。具体例として、コンビニエンスストアでの従業員とサービスロボットの共同作業に焦点を当て、従業員の業務トレーニングと、ロボットの行動経験収集を同時に遂行できるシステムを構築している。実際に、バーチャルリアリティを活用したデジタルツインによる業務トレーニングを体験して頂くことができる。 |
2 | 人の知識を予測に含む人ロボット協働の深層予測学習 | 物や人、ロボットの状態を補助知識として利用するロボット学習技術と、人とロボットの協調作業に対する活用事例を紹介。この技術では、少数の実演から学んだ経験から、将来の行動を予測する模倣学習でロボットを訓練する。例えば、人が遠隔操縦でロボットを指導しながら、ロボットは人と共に棚組み立てなどの協働作業を行う。この経験から訓練されたロボットは、人の動きを認識し、認識に基づいた行動を学びながら、認識した情報を人へ意思表示することが可能になる。 |
3 | 背景知識を活用したもの探しナビゲーション | 空間・人・もの・行為等の記号的表現を獲得するAIの構築を目指し、Object goal navigation(もの探し)というEmbodied AI(身体性AI)について研究。①ものとものの意味的・空間的関係性、②長期時系列情報や③ものと部屋の関係性などの背景知識を活用して効率的にものを探すナビゲーション手法を開発した。開発したモデルは、複数の部屋を含む広範囲な屋内三次元シミュレーション環境において学習と検証を行い、移動ロボットに搭載してオフィス、アパートや民泊などの実環境で実証実験を行った。 |
4 | 人ロボット協働による組み立て作業の自動計画 | 組立説明図から知識グラフを自動的に作成し、これに基づいて人にとって難しい作業とロボットにとって難しい作業を判別した上で、人とロボットの協働での組立作業を実現する.実験のビデオと、提案手法の内容を記したポスターの展示を行う。 |
5 | 人の作業状態を理解しテンポ音の提示により快適かつ生産的な作業へ導く生産システム | 産業における人の手作業を、ロボットとの協調やコンピュータとのインタラクションを通じて、快適かつ生産的な作業に改善するシステムを開発。人を含む生産現場をサイバー空間で再現したデジタルツイン環境を活用し、作業中の人の負荷や生産性をリアルタイムで分析可能にする。また、音を用いた作業テンポの提示により、無意識の引き込みを通じてストレスのない形で作業に介入する。展示では、テンポ音提示による作業介入により人の作業が変化する様子を動画で説明する。 |
6 | 知識グラフと動画を融合した屋内日常生活空間の生活行動データ構築 | 人の生活の安全・安心に係る日常生活空間における人とAIの共進化を目指し、人間の生活エピソードを認識・理解できるAIフレームワークを構築する研究開発を実施している。本展示では、人の行動と環境とのインタラクション情報を構成的に記述した知識グラフと動画を組み合わせたマルチモーダルデータの生成技術、および複雑なヒューマンマシンインタラクションのためのベンチマークとなるマルチモーダルデータセット、推論チャレンジ・コンペティションなどを紹介する。 |
7 | 生活エピソード認識にむけたマルチモーダル対話モデルの研究 | 私たち人間は、日常生活の中で、様々な行動をしている。例えば、リモコンでテレビを消す場合、テレビを消した前後で、リモコンを置く場所を無意識に変えていることがある。将来ロボットが家庭で活躍するためには、これらの生活エピソードを詳しく認識することが必要となる。またロボットと、音声対話だけでなく表情なども用いたインタラクションができると、より身近な存在に感じられると思われる。この展示では、シミュレーション環境における日常生活行動のビデオに関して、ロボットが話すことができる。 |
8 | 知識グラフを活用した子ども・高齢者の傷害予防支援システム | 日常生活の状況を、知識グラフをベースとして扱う基盤技術を、子どもや高齢者の生活安全に活用する技術について研究を行った。展示では、高齢者の日常生活動画を中心とした生活安全に関するシステムである高齢者行動ライブラリと、子どもの事故を仮想空間上で可視化するシステムについてデモ動画などで紹介する。 |
9 | 人と協働して知識を生成・蓄積するAIフレームワーク | 人間との相互作用を通じてドメイン知識を生成・蓄積して共に成長できるAIに関する研究成果を紹介する。この技術では、適用ドメインの専門知識に基づく判断根拠をAIが利用者へ提示し、利用者から学習モデルに対してドメイン知識に基づいて教示することが可能となる。展示では、病理診断分野を対象として、人とAIとが情報共有し、AIの精度改善や判定結果に関する解釈性の向上、類似画像検索機能など提供する仕組みについて説明する。 |
10 | 人と共に進化するAIにおける視覚的説明と言語的説明技術の基盤開発 | データから学習する深層学習モデルは、学習データが不完全であるとそのモデルの汎化性能は低下するという問題がある。このようなモデルをより良くするには、完全なデータを作り学習することですが、時間とコストが問題となる。本研究では、人の知見をモデル(CNN, Vision Transformer)に組み込むことで、説明性が高くかつ汎化能力が高いモデルを構築する手法を開発した。本展示では、人の知見の組み込む手法と、人の知見を組み込んだA Iモデルから、学習者がどのような領域に注目して判断すれば良いかを学習するアプリを紹介する。 |
11 | マルチモーダル説明生成:ロボットから宇宙天気予報まで | 太陽フレアが起こす磁気嵐は国家予算レベルの被害を及ぼす可能性があり(最大被害額は米国のみで1-2兆ドルと試算)、早期かつ正確な予測が被害軽減に不可欠だ。我々が構築した手法は、世界で初めて専門家予測を超える性能を達成した。さらに、2022年より実運用を開始し日々の予報業務に使用されている。また、マルチモーダル言語モデルの開発ではBLEU等の自動評価尺度を用いることが一般的だが、自動評価尺度の多くは人間による評価との相関が低い(0.4程度)という問題がある。我々が構築した自動評価尺度は世界最高の性能・耐ハルシネーション性能を有する。本展示では、クロスモーダル説明生成および自動評価尺度に関して概説する。 |
12 | 状況を考慮してデータを解釈し情報伝達する人工知能 | 映像や数値などの非テキストデータを含む多様な入力を解釈し、実況生成などの言語生成や質問応答を行う技術の開発を行った。データの解釈には外部知識が有用なため、知識グラフなどの外部知識との接続および知識グラフの構築や拡張のための技術開発も行った。本展示では、開発技術の概要を説明し、応用としてゲームやスポーツおよび動画の実況生成システムの紹介、金融ドメインの知識グラフや言語生成システムおよび質問応答システムの紹介を行う。 |
容易に構築・導入できるAI技術の開発 | ||
13 | 数式ドリブン自動生成データセットに基づく事前学習モデル構築技術の開発 | 数式ドリブン教師あり学習(FDSL)は数式からAIが学習するために必要な教師・データのペアを自動生成することで、基礎的な認識能力を保有する学習済みモデルを構築可能となる。画像認識においては、凡ゆる情景において人物や物体が収められた写真による実データを置き換えるポテンシャルがある。本研究では、FDSLによる2次元画像や3次元空間、またはマルチモーダルデータにおける適用方法、産業応用の展開について紹介する。 |
14 | 動画像における柔軟な転移学習を実現する事前学習モデルの構築 | アノテーション(教師付け)コストが静止画以上に大きい動画像データにおける柔軟な転移学習を可能とするために、大規模かつ多様なデータベースを利用して事前学習モデルを構築し、容易に動画認識技術を様々なドメインに適用可能とするための研究に取り組んだ。複数の公開動画データベースを統合し活用した大規模モデルの学習や数式ドリブンのデータベースを用いた動画認識モデルの学習により柔軟な転移学習のための事前学習モデルを構築している。展示では、本研究により構築したデータベースや事前学習モデルを用いた動画認識の転移学習事例についてご紹介する。 |
15 | 音響信号処理モデルの汎用化・適応化 | 音声認識や音声感情認識などの音声AIを容易に構築できるようにするために、日本語音声汎用基盤モデル(自己教師学習モデル)の構築・利活用の研究をしている。構築した基盤モデルを使うと、音声AIの適用先現場の限られた量の音声データで、大規模データを用いることなく、性能の良い音声AIを作ることができる。約60,000時間のテレビ放送録画データに含まれる感情豊かな音声を使って日本語音声汎用基盤モデルを構築し、その基盤モデルを利用して音声感情認識AIを開発した。性能を評価したところ、少ない量のラベル付き日本語データの下であっても、性能の良い感情認識AIを構築できることがわかり、構築された日本語音声汎用基盤モデルの有用性が確認できた。 |
16 | 文章構造を理解する効率的な言語処理技術と医療特化型大規模言語モデル | 本テーマでは、AIによる言語処理能力を高めるための研究を、①文章の構造や固有名詞をAIの言語学習へ組み込む技術、②単語ごとではなく文章全体を一括生成する効率的な生成、③医療分野に特化した大規模言語モデルの開発、の3点に注力して実施した。展示では、①②を応用した高速な機械翻訳システムと③で開発した日中英の医療文献で学習した医療特化型チャットシステムのデモンストレーションを行う。 |
17 | 画像基盤モデルを活用した医療画像診断支援システム | データタイプに応じた医療向け汎用学習済みモデルの研究成果を報告するとともに、7月のプレスリリース「産総研の画像基盤モデルにより専門医レベルの膀胱内視鏡診断支援AIを開発」において発表した膀胱内視鏡画像診断支援システムのデモ展示を行う。また、取り組んでいる最新の診断支援タスクを簡易的に体験していただき、専門医やAIの診断精度との差を体験していただくことができる。 |
18 | 3D内視鏡技術と内視鏡映像データベースを組み合わせた内視鏡観察機能向上技術の研究開発 | 患部の大きさなど診断に有用な3D情報を取得するために、内視鏡映像を用いた3D計測技術を実現し、計測した実形状データやシミュレーションデータセットを用いて形状推定する3D推定学習モデルを開発した。デモ展示では、試作した3D内視鏡および、診断支援に利用することを目指したVR提示の紹介を行う。 |
19 | 大規模な衛星・航空画像アーカイブを対象に物体・地物を識別するフレームワークの開発 | 人工衛星画像から容易にAIモデルを構築し、かつ実用に耐える精度を持つための条件を明らかにするため、複数の方式による数式ドリブンの合成データを事前学習に用い、人工衛星画像との相性を明らかにした。また人間が目で見る可視光だけでなく、電波を観測に用いる合成開口レーダ(SAR)画像からもAIモデルを構築し、新しいキャリブレーション手法の開発、高精度な地物識別を実現した。本展示では人工衛星 x AIから得られた結果を表示するアプリケーションのデモンストレーションと、SARによる地物識別成果の紹介を行う。 |
20 | 視聴覚統合に基づく容易に構築できる音響シーン分析 | 発生した音イベントの「いつ」「どこで」「どんな」を分析する音響シーン分析は、計算機が周囲の状況や緊急事態を的確に把握するために不可欠な技術である。本研究では、視聴覚情報に基づく自己教師あり学習を応用することで、このようなAIを容易に実現する枠組みを構築してきた。構築した学習技術およびそのアプリケーションを展示する。 |
21 | 動作認識AIの効率的応用開発手法の研究開発 | 人の動作認識モデルを効率的に開発する手法の研究開発を行っている。既存の複数の動画データセットを統合したMetaVDとそれを用いたモデル構築方法の開発、および、自己教師あり学習の効率化手法などを開発している。MetaVDと複数の学習済み動作認識モデルを基盤とし、ラベルなしの目的動画データを与えるだけで動作認識モデルを構築する方法について展示する。 |
22 | 事前学習言語モデルとネットワークモデルの融合に基づく科学技術トレンド予測 | 学際的分野における科学技術トレンドの検出に向けて、学術文献における引用情報と言語情報を融合させたモデルを開発した。研究分野レベルで学術トレンドを把握・予測する取り組みとして、学術トピックの変遷過程を把握・予測し可視化する技術や、サーベイ論文を自動生成する技術の開発も行った。これら開発した基盤技術をポスターとして展示する。 |
23 | AI資源のリポジトリ化によるAIハブ構築技術 | 基盤モデルの再利用を容易にするため、モデルとデータを効率的に管理するプラットフォームを計算インフラ(ABCI)の上位サービスとして試験的に構築した研究開発成果について、デモを交えて紹介する。 |
24 | 大規模画像・言語モデルの事前学習 | 大規模画像・言語モデルの事前学習のための分散並列化・高速化技術を開発している。二次最適化手法を用いることで非常に長時間の学習が必要になる大規模言語モデルの学習時間を短縮し、ハイパーパラメータ探索の時間も短縮した。また、Llamaなどのオープンな大規模言語モデルから日本語の継続学習を行うことで、一から開発するのに比べて大幅に少ない計算資源で大規模言語モデルSwallowの学習を行うことができた。展示内容としては、これらの学習の様子や学習の結果できたモデルなどを紹介する。 |