「覚醒プロジェクト」研究実施者に聞く

元サッカー青年コンビが挑む「FootballGPT」、試合動画から次の展開を予測

2024年08月08日 09時00分更新

文● 石井英男

若手ディープテック研究者の育成を支援する産業技術総合研究所（産総研）の「覚醒プロジェクト」。この連載では、2023年度の覚醒プロジェクトに採択された研究者の研究内容を紹介する。

今回は、サッカーなどのスポーツ分野での活用が期待される大規模マルチモーダルモデルを開発する、東京大学大学院の染谷大河さん、名古屋大学大学院のスコットアトムさんに話を聞いた。

研究実施者：染谷大河（東京大学大学院）、スコットアトム（名古屋大学大学院）
研究テーマ：マルチエージェント移動・行動系列が入力可能な大規模マルチモーダルモデルの開発
担当PM：谷中瞳（東京大学大学院情報理工学系研究科准教授（卓越研究員））

東京大学大学院の染谷大河さん

名古屋大学大学院のスコットアトムさん。取材はオンラインで実施した。

　OpenAIが2022年11月に公開したChatGPTにより、生成AIブームが巻き起こり、そのベースとなる技術であるLLM（Large Language Models：大規模言語モデル）の開発競争が進んだ。LLMはその名のとおり高度な言語理解を実現する基盤モデルだが、最近ではテキストだけでなく画像や映像、音声などを同時に扱える「マルチモーダルモデル（LMM： Large Multimodal Models）」の進化が著しい。例えば、画像を入力すると何が書かれているかを理解し、テキストで説明してくれるような、より人間に近い高度な基盤モデルが次々と登場している。

　ただ、LMMには課題も多い。その一つが、人や物体の空間的な移動が重要となる動画の理解が困難だということだ。

移動や行動の軌跡データを取り出しエンコードしてLMMに入力

　「マルチエージェント移動・行動系列が入力可能な大規模マルチモーダルモデルの開発」という研究テーマが2023年度の覚醒プロジェクトに採択された、東京大学大学院博士課程の染谷大河さんと名古屋大学大学院博士課程のスコットアトムさんは、LMMにおける動画の扱いを改善する手法を提案した。その手法とは、動画をLMMに直接入力するのではなく、動画の中から重要な対象物の移動や行動の軌跡データを取りだし、そのデータをエンコード（ベクトル化）してから、LMMに入力するというものだ。

　手法は、移動や行動の軌跡データを大規模言語モデルでモデリングする手法（提案手法A）と、提案手法Aによってエンコードされた移動や行動の軌跡データとテキストを入力可能なLMMを構築する手法（提案手法B）に分けられる。

従来手法と提案手法の比較図（提供画像）

サッカーを理解するマルチモーダル基盤モデル「FootballGPT」へ

　染谷さんとスコットさんの最終的な目標は、サッカーの選手やボールの軌跡データを与えることで、その動きを理解し、テキストで問い合わせることでさまざまな答えを教えてくれる、いわば「FootballGPT」とでもいうべき基盤モデルを構築することだという。サッカーのための基盤モデルであるFootballGPTが構築できれば、バスケットボールやバレーボールなど他のチームスポーツへの応用も期待できる。スポーツを理解したLMMとは具体的にどのようなものになるのだろうか？染谷さんは、次のように説明する。

「ChatGPTは、ある単語の次にどの単語が来るかということを予測しています。それと同様にFootballGPTなら、試合の展開を予測できます。例えば、実際の試合でゴールが決まらなかったが、その前の行動で別の選択肢を取れば、ゴールに繋がっていた可能性が高い、というシミュレーションができるわけです。また、選手一人一人の貢献度のようなものを評価することもできます」

　応用範囲はスポーツにとどまらない。「動画の中の動きを理解できるLMMができれば、セキュリティリスクの検知や自動運転、医療分野でのリハビリや患者の行動分析にも役立てることができるはず」と染谷さんは言う。

RobocupシミュレーションリーグとJリーグのデータを利用

　ところで、なぜサッカーなのだろうか？二人がこだわる理由はいくつかある。まず、サッカーは1チームのプレイヤーが多く、フィールドも広く、動きも複雑なため、サッカーを理解できれば、他のスポーツの理解は難しくないということが一つ。また、染谷さんは高校2年まで柏レイソルユースに在籍し、U-15, 16の日本代表候補にもなったトップレベルのサッカープレイヤーであり、東京大学でも運動会ア式蹴球部（サッカー部）でプレイヤーとして活躍した経験がある。スコットさんも、筑波大学蹴球部（サッカー部）でプレイヤー兼アナリストとして活動した経験があり、二人にとってサッカーはもっとも馴染みの深いスポーツだった、というのも大きな理由だ。

　二人はまず、提案手法A（移動や行動データのモデリング）の研究に取りかかった。最初に苦労したのは、実際のサッカーの試合における移動や行動データをどうやって手に入れるかということだ。当初は海外サッカーリーグのデータを購入しようとしていたが折り合いがつかず、2019年のJリーグの55試合の行動データと、Robocup2021年大会の2Dシミュレーションリーグの4試合（300時間分）のデータを利用することにした。

　シミュレーションデータを使うにあたっては、実際の試合のデータとシミュレーションデータを比較し、その妥当性を検証した。その結果、選手の移動速度の外れ値（シミュレーションでは選手が停止して動かないことが多い）を除くと、おおむね似た傾向があることがわかり、シミュレーションデータの妥当性が確認できた。

　覚醒プロジェクトの実施期間は約8カ月間と短いことから、最終的に染谷さんらは提案手法Aの実装にフォーカスすることにした。基盤モデルの構築では、提案時にはLLMを利用することを考えていたが、多変量時系列予測タスクとして提案されているアーキテクチャを利用する方針にシフトして研究を実施した結果、既存の軌道予測モデルよりも高い性能を発揮できた。その結果を2024年2月にロンドンで開催された「Opta Forum 2024」で発表したところ、大きな注目を集めたという。Opta Forumを主催するOptaは、世界最大のスポーツデータ・プロバイダーだが、Optaによる基調講演でもサッカーの基盤モデルを作るべきだという主張がなされたという。染谷さんとスコットさんは自分たちの研究の方向性が間違ってないと、これを聞いて確信したそうだ。

プロジェクト終了も研究を続け、新たなパラダイムを実現

　二人の研究は現在、提案手法Aの目処がある程度付いた段階だが、覚醒プロジェクトが終了しても、数年かけて提案手法Bに取り組んでいきたいという。

「サッカーなどのスポーツの分野に大規模な基盤モデルを作るというパラダイムを持ち込んだことが、私たちの提案の大事なところだと考えています。ある程度そうした枠組みで動作するということを示すところまできちんとできれば、この分野が盛り上がって、他の人たちがどんどん進めてくれるはず。そのために、まず提案手法Aを完成させた上で、提案手法Bにも取り組んでいきたい」

　最後に、染谷さんとスコットさんの二人に、今後の研究者としての目標について尋ねてみた。

「スポーツの分野でもAIが注目されているとはいえ、人の意思決定を変えるようなシステムはまだできていません。ChatGPTに代表されるようなテキストベースの基盤モデルの発展が落ち着いたら、次はスポーツの分野でも同じような流れがきっと生まれると思います。今のうちから取り組むことで、この分野のトッププレイヤーになりたいです。一方で研究を学会で発表するだけでなく、きちんと世の中で使えるシステムとして提案し、それを事業化していくことも進めていきたいです」（染谷さん）

「学会発表に留まらず、研究成果の社会実装を通して世の中に出して行きたいと考えています。プロだけではなく、アマチュアレベルのスポーツ選手でも、こうしたAI技術を使って選手を適切に評価したり、解説が自動的に付いたりできるようになれば、世界が変わる。プレイヤーのポテンシャルが引き出され、より楽しくスポーツができる世界が実現できるといいですね」（スコットさん）

■覚醒プロジェクト公式Webサイト
http://kakusei.aist.go.jp/

ツイートする

カテゴリートップへ