強化学習の壁「ビッグ・ベビー問題」に挑む新ベンチマーク

2018年11月22日 10時27分更新

文● Karen Hao

強化学習は、いわゆる「ビッグ・ベビー問題」に直面している。

強化学習は、設定した目標を達成するために報酬と罰を用いる機械学習の手法の1つだ。だが、強化学習アルゴリズムの効果を測るためのベンチマーク・タスクとなっているアタリのビデオゲームやシミュレーション環境は自然界の複雑性を反映していない。

その結果、強化学習のアルゴリズムは現実世界の問題と向き合うことなく洗練されていき、決定論的で狭義に定義された環境の外で活動するにはあまりに脆弱になってしまう（「ビッグ・ベビー」と呼ばれる意味がお分かりいただけるだろうか）。

これでは、変化し続ける物理環境に適応できるロボットを最終的に開発するという強化学習の目的を達成できない。たとえば、水を注ぐようにロボットを訓練するのであれば、どんな流し台でも水を注げるようにしたいはずだ。だがビデオゲームで強化学習アルゴリズムのベンチマークをすることは、「1つの流し台で訓練、試験、評価をする」ようなものだと、マギル大学の博士課程生であり、フェイスブックのAI研究チームでパートタイム研究者を務めるエイミー・チャンはいう。

そこでチャンと共同研究者らは、自然界をより反映した3つのベンチマーク・タスクを提案した。そのうち2つは視覚推論に焦点を当てたもので、アルゴリズムは自然の画像の中で、画像を分類したり、目標を見つけたりできるようにする。3つめは、既存のビデオゲームのベンチマーク・タスクにおいて、ビデオゲームの黒い背景を、ランダムに選択された動画クリップに変換するというものだ。

「元々のビデオゲーム・ベンチマーク・タスクでは、強化学習のモデルはすべての画面を記憶できます。動画を使うこの設定では、画面は毎回異なるので、実際に、そのシーンを視覚的に認識し、何が起こっているのかを理解する必要があります」。

「この設定は、現実世界のロボット工学に既存のものより遥かに近いと思います」。

研究者たちが既存の強化アルゴリズムをチャンらの提案したベンチマークでテストしたところ、アルゴリズムは大きなつまずきを見せた。「つまり、強化学習において、より一般化された堅牢なモデルを見い出すためには、まだやるべきことがあるということです」とチャンは話している。

【この記事をMITテクノロジーレビューで読む】

ツイートする

カテゴリートップへ

ASCII倶楽部