画像クレジット:TOYOTA RESEARCH INSTITUTE
「チャットGPT」で生成AIが一気にブレークしたように、家庭用ロボットも実用化の時期が近づいているかもしれない。そう考えられる理由を3つ、説明しよう。
この記事は米国版ニュースレターを一部再編集したものです。
ロボット工学が始まって以来、この分野の究極の目標は、家事をこなすロボットを作ることだった。しかし、長い間、それは夢でしかなかった。ロボット工学の研究者たちは、研究室でパルクールのような目を見張るようなことをロボットにさせることはできた。だが、そのためには通常、厳重に管理された環境で綿密な計画を立てる必要がある。そのため、子どもやペットのいる家庭や、間取りが千差万別で、あらゆるものが散らかっている家では、ロボットが確実に動作するのは難しい。
ロボット工学者の間で、「モラベックのパラドックス」と呼ばれる有名な観察事象がある。人間にとって難しいことは機械にとって簡単であり、人間にとって簡単なことは機械にとって難しい、というものだ。だが、人工知能(AI)のおかげで、この状況は変わりつつある。洗濯物をたたんだり、料理をしたり、買い物カゴから荷物を下ろしたりといった、少し前まではほとんど不可能と思われていた仕事をロボットがこなせるようになってきている。
MITテクノロジーレビューの最新記事では、ロボット工学が分野としていかに変曲点を迎えているかに注目した( 詳しくはこちら)。ロボット工学研究には、実に興味深いものが混じりあって収束しつつあり、(もしかすると)研究室から家庭へとロボットを送り出すことになるかもしれない。
ロボット工学が「チャットGPT(ChatGPT)のような瞬間」を迎えようとしている3つの理由を紹介する。
1. 安価なハードウェアで研究がやりやすくなっている
ロボットは高価だ。高度に洗練されたロボットは数十万ドルかかることもよくあり、ほとんどの研究者には手が届かない。例えば、家庭用ロボットの初期型の1つである「PR2」は、重さ200キログラムで、40万ドルもした。
しかし、新しいより安価なロボットによって、より多くの研究者が面白い研究ができるようになっている。スタートアップ企業のハロー・ロボット(Hello Robot)が開発した「ストレッチ(Stretch)」と呼ばれる新しいロボットは、パンデミックの中、およそ1万8000ドルというはるかにリーズナブルな価格と、22キロの重量で、発売された。小型のモバイルベース、カメラがぶら下がったスティック、両端に吸盤のついたグリッパーを備えた調節可能なアームを持ち、コンソールコントローラーで操作できる。
スタンフォード大学のチームは、「モバイル・アロハ(Mobile ALOHA:低コストのオープンソース・ハードウェア・テレオペレーション・システムのおおざっぱな頭字語)」と呼ばれるシステムを構築した。このロボットは、20人の人間による実演と他の作業から得たデータだけで、エビを調理することを学習した。彼らは、数十万ドルではなく数万ドルという、よりリーズナブルな価格のロボットを組み立てるために、既成部品を使用した。
2. AIが「ロボットの頭脳」の構築に役立っている
これらの新しいロボットがこれまでとは違うのは、搭載するソフトウェアである。AIブームのおかげで、現在、焦点は、高価なロボットで実現される身体的な器用さという技能から、ニューラル・ネットワークの形をした「汎用ロボット頭脳」の構築に移りつつある。ロボット工学者は、従来の骨の折れる計画立案や訓練の代わりに、動作中に周りの環境から学習し、それに応じて行動を調整するシステムを作るため、深層学習やニューラル・ネットワークを使い始めている。
昨年夏、グーグルは「RT-2」と呼ばれる視覚言語行動モデルを発表した。RT2は、訓練に使用されたオンラインのテキストや画像、自分自身のインタラクションから世界に対する一般的な理解を獲得し、そのデータをロボットの行動へと変換する。
トヨタ・リサーチ・インスティテュート(TRI:Toyota Research Institute)、コロンビア大学、マサチューセッツ工科大学(MIT)の研究者たちは、模倣学習と呼ばれるAI学習手法と生成AIの助けを借りて、多くの新しいタスクをロボットに素早く教えることに成功した。彼らは、生成AIを推進するテクノロジーを、テキスト、画像、映像の領域からロボットの動きの領域へと拡張する方法を見つけたと考えている。
同様に、他にも多くの企業が生成AIを活用している。オープンAI(OpenAI)の旧ロボット工学研究部門からスピンオフしたスタートアップ企業、コバリアント(Covariant)は、「RFM-1」と呼ばれるマルチモーダルモデルを開発した。RFM-1は、テキスト、画像、映像、ロボットへの指示、または計測データの形でプロンプト(指示テキスト)を受け付けることができる。生成AIにより、ロボットが指示を理解し、そのタスクに関連する画像や映像を生成することが可能になっている。
3. データが増えれば増えるほど、ロボットはより多くのスキルを学べる
「GPT-4」のような大規模なAIモデルの能力は、インターネットから収集した大量のデータに起因する。しかし、これはロボットではあまり上手くいかない。ロボットには、ロボットのために特別に収集されたデータが必要だ。洗濯機や冷蔵庫の開け方、食器の取り方、洗濯物のたたみ方など、物理的な実演が必要なのだ。現在そのデータは非常に少なく、人間が収集するには長い時間がかかる。
「オープンX-エンボディメント・コラボレーション(Open X-Embodiment Collaboration)」と呼ばれる、グーグル・ディープマインド(Google DeepMind)が開始した新しいイニシアチブは、その状況を変えることを目的としている。昨年、同社は34の研究所と約150人の研究者と提携し、ハロー・ロボットのストレッチを含む22種類のロボットからデータを収集した。その結果として2023年10月に発表されたデータセットは、拾う、押す、移動するなどのロボットによる527のスキルの実演で構成されている。
初期の兆候が示しているのは、より多くのデータがあるほどより賢いロボットにつながるということだ。研究チームは、「RT-X」と呼ばれるロボット用のモデルを2種類作り、各研究室のコンピューターでローカルに実行するか、ウェブ経由でアクセスできるようにした。大規模な言語・画像モデルから「ビジュアルな常識的判断」、つまり世間に関する基本的な理解を作り出すため、ウェブでアクセスできる大規模な方のモデルには、インターネットから集めたデータで事前に訓練が実施された。研究チームがRT-Xモデルを多くのさまざまなロボットに適用したところ、ロボットは各研究室が開発していたシステムよりも50%もうまくスキルを学習できることがわかった。
続きはこちらの記事をお読みください。
◆
大切な思い出を生成AIで存在しない写真に変える
マリアは1940年代にスペインのバルセロナで育った。父親との最初の思い出は鮮明だ。6歳だったマリアは、父に会いたくなると同じ建物の隣人のアパートを訪ねた。そこから、バルコニーの柵越しに下の刑務所を覗き、フランシスコ・フランコの独裁政権に反対して収監されていた父の姿を独房の小さな窓から垣間見ようとした。そのバルコニーに立つマリアの写真はない。しかし、彼女は今、それに似たようなものを手に取ることができている。偽の写真、あるいは記憶をもとにした復元写真だ。
覚えておいてほしいのは、 バルセロナを拠点とするデザインスタジオ、ドメスティック・データ・ストリーマーズ(Domestic Data Streamers)が運営するプロジェクト、「シンセティック・メモリーズ(Synthetic Memories、合成記憶)」によって、何十人もの人々がこのように記憶を画像化しているということだ。 詳しくは、本誌のウィル・ダグラス・ヘブン編集者によるこちらの記事をお読みいただきたい。
AI関連のその他のニュース
中国政府が、「今のところ」AIに厳しい規制をかけていない理由。中国政府によるテック業界の規制の仕方は、非常に予測が難しく思えるかもしれない。政府は、中国テック企業の業績を称えたかと思えば、その翌日には敵対していることもある。しかし、中国のアプローチにはパターンがあり、それは中国がAIをどのように規制していくのかを示している。 (MITテクノロジーレビュー)
AIはより美味しいビールを作ることができる。その方法はこうだ。研究によると、新しいAIモデルは、消費者がどの程度ビールを美味しいと感じるかだけでなく、ビールメーカーがどのような化合物を加えればより美味しくなるかを正確に特定することができる。(MITテクノロジーレビュー)
オープンAIの法的トラブルが増加中。オープンAIは、国内外で大量の訴訟に直面し、弁護士を雇っている。同社は昨年春以来、著作権侵害の申し立てに対処するために約20人の社内弁護士を雇い、独占禁止法対応の弁護士も雇っている。同社の新たな戦略は、中国に対する米国の防波堤として自らを位置づけようとするものだ。(ワシントンポスト)
グーグルのAIは実際に何百万もの新素材を発見したのか? 昨年末、グーグル・ディープマインドは、深層学習を使って何百万もの新素材を発見したと主張した。しかし、ディープマインドの研究の一部を分析した研究者たちは、同社の主張は誇張されすぎていた可能性があり、同社は有用で信頼できる材料を発見していなかったことを突き止めた。(404 メディア)
オープンAIとメタが「論理的思考」が可能な新しいAIモデルを構築中。オープンAIとメタによる次世代の強力なAIモデルは、推論、計画、より多くの情報の保持など、より複雑なタスクをこなせるようになるだろう。これにより、より信頼性が高まり、この世代の言語モデルが陥りがちな愚かなミスを犯さなくなると、テック企業は考えている。(フィナンシャル・タイムズ)