米ベンチャー企業のRabbitは1月9日(現地時間)、ラスベガスで開催されているCES2024において、AIを活用した音声のみで操作できるモバイルアシスタントデバイス「Rabbit r1」を発表した。同社ウェブサイトにて199米ドル(およそ2万8800円)で予約注文受付中。
LAM(大規模アクションモデル)がアプリの操作を学習
2.88インチのタッチスクリーンが配置された筐体は手のひらサイズの正方形。ユニークかつスタイリシュなシンセサイザー「OP-1」で知られるスウェーデンの音楽機器メーカー「Teenage Engineering」がインダストリアルデザインを担当している。
デバイス内にアプリは存在せず、側面にあるプッシュ・トゥ・トークボタンを押しながら自然言語で話しかけることで操作する。
写真やビデオを撮影したりビデオ通話をするためのカメラは360度回転する。
さらに、ナビゲーション用のスクロールホイール、充電用のUSB-Cポート、LTE通信のためのSIMスロットを備えている。Wi-FiやBluetoothは利用できないようだ。
本デバイスはLLM(大規模言語モデル)ならぬLAM(大規模アクションモデル)によって動作するrabbit OSというオペレーティングシステムを搭載している。
LLMは、人間がコンピューターをどのように使用するかを学習する能力を持っており、ユーザーがアプリを操作しているところを学習することによって、ユーザーに代わってさまざまなタスクを実行できるという。
価格は199米ドル(およそ2万8800円)だが、サイトでは2万9200円(送料別)で予約を受け付けている。海外発送も可能で3月もしくは4月には発送されるようだ。
いったいどうやってるの? 驚きのデモの数々
CES2024では、CEOのジェシー・リュ氏によるデモが披露された。
側面のプッシュ・トゥ・トークボタンを押しながら命令すると、ウサギのエージェントが仕事をこなしてくれるという体になっている。
質問をすると音声・テキスト・図版を使ったマルチモーダルな回答をしてくれるようだ。
内蔵のカメラで冷蔵庫の中身を撮影して「レシピを考えて」と命令すると。
オムレツのレシピを紹介してくれた。このあたりはもちろん他のマルチモーダルなLLMでも可能ではあるが、専用のデバイスを使うことでより操作がシンプルになっている。
Spotifyで楽曲を再生しているところ。ただし、外部サービスへのログインやペアリングには「rabbit hole」というPCアプリが必要なようだ。
こちらはDiscordに入ってMidjourneyで画像を生成しているところ。ログインだけではなくプロンプトの入力なども勝手にやってくれているようだ。
これ以外にも、ホテルやレストランの予約や、Photoshopの画像変換といったマルチステップのタスクも、実際に操作するところをカメラで見せて学習させることで、すべて音声で実行できるようになるという。正直にわかには信じられないが少なくともデモでは動作していた。
なお、別途サブスクリプションは必要ないとのことだが、ハードウェアの売り切りだけでマネタイズが可能なのかなど不安点は多いが、魅力的かつ革新的な製品であることは確かだ。