画像クレジット:Baidu
バイドゥが「チャットGPT(ChatGPT)」の競合となる「アーニー・ボット(Ernie Bot)」を発表した。同社CEOは、完璧ではないと語っており、準備不足は否めない。それでも発表を急いだ事情がある。
バイドゥ(Baidu)のロビン・リー共同創業者兼最高経営責任者(CEO)は3月16日、北京で、同社の新しい大規模言語モデル(LLM)である「アーニー・ボット(Ernie Bot)」を紹介するステージに立った。バイドゥの画像作成AIが作り出したアートと一緒に登場したリーCEOは、数学の問題を解く、マーケティングのコピー文を書く、中国文学についての質問に答える、マルチメディアの応答を生成するなど、チャットボットの機能をいくつか披露した。
バイドゥは数カ月前から、アーニー・ボットの3月中旬の公開を計画していた。だが、オープンAI(OpenAI)が3月14日に「GPT-4」を突然公開し、水を差された格好となった。リーCEO自身をはじめとするバイドゥの活動を見守るすべての人々にとって、GPT-4は明らかに基準になった。「人々は、アーニー・ボットをチャットGPT(ChatGPT)、あるいはGPT-4と比べて評価するつもりでいます。それは非常に高いハードルです」。リーCEOはプレゼンテーションの冒頭でこう述べた。
アーニー・ボットは、「Enhanced Representation from kNowledge IntEgration(知識統合による拡張表現)」から一字ずつ取った名称で、中国名は「文心一言(Wenxin Yiyan)」である。予想どおり、中国の歴史的事実の説明や、伝統的な詩を書くなどの中国文化特有のタスクで、特に高いパフォーマンスを発揮する。リーCEOは、中国語を理解するという点において、中国企業であるバイドゥが「事前に訓練されたどのLLMよりも優れていなければなりません」と話す。
だが、今回の製品公開で焦点を当てたのは、アーニー・ボットのマルチモーダル出力だった。チャットGPTやGPT-4はマルチモーダル出力を提供していない(オープンAIは、冷蔵庫の中身の写真を分析してレシピを提案できるというGPT-4の能力を自慢げに語っているが、このモデルが生成するのはテキストのみだ)。リーCEOが示したボットとのやり取りの映像には、未来的な都市交通システムのイラストを生成し、中国語の方言でテキスト回答を読み上げ、同じテキストに基づいて動画の編集と字幕付けをする様子が録画されていた。ところが、アーニー・ボット公開後の大規模なテストでは、中国の出版社が動画生成の再現に失敗した。
中国国民は、チャットGPTの代わりになるものを待ち望んでいた。オープンAIも中国政府も、どちらも中国国内の個人による米国製チャットボットの利用を禁止しているからだ。
ただ、現時点でアーニー・ボットを利用できるのは、ごく一部の中国のクリエイターに限られている。企業はAPIアクセスを申請できるものの、バイドゥはこのテクノロジーを一般消費者に提供するかどうかを明らかにしていない。また、同社は検索エンジンや自動運転車といったバイドゥの他の製品へのアーニー・ボットの統合も約束しているが、その時期は不明だ。
チャットGPTやGPT-4の展開と比較すると、アーニー・ボットの公開はバイドゥの焦りを感じるものだった。プレゼンテーションでは事前に録画した5つのセッションが使用され、ライブデモの演出はなかった。リーCEOは、アーニー・ボットがまだ不完全であり、より多くのユーザーに届けば改善されるだろうと繰り返し述べた。バイドゥの株価は3月16日に6.4%下落し、ソーシャルメディアには落胆の声があふれている。
リーCEOそうした反応を事前に予測していたようだ。「しばらく前から、なぜこんなに早くアーニー・ボットを公開するのか、準備は整っているのかと聞かれていました」と、同CEOはプレゼンテーションで述べた。「私が見た社内テストの内容からは、アーニー・ボットは完璧とは言えません。では、なぜそれを今、公開するのかというと、市場が求めているからです」。
第一号になるための戦い
中国の企業や研究者らは、すでにいくつかのチャットGPTスタイルのボットを発表している。だが、そのいずれも満足のいく結果を出せていない。上海の復旦大学の研究チームが開発した英語チャットボットの「モス(MOSS)」は、アクセスが集中した結果、2月下旬の公開から1日と経たずにサーバーがダウンしてしまい、いまだに復旧していない。中国のスタートアップ企業であるミニマックス(MiniMax)は、3月に入って「インスポ(Inspo)」というチャットボットを公開した。しかし、これはオープンAIが開発したGPT-3.5モデルをパッケージし直したのに過ぎないのではないかと疑われている。
バイドゥは、チャットGPTと直接対決する最初の中国企業になると多くの人が期待していた。2019年、バイドゥはGPT-3に相当する「アーニー3.0(Ernie 3.0)」を公開した。2022年には「アーニーViLG(Ernie-ViLG)」と名付けたかなり強力なテキスト画像生成モデルも公開した。
バイドゥには、中国の同業他社よりも優位に立てるいくつかの強みがある。1つは、アーニー・モデルの訓練と運用のために独自設計したAIコンピューティング・チップ、「クンルン(Kunlun)」を持っていることだ。これにより、半導体を巡って高まり続ける米中間の緊張から自社を守ることができる。また、バイドゥは2000年以降、検索エンジンやオンライン百科事典、ディスカッション・フォーラム、メディア出版プラットフォームを構築してきた。そのため、独自の幅広いリソースから中国語の訓練用資料へアクセスできる。バイドゥのプレスリリースによると、アーニー・ボットは「数兆のWebページ、数百億の検索や画像データ、数千億の毎日の音声データ、5500億の事実に関するナレッジグラフ」で訓練されているという。
アーニー・ボットを公開した時、リーCEOはバイドゥを欧米の大手テック企業と比較した。「バイドゥは、国際的なテック大手の中では(独自に開発したチャットGPTの代替品を)リリースする初の企業といえるでしょう。マイクロソフトはオープンAIへアクセスしているだけです。グーグル、メタ、アマゾンのどこも、チャットGPTと同レベルにある、同じような製品を公開してはいません」。
GPT-4との避けられない比較
GPT-4が新たに公開されたことで、人々がアーニー・ボットとGPT-4を比較しようとするのは当然だ。しかし、簡単には比較できない。両社とも、チャットボットの技術的な詳細情報を固くガードしているからだ。
オープンAIと同様に、バイドゥもアーニー・ボットの最新版が持つパラメーター数を明らかにしないと決定した。通常、モデルのパラメータ数は、それがどれほど強力なのかを表す指標と見なされる。過去世代の製品に関しては、この数値は発表されていた。2020年6月に公開されたオープンAIのGPT-3は1750億個のパラメーターを、2021年12月に公開されたバイドゥの「アーニー3.0タイタン(Ernie 3.0 Titan)」は2600億個のパラメーターを持っていた。
アーニー・ボットはGPT-4とは異なり、画像を分析することはできない。その一方で、より多くの出力オプションを提供する。プレゼンテーションでアーニー・ボットは、四川語でテキスト回答を読み上げた。四川語は中国南西部で使われ、幅広く知られている中国語の方言である。リーCEOはまた、アーニー・ボットが広東語、福建語、東部方言などの他の中国語の方言でも音声を生成できると解説した。
だが、回答の質は、また別の問題かもしれない。公開後のライブストリームで、中国のテック系メディアであるX.Pinが、アーニー・ボットとGPT-4の両方に中国語で同じ質問をした。バイドゥのテクノロジーは質問の大半に理路整然と答えられたが、より多くの間違いを犯した。中国史に関する雑学的な質問に正しく答えることや、質問の文脈を覚えておくこと、ミニゲームを作るためのコードの生成に手間取ったのだ。レビュー担当者が映像生成能力を試すこともできなかった。データの編集と処理に時間がかかるとして、アーニー・ボットが映像生成を拒否したためだ。
ビジネス・パートナーのための性急な動き
ウォール・ストリート・ジャーナル紙は3月9日、バイドゥがアーニー・ボットの大規模な公開に向けて準備をしていると報じた。従業員に休祝日を通して働くよう求め、ボットの回答レビュー要員として追加の請負業者を雇い、エヌビディア(Nvidia)の「A100」チップなどのリソースを社内の他の人工知能(AI)チームから調達したという内容だ。
それ以降、アーニー・ボットが発表に向けて準備できていなかったことを示すヒントが他にも出てきている。バイドゥは以前、自動運転車や主力製品の検索エンジンなど、多くの自社製品にアーニー・ボットを統合すると発表していた。しかし製品公開時には、そのような活用や、そうした統合がどう機能するかについての説明は一切なかった。
アーニー・ボットの発表イベントには、多くの観測筋が落胆している。簡単にフィルターをかけたり編集をしたりする、事前に録画されたチャットボットとのやり取りの映像しか使われなかったからだ。また、3月16日に紹介されたマルチモーダル機能の多くは、2022年の画像作成AIや2020年公開の動画編集ツールのようにバイドゥの既存のAIツールですでに実行可能であり、イノベーションはむしろ、それらをより利用しやすいひとつのインターフェイスへ統合することにあるとの指摘もあった。
バイドゥは、何年にもわたってさまざまな種類のAIモデルを開発してきた。アーニー・ボットは、ビジネスユーザーがより簡単に採用できるように、同社の既存の機能をパッケージ化する手段のように見える。
今回の発表イベントの主なターゲットが一般大衆ではなく、企業クライアントだったことは明らかだろう。「アーニー・ボットが影響を与えるのは、検索エンジンやインターネット企業だけではありません。すべての企業に影響を及ぼすでしょう」と、リーCEOはプレゼンテーションで述べた。「あらゆる企業が顧客との距離を縮められるでしょう」。
バイドゥによると、アーニー・ボットの公開前に、650社が使用登録しており、公開イベント以降は3万社以上がAPIアクセスを申請しているという。以前のニュース報道では、このチャットボットの使用に関心がある企業として、コンピューター・メーカーのレノボ、旅行ポータルのトリップ・ドットコム(Trip.com)や、中国の自動車会社数社が挙げられていた。これらのパートナーシップがどのようなものかを示す情報は今のところ何もないが、今後数カ月をかけてバイドゥがAPIを展開するにつれ、さらに多くのことが分かるだろう。