グーグルが完全に本気！究極のマルチモーダルAIモデル「Gemini」登場！

2023年12月07日 12時30分更新

文● 田口和裕

　グーグルは12月6日（現地時間）、高性能AIファウンデーションモデル「Gemini（ジェミナイ）」を発表した。各種ベンチマークにおいてGPT-4を上回る成績を記録。Google検索やチャットAIの「Bard」などグーグルの各種サービスに順次利用されていくほか、12月13日より開発者にもAPI経由で公開される。

ネイティブでマルチモーダルを実現

　マルチモーダル（異なる入力形式を同時に扱うこと）なAIとしてゼロから構築されたGeminiは、テキスト、画像、音声、動画、プログラムコードなど、さまざまな種類の情報をシームレスに理解し、操作し、組み合わせることができる。

　これまでのマルチモーダルモデルは、画像認識、音声認識など、異なるデータを扱う個別のコンポーネントをつなぎ合わせたアプローチなので、画像の説明などの特定のタスクの実行には優れているが、概念的で複雑な推論に苦労することがあった。

　Youtubeにアップされたデモ動画を見れば一目瞭然だが、Geminiは提示した絵や仕草を瞬時に正確に判断して反応を返しているだけではなく、「この人形はどちらに進むべきか」といった推論タスクも楽々とこなしている。

　動画の概要欄に「For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity（デモ用に反応速度を短く、出力も簡略化しています）」とあるものの、にわかには信じられないレベルだ。

膨大なデータを分析して洞察を抽出

　Geminiの高度な推論性能は、複雑な文字情報や視覚情報を理解し、膨大な量のデータの中から識別するのが難しい知識を発見するのが得意だ。

　デモ動画では大量の論文を読み取り、フィルタリング、理解して洞察を抽出するだけではなく、画像で描かれたグラフを読み取り、最新データをプロットして描き直すといった複雑なタスクをこなしている。

　この能力は「科学から金融までの多くの分野において、デジタル技術の進化による新たな飛躍をもたらすのに役立つ」としている。

コーディングも得意

　Geminiはコーディング能力も高く、Python、Java、C++、Goなどのプログラミング言語を理解・説明し、高品質のコードを生成できる。

　Deepmindが開発した「AlphaCode」は、競技プログラミングで人間レベルのコードを書いた最初のAIとして知られているが、今回Geminiの特別バージョンを使って作成された「AlphaCode 2」は、Codeforcesで開催されたプログラミングコンテストで、参加者の85%を上回る性能を示したという。