このページの本文へ

グーグルが完全に本気! 究極のマルチモーダルAIモデル「Gemini」登場!

2023年12月07日 12時30分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷
 

 グーグルは12月6日(現地時間)、高性能AIファウンデーションモデル「Gemini(ジェミナイ)」を発表した。各種ベンチマークにおいてGPT-4を上回る成績を記録。Google検索やチャットAIの「Bard」などグーグルの各種サービスに順次利用されていくほか、12月13日より開発者にもAPI経由で公開される。

ネイティブでマルチモーダルを実現

 マルチモーダル(異なる入力形式を同時に扱うこと)なAIとしてゼロから構築されたGeminiは、テキスト、画像、音声、動画、プログラムコードなど、さまざまな種類の情報をシームレスに理解し、操作し、組み合わせることができる。

 これまでのマルチモーダルモデルは、画像認識、音声認識など、異なるデータを扱う個別のコンポーネントをつなぎ合わせたアプローチなので、画像の説明などの特定のタスクの実行には優れているが、概念的で複雑な推論に苦労することがあった。

 Youtubeにアップされたデモ動画を見れば一目瞭然だが、Geminiは提示した絵や仕草を瞬時に正確に判断して反応を返しているだけではなく、「この人形はどちらに進むべきか」といった推論タスクも楽々とこなしている。

 動画の概要欄に「For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity(デモ用に反応速度を短く、出力も簡略化しています)」とあるものの、にわかには信じられないレベルだ。

 

膨大なデータを分析して洞察を抽出

 Geminiの高度な推論性能は、複雑な文字情報や視覚情報を理解し、膨大な量のデータの中から識別するのが難しい知識を発見するのが得意だ。

 デモ動画では大量の論文を読み取り、フィルタリング、理解して洞察を抽出するだけではなく、画像で描かれたグラフを読み取り、最新データをプロットして描き直すといった複雑なタスクをこなしている。

 この能力は「科学から金融までの多くの分野において、デジタル技術の進化による新たな飛躍をもたらすのに役立つ」としている。

コーディングも得意

 Geminiはコーディング能力も高く、Python、Java、C++、Goなどのプログラミング言語を理解・説明し、高品質のコードを生成できる。

 Deepmindが開発した「AlphaCode」は、競技プログラミングで人間レベルのコードを書いた最初のAIとして知られているが、今回Geminiの特別バージョンを使って作成された「AlphaCode 2」は、Codeforcesで開催されたプログラミングコンテストで、参加者の85%を上回る性能を示したという。

3つのサイズをラインナップ

 Geminiの最初のバージョンであるGemini 1.0は下記の3つのサイズに最適化されている。

Gemini Ultra:非常に複雑なタスクに対応する、高性能かつ最大のモデル

Gemini Pro:幅広いタスクに対応する最良のモデル

Gemini Nano:モバイルデバイス上のタスクに最も効率的なモデル

ベンチマーク

 Gemini Ultraのパフォーマンスは、画像の理解から数学的推論、音声や動画の理解に至るまで、広く使用されている32のベンチマークのうち30で既存の最高水準(多くはOpenAIのGPT-4)の結果を上回っている。

 Gemini Ultraは、数学、物理学、歴史、法律、医学、倫理などの科目で知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)で90%を獲得。これは人間の専門家を上回るパフォーマンスを示した初のモデルとのことだ。

 マルチモーダルタスクで構成されるベンチマークでも、59.4%という最高水準のスコアを達成、動画や音声に関するベンチマークもすべてGPT-4のスコアを上回っている。

新たなAI用アクセラレータも発表

 Geminiは、グーグルが設計したAI特化型のプロセッサー「Tensor Processing Unit(TPU)v4」および「v5e」を使用してトレーニングされている。

 TPUシリーズは、Google検索、YouTube、Gmail、Googleマップ、Google Play、Android など、GoogleのAIを活用した製品の中核となっているが、本日、最先端のAIモデルのトレーニング向けに設計された「Cloud TPU v5p」が発表された。

 この次世代TPUを使えば、開発者や企業はGeminiをより迅速にトレーニングし、新しい製品や機能をより早く提供できるようになるという。

GeminiでBardがさらに便利に

 本日より英語版のみではあるが、AIチャットボットの「Bard」に特別に調整されたGemini Proが使用される。理解と要約、推論、ブレインストーミング、執筆、計画立案などの能力が大幅に向上しているという。

 また、今後数か月以内にさまざまなマルチモーダルデータに拡大し、新しい場所や言語のサポートも追加される予定だ。

 さらに、来年はじめにはGemini Ultraで動作する「Bard Advanced」も公開されるという。

「Google Pixel 8 Pro」にGemini Nanoを搭載

 こちらも英語版のみだが、本日よりグーグルのスマートフォン「Google Pixel 8 Pro」でGemini Nanoが使用できるようになる。

 レコーダーアプリに要約などの新機能が追加され、Gboardのスマートリプライにも展開される。

 さらに、Geminiのその他のモデルを使用した「Assistant with Bard」を来年初頭から開始させる予定。(日本語対応は未定)

で、いつから使えるの?

 Geminiは今後数ヵ月をかけて、Google検索、広告、Chrome、Duet AIなどの製品やサービスで利用できるようになる。

 また、すでに「Gemini in Search」の試験運用を開始している、米国におけるSGE英語版での遅延は40%削減され、品質も向上したという。

 開発者は12月13日より無料のWebベース開発者ツール「Google AI Studio」または「Google Cloud」のAIプラットフォーム「Vertex AI」のGemini APIを介してGemini Proにアクセスできる。

 さらに、Google Pixel 8 Pro以降のAndroid 14で利用できる新しいシステム「AICore」を介して、Gemini Nanoを使用した開発をすることもできる。利用には早期プレビューにサインアップが必要だ。

 最高性能を誇るGemini Ultraについては、外部関係者によるレッドチームを含む広範な信頼性および安全性チェックを実施し、展開前のファインチューンと人間のフィードバックによる強化学習(RLHF)によってモデルを改良するとしている。

 来年には、Gemini Ultraで動作する、高性能モデルと機能にアクセスできる「Bard Advanced」もリリース予定だ。

 この件に関するニュースリリースは、アルファベットのサンダー・ピチャイCEOとGoogle Deepmindのデミス・ハサビスCEO兼共同創業者の連名で出されている。グーグルの並々ならぬ意気込みを感じる発表であることがわかる。

カテゴリートップへ

ピックアップ