このページの本文へ

グーグル、AIモデル「Gemini」大型更新 前代未聞の200万トークン入力可能に

2024年05月15日 12時15分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 グーグルは5月14日(現地時間)、開発者向けカンファレンス「Google I/O 2024」を開催。同社が開発する大規模言語モデル(LLM)「Gemini」ファミリー全体に大規模なアップデートを導入したことを発表した。

広がるGeminiファミリー

 グーグルは2023年12月、同社初のマルチモーダルLLM「Gemini 1.0」を、「Ultra」「Pro」「Nano」の3種類のサイズで公開、2024年2月には100万トークンのコンテキストウィンドウを備えた「1.5 Pro」を公開してきた。

 「Google I/O 2024」では新たに最軽量モデルの「1.5 Flash」を発表、あわせて大幅に改良された「1.5 Pro」、オープンモデル「Gemma」のアップデートなども発表された。

スピードと効率を最適化した「1.5 Flash」

 1.5 Flashは、今回新たに発表されたGeminiファミリー最軽量モデル。翻訳やコーディングをはじめとする高頻度タスクの処理に最適化されている。

 蒸留(Distillation)と呼ばれる技術を活用することで、性能を維持しながらサイズと推論時間を大幅に削減。1.5 Proに匹敵する性能を発揮しつつ、よりコンパクトで高速なモデルとなっている。

 100万トークンの長文コンテキストウィンドウを備え、テキスト、画像、音声、動画などのマルチモーダル入力にも対応している。

 現在200以上の国と地域でプレビュー版の提供が開始されており、6月には正式リリースが予定されている。

大幅に改良された 1.5 Pro

 競合製品よりも圧倒的に多い100万トークンのコンテキストウィンドウを備える1.5 Proだが、今回なんと200万トークンにまで拡張された。1時間の動画コンテンツや3万行以上のプログラムコードに相当する膨大な情報を処理できる計算になる。

 このバージョンはGoogle AI StudioVertex AIのウェイティングリストに登録することでアクセスが可能になる。

 さらに、データとアルゴリズムの進歩を通じて、コード生成、論理的推論とプランニング、マルチターン会話、音声と画像の理解を強化。これらの各タスクの公開ベンチマークと内部ベンチマークでの結果が大幅に改善されている。

 また、Gemini APIにビデオフレーム抽出と並列関数呼び出しという2つの新機能を追加、6月にはコンテキストのキャッシュ機能も導入予定であり、長文コンテキストがさらに使いやすく、コスト効率も向上するという。

Gemma の一連のアップデート

 Geminiの開発に用いられた技術によって構築されたオープンモデルファミリー「Gemma」もアップデートされ、2つの新モデルが発表された。

 1つは6月にリリースされる予定の次世代モデル「Gemma 2」。開発者にとって使いやすいサイズ帯でトップクラスのパフォーマンスを実現することを目標としている。

 具体的には、27B(270億)パラメータの「Gemma 27B」が登場する。同モデルは高性能でありながら、GPUまたは単一のTPUホストで効率的に動作するため、Vertex AI上で手軽に利用できるようになるという。

 さらに、画像キャプション生成や視覚的QAなどの画像ラベリングタスクに特化したビジョン言語モデル「PaliGemma」がオープンソースで提供開始。「CodeGemma」や「RecurrentGemma」に続く事前学習済み派生モデルとしてラインナップに加わる。

カテゴリートップへ

ピックアップ