グーグルは5月14日(現地時間)、開発者向けカンファレンス「Google I/O 2024」を開催。同社が開発する大規模言語モデル(LLM)「Gemini」ファミリー全体に大規模なアップデートを導入したことを発表した。
広がるGeminiファミリー
グーグルは2023年12月、同社初のマルチモーダルLLM「Gemini 1.0」を、「Ultra」「Pro」「Nano」の3種類のサイズで公開、2024年2月には100万トークンのコンテキストウィンドウを備えた「1.5 Pro」を公開してきた。
「Google I/O 2024」では新たに最軽量モデルの「1.5 Flash」を発表、あわせて大幅に改良された「1.5 Pro」、オープンモデル「Gemma」のアップデートなども発表された。
スピードと効率を最適化した「1.5 Flash」
1.5 Flashは、今回新たに発表されたGeminiファミリー最軽量モデル。翻訳やコーディングをはじめとする高頻度タスクの処理に最適化されている。
蒸留(Distillation)と呼ばれる技術を活用することで、性能を維持しながらサイズと推論時間を大幅に削減。1.5 Proに匹敵する性能を発揮しつつ、よりコンパクトで高速なモデルとなっている。
100万トークンの長文コンテキストウィンドウを備え、テキスト、画像、音声、動画などのマルチモーダル入力にも対応している。
現在200以上の国と地域でプレビュー版の提供が開始されており、6月には正式リリースが予定されている。
大幅に改良された 1.5 Pro
競合製品よりも圧倒的に多い100万トークンのコンテキストウィンドウを備える1.5 Proだが、今回なんと200万トークンにまで拡張された。1時間の動画コンテンツや3万行以上のプログラムコードに相当する膨大な情報を処理できる計算になる。
このバージョンはGoogle AI StudioやVertex AIのウェイティングリストに登録することでアクセスが可能になる。
さらに、データとアルゴリズムの進歩を通じて、コード生成、論理的推論とプランニング、マルチターン会話、音声と画像の理解を強化。これらの各タスクの公開ベンチマークと内部ベンチマークでの結果が大幅に改善されている。
また、Gemini APIにビデオフレーム抽出と並列関数呼び出しという2つの新機能を追加、6月にはコンテキストのキャッシュ機能も導入予定であり、長文コンテキストがさらに使いやすく、コスト効率も向上するという。
Gemma の一連のアップデート
Geminiの開発に用いられた技術によって構築されたオープンモデルファミリー「Gemma」もアップデートされ、2つの新モデルが発表された。
1つは6月にリリースされる予定の次世代モデル「Gemma 2」。開発者にとって使いやすいサイズ帯でトップクラスのパフォーマンスを実現することを目標としている。
具体的には、27B(270億)パラメータの「Gemma 27B」が登場する。同モデルは高性能でありながら、GPUまたは単一のTPUホストで効率的に動作するため、Vertex AI上で手軽に利用できるようになるという。
さらに、画像キャプション生成や視覚的QAなどの画像ラベリングタスクに特化したビジョン言語モデル「PaliGemma」がオープンソースで提供開始。「CodeGemma」や「RecurrentGemma」に続く事前学習済み派生モデルとしてラインナップに加わる。