グーグル、1.0から2ヵ月弱で「Gemini 1.5」を発表。驚きの100万トークン

2024年02月17日 17時00分更新

文● 田口和裕

402ページのテキストを読み込んで回答する

　では、いくつかデモを見ていこう。

　この動画では、Gemini 1.5 Proにアポロ11号の月へのミッションについての動画の402ページ（およそ32万トークン）に及ぶ文字起こしデータ（PDF）を読み込ませた上で「Find 3 comedic moments. List quotes from this transcript and emoji.（動画内の3つのおもしろシーンを絵文字付きで引用して）」という難易度の高そうな質問をしている。

　すると、ものの30秒程度で3つの笑えるシーンの引用および、その文脈を回答している。

　さらに、「人類の最初の一歩」を描いたイラストを読み込ませたところ、15秒ほどでそのシーンをタイムコードで特定している。

44分の映画から特定のシーンを検出

　この動画では、44分（およそ70万トークン）のバスター・キートンの無声映画を読み込ませ、「Find the moment when a piece of paper is removed from the person's pocket and tell me some key information on it, with the timecode.（誰かのポケットから紙片が取り出される瞬間を見つけて、その上に書かれた重要な情報と、タイムコードを教えてください）」という質問をしている。

　さすがに動画からの検索は時間がかかるのか1分近くかかったが、ばっちり正解している。

　さらに、映画内の特定のシーンを雑に描いたイラストを読み込ませ、そのシーンを正確に特定し、タイムコードで回答するといった芸当も余裕でやってのけている。

長大なコード群から横断検索

　この動画では。100,000行（およそ82万トークン）を超えるJavaScriptのサンプルコード集を読み込ませ、その中から目的のサンプルを見つけ出し、役立つ修正を提案し、コードの異なる部分がどのように機能するかについて説明するというタスクをこなしている。

プロンプトから勝手に学習

　Gemini 1.5 Proは、ベンチマークの87%で1.0 Proを上回り、1.0 Ultraとほぼ同様（テキストは1.5Proの方が、逆に音声は1.0 Ultraの方が得意）の性能を発揮している。

　また、最大100万トークンの意図的に長いテキスト内から特定の小さなテキストを見つけ出す「Needle In A Haystack（針を藁の山から見つける）」テストでも、Gemini 1.5 Proは99%の確率でその部分を見つけ出したという。

　さらに、世界中で200人未満の話者しかいないカラマン語の文法マニュアルを読み込ませると、同じマニュアルから学んだ人間と同レベルの翻訳スキルを身につけたという。これは、追加のファインチューニングをしなくても、長いプロンプトで与えられた情報からAIが能動的に新しいスキルを学ぶ「コンテキスト内学習」と呼ばれる現象だ。