グーグルは8月21日、生成AI「Gemini」を使用するための「Google AI Studio」「Gemini API」でアップロード可能なPDFの最大容量を、これまでの300ページから1000ページまたは2GBまでに拡大したと発表した。
同社でAI Studioなどを担当するLogan Kilpatrick氏によると、テキスト理解と画像理解の両方を利用して、1ページにつき1画像として処理しているという。
We just increased the max PDF page upload size to 1,000 pages or 2GB (up from 300 pages) in Google AI Studio and the Gemini API. 🗒️
— Logan Kilpatrick (@OfficialLoganK) August 20, 2024
We use both text understanding and the native multi-modal capabilities of Gemini to process these documents (1 image per page).
国語辞典や英和辞典といったメジャーな辞書はページ数が多い(1700〜3300ページ程度)ため難しいが、コンパクトサイズの辞書や行政機関、業界団体などが発行する白書などであれば、十分対応可能。ページ数の多いPDFデータを扱う機会の多いユーザーには嬉しいアップデートといえそうだ。