グーグルは12月13日(現地時間)、同社のマルチモーダルAI「Gemini Pro」のAPIを公開した。
「Gemini」シリーズは性能とサイズの異なる3つのモデル「Gemini Ultra」「Gemini Pro」「Gemini Nano」が存在するが、公開されたAPIからは3モデルの中間に位置するGemini Proを利用できる。
同日現在のバージョンでは、テキスト用の32Kコンテキストウィンドウが付属。標準でテキストの入出力に対応するほか、「Gemini Pro Vision マルチモーダルエンドポイント」を使えば、テキストと画像の入力に対しテキストで出力を得ることも可能だ。
米国や日本など180の国や地域からアクセスでき、言語も英語・日本語・ドイツ語など38言語をサポート。さらにPython、Node.js、Swift、JavaScriptに対応したアプリ構築に役立つSDKも利用できるという。
同社はほかにも、無料のウェブベースの開発者ツール「Google AI Studio」を公開。同ツールではプロンプトを迅速に開発し、アプリ開発で使用するAPI キーを取得できるだけでなく、Googleアカウントでログインすると1分あたり60リクエスト(ほかの無料サービスの20倍相当)を許可する無料割り当てを利用可能となる。
料金については、2024年初頭に予定されている一般公開までは無料で使えるが、1分あたり60リクエストに制限される。一般公開後の価格はテキスト入力が1000文字ごとに0.00025ドル(約0.035円)、画像入力が1画像ごとに0.0025ドル(約0.35円)、テキスト出力が1000文字ごとに0.0005ドル(約0.071円)だ。