グーグルが開発中の次世代大規模言語モデル(LLM)「Gemini-1.5-Pro-Exp-0801」が、モデルの性能を評価するベンチマークサイト「Chatbot Arena」2024年7月31日付けランキングで1位になっていたことがわかった。
Chatbot Arenaのランキングは、1000万人以上の人間によるLLMのペアワイズ比較データ(LLMの性能を評価するためのデータセット)を収集し、各LLMを順位付けしたもの。同日のランキングでは新モデルの「Gemini-1.5-Pro-Exp-0801」が、OpenAIの「GPT-4o」シリーズやAnthropicの「Claude 3.5 Sonnet」といった強豪を押しのけ、堂々の1位を獲得している。
ランキングにはバージョンの異なるGeminiシリーズも複数ランクインしているが、GPT-4oとClaude 3.5 Sonnetの両方を下したのはGemini-1.5-Pro-Exp-0801のみ。
なお、Chatbot Arenaに限らず、LLMの性能ランキングやベンチマーク結果はあくまで参考値であり、実際の利用シーンでは、ほかのモデルの方が高い性能を示す場合もある。