SNSサービスXは8月14日、生成AI「Grok」の新バージョン「Grok-2 mini」のベータ版導入を開始した。月額980円からの有料ユーザー限定機能で、画像生成にも対応する。
「Flux.1」を使った画像生成に対応
— xAI (@xai) August 14, 2024
GrokはXの関連企業xAIが開発するAIアシスタント。Xの有料プラン(X Premium/X Premium+)のユーザーであれば、Xのブラウザー版やiOS/Androidアプリから利用できる。
同社によると今回公開されたGrok-2 miniは、コンパクトなサイズを保ちつつ、速度と回答の品質のバランスが取れた高性能なモデルとのこと。推論、読解、数学、科学、コーディングを含む一連の学術ベンチマークでは、OpenAIの「GPT-4o」やAnthropicの「Claude 3.5 Sonnet」と同等または若干劣る程度の成績を収めているほか、グーグルの「Gemini Pro 1.5」に対しては全カテゴリーで性能が上回ったとしている。
ただし、ベンチマークテストはあくまで1つの指標に過ぎないため、実際の利用シーンでは性能差が異なる場合もあることには注意したい。
Grok-2 miniは旧バージョンで提供されてきたテキスト生成に加えて、画像の生成にも対応。GPT-4oなど、画像生成機能を備えた競合製品との機能差が縮まった。
画像生成に用いるAIモデルには、Black Forest Labsの「FLUX.1」を採用。こちらは8月1日に発表されたばかりの新しいモデルで、パラメーター数は120億。Stable Diffusionの共同開発者らが開発に携わり、高速かつ高品質な画像生成と、商用利用可能な点が特徴だ。
日本語プロンプトにも対応するが制約も
8月14日現在、X Premiumに加入した筆者のアカウントで確認した画像生成機能の性能や制約は、以下のとおり。
まず、プロンプト(AIへの指示文)については日本語も使えるが、あくまで「一応対応している」というレベル。テキスト生成と異なり、画像生成では英語を使ったプロンプトの方が、Grokへ正確に指示を伝えることができるようだ。
つぎに生成画像の解像度については1080x768px固定されており、プロンプトで別の解像度を指示しても無視されてしまう。フルHDや4Kなど、より高解像度の画像が必要なシーンでは、残念ながら利用できない。
画像の生成速度については、筆者が試した8月14日15時頃の時点では概ね10秒以下で生成できており、サーバー側で処理をする画像生成AIとしては十分に速いと感じた。今後も常にこのレベルの生成速度を維持できるなら、当面はストレスなく使えそうだ。
一方でベータ版ということもあってか、Grokから画像を出力した旨のテキストが返ってきても、肝心の画像が表示されないケースが割と頻繁に発生した。また、生成した画像の共有リンクはX Premium以上のプランを契約するユーザーしか画像を見ることができないため、いささか使いづらい。こうしたエラーや制約は、できれば早いうちに改善して欲しい。
ほかにも珍しいケースとして、GrokにXで流行したジョークポストのデータが反映されてしまい、指示した内容と無関係な画像を生成してしまう現象がみられた。具体的な内容は割愛するが、イメージとしては「#ティータイム」というハッシュタグを入れてハンバーグの画像をポストするジョークがX上で流行ると、Grokもその影響を受けて、ティータイムの画像を生成するプロンプトでハンバーグの画像を生成してしまうといった具合だ。
Xのポストを学習しているGrok特有の面白いエラーとみることもできるが、今後、こうした仕様を逆手にとり、Grokの出力を狂わせる悪戯が出てくる可能性もありそうだ。