このページの本文へ

Stable Diffusion入門 from Thailand 第37回

画像生成AIで比較!ChatGPT、Gemini、Grokどれを選ぶ?得意分野と使い分け【作例大量・2025年最新版】

2025年12月26日 17時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

「超複雑プロンプト」で限界を見る

本気のストレステスト:多要素での複雑プロンプト

 シンプルなプロンプトでは差が出にくい。そこで、過剰なほど多くの要素を詰め込んだ超複雑プロンプトで3つのAIの限界を試した。

テストプロンプト

「渋谷スクランブル交差点で、侍(鎧姿)と忍者(黒装束)とロボット(ガンダム風)が将棋を指している。周りには10人の群衆(傘を持った人、買い物袋を持った人含む)。背景に『ASCII.jp』のビル看板。時間帯は夕暮れ、雨上がりで路面が濡れている、空には虹。画像は横長(16:9)。」

Gemini

Grok

ChatGPT

詳細検証結果

項目 Gemini Grok ChatGPT
侍の描写 鎧の質感◎ 完璧◎ 鎧の色彩美◎
忍者の描写 黒装束◎ 黒装束◎ 黒装束◎
ロボット ガンダム風◎ 立ち姿で迫力◎ ガンダム風◎
将棋盤 明確◎ 明確◎ 明確◎
群衆(10人) 10人以上◎ 多数配置◎ 多数配置◎
傘・買い物袋 両方確認◎ 傘多数◎ 両方確認◎
ASCII.jp看板 完璧◎ 完璧◎(2つ) ほぼ完璧◎
夕暮れ 完璧◎ 完璧◎ 完璧◎
濡れた路面 反射美しい◎ 反射あり◎ 反射完璧◎
自然で控えめ◎ 鮮明◎ 美しい◎
総合評価 ★★★★★ ★★★★★ ★★★★★

3つの発見

①複雑な指示への対応力は3つとも極めて高い
 7つの要素をほぼ完璧に再現した。侍・忍者・ガンダム・将棋盤・群衆・看板・天候——すべてが指示通りだ。2025年の画像生成AIは、もはや「複雑だから失敗する」というレベルではない。

②個性は「何を再現するか」ではなく「どう見せるか」
 Geminiは構図が最も整っており、ドキュメンタリー的な安定感がある。Grokはガンダムを立たせるなど、ドラマチックな演出を加える。ChatGPTは映画のワンシーンのような構図で、物語性を感じさせる。要素の再現度ではなく、演出の違いが個性だ。

③生成速度の差は極めて大きい
 Grokは約5秒で複数枚同時生成、Geminiは30秒前後、ChatGPTは60秒前後だった。複雑なプロンプトでも、Grokの速度は圧倒的だ。急ぎの作業や大量生成ではGrok、じっくり作り込むならChatGPTという使い分けが有効だ。

カテゴリートップへ

この連載の記事
ピックアップ