このページの本文へ

Stable Diffusion入門 from Thailand 第37回

画像生成AIで比較!ChatGPT、Gemini、Grokどれを選ぶ?得意分野と使い分け【作例大量・2025年最新版】

2025年12月26日 17時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

単独使用の実例──それぞれの得意分野

 3つのAIの個性がわかったところで、実際の使用シーンでどう活かすかを見ていこう。まずは、各AIが最も得意とする分野での単独使用例を紹介する。

①Gemini:プロ仕様の商品写真

 Geminiの最大の強みは、フォトリアリスティックな画像生成だ。特に商品写真では、プロのフォトグラファーが撮影したような質感を実現できる。さらに、英語の専門用語を使えば、より細かい作り込みが可能になる。

プロンプト:High-end luxury watch product photography on pure white seamless background. Silver stainless steel bracelet with black dial face. Shot with 85mm macro lens at f/2.8 for shallow depth of field. Key light from 45-degree angle creating specular highlights on metal surface. Subtle rim light separating the watch from background. Focus on the watch face with bokeh blur on the band edges. Professional studio lighting setup with softbox diffusion. Shot resembling Hasselblad medium format quality. Clean, minimal composition for e-commerce catalog.

Gemini生成の商品写真

 85mm macro lens、f/2.8、bokeh blur、specular highlights——こうした撮影用語を使うことで、Geminiは「プロが撮影した商品写真」のクオリティを再現する。被写界深度の浅さ、金属表面の反射、リムライトによる立体感、すべてが指示通りだ。

 日本語でも十分高品質な画像を生成できるが、英語の専門用語を使うことで、より精密なコントロールが可能になる。商品カタログ、ECサイト、プレゼン資料など、「プロっぽさ」が求められる場面では、Geminiが最適だ。

向いてる用途:商品写真、ECサイト、カタログ、プレゼン資料

ポイント:英語の撮影用語を使えば、さらにプロ級の仕上がりに

②Grok:SNSでバズる動画を5秒で

 Grokの最大の武器は、圧倒的な生成速度と派手な表現力だ。さらに、生成した画像を1クリックで動画化できる機能を持つ。SNSでバズを狙うなら、Grok一択だ。

プロンプト:巨大な招き猫ロボット(高さ50メートル)が渋谷交差点に立っている。ロボットの目からレーザービームが発射され、空には爆発のエフェクト。周りには逃げ惑う人々とパトカー、ヘリコプター。ビル群には「SALE 90% OFF」「ラーメン」などのネオンサイン。夕暮れの空にはオーロラが輝き、路面には炎の反射。SF映画の破壊シーンのような、めちゃくちゃ派手で非現実的な雰囲気。画像は縦長(9:16)。

Grok

 巨大な招き猫ロボット、目からのレーザー、オーロラ、爆発——すべてが過剰なまでに派手だ。現実感よりもインパクトを優先した、まさに「バズる」ための画像だ。

 さらにGrokの真骨頂は、この画像を1クリックでBGMやSE付きの動画化できることだ。生成から動画化まで、わずか数秒。X(旧Twitter)への投稿も、そのまま可能だ。

 静止画→動画化→投稿まで、すべてGrok内で完結する。「今すぐバズりたい」「大量に画像を作りたい」——そんな用途では、Grokの速度と派手さが圧倒的に有利だ。

向いてる用途:SNS投稿、バズ狙い、大量生成、インパクト重視

ポイント:1クリックで動画化、投稿までシームレス

③ChatGPT:複雑な日本語指示を完璧に再現

 ChatGPTの強みは、複雑な日本語の指示を正確に理解し、忠実に再現する能力だ。細かいニュアンスまで含めた長文プロンプトでも、指示通りの画像を生成できる。

プロンプト:和風モダンなカフェの店内で、藍染めの着物に白い割烹着を羽織った女性バリスタが、ラテアートを仕上げている瞬間を捉えた写真。カウンター越しの構図で、手元のカップには猫の顔のラテアートが描かれており、泡の質感まで繊細に表現されている。背景には格子戸から見える枯山水の日本庭園があり、障子越しに差し込む柔らかな午後の自然光が空間全体を包んでいる。カウンターの上には、益子焼の抹茶パウダー入れ、銅製の計量スプーン、檜の一輪挿しに活けられた白い椿が配置されている。全体の色調は温かみのある茶系を基調とし、写実的でありながら穏やかな雰囲気の写真。

ChatGPT

 藍染めの着物、割烹着、猫のラテアート、枯山水、障子、益子焼、檜、白い椿——プロンプトに含まれた8つの要素が、すべて正確に再現されている。日本特有の語彙や細かい描写も、ChatGPTは忠実に理解している。

 生成に60秒近くかかるが、その分、複雑な指示への忠実度は3つの中で最も高い。「こういう画像が欲しい」というビジョンが明確なら、ChatGPTに自然な日本語で語りかければいい。会話を重ねながら、理想の画像に近づけることができる。

向いてる用途:複雑な指示、細かいニュアンス、クライアント提案、じっくり作り込み

ポイント:日本語の自然な会話で、細部まで正確に再現

カテゴリートップへ

この連載の記事
ピックアップ