画像生成AIとしても超進化したChatGPT「GPT-4o」

2024年05月14日 14時00分更新

文● 田口和裕

OpenAI「GPT-4o」を使った生成画像のサンプル

　OpenAIは5月13日（現地時間）、「Spring Update」と題したオンラインプレゼンテーションを配信。新しい大規模言語モデル（LLM）「GPT-4o（オー）」がお披露目された。

　プレゼンテーションではまるで人間と話しているような音声会話機能が話題になっているが、実はウェブサイトに掲載された記事を見ると画像生成機能も大幅に性能アップしていたことがわかった。

一貫性の保持。AIコミックが描けるぞ！

　今回のプレゼンテーションではなぜかまったくと言っていいほど触れられていなかったが、画像生成AI「DALL-E 3」（おそらく）を使用した画像生成能力も大幅に進化しているようだ。

　まず、いちばん驚いたのは画像の一貫性の保持だ。なぜなら、DALL-E 3やStable Diffusionなどの画像生成AIにとって「同じキャラクター」を生成するのは最も苦手な仕事だからだ。

　まずはキャラクターの生成。プロンプトは「微笑みを浮かべる漫画の郵便配達員。白い背景の前に正面を向いて立っている」といったところだ。

　次に生成されたキャラクターに「サリー」という名前を付けてアップロード。

　続けて「サリーは家の赤いドアの前に立ち、手に手紙を持っている。私たちは彼女を横から見ている」というプロンプトを入力すると、なんとアップロードしたそのままのサリーが別の角度で描画されている。

　さらに「今、サリーは犬に追いかけられている。サリーが歩道を走っていると、ゴールデンレトリバーが追いかけてくる」、「あっ、サリーがつまずいた。サリーは歩道をふさいでいた枝につまずき、立ち上がろうとしている。後ろで犬がまだ彼女を追いかけている」というプロンプトを入力すると、こちらもまったく同じサリーが描画されている。

　もしこれが本当に実現したら、これまで同じキャラクターを作成するのに大変な手間がかかっていたAI漫画が一気に普及するかもしれない。

長いテキストを正確に再現

　画像生成AIが苦手なことはまだたくさんあるが、中でも苦労している人が多いのがテキストの表現だ。特定のテキストを画像に表示させるという一見簡単な作業もAIにとってはかなり難易度が高い。

　ここでは指定したポエムを描画するよう、プロンプトにはポエムそのものと、「端正な手書きの絵入り詩。筆跡は整然としており中央揃え」「はっきりと、しかし興奮した筆跡」「シュールレアリスムの落書きで上品に飾られている」といった詳細な指示が記載されている。

　結果としては、「端正な手書き」「シュールレアリスムの落書き」といった指示そのままにポエムが描画されている（細かく見るとポエムの8行目が抜け落ちているがそこはご愛嬌）。

　さらに画像をダークモードにしたり、

　罫線を削除したりといった細かい修正をすることもできるようだ。その際も一貫性は保持されている。

複数画像の合成

　次は、複数画像を合成する機能。まずはおそらくインカメラで撮影された2人の人物の顔写真をアップロード。

　続けて以下の詳細なプロンプトを入力。

プロンプト：映画『刑事』の最終ポスター。アレックスとゲイブの2人の顔が大きく描かれている。左側のアレックスは思慮深いポーズで描かれ、その目には内省的な気配が漂っている。右側のゲイブは少し疲れた表情をしており、おそらく映画の中で彼らのキャラクターが直面する困難を反映しているのだろう。彼らの頭上には「アレックス・ニコル」と「ガブリエル・ゴー」の名前が記されている。背景のレンガの壁は少し色あせて霧がかかっており、彼らの表情は真剣で決意に満ちていて、これから彼らが行う捜査を暗示している。このダークで骨太な映画のキャッチフレーズは「Searching For Answers」