OpenAIは9月20日(現地時間)、ChatGPTと連携し、シンプルなテキストから画像を生成できる「t2i(Text to Image)」型AIの最新バージョン「DALL·E 3」を発表した。
現在はリサーチプレビューの段階だが、有料版のChatGPT PlusおよびEnterpriseの顧客には10月より、API経由およびLabsでは今秋後半に公開される予定だ。
プロンプトを忠実に再現
DALL·E 3は2021年に発表された「DALL·E」、2022年に発表された「DALL·E 2」に続くOpenAIの画像生成モデル。「Stable Diffusion」や「Midjourney」と同様、入力されたテキストプロンプトに従って精細な画像を生成するt2iモデルだ。
近年のt2iモデルは単語や説明に素直に従ってくれない傾向があり、ユーザーが望みの画像を得るためには「呪文」とも呼ばれる複雑なプロンプトを操る「プロンプトエンジニアリング」技術が要求されることも多い。
OpenAIによると本モデルは「精度およびプロンプトへの準拠を最適化した強力なアーキテクチャにより、これらの限界を克服することを目指し」て開発されている。
プロンプトへの忠実さを示す作例を見ると、
「full moon(満月)」
「a young woman with fiery red hair, dressed in a signature velvet cloak(ベルベットのマントを羽織った、赤い髪の若い女性)」
「haggling with the grumpy old vendor(不機嫌そうな売り子と交渉している)」
「tall, sophisticated man(背が高く洗練された男性)」
「 noteworthy moustache(口ひげを蓄えた)」
「steampunk telephone(スチームパンク風電話機)」
と、全てのプロンプトに対して忠実に再現しているように見える。
「シンプルなプロンプトへの回帰」は、Stability.aiの新モデル「Stable Diffusion XL(SDXL)」も謳っており、現在のトレンドと言えるかもしれない。
クオリティーもDALL·E 2から大幅改善
上記の画像は「An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula(星雲の爆発のように描かれた、バスケットボール選手のダンクを表現した油彩画)」という全く同じプロンプトを使ってDALL·E 2とDALL·E 3で生成されたものだ。
表現力やプロンプトへの忠実さが前モデルから大幅に向上しているのがわかる。
OpenAIによると、DALL·E 3は、特定のオブジェクトや要素間の関係といった、今までのモデルが苦手としていたプロンプトも容易に扱うことができるとしている。
ChatGPTがプロンプト作成のお手伝い
目玉となるのはChatGPTとの連携だろう。DALL·E 3はChatGPT上でネイティブに構築されており、ChatGPTにプロンプトの相談をしたりプロンプトをより洗練されたものにリファインしてもらうことができるという。
ChatGPTに画像生成AI用のプロンプトを作ってもらう手法は以前からTIPSとして活用されていたが、より簡単に実現できるようになる。
現在のところChatGPT上でDALL·E 3を使った画像生成に制限が設けられるかどうかは不明だが、ChatGPTが「Midjourney」や「Dreamstudio(Stability.ai)」といったサブスクリプション型画像生成サービスの代替候補になることも十分考えられる。
存命中アーティストの画風をまねる命令は拒否
DALL·E 3は前モデルと同様に、暴力的、成人向け、憎悪的なコンテンツの生成を拒否するように設計されている。また、肖像権で保護されている特定の人やキャラクターを描いたり、存命中のアーティストの画風をまねることを要求するプロンプトも同様に拒否されるという。
同社はさらに、AI生成画像を自動的に検出するツールをテストしており、未だ不透明なAI生成画像の権利処理問題について対応する用意があることを強調している。