新清士の「メタバース・プレゼンス」 第39回
画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている
2023年10月16日 07時00分更新
ついにChatGPTでもDALL·E 3が使えるように
これと同時期に、月20ドルの有料課金で利用できるChatGPT Plusのユーザーを対象に画像解析機能が順次与えられるようになりました。「GPT-4V(ision)」ですね。
たとえば筆者が開発しているゲームのキービジュアルを入力すると、何の画像か説明してくれて、どんな意味を持っているか文章化できるようになりました。「このデータをプロンプトにまとめてくれ」と言い、Bingチャットに持っていくと、それっぽいものを出してくれます。この時点で、ChatGPTとDALL·E 3が合体すると強力になるんだなということが見えてきたわけです。
そして、その後いよいよChatGPT Plusで、順次DALL·E 3が利用できるようになり、組み合わせるととてつもなく強力だということがわかってきました。対話の柔軟度はChaGPTのほうがさすがにBingチャットより上で、いろいろ細かいところまで指示に付き合ってくれます。
たとえば「制服を来た少女が全速力で坂道を駆け抜ける姿」という指示で描いてもらいました。特にStable Diffusion v1.5は表情が苦手なのですが、DALL·E 3は表情も豊かに描いてくれました。追加で指定するたびに、新しいプロンプトのバリエーションを4種類生成して、それぞれで画像を作り出すという仕組みになっています。ただ、「もうちょっとスピードを上げて」とか、追加指示をしているうちに坂道がなくなってしまったりというところはありましたが。
ほかに驚いたのは、より複雑なバイクです。自転車が出せるのだから、バイクも出せるわけですが、この自然にバイクに人が乗っているクオリティは現状ほかの画像生成AIではなかなか簡単には出ません。
フェイク、著作物は対策済み
また、OpenAIは3日に「DALL·E 3 システムカード」というレポートを発表し、画像生成AIで生成される画像の安全性を確保するために、様々な仕組みを入れていることを報告しています。性的であったり、暴力的だったり、憎悪のシンボルであったりするようなものや、フェイクニュースとなりうるリアル性の高い画像が生成できないように、様々な対策が取られているようです。実際にそういう画像を作ろうとすると、拒絶されます。
ChatGPTでは、IP関連についてのレギュレーションも厳しく設定されているようです。
検証してみて面白かったのは「ガンダムが空を飛んでいる」という指示を出すと、プロンプトのなかには「ガンダム」が含まれないんですよ。IPが直接指示に入っているものについてはそれを回避するルールがあるようです。ただ、実際に出てくるものはガンダムっぽい何かなんですけど……(笑)。まだBing側はこのレギュレーションが入っていないようで、プロンプトにガンダムがそのまま入っているのですが、クラウド系サービスをやっている企業は、今後トラブルを避けるためにもIP関係が厳しくなっていくのだろうという予想はつきますね。
![](/img/2023/10/14/3621484/l/43f0ea4b5fe71067.jpg)
「ガンダムが空を飛んでいる姿を描いて」と指示して、ChatGPTが画像を生成しているところ。4種類のプロンプトが生成されてDALL·E 3が画像を生成しているが、ガンダムという単語がない。「giant robot, reminiscent of populer mecha designs(人気メカのデザインを彷彿とさせる巨大ロボット)」などと直接言及しないように言い換えている。
ちなみに別の例で、「ドラえもん」はどうかと言うと、そのままでは生成できませんでした。「ドラえもんの雰囲気を持つオリジナルキャラクターを」とすると、似たようななにかが生成されるようになりました。しかし、これがオリジナルと言えるかどうかはなかなか微妙な印象は受けます。
しかし、その後調整が入ったようで、ドラえもんだけでなく、「ドラえもんスタイル」といったものでは生成してくれなくなりました。ドラえもん風など、ドラえもんがプロンプトで直接触れていないワードにしないと生成してくれないようです。その結果、ドラえもんとはだいぶ違うものが生成されるようになっています。英語で生成されたプロンプトにはいずれも「ドラえもん」というワードは入っていません。
ただ、プロンプトの工夫で、回避方法はいくつもあるようです。しかし、IPに似たものを出そうとすると、生成者が意識して似せようとしないと似ないという傾向はあるようです。つまり、著作権侵害などが問題になったときに、プロンプトを確認すれば、生成者がどの程度、似せようとして作っていたかが明らかになるわけです。似せようとすればするほど、生成者の責任が重くなると考えることができそうです。
![](/img/blank.gif)
この連載の記事
-
第67回
AI
アドビの画像生成AI機能がまた進化 白黒3Dモデルがリアルな都市に -
第66回
AI
有名人そっくり、増え続けるAI音声 “声の権利”どう守る -
第65回
AI
画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 -
第64回
AI
自分好みのAIチャット相手を簡単に作れる「Dify」が面白い -
第63回
AI
まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 -
第62回
AI
動画生成AI、映像制作の“民主化”目指して研究進む -
第61回
AI
画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも -
第60回
AI
3Dアニメーション技術の革新が止まらない -
第59回
AI
政府、生成AI推進に向けて議論を加速 -
第58回
AI
画像生成AIで同じキャラクターが簡単に作れるようになってきた -
第57回
AI
日本発のリアルタイム画像生成AIサービスが熱い 大手にとっては“イノベーションのジレンマ”に - この連載の一覧へ