このページの本文へ

新清士の「メタバース・プレゼンス」 第46回

画像生成AIが爆速で進化した2023年をまとめて振り返る

2023年12月11日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

アドビの台頭と「AIグラビア」問題

 画像生成AIが話題になるなか、大手企業として本格的に入ってきたのがアドビ。3月22日に「Adobe Firefly」のベータ提供を開始し、話題になりました(一般提供開始は9月)。

 いまだにFireflyの課題としてあるのは、1024×1024ピクセルでの画像しか生成できないこと。大きな画像サイズの場合は生成した画像をアップスケールしているようで、レスポンスは早いものの、画面の端がぼやけてしまうという難点があります。実際にプロが使いはじめると、スケールが小さすぎて使いものにならないことが課題になっています。

 おそらくアドビは今後、毎月付与される有料ポイントを使うとディテールを高めるといったオプションを作るのではないかと予想されています。

 とはいえ、現状でも削除機能は非常に優秀で、業務のなかでは頻繁に使う機能になりました。要らないものをまとめて消したり、画面の端に足りないものを足したりするのは非常に便利です。

Photoshopに統合されたFireflyの「生成塗りつぶし」機能でキャラクターをマスク(左)し、生成した画像(右)。完全にキャラはいなくなり、画像に沿った自然な風景が生成されている(「Photoshopの画像生成AIがすごい ついに商用利用もスタートへ」より)

 商用利用という意味で言えば、著作権に関するリスクをアドビが負ってくれるということで使いはじめているという人も増えました。その後、マイクロソフトやグーグルなど各社が生成AI著作権リスクを補償するという形になってきましたね。逆に言うなら、著作権侵害裁判が来たとしても、それに打ち勝てる自信を持っているとも言えます。

 実際、アメリカでは生成AIのプラットフォーマーを相手に著作権侵害を訴える裁判が始まっています。ただしこの1年、日本国内では知る限り、生成AIで生み出された結果に対して、著作権侵害を問う裁判は1件も提起されていません。

 そんななか、5月には集英社がAIグラビア「さつきあい」を出して、すぐ引っ込められてしまうということがありました。特定の人物のLoRAを使っているんだろうと言われて引っ込めたとされています。このあたりから、いわゆる「狙い撃ちLoRA」のようなモデルの「類似性」と「依拠性」が著作権上の問題として意識されはじめました。

AI系データのUCG投稿サイトのCivitaiにアップロードされている狙い撃ちLoRAの例
(「集英社も取り下げた『AIグラビア』の問題点」より )

「SDXL」と「動画生成AI」の勃興

 8月に入ると、Stable Diffusion最新版の「Stable Diffusion XL(SDXL)」が登場。それまでは512x512ピクセルで学習をしていましたが、SDXLでは1024x1024ピクセルに高画質化。これにより、より精密な画像を作れるようになりました。学習元データは、著作権者が希望すればデータセットからのオプトアウトができるようになり、比較的クリーンになったとされています。

 ただ、過去のStable Diffusionとデータの互換性がない上に、求められるグラフィックスカードなどのスペックが上昇したこともあり、最初はあまり反応がありませんでした。しかしその後、コミュニティが徐々に成長していき、SDXL用のモデルも増加してきました。SDXL専用のControlNetも開発されはじめています。

SDXLの作例。ライティングや材質表現などが、これまでよりも非常に美しくなっている。しかし、初期のものでは、アニメ系はいまいちだった(「世界を変えた画像生成AI、さらに進化『Stable Diffusion XL(SDXL)』いよいよ正式公開」より )

 そして同月、SDXL向けのインターフェースとして登場したのが「Fooocus」です。

 Fooocusは、それまでの「WebUI」「ComfyUI」といったStable Diffusion向けのインターフェースに比べて、圧倒的にシンプルで使いやすいのが特徴。最初は機能を絞っていましたが、徐々に多機能なソフトへと成長していきました。今ではControlNetの一部機能を取り入れて、1枚絵だけでLoRAを作れるようにもなっています。

Fooocusの画面。作者はControlNetの開発者であったことも驚きの要因だった。現在までも次々にアップデートが続いている(「画像生成AIに“表現の自由”を スーパーハッカーが挑んだ『Fooocus』」より )

 同時期には、ノードベースの生成環境「ComfyUI」も登場しました。スクリプトを組むように生成プロセスを設計できて、カスタマイズも容易な上に余計なプロセスがないので処理も早いということで人気になりました。Stablity UIの公式環境にもなったことで、Stable Diffusionの最新技術を実験するための環境として普及が進んでいます。

 こうしたインターフェースがSDXLを引っ張っている最前線と言えますね。

ComfyUIの画面。ノードベースで作られているため、作成画像のプロセスを自ら設計できるようになった

 また、このSDXLと同時期に発展してきたのが動画生成AI。有力なのが有料サービスの「Runway」です。最初はしょぼいものしかできず、いわば運任せの「ガチャ」でしたが、世代が進むにつれてカメラをコントロールしたり、着実にバージョンアップを重ねながら、全体的なクオリティを上げてきています。

 もうひとつの方向が、ローカル環境でアニメっぽいものが生成できる「Animatediff」。これは特にオンラインコミュニティのなかで爆発し、色々な技術が開発されました。

 特に「ComfyUI」に実装されて、改造して制御を効かせようという技術がコミュニティ内で発展していきました。自分で制御ができるということもあり、Animatediffを使って本格的なアニメーションを作ろうとする人々も出てくるようになりました。これは非常に大きな変革だったと言えます。

Animatediffによって生成されたアニメーション(「アニメの常識、画像生成AIが変える可能性「AnimateDiff」のすごい進化」より)

カテゴリートップへ

この連載の記事
ピックアップ