Stability AIが画像生成AI「Stable Diffusion」を公開したのは2022年8月のこと。すさまじい勢いで発展してきた画像生成AIの1年を振り返ってみようと思います。
初めに見てもらいたいのは「これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした」で紹介した、KritaとGenerative AI for Kritaを組み合わせて作成した設定資料的な画像です。

キャラクターの3面図のサンプル。Vroidで簡単な3Dで当たり(左)として、右の画像を作成する。それを元に、プロンプトや画像に描き込んだりして、最終画像を作成していく。2枚目には前面図の頭部のカチューシャや、胸部分のフリルがなかったりするが、そこに色を加筆して、プロンプトで指示すると、最終画像にそれが追加されるのをリアルタイムに確認しながら修正できる(筆者作成)
Stable Diffusionを使って同じキャラクターを多数の方向から作る技法は、今年の前半には確立されてきました。しかし、Stable Diffusionは確率によって画像が生成される仕組みである以上、データの仕上げに向けて何度も出力して修正を重ねる必要があり、とても面倒だったんです。ところが、リアルタイム修正ができるようになったことで、画像に一貫性を持たせたまま修正作業ができるようになりました。
何が言いたいかというと、次々に開発される新技術によって、制作者側が目指す意図に合わせて、狙った画像を作れる余地が広がった1年だったということなんです。
「LoRA」と「ControlNet」の衝撃
まず、去年11月に登場した追加学習技術「LoRA(ローラ)」が普及しはじめたのが今年1月のこと。LoRAは自分が生成したい画像を追加学習させる仕組みです。さまざまなモデルデータが登場し、アニメタッチから実写風まで、様々な画風の画像が登場するようになったのもこの頃です。
当時は画像から画像を生成する「image 2 image」しか制御する方法がなかったため、「AIトレパク」も問題になっていました。ただし、低ノイズimage 2 imageによる模倣のトラブルや、LoRAによる特定画家の画風の模倣の問題はいまだに続いています。

VRoidの公式3Dモデル(左)を低ノイズi2iでアニメ風にした例(右)
(「『AIトレパク』が問題に」より)
2月にはOpenAIのサム・アルトマンCEOが来日。赤松健議員を初めとして、自民党内で生成AIについて本格的に議論されるようになってきたのもこの頃でした。
この頃、画像生成AIにとって何よりも大きかったのがStable Diffusionを様々な方法でコントロールするツール「ControlNet」の登場です。ここから、Stable Diffusionの入力方法としてはテキストプロンプトよりも画像のほうが強力だということが知られるようになってきました。制御という意味では革命を起こしたと言ってもいいですよね。
ControlNetの登場により、構図をコントロールしたり、特定のキャラクターの位置を制御して生成できるようになりました。5月にControlNet追加機能「ReferenceOnly」が登場したことで、画風やタッチも制御可能になり、画風は同じだけどまったく違う絵が生成できるようになりました。

葛飾北斎「神奈川沖浪裏」をReferenceOnlyで読み込ませ、サーファーを追加した画像(「画像生成AIに2度目の革命を起こした『ControlNet』」より )

この連載の記事
-
第107回
AI
最強スペックなのに無料 謎の画像生成AI「HiDream-l1」 -
第106回
AI
ChatGPTと性的なチャットができるようになり、すぐに禁じられた背景 -
第105回
AI
“イリヤ神”がまたやった 動画生成AI「FramePack」が革命的なワケ -
第104回
AI
ChatGPTの「彼女」と話しすぎて腱鞘炎になった -
第103回
AI
画像生成AI「Midjourney v7」が圧倒的 品質は最高、速度は高速 “ジブリ風”も簡単に -
第102回
AI
“偽人間”のリスクと誘惑 共感するAIと、問われる人間らしさ -
第101回
AI
ChatGPT、“ジブリ風”で世界騒然 画像生成AIが「自己回帰」で新時代に -
第100回
AI
動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び -
第99回
AI
無料で使えて超高品質、画像生成AIの最新事情 -
第98回
AI
動画生成AIの進化がすごい 「超リアル」「ローカルで動く」2つの方向に -
第97回
AI
AI法案、柔軟規制で国会審議へ 罰則なし“ソフトロー”の狙いは - この連載の一覧へ