2月11日に、韓国ONOMA AIが開発した画像生成AI「illustrious XL(イラストリアス)」のv1.0がリリースされて話題になっています。2024年9月にv0.1が公開された際、v1.0やv2.0を開発していると示唆があったのですが、意図的に公開されていませんでした。3月18日にはクラウドでの「v2.0」も公開を開始しています。最大の特徴は高解像度化です。ベースとなる基盤モデル「Stable Diffusion XL(SDXL)」では1024x1024の画像で学習していますが、v1.0では追加学習用の学習データを1536x1536へと大幅に引き上げています。その分、学習にかかる計算量は大幅に増大していますが、より大きなサイズの画像を適格に描写する能力を獲得しています。レガシーモデルと考えられているSDXLの派生モデルの性能が、まだまだ上がり続けています。
※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください
高解像度で生成できる「illustrious XL v1.0」
illustrious XL v1.0の性能の高さがわかるのは、これまでのSDXLでは表現できなかった1536x1536の画像を破綻なく生成できることです。そのぶん必要となるVRAMサイズや生成時間に影響を与えますが、それを余りある品質の高さが実現されています。
SDXLは「AIディテーラー」という拡張機能を使い、生成した画像から顔の部分だけを自動的にピックアップして再度生成しなおすのが一般的でした。解像度の限界からあいまいに生成されやすい顔をはっきりさせるためのテクニックとして使われていたわけです。しかし、もともと解像度の高いIllustrious XL v1.0では、修正しないほうがキレイな状態を保てることが少なくありません。生成面積が2倍になるため生成時間は2倍程度になりますが、二度生成する手間がないため、体感としての生成時間は短くなっているとさえ感じます。
指や複雑なポーズについても描画力が上がっています。アニメ系に偏っているという限界はあるのですが、最高クラスの描画力を持っていると言えると思います。

比較的シンプルなプロンプトで生成した4枚(筆者作成)。解像度が上がったことで細部の描写力が上がり、指などの描写力が上がっている。解像度は1536x1536(派生モデルのillustrious_pencil-XL-v3.2.0を使用)

逆立ち(handstand pose)のような複雑な人体ポーズの表現はかなり難しかったが実現できている。解像度は1248x1824(派生モデルのillustrious_pencil-XL-v3.2.0を使用)
Illustrious XLは、SDXLを基に開発されたモデル「Kohaku XL Beta5」をさらに追加学習して作られた派生モデルです(参考:イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃)。学習データのベースはアメリカのキュレーションサイト「Danbooru」などのアニメ・イラスト系画像であることが明らかにされていますが、v1.0で大幅に変わったのが、学習データの高解像度化です。9月に公開されたv0.1では、SDXLと同じ1024x1024でしたが、v1.0では1536x1536で学習されています。出力サイズの違いを比較したのが次の図ですが、学習サイズとしてはSDXLの1.5倍ですが、ピクセル数で考えると2.25倍も違います。最初のStable Diffusion v1と比べると9倍もの違いがあります。学習データもv0.1の750万枚から、v1.0では1000万枚に増えています。
1024x1024で学習したモデルでは、それ以上のサイズを出力すると画像が破綻することが多くなります。そのため、高解像度の画像を作る場合、一度小さなサイズで作成して、その後、アップスケーラーを使ったり、ControlNetを組み合わせたりして、高解像度化を図るというのが、一般的な方法になっています。ところが、1536x1536で学習されたモデルでは最初から、そのサイズの高解像度を破綻なく出力できるようになるのです。

この連載の記事
-
第104回
AI
ChatGPTの「彼女」と話しすぎて腱鞘炎になった -
第103回
AI
画像生成AI「Midjourney v7」が圧倒的 品質は最高、速度は高速 “ジブリ風”も簡単に -
第102回
AI
“偽人間”のリスクと誘惑 共感するAIと、問われる人間らしさ -
第101回
AI
ChatGPT、“ジブリ風”で世界騒然 画像生成AIが「自己回帰」で新時代に -
第100回
AI
動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び -
第98回
AI
動画生成AIの進化がすごい 「超リアル」「ローカルで動く」2つの方向に -
第97回
AI
AI法案、柔軟規制で国会審議へ 罰則なし“ソフトロー”の狙いは -
第96回
AI
AI生成の3Dデータが実用レベルに近づいてきた -
第95回
AI
月3万円で使えるOpenAIの「Deep Research」 驚異的だが、情報格差が広がる不安も感じた -
第94回
トピックス
1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは - この連載の一覧へ