無料で使えて超高品質、画像生成AIの最新事情

2025年03月24日 07時00分更新

文● 新清士

Illustrious XL v1.0の派生モデルillustrious_pencil-XL-v3.2.0で生成した画像。解像度は1824x1248（筆者作成）

　2月11日に、韓国ONOMA AIが開発した画像生成AI「illustrious XL（イラストリアス）」のv1.0がリリースされて話題になっています。2024年9月にv0.1が公開された際、v1.0やv2.0を開発していると示唆があったのですが、意図的に公開されていませんでした。3月18日にはクラウドでの「v2.0」も公開を開始しています。最大の特徴は高解像度化です。ベースとなる基盤モデル「Stable Diffusion XL（SDXL）」では1024x1024の画像で学習していますが、v1.0では追加学習用の学習データを1536x1536へと大幅に引き上げています。その分、学習にかかる計算量は大幅に増大していますが、より大きなサイズの画像を適格に描写する能力を獲得しています。レガシーモデルと考えられているSDXLの派生モデルの性能が、まだまだ上がり続けています。

^{※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください}

高解像度で生成できる「illustrious XL v1.0」

　illustrious XL v1.0の性能の高さがわかるのは、これまでのSDXLでは表現できなかった1536x1536の画像を破綻なく生成できることです。そのぶん必要となるVRAMサイズや生成時間に影響を与えますが、それを余りある品質の高さが実現されています。

　SDXLは「AIディテーラー」という拡張機能を使い、生成した画像から顔の部分だけを自動的にピックアップして再度生成しなおすのが一般的でした。解像度の限界からあいまいに生成されやすい顔をはっきりさせるためのテクニックとして使われていたわけです。しかし、もともと解像度の高いIllustrious XL v1.0では、修正しないほうがキレイな状態を保てることが少なくありません。生成面積が2倍になるため生成時間は2倍程度になりますが、二度生成する手間がないため、体感としての生成時間は短くなっているとさえ感じます。

　指や複雑なポーズについても描画力が上がっています。アニメ系に偏っているという限界はあるのですが、最高クラスの描画力を持っていると言えると思います。

Illustrious XL v1.0で生成した画像。解像度は1536x1536。未調整だとかなり癖のある画像が出るため思った通りの絵を出すには工夫が必要

比較的シンプルなプロンプトで生成した4枚（筆者作成）。解像度が上がったことで細部の描写力が上がり、指などの描写力が上がっている。解像度は1536x1536（派生モデルのillustrious_pencil-XL-v3.2.0を使用）

逆立ち（handstand pose）のような複雑な人体ポーズの表現はかなり難しかったが実現できている。解像度は1248x1824（派生モデルのillustrious_pencil-XL-v3.2.0を使用）

　Illustrious XLは、SDXLを基に開発されたモデル「Kohaku XL Beta5」をさらに追加学習して作られた派生モデルです（参考：イラストに強すぎる画像生成AIモデル　SDXL系「NoobAI-XL」の衝撃）。学習データのベースはアメリカのキュレーションサイト「Danbooru」などのアニメ・イラスト系画像であることが明らかにされていますが、v1.0で大幅に変わったのが、学習データの高解像度化です。9月に公開されたv0.1では、SDXLと同じ1024x1024でしたが、v1.0では1536x1536で学習されています。出力サイズの違いを比較したのが次の図ですが、学習サイズとしてはSDXLの1.5倍ですが、ピクセル数で考えると2.25倍も違います。最初のStable Diffusion v1と比べると9倍もの違いがあります。学習データもv0.1の750万枚から、v1.0では1000万枚に増えています。

　1024x1024で学習したモデルでは、それ以上のサイズを出力すると画像が破綻することが多くなります。そのため、高解像度の画像を作る場合、一度小さなサイズで作成して、その後、アップスケーラーを使ったり、ControlNetを組み合わせたりして、高解像度化を図るというのが、一般的な方法になっています。ところが、1536x1536で学習されたモデルでは最初から、そのサイズの高解像度を破綻なく出力できるようになるのです。