画像生成AI「Stable Diffusion」を開発するStability AIは6月23日、4月13日にベータ版をリリースした標準的な家庭用コンピュータで実行できる「Stabile Diffusion XL(SDXL)」の最新版「SDXL 0.9」を発表した。
SDXL 0.9は、35億のパラメータ数(モデルがトレーニングされたニューラルネットワークのすべての重みとバイアスの合計)を持つ単一モデルと、58億のパラメータを持つ複数モデルによるアンサンブルパイプライン(出力は、2つのモデルの結果を組み合わせることで決まる)からなり、オープンソースモデルの中でも最大級のパラメータ数を持っている。
また、これまで使用していた最大級のCLIPモデル(テキストと画像の意味的な関係性を理解するモデル)のひとつ「CLIP ViT-g/14」を含む2つのCLIPモデルを用いることで、高い処理能力に加え、より奥行きのある高解像度(1024x1024)画像を生成することが可能になっている。
LinuxならAMDのグラボも使える
このような強力な出力機能と高度なモデルアーキテクチャにもかかわらず、SDXL 0.9はWindows 10/11またはLinux、16GBのRAM、最低8GBのVRAMを搭載したNvidia GeForce RTX 20シリーズ(もしくは同等以上の規格)という標準的なPCで実行できる。
Linuxの場合、16GBのVRAMを搭載した互換性のあるAMD製グラフィックボードを使用することもできるという。
ベータ版との比較画像も公開
Stability AIのサイトでは、ベータ版と今回のSDXL 0.9で生成した画像を比較している。
SDXL 0.9はベータ版(23億パラメーター)と比較して、パラメータ数が大幅に増加(35億+58億パラメーター)しており、画像や構図のディテールが大幅に改善されているのがわかる。
生成AIが苦手とすることで有名な人間の手の表現も改善されている。
「ClipDrop」で無料公開中
SDXL 0.9は現在Stability AIが運営する生成AIを利用した画像レタッチサービス「ClipDrop」からアクセスできる。
試しに「Thai style real robot standing bangkok city」というプロンプトで生成してみた。このレベルの画像をローカル環境で生成できるようになる日も近いということだ。
SDXL 0.9は一般的なオープンソースリリースに先立ち、研究目的に限定したモデルをリリース中、APIも近日中に公開される。さらに、7月中旬にはSDXL1.0のオープンリリースが予定されているという。