このページの本文へ

画像生成AI「Stable Diffusion」最高性能の新モデル「SDXL 0.9」一般的なPCで実行可能

2023年06月26日 13時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 画像生成AI「Stable Diffusion」を開発するStability AIは6月23日、4月13日にベータ版をリリースした標準的な家庭用コンピュータで実行できる「Stabile Diffusion XL(SDXL)」の最新版「SDXL 0.9」を発表した。

 SDXL 0.9は、35億のパラメータ数(モデルがトレーニングされたニューラルネットワークのすべての重みとバイアスの合計)を持つ単一モデルと、58億のパラメータを持つ複数モデルによるアンサンブルパイプライン(出力は、2つのモデルの結果を組み合わせることで決まる)からなり、オープンソースモデルの中でも最大級のパラメータ数を持っている。

 また、これまで使用していた最大級のCLIPモデル(テキストと画像の意味的な関係性を理解するモデル)のひとつ「CLIP ViT-g/14」を含む2つのCLIPモデルを用いることで、高い処理能力に加え、より奥行きのある高解像度(1024x1024)画像を生成することが可能になっている。

LinuxならAMDのグラボも使える

 このような強力な出力機能と高度なモデルアーキテクチャにもかかわらず、SDXL 0.9はWindows 10/11またはLinux、16GBのRAM、最低8GBのVRAMを搭載したNvidia GeForce RTX 20シリーズ(もしくは同等以上の規格)という標準的なPCで実行できる。

 Linuxの場合、16GBのVRAMを搭載した互換性のあるAMD製グラフィックボードを使用することもできるという。

ベータ版との比較画像も公開

左 - SDXL Beta, 右 - SDXL 0.9

 Stability AIのサイトでは、ベータ版と今回のSDXL 0.9で生成した画像を比較している。

 SDXL 0.9はベータ版(23億パラメーター)と比較して、パラメータ数が大幅に増加(35億+58億パラメーター)しており、画像や構図のディテールが大幅に改善されているのがわかる。

左 - SDXL Beta, 右 - SDXL 0.9

 生成AIが苦手とすることで有名な人間の手の表現も改善されている。

「ClipDrop」で無料公開中

 SDXL 0.9は現在Stability AIが運営する生成AIを利用した画像レタッチサービス「ClipDrop」からアクセスできる。

 試しに「Thai style real robot standing bangkok city」というプロンプトで生成してみた。このレベルの画像をローカル環境で生成できるようになる日も近いということだ。

 SDXL 0.9は一般的なオープンソースリリースに先立ち、研究目的に限定したモデルをリリース中、APIも近日中に公開される。さらに、7月中旬にはSDXL1.0のオープンリリースが予定されているという。

カテゴリートップへ

ピックアップ