このページの本文へ

前へ 1 2 次へ

最新の画像生成AI「Stable Diffusion XL(SDXL)1.0」ついに公開 簡単に試す方法あります

2023年07月27日 17時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 Stability AIは7月27日、新たな画像生成AIモデル「Stable Diffusion XL 1.0(SDXL 1.0)」をオープンソースで公開した。6月に研究目的でリリースされた「SDXL 0.9」を強化しつつモデルサイズを小さくしたもので、GitHubからソースコードをダウンロードして利用できるほか、ウェブサービス、API経由、クラウドサービスなど様々な形で利用できる。

過去最高の性能を達成

 SDXL 1.0は2022年8月に発表されたオープンソースの画像生成AI「Stable Diffusion」の開発元のひとつ(開発にはほかにCompVis LMUおよびRunwayが参加)であるStability AIのフラッグシップモデル。

 Stable Diffusionの旧バージョンや、本モデルのテストバージョンであるSDXL 0.9と比較したところ過去最高の成績を収めている。

 SDXLは事実上あらゆるスタイルで1024×1024ピクセル(Stable Diffusionのデフォルト画像サイズは512×512ピクセル)の高品質画像を生成できるが、中でもフォトリアリスティックな表現を得意としているモデルだ。

 鮮やかで正確な色彩を実現するよう調整されており、コントラスト、ライティング、シャドウの全てが前モデルよりも向上している。

 また、前バージョンでは苦手としていた手や3次元的構図などの表現も向上しているという。

シンプルなプロンプトでOK

 Stable Diffusionでレベルの高い画像を生成するためには「masterpiece(傑作)」「best quality」「photo realistic」など「呪文」と呼ばれるプロンプトを多数組み合わせ試行錯誤する必要があったが、SDXLではムダに修飾語を重ねる必要はなく、シンプルなプロンプトでも問題ないと言われている。

 また、「The Red Square(赤の広場という特定の場所)」と「red square(単なる形状)」のような概念の違いも理解できるという。

1度に2回の画像生成プロセス

 SDXLの最大の特徴は、1枚の画像を生成するのに2回の画像生成プロセスを経ることだ。

 具体的には、3.5Bパラメーターの「ベース(Base)」モデルで一度128×128ピクセルで生成した画像を、6.6Bパラメーターの「リファイナー(Refiner)」モデルで1024×1024ピクセルにアップスケールしつつ精度を上げていくという手法を取っている。

 これにより、8GBのビデオメモリーしか搭載していないような民生グラフィックスボードやクラウドサービスでもロバストな(訓練データに存在しない新しいパターンや異常値に対しても適切に対応できる)画像生成を可能としている。

前へ 1 2 次へ

カテゴリートップへ

ピックアップ