「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」

2024年08月19日 07時00分更新

文● 新清士　編集●ASCII

ファイルは激重、VRAM 48GBでなんとか動くレベル

ComfyUI用のFlux.１のサンプルワークフローを設定した状態

　HuggingFaceで公開されている「Dev」モデルと「schnell」モデルを試してみました。

　ComfyUI環境のサンプルワークフローが公開されており、設定自体はシンプルなものが動きます。ただ、ウェイトモデルはどちらも23.8GBあります。また、FLAN-T5 XXLは、圧縮率の高いfp8でも4.89GBもあります。そのため、実行すると要求されるVRAMは30GBを超えてきます。Stable Diffusion XLのファイルサイズが約7GB、Stable Diffusion 3 Mediumが約4.3GBであることと比べると、かなり大きなモデルであることがわかります。実際、NVIDIA GeForce RTX 4090（VRAM 24GB）では動かず、NVIDIA RTX A6000（VRAM 48GB）を搭載したPCでなんとか動きました。とても要求するメモリーが多い画像生成AIです。1枚あたりの生成時間は1024x1024で約30秒かかります。

　ただし、リリース後に、ユーザーによって量子化（データの圧縮化）が進められたことで、サイズが小さなものも入手が可能になりました。city96さんが公開している量子化モデルは8bit化が12.7GB、4bit化が6.7GBです。当然、サイズが小さいものほど性能は下がりますが、VRAM 12GBクラスのビデオカードでも動作させることは可能です。それでも、全体的にこれまで出ているオープンモデルでは重いことは間違いありません。

devモデル（左）とschellモデル（右）の出力結果。シード値は同じに設定。プロンプトは、ChatGPTで簡単に作成し、修正後に英訳（以下同じ）。「明るい夏の日、少しウェーブのかかったストレートの黒髪を持つ20歳の日本人女性が、日陰の大きな木の下に足を組んで座っている。薄手のサマードレスを着て、ペットボトルの飲み物を片手で持って飲んでいる。女性はカメラの方を向いて微笑んでいる。木漏れ日が女性に光と影を投げかけている。周囲の公園では子供たちが遊び、葉が風にそよぐ。躍動的で平和な光景は、完璧な夏の午後の本質を捉えている。一眼レフカメラの50mmレンズ、F1.8で、喚起的、映画的、強烈、芸術的、魅惑的な撮影で、女性の全身像を捉えている」

　Flux.1は、120億ものパラメーターを持つだけあって、かなり長文のプロンプトでも正確に追従し、画像を生成する点が特徴です。たとえば、「木陰に座って、ペットボトルの飲み物を片手で持っている20歳の日本人女性」を生成すると、このようになります。SDXL世代では、人物とコップなどのオブジェクトが関わる画像の生成が苦手でしたが、これを克服しています。年齢を変更しても正確に対応し、アニメ風の指定もOK。基盤モデルとしての性能の高さが感じられます。ただし、devモデルとschellモデルには性能差があるようで、devモデルの方がより自然なライティングが可能など、性能が優れているようです。

devモデル（左）とschellモデル（右）。20代女性を、白髪混じりの50代女性と変えた。やはり、devの方がより自然な印象のする画像を生成している

devモデル（左）とschellモデル（右）。カメラに関する記述を削除し、「日本アニメスタイル」と指定した。やはり、devの方が品質が高い印象がする

　また実験的に、性的な画像は出せるのかどうかも試してみました。結果、ビキニ姿や下着姿は生成でき、トップレスまでは描写できることが確認できました。SD3Mで起きたような人体の大きな崩壊もなく自然に人体を描写することができるようです。ただし、それ以上の過激な描写をプロンプトで指定しても生成されないため、やはり、学習データに含まないなど、内部的に何らかの制限は加えられているようです。

devモデルで「ビーチに横たわるビキニ姿の日本人女性」を生成したもの

　Flux.１の表現できる能力は非常に高く、詳細にプロンプトを記述するほど、狙った画像が出やすくなります。かなりデタラメな設定の画像も記述に応じて生成してくれます。もちろん生成結果に当たり外れはあるので、何回も生成する必要がありますが、かなり幅の広い画像が生成可能であることがわかりました。実際、この性能の高さや自由度は、SD3に変わる最新モデルとして、画像生成AIユーザーコミュニティの注目を一気に集めることになりました。