このページの本文へ

新清士の「メタバース・プレゼンス」 第76回

「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」

2024年08月19日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

ファイルは激重、VRAM 48GBでなんとか動くレベル

ComfyUI用のFlux.1のサンプルワークフローを設定した状態

 HuggingFaceで公開されている「Dev」モデルと「schnell」モデルを試してみました。

 ComfyUI環境のサンプルワークフローが公開されており、設定自体はシンプルなものが動きます。ただ、ウェイトモデルはどちらも23.8GBあります。また、FLAN-T5 XXLは、圧縮率の高いfp8でも4.89GBもあります。そのため、実行すると要求されるVRAMは30GBを超えてきます。Stable Diffusion XLのファイルサイズが約7GB、Stable Diffusion 3 Mediumが約4.3GBであることと比べると、かなり大きなモデルであることがわかります。実際、NVIDIA GeForce RTX 4090(VRAM 24GB)では動かず、NVIDIA RTX A6000(VRAM 48GB)を搭載したPCでなんとか動きました。とても要求するメモリーが多い画像生成AIです。1枚あたりの生成時間は1024x1024で約30秒かかります。

 ただし、リリース後に、ユーザーによって量子化(データの圧縮化)が進められたことで、サイズが小さなものも入手が可能になりました。city96さんが公開している量子化モデルは8bit化が12.7GB、4bit化が6.7GBです。当然、サイズが小さいものほど性能は下がりますが、VRAM 12GBクラスのビデオカードでも動作させることは可能です。それでも、全体的にこれまで出ているオープンモデルでは重いことは間違いありません。

devモデル(左)とschellモデル(右)の出力結果。シード値は同じに設定。プロンプトは、ChatGPTで簡単に作成し、修正後に英訳(以下同じ)。「明るい夏の日、少しウェーブのかかったストレートの黒髪を持つ20歳の日本人女性が、日陰の大きな木の下に足を組んで座っている。薄手のサマードレスを着て、ペットボトルの飲み物を片手で持って飲んでいる。女性はカメラの方を向いて微笑んでいる。木漏れ日が女性に光と影を投げかけている。周囲の公園では子供たちが遊び、葉が風にそよぐ。躍動的で平和な光景は、完璧な夏の午後の本質を捉えている。一眼レフカメラの50mmレンズ、F1.8で、喚起的、映画的、強烈、芸術的、魅惑的な撮影で、女性の全身像を捉えている」

 Flux.1は、120億ものパラメーターを持つだけあって、かなり長文のプロンプトでも正確に追従し、画像を生成する点が特徴です。たとえば、「木陰に座って、ペットボトルの飲み物を片手で持っている20歳の日本人女性」を生成すると、このようになります。SDXL世代では、人物とコップなどのオブジェクトが関わる画像の生成が苦手でしたが、これを克服しています。年齢を変更しても正確に対応し、アニメ風の指定もOK。基盤モデルとしての性能の高さが感じられます。ただし、devモデルとschellモデルには性能差があるようで、devモデルの方がより自然なライティングが可能など、性能が優れているようです。

devモデル(左)とschellモデル(右)。20代女性を、白髪混じりの50代女性と変えた。やはり、devの方がより自然な印象のする画像を生成している

devモデル(左)とschellモデル(右)。カメラに関する記述を削除し、「日本アニメスタイル」と指定した。やはり、devの方が品質が高い印象がする

 また実験的に、性的な画像は出せるのかどうかも試してみました。結果、ビキニ姿や下着姿は生成でき、トップレスまでは描写できることが確認できました。SD3Mで起きたような人体の大きな崩壊もなく自然に人体を描写することができるようです。ただし、それ以上の過激な描写をプロンプトで指定しても生成されないため、やはり、学習データに含まないなど、内部的に何らかの制限は加えられているようです。

devモデルで「ビーチに横たわるビキニ姿の日本人女性」を生成したもの

 Flux.1の表現できる能力は非常に高く、詳細にプロンプトを記述するほど、狙った画像が出やすくなります。かなりデタラメな設定の画像も記述に応じて生成してくれます。もちろん生成結果に当たり外れはあるので、何回も生成する必要がありますが、かなり幅の広い画像が生成可能であることがわかりました。実際、この性能の高さや自由度は、SD3に変わる最新モデルとして、画像生成AIユーザーコミュニティの注目を一気に集めることになりました。

devモデルで生成「犬と象が東京タワーの前で戦っていて、群衆が声援を贈っている」

devモデルで生成「巨大な月が地球に衝突して大爆発が起きている。逃げ出す多数の宇宙船が飛んでいる。カメラの近くに一隻の巨大宇宙船がアップ」

devモデルで生成「宝石に彩られた王冠を玉座に座る老齢の王が、甲冑姿で剣を携えた骸骨姿の居並ぶ兵士たちに命令を下している。ダークファンタジーの世界で、建物には様々な装飾が施されている。王の隣には、白いドレスを来た美しい若い王女が立っている。実写風のカメラは王を斜め前から捉えている」

devモデルで生成「ゴッホが描いた東京と富士山の油絵」

devモデルで生成。ラーメンチャレンジも何の問題もなくクリアした。「若い女性が、ラーメン屋でラーメンを美味しそうに食べている。右手に箸を持ち、麺をからめて口に持っていっている。少し恥ずかしそうな表情をしている。ラーメンからは湯気が上がり、様々な具が乗っている。画面は写真風」

カテゴリートップへ

この連載の記事
ピックアップ