ファイルは激重、VRAM 48GBでなんとか動くレベル
HuggingFaceで公開されている「Dev」モデルと「schnell」モデルを試してみました。
ComfyUI環境のサンプルワークフローが公開されており、設定自体はシンプルなものが動きます。ただ、ウェイトモデルはどちらも23.8GBあります。また、FLAN-T5 XXLは、圧縮率の高いfp8でも4.89GBもあります。そのため、実行すると要求されるVRAMは30GBを超えてきます。Stable Diffusion XLのファイルサイズが約7GB、Stable Diffusion 3 Mediumが約4.3GBであることと比べると、かなり大きなモデルであることがわかります。実際、NVIDIA GeForce RTX 4090(VRAM 24GB)では動かず、NVIDIA RTX A6000(VRAM 48GB)を搭載したPCでなんとか動きました。とても要求するメモリーが多い画像生成AIです。1枚あたりの生成時間は1024x1024で約30秒かかります。
ただし、リリース後に、ユーザーによって量子化(データの圧縮化)が進められたことで、サイズが小さなものも入手が可能になりました。city96さんが公開している量子化モデルは8bit化が12.7GB、4bit化が6.7GBです。当然、サイズが小さいものほど性能は下がりますが、VRAM 12GBクラスのビデオカードでも動作させることは可能です。それでも、全体的にこれまで出ているオープンモデルでは重いことは間違いありません。
Flux.1は、120億ものパラメーターを持つだけあって、かなり長文のプロンプトでも正確に追従し、画像を生成する点が特徴です。たとえば、「木陰に座って、ペットボトルの飲み物を片手で持っている20歳の日本人女性」を生成すると、このようになります。SDXL世代では、人物とコップなどのオブジェクトが関わる画像の生成が苦手でしたが、これを克服しています。年齢を変更しても正確に対応し、アニメ風の指定もOK。基盤モデルとしての性能の高さが感じられます。ただし、devモデルとschellモデルには性能差があるようで、devモデルの方がより自然なライティングが可能など、性能が優れているようです。
また実験的に、性的な画像は出せるのかどうかも試してみました。結果、ビキニ姿や下着姿は生成でき、トップレスまでは描写できることが確認できました。SD3Mで起きたような人体の大きな崩壊もなく自然に人体を描写することができるようです。ただし、それ以上の過激な描写をプロンプトで指定しても生成されないため、やはり、学習データに含まないなど、内部的に何らかの制限は加えられているようです。
Flux.1の表現できる能力は非常に高く、詳細にプロンプトを記述するほど、狙った画像が出やすくなります。かなりデタラメな設定の画像も記述に応じて生成してくれます。もちろん生成結果に当たり外れはあるので、何回も生成する必要がありますが、かなり幅の広い画像が生成可能であることがわかりました。実際、この性能の高さや自由度は、SD3に変わる最新モデルとして、画像生成AIユーザーコミュニティの注目を一気に集めることになりました。
この連載の記事
-
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは - この連載の一覧へ