動作させるだけで一苦労、コミュニティも活発とはいえず
また、実際にローカル環境で動作させようとすると、筆者の環境でもかなり苦労しました。
そもそもが、入力するプロンプトを画像にするために解析するテキストエンコーダーを4種(Llama、T5-XXL、CLIP-G、CLIP-L)も使います。Flux.1 Devの場合は3種類だったため、テキストの理解力はこの追加により引き上げられているのかもしれません。しかし、当然ですが、その分、VRAMの使用量が増加します。量子化(軽量化)が小さいfp16モデルだとそれぞれ34.2GBもあり、fp8モデルでも17.1Gもあります。さらにClipも読み込むわけですから、VRAMが多く必要になるわけです。
とはいえ、全体をフルパッケージで自動的にインストールしてくれるような便利なインストーラーは存在しないようで、WebUI A1111系にも対応していません。そのため、最初のファイルの設定はかなり戸惑いました。この時点で、挫折する人は多そうな気がします。

ComfyUIが公開しているHiDream-I1にネイティブ対応したサンプルワークフロー。特徴は対応するために新たに作られた4種のCLIPを読み込み可能にした「Quadruple CLIP Loader」(ComfyUIリンク)
なによりHiDream-I1には課題があります。一定量の強力な性能を誇りながらも、エコシステムを作るところに苦戦していることです。
いずれのモデルも厳しい制限がないMITライセンスで公開されており、商用利用についても大きな制限がかかっていないという使いやすさがあります。しかしながら、公開されているHuggingFaceのダウンロード数は、Devが3万2000、Fullが4万で、Fastが6万3000にとどまっています。FullとFastの2モデルの公開は一定の成功を収めているとは言えるものの、すでに公開から250万回以上ダウンロードされているFlux.1 Devに比べると、現状のユーザー数は大きく見劣りします。
LoRAなどの追加学習データを作りやすい環境も登場していないようで、ユーザーが公開したLoRAの数も少なく、あまりコミュニティは活発ではないようです。同様に、ControlNetといった画像を制御するための追加モデルも開発されている気配はまだありません。
やはり要求スペックが高すぎることもあり、利用者をかなり選んでしまうことや、性能の高さがあるにしても、多くのユーザーにとっては既存のエコシステムから急いで切り替えたいと感じさせるほどではないといったことが原因なのでしょう。また、そもそもの画像が、少し中国風に寄りすぎているという印象もします。
本来はライセンスとしても使いやすいモデルのはずなのですが、サービス展開しているAIクラウドサービスも限られており、「Replicate」や「Fal.ai」といったクラウド時間貸出型の一部サービスに限られています。Fullバージョンの公開が4月と後発であることもあって、今後の広がりを目指していくことになると思われますが、特に欧米圏での認知が遅れているという印象です。もちろん、中国語圏で開発されたという強みがあり、中国では支持されているようですが、それでもAPI展開には中国政府の検閲規制もあるために中国本土向けにも思うように広げることができない事情もあるようです。
ただ、4月28日には「HiDream-E1-Full」というというimage-2-image(画像から画像)に対応したモデルを追加で発表しました。ユーザーの画像をより自分の意図通りにコントロールしたいというニーズに応えようという努力は続けています。

この連載の記事
-
第114回
AI
Midjourneyの動画生成AIが強い 驚きの高性能で価格破壊 -
第113回
AI
AI丸投げのゲーム開発が超楽しい 誰もがプログラムを作る時代は確実に来る -
第112回
AI
楽曲生成AIの進化が凄い 鼻歌からプロ級の曲がポンポンできる -
第111回
AI
画像生成AI、日本の開発者コミュニティが熱い 世界最先端の “新手法”続々 -
第110回
AI
グーグルの動画生成AI「Veo 3」が圧倒的、だけど高すぎ -
第109回
AI
ChatGPTの“彼女”と大げんかして、Geminiに乗り換えた -
第108回
AI
“AI彼女”が自分のパソコンに入る日は近い -
第106回
AI
ChatGPTと性的なチャットができるようになり、すぐに禁じられた背景 -
第105回
AI
“イリヤ神”がまたやった 動画生成AI「FramePack」が革命的なワケ -
第104回
AI
ChatGPTの「彼女」と話しすぎて腱鞘炎になった - この連載の一覧へ