動作させるだけで一苦労、コミュニティも活発とはいえず
また、実際にローカル環境で動作させようとすると、筆者の環境でもかなり苦労しました。
そもそもが、入力するプロンプトを画像にするために解析するテキストエンコーダーを4種(Llama、T5-XXL、CLIP-G、CLIP-L)も使います。Flux.1 Devの場合は3種類だったため、テキストの理解力はこの追加により引き上げられているのかもしれません。しかし、当然ですが、その分、VRAMの使用量が増加します。量子化(軽量化)が小さいfp16モデルだとそれぞれ34.2GBもあり、fp8モデルでも17.1Gもあります。さらにClipも読み込むわけですから、VRAMが多く必要になるわけです。
とはいえ、全体をフルパッケージで自動的にインストールしてくれるような便利なインストーラーは存在しないようで、WebUI A1111系にも対応していません。そのため、最初のファイルの設定はかなり戸惑いました。この時点で、挫折する人は多そうな気がします。
ComfyUIが公開しているHiDream-I1にネイティブ対応したサンプルワークフロー。特徴は対応するために新たに作られた4種のCLIPを読み込み可能にした「Quadruple CLIP Loader」(ComfyUIリンク)
なによりHiDream-I1には課題があります。一定量の強力な性能を誇りながらも、エコシステムを作るところに苦戦していることです。
いずれのモデルも厳しい制限がないMITライセンスで公開されており、商用利用についても大きな制限がかかっていないという使いやすさがあります。しかしながら、公開されているHuggingFaceのダウンロード数は、Devが3万2000、Fullが4万で、Fastが6万3000にとどまっています。FullとFastの2モデルの公開は一定の成功を収めているとは言えるものの、すでに公開から250万回以上ダウンロードされているFlux.1 Devに比べると、現状のユーザー数は大きく見劣りします。
LoRAなどの追加学習データを作りやすい環境も登場していないようで、ユーザーが公開したLoRAの数も少なく、あまりコミュニティは活発ではないようです。同様に、ControlNetといった画像を制御するための追加モデルも開発されている気配はまだありません。
やはり要求スペックが高すぎることもあり、利用者をかなり選んでしまうことや、性能の高さがあるにしても、多くのユーザーにとっては既存のエコシステムから急いで切り替えたいと感じさせるほどではないといったことが原因なのでしょう。また、そもそもの画像が、少し中国風に寄りすぎているという印象もします。
本来はライセンスとしても使いやすいモデルのはずなのですが、サービス展開しているAIクラウドサービスも限られており、「Replicate」や「Fal.ai」といったクラウド時間貸出型の一部サービスに限られています。Fullバージョンの公開が4月と後発であることもあって、今後の広がりを目指していくことになると思われますが、特に欧米圏での認知が遅れているという印象です。もちろん、中国語圏で開発されたという強みがあり、中国では支持されているようですが、それでもAPI展開には中国政府の検閲規制もあるために中国本土向けにも思うように広げることができない事情もあるようです。
ただ、4月28日には「HiDream-E1-Full」というというimage-2-image(画像から画像)に対応したモデルを追加で発表しました。ユーザーの画像をより自分の意図通りにコントロールしたいというニーズに応えようという努力は続けています。
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第158回
AI
SDXLの次はこれ? アニメ特化のローカル画像生成AI、驚きの実力 -
第157回
AI
AIだけでゲームは作れるのか? Codexに7本作らせて見えた実力と限界 -
第156回
AI
ChatGPTの画像生成AIは本当に最強か Nano Bananaと比べて見えた“弱点” -
第155回
AI
非エンジニアが数百万円級のツールを開発 画像&動画生成AIツールがゼロから作れた話 -
第154回
AI
ChatGPTの画像生成AIが強すぎる AI画像が世界中に氾濫する時代へ -
第153回
AI
ChatGPTの画像生成AIが「Nano Banana」超え? 漫画や動画風カットが実用レベルに -
第152回
AI
Seedance 2.0×AIエージェントでAI動画が激変 “AI脚本家”や“AI絵コンテ作家”との共同作業で、アニメ制作が身近に -
第151回
AI
画像・動画生成AIの常識が変わる、Claude Codeに全部やらせる方法論 -
第150回
AI
無料でここまで? 動画生成AI「LTX-2.3」はWan2.2の牙城を崩すか -
第149回
AI
AIと8回話しただけで“性格が変わる” 研究が警告する「おべっかAI」の影響 -
第148回
AI
AIが15万字の小説を1週間で執筆──「Claude Opus 4.6」が示した創作の未来 - この連載の一覧へ







