最強スペックなのに無料　謎の画像生成AI「HiDream-l1」

2025年05月19日 07時00分更新

文● 新清士

他社ハイエンド並みのスペックを実現したオープンモデル

　ローカル環境向けの画像生成AIモデルは、2022年8月「Stable Diffusion 1.0」から、2023年7月「Stable Diffusion XL 1.0」を経て、2024年8月「Flux.1」、2024年10月「Stable Diffusion 3.5」へと主要モデルが推移しています。解像度の上昇、パラメータ数の増大以外にも、プロンプトの認識能力が上昇してきました。特に、Flux.1以降のモデルでは、詳細なテキストプロンプトからの画像生成機能が向上しており、自然言語に近い文章から、それに近い画像を直接作り出せるようになりました。

　ただし、Flux.1のフラッグシップモデルである、12億パラメータの「Flux.1 Pro（プロ版）」はオープンモデルとしては公開されていません。クラウドサービスなどでAPIを経由した利用が必須になっています。代わりに蒸留モデルの「Flux.1 Dev（開発版）」「Flux.1 schnell（軽量版）」が公開されており、ユーザーはそちらを利用する必要があります。Flux.1 Devはハイエンドモデルとして人気が高いものの、蒸留モデルの限界で、カスタマイズ性には制限がかかっていました。

　HiDream-I1はその状況に一石を投じてきました。

　まず、2024年9月に「HiDream-I1-Dev」が公開されました。このモデルは17億のパラメータを持ち、Flux.1に匹敵する、もしくはそれ以上の性能を持つことがアピールされました。テキストから画像を生成するAIモデルの性能評価をしてランキング評価するArtificial Analysis Text-to-Image モデルリーダーボードでは、リリース直後に首位を取りました。その後2025年4月にも再び首位を獲得し、Flux.1のみならず、モデルデータが公開されていないクラウド系の画像生成AIモデルを軒並み抑え、再び高い評価を獲得しています。

Artificial Analysis Text-to-Image モデルリーダーボードの様子（vivago.aiの4月10日のXの投稿より）

　ただ、HiDream-I1-Devはオープンモデルとして公開されたとはいえ、使いやすいモデルではありませんでした。というのも、要求されるスペックが極めて高かったためです。VRAM24GB以上を必須として、NVIDIA RTX 4090以上のスペックが条件でした。しかしその環境でもギリギリで、複数回生成するとメモリ不足に陥るという報告が出ていました。Devは、初期モデルとしてのテストと改良を目的としたモデルでした。

　一方、4月に発表になった「Full」と「Fast」は、開発者コミュニティのフィードバックを経て公開されたモデルです。軽量化が施されたFastはVRAM12～16GBを搭載したビデオカードを想定しており、NVIDIA RTX 3060クラスでの動作が想定されています。生成速度も3モデルのなかで最も速く、日常での画像生成用途では十分に満たせると考えられています。

　特に、Flux.1 Pro同等のものを公開したわけで、Fullは思い切った公開に踏み込んだといえます。ハイエンドをターゲットにしており、VRAM24GB以上を想定していることもあり、安定的に動かすには、VRAM32GBのNVIDIA RTX 5090以上でないと十分に動かない面もあるようです。もちろん、生成負荷が高く、生成にかかる時間もかかります。ただ、プロンプトへの追従性は最も高いとされています。

　もちろん、Vivago AIのクラウドサービス上には統合されているため、気軽に試すことはできます。無料でもExpress版でその能力を試すことができます。

　しかし、期待したほどには、出てはいるもののあまり魅力的と感じさせるものの出力を得られなかったというのがではないというのが正直なところです。パッと見て「これはいい！」と感じさせられる出力に巡り会えなかったんですね。なにか、モヤッとするような画像が出てくるんですよね。この焦点がくっきりしない印象は、Fullをローカルで動作させてもついて回る印象です。