「Stable Diffusion」開発者たちが新たな画像生成AI「FLUX.1」を発表　迷走するStability AIと対照的な展開に

2024年08月02日 12時00分更新

文● 田口和裕　編集●ASCII

　画像生成AIモデル「Stable Diffusion」の共同開発者たちによって設立されたベンチャー企業「Black Forest Labs（BFL）」は8月1日（現地時間）、高品質な画像生成能力と多様な出力が特徴の最新の画像生成AIモデル「FLUX.1」を発表した。

Stable Diffusionの共同開発者が設立

　Black Forest Labs（BFL）は、オープンソースの画像生成AIモデル「Stable Diffusion」の共同開発者として知られるRobin Rombach氏、Patrick Esser氏、Andreas Blattmann氏によって2024年に設立された新興企業。Andreessen Horowitz（a16z）を筆頭とする投資家から3100万ドルの資金を調達したことで注目を集めている。

3つのモデルを展開

We are excited to announce the launch of Black Forest Labs. Our mission is to develop and advance state-of-the-art generative deep learning models for media and to push the boundaries of creativity, efficiency and diversity. pic.twitter.com/ilcWvJgmsX
— Black Forest Labs (@bfl_ml) August 1, 2024

　FLUX.1はユーザーのプロンプトを正確に反映した高品質な画像を生成できるAIモデル。画像内のテキスト生成や、複数の要素を含む複雑な場面を正確に描写することを得意としている。また、従来のAIモデルで課題とされていた人間の手の描写も改善されており、より自然な表現が可能になっているという。

　「replicate.com」「fal.ai」「Hugging Face Spaces」にデモサイトが用意されており、誰でも生成を試すことができる。

筆者生成（上位モデル「flux-pro」を使用）

プロンプト：A hyper-realistic portrait of an exceptionally beautiful Japanese woman. She has long, sleek black hair and delicate features. Her eyes are large and almond-shaped, with a gentle gaze. She is wearing a subtle makeup that enhances her natural beauty, including soft pink lipstick and a light blush. The background is soft and blurred, emphasizing her serene and elegant appearance. Capture the essence of refined beauty in a highly detailed, photorealistic style.

　上記プロンプトで生成された画像。明示的に「Japanese woman」と指定したのでしっかり日本人の顔になっている。

3つのモデル

　性能と用途に応じて、3つのバリエーションが用意されている。

　FLUX.1 [pro]はAPIのみを通じて提供され、商用利用も可能な最高性能モデル。

　FLUX.1 [dev]は[pro]と同等の品質を持つオープンウェイトモデル。非商用に限りダウンロードしてローカルで使用できるが、商用利用したい場合は別途Black Forest Labsへの問い合わせが必要となる。

　FLUX.1 [schnell]は最速かつ最も軽量なモデルで、Apache 2.0ライセンスで公開されているため、個人利用から商用利用まで幅広い用途に自由に使用できる。

　APIで利用する場合の価格は生成する画像1枚あたりで設定されており、FLUX.1 [pro]が0.055ドル（およそ8円）、FLUX.1 [dev]が0.030ドル（およそ4円）、FLUX.1 [schnell]が0.003ドル（およそ0.4円）となっている。

　ただし、FLUX.1 [dev]とFLUX.1 [schnell]はローカルでの実行も可能（ComfyUIで動作確認済み）なため、その場合はこの料金は適用されない。モデルはHugging Faceからダウンロードできる。

ベンチマークの結果も良好

ELOスコア評価

　主要画像生成AIモデルのELO（性能評価）スコアを比較してみると、FLUX.1の3つのバリエーション（[pro]、[dev]、[schnell]）が他の主要モデルを上回る性能を示していることがわかる。

各種指標

　こちらはFLUX.1と他の主要な画像生成AIモデルを、プロンプト追従性、視覚的品質、サイズ/アスペクト多様性、タイポグラフィ、出力多様性の5つの指標で評価したレーダーチャート。FLUX.1の3つのバリエーションが全体的に高いスコアを示している。

　Black Forest Labsは、AIの倫理的な開発と使用に注力しており、FLUX.1の利用に関しては、フェイクニュースの作成、非合意の画像生成、個人や集団に害を与える可能性のあるコンテンツの作成を明確に禁止している。

　また、FLUX.1が生成した画像の著作権はユーザーに帰属すると明言している。ただし、トレーニングデータに関する詳細な情報や、著作権で保護された作品の使用に関する具体的な方針については公開されていない。

迷走するStability.aiを尻目に注目を浴びるか？

　Black Forest Labsによる本モデルは、従来のStable DiffusionやMidjourneyの最新版を含む主要モデルを性能面で上回ると主張しており、今後計画されている動画生成AIの開発も含め動向が注目されている。

　一方、現在Stable Diffusionシリーズを継続して提供している「Stability AI」は、6月に発表された新モデル「Stable Diffusion 3 Medium（SD3M）」で期待を集めるも、意図的に抑えた性能と不明確なライセンス条項により急速に支持を失い、主要開発者の離脱やコミュニティとの関係悪化など、オープンソースと収益化のバランスに苦心している。詳しくは「危機的状況の画像生成AI『Stable Diffusion 3』立て直しへ」を参照。

　両社の対照的な展開は、オープンソースAIモデルの開発と商業化の難しさを浮き彫りにしており、業界の今後の動向が注目される。

■関連サイト