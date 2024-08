Stable Diffusionの共同開発者たちによって設立されたベンチャー企業「Black Forest Labs(BFL)」が8月1日(現地時間)に発表した最新の画像生成AIモデル「FLUX.1」。画像生成アプリ「ComfyUI」が対応を発表しているので、ローカル環境で動くかどうかを試してみた。

現在、画像生成AIの分野は主に「Midjourney」、「Stable Diffusion」、「DALL-E 3」の3つがそれぞれ独自のアプローチでユーザーを集めている。

Midjourneyは直感的なインターフェースと美しい芸術的な出力で知られ、主にクリエイティブな専門家やアーティストに人気がある。

一方、Stable Diffusionはオープンソースの柔軟性と強力なカスタマイズ能力で、技術者や開発者コミュニティから支持を得ているが、最新モデルの「Stable Diffusion 3」の発表に際し、ライセンスの変更が大きな議論を巻き起こした。

DALL-E 3は、ChatGPTとの統合により、複雑な言語指示を正確に視覚化する能力で注目を集めている。

一方、FLUX.1は120億という巨大なパラメーター数を持ちながら、重みも公開されており、誰でもローカルにダウンロードして利用できるということで大きな注目を集めている。公開されているサンプル画像のクオリティーも高い。

これがローカル環境でしっかり動くなら、課金が必要な「Midjourney」や、ライセンス面で不安の残る「Stable Diffusion」の代替になるのではないかとも言われている。果たして本当に使えるのだろうか?

画像生成AIモデル「FLUX.1」の基本的な情報は、こちらの記事に詳しい。

性能と用途に応じて、FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]の3つのモデルが用意されている。FLUX.1 [pro]はAPIを通じての提供だが、FLUX.1 [dev]およびFLUX.1 [schnell]は、モデルと重みが公開されており、ローカルで画像生成を試すことができるとされている。

FLUX.1 [pro]はAPIのみを通じて提供され、商用利用も可能な最高性能のモデル。プロンプトの追従性、ビジュアルクオリティー、画像のディテール、出力の多様性など、最先端のパフォーマンスを備えた画像生成を提供するという。

APIは「Replicate」と「fal.ai」という2つの機械学習プラットフォームを介してアクセス可能だ。価格は画像生成1枚あたり0.055ドル(およそ8円)とされているが、無料枠も用意されているのでリンク先から試すことができる。

ここでは比較のため、本連載の過去記事「人気の画像生成AI、違いは? Stable Diffusion XL、Midjourney、DALL-E、Playgroundの画風を比較する」で使用した下記プロンプトで画像を生成した。

プロンプト:A photorealistic portrait of a young woman with dyed pastel pink hair and subtle makeup, wearing trendy streetwear, standing in a bustling urban crossing with neon signs in the background