ドイツのスタートアップ「Black Forest Labs(BFL)」が、8月1日(現地時間)に画像生成AI「FLUX.1」を発表しました。Stability AIの最新モデル「Stable Diffusion 3(SD3)」を超える性能をアピールしており、開発者はStability AIの出身者たち。Stable Diffusionのビジネスモデル設計の失敗から学んだ新しい提案方法でのプランの提示、さらには、14日には、X(旧Twitter)のAI機能の「Grok」の画像生成機能として搭載されました。Stability AIにとってはかつてないほどに強力なライバルが出現した格好で、画像生成AIの勢力図が塗り変わろうとしています。
いきなり約45億円の資金を調達した大型AIスタートアップ
Black Forest Labが、シード投資でいきなり3100万ドル(約45億円)相当の資金を調達しているのも驚きです。出資者には、IT系ベンチャーキャピタル名門のアンドリーセン・ホロウィッツ(a16z)が入っていました。AI分野にも積極的に投資していることで知られており、有名なところではAIプラットフォームのCivitaiに出資していました。しかし、Stablity AIといった画像生成AIの基幹技術そのものを持っている企業には出資している様子はありませんでした。BFLへの投資を通じてその部分も押さえられるという目論見があったのでしょう。
3100万ドルは、シード投資の調達額としては大きな額と言えますが、とてつもなく大きいわけではありません。同じAIスタートアップでは、OpenAIがAIの開発費に全体で年間70億ドル(1兆円)を使っていたり、生成動画AIのPikaが、2023年11月に5500万ドル(約82億円)をシード調達したといった例もあります。また、Stability AIが2年前に開発した「Stable Diffusion v1.4」には60万ドル(約9000万円)の学習コストがかかっていることも明らかにされているため、Flux.1の開発費はそれから10~20倍以上の費用がかかっている可能性があります。それでも、逆に言えば、SD3と同等の最先端の画像生成AIの基盤モデルであっても、後発のスタートアップでも手が届くコスト感で学習できてしまうとも言えます。
FLUX.1は、SD3と似たようなライセンスモデルを採用しています。3種類のバージョンを用意し、法人向けの上位モデルからお金を取るようなビジネスモデルです。
まず、法人向けに設定されている最上位モデルが「pro」。学習済みモデルそのものは公開しておらず、APIを通じてのみ利用できるモデルです。使用料は、1枚の画像の生成につき0.055ドル(約8.25円)に設定されています。このproのデータを蒸留して、効率化がなされたのが「dev」。ウェイトモデルも公開されており、非商用であれば自由に使えます。そして最もゆるいライセンスで誰でもが自由に使える「schnell(シュネル・ドイツ語でFastの意味)」です。
BFLは、「ELOスコア」評価において、FLUX.1ファミリーが既存の画像生成AIモデルと同等か優れていると発表しています。ELOスコアは異なる画像生成AIを比べるために調査会社が実施している評価で、同じプロンプトを入力したときに出力された成果物を、人間が判断することで優劣を競います。この結果、proモデルとdevモデルのいずれも、最高品質の「Stable Diffusion 3 Ultra」を上回り、schnellモデルも「Midjouney v6.0」や「Dall・E 3」に匹敵する性能と評価されたとしています。0.1Mピクセルから2Mピクセルまでの幅広い解像度とアスペクト比に対応しており、将来的には動画生成もリリースするとしています。
技術的な情報が論文などの形で発表されていないので、どのような学習データをどのくらい使い、どのような手法で画像を生成しているのかといった詳細はほとんどわからないのですが、ソースコードを解析したRedditユーザーの分析によると、かなりStable Diffusion 3に似た構成で処理をしていると報告されています。長文プロンプトを解析するための言語モデルとしてグーグルの「FLAN-T5 XXL」が使われているところも似ています。ただ、生成された結果はSD3ともかなり異なっているため、ウェイトモデル自体はゼロから開発されたのではないかと推測できます。
この連載の記事
-
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは - この連載の一覧へ