「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」

2024年08月19日 07時00分更新

文● 新清士　編集●ASCII

X「Grok 2.0」画像生成機能にも採用

　さらに、8月14日に衝撃が広がりました。XのAI機能「Grok 2.0」がリリースされ、画像生成AI機能が追加されたのです。そして、その技術がFlux.1であると明らかにされたのです。Xに課金しているユーザーであれば、Grokに作ってほしい画像を入力するだけで、簡単に高画質な画像を生成することができるようになりました。

　1時間で20回の生成条件があったり、横長のサイズしか生成することができませんが、日本語で指示しても、プロンプトを英訳して出力してくれます。世界で数億人のユーザーを抱えているSNSプラットフォームで、手軽に高性能な画像生成AI機能が展開されたケースは初めてでもあり、有料ユーザー数の拡大に貢献するのかどうかに注目が集まっています。

　XはMidjouneyと交渉していることがイーロン・マスク氏からも何度もほのめかされていたのですが、Flux.1を選択したようです。Midjouneyは有料プログラムによって十分に収益を出していると推測されており、Xへの展開でのライセンス条件が結局は折り合わなかったのではないかと考えられます。

Grokで生成した画像

　ただ、採用されているモデルは、schnellモデルと同じかというとそうでもなさそうです。

　前述の「ペットボトル」プロンプトで生成してみたところ、devモデルともschnellモデルとも少しニュアンスの違う画像が出てきます。生成時間も約5秒と非常に短く、複数回試してみると、ペットボトルを手に持っていない画像が生成されることもありました。schnellモデルよりもさらに軽量なカスタムモデルを使っているのではないかと考えられます。

　GrokのAI画像生成機能は、他社のクラウドサービスに比べて、コンテンツフィルターが甘めであることがわかっており、イーロン・マスク氏やトランプ大統領といった有名人、ピカチュウから初音ミクまで有名IPのキャラクターといった、いわゆるディープフェイクも簡単に生成可能な状態です。マスク氏傘下の企業らしく、かなり型破りな形でサービスをスタートしています。生成した画像の責任はユーザーにあると規約上は定義されているものの、今後もこのままの方針で行くのかは短期的には焦点となるでしょう。

日本語でも、英語に翻訳して画像を生成してと指定すると、普通に出せました。これでいいかも。 pic.twitter.com/DKX1qBfqWP
— 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin) August 14, 2024

先行企業に学び、後発企業が迅速に攻めていく

　Stability AIからスタッフがいつ抜けて、このBFLを組織化したのかは明らかにされていません。ただ、ビジネスモデルを含めて、新会社だからこそ、ゼロから効率よく作れたということではないかと思います。スタート段階だと人数が少ないので人件費も少なくて済むし。権利的にも揉めている相手がいないですからね。IT業界では、先行している企業が常に勝ち残るというわけではなく、後発の企業が先行する企業の動きから学び、効率的に迅速に攻めてすべてを持っていくというのはよくある話です。Stable Diffusionが独占的な地位にあったオープン分野の画像生成AI分野でも似たようなことが起きるのかもしれません。

筆者紹介：新清士（しんきよし）

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ