画像生成AI「FLUX.1」が相当ヤバい　LoRAで画風の再現も簡単に

2024年09月02日 10時30分更新

文● 新清士　編集●ASCII

LoRAはWebサービスを使えば2ドルで作れる

　「明日来子さんLoRA」はどうやって作ったか。

　そもそも、明日来子さんのデータは2024年1月、この連載のためにMidjouneyで作成した1枚の画像しかありませんでした。そこで、3月に追加されたMidjourneyの「Creative reference（Cref）」の機能を使い、1枚の画像から1024x1024の画像サイズで派生画像を作っていきました（参照：画像生成AIで同じキャラクターが簡単に作れるようになってきた）。

　キャラクターのシチュエーションのプロンプトは、やはりMidjouneyの画像解析機能の「Describe」を使って作成しています。Midjourneyは、7月にバージョン6.1が公開されて、美的に優れた表現が強くなりましたが、Cref機能を使うには旧来のバージョン6を使ったほうがより似た顔が出やすい印象です。

MidjouneyのCrefを使って作成した、明日来子さんのバリエーションの一部。Midjouneyの一般公開が始まったUI上での表示状態

　Crefを使ってもまったく同じ顔にはならないので、「明日来子さんっぽい」と思える画像を選んでいきます。LoRA作成に必要な枚数は10枚以上ですが、多めにと36枚を選別して学習データとしました。そこから、LoRAを作成するクラウドサービスに入れて学習を実行していきます。

　FLUXの一般向けモデル「FLUX.1 dev」用のLoRAを作成するには、学習に最低でもVRAM 24GBのGPUが必要です。そのため、生成AI系のクラウドサービスが一斉に、FLUX用LoRAの生成環境をサービスとして提供しはじめています。学習データが20～30枚程度であれば30～40分で学習可能ということもあり、設定が簡単なクラウドサービスを使うメリットがあるわけです。

CivitAIのLoRAトレーナー。画像をアップロードして、ボタンを押すだけなので簡単

　たとえば、CivitAiは、1回2ドルでFLUX.1 dev用のLoRAトレーナーのサービスを提供しています。専用の解説ページを作ったり、FLUX.1 LoRAのコンテストを始めたり、新サービスとして売り込もうと頑張っているようです。LoRAトレーナーでは、最大1000枚までアップロード可能。画像のキャプションはLLMで自動解析してつけてくれます。1回の生成費用は2000Buzz（CivitAI内の仮想通貨で2ドルに相当）です。

　一方で、筆者が利用したのは「replicate」というサーバレンタルサービスです。利用時間に応じて、使用料が求められるというもの。公開されているサーバー用に設定されているスクリプトを利用できる仕組みです。動かすにはHuggingFaceのAPIキーが必要だったり、実際にいくら料金がかかるのか、生成終了後に手計算しないとわからないという難点があります。今回テスト的に使ってみたのですが、明日来子さんLoRAの生成にかかったのは約30分で、使用料は約2.5ドルでした。