このページの本文へ

新清士の「メタバース・プレゼンス」 第77回

画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に

2024年09月02日 10時30分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

LoRAはWebサービスを使えば2ドルで作れる

 「明日来子さんLoRA」はどうやって作ったか。

 そもそも、明日来子さんのデータは2024年1月、この連載のためにMidjouneyで作成した1枚の画像しかありませんでした。そこで、3月に追加されたMidjourneyの「Creative reference(Cref)」の機能を使い、1枚の画像から1024x1024の画像サイズで派生画像を作っていきました(参照:画像生成AIで同じキャラクターが簡単に作れるようになってきた)。

 キャラクターのシチュエーションのプロンプトは、やはりMidjouneyの画像解析機能の「Describe」を使って作成しています。Midjourneyは、7月にバージョン6.1が公開されて、美的に優れた表現が強くなりましたが、Cref機能を使うには旧来のバージョン6を使ったほうがより似た顔が出やすい印象です。

MidjouneyのCrefを使って作成した、明日来子さんのバリエーションの一部。Midjouneyの一般公開が始まったUI上での表示状態

 Crefを使ってもまったく同じ顔にはならないので、「明日来子さんっぽい」と思える画像を選んでいきます。LoRA作成に必要な枚数は10枚以上ですが、多めにと36枚を選別して学習データとしました。そこから、LoRAを作成するクラウドサービスに入れて学習を実行していきます。

 FLUXの一般向けモデル「FLUX.1 dev」用のLoRAを作成するには、学習に最低でもVRAM 24GBのGPUが必要です。そのため、生成AI系のクラウドサービスが一斉に、FLUX用LoRAの生成環境をサービスとして提供しはじめています。学習データが20~30枚程度であれば30~40分で学習可能ということもあり、設定が簡単なクラウドサービスを使うメリットがあるわけです。

CivitAIのLoRAトレーナー。画像をアップロードして、ボタンを押すだけなので簡単

 たとえば、CivitAiは、1回2ドルでFLUX.1 dev用のLoRAトレーナーのサービスを提供しています。専用の解説ページを作ったり、FLUX.1 LoRAのコンテストを始めたり、新サービスとして売り込もうと頑張っているようです。LoRAトレーナーでは、最大1000枚までアップロード可能。画像のキャプションはLLMで自動解析してつけてくれます。1回の生成費用は2000Buzz(CivitAI内の仮想通貨で2ドルに相当)です。

 一方で、筆者が利用したのは「replicate」というサーバレンタルサービスです。利用時間に応じて、使用料が求められるというもの。公開されているサーバー用に設定されているスクリプトを利用できる仕組みです。動かすにはHuggingFaceのAPIキーが必要だったり、実際にいくら料金がかかるのか、生成終了後に手計算しないとわからないという難点があります。今回テスト的に使ってみたのですが、明日来子さんLoRAの生成にかかったのは約30分で、使用料は約2.5ドルでした。

replicateの設定画面。VRAM80GBのNVIDA A100が借りられるが、1秒あたり0.0014ドルの従量課金になる

カテゴリートップへ

この連載の記事
ピックアップ