画像の描き込みを増やして高画質にする、日本発の生成アップスケーラー「カクダイV1」が2月7日に発表されて話題になりました。東大出身ベンチャーのMavericksが開発したもので、画像生成AI「Stable Diffusion」生成環境「ComfyUI」向けの技術として無料公開されています。人気アップスケーラー「Maginific AI」を超える製品にまでに成長していくのか注目です。
Stable Diffusionのアップスケールは難しかった
カクダイを紹介する前に、まずは画像生成AIとアップスケーラーとの関係についてお話します。
Stable Diffusion登場後の画像生成AI技術を使ったアップスケーラーは、単に画像を拡大させるだけの用途ではなくなりました。画像を拡大するとき、プロンプトなどと組み合わせて、元画像になかったディティールを追加することで、元の画像にはなかった新しい魅力をつけることができるようになっています。
Stable Diffusionを使ったアップスケーラーとして最も一般的だったのは、生成環境「Stable Diffusion web UI A1111」の「Hires.fix(ハイレゾフィックス)」。これは、生成した画像にディティールを描き込みながら拡大するときは便利なのですが、1枚の画像を一気に大きなサイズへと再生成しようとするアプローチなので、弱点もありました。
なによりVRAMを必要とする仕組みなので、ビデオカードのVRAMが少ないとエラーが出やすく、作業が完了できないことが増えます。2023年3月頃は、NVIDIA GeForce RTX 4090(VRAM 24GB)搭載機でも4Kサイズの出力ができなくなってしまうほど重いアプローチでした。そして、品質も十分とまでは言えるものでもありませんでした。
その後、NVIDIAのドライバーなどの改善で出力自体はできるようにはなりましたが、いまだに動作が重い割には品質が足りないと感じられるアプローチであることには変わりません。
その後、VRAMの搭載量が少ないビデオカードでもアップスケールができる方法として登場してきたのが2023年5月の「Tiled Diffusion(タイルド・ディフュージョン)」でした。これは指定したサイズで、元の画像をタイルのように分割し、1枚ずつ順番にアップスケールしていくことで高画質化するもの。1枚の画像から、複数枚の画像を再生成して最後に1枚に統合するという仕組みのため、生成には時間がかかるものの、VRAMが少ないビデオカードでも動く上、美しくアップスケールができるということで、広く普及しました。
ただし、画像を分割して生成するため、パラメーターをうまく調整しないと、的確な画像が生成されません。分割された元画像とプロンプトを参照しながら画像を生成するのですが、「Denoising strength(ノイズ除去の強さ)」のパラメータを的確に設定しないと、期待通りの画像が出ないという弱点があります。これは元の画像からどれぐらい変化を許容するかというパラメータなのですが、デフォルトでは0.7になっており、生成時にはかなり画像が変わってしまいます。
たとえば、「girl」といったプロンプトが設定されていると、それぞれのタイルに女の子が生成されてしまうという結果になります(笑)。0.25あたりの低めの数値に設定して調整するのがよいとされています。
いまはTiled DiffusionがControlNetに対応したことで、ディティールアップ用の機能「Tile」と組み合わせるのが一般的になりました。元画像から大きく乖離することなく、ディティールを増やすことができます。
ただし、やはりモデルの選択とパラメーター設定の選択とには相性があり、思ったような画像を出すにはそれなりに試行錯誤とノウハウが必要です。
この連載の記事
-
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは - この連載の一覧へ