画像生成AI「Stable Diffusion」の開発で知られるStability AIは7月13日(現地時間)、同社が運営するAI画像作成ポータル「Clipdrop by Stability AI」内の機能として、シンプルな手書きのスケッチを様々なタッチのCGイラストに変換するスケッチ・トゥ・イメージツール「Stable Doodle」を無料公開した。ブラウザーおよび「iOS」「Android」の「ClipDrop」アプリから試用できる。
どんなに下手なイラストでもだいじょうぶ!
使い方はとても簡単。まずは描きたいものをマウスで自由にスケッチしたら、次にプロンプトを入力。ここでは「big buddha statue made by bronze(青銅でできた大仏)」と入力、プロンプトは日本語も受け付けるが反映してなさそうなので英語を推奨。
さらに、「No Style」ボタンをクリックすると「3D Model」や「Anime」など14種用意されたスタイルを選ぶことができる。ここでは「Photographic」を選択した。
準備ができたら「Generate」をクリック。果たしてこんないいかげんな落書きでいいのだろうか?
3枚同時に生成開始。
数秒でスケッチを元にした画像が3枚生成された。微妙に右に傾いているところまでスケッチどおりだ。
画像サムネールをクリックすると拡大して表示され、「Download HD」をクリックすることで2048×2048の高精細JPEG画像をダウンロードできる。
プロンプト入力欄の右にある「Photographic」をクリックして後からスタイルを変更することも可能。
スタイルを「Low Poly」に変更したところ。
「Stable Diffusion XL」と「T2I-Adapter」の合わせ技
Stable Doodleは、Stability AIが開発中の次世代モデル「Stable Diffusion XL」の高度な画像生成技術と、Tencent ARCよりライセンス供与された「T2I-Adapter」の精密な画像制御技術を組み合わせたものだ。
基本モデルと比べると非常に少ない7700万のパラメーター数で構成されたT2I-Adapterを利用し、スケッチ、セグメンテーションマップ、キーポーズなどの追加入力条件を事前学習済みのStable Diffusionに入力することで、スケッチとプロンプトに基づいた画像を生成するという。
Stable Diffusionによる画像生成は、構図やポーズの再現性が低いため、お手本となる画像を使って指定する「ControlNet」機能拡張などの利用が必須だが、そのぶん導入までの難易度は跳ね上がる。Stable Doodleを使えば、ほぼ同じことを無料で試せるのだ。
Stability AIによるデモ動画