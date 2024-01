本連載「Stable Diffusion入門 from Thailand」は、2024年に入って1回目。今年も「Stable Diffusion」をメインに、画像生成AI周辺の話題について入門者視点でお伝えしていきたい。

今回の話題は、Stable Diffusionを手軽に使えるユーザーインターフェースの「Fooocus」。12月13日にリリースされた新バージョン「Fooocus 2.1.831」には、画像をアップロードするとテキストプロンプト(呪文)を生成する「Describe」機能が追加されている。

画像をドラッグ&ドロップしてボタンを押すだけ

使い方は簡単だ。Fooocusを起動したら、「Input Image」にチェックを入れ、「Describe」タブを選択。

左側のスペースに画像をドラッグ&ドロップでアップロードする。画像の種類によって「Photograph」か「Art / Anime」のどちらかを選択し、「Describe this image into Prompt」ボタンをクリックしよう。

なお、今回お手本として使用しているすべての画像は、以前筆者がFooocusで生成したものだ。

girl in an uniform stands by a doorway

上記のようなプロンプトが生成された。日本語に訳すと「玄関に立つ制服の少女」となっている。

さっそくこのまま生成してみよう。どれくらい似た画像になるのだろうか。

お、おう……。メイド服と言うよりは軍服を着たお嬢さんが生成されたが、まあどちらも制服(uniform)には変わりないか。とは言え、構図・背景・色味などは元画像を受け継いでおり、とっかかりとしてはいいんじゃないだろうか。

風景は得意かも

続いては、人物ではなく廃墟の写真をアップロードしてみた。

an old rundown city street with several rusted out cars and building rubble

上記のスクリプトが生成された。「錆びついた車や瓦礫が散乱する古ぼけた街並み」といったところか。

おお、これはかなり再現度が高いぞ!

アニメイラストはいちばん相性がよさそう

次はアニメ風のイラストで試してみよう。「Content Type」を忘れずに「Photograph」から「Art / Anime」に変更して、「Describe this image into Prompt」ボタンをクリック。

1girl, solo, long hair, breasts, looking at viewer, blush, smile, bangs, black hair, red eyes, long sleeves, animal ears, medium breasts, upper body, flower, sidelocks, outdoors, parted lips, japanese clothes, day, wide sleeves, kimono, tree, animal ear fluff, sash, fox ears, obi, floral print, extra ears, white kimono, stairs

おなじみ「1girl」から始まる、これぞ「呪文」と呼ぶにふさわしい長大なプロンプトが生成された。これは期待できるぞ。

おおおおお!!! これはかなりいい感じの画像が生成されたぞ。

間違えることも多いがご愛嬌

次は少し意地悪をして、人形(ひとがた)ではあるが人間ではない「仏像」が描かれたイラストで試してみよう。

solo, smile, open mouth, sitting, closed eyes, outdoors, sky, day, cloud, no humans, building, indian style, ruins, statue

最後に「statue(彫像)」と入ってはいるものの、これだと人間が出ちゃうんじゃないかしら……。

予想通り、人間が生成された。これはこれでおもしろいのだが、やっぱり仏像も出してもらいたい。

というわけで、冒頭に「buddha statue(仏像)」を追加して再生成。

当たり前だが、狙い通り仏像が生成された。

使い道としては

以上ひととおり試してみたが、この機能はどのような使い道があるのかを考えてみよう。

お手本と似た画像を生成したいだけなら、「image 2 image」や「image prompt」を利用したほうがいいだろう。

これらについては連載第5回(「画像から画像が作れる『Image Prompt』が便利です」)で詳しく紹介している。

そうではなく、「Describe」機能が得意とするのはやはりプロンプト探求だ。「こんな絵を生成したいんだけどプロンプトになにを入れればいいかわからない」という場合、AI画像ならメタデータが入っている場合もあるが、Describeなら、どんな画像からでもそのような結果を出すプロンプトを考えてくれるのだ。

もちろん出力は完璧ではないが、生成されたプロンプトにさらに手を入れたり、後処理を工夫したりすることで、思い通りの絵を作っていけばよいだろう。

【おまけ】ChatGPTを組み合わせてみる

最後に、同じ画像をChatGPTにアップロードして、プロンプトを考えてもらった(GPT-4V)。

A digital artwork of a graceful woman with a serene smile, standing at the bottom of a sunlit traditional stone staircase, surrounded by lush greenery. She has long, flowing black hair, fox-like ears, and bright red eyes. She wears a traditional white kimono adorned with a pattern of vibrant red flowers and a red obi belt. The scene suggests a tranquil Japanese garden, with bamboo and blooming flowers on a bright day

結果、こちらもかなり長大なプロンプトが生成された。アニメ絵だけ異様に力が入っている。生成AI界隈あるあるである。

FooocusにChatGPTが作成したプロンプトをコピペし、生成されたイラストがこちら。

和風というより中華風になっていたり、ケモミミが狐として分離していたりとかなり異なるが、イラスト自体のクオリティーはなかなかのものだ。

というか、ChatGPTって「DALL·E 3」(画像生成AI)使えるんだった……ということで、生成してもらった画像がこちら。

グハ! かなりツボな美少女が生成された。今年はStable DiffusionだけではなくDALL·Eの探求もしなきゃなあ……と新たな課題が増えてしまった。