AI絵日記：

画像生成AI「Midjourney」すごいところ、心配なところ

2022年09月01日 16時00分更新

文● 盛田諒（Ryo Morita）編集●ASCII

Midjourney

　アスキーの盛田諒ですこんにちは。画像生成AIの勢いがすさまじいですね。DALL・E 2、Midjourney、Stable Diffusionの御三家をはじめとして、毎週のように新しいサービスが登場し、他分野に技術が派生。「AIが生成した画像を動画に組み込む」「波形を読み込ませて音楽を作る」など、新しい応用例も怒濤のように登場しています。近年まれに見るテクノロジーの大波です。

　メタバース連載をやっていただいている新清士さんに刺激を受けたこともあり、画像生成AI「Midjourney」月額30ドル（約4100円）プランに加入してしまいました。契約しているサブスクの中では最高額です。日々呪文を唱えて画像を召喚している関係、せっかくなのでAI絵日記を書いてみます。今日の話はMidjourneyのすごいところ・不気味なところ。利点と課題が両方見えてきました。

　あらためてMidjourneyというのは入力した文章から画像を生成するサービス。Discordというチャットツールで「Midjourney bot」アカウントに向けて「/imagine」というコマンドを入れた後、描いてほしい絵についての説明を「prompt」欄に英語で入力。これがプロンプトとか呪文と呼ばれるものです。

　プロンプトを入れるとこんな画像を数十秒でポンポン出してくれるので、気に入った絵を選んで高解像度版を出力してもらいます。「清書」ですね。

パンを食べる1歳児

AIの神様

植物園の女性、モーリス・ドニ風

バウハウス風の建築物

飛びあがるペルシャ猫

チーズバーガー

受胎告知

　ハンバーガーから受胎告知までなんでも描いてくれます。描きたいモチーフとタッチにもよりますが、基本的にはすごい完成度の画像を生成してくれます。あれはどうだ、これはどうだと鼻息荒く生成しまくっています。Midjourneyで得られた画像にDepth情報を加えたり、ほかのサービスで加工したりと、応用的に遊んでいる人もいますが、ただ画像を生成するだけでも十分楽しめております。

　プロンプトの中身は（1）モチーフ（2）タッチ（3）コマンドの3つ。

　たとえばこれは大阪・関西万博のマスコットを召喚したらやたらとギラギラしたガイコツパンダが出てきたときのプロンプトです。

（AIが考えた）大阪・関西万博のマスコット

　The official mascot of Osaka Expo 2025, shot on sony a1, 85mm F/1.4 ISO 100, medium format, 45 megapixel, studio lighting, softbox, high shutter speed flash photography, award winning photograph with golden ratio composition --test --ar 2:3

　この場合「The official mascot of Osaka Expo 2025」がモチーフ、その後に入るのはほとんどがタッチになっています。ソニーのα1に85mm F1.4のレンズをつけて撮った風といった指定になっています。AIが学習している画像の中から、このタッチをキーワードに画像を生成してくれるということになります。

　最後に「--」とあるのがコマンドで、画像の縦横比率や質感を指定します。この場合は画角を2:3にして、試験的に導入されていた高画質化系のコマンドを使っています。

　英語なので難しそうに見えますが、要するにレシピの名前と同じで、「えびと豚肉のグリーンカレー本場タイ風ナンプラー入りパクチー特盛り」みたいなもの。タッチには「激辛」「簡単☆」と入れたり、「モンスーンカフェの味」「平野レミ風」というふうに固有名詞を入れたりすることもできるというわけです。

「インド人を右に」と指示したら出てきてくれた人

　ただし固有名詞を入れてしまうと権利面で心配なところもあります。

　Midjourneyサイトのコミュニティフィード（Community Feed）というところからMidjourneyで生成された人気の画像を見られるのですが、最近上位はかなりストレートにハリウッド俳優が並んでいます。スパイダーマンやデッドプールのようなマーベル映画のキャラクターや、「ファイナルファンタジーVII」エアリスのようなゲームキャラクターもいます。暴力表現やポルノ画像は見つかりませんが、公開された画像に対して誰がどう責任を持つのかがとても気になりました。

Midjourneyで生成された人気の画像（ぼかし加工しています）

　イラストも「pixiv」「kyoto animation」のようなプロンプトで指定した画像に加え、思いきり現役のイラストレーターのタッチを再現した画像も出てきます。ピカソやゴッホのように過去の芸術家のタッチを指定するならまだしも、現役作家の作風をそっくりまねた画像がポンと出てきてしまうと心配になります。

キリストのポートレート

マインクラフト風のドナルド・トランプ

　こうした懸念の影響があらわれたのが、日本生まれのイラストAI「mimic」でした。描き手の個性・画風を反映したイラストメーカーを作成できるというサービスでしたが、「生成されたイラストが悪用される可能性がある」という批判を受け、不正利用を防ぐ仕組みが不十分であるとして全機能を停止することになりました。

　AIが生成した画像の権利や真贋をどう受け止めればいいのか。新しい技術が出てきたときに直面するジレンマだなと感じます。

　著作権法まわりの部分については、知財関係の法律に詳しいSTORIA法律事務所の柿沼太一弁護士が8月31日の記事でまとめています。

https://storialaw.jp/blog/8820

　個人的に注目したのは、「詳細かつ長い呪文を唱えて画像を生成した場合には『創作的寄与』があり、当該画像について著作権が発生する可能性が高くなる」。AIが自動生成した画像に著作権がないとしても、ユーザーが呪文を唱えた時点で創意が認められるんじゃないかと思っていたので納得感がありました。これに従って考えれば、固有名詞を含めて複雑な呪文で召喚した画像に対しては、呪文を唱えたユーザーに権利と責任が生じることになりそうです。

　ただmimicなどで問題視されたのはなりすましを含めた画像の悪用とその抑止策なので、AIより二次利用の問題なのかなという気もします。このあたりはまた二次利用と著作権に詳しい法律家に聞いてみたいところです。

　ということで、Midjourneyに課金してみたところ、すごいところと心配なところの両方が見えてきたという話でした。もう1つある心配は、これでプロが廃業するということではなく、新人が勉強としてやってきた見習い仕事やアシスタント業が置き換わってしまいそうだということでした。これは画像生成AIのみならずこれからのAIとロボットの時代全体に通じる課題ではないかと感じましたが、長くなったので続きはまた今度書くかもしれません。いっそAIに書いてほしい。