「安全性」の担保に力を入れて設計
Imagen 3は「安全性」の担保をするために、かなり力を入れて設計されています。プレスリリースでは「データおよびモデルの開発から生産に至るまで、最新の安全性と責任に関するイノベーションを駆使して構築」したとしています。同様の記述は8月の技術解説論文にも説明されています。
グーグルは生成AIによる有害なコンテンツの生成を禁止する原理(Principle)を決めているのですが、Imagen 3もそれに従っているとしています。プライバシー保護と暴力、ヘイト、露骨な性描写、過剰な性描写といった有害な出力の最小化を確実にするためのプロダクション・フィルタリングや、誤報リスクを減らすための電子透かしの適応をしているとしています。
また、同程度に「公平性」を重視しているとも述べられています。あいまいなプロンプトからシーンを生成するプロセスで、その画像に偏りをどう生まないようにするかという問題です。特に人物の出現分布に注意をはらっているとしており、「知覚される年齢、性別、肌色の分布に基づく自動化された測定基準により、公平性を評価する」としています。具体例としては、「性別に関係なく医師や看護師になれる」ということを的確に画像に反映するようなことが目指されており、ステレオタイプなイメージが生み出されないようにしているようです。
この過剰とまで感じられる制限は意図的に掛けられています。表現の自由さよりも、グーグルの生成AIについての原則が優先しているためです。利用時には、こうしたグーグルの設計の意図を読み取って、プロンプトを組み立てることで、的確な画像を生み出しやすくなると考えられます。
一方で不思議なのは、「RX-78 gundam」とプロンプトを指定すると、かなり正確なガンダムの画像が出てくるという点です。アニメというよりも、プラモデルの画像を学習したと感じられるような画像なのですが、IPに対するコンテンツフィルターは人物に比べると現状は厳しくないようです。
技術論文の中で興味を引くのが、約3000人あまりの人間が画像の品質を評価した結果です。Imagen 3が特に優秀なのは、テキストプロンプトに対する追従性。Stable Diffusion 3やMidjourney、DALL-E 3などに比べても上だとしています。一方、敗北を認めているのは「絵的な魅力」で、Midjourney v6.0には若干劣るとしています。
Imagen 3がどんなトレーニングをしているのかは不明で、論文では「私たちのモデルは、画像、テキスト、関連するアノテーションを含む大規模なデータセットで訓練されています」としています。グーグルは以前から、どのようなデータセットを使い、どのような方法で学習を進めたのかということを、ほとんど公開していません。データは、「品質と安全性の基準を確保するために、複数段階のフィルタリングプロセスを採用しています。このプロセスは、危険、不適切、または低品質な画像の除去から始まります。その後、AI生成画像を排除し、モデルがこれらの画像に特有のアーティファクトやバイアスを学習するのを防ぎます」という説明がなされており、データをふるいにかけたうえで学習させていることはわかるものの、その詳細の説明はなく、これほど高性能な画像が、どのような技術に支えられているのかは、よくわからないという状況です。
この連載の記事
-
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは -
第77回
AI
画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に -
第76回
AI
「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」 -
第75回
AI
商業漫画にAIが使われるようになってきた - この連載の一覧へ