「安全性」の担保に力を入れて設計
Imagen 3は「安全性」の担保をするために、かなり力を入れて設計されています。プレスリリースでは「データおよびモデルの開発から生産に至るまで、最新の安全性と責任に関するイノベーションを駆使して構築」したとしています。同様の記述は8月の技術解説論文にも説明されています。
グーグルは生成AIによる有害なコンテンツの生成を禁止する原理(Principle)を決めているのですが、Imagen 3もそれに従っているとしています。プライバシー保護と暴力、ヘイト、露骨な性描写、過剰な性描写といった有害な出力の最小化を確実にするためのプロダクション・フィルタリングや、誤報リスクを減らすための電子透かしの適応をしているとしています。
また、同程度に「公平性」を重視しているとも述べられています。あいまいなプロンプトからシーンを生成するプロセスで、その画像に偏りをどう生まないようにするかという問題です。特に人物の出現分布に注意をはらっているとしており、「知覚される年齢、性別、肌色の分布に基づく自動化された測定基準により、公平性を評価する」としています。具体例としては、「性別に関係なく医師や看護師になれる」ということを的確に画像に反映するようなことが目指されており、ステレオタイプなイメージが生み出されないようにしているようです。
この過剰とまで感じられる制限は意図的に掛けられています。表現の自由さよりも、グーグルの生成AIについての原則が優先しているためです。利用時には、こうしたグーグルの設計の意図を読み取って、プロンプトを組み立てることで、的確な画像を生み出しやすくなると考えられます。
一方で不思議なのは、「RX-78 gundam」とプロンプトを指定すると、かなり正確なガンダムの画像が出てくるという点です。アニメというよりも、プラモデルの画像を学習したと感じられるような画像なのですが、IPに対するコンテンツフィルターは人物に比べると現状は厳しくないようです。
技術論文の中で興味を引くのが、約3000人あまりの人間が画像の品質を評価した結果です。Imagen 3が特に優秀なのは、テキストプロンプトに対する追従性。Stable Diffusion 3やMidjourney、DALL-E 3などに比べても上だとしています。一方、敗北を認めているのは「絵的な魅力」で、Midjourney v6.0には若干劣るとしています。
Imagen 3がどんなトレーニングをしているのかは不明で、論文では「私たちのモデルは、画像、テキスト、関連するアノテーションを含む大規模なデータセットで訓練されています」としています。グーグルは以前から、どのようなデータセットを使い、どのような方法で学習を進めたのかということを、ほとんど公開していません。データは、「品質と安全性の基準を確保するために、複数段階のフィルタリングプロセスを採用しています。このプロセスは、危険、不適切、または低品質な画像の除去から始まります。その後、AI生成画像を排除し、モデルがこれらの画像に特有のアーティファクトやバイアスを学習するのを防ぎます」という説明がなされており、データをふるいにかけたうえで学習させていることはわかるものの、その詳細の説明はなく、これほど高性能な画像が、どのような技術に支えられているのかは、よくわからないという状況です。

この連載の記事
-
第97回
AI
AI法案、柔軟規制で国会審議へ 罰則なし“ソフトロー”の狙いは -
第96回
AI
AI生成の3Dデータが実用レベルに近づいてきた -
第95回
AI
月3万円で使えるOpenAIの「Deep Research」 驚異的だが、情報格差が広がる不安も感じた -
第94回
トピックス
1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは -
第93回
AI
DeepSeek R1、無料で使えるAIとしては最強クラス -
第92回
AI
動画生成AI、ついにアダルトの扉が開く -
第91回
AI
AIの書いた小説が普通に面白い ChatGPT「o1」驚きの文章力 -
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ - この連載の一覧へ