グーグル傘下のDeepMindは5月14日(現地時間)、同社が開発する画像生成AI「Imagen」の最新バージョン「Imagen 3」を発表した。画像の詳細さが増し、テキストのレンダリング能力が強化されたほか、悪用防止のための“電子透かし”にも対応している。
プロンプトの理解力が向上
Imagen 3はテキストプロンプトから高品質な画像を生成する画像生成モデルの最新版。以前のモデルと比べて、画像の詳細さが増し、乱れも少なくなっているという。
プロンプト文の理解力も大幅に向上しており、長く複雑なプロンプトから細部まで忠実に再現された画像を生成できるのが売りだ。
例えばこの画像は、以下の比較的長めなプロンプトから生成されている。
日本語に訳すと「テーブルの上には、古い青いガラスの花瓶に入った色とりどりの大きな花束。手前にはバラ、ユリ、ヒナギク、蘭、果実、ベリー、緑の葉など、さまざまな花に囲まれている。背景は濃い灰色。オランダ黄金時代のスタイルの油絵」といったキーワードの羅列ではなく、文章としての体裁が整ったものになっている。
画像のクオリティ面でも改善が見られる。人物の手の細かいしわや、象の編みぐるみといった複雑なテクスチャを正確に描写することが可能になった。
テキストのレンダリング機能も大幅に強化されており、バースデーカードやプレゼン資料の作成など、新たな用途への活用が期待されている。
こちらも「草むらの丘の上で、少年と父親が夕日を見つめている漫画の1コマ。少年の吹き出しには"The sun will rise again"と書かれている。色合いは1990年代後半風のくすんだ感じ」といった複雑で具体的なプロンプトになっている。「The sun will rise again」というテキストが指示通り漫画の吹き出しに収まっているのがわかる。
電子透かしも搭載
また、Imagen 3は最新の安全性と責任あるイノベーションのもとで開発されているという。
データセットに含まれる有害なコンテンツを最小限に抑えるため、徹底的なフィルタリングとデータラベリングにより、有害な出力が生成される可能性を低減。さらに、公平性、バイアス、コンテンツの安全性などのトピックについて、レッドチームによる評価も実施している。
特筆すべきは、電子透かし「SynthID」の搭載だ。画像のピクセルに人間の目には知覚できない透かしを直接埋め込み識別可能にしている。AI生成画像の悪用防止に役立つだろう。
Imagen 3は現在、画像生成AIツール「ImageFX」で限定的に利用可能。ただしウェイティングリストへの登録が必要だ。
今後数ヵ月で「インペインティング」や「アウトペインティング」といった修正機能の追加、「Gemini」「Workspace」などグーグル製品全体への展開も予定されている。