グーグルは現地時間12月16日、複数の画像を組み合わせることで作品を生成できるAIツール「Whisk(ウィスク)」を公開した。Whiskは英語で「泡だて器(ホイッパー)」の意味。
画像生成AIで「呪文」として知られるテキストプロンプト(指示文)ではなく、画像をドラッグ&ドロップするだけで利用できるのが特徴。被写体、シーン、スタイルの3種類の画像を入力することで、オリジナルのデジタルアート作品を生み出すことができる。
仕組みとしては、グーグルのマルチモーダルAIモデル「Gemini」が入力された画像の詳細な説明文を自動生成し、画像生成AIモデル「Imagen 3」に送ることで作品を完成させる。入力した画像を複製するのではなく、その特徴をとらえた新しい表現が生成されるようになっている。
Whiskは、アイデアをすばやく検討することを目的に設計されている。現在、サービスは米国内でのみ利用可能となっており、日本からは利用できない。米国のアクセスは「labs.google/whisk」から。