5月14日(現地時間)にグーグルが開催した開発者向けカンファレンス「Google I/O 2024」。たくさんの「Gemini○○」と名付けられたサービスや技術が一体何なのか、どう使い分けられるのかという前回の記事に続き、本稿では、「Gemini○○」以外の名前が付いていたAI技術について簡単に解説していきます。
■グーグルのAI「Gemini○○」いっぱいありすぎてワケ分からん問題に分かりやすく答える
次世代の「OK、Google」を目指す「Project Astra」
●Project Astra
こちらはグーグルの目指す「次世代AIアシスタントを作ろう計画」のこと。人間と自然に対話し、テキストや音声、画像、動画にも対応するマルチモーダルなAIソリューションで、Astraと名付けられています。Astraには、Gemini Ultraの進化版が採用されているとされていて、自然対話が可能なGemini Liveの技術も組み込まれるとアナウンスされていました。たぶん、現在の「OK Google」から置き換わるものになるのだと思います。
Google I/Oでは、スマホのカメラを通して見たものを判断させる、というデモンストレーション(ビデオ)が公開されました。
このデモはかなり盛り上がったのですが、あくまで事前撮影されたビデオ映像の紹介でしたので、その場でやってみせたわけではありません。将来はこうなる、という提示にとどまっていました。まあ、やってることはかなりエグい内容でしたが。
このデモでは、実際、現時点でのGoogle Live技術が使われていたのだと思いますが、人間臭さとか情緒的表現といった部分では、やっぱりGPT-4oのほうが優れていると感じました。しかし、視覚情報判断という面においては、もはやあまり優劣を感じさせない内容だったと思います。
画像・音楽・ビデオ、3つのクリエイター向けAIプロダクト
Google I/Oでは、「Generative Media」と銘打って、クリエイター向けを謳ったAIプロダクトが3ジャンルに渡って公開されました。
●Imagen 3
まずはこちら、画像生成AIの最新版「Imagen 3」。プロンプトの理解力向上、テキストレンダリングの正確性向上、電子透かし搭載など、いまどきの画像生成AIに求められる性能アップ項目は一通り盛り込まれたようで、実際出力された画像を見ても、クォリティはかなり高いなと感じました。
ただし、例示された画像は写真ベースのものが多く、実物に近い表現は可能かもしれませんが、アーティスティックなイラストなどの実力はやや未知数。もう少しサンプルを見せてほしかったところです。
今後は、インペインティング、アウトペインティングなどの機能を追加予定(まだないのかよ!とか言わない)。またこのImagen 3は、Google Workspceで使えるようになるそうです。
●Music AI Sandbox
続いては音楽生成AIプロダクト「Music AI Sandbox」です。昨年暮れにGoogle DeepMindが発表した音楽生成AIモデル「Lyria(リリア)」を利用したサービスですが、現時点での製品化はまだ未定。クリエイター支援を目指すプロダクトという位置づけのものになります。
こうしたメディア生成AIにおいて、必ず課題に上がるのがクリエイターからの反発です。クリエイターとの協働をアピールすることで、そのハレーションを少しでも和らげようという意図が見えるデモでした。このプロダクトの詳細については別記事がありますので、そちらを参照してください。
■グーグルの音楽生成AI「Music AI Sandbox」が与えたインパクト
●Veo
こちらも今回の発表の目玉のひとつ、動画生成AI「Veo」です。OpenAIの動画生成AI「Sora」対抗のプロダクトですが、Soraにあれだけ話題をさらわれてはグーグルとしても黙っていられまい、と考えてすぐにここまでのものが作れてしまうというのが単純にすごいなと思います。
現状、1080pで最長1分の動画生成が可能とのことなので、Soraと比べるとかなり長尺。精度的にはSoraといい勝負していると思われますがまだサンプルが少ないのでなんとも言えませんね。米国のGoogleLabsでは、すでにウェイティングリストに登録ができ、近々一般ユーザーにも公開される見込みです。