Google I/Oで発表されたAI関連まとめ

グーグルから発表された「Gemini○○」以外のAIサービスやプロダクトまとめ

2024年05月20日 10時00分更新

文● ムラリン/編集 ASCII

　５月14日（現地時間）にグーグルが開催した開発者向けカンファレンス「Google I/O 2024」。たくさんの「Gemini○○」と名付けられたサービスや技術が一体何なのか、どう使い分けられるのかという前回の記事に続き、本稿では、「Gemini○○」以外の名前が付いていたAI技術について簡単に解説していきます。

■グーグルのAI「Gemini○○」いっぱいありすぎてワケ分からん問題に分かりやすく答える

次世代の「OK、Google」を目指す「Project Astra」

●Project Astra

　こちらはグーグルの目指す「次世代AIアシスタントを作ろう計画」のこと。人間と自然に対話し、テキストや音声、画像、動画にも対応するマルチモーダルなAIソリューションで、Astraと名付けられています。Astraには、Gemini Ultraの進化版が採用されているとされていて、自然対話が可能なGemini Liveの技術も組み込まれるとアナウンスされていました。たぶん、現在の「OK Google」から置き換わるものになるのだと思います。

　Google I/Oでは、スマホのカメラを通して見たものを判断させる、というデモンストレーション（ビデオ）が公開されました。

スマホのカメラで捉えた映像に「これはスピーカーです」と答えたあと、手書きで矢印「これは何？」と聞くと、「高音用のツィータースピーカーですね」と答えるAstra

ディスプレイに映ったコードをチェックするという、デキる同僚目線なAstra

窓の外の景色を見ただけで、「ロンドンのキングズクロスエリアですね」と即答するAstra。キャプション字幕では「Gemini」と表示されているので、Astraはあくまで現時点のプロジェクトコードネームで、最終的にはまた「Gemini○○」という名前になるのかもしれない

結構エグかったデモ。「そう言えば眼鏡どこに置いたっけ？」と問いかけると、「テーブルの上のりんごの横にありましたよ」と答えるAstra。事前にこの眼鏡のある場所をスマホのカメラがしっかり捉えるシーンが盛り込んであるという伏線が張ってある

ここからまた一歩踏み込んで、先程発見した眼鏡をかけると、それはスマートグラスでした。Astraの目が、スマホのカメラからスマートグラスに移りデモを継続

眼鏡で見ているので両手が使える。これは何？「シュレーディンガーの猫」。イラストと物理的な箱の組み合わせを理解

最後はかわいい2匹。このユニットに名前を付けて。「ゴールデン・ストライプ」。お見事

　このデモはかなり盛り上がったのですが、あくまで事前撮影されたビデオ映像の紹介でしたので、その場でやってみせたわけではありません。将来はこうなる、という提示にとどまっていました。まあ、やってることはかなりエグい内容でしたが。

　このデモでは、実際、現時点でのGoogle Live技術が使われていたのだと思いますが、人間臭さとか情緒的表現といった部分では、やっぱりGPT-4oのほうが優れていると感じました。しかし、視覚情報判断という面においては、もはやあまり優劣を感じさせない内容だったと思います。

画像・音楽・ビデオ、３つのクリエイター向けAIプロダクト

　Google I/Oでは、「Generative Media」と銘打って、クリエイター向けを謳ったAIプロダクトが3ジャンルに渡って公開されました。

●Imagen 3

　まずはこちら、画像生成AIの最新版「Imagen 3」。プロンプトの理解力向上、テキストレンダリングの正確性向上、電子透かし搭載など、いまどきの画像生成AIに求められる性能アップ項目は一通り盛り込まれたようで、実際出力された画像を見ても、クォリティはかなり高いなと感じました。

ほぼ写真な画像が出力されるImagen 3

プロンプトの理解力が上がり、思い通りの絵を出力できるということを力説

　ただし、例示された画像は写真ベースのものが多く、実物に近い表現は可能かもしれませんが、アーティスティックなイラストなどの実力はやや未知数。もう少しサンプルを見せてほしかったところです。

　今後は、インペインティング、アウトペインティングなどの機能を追加予定（まだないのかよ！とか言わない）。またこのImagen 3は、Google Workspceで使えるようになるそうです。

●Music AI Sandbox

　続いては音楽生成AIプロダクト「Music AI Sandbox」です。昨年暮れにGoogle DeepMindが発表した音楽生成AIモデル「Lyria（リリア）」を利用したサービスですが、現時点での製品化はまだ未定。クリエイター支援を目指すプロダクトという位置づけのものになります。

　こうしたメディア生成AIにおいて、必ず課題に上がるのがクリエイターからの反発です。クリエイターとの協働をアピールすることで、そのハレーションを少しでも和らげようという意図が見えるデモでした。このプロダクトの詳細については別記事がありますので、そちらを参照してください。

■グーグルの音楽生成AI「Music AI Sandbox」が与えたインパクト

●Veo

　こちらも今回の発表の目玉のひとつ、動画生成AI「Veo」です。OpenAIの動画生成AI「Sora」対抗のプロダクトですが、Soraにあれだけ話題をさらわれてはグーグルとしても黙っていられまい、と考えてすぐにここまでのものが作れてしまうというのが単純にすごいなと思います。

Google DeepMind's text-to-video model Veo creates 60 second video

　現状、1080pで最長1分の動画生成が可能とのことなので、Soraと比べるとかなり長尺。精度的にはSoraといい勝負していると思われますがまだサンプルが少ないのでなんとも言えませんね。米国のGoogleLabsでは、すでにウェイティングリストに登録ができ、近々一般ユーザーにも公開される見込みです。

前へ 1 2 次へ

ツイートする

カテゴリートップへ