Google Cloudが「Generative AI Summit Tokyo '24」開催、生成AIの使い倒し方を示す
生成AI活用の先にある、日本テレビが本当に“創りたい”もの
2024年03月12日 08時00分更新
Google Cloud は、2024年3月7日、生成AIをテーマとしたイベント「Generative AI Summit Tokyo '24」を、対面とオンラインのハイブリッドで開催した。
同イベントでは、生成AIを“触ってみる”から“アプリケーションやソリューションを開発する”段階に移行するための情報が、各セッションや現地の展示ブースを通じて展開された。本記事では、ユーザー事例として日本テレビも登壇した、「生成AIの実践展開へ」と題した基調講演のレポートをお届けする。
Googleの生成AIの中心である「Gemini」名前の由来とは?
Googleは、2024年の2月8日に生成AIアシスタントの“Bard”やGoogle CloudやGoogle Workspace向けの生成AIサービス“Duet AI”を、一部のAIモデルに名付けていた 「Gemini (ジェミニ)」に名称変更した。
Geminiは、“ふたご座”という意味を持つが、Googleがこの名称を付けた理由は2つある。ひとつは、Geminiが、Google DeepMindとGoogle Brainという“2つの”チームが革新的なものを作ろうと始めたプロジェクトであること、そして、この2つのチームがチャレンジするのを、“2人組”の宇宙飛行士を宇宙に届けるところから始まったNASAのジェミニ計画になぞらえていることだ。
GoogleがGeminiというブランドで注力する生成AIだが、「試すフェーズから、業務にいかに組み込んでいくか、いかに使い倒していくかというフェーズに確実に変わってきている」と、Google Cloud のAI事業本部 執行役員 事業本部長である橋口剛氏は語る。
マルチモーダルな「Gemini」のAIモデルは、3つのサイズで展開 コンテキスト長が拡大されたGemini 1.5も登場
このGeminiの生成AIのモデルは、オンデバイスで動作する“Nano”、幅広いタスクをこなす“Pro”、そして最も能力の高い“Ultra”で構成される。AIモデルの性能が上がるほどコストがかかり、レスポンススピードも遅くなるため、ユーザーが用途に合わせて選択できるよう3つのサイズを用意する。
これらのAIモデルは、文字情報や画像、音声などさまざまなデータを扱える“マルチモーダル”な点が特徴だといい、加えて、最上位モデルである「Gemini 1.0 Ultra」は、専門知識を問うベンチマークにてAIモデルで初めて専門家を上回るなど、パフォーマンスの高さも売りとする。
2024年2月16日には最新モデルである「Gemini 1.5」を発表、アーキテクチャーを効率化してリソースを抑えるだけではなく、コンテキスト長(プロンプトを受け入れられる量)を拡張した。
コンテキスト長を、動画では約1時間、音声では約11時間、文字数にすると約70万文字にまで拡大することで、外部の情報を参照せず、プロンプトに含まれる情報だけでも回答の精度が向上するという。マルチモーダルと組み合わせることで、新しい利用用途にも挑戦できるようになるとGoogleでも期待を寄せる。Gemini 1.5は、現在Proサイズのみがプレビューで提供されている。
AIモデル“だけ”の活用に向いているのは一部のタスク
一方で、Google Cloudの統括技術本部長(アナリティクス / ML、データベース)である寳野雄太氏は、「入力された自然文に対して、今まで学習したデータを基にもっともらしい文章を生成する」のが生成AIの本質であり、「生成AIを賢いと捉えているだけでは、実際の活用は進まない」とも説明する。例えば、Geminiのアプリが、生成AIが誤った回答をしてしまう“ハルシネーション”を回避するのは、アプリ内の別の技術で、生成AIの持たない知識を与えているからだ。
生成AIモデル“だけ”の活用に向いているのは、要約や情報抽出、生成、分類といったタスクであり、PoCから実践へとステップアップしていくには“生成AIアプリケーション”総体として捉えていく必要があるという。
実際に生成AIの活用を実践していくためにGoogle Cloudが用意するのが、生成AIアプリケーションを開発するための「Vertex AI」と、生成AIを利用するための「Gemini for Google Cloud」と「Gemini for Google Workspace」だ。
Vertex AIでは、根拠づけでハルシネーションを低減する“グラウンディング”や、タスクを特化させる“チューニング”、アプリを動作させる“拡張”といった、生成AIアプリの実用化に必要な機能を備える。
また、Vertex AIの「Model Garden」を通じて、Geminiを始めとしたGoogle製モデルだけではなく、オープンソースやパートナーも含む多様なAIモデルから、ニーズにあわせた最適なモデルを選択できる。
また、寳野氏が生成AIのアプリにおいて重要だと強調するのが「検索と会話」だ。
根拠づけを行うグラウンディングにおいても、プロンプトに対応する情報は何か、コンテキストとして与える情報は何かといった、“検索”のプロセスが重要となる。そこで再注目されているのが、AIが意味を解釈して検索する“セマンティック検索”だという。「生成AIの時代では、キーワードではなく、自然文で指示が飛んでくるのでセマンティック検索が有効」と寳野氏。Googleではこのセマンティック検索にいち早く取り組んできたという。
もうひとつ欠かせない技術として挙げられたのが、会話フローだ。例えば、生成AIアプリを公開しても、いたずら目的の質問にも答えていたら企業のブランディングに影響を及ぼす。または、銀行のアプリで、特定のユーザーの残高を問われた際に、認証もなく返してしまうと大事故につながる可能性がある。
会話フローの制御は、一般的に、会話フローのビジネスロジックを実装して生成AIと組み合わせることで実現するが、このフローの構築には手間がかかる。Google Cloudでは、会話フロー自体を生成AIが構築してくれる「Vertex Conversation」を提供しており、フローの運用も簡略化できるという。
これらの検索と会話も含めて、生成AIアプリケーション開発のための要素を統合したのが、Vertex AIとなる。
また生成AIアプリを開発しなくてもすぐに生成AIを活用できるサービスとして、Google CloudにGeminiを組み込んだGemini for Google Cloudを提供する。開発者向けの生成AIサービスであり、コードの生成やレビューなどの機能で、Google Cloudでの開発を効率化する。
Google WorkspaceにGeminiを組み込んだのが、Gemini for Google Workspaceだ。Gmailやスプレッドシート、スライドに生成AI機能が加わり、従業員の生産性を向上させる。また、Gemini for Google Workspaceを利用すると、データ保護されたGeminiアプリがGoogle Workspace内で提供され、コンシューマ向けとは異なりプロンプトのデータがGoogleの学習に利用されなくなるという。
生成AIの実践に向けた支援策も用意している。「TAP(Tech Acceleration Program)」は、DXプロジェクトの立ち上げを伴走型で支援するプログラムで、ワークショップの開催や、その中で生まれたアイディアを実現するためのプロトタイピングの支援などを行う。