生成AIをさらに掘り下げたAWS re:Invent 2023の基調講演
マルチモーダル、ベクトル検索、リスキリング AWSが生成AI開発支援をより強化
2023年12月18日 10時30分更新
ユーザーデータとベクトルデータを同じ場所に格納する価値
生成AIの開発に用いるデータの運用・管理についても、包括的なサービスを提供するという。「生成AIはデータの基盤がもっと大切になる。どのような使い方をするにせよ、強いデータ基盤がなければならない。自らのデータを統治できなければならない」とシバスブラマニアン氏は語る。
データを保存し、クエリをかけ、分析するという点に関しては、Amazon AuroraやRDS、DynamoDBのような汎用データベース、DWHのAmazon Redshift、検索を提供するAmazon OpenSearch、データレイクにも用いることができるAmazon S3、ビッグデータ用のAmazon EMRなど、さまざまなデータストアを提供する。QuickSightのようなBIツール、データ管理やセキュリティサービスも用意している。
今回拡充されたのは、ベクトル検索可能なデータストアやサービスの拡充だ。前述の通り、生成AIモデルに入力されるテキスト、画像、音声は数値のベクトルで表現されており、類似したデータは類似した数値を持つという特徴がある。シバスブラマニアン氏は「生成AIでも既存のデータベースを使いたい。新しいツールやAPI、SDKを学ばないで済む。ベクトルと既存のデータが同じ場所に保存されていれば、アプリケーションはより高速に実行できる」とアピールする。
GAとなったVector Engine for OpenSearch Serverlessを利用すると、複雑なベクトルで表現された数十億のデータをミリ秒単位で保存、更新、検索まで行なえる。OpenSearchのクライアントやLangChainなどのOSSとも互換性も確保しており、生成AIアプリケーションの構築を加速する。
Amazon DocumentDB、DynamoDB、Amazon MemoryDB for Redisもベクトル検索に対応し、データの意味に基づく類似検索を容易に実現する。Amazon MemoryDB for Redisでは、不正検知やチャットボットなどリアルタイム性の高い生成AIアプリでも、高速で低遅延な利用が可能になる。また、グラフデータを秒単位で分析する新しい分析データベースエンジン「Amazon Neptune Analystic」もGAとなり、今までの80倍の速さでAmazon NeptuneのグラフデータベースやS3のグラフデータを取り込んで分析できるようになった。
データのサイロ化を排除するzero-ETLのコンセプトに基づいた「Amazon OpenSearch Service zeroーETL integuration with Amazon S3」では、Amazon S3に保存されたデータを複製・移動することなく、直接分析することが可能になった。
セキュアなデータ共有を実現する新サービス「AWS Clean Rooms ML」では、ビジネスパートナーと生データを共有することなく、機械学習による予測的な洞察を生成。企業同士のデータから類似するレコードの集合を生成できるため、プライバシーを保護しつつ、ビジネスパートナーと連携した機械学習の利用が加速する。現在プレビューという段階で、今後数ヶ月以内に医療分野に向けたサービスを提供するという。
Amazon Qでは自然言語によるSQL生成 人材のリスキリングにも注力
続いてはAIを活用することで、データの管理をより容易にするという提案だ。「AWSはさまざまなデータ管理のサービスにAIを実装している。データ管理や分析に関わる労働を軽減する」とシバスブラマニアン氏は語る。より簡単に、より直感的に、そしてアクセスしやすくするというのがAWSの提案だ。
たとえば、Redshift Serverlessではスケーリングと最適化をAIが自動的に行なってくれる機能が追加されている。また、発表されたばかりの生成AIアシスタント「Amazon Q」を、Amazon Redshiftのクエリに利用できるようになった。「開発者に聞くと、文書を探したり、新機能のテスト、メンテナンス、トラブルシューティング、アップデートの作業にかなりの時間を費やしている。こうした作業を楽にしたかった」とシバスブラマニアン氏は語る。これに対して、Amazon Qはユーザーの意図を自然言語で表現するとSQLクエリを生成してくれる。
たとえば、地域別の総収益を調べると言った意思を表現すると、Amazon Qは複数のテーブルを結合するようなSQLを提案してくれるという。Amazon QはETLサービスであるAWS Glueにも利用可能になる予定で、自然言語によるサポート機能により、データ処理を統合を容易に実行できるようになるという。