このページの本文へ

今年もビルダーを魅了!AWS re:Invent 2019レポート 第3回

「AQUA for Redshift」などデータレイク/アナリティクス領域でも新発表が続々

Redshiftは他社の3倍、そして10倍高速に―AWSジャシーCEO基調講演

2019年12月16日 07時00分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

データレイク:複数アプリのアクセスポリシー管理をシンプル化「S3 Access Points」

 データレイク領域について、ジャシー氏はまず、現在の企業は「かつては予想しなかったような」データの必要性に迫られていることを強調した。膨大な量のデータを、これまでにはないかたちで活用するためには、自社が保有するデータの分断状態=“データサイロ”を打破し、データレイクを実現しなければならない。そのためには、古いツールではなく新たなツールが必要だと語る。

 AWSでは、Amazon S3をデータレイクのソリューションと位置づけている。実際に多くの顧客が、高いスケーラビリティと可用性、汎用性、管理性(自動化機能)を持つデータレイクとして採用していると語る。さらにデータセキュリティについても、暗号化やS3バケットやユーザーアカウントレベルでのアクセス制限、さらに前日発表した「IAM Access Analyzer」による継続的なアクセス状況の監視といった機能を提供していると説明した。

 しかしデータレイクがより大規模化し、多くのデータセットが企業内で共有されるようになると、それぞれのデータに対してどのアプリケーションへのアクセスを許可するかというアクセスポリシーの管理が非常に複雑化することになる。そこでAWSは今回、新たに「Amazon S3 Access Points」という機能を発表した。同日より一般提供を開始している。

「Amazon S3 Access Points」を発表。共有データセットのアクセスポリシー管理をシンプル化する

 S3 Access Pointsは、単一のS3バケットに対して複数種類のアクセスポリシー(IAMポリシー)を設定可能にする機能だ。これまでは1つのS3バケットには単一のアクセスポリシーしか適用できなかったが、S3 Access Pointsを利用することで、異なるアクセスポリシーと固有のホスト名を持つ複数の“アクセス窓口”が用意できる。これにより、1つのデータセットを複数のアプリケーションで共有する場合の管理をシンプル化するとともに、セキュリティリスクを低減するという狙いだ。

S3 Access Pointsの設定画面(AWSブログより)

アナリティクス:S3データレイクの統合を進めるRedshiftの新機能

 データ分析、アナリティクスの領域では、2012年から提供しているデータウェアハウス(DWH)サービスのAmazon Redshiftを取り上げた。Redshiftは現在、数万社が利用しており、この1年間で100以上の機能改善を図ってきたとジャシー氏は説明する。

 Redshiftにおいて今回はまず、上述したS3データレイクとの統合をさらに強める2つの新機能を発表している。「Data Lake Export」と「Federated Query」だ。

 Data Lake Exportはその名のとおり、Redshift上のデータをS3データレイクにエクスポートするものだ。エクスポートデータの形式はデータ分析で標準的なApache Parquetフォーマットであり、Redshiftで処理済みのデータを、さらに他のサービスやアプリケーションで処理できる仕組みだ。リリースバージョン1.0.10480以降のRedshiftクラスタで利用できる。

 Federated Queryは、Redshiftクラスタ上のデータだけでなく、S3データレイク、Amazon RDS/Aurora for Postgres上にあるデータを直接、Redshiftからまとめてクエリをかけられる機能。公式ブログでの説明によると、Redshiftは外部のデータをインポートすることなく、RDS/Auroraのテーブル名などメタデータを読み取ってクエリ内容を書き換え、実行するという。こちらはプレビューリリースとなっている。

RedshiftとData Lake Export/Federated Query、さらに他のデータ関連サービスとの関係(公式ブログより)

 そのほかre:Inventの会期直前には、Redshiftにおけるマテリアライズドビュー(Materialized View)のサポートも発表している(プレビューリリース)。これはクエリ結果をキャッシュしておき、ソーステーブルに加えられた変更部分だけを追加で処理するビューを提供する仕組み。ダッシュボードやBIツールなどで繰り返し実行されるクエリのパフォーマンスを大幅に向上する。

カテゴリートップへ

この連載の記事