このページの本文へ

クラウドの力を見せつけたAWS re:Invent 2016 第5回

バッチやETLなど一見地味な新サービスの存在意義とは?

データの品質が差別化につながる時代のAWSのアーキテクチャ

2016年12月06日 07時00分更新

文● 大谷イビサ/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

S3にクエリをかけられるAmazon Athenaをデータ分析の選択肢へ

 一方、AWSはビッグデータやデータ分析サービスも充実したラインナップを誇る。Hadoop環境を提供するAmazon EMR(Elastic MapReduce)のほか、検索サービスのAmazon Elasticsearch、ストリーミング分析を可能にするAmazon Kinesis、DWHサービスのAmazon Redshiftなどがビッグデータの基盤を支える。また、昨年の4月には機械学習を提供するAmazon Machine Learning、10月のre:InventではBIサービスのAmazon QuickSightが発表されており、データの可視化までをカバーしている。今回はターゲットされたモバイルアプリにプッシュ通知を送れる「Amazon Pinpoint」も発表された。マーケティングという領域まで踏み込んできた印象だ。

EMRからPinpointまで包括的なデータ分析サービス

 ただし、これらのビッグデータサービスは大容量データを高速に分析するのには向いているが、シンプルな分析をスピーディにこなすのには向いていない。「S3にあるWebログ、イベントデータなどを直接分析したいという意見があった」(ジャシー氏)とのことで、RedshiftとEMRを補完するサービスとして生まれたのが新発表された「Amazon Atehna」だ。

 OSSのPrestoを採用するAmazon Athenaでは、Amazon S3に保存されたCSV、JSON、ORC、Parquetなどのデータに対して標準SQLでクエリをかけることができる。また、QuickSightとも統合されているため、分析結果をグラフ化することも可能だ。ジャシー氏は、「データを移動したり、ロードしなくてもS3でクエリできる。インフラを別途で用意しなくても済む、レスポンスも数秒、マイクロ秒で返ってくる」とアピールする一方、Amazon AthenaがRedshiftやEMRを置き換える存在ではないことを強調した。

S3のデータに対して標準SQLでクエリをかけられるAmazon Athena

データ処理を省力化するAWS GlueとAWS Batch

 これだけ豊富なサービスを持ちながら、冒頭に述べた「The Modern Data Architecture」という観点では、実はまだ欠けているピースがあるという。

現状のAWSのサービスではオレンジの部分しか満たしていない

 「各サービスをつなぐ『のり』が必要になる」と語ったボーガス氏は、まさにその『のり』を名前にした「AWS Glue」を紹介した。AWS GlueはデータカタログとETLを提供するサービスだ。S3やRDS、Redshift、JDBC対応DBなどさまざまなソースからデータを抽出して、まずはデータカタログを作成。また、ユーザーに対するデータへのアクセスを管理できる。そしてETL(Extract、Transform、Load)機能によって分析しやすいフォーマットにデータを変換する。当然、ソースデータの更新に対して、一連の処理をジョブとしてスケジューリングしておくことも可能だ。

データカタログの作成が可能

分析しやすいデータへの変換処理設定

 ボーガス氏は、「AWS Glueの投入によって、すべてがカバーされる。包括的なデータアーキテクチャをAWS上で実現可能になった。われわれはお客様に選択肢を与えていく」とアピールした。

 そして、データ処理に関して、最後に新発表されたのが、マルチスケールでバッチ管理を行なえる「AWS Batch」だ。これはHPCや取引分析、不正監視、DNAシークエンス、メディアレンダリングなど「Large Scale Processing」と呼ばれる領域で使われるバッチ処理を対象としたモノで、マルチスケールが大きなメリットになる。

AWS Batchでスケーラブルなバッチ処理を管理できる

カテゴリートップへ

この連載の記事
  • 角川アスキー総合研究所
  • アスキーカード