クラウドの力を見せつけたAWS re:Invent 2016 第5回
バッチやETLなど一見地味な新サービスの存在意義とは?
データの品質が差別化につながる時代のAWSのアーキテクチャ
2016年12月06日 07時00分更新
S3にクエリをかけられるAmazon Athenaをデータ分析の選択肢へ
一方、AWSはビッグデータやデータ分析サービスも充実したラインナップを誇る。Hadoop環境を提供するAmazon EMR(Elastic MapReduce)のほか、検索サービスのAmazon Elasticsearch、ストリーミング分析を可能にするAmazon Kinesis、DWHサービスのAmazon Redshiftなどがビッグデータの基盤を支える。また、昨年の4月には機械学習を提供するAmazon Machine Learning、10月のre:InventではBIサービスのAmazon QuickSightが発表されており、データの可視化までをカバーしている。今回はターゲットされたモバイルアプリにプッシュ通知を送れる「Amazon Pinpoint」も発表された。マーケティングという領域まで踏み込んできた印象だ。
ただし、これらのビッグデータサービスは大容量データを高速に分析するのには向いているが、シンプルな分析をスピーディにこなすのには向いていない。「S3にあるWebログ、イベントデータなどを直接分析したいという意見があった」(ジャシー氏)とのことで、RedshiftとEMRを補完するサービスとして生まれたのが新発表された「Amazon Atehna」だ。
OSSのPrestoを採用するAmazon Athenaでは、Amazon S3に保存されたCSV、JSON、ORC、Parquetなどのデータに対して標準SQLでクエリをかけることができる。また、QuickSightとも統合されているため、分析結果をグラフ化することも可能だ。ジャシー氏は、「データを移動したり、ロードしなくてもS3でクエリできる。インフラを別途で用意しなくても済む、レスポンスも数秒、マイクロ秒で返ってくる」とアピールする一方、Amazon AthenaがRedshiftやEMRを置き換える存在ではないことを強調した。
データ処理を省力化するAWS GlueとAWS Batch
これだけ豊富なサービスを持ちながら、冒頭に述べた「The Modern Data Architecture」という観点では、実はまだ欠けているピースがあるという。
「各サービスをつなぐ『のり』が必要になる」と語ったボーガス氏は、まさにその『のり』を名前にした「AWS Glue」を紹介した。AWS GlueはデータカタログとETLを提供するサービスだ。S3やRDS、Redshift、JDBC対応DBなどさまざまなソースからデータを抽出して、まずはデータカタログを作成。また、ユーザーに対するデータへのアクセスを管理できる。そしてETL(Extract、Transform、Load)機能によって分析しやすいフォーマットにデータを変換する。当然、ソースデータの更新に対して、一連の処理をジョブとしてスケジューリングしておくことも可能だ。
ボーガス氏は、「AWS Glueの投入によって、すべてがカバーされる。包括的なデータアーキテクチャをAWS上で実現可能になった。われわれはお客様に選択肢を与えていく」とアピールした。
そして、データ処理に関して、最後に新発表されたのが、マルチスケールでバッチ管理を行なえる「AWS Batch」だ。これはHPCや取引分析、不正監視、DNAシークエンス、メディアレンダリングなど「Large Scale Processing」と呼ばれる領域で使われるバッチ処理を対象としたモノで、マルチスケールが大きなメリットになる。
この連載の記事
-
第6回
クラウド
re:Inventの展示会場でがんばる日本人たちを追ってみた -
第4回
クラウド
エクサバイトをAWSへ!写真で見る「AWS Snowmobile」 -
第3回
クラウド
IoTデバイスからCDNまで!ますます拡がるLambdaワールド -
第2回
クラウド
FPGAも導入!世代交代するEC2と3ステップで使える「Amazon Lightsail」 -
第1回
クラウド
海底ケーブルからカスタムサーバーまでハミルトン先生が語る物理なAWS -
クラウド
クラウドの力を見せつけたAWS re:Invent 2016 - この連載の一覧へ