このページの本文へ

クラウドの力を見せつけたAWS re:Invent 2016 第5回

バッチやETLなど一見地味な新サービスの存在意義とは?

データの品質が差別化につながる時代のAWSのアーキテクチャ

2016年12月06日 07時00分更新

文● 大谷イビサ/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

S3にクエリをかけられるAmazon Athenaをデータ分析の選択肢へ

 一方、AWSはビッグデータやデータ分析サービスも充実したラインナップを誇る。Hadoop環境を提供するAmazon EMR(Elastic MapReduce)のほか、検索サービスのAmazon Elasticsearch、ストリーミング分析を可能にするAmazon Kinesis、DWHサービスのAmazon Redshiftなどがビッグデータの基盤を支える。また、昨年の4月には機械学習を提供するAmazon Machine Learning、10月のre:InventではBIサービスのAmazon QuickSightが発表されており、データの可視化までをカバーしている。今回はターゲットされたモバイルアプリにプッシュ通知を送れる「Amazon Pinpoint」も発表された。マーケティングという領域まで踏み込んできた印象だ。

EMRからPinpointまで包括的なデータ分析サービス

 ただし、これらのビッグデータサービスは大容量データを高速に分析するのには向いているが、シンプルな分析をスピーディにこなすのには向いていない。「S3にあるWebログ、イベントデータなどを直接分析したいという意見があった」(ジャシー氏)とのことで、RedshiftとEMRを補完するサービスとして生まれたのが新発表された「Amazon Atehna」だ。

 OSSのPrestoを採用するAmazon Athenaでは、Amazon S3に保存されたCSV、JSON、ORC、Parquetなどのデータに対して標準SQLでクエリをかけることができる。また、QuickSightとも統合されているため、分析結果をグラフ化することも可能だ。ジャシー氏は、「データを移動したり、ロードしなくてもS3でクエリできる。インフラを別途で用意しなくても済む、レスポンスも数秒、マイクロ秒で返ってくる」とアピールする一方、Amazon AthenaがRedshiftやEMRを置き換える存在ではないことを強調した。

S3のデータに対して標準SQLでクエリをかけられるAmazon Athena

データ処理を省力化するAWS GlueとAWS Batch

 これだけ豊富なサービスを持ちながら、冒頭に述べた「The Modern Data Architecture」という観点では、実はまだ欠けているピースがあるという。

現状のAWSのサービスではオレンジの部分しか満たしていない

 「各サービスをつなぐ『のり』が必要になる」と語ったボーガス氏は、まさにその『のり』を名前にした「AWS Glue」を紹介した。AWS GlueはデータカタログとETLを提供するサービスだ。S3やRDS、Redshift、JDBC対応DBなどさまざまなソースからデータを抽出して、まずはデータカタログを作成。また、ユーザーに対するデータへのアクセスを管理できる。そしてETL(Extract、Transform、Load)機能によって分析しやすいフォーマットにデータを変換する。当然、ソースデータの更新に対して、一連の処理をジョブとしてスケジューリングしておくことも可能だ。

データカタログの作成が可能

分析しやすいデータへの変換処理設定

 ボーガス氏は、「AWS Glueの投入によって、すべてがカバーされる。包括的なデータアーキテクチャをAWS上で実現可能になった。われわれはお客様に選択肢を与えていく」とアピールした。

 そして、データ処理に関して、最後に新発表されたのが、マルチスケールでバッチ管理を行なえる「AWS Batch」だ。これはHPCや取引分析、不正監視、DNAシークエンス、メディアレンダリングなど「Large Scale Processing」と呼ばれる領域で使われるバッチ処理を対象としたモノで、マルチスケールが大きなメリットになる。

AWS Batchでスケーラブルなバッチ処理を管理できる

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事

アクセスランキング

  1. 1位

    TECH

    訓練だとわかっていても「緊張で脇汗をかいた」 LINEヤフー、初のランサムウェア訓練からの学び

  2. 2位

    ITトピック

    若手が言わない“本音の退職理由”上位は/「データ停止は景気後退よりも企業の脅威」6割/クライアントに告げずAI活用するフリーランス、ほか

  3. 3位

    ビジネス・開発

    最悪のシナリオは「フィジカルAI」による基幹産業の衰退 日本の勝ち筋は、“同期技術”と“ドメイン知識”

  4. 4位

    Team Leaders

    ファイル名が命名規則に合っているかの自動チェック、Power Automateのフローで実現しよう

  5. 5位

    TECH

    “GPUなし”ノートPCで動くLLMで、ローカルAIエージェントを自作する

  6. 6位

    TECH

    糖尿病超早期を採血なしで検出、予防へ! 代謝や臓器のつながりに着目した予防法開発

  7. 7位

    ビジネス

    廃校がAIの心臓部に!? 地方の遊休施設を「AIデータセンター」に生まれ変わらせるハイレゾの挑戦がアツいぞ

  8. 8位

    データセンター

    液冷技術の最先端が集うイノベーションラボ「DRIL」、印西のデータセンターに現わる

  9. 9位

    TECH

    業界横断で“サイバー攻撃から供給網を死守” NTT・アサヒ・トライアルらが「流通ISAC」始動

  10. 10位

    Team Leaders

    バックオフィス業務もAIに“丸投げ” マネーフォワードが「Cowork」機能を2026年7月に投入へ

集計期間:
2026年04月08日~2026年04月14日
  • 角川アスキー総合研究所