このページの本文へ

前へ 1 2 3 次へ

法人向け事業の交通ビッグデータ活用、AWS上のデータレイクと高速分析基盤の構築事例を披露

ナビタイム「Amazon Athenaがあったから実現した新サービス」

2017年11月13日 07時00分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 アマゾンウェブサービスジャパン(AWSJ)は11月10日、データレイクアーキテクチャに関連するAWSサービスの概要や、国内企業における活用事例を紹介する記者説明会を開催した。活用事例紹介ではナビタイムジャパンが登壇し、「Amazon Athena」を採用することで実現した新サービス「道路プロファイラー」を例に、同社が進める交通ビッグデータの法人向けビジネス展開を説明した。

Webブラウザから交通ビッグデータ分析を実行できるナビタイム「道路プロファイラー」のデモ画面(リンク旅行速度)

(左から)ナビタイムジャパン ACTS事業 クラウド担当の田中一樹氏、交通コンサルティング事業 データサイエンティストの加賀屋駿氏

データレイクとして進化を続ける「Amazon S3」と関連サービス

 説明会冒頭、まずAWSJの瀧澤氏が「データレイク」とは何か、なぜ必要とされているのか、AWSではどう対応しているのか、といったことを説明した。

AWSJ 技術統括本部 エンタープライズソリューション部 部長/シニアソリューションアーキテクトの瀧澤与一氏

 さまざまなビジネスにおいてビッグデータ活用に期待が集まるなかで、タイプが混在するデータであっても一カ所に集約し、より柔軟かつ迅速に取り出して分析を行い、新たなビジネス価値を創出したいというニーズが高まっている。それに対応するデータ保存場所(データ管理システム)のコンセプトがデータレイクだ。

 瀧澤氏は、データレイクに求められる要件は「多様なデータを一元的に保存できること」「APIを通じて必要なときに、柔軟なかたちで利用できること」「容量に上限がないこと」「保存したデータがなくならないこと」だと説明する。

データレイクのコンセプト。構造化データ(DB)、非構造化データ、IoTセンサーデータといった多様なデータを集約し、活用可能にする“データの湖”

 AWSでは、データレイクを含めた大規模データ分析に関わるクラウドサービス群を、データの生成から分析までのステップに合わせて「収集」「保存(=データレイク)」「分析」「可視化」という4つに分類している。

大規模データ分析に関係するAWSサービス群の分類

 このうち「保存」=データレイクに相当する代表的サービスとしては、汎用ストレージサービスの「Amazon S3」が挙げられる。容量制限がなく、イレブンナイン(99.999999999%)のデータ耐久性をネイティブで備える。APIを通じて、多様な分析アプリケーションとの柔軟な連携も可能だ。もちろん、AWSが提供する「分析」系サービス(Amazon Redshift、EMR、Machine Learning、Kinesis Analyticsなど)との連携も容易にできる。

 ただし、分析対象のデータが徐々にテラバイト、ペタバイト級へと大容量化していくなかで、顧客から「DBやDWHへのロード(データの読み込み)に時間がかかるのを何とかしてほしい」という声も上がるようになったという。そこでAWSでは、データを分析システムにロードすることなく、直接S3上にあるデータを分析できるように機能拡張を図っている。たとえば、S3上に置いたファイルを外部テーブルとして参照できる「Redshift Spectrum」や、S3をHDFS(Hadoop FileSystem)のように扱える「EMRFS」などだ。

「Redshift Spectrum」「EMRFS」とも、S3上にあるデータを分析環境にロードすることなく、直接分析可能にする

 Amazon Athenaも、そうした分析サービスの一つである。具体的には、S3上に保存されたCSV、JSON、ORC、Parquetといったデータファイルをテーブルとして扱い、そこに直接SQLクエリをかけて結果を取得できるサービスだ。サーバーレスのマネージドサービスなので運用の手間やコストが抑えられ、DBへデータをロードする時間も必要ない。

 「S3上にあるデータファイルをAthenaでカタログ化し、AWSの管理画面上でSQL文を叩くとその場で結果が得られる。またAPIからの呼び出しも可能。SQLクエリの結果をまたS3に保存し、そのデータをさらにほかのシステムで分析するといった使い方もできる」(瀧澤氏)

Amazon Athenaは2016年の「re:Invent」で発表されたサービス。S3上のデータに直接SQLクエリを実行できる

データ分析サービス(Redshift、EMR、Athena)の機能比較

前へ 1 2 3 次へ

カテゴリートップへ