法人向け事業の交通ビッグデータ活用、AWS上のデータレイクと高速分析基盤の構築事例を披露
ナビタイム「Amazon Athenaがあったから実現した新サービス」
2017年11月13日 07時00分更新
アマゾンウェブサービスジャパン(AWSJ)は11月10日、データレイクアーキテクチャに関連するAWSサービスの概要や、国内企業における活用事例を紹介する記者説明会を開催した。活用事例紹介ではナビタイムジャパンが登壇し、「Amazon Athena」を採用することで実現した新サービス「道路プロファイラー」を例に、同社が進める交通ビッグデータの法人向けビジネス展開を説明した。
データレイクとして進化を続ける「Amazon S3」と関連サービス
説明会冒頭、まずAWSJの瀧澤氏が「データレイク」とは何か、なぜ必要とされているのか、AWSではどう対応しているのか、といったことを説明した。
さまざまなビジネスにおいてビッグデータ活用に期待が集まるなかで、タイプが混在するデータであっても一カ所に集約し、より柔軟かつ迅速に取り出して分析を行い、新たなビジネス価値を創出したいというニーズが高まっている。それに対応するデータ保存場所(データ管理システム)のコンセプトがデータレイクだ。
瀧澤氏は、データレイクに求められる要件は「多様なデータを一元的に保存できること」「APIを通じて必要なときに、柔軟なかたちで利用できること」「容量に上限がないこと」「保存したデータがなくならないこと」だと説明する。
AWSでは、データレイクを含めた大規模データ分析に関わるクラウドサービス群を、データの生成から分析までのステップに合わせて「収集」「保存(=データレイク)」「分析」「可視化」という4つに分類している。
このうち「保存」=データレイクに相当する代表的サービスとしては、汎用ストレージサービスの「Amazon S3」が挙げられる。容量制限がなく、イレブンナイン(99.999999999%)のデータ耐久性をネイティブで備える。APIを通じて、多様な分析アプリケーションとの柔軟な連携も可能だ。もちろん、AWSが提供する「分析」系サービス(Amazon Redshift、EMR、Machine Learning、Kinesis Analyticsなど)との連携も容易にできる。
ただし、分析対象のデータが徐々にテラバイト、ペタバイト級へと大容量化していくなかで、顧客から「DBやDWHへのロード(データの読み込み)に時間がかかるのを何とかしてほしい」という声も上がるようになったという。そこでAWSでは、データを分析システムにロードすることなく、直接S3上にあるデータを分析できるように機能拡張を図っている。たとえば、S3上に置いたファイルを外部テーブルとして参照できる「Redshift Spectrum」や、S3をHDFS(Hadoop FileSystem)のように扱える「EMRFS」などだ。
Amazon Athenaも、そうした分析サービスの一つである。具体的には、S3上に保存されたCSV、JSON、ORC、Parquetといったデータファイルをテーブルとして扱い、そこに直接SQLクエリをかけて結果を取得できるサービスだ。サーバーレスのマネージドサービスなので運用の手間やコストが抑えられ、DBへデータをロードする時間も必要ない。
「S3上にあるデータファイルをAthenaでカタログ化し、AWSの管理画面上でSQL文を叩くとその場で結果が得られる。またAPIからの呼び出しも可能。SQLクエリの結果をまたS3に保存し、そのデータをさらにほかのシステムで分析するといった使い方もできる」(瀧澤氏)