このページの本文へ

法人向け事業の交通ビッグデータ活用、AWS上のデータレイクと高速分析基盤の構築事例を披露

ナビタイム「Amazon Athenaがあったから実現した新サービス」

2017年11月13日 07時00分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

アプリから収集する膨大な交通ビッグデータのビジネス活用に取り組む

 そのAmazon Athenaを活用し、交通ビッグデータ分析を通じた新しい法人向けサービス「道路プロファイラー」を立ち上げたのがナビタイムジャパンだ。同社 ACTS事業 クラウド担当の田中一樹氏、交通コンサルティング事業 データサイエンティストの加賀屋駿氏が登壇し、同社におけるビッグデータ分析基盤の変遷や、Athenaを採用した理由などを説明した。

ナビタイムではコンシューマー向け事業だけでなく法人向け事業も展開している

 ナビタイムでは、ドアツードアでの公共交通/道案内を行う“トータルナビ”を特色とする「NAVITIME」アプリをはじめ、自動車ドライバー向け「カーナビタイム」、そのほかバス、バイク、自転車など幅広いユーザーに対応したコンシューマー向けサービスを開発、提供している。

 こうしたサービスからは「利用者(デバイス)の位置情報」「移動軌跡(プローブデータ)」「経路検索条件」といったログデータが取得できる。約3900万UUの月間ユーザー、約450万人の有料会員というサービス規模が生む膨大なログデータは「1日に数十~数百GBという量になる」(田中氏)。

 同社の法人向け交通コンサルティング事業は、ユーザーのプライバシーに配慮しながらこうしたデータを分析し、道路交通分析や移動需要予測など顧客ビジネスに役立つデータの提供とコンサルティングを行っている。その顧客は、公共交通事業者をはじめ、道路交通行政に関わる官公庁、観光/商業施設、さらにコンサルタントやマーケターなどだ。有人の現地交通量/通行量調査が不要であり、国内のどんな地点でも詳しい集計分析データを出せることが大きな強みだ。また、他社と協業し、他社データとナビタイムのデータを統合分析するケースもあるという。

交通コンサルティング事業では、コンシューマー向けサービスを通じて収集したビッグデータを分析し、顧客ビジネスの支援を行っている

 田中氏によると、こうした膨大な量のログデータを高速、柔軟、かつ安全に集計分析できるシステム基盤を作り上げるために、ナビタイムでは長年にわたって試行錯誤を繰り返してきたという。

 まず、当初はオンプレミスのデータセンターにログデータを保存し、Hadoop+Apache Hiveのサーバークラスタで分析するかたちでスタートした。この環境では、アクセスログの処理に「数時間~数日」かかっていたという。その後、ログデータをすべてS3に保存してデータレイク化し、EMRで分析するかたちに変更したことで、数日かかっていた処理が数時間程度に短縮された。その後、さらなる処理の高速化を求めて、データレイクはS3に保持しつつ、分析処理はGoogle Clouod Platform(GCP)の「BigQuery」で実行する形に変更した。

「BigQuery利用期」のデータ分析基盤。データレイクはAWS(S3)にあり、そこから分析対象データをGCPに転送してBigQueryで分析を行っていた

 BigQueryの採用によって、これまで数時間単位でかかっていたアクセスログ集計の処理時間が「数分~数秒」に短縮されたという。処理のやり直しが発生しても、この程度の処理時間ならば問題にはならない。また処理コストも、EMRを使っていたときの「数十分の一」に圧縮された。

 ただしデメリットもあった。まず、処理対象のデータをS3からGCPのCloud Storageに転送(コピー)する必要があり、ストレージコストや転送コストが余分にかかった。また、コンプライアンス面でも課題があった。ユーザーのプライバシー保護のため、S3上ではデータの暗号化を施しているが、GCPへの転送時にはそれを復号し、なおかつインターネット経由で送らなければならない。加えて、GCPやBigQueryでは詳細な権限管理ができず、アカウントがあればどこからでもアクセスできてしまうという問題もあった。

 「コンプライアンス担当から(プライバシーデータ保護に関連して)指摘があり、BigQueryの利用をやめなければならなくなった。ちょうどそんなときに、AWSからAthenaが発表された」(田中氏)

 BigQueryの利用をやめてAthenaを採用したことで、ビッグデータ分析基盤は非常にシンプルな構成になった。AWS外へのデータ転送が不要になり、セキュアかつストレージコストや転送コストの削減につながった。また、AWSでは詳細な権限設定ができるため、Athenaへのアクセスを社内からのみに限定したうえで、各ユーザーがアクセスできるログもS3のバケットポリシーとIAMのポリシーで細かく制限することができるようになった。

 田中氏は、BigQueryでもAthenaでもクエリ単価は変わらず、GCP側のストレージコストが不要になったぶん、トータルではコストが削減できていると説明した。「あえて(Athenaに移行した)デメリットを挙げるとすれば、十分高速ではあるものの、BigQueryと比較するとややスピードが劣る点だ」(田中氏)。

「Athena利用期」(現在)のデータ分析基盤。なお、最新アップデートでAthenaは地理空間情報データのクエリも可能になり、同社としてもより活用しやすくなったという

カテゴリートップへ