国内にデータを保持したままBigQueryで大規模データ処理が可能に
みずほ銀行、東京GCPリージョンで提供開始したBigQueryを使ってみた
2018年04月19日 08時00分更新
Googleは2018年4月18日、Google Cloud Platform(GCP)の東京リージョンで、データウェアハウス(DWH)サービス「BigQuery」の提供を開始した。データを国内に保持したまま、大規模データを高速に処理できるようになる。
GCPのリージョン数は、現在提供中のものが15リージョン、建設中のものが4リージョンある。国内では2016年11月に東京リージョンの提供を開始した。また、2019年中に大阪リージョンが開設される予定になっている。
今回、東京リージョンでDWHサービスのBigQueryが利用可能になった。東京リージョンを指定してBigQueryを利用する場合、BigQueryのストレージ、エンジン、分析処理に使用するコンピュータリソースはすべて東京リージョンのものになる。
Google Cloud カスタマーエンジニアの寳野雄太氏は、BigQueryをコアにしたデータ分析システムの例として、オブジェクトストレージ「Google Cloud Storage」に保管した非構造化データを、データクレンジングサービス「Cloud Dataprep」で加工し、BigQueryに投入、分析結果をBIツール「Google Data Studio」で可視化するシナリオを提示し、「東京リージョンのGoogle Cloud Storageから東京リージョンのBigQueryへ投入すれば、データを国内にとどめたまま大規模データを高速に処理できる。BigQueryは10億行のアクセスログを2~3秒で解析する」と説明した。
分析コストを1/3~1/4できる試算
先行して、野村総合研究所、NTTコミュニケーションズ、LIXIL、リクルートテクノロジーズ、ソフトバンク、みずほ銀行、アスクルなどがアルファテストで東京リージョンのBigQueryを利用した。
みずほ銀行は、2018年3月に、個人顧客向けのマーケティング部門でBigQuery活用のPOCを実施した。みずほ銀行では、個人・法人向けのサービス開発やマーケティング、リスク管理、コンプライアンスのための不正検知、サイバーセキュリティ対策など全社的にデータ活用を行っており、オンプレミス環境に1000人規模の社員が利用するDWHを持っている。一方で、拡張性や外部データとの連携、クラウドAI活用の観点から、将来的にデータ分析基盤をパブリッククラウドへ移行することを検討しており、現在、各社のパブリッククラウドの検証を進めている。
今回のアルファテストへの参加は、「個人マーケティング領域のデータ分析基盤としてBigQueryを試験的に使ってみようということでGoogleに相談したら、ちょうどそのタイミングで、BigQueryが東京リージョンにくるのでアルファユーザーを募集していると言われ、参加した」(みずほ銀行 個人マーケティング推進部 参事役 シニアマネージャーの黒須義一氏)との経緯であり、特に法令などで国内に保持する必要があるデータを扱う予定はなかった。ただし、「パブリッククラウド利用について社内で理解を得るためには、国内リージョンでデータを扱えるほうが望ましかった」と黒須氏は説明した。
みずほ銀行のPOCでは、社内システムからGoogle Cloud Storageにデータを手動コピーし、(1)Google Cloud StorageからBigQueryへデータ投入して処理する際の性能と(2)GCP上のETLサーバーで加工したデータをデータベースからBigQueryへSQLバッチでデータ投入して処理する際の性能について検証した。(3)Cloud Dataprepの機能と使い勝手も検証項目に含めた。
みずほ銀行 IT・システム統括第一部 戦略情報基盤システム推進チーム 調査役の家村育民氏は、検証結果から、情報システム部門側としてBigQueryの一番のメリットと感じたのは「データ処理の並列度を上げてもパフォーマンスが低下しない点だった」と話す。「今後、データ量とDWH利用者が増加するにつれて処理の並列度は増えていく。ここでBigQueryはよい選択肢になる」(家村氏)。
ユーザー部門側の立場で、今回の検証結果について黒須氏は、「BigQueryはプログラミング不要、Dataprepを使えばユーザー部門がセルフでデータ準備ができることが実証できた。ユーザー部門はデータ分析に集中できる」と述べた。BigQueryを使うことでデータ分析にかかるコストは、現行の3分の1から4分の1に削減できると試算する。「オンプレミスのデータ分析基盤では、計算リソースの上限に合わせた働き方になる。一方、BigQueryでは計算リソースの上限から解放され業務を並列化できるので、働き方改革にもつながる」(黒須氏)。
今後、みずほ銀行がBigQueryを実導入するかどうかは未定だが、「(データ分析基盤が)オンプレミスのままになることないだろう」(黒須氏)。