このページの本文へ

ANAグループの共通データ基盤「BlueLake」 最新版はIcebergを採用し、AI時代に備える

グループ4万人のデータ活用で“ANA経済圏”確立を目指せ 進化するANAのデータレイクハウス

2025年08月15日 15時45分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

分析のためのデータ基盤「BlueLake」を構築、継続的に機能強化

 データ分析に用いられるBlueLakeは、2021年ごろから構築計画が始まり、2022年に社内公開がスタートしたプラットフォームだ。ANAグループの航空事業/非航空事業全体で生み出される多様なデータ、さらにサードパーティデータは、このBlueLakeに集約されている。

 このとき、仮想集約ではなく物理的にデータを集約した理由は、「会員番号の桁数不一致」「飛行機便名の桁数不一致」など、システム間で微妙な違いのあるデータを、BlueLake上で統一化したうえで提供したかったからだという。

かつてはシステムごとにサイロ化していたデータ基盤を、BlueLakeに一元化した

 2022年に公開されたBlueLakeの最初のバージョン(V1)は、それまで利用していたAWS上のDWHサービスを基に、およそ3カ月間で開発されたという。

 ここでは「個人情報保護」と「柔軟なデータ活用」を目的として、「個人情報を含むデータレイク」と、個人情報の仮名加工(ハッシュ化)済みの「個人情報を含まないデータレイク」という“2層構造”を用意した。これにより、個人情報を含まないほうのデータをあらゆる従業員に公開して、データ活用を促すことができるようになった。

BlueLake V1の概要。AWSで利用していた既存のDWHで構成した

 しかし、V1で利用していたDWHにはパフォーマンスの問題があり、データやジョブを追加するたびに、ノードのサイズ設計やパフォーマンステストといった、手間のかかるチューニング作業が欠かせなかった。そこでANAでは2023年、基盤となるDWHをSnowflakeに移行した「BlueLake V2」をリリースした。

 「Snowflakeは、コンピューティングとストレージが完全に分離されたアーキテクチャを持つため、複数の独立したDWHを作成できます。これにより、プロジェクト間でのリソース競合が解消され、安全で信頼性の高いデータアクセスとデータ活用が保証されました。また、他のSaaS製品ともシームレスに接続できるため、たとえばSparkやTableauなどと迅速に統合ができ、幅広いユーザーが分析プラットフォームとして利用できるようになりました」

 Snowflakeの導入は、パフォーマンス以外にもメリットをもたらしたという。井岡氏は、Snowflakeが従量課金型であるため「データベースの利用料金が50%削減された」ほか、データ取り込み時間の短縮や他のSaaS製品との接続性の高さから「開発効率性が80%(推定)向上した」と説明する。さらに、フルマネージド型のため「運用負荷が劇的に軽減され、90%の改善を達成した」という。

BlueLake V2の概要。基盤をSnowflakeに移行し、AI/BIツールとの連携も容易にした

V2でSnowflakeを採用したことによるメリット

 続く2024年には「BlueLake V3」をリリースした。日本の個人情報保護法、EUのGDPRといった、各国で進む個人情報保護ルールへの準拠を確実なものにするために、個人情報の削除作業の効率化、監査業務の効率化を図った。また、これまでアジャイルで開発してきたデータパイプラインを一度見直し、パイプラインの効率化とデータ品質の改善を行った。

BlueLake V3の概要。各国のプライバシー規制に対応できるものにしたほか、データ取り込み時の標準化処理も強化している

カテゴリートップへ

  • 角川アスキー総合研究所