ANAグループの共通データ基盤「BlueLake」 最新版はIcebergを採用し、AI時代に備える
グループ4万人のデータ活用で“ANA経済圏”確立を目指せ 進化するANAのデータレイクハウス
2025年08月15日 15時45分更新
分析のためのデータ基盤「BlueLake」を構築、継続的に機能強化
データ分析に用いられるBlueLakeは、2021年ごろから構築計画が始まり、2022年に社内公開がスタートしたプラットフォームだ。ANAグループの航空事業/非航空事業全体で生み出される多様なデータ、さらにサードパーティデータは、このBlueLakeに集約されている。
このとき、仮想集約ではなく物理的にデータを集約した理由は、「会員番号の桁数不一致」「飛行機便名の桁数不一致」など、システム間で微妙な違いのあるデータを、BlueLake上で統一化したうえで提供したかったからだという。
2022年に公開されたBlueLakeの最初のバージョン(V1)は、それまで利用していたAWS上のDWHサービスを基に、およそ3カ月間で開発されたという。
ここでは「個人情報保護」と「柔軟なデータ活用」を目的として、「個人情報を含むデータレイク」と、個人情報の仮名加工(ハッシュ化)済みの「個人情報を含まないデータレイク」という“2層構造”を用意した。これにより、個人情報を含まないほうのデータをあらゆる従業員に公開して、データ活用を促すことができるようになった。
しかし、V1で利用していたDWHにはパフォーマンスの問題があり、データやジョブを追加するたびに、ノードのサイズ設計やパフォーマンステストといった、手間のかかるチューニング作業が欠かせなかった。そこでANAでは2023年、基盤となるDWHをSnowflakeに移行した「BlueLake V2」をリリースした。
「Snowflakeは、コンピューティングとストレージが完全に分離されたアーキテクチャを持つため、複数の独立したDWHを作成できます。これにより、プロジェクト間でのリソース競合が解消され、安全で信頼性の高いデータアクセスとデータ活用が保証されました。また、他のSaaS製品ともシームレスに接続できるため、たとえばSparkやTableauなどと迅速に統合ができ、幅広いユーザーが分析プラットフォームとして利用できるようになりました」
Snowflakeの導入は、パフォーマンス以外にもメリットをもたらしたという。井岡氏は、Snowflakeが従量課金型であるため「データベースの利用料金が50%削減された」ほか、データ取り込み時間の短縮や他のSaaS製品との接続性の高さから「開発効率性が80%(推定)向上した」と説明する。さらに、フルマネージド型のため「運用負荷が劇的に軽減され、90%の改善を達成した」という。
続く2024年には「BlueLake V3」をリリースした。日本の個人情報保護法、EUのGDPRといった、各国で進む個人情報保護ルールへの準拠を確実なものにするために、個人情報の削除作業の効率化、監査業務の効率化を図った。また、これまでアジャイルで開発してきたデータパイプラインを一度見直し、パイプラインの効率化とデータ品質の改善を行った。













