このページの本文へ

ANAグループの共通データ基盤「BlueLake」 最新版はIcebergを採用し、AI時代に備える

グループ4万人のデータ活用で“ANA経済圏”確立を目指せ 進化するANAのデータレイクハウス

2025年08月15日 15時45分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

最新版・BlueLake V4は「Apache Iceberg」採用、処理の効率と性能を高める

 井岡氏は、BlueLakeではV1の段階から一貫して、「最も汎用的な形式である『ファイル』でデータを管理する」という考え方を維持してきたと語る。実際にV3のアーキテクチャを見ても、データ処理は「Amazon S3」側で行ったうえで、Snowflakeの内部テーブルに取り込むのではなくParquet形式のファイルとしてS3上に保持し、Snowflakeからは「外部テーブル」として参照する形をとっている(一部の大規模データセットを除く)。

 このように、データをファイルとして管理することで、将来的にSnowflake以外のデータプラットフォームに移行することになっても容易に対応できる、マルチクラウド環境でのデータ管理が簡素化される、ファイルを中心に据えてDWH/BI/カタログ/処理エンジン/AIなどをシンプルに統合できる、といったメリットがあると説明する。井岡氏は、こうしたデータ管理の環境を「ファイルベースのSingle Source of Truth」と呼ぶ。

BlueLake V3のアーキテクチャ。S3上のParquetファイルをSnowflakeの外部テーブルとして読み込む形だった

 ただし、取り扱うデータやファイル数が増大するにつれて、課題も生じ始めていた。運用管理面では「高頻度でSnowflakeにデータをロードするのが非効率」「障害発生時のデータ復旧が困難」という課題が、パフォーマンス面では「大容量のParquetファイルのスキャンには時間がかかる」「マイクロパーティショニングなど、Snowflakeの処理高速化機能が活用できない」といった課題があった。

 そこでANAでは2025年、多数のParquetファイルを管理するためのメタデータフォーマットとして「Apache Iceberg」を採用する方針を固め、BlueLake V4のPoCを開始した。

 Icebergを組み込んだBlueLake V4のアーキテクチャでは、新たなデータを保存すると、データ本体はS3に、そしてメタデータはIcebergカタログに自動配置される。V3のように、まずS3にデータを保存して、Snowflakeで外部テーブルとして定義する手間が省ける。またSnowflakeだけでなく、Sparkを利用するソリューションからも共通のIcebergカタログを通じてデータを参照できる。

 なおIcebergカタログの選定においては、Snowflakeの内部テーブルと同等のインタフェースとパフォーマンスを維持できる、アクセス認証やセキュリティ管理もSnowflakeと一元化できる、追加費用も発生しないといった点から、現時点では「Snowflake Managed Iceberg」を選択している。

BlueLake V4のアーキテクチャ。SnowflakeにIcebergテーブル(メタデータ)を、S3にParquetファイル(実体データ)を配置する構成

 BlueLake V4のPoCでは、Icebergの採用によるパフォーマンスの改善効果を検証するため、最小100万行から最大100億行のレコードを持つ6つの本番環境データを用いて、V3との比較検証を実施した。その結果、ETL処理(標準化処理と仮名加工処理)では最大3.9倍、クエリ処理(SELECT文の実行)では最大1.6倍の高速化が実現した。

 BlueLake V3の抱えていた運用管理面、パフォーマンス面の課題を解決する見込みが立ったことから、ANAではBlueLake V4の本番採用に向けた開発を進めている(7月末のリリース予定)。

BlueLake V3とV4において、ETL処理とクエリの性能を検証した

検証結果。いずれもV4が高いパフォーマンスを示した

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    TECH

    フォーティネットの「SSL-VPN廃止」 IPsec移行と脱VPN、それぞれの注意点を総ざらい

  2. 2位

    ソフトウェア・仮想化

    「SaaSの死」の影響は感じない ― グローバル以上に好調な日本市場、ServiceNow鈴木社長が語る

  3. 3位

    ネットワーク

    ネットワークとセキュリティの統合に強み 通信事業者系ZTNA/SASEサービス3選

  4. 4位

    TECH

    「蟻の一穴」となるリモートアクセスVPNの脆弱性 ZTNA/SASEはなぜ必要か?

  5. 5位

    デジタル

    海外駐在員の負担を軽減し、ワンチームへ kintoneは言語と文化の壁を越える「翻訳の魔法」

  6. 6位

    ビジネス

    医療費5兆円抑制につながる“国産ヘルスケア基盤”構築へ SMBC×富士通×ソフトバンクが業務連携

  7. 7位

    エンタープライズ

    基盤も古いし、コードも酷い! そんなクエストにGitHub Copilotで試行錯誤しまくった「みんな」こそ最高

  8. 8位

    サーバー・ストレージ

    「30%ではなく“30倍”の生産性向上へ」 AIエージェント時代に求められるIT基盤、マイケル・デル氏が語る

  9. 9位

    ビジネス・開発

    いますぐ捨てたいITサービスは? AI推しにそろそろ飽きてません? 情シスさんのホンネを「ゆるっとナイト」で聞いた

  10. 10位

    ITトピック

    AIセキュリティで必要な6つの対策/20代の半数が「検索エンジンを使わない」/生成AIツールはエンジニアの「業務インフラ」へ、ほか

集計期間:
2026年05月19日~2026年05月25日
  • 角川アスキー総合研究所