このページの本文へ

ANAグループの共通データ基盤「BlueLake」 最新版はIcebergを採用し、AI時代に備える

グループ4万人のデータ活用で“ANA経済圏”確立を目指せ 進化するANAのデータレイクハウス

2025年08月15日 15時45分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

最新版・BlueLake V4は「Apache Iceberg」採用、処理の効率と性能を高める

 井岡氏は、BlueLakeではV1の段階から一貫して、「最も汎用的な形式である『ファイル』でデータを管理する」という考え方を維持してきたと語る。実際にV3のアーキテクチャを見ても、データ処理は「Amazon S3」側で行ったうえで、Snowflakeの内部テーブルに取り込むのではなくParquet形式のファイルとしてS3上に保持し、Snowflakeからは「外部テーブル」として参照する形をとっている(一部の大規模データセットを除く)。

 このように、データをファイルとして管理することで、将来的にSnowflake以外のデータプラットフォームに移行することになっても容易に対応できる、マルチクラウド環境でのデータ管理が簡素化される、ファイルを中心に据えてDWH/BI/カタログ/処理エンジン/AIなどをシンプルに統合できる、といったメリットがあると説明する。井岡氏は、こうしたデータ管理の環境を「ファイルベースのSingle Source of Truth」と呼ぶ。

BlueLake V3のアーキテクチャ。S3上のParquetファイルをSnowflakeの外部テーブルとして読み込む形だった

 ただし、取り扱うデータやファイル数が増大するにつれて、課題も生じ始めていた。運用管理面では「高頻度でSnowflakeにデータをロードするのが非効率」「障害発生時のデータ復旧が困難」という課題が、パフォーマンス面では「大容量のParquetファイルのスキャンには時間がかかる」「マイクロパーティショニングなど、Snowflakeの処理高速化機能が活用できない」といった課題があった。

 そこでANAでは2025年、多数のParquetファイルを管理するためのメタデータフォーマットとして「Apache Iceberg」を採用する方針を固め、BlueLake V4のPoCを開始した。

 Icebergを組み込んだBlueLake V4のアーキテクチャでは、新たなデータを保存すると、データ本体はS3に、そしてメタデータはIcebergカタログに自動配置される。V3のように、まずS3にデータを保存して、Snowflakeで外部テーブルとして定義する手間が省ける。またSnowflakeだけでなく、Sparkを利用するソリューションからも共通のIcebergカタログを通じてデータを参照できる。

 なおIcebergカタログの選定においては、Snowflakeの内部テーブルと同等のインタフェースとパフォーマンスを維持できる、アクセス認証やセキュリティ管理もSnowflakeと一元化できる、追加費用も発生しないといった点から、現時点では「Snowflake Managed Iceberg」を選択している。

BlueLake V4のアーキテクチャ。SnowflakeにIcebergテーブル(メタデータ)を、S3にParquetファイル(実体データ)を配置する構成

 BlueLake V4のPoCでは、Icebergの採用によるパフォーマンスの改善効果を検証するため、最小100万行から最大100億行のレコードを持つ6つの本番環境データを用いて、V3との比較検証を実施した。その結果、ETL処理(標準化処理と仮名加工処理)では最大3.9倍、クエリ処理(SELECT文の実行)では最大1.6倍の高速化が実現した。

 BlueLake V3の抱えていた運用管理面、パフォーマンス面の課題を解決する見込みが立ったことから、ANAではBlueLake V4の本番採用に向けた開発を進めている(7月末のリリース予定)。

BlueLake V3とV4において、ETL処理とクエリの性能を検証した

検証結果。いずれもV4が高いパフォーマンスを示した

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    ネットワーク

    「ケーブルを引っ張ってみてください。」→引っ張ってみた結果……

  2. 2位

    ネットワーク

    量子コンピューターを超える!? 「光量子コンピューター」ってのがあるんです。

  3. 3位

    ネットワーク

    マザーボードが油に沈んでる!? SFみたいな“液浸冷却システム”、見た目からして未来すぎる

  4. 4位

    トピックス

    “スター・ウォーズのホログラム”が現実に近づいた? 幕張で見つけた裸眼3Dディスプレイが未来すぎる

  5. 5位

    ネットワーク

    データセンター不足の救世主になるか? “コンテナ型サーバー”が想像以上にすごい

  6. 6位

    ネットワーク

    キオクシアって結局なに作ってるの? 「株価急騰の注目企業」を幕張で見てきた

  7. 7位

    TECH

    Claude CodeのPlan modeをやめてみる ~grill-meスキルで一歩ずつ設計を固め、アプリを作る~

  8. 8位

    ITトピック

    VMware利用企業、8割近くが「他環境へ移行検討・実施」/データセンター電力消費が1年で26%増加、AI競争で「電力確保」重要課題に、ほか

  9. 9位

    ネットワーク

    「手のひらネットワーク機器」第4弾が登場、テーマは“ShowNetを手のひらに”! こだわりの両面マウントや高密度ポートも 6月11日発売

  10. 10位

    ネットワーク

    サーバーの水冷ぜんぶ見せる大作戦! レノボが見せた“AI時代の冷却”が迫力ありすぎる

集計期間:
2026年06月09日~2026年06月15日
  • 角川アスキー総合研究所