このページの本文へ

“DWHのパフォーマンス”と“データレイクの経済性”を実現する「レイクハウス」ビジョンを推進

データレイク上でDWH処理を、データブリックス「SQL Analytics」発表

2020年11月16日 07時00分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 クラウドネイティブな統合分析基盤を提供するデータブリックス(Databricks)は2020年11月13日、データレイク上でデータウェアハウス(DWH)ワークロードの実行を可能にする「SQL Analytics」の提供開始を発表した。これまで“分断”されていたデータレイクとDWHの世界を融合させる“レイクハウス(Lakehouse)”アーキテクチャのビジョンを実現し、さらに前進させていく方針。

「SQL Analytics」のクエリ画面(出典:データブリックスWebサイト)。使い慣れたSQL文やBIツールでデータレイクを探索できる

 データブリックスは、AI/マシンラーニングに特化したデータ分析基盤を提供する“データ&AI企業”。「Apache Spark」「MLflow」「Delta Lake」などで構成されるオープンソースソフトウェアベースの分析プラットフォームを、パブリッククラウド(AWS、Microsoft Azure)上のマネージドサービスとして提供している。今年9月には日本法人による本格的な国内展開開始も発表した。

 同社が提唱するレイクハウスアーキテクチャは、従来分断されていたデータレイクとDWHを融合させた単一のデータプラットフォームにより、すべてのデータ(構造化/半構造化/非構造化、ストリーミング)、すべてのユースケース(BI/レポーティング、機械学習/ディープラーニングなど)、すべてのユーザー(ビジネスアナリスト、データエンジニア/サイエンティスト、機械学習エンジニアなど)に対応するというビジョンだ。

 レイクハウスアーキテクチャの実現によって、企業内にあるデータのサイロ化を解消し、さまざまなユースケースのためのデータ処理プロセスをシンプル化/省力化するとともに、多様な解析言語への対応(SQL、R、Python、Scala、Java)によって異なる職種のユーザー間コラボレーションも容易にする。さらに単一プラットフォームに格納することで、膨大な量/種類のデータに対するガバナンスも実現できる。

すべてのデータ/ユースケース/ユーザーに対応するレイクハウスアーキテクチャによって、同社ビジョンである「データとAIの民主化」の推進を図る

レイクハウスアーキテクチャは、従来“分断”されていたDWHとデータレイクの世界を融合させたもの

 今回発表されたSQL Analyticsは、顧客の保有する既存のデータレイク(HDFS、AWS S3など)にデータブリックスの「Delta Lake」による抽象化レイヤーを付加し、さらに独自のクエリ実行エンジン「Delta Engine」を用いることで、コピーデータなどを用意することなくデータレイク上のDelta Lakeテーブルに直接クエリを実行し、BIワークフローに求められる分析パフォーマンスを実現するもの。

 このDelta Lakeにより、ACIDトランザクション、バッチ/ストリーミングなどに対応するほか、データのバージョン管理(スナップショット)機能も備え、信頼性が確保される。また、Delta Engineは「Apache Spark」と完全互換のクエリエンジンで、分散並列処理により高速にクエリを完了させる。

データレイクの抽象化レイヤー「Delta Lake」と、分散クエリエンジン「Delta Engine」の概要

 SQL Analyticsは「Tableau」や「Qlik」「Power BI」といった主要BIツール用のコネクタを用意しているため、ユーザーは既存のBIワークフローを統合してデータ分析を実行することができる。またSQLクエリやビジュアライズのWebインタフェースも備えており、BIツールを使っていないアナリストやデータサイエンティスト、開発者でも容易にダッシュボードやレポートを作成できる。

GUIによるデータのビジュアライズ/ダッシュボード機能も備える(出典:データブリックスWebサイト

 データブリックスでは、こうした仕組みによって“DWHのパフォーマンス”と“データレイクの経済性”を両立させ、一般的なクラウドDWHと比べて「最大8倍の価格性能」を実現できると述べている。SQL Analyticsは、11月18日よりパブリックプレビューとして公開される。

カテゴリートップへ