「マルチスタイルデータ統合」は AI・機械学習プロジェクトに欠かせない

Kevin Petrie BARC VP of Research 翻訳:兵藤朋代

  • この記事をはてなブックマークに追加
  • 本文印刷

独自のスタイルを持つモデルたちがフィールド上で競い合う、という点において、人工知能や機械学習のプロジェクトはチームスポーツにそっくりです。そのため、サイドラインからそれらのモデルをサポートするデータチームにとっては厄介な状況が発生します。前回のブログでは、ダイナミックなAI / ML プロジェクトを完成させるために、柔軟性がありながらも統制のとれたデータアーキテクチャを構築する必要性について説明しました。

AI / ML プロジェクトには複数のモデルやデータセットが関わるため、それぞれに合わせたスタイルのデータ統合が必要となります。それが今回のブログのテーマです。本記事では、最も一般的なスタイルとして、ETL、ELT、変更データキャプチャ(Change data capture、CDC)、ストリーミング、データ仮想化を定義します。次に、それらのスタイルを組み合わせたユースケースとして、ELT + CDC、ELT + データ仮想化、ストリーミングETL を検討します。

※本記事はCData US ブログ Multi-Style Data Integration for AI/ML: 3 Use Cases の翻訳です。

BARC Research の調査によると、これら3つの組み合わせが、複雑な環境で多様なAI / ML モデルをトレーニングし、学習させる最も適切な方法であることがわかっています。これらのスタイルの組み合わせは、スピード、移行の複雑さ、コンピュートコストの適切なバランスを実現します。

統合スタイルの定義

まずは定義から始めましょう。

・ELT(抽出、ロード、変換):その名のとおり、ELT スタイルではデータを取り込み、データウェアハウスやレイクハウスなどのターゲット上で変換し、分析に備えます。
・ETL(抽出、変換、ロード):より伝統的なETL スタイルでは、例えば中間サーバークラスタなどのターゲットに到着する前にデータを変換します。
・変更データキャプチャ:CDC ツールはデータベースログをスキャンして、新規または変更されたレコードを特定し、分析対象にリアルタイムでレコードを複製してロードします。
・ストリーミング:Apache KafkaPulsar、および各種の商用システムは、プラットフォーム間のメッセージストリーム(トランザクション、テレメトリログなど)を受信、保存、送信します。
・データ仮想化:仮想化ツールは、分散データセットの論理的なビューをユーザーやアプリケーションに提示し、データの複製や移動の必要性を排除します。

各スタイルの詳細とユースケース

では、3つのユースケースの例について、技術要件とビジネス成果を含めて見ていきましょう。

ELT + 変更データキャプチャ

多様なデータセット、複雑な変換、そして急速に変化するビジネス状況を伴うAI / ML プロジェクトを実施する場合には、ELT + CDC の組み合わせが最適です。

まず、ELT パイプラインがさまざまなソースから1つまたは複数のバッチのデータを抽出し、それらを統合・変換のためにターゲットにロードします。ターゲットでは、パイプラインがオブジェクト(ファイルやテーブルなど)をマージし、共通フォーマットに変換します。また、レコード値が正しいことを検証し、不要なテーブルやカラムを除外することもあります。

一方、CDC パイプラインは、リアルタイムまたはニアリアルタイムで差分を検出・取り込むことで、ターゲットとソースの同期を維持します。

ELT とCDC は、多様なデータセット、複雑な変換、変化するビジネス条件を伴うAI / ML プロジェクトをサポートします。

ELT とCDC を組み合わせて、機械学習に基づくレコメンドエンジンを実装する例を考えてみましょう。あるEC 企業のデータエンジニアは、Salesforce からの購買データ、Zendesk からの顧客サービスデータ、および自社のWeb サイトからのクリックデータをDatabricks のデータレイクハウスに統合するELT パイプラインを設計しました。

次にパイプラインは、これらのテーブルとログファイルをApache Parquet 形式に変換し、データサイエンティストが最も重要なインプット、つまり特徴量を識別できるようにします。これらの特徴量に基づいて、顧客を行動グループに分類するML モデルと、顧客に特定の商品の購入を勧める別のモデルをトレーニングします。

続いてML エンジニアは、これらのML モデルを本番環境に展開し、顧客を分類して商品の購入をレコメンドできるようにします。モデルは、CDC パイプラインがターゲットに更新(最近の購買、顧客からのクレーム、Web サイトへの訪問など)を配信したときにトリガーされます。その結果顧客にレコメンドされた商品が、EC 企業のクロスセル、商談金額、カスタマーリテンションの向上に役立ちます。

ELT + データ仮想化

ELT + CDC と同様に、ELT とデータ仮想化の組み合わせは、多様なデータセットを扱うAI / ML プロジェクトに適しています。しかし、他の組み合わせとは異なり、ELT + データ仮想化はさらに一歩進んでいます。データグラビティ、データ主権の要件、または移行コストなどの理由で完全に統合できないサイロ化したデータセットの分析を支援します。

この場合、ELT パイプラインは、前述の手順と同様の手順で、実現可能なすべてのデータを共通のデータウェアハウスまたはレイクハウスに取り込みます。

さらにデータチームは、実データを移動・複製することなく仮想的にデータを閲覧するための仮想レイヤーを構築し、セマンティックレイヤーでデータの統合や計算を行います。

これらの派生した値は統合されたデータセットを補完し、データサイエンティストにモデルのトレーニングや実用化に必要となる豊富な機能を提供します。また、データ仮想化は候補モデルや機能の迅速なプロトタイピングを可能にし、データサイエンティストは移行コストをかけることなくアイデアをテストすることができます。

ELT とデータ仮想化の組み合わせは、データグラビティ、データ主権の要件、または移行コストなどの理由により完全に統合できない多様なデータセットの活用を支援します。
ELT とデータ仮想化の連携について理解するために、EC 企業の2つ目のシナリオを考えてみましょう。

この企業の英国部門が、Web サイトを訪れるフランスとドイツの顧客向けにコンテンツをパーソナライズしたいとします。ロンドンのデータエンジニアは、購入記録、クリックストリームのログファイル、最近の顧客満足度調査の結果など、これらの国からのあらゆるデータを統合して変換する、ELT パイプラインを設計します。ただし、顧客サービスデータは移行コストに見合わないため、そのままにしておきます。代わりに、データを移動せずに閲覧およびアクセスできるデータ仮想化レイヤーを作成します。

次に、データサイエンティストはELT パイプラインと仮想化レイヤーを併用して、個々の顧客向けにWeb ページをパーソナライズする機械学習モデルのトレーニングとプロンプトを行います。よりターゲットを絞ったコンテンツで顧客を引き付けることで、このEC 企業はクロスセルとリテンションをさらに増加させています。

ストリーミングETL

ここではストリーミングETL について説明します。この手法は、データが少なく必要な変換がシンプルで、超低レイテンシが求められるリアルタイムのAI / ML プロジェクトに適しています。

ストリーミングETL パイプラインはソースからデータを抽出し、処理の実行中に変換し、ターゲットにロードします。このデータは、データベーストランザクション、IT サーバータスク、工場のマシンエラーなどのイベントを記述する、小さな増分のストリームで移動します。変換ロジックは、パイプラインがイベントストリームをターゲットにロードする前に、サーバーメモリ内でマージ、フィルタリング、またはエンリッチすることがあります。

ストリーミングETL は、データサイエンスチームが学習と推論の両方の段階でAI / ML モデルにフィードできるリアルタイム機能を提供します。

例えば、クレジットカード会社は不正行為を防止するためにストリーミングETL を使用する場合があります。ストリーミングETL は、加盟店からのリアルタイムのトランザクションリクエストを抽出し、顧客を識別して、その顧客の最近の購入記録をストリームに挿入します。次に、異常検知モデルがその顧客の履歴や典型的なトランザクションプロファイルとトランザクションリクエストを比較します。モデルが異常な動作を発見すると、現場の加盟店にアラートを送信し、トランザクションをブロックします。

このように、ストリーミングETL によって、AI / ML プロジェクトはより多くの不正取引をブロックし、より多くの正当な取引を承認できるようになり、収益性の向上に繋がります。

さいごに

これらのユースケースは、プレイブックではなく1つの例です。各ユースケースとデータ環境には、独自のデータ統合スタイルが必要です。AI / ML プロジェクトをサポートするデータ統合のあり方についてさらに詳しく知りたい方は、こちらのフォームよりお問い合わせください。データ連携のプロフェッショナルがサポートします。

過去記事アーカイブ

2024年
02月
03月
04月
05月
06月
07月
08月
09月
10月
2023年
04月
07月
08月
09月
10月
11月
12月