前へ 1 2 次へ

CData SyncのCDCでクラウドDWHの真の実力を開花させる

「データは昨日のまま」で大丈夫? クラウドDWHのデータパイプラインを刷新して、意思決定の「速さ」を手に入れる

大谷イビサ 編集●ASCII 写真●曽根田元

提供: CData Software Japan

  • この記事をはてなブックマークに追加
  • 本文印刷

データ転送の時間が約半分に バルクアップロードの並列転送で高速化

 CDCによって変更データを効率よく抽出できたら、次は同期先であるクラウドDWHへの転送だ。ここでよくあるのは、大量リクエストや同時接続数の超過などAPIの制限に引っかかってしまう、大量データ用のインターフェイスを利用していないといった課題だ。ツールによっては、1件ずつデータ処理しているため時間がかかったり、全件をメモリで保持してしまい、データがあふれてしまうといった問題も起こる。

 これに対して、CData SyncではクラウドDWHに最適化されたデータ転送方式を用いる。たとえばSnowflakeであれば、データを格納する「ステージ」と呼ばれるバッファスペースがあるので、そちらに並列でバルクで連携データをアップロードし、COPYコマンドによるデータロード機能で取り込んでしまう。Amazon RedshiftやGoogle BigQuery、DatabricksなどのクラウドDWHに対しても同じアプローチでバルクアップロードを行なうので、大量データの転送を効率化できる。CDC対応のコネクターは、先頃DB2 for iやMySQLにも対応し、SAP HANA CDCにも対応する予定だ。

 データの収集(Extract)と転送(Load)をレプリケーションツールのCData Syncで効率化すれば、あとの加工(Transform)はクラウドDWHに任せておける。大きな処理能力と数多くの機能を持つクラウドDWHを前提にアーキテクチャを刷新することで、ビッグデータもリアルタイムに処理できるわけだ。

CData Syncによる高速なデータ分析を実現

 実際にどれくらい高速化するのか? 20カラムで構成されたテーブルで、Snowflakeへの転送を調べてみたところ、10万件だと17%、100万件だと41%、1000万件だと47%の高速化が実現したという。Amazon Redshift、Google BigQuery、DataBricksでも同様のテストをしたところ、従来の転送方式に比べて15%~79%の高速化を実現したという。

Snowflakeへの転送結果では17~47%の高速化を実現

ELT+CDCが実現するデータパイプラインのモダナイズ

 CData Syncを用いて、ユーザー企業はデータパイプラインのモダナイゼーションをどのように実現したのか?

 ある美容系の企業では、データソースとして製品情報などを格納したMySQL、入力フォームなどのデータを集めたkintone、基幹システムのSAP S/4 HANA、ECサイト上の売上、顧客データが登録されたAmazon Marketplace、顧客や商談、マーケティングデータが集まったSalesforce、人事労務データを格納したSmartHRなど多種多様なデータソースがあった。

 CData Software Japanの杉本和也氏は、「この会社は成長が著しく、データもデータソースもどんどん増えていました。これらをクラウドDWHに送るため、RPAやプログラム、ETLツールで処理していたのですが、スループットも遅くなり、レスポンスも遅くなってしまいました」と説明する。しかし、CData Syncを導入することで、クラウドDWHのSnowflakeにレプリケーションし、TableauやPowerBIで分析できる環境を整えることができた。しかも、非エンジニアチームがノーコードで開発を行ない、既存の1/10の工数で構築に成功したという。

CData Software Japanの杉本和也氏

 また、さくらインターネットは、プロジェクト管理のデータを格納したBacklog、マーケットプレイスの取引管理データベースであるSQL Server、そして自社の顧客管理データベースをCData SyncでSQL ServerのDWHに統合し、MotionBoardで分析(関連記事:目指せマネーボール さくらインターネットの現場が始めたデータドリブン革命)。さらに、ゼネコンの戸田建設は、工事・業務実績データベース、低炭素施工システム、営業・原価・職員配置などの基幹データベースのデータをCData SyncでAmazon RDSに統合し、AWSのさまざまなサービスで活用している(関連記事:サーバー知らなくてもAPIでデジタル開発 戸田建設にDXの理想像を見た)。

 製造品質における歩留まりを分析したいと考えた大手製造業では、製造実績、取引実績、生産実績というサイロ化した3つのデータベースからCData Syncでデータを取得。CDCを用いたSQL Serverへのデータ統合により、本番システムに負荷をかけず、最短1分というニアリアルタイムな同期が実現した。連携テーブル数は100を超えるが、開発期間は1/10で済み、大きな導入効果を得たという。

大手製造業におけるCDCの利用

情報システム部も、DX部門もWIN-WINの関係に

 CData Syncのメリットは基幹システムへの負荷軽減にある。「基幹システムに負荷をかけるとなると、管轄する情報システム部としてはゴーが出しにくいはず。その点、トランザクションログから変更データをキャプチャするCDCを採用するCData Syncは、本番システムの負荷軽減を実現し、データソース側にエージェントも不要です。基幹システムの安定運用を一義とする情報システム部も、ビッグデータ分析を高速化したいDX部門も、WIN-WINの関係になるはずです」と宮本氏は語る。

CData SyncではMySQL、PostgreSQL、SQL Server、DB2 for i、Oracleなど主要なRDBのログベースCDCに対応している。各データベースの特性を活かした実装により、本番システムへの負荷を最小化している。

 データからビジネスにインパクトをもたらす価値を生み出すクラウドDWHとAI。しかし、その真価を発揮するには、データパイプラインの刷新が重要になる。「社内のデータ資産を活かし、現場で役立つ攻めのITにつなげたいと考えている多くのDX担当者は、データをさばききれないクラウドDWHの課題にぶち当たっているはず。こうした方々にはぜひCData Syncを試用していただきたいです」と杉本氏は語る。

前へ 1 2 次へ

過去記事アーカイブ

2025年
01月
02月
03月
04月
05月
06月
07月
08月
09月
10月
11月
2024年
02月
03月
04月
05月
06月
07月
08月
09月
10月
11月
12月
2023年
04月
07月
08月
09月
10月
11月
12月