CData SyncのCDCでクラウドDWHの真の実力を開花させる
「データは昨日のまま」で大丈夫? クラウドDWHのデータパイプラインを刷新して、意思決定の「速さ」を手に入れる
提供: CData Software Japan
データ転送の時間が約半分に バルクアップロードの並列転送で高速化
CDCによって変更データを効率よく抽出できたら、次は同期先であるクラウドDWHへの転送だ。ここでよくあるのは、大量リクエストや同時接続数の超過などAPIの制限に引っかかってしまう、大量データ用のインターフェイスを利用していないといった課題だ。ツールによっては、1件ずつデータ処理しているため時間がかかったり、全件をメモリで保持してしまい、データがあふれてしまうといった問題も起こる。
これに対して、CData SyncではクラウドDWHに最適化されたデータ転送方式を用いる。たとえばSnowflakeであれば、データを格納する「ステージ」と呼ばれるバッファスペースがあるので、そちらに並列でバルクで連携データをアップロードし、COPYコマンドによるデータロード機能で取り込んでしまう。Amazon RedshiftやGoogle BigQuery、DatabricksなどのクラウドDWHに対しても同じアプローチでバルクアップロードを行なうので、大量データの転送を効率化できる。CDC対応のコネクターは、先頃DB2 for iやMySQLにも対応し、SAP HANA CDCにも対応する予定だ。
データの収集(Extract)と転送(Load)をレプリケーションツールのCData Syncで効率化すれば、あとの加工(Transform)はクラウドDWHに任せておける。大きな処理能力と数多くの機能を持つクラウドDWHを前提にアーキテクチャを刷新することで、ビッグデータもリアルタイムに処理できるわけだ。
実際にどれくらい高速化するのか? 20カラムで構成されたテーブルで、Snowflakeへの転送を調べてみたところ、10万件だと17%、100万件だと41%、1000万件だと47%の高速化が実現したという。Amazon Redshift、Google BigQuery、DataBricksでも同様のテストをしたところ、従来の転送方式に比べて15%~79%の高速化を実現したという。
ELT+CDCが実現するデータパイプラインのモダナイズ
CData Syncを用いて、ユーザー企業はデータパイプラインのモダナイゼーションをどのように実現したのか?
ある美容系の企業では、データソースとして製品情報などを格納したMySQL、入力フォームなどのデータを集めたkintone、基幹システムのSAP S/4 HANA、ECサイト上の売上、顧客データが登録されたAmazon Marketplace、顧客や商談、マーケティングデータが集まったSalesforce、人事労務データを格納したSmartHRなど多種多様なデータソースがあった。
CData Software Japanの杉本和也氏は、「この会社は成長が著しく、データもデータソースもどんどん増えていました。これらをクラウドDWHに送るため、RPAやプログラム、ETLツールで処理していたのですが、スループットも遅くなり、レスポンスも遅くなってしまいました」と説明する。しかし、CData Syncを導入することで、クラウドDWHのSnowflakeにレプリケーションし、TableauやPowerBIで分析できる環境を整えることができた。しかも、非エンジニアチームがノーコードで開発を行ない、既存の1/10の工数で構築に成功したという。
また、さくらインターネットは、プロジェクト管理のデータを格納したBacklog、マーケットプレイスの取引管理データベースであるSQL Server、そして自社の顧客管理データベースをCData SyncでSQL ServerのDWHに統合し、MotionBoardで分析(関連記事:目指せマネーボール さくらインターネットの現場が始めたデータドリブン革命)。さらに、ゼネコンの戸田建設は、工事・業務実績データベース、低炭素施工システム、営業・原価・職員配置などの基幹データベースのデータをCData SyncでAmazon RDSに統合し、AWSのさまざまなサービスで活用している(関連記事:サーバー知らなくてもAPIでデジタル開発 戸田建設にDXの理想像を見た)。
製造品質における歩留まりを分析したいと考えた大手製造業では、製造実績、取引実績、生産実績というサイロ化した3つのデータベースからCData Syncでデータを取得。CDCを用いたSQL Serverへのデータ統合により、本番システムに負荷をかけず、最短1分というニアリアルタイムな同期が実現した。連携テーブル数は100を超えるが、開発期間は1/10で済み、大きな導入効果を得たという。
情報システム部も、DX部門もWIN-WINの関係に
CData Syncのメリットは基幹システムへの負荷軽減にある。「基幹システムに負荷をかけるとなると、管轄する情報システム部としてはゴーが出しにくいはず。その点、トランザクションログから変更データをキャプチャするCDCを採用するCData Syncは、本番システムの負荷軽減を実現し、データソース側にエージェントも不要です。基幹システムの安定運用を一義とする情報システム部も、ビッグデータ分析を高速化したいDX部門も、WIN-WINの関係になるはずです」と宮本氏は語る。
CData SyncではMySQL、PostgreSQL、SQL Server、DB2 for i、Oracleなど主要なRDBのログベースCDCに対応している。各データベースの特性を活かした実装により、本番システムへの負荷を最小化している。
データからビジネスにインパクトをもたらす価値を生み出すクラウドDWHとAI。しかし、その真価を発揮するには、データパイプラインの刷新が重要になる。「社内のデータ資産を活かし、現場で役立つ攻めのITにつなげたいと考えている多くのDX担当者は、データをさばききれないクラウドDWHの課題にぶち当たっているはず。こうした方々にはぜひCData Syncを試用していただきたいです」と杉本氏は語る。
この記事の編集者は以下の記事もオススメしています
-
sponsored
目指せマネーボール さくらインターネットの現場が始めたデータドリブン革命 -
sponsored
サーバー知らなくてもAPIでデジタル開発 戸田建設にDXの理想像を見た -
sponsored
NetSuiteやShopifyのデータ統合までCData Syncで実現したジョンマスターオーガニック




