Snowflakeと大量データを連携しても、もう困らない。最適化ポイントをレクチャー

2025年03月21日 10時00分更新

宮本航太

ツイートする
一覧
お気に入り

　本記事はCDataが提供する「CData Software Blog」に掲載された「CData Sync で Snowflake 連携がさらに高速に！大量データ連携時の最適化ポイントを解説」を再編集したものです。

　こんにちは、プロダクトマネージメント@for Apps の宮本です！

　CData Sync V24.3 では、大量データをSnowflake に連携する際の処理速度が大幅に向上しました！100万件のレプリケーション結果ではジョブ完了時間が従来の半分程となりました。それでは従来から変更された処理方式に触れながら解説していきます。また、10万件／100万件／1000万件での比較も実施したので結果についても併せてご紹介します。

改善されたレプリケーション方式

　従来の方式では大量データをレプリケーションする際に、Snowflake へのデータ転送時の処理とステージからのCOPY INTO 処理が過剰に行われていることがボトルネックとなり、大量データをレプリケーションする場合のパフォーマンスに影響を与えていました。また、全データをメモリで保持する仕様だったことから、環境次第ではOut of Memory（OOM）が発生する場合があり、運用上の課題となっておりました。

　従来の処理方式は以下。

①Snowflake に一時テーブルを作成
②Snowflake に内部ステージを作成
③全レコードを複数のファイルに分割して内部ステージにアップロード
④ステージから一次テーブルにCOPY INTO でロード ※③→④を1セットとし、全レコード転送するまで繰り返す
⑤一時テーブルと対象テーブルでマージ

　今回のCData Sync V24.3ではこれらの問題を解決するために、OOM回避のためにファイル出力＆ファイルストリーム読み出し、PUTリクエストとCOPY INTO の回数をスリム化しました。

①Snowflake に一時テーブルを作成
②Snowflake に内部ステージを作成
③全レコードをローカルエリアにファイル出力
④ファイルストリームでデータ読み出しながら内部ステージにアップロード
⑤ステージから一次テーブルにCOPY INTO でロード ※③→④を1セットとし、全レコード転送するまで繰り返す
⑥一時テーブルと対象テーブルでマージ