レプリケーション、スナップショット、スプリットミラーを理解しよう

ディスクバックアップを支える新しい技術とは？

2010年07月08日 09時00分更新

文● 伊藤玄蕃

ストレージのコストを減らす重複排除

　想定される事故・障害に備えてまじめにバックアップを行なうと、バックアップの対象となる本番データに比べて、はるかに多くのデータ量を保管することになる。たとえば、4世代ぶんのフルバックアップを保管するという運用であれば、本番データ量の5倍以上のデータ量を持つ計算になる。これをすべてストレージ装置で保管しようとすれば、必要なHDDは大量になり、テープに比べてはるかに高額な費用をかけなければならない。

　最近ではイントラネットやメールなどのデータもバックアップの対象となっている。これらのサーバーに蓄積されるデータには、重複が多いことが知られている。特にメールの添付ファイルは、「CC」あるいは転送などの処理により何回もコピーされることが多く、サーバーのディスク容量を圧迫することが多い。バックアップ用のストレージ装置でも同じことがいえる。そこで、同じデータを繰り返しバックアップしないよう、「重複排除（重複除外、De-duplication）」の技法が考案された。

　古くから使われている「データ圧縮」も、重複排除の一種といえる。典型的なデータ圧縮の方法は、1つのファイルの中で「繰り返し出現するビット列（データパターン）」をより短いシンボルに変換して記録するというもので、これによりメディアに書き込むデータ量を削減する。

　次いで登場したのが、「ファイル単位の重複排除」である。これは、ファイルごとに一意なIDを割り当てる。そしてファイルを保存する際には、すでに同じ内容のファイルが存在しないか確認し、存在する場合はそのファイルのデータを保存せずにIDだけを記録する。この方法により、同じ内容のファイルを重複して保存することが避けられる。

　そして最近の重複排除の技法としては、「ブロック単位での重複排除」である。これは、1つのファイルを数KBから数十KB程度の細かいブロックに分割して、ブロック単位で重複したデータを保存しないようにする技法である（図4）。