バックアップ容量削減による運用改善
本連載の初回で紹介したように、電子データは今後も増え続け、バックアップすべきデータもそれに応じて増え続けている。多くのIT管理者は、増え続けるバックアップデータ(メディア)に対して、コストと運用という観点で悩みを抱えているはずだ。特に企業においては、各業務の情報システムの依存度が高まり、顧客や社員にサービスを提供する時間が拡大する一方、バックアップに割ける時間(ウィンドウ)が減り続けている。したがって、コストを抑えつつ、短いバックアップウィンドウに収まる運用の工夫やデータ削減機能が求められている。
バックアップ対象の容量が10TBとした場合、一カ月前までリカバリ可能とするにはバックアップメディアとして容量はどれくらい必要になるだろうか。毎日対象容量のすべてをバックアップする「フルバックアップ」運用の場合、
10TB×30日=300TB
必要となる。しかし、毎日10TBのデータが更新されること考えにくいため、日々のバックアップを更新分のみに限定した「差分バックアップ」と、定期的な「フルバックアップ」を組み合わせる運用が一般的である(図3)。これにより、バックアップメディアの容量に加え日々のバックアップウィンドウも削減される。
一方、バックアップ対象そのものを見直す取り組みの1つが、前回のNASの解説でも触れた「アーカイビング」だ。10TBと認識していたバックアップ対象のうち、5TBはデータの更新がなく参照頻度も低いと判明すれば、日々のバックアップ対象から外してしまう。これにより、フルバックアップ時の容量やウィンドウを削減できるのだ(図4)。さらに、この領域を容量単価の安いドライブや別のストレージに配置することにより、ストレージ全体のコストを削減することも可能だ。
最新のバックアップ効率化技術「重複除外」
ほとんどのバックアップソフトウェアは、ファイルの更新日時を元に差分データを検出している。そのため、ファイルのごく一部(たとえばWord文書の一文字)を変更したとしても、ファイル全体を更新データとして差分バックアップ対象とする。また、まったく同じ内容であったとしても、異なるフォルダに置かれていれば別のファイルとして認識し、それぞれバックアップを行なう。このように、バックアップメディアには多数の似たようなファイル、同一ファイルが存在し、非常に無駄が多いことがわかる。この「無駄」に着目し、効率的なバックアップを実践する技術が「重複除外」技術である。
図5は重複除外の基本的なロジックを表わしている。このように、データ領域をあるルールのもと細かく分割し、個々のデータの固まり(チャンク)ごとに、バックアップ取得済みのチャンクと重複していないか調査する。重複があった場合は、取得済みチャンクの位置(ポインタ)のみ記録し、データ自体のバックアップは行なわない。
この仕組みにより、データの重複を排除しバックアップデータの容量を削減できる。一般的には、ファイルサーバやサーバ仮想化環境(VMwareなどを用いて、同一OSの多数の仮想マシンをバックアップ対象とする環境)に対して、高い重複除外効果を示す。一方で、圧縮されたデータや暗号化されたファイルに対しては、データ配列のランダム性が高く重複が発生しづらいため、重複除外効果は期待できない。
現在市販されている重複除外を実装したバックアップ製品は、バックアップ対象のサーバにインストールするエージェントソフトウェアに重複除外機能を組み込む「ソース」方式と、バックアップメディアに重複除外機能を組み込む「ターゲット」方式が存在する(図6)
ソース方式は、バックアップ対象データを読み出す最初の段階で重複を除外するため、データをバックアップメディアへ転送する過程のデータ量(つまりネットワーク帯域やバックアップウィンドウ)を削減することが可能だ。したがって、遠隔地にあるサーバのデータを集中バックアップしたり、VMwareなどで1台の物理サーバに統合された仮想マシン群をバックアップする際に有効である。ソース方式を採用する製品は、ほとんどがスケジュール管理などを行なうバックアップソフトウェアと統合されている。
中でもEMCのAvamarは、複数のノード(サーバ)間でデータ保護されたバックアップアプライアンス製品で、バックアップソフトウェアとメディア、重複除外機能がパッケージされたユニークな製品だ(図7)。
一方、ターゲット方式はストレージをベースとした仮想テープライブラリ(テープドライブをエミュレーションするストレージ)に実装されている。ソース方式のような、バックアップデータ転送量やバックアップウィンドウの削減は見込めない。しかし、既存のバックアップシステムやソフトウェアを流用しながら、ディスクによる高速バックアップ・リカバリを少ない容量で実現できるメリットがある。いずれの製品も、用途に応じて選択することにより、確実なバックアップ運用を低いコストで実現することが可能で、重複除外は今後注目すべき技術である。
今回は、バックアップの目的や構成要素について整理し、データの増大に対応できる優れた技術「重複除外」について解説した。次回は、障害時において迅速な業務再開を求められるシステムに対して、ストレージの機能を使ったバックアップ(レプリケーション)・リカバリ手法について紹介する。
この連載の記事
-
最終回
サーバー・ストレージ
クラウド時代に対応するストレージの最新技術 -
第15回
サーバー・ストレージ
ストレージを守るセキュリティ技術 -
第14回
サーバー・ストレージ
ストレージ管理を効率化するテクニック -
第13回
サーバー・ストレージ
サーバ仮想化のためのストレージの機能を探る -
第12回
サーバー・ストレージ
シンプロビジョニングによるストレージ仮想化とは? -
第11回
サーバー・ストレージ
コスト削減を実現するストレージ階層化とは? -
第10回
サーバー・ストレージ
ストレージの災害対策テクノロジー -
第9回
サーバー・ストレージ
バックアップを高速化するレプリケーションの仕組み -
第7回
サーバー・ストレージ
FC/iSCSIとNASの違いを知っていますか? -
第6回
サーバー・ストレージ
ストレージをネットワーク化するFCとiSCSI - この連載の一覧へ