このページの本文へ

バックアップソフトと処理を分散

重複排除を高速化するEMC Data Domain Boost

2010年05月27日 06時00分更新

文● 渡邉利和

  • この記事をはてなブックマークに追加
  • 本文印刷

5月26日、EMCは業界で初という重複除外を分散処理することでパフォーマンスを最大2倍に高速化するソフトウェア「EMC Data Domain Boost」(DD Boost)を発表した。DD Boostは同日発表となるData Domain用最新OS「DD OS 4.8」に追加可能なソフトウェアオプションで、価格は12万円から。

バックアップサーバに一部処理を移動

EMCジャパン BRS事業本部長 河野 通明氏

 重複除外は、データ量の無制限な増大を抑制し、必要なデータだけを保存することでストレージの必要容量を大幅に削減できる技術だ。EMCジャパン BRS事業本部長の河野 通明氏は、「従来のテープを使うバックアップにはさまざまな不便があったため、テープによるバックアップからストレージを使うバックアップに移行しつつある」という現状に触れた上で、ストレージ上のデータ量を削減する重複除外を組み合わせることでストレージバックアップが実用的なソリューションとなることを強調、「テープ以外のすべてのコンポーネントを揃えていることがEMCの強み」だとした。

 一方で、重複除外を利用したバックアップが増えてくると、効率の高さをさらに活かすためにユーザー企業では複数システムのバックアップを統合したいという要求が高まる。Data Domainはもともとこうした用途を想定して設計された重複除外ストレージ製品。バックアップ統合にも利用できるのだが、多数のバックアップサーバーがData Domainに対してバックアップデータを送出すると、ネットワークがボトルネックになってしまう。今回のDD Boostはこのボトルネックを解消することを狙った技術だ。

 DD Boostでは、従来のData Domainストレージが実行していた重複除外の処理の一部を、ストレージの前段に置かれるバックアップサーバーで実行する。これにより、バックアップサーバーから転送されてくるデータ量を大幅に削減するというアイデアだ。重複データのチェックをバックアップサーバーで行なうことで、重複しているデータをData Domainストレージに転送しないため、ネットワーク帯域の使用率削減が実現する。

EMCジャパン BRS事業本部 システムエンジニアリング部 部長 首藤 憲治氏

 詳細説明を行なったEMCジャパン BRS事業本部 システムエンジニアリング部 部長の首藤 憲治氏によると、Data Domainの重複排除は、①セグメント分け、②IDの割り当て、③比較処理、④圧縮、⑤書き込み、という5段階の処理によって実現されていたという。

 セグメント分けは、オリジナルのデータを不定長のセグメントに分割する処理。そしてID割り当ては、セグメントごとにユニークなIDを付与する処理だ。ここまでが重複除外の中核となる処理で、データセグメントごとにIDが決まれば、あとはすでに保存されているデータのIDとの比較で、同一のIDがすでに存在していればそのデータセグメントは重複していると判断できる。そのため、ストレージ上に存在しないIDのデータセグメントだけを保存すればよい。

 「ユニーク?」と表現されているのが既存のIDとの「比較処理」で、新規IDと判断された場合は、データセグメントを圧縮し、ストレージに書き込みを行なうわけだ。

DD Boostのアーキテクチャ

 DD Boostでは、この5段階の処理のうち、セグメント分けとIDの割り当てと圧縮をバックアップサーバーに移す。従来Data Domainストレージ内部に実装されていたロジックのうちの該当部分を「DD Boostライブラリ」という形で切り出し、バックアップソフトウェアのプラグインモジュールとした。なお、バックアップソフトウェアとのインターフェイスにはシマンテックが推進するOST(Open Storage Technology) APIが採用されているため、対応するバックアップソフトウェアも、現時点ではNetBackupやBackup Execなど、シマンテックのOSTサポート製品に限られる。

 DD Boostライブラリでは、バックアップ対象のデータをデータセグメントに分割し、IDを付与した上でIDだけをまずData Domain本体に送信する。Data Domainストレージ側では保存されているデータのIDとの比較処理(ユニーク?)を行ない、ストレージ上に保存されていない新規データのIDだけをバックアップソフトウェアに通知する。一方、バックアップソフトウェアは、新規であることが確認されたデータセグメントだけを圧縮してData Domainストレージに送る。この結果、バックアップ・サーバからData Domainストレージに転送されるのは重複除外処理済みのデータとなり、転送データ量が大幅に削減される。

Data Domainの製品ラインナップと、それぞれのDD Boost使用時の性能向上

徹底的な無駄の排除!DD Boostの意味

 首藤氏はDD Boostの効果について、「バックアップサーバーの負荷が20~40%削減でき、バックアップサーバーとData Domainの間のネットワーク帯域の使用率は80~99%削減できる。ネットワークのボトルネックが解消され、Data Domainの処理性能を完全に引き出せるようになり、総合的な処理能力は1.5~2倍に引き上げられる」とした。

DD Boostの効果と米国でのユーザー事例での実績

 ポイントとなるのは、重複排除処理の中核部分を新たに分担することになったバックアップサーバーの負荷が逆に低くなるという点だろう。この点について首藤氏は、「バックアップサーバーの負荷の大半はデータ転送処理にあったが、DD Boostによって転送するデータ量が大幅に削減されるので、追加される処理負荷の分を合わせてもトータルでは負荷軽減になる」としている。

 また、バックアップサーバー側で一部処理を実行することになったことで、レプリケーションが使いやすくなるという効果も生まれ、管理情報(カタログ情報)をバックアップサーバ側に残しつつ、レプリケーションに伴うデータのコピーはバックアップサーバーを介さずにプライベートのLAN側で転送可能になるなど、最適化が可能になったという。

DD GDAの概要

 このほか、DD Boostを最上位機種であるData Domain 880と組み合わせた場合には、2台のDD880を仮想的な1台の重複除外ストレージとして利用する「DD GDA」(Data Domain Global Deduplication Array)も実現可能になった。アレイ構成とした2台のDD880に対し、DD Boostがデータの送出先を振り分けることで仮想的な巨大ストレージとして利用できる。この結果、データ書き込み性能は最大で12.8TB/時(3.5GB/s)と、大幅に向上している。

■関連サイト

カテゴリートップへ