重複除去によるバックアップ手法を最大限に活用する

 最近、カリフォルニアで大規模な森林火災が発生しているが、そうした地域に存在する何百というデータセンタやIT部門は大丈夫なのだろうかと思うのも無理はない。報道によれば2,100を超える建物が被害を受け、その中には多くの企業も含まれているという。大半のIT部門の災害対策プランには、耐火金庫内のテープにデータを毎晩保存する、定期的にサイト外のストレージ施設にデータを転送するといったバックアップ手法が含まれているが、ドキュメント、電子メールプログラム、メディアファイルから収集するデータの量が多いほどバックアップデータの冗長性も高くなる。バックアップ中に不要なデータまで保存していると、ストレージ空間と予算はたちまち枯渇してしまう。無駄なストレージ領域の消費を安心して減らし、コストを削減する方法はないのだろうか。まさにそれが重複除去(deduplication)だ。

 重複除去(dedupe;デデュープ)とは、セカンダリストレージへの転送前にシステムのデータから冗長な情報を取り除く手法である。IT部門がバックアップ処理中に重複除去を行う理由はいくつかある。ディスクスペースを効率よく使える、サイト外へのデータ転送を高速化できる、またその裏返しとしてITスタッフがシステムのバックアップと障害復旧時の起動をより短時間で行える、といったものだ。

 重複除去が頻繁に使われるのは、データの保存やシステム規模のアップデート実施のためにシステムデータを夜毎本社オフィスに送信する支店オフィスや遠隔施設を持つ企業である。ただし、コンピュータ上にデータを保存しているところであれば、事実上どんな企業でも重複除去の恩恵を受けることができる。

 データストレージ産業のアナリストらは、重複除去はバックアップ処理の重大な要素であり、数年後には10億ドルの産業になるだろう、と述べる。The 451 Groupでストレージ関連の調査ディレクタを務めるSimon Robinson氏のレポートによると、重複除去の市場規模は今年の末までに2億6,000万ドルに達する見込みだという。

 重複除去に対する関心が急激に高まっている背景には複数の要因がある、とRobinson氏は語る。「一番大きいのは、バックアップ用のディスクドライブが低コストで利用できるようになったことだ。ユーザはどちらかというとテープよりもディスクにデータをバックアップしたがる(リストアの速さや信頼性の高さのほか、ときにはコストパフォーマンスでもディスクが勝る)。ディスクによるバックアップが現実的なものになってから、業界はこのやり方をもっと効率化する方法を探してきた。データ・デデュープは、従来のバックアップにつきものだった冗長性をなくすことで、これを実現するすばらしい方法の1つだ」

 Robinson氏によると、重複除去を使えば企業は可能な限りデータを圧縮してストレージディスクに入れることが可能になるため、この技術は企業のIT予算に深遠な影響を与え得るという。「これまで1か月分のバックアップしかできなかったディスクシステムに、半年分、場合によっては1年分のバックアップが行えるようになる」。またRobinson氏は、重複除去によって有線でのデータ転送が容易になったため、企業にとってはテープをサイト外の施設にいちいち搬送するより機密データを貯めておくほうが好都合になっている。

 重複除去を検討している企業は、最終決定を下す前に数社のベンダに相談する必要があるだろう。その際、尋ねるべき質問がいくつかある。

  • 自社システムの規模に見合った製品か。
  • 障害時のリカバリはどれくらい簡単か。
  • 自社で導入済みの仮想化製品で使えるか。
  • テープへのデータ移行など、ほかの機能もサポートしているか。
  • 自社システムのパフォーマンスにどれほどの影響を与える製品か。
  • 冗長なデータだけが削除されることをどのように保証しているか。
  • データはどのように処理されるのか。インライン処理は、ワークフローに支障が生じないとき、またはシステムリソースの競合が起こらないときにスケジューリングされる次回のバックアップを考慮したインデキシングや準備作業など、フォローアップ・メンテナンスを可能にする。また、バックアップ終了後には後処理が控えている。後処理は、必要十分なメンテナンス画面上またはもっと手間のかからない形で多くの企業で利用されている。

ベンダの見解

 システムのバックアップ中にデータの一部が無視されてしまうと考えると不安になるかもしれないが、実は、重複除去ソフトウェアを提供する関係者に言わせると、この処理はきわめて安全なのだという。Dilligent Technologiesのマーケティング・コミュニケーション責任者Melissa Morales氏は、同社のソフトウェアProtecTIERでは過去に遭遇したデータ、新たなデータ、変更されたデータをそれぞれに記録するアルゴリズムを使用している、と話す。このソフトウェアでは、パターンを検索するとともに、ディスクのリポジトリとの比較チェックによって新データの検証と旧データの再送でないことの確認も行う。また、独自のバックアップシステムを持ち、必要に応じてファイルを再生成することもできる。

 Morales氏が各企業に勧めるのは、データの暗号化または圧縮が必要なら重複除去処理のあとで行うことである。「ディスクに保存されたデータは、復旧時のリカバリ手順がそうなっていれば、リカバリのためにどこかへ送り出される前に暗号化されたうえ、さらに圧縮されることになります。現在、重複除去ソフトウェアのベンダはサードパーティの暗号化ソフトウェア業者との協力を進めていますが、組み込みは1つの手順で終わるものではありません」

 企業が自社データの重複除去によってどれだけの時間とお金を節約できるかを見積もるのは難しいが、おおよその見当をつけることはできる。Morales氏は次のように話す。「顧客はバックアップ対象データの量、バックアップの取り方(たとえば、その週の曜日ごとに容量が増えて週末時点で最大になるなど)、データの保持期間(保存が必要なのは6日か6週間か、あるいは半年か)を確認する必要があります」。こうした情報を集めておけば、現状でその会社にどの程度重複除去が必要なのかの判断のほか、データが一定の率で増え続けた場合に将来必要になるストレージ容量の見積りをベンダーにしてもらいやすくなる、と彼女は説明する。

 重複除去の技術はまだ登場して間もないが、アナリストのSimon Robinson氏によればデータ保護の「次世代機能」になるのは確実だという。「今後5年以内には主流のテクノロジになるだろうが、まだまだやるべきことはたくさんある」

ITManagersJournal 原文