公開日:2024年1月3日
寄稿者:Phill Powell、Ian Smalley
データ重複排除は、同じ情報の余分なコピーを取り除くことで不必要なデータを削減する合理化プロセスです。 データ重複排除(一般的には「デデュープ」と省略)の目的は、ストレージに対する組織の継続的なニーズを軽減することです。
組織はデータ重複排除のプロセスと手法を実装して、ストレージ・システム内でデータのインスタンスが一意となるようにすることができます。 重複あるいは余分なデータが削除され、ユーザーは単一のデータ・インスタンスを参照できます。
上手にデータの重複を排除できれば、組織の全体的なストレージ利用を改善し、コストを削減することができます。
AIで対処できる一般的なお客様のお悩み、現在利用できる機能、IBM Zが理想的なAIプラットフォームである理由について学びましょう。
電子ブックに登録してアプリのモダナイズを迅速化
企業が重複データを作成してしまう背景には、いくつかの妥当な理由が考えられます。以下にその一部を挙げます。
データが重複するもう1つの大きな理由は、それが単に、複数部門を持つ組織の大半で頻発するということです。データは定期的に作成されるか、現代の状況下で事業を運営する上で受け入れられた有機的な機能として再作成されます。 したがって、実際に問題となるのはデータの作成や複製ではなく、過剰なデータの急増です。
それに伴って余分な経済的負担がなければ、データの急増はそれほど問題ではないように見えるかもしれません。 組織はデータをITアーキテクチャーのさまざまな場所に保管し、その重複は気にしないこともできます。
しかし実際には、企業は大量のデータ重複を維持すると、追加のストレージ費用という形で金銭的ペナルティーを被ることになるのです。データの重複作成を止められない組織はさらに労力と予算を費やして、ハードウェアの新規購入あるいはクラウド・ストレージの追加といった、ストレージについての新たな解決策やデータ管理を実施しなければなりません。
データ重複排除の技術で最も明らかなメリットは、重要ではないデータを取り除くことで組織が保管・管理しなければならないデータの総量が減ることです。ストレージ領域を占めるデータが減り、組織が持つストレージ容量が効果的に増えます。
データ重複排除には、ストレージ費用の削減以外にも大きなメリットがあります。例えば、データ・バックアップ計画の推進や、災害復旧を保護する緊急手順の支援などです。
もう1つのメリットは、「デッドウェイト」データを削除し、残りのデータが適切にクレンジングされていることを確認することで、データの完全性を回復させる点です。 重複が排除されたデータはより適切に実行され、さらにエネルギー消費も少ないことが分かっています。
データ重複排除のさらなるメリットは、仮想デスクトップ・インフラストラクチャー(VDI)のデプロイメントと非常にうまく連携できることです。 これはVDIのリモート・デスクトップを支える仮想ハード・ディスクが、どれも全く同じように動作するおかげです。よく使われているDaaS(デスクトップ・アズ・ア・サービス)には、Microsoft社と同社のWindows VDIが提供するAzure Virtual Desktopなどがあります。こうした製品はサーバー仮想化のプロセス中に仮想マシン(VM)を作成します。すると今度は仮想マシンがVDIテクノロジーを強化します。
最も基本的なレベルでは、データ重複排除は自動機能で動作してデータ・ブロック内の重複を識別・削除します。 ブロック単位で作業することにより、一意データのまとまりを分析し、保存する価値があるものとして特定できます。 次に、重複排除ソフトウェアが同じデータ・ブロックの繰り返しを検出すると、その繰り返しが削除され、元データへの参照に置き換えられます。
データ重複排除のもう1つの方法は、ファイル・レベルで行います。単一インスタンスのデータ・ストレージが、データのまとまりやブロックではなく、ファイル・システムにあるデータの完全なコピーを比較します。前述の方法と同じく、ファイルの重複排除は元のファイルを保持して余分なコピーを削除することにかかっています。
重複排除の技術はデータ圧縮アルゴリズム(LZ77、LZ78など)とまったく同じようには機能しませんが、どちらもデータ冗長性の低減を目指す点で共通しています。重複排除の技術は、同一のファイルを共有コピーに置き換えるよりデータの重複を効率的にエンコードすることを目標とする圧縮アルゴリズムに比べ、大きなマクロ・スケールでこれを実現します。
データ重複排除には、プロセスが発生するタイミングによって異なる2つの基本タイプがあります。
この形式のデータ重複排除は、システム内にデータが流れる際にリアルタイムで行われます。 重複データの転送も保管もしないため、システムのデータ・トラフィックが少なくて済みます。これにより、組織が必要とする帯域幅の総量を削減できる可能性があります。
このタイプの重複排除は、データが書き込みされ、何らかのストレージ・デバイスに配置された後に実行されます。
どちらの種類も、データ重複排除に固有のハッシュ計算から影響を受けます。暗号計算はデータで繰り返されるパターンを識別するために不可欠です。 インライン方式では、重複を排除する時点で計算を行うため、コンピューターの容量を超えて、一時的に処理不能に陥る場合があります。 ポストプロセス方式の重複排除では、データの追加後であれば、いつでもハッシュ計算を実行できます。
重複排除の種類の細かな違いは他にもあります。2番目の分類方法は、そうしたプロセスが発生する場所に基づいています。
この形式の重複排除はデータが新たに生成される場所の近くで行われます。システムがその領域をスキャンし、ファイルの新しいコピーを検出すると削除します。
これは基本的にソース重複排除の反対です。ターゲット重複排除では、システムは、元のデータが作成された場所以外の領域にあるすべてのコピーを重複排除します。
実践されている重複排除の方法にはさまざまな種類があるため、積極的な組織は、方法と自社の特定ニーズの間でバランスを取りながら、どれを選ぶか慎重に検討して決定を下す必要があります。
多くのユースケースでは、組織が選ぶ重複排除の方法は次のようにさまざまな内部要因に大きく左右される場合があります。
オペレーションが中断される可能性を最小限に抑え、ランサムウェア攻撃やその他のサイバー脅威からワークロードを切り離します。 サイバー・レジリエンス体制のスピードを上げることで、損失を抑えて、より早く通常業務に戻ることができます。
IBM Storage Protectでデータのバックアップと復元を強化します。物理ファイル・サーバーのデータ・レジリエンスを高め、バックアップ・サーバーごとに数十億個のオブジェクトを管理するために、さらなる効率性とスケーラブルなソリューションを提供するソフトウェアをご紹介します。
オンプレミスのデータ・ストレージ・ソリューションでストレージ・インフラストラクチャーのコストを大幅に削減します。 IBMはお客様のデータにストレージ・システムを提供します。FlashSystemとIBM DS8900Fハードウェアにより、クラウドのように動作し、より柔軟で、従量課金制のSTaaS (ストレージ・アズ・ア・サービス)モデルが実現します。
ストレージ・デバイスの種類や、さまざまなデータ・ストレージ形式など、データ・ストレージの基本を学びます。
あるストレージ・システムまたはコンピューティング環境から別の環境にデータがどのように流れるかをよりよく理解できます。
データ管理の成功が、データ・アーキテクチャーという確かな青写真から始まる理由をご覧ください。
コンピューティングやビジネスにおいて、これほど緊急性の高いトピックはありません。 データ保護の基礎を手に入れましょう。