主页 topics 重复数据删除 什么是数据去重?
使用 IBM 解决方案数据去重 订阅 IBM 时事通讯
蓝色抽象圆点

发布日期:2024 年 1 月 3 日
撰稿人:Phill Powell、Ian Smalley

什么是数据去重?

数据去重是一种精简过程,通过消除相同信息的多余副本来减少冗余数据。数据去重(或通常缩写为“dedupe”)的目标是减少组织持续的存储需求。

各组织可以执行数据去重流程和技术,确保其存储系统中只存在一个唯一的数据实例。删除重复或冗余数据,并将用户指向数据的单一实例。

数据去重成功之后,便可提高组织的整体存储利用率,并有助于降低成本。

利用 IBM® Z 上的 AI 揭开数据的神秘面纱

了解 AI 可以解决的常见客户痛点、目前可用的功能以及 IBM Z 为什么是理想的 AI 平台。

相关内容

注册电子书以加速实现应用程序的现代化

为什么需要数据去重?

那么,公司为什么会创建重复数据呢?可能是因为一个或多个合理的原因,包括:

  • 组织或其某个部门可能需要重新利用原始数据,因此需要创建新的数据副本。
  • 公司可能希望保留副本,作为备份系统的一部分,以防发生数据丢失事件。
  • 组织可能会发现自己保留了相同数据的多个副本,但都以不同的格式存储。

数据重复的另一个主要原因是,这是大多数多部门组织中的常见现象。数据的定期创建或重新创建,是在现代背景下开展业务的一项公认的有机功能。因此,数据创建或复制并非真正的问题,过度的数据激增才是真正的问题。

如果没有与之相关的额外经济负担,数据激增似乎就不是什么问题了。组织可以选择将数据存储在其 IT 架构内的各个位置,而不必关注这些冗余。

但事实是,公司确实会因为需要额外的存储成本来维护大量数据冗余而遭受经济损失。无法停止创建数据冗余的组织需要分配更多的人力和预算以实施新的存储解决方案和数据管理,无论是基于新硬件购买还是增加云存储。

数据去重的优势

数据去重技术最明显的优势,在于删除无关数据可以减少组织必须存储和管理的数据总量。通过减少数据占用的存储空间,可以有效提升组织的存储能力。

除了降低存储成本之外,数据去重还具有其他主要优势,例如推动数据备份计划和支持紧急措施,保障灾难恢复

另一个优势是通过删除"无效"数据并确保剩余数据经过适当清理,从而重塑数据完整性。经过去重的数据,运行效果更好,能耗更低。

数据去重的另一个优势,在于可以很好地与虚拟桌面基础设施 (VDI) 部署配合使用,这要归功于 VDI 远程桌面背后相同的的虚拟硬盘运行方式。热门的桌面即服务 (DaaS) 产品包括微软的 Azure Virtual Desktop 及其 Windows VDI。此类产品会在服务器虚拟化过程中创建虚拟机 (VM)。此外,这些虚拟机也增强了 VDI 技术。

数据去重的工作原理?

最基本的层面上,数据去重通过自动化功能识别数据块中的重复内容,然后将其删除。通过在此数据块层面执行,可以针对唯一的数据块进行分析,并指定值得保存的数据块。然后,当去重软件检测到相同的数据块副本时,就会删除该副本,并在其位置放置原始数据的参考。

数据去重的另一种方法是在文件级别进行操作。单实例数据存储会比较文件系统内数据的完整副本,但不会比较数据块。与同类方法一样,文件去重也依赖于保留原始文件并删除多余副本。

去重技术的工作方式与数据压缩算法(如 LZ77、LZ78)不尽相同,尽管两者都追求减少数据冗余的总体目标。与压缩算法相比,去重技术能在更大的宏观范围内实现这一目标,因为压缩算法的目标不是用共享副本替换相同文件,而是对冗余数据进行有效编码。

数据去重的类型

数据去重有两种基本类型,具体取决于流程发生的时间

内联去重

数据在系统内流动时,将实时进行这种形式的数据去重。由于系统既不传输也不存储重复数据,因此承载的数据流量较小。这可以降低组织所需的总带宽量。

后处理去重

这种类型的去重发生在数据写入并放置到某种类型的存储设备之后。

这两种类型的数据去重都会受到数据去重固有的哈希计算的影响。这类加密计算对于识别数据中的重复模式不可或缺。在内联去重过程中,这类计算均为瞬间进行,可能会占据主导地位,暂时压倒计算机的功能。后处理去重过程中,哈希计算可在添加数据后的任何时间进行。

去重类型之间的细微差别还不止于此。对重复数据删除类型进行分类的第二种方法,是根据此类流程的发生位置进行分类。

源去重

这种形式的去重会在新数据生成的位置附近进行。系统会扫描该区域并检测文件的新副本,然后将其删除。

目标去重

目标去重基本上是源去重的倒置。在目标去重中,系统会删除在原始数据创建位置以外区域发现的任何重复副本。

由于存在不同类型的去重方法,因此眼光长远的组织必须对所选择的去重类型做出谨慎和深思熟虑的决定,并在方法和公司的特定需求之间取得平衡。

在很多用例中,组织选择的去重方法很可能就归因于各种内部变量,例如:

  • 创建的数据集数量和类型
  • 组织的主存储系统
  • 正在使用的虚拟环境
  • 公司依赖哪些应用程序
相关解决方案
IBM® Storage FlashSystem

尽最大努力降低运营中断的发生,并将工作负载与勒索软件攻击和其他网络威胁隔离。增强您的网络弹性状态,以便贵公司能够减少损失,并加速恢复正常运营。

深入了解 IBM Storage FlashSystem

IBM 存储保护

借助 IBM Storage Protect 为数据备份和恢复添砖加瓦。此软件可增强物理文件服务器的数据弹性,提供额外的效率和可扩展的解决方案,从而管理每个备份服务器的数十亿个对象。

深入了解 IBM Storage Protect

IBM Storage as a Service

利用本地部署数据存储解决方案,大幅降低存储基础架构的成本。您负责提供数据,而 IBM 则提供存储系统。FlashSystem 和 IBM DS8900F 为您提供了基于消费且更灵活的 STaaS 模型,其运行方式类似于云技术。

深入了解 IBM Storage as a System
资源 什么是数据存储?

了解数据存储的基础知识,包括存储设备类型和不同的数据存储格式。

什么是数据迁移?

更好地了解数据如何从一个存储系统或计算环境流向另一个存储系统或计算环境。

什么是数据架构?

了解成功的数据管理为何始于以数据架构形式呈现的坚实蓝图。

什么是数据安全?

在计算机或商业领域,此话题目前最为紧迫。了解数据保护的基本知识。

采取后续步骤

借助 IBM Storage FlashSystem 简化数据和基础架构管理,这款高性能的全闪存存储解决方案可跨本地、混合云、虚拟化和容器化环境简化管理,并降低运维复杂性。

    深入了解 FlashSystem 存储 查看产品导览