发布日期:2023 年 11 月 28 日
撰稿人:Phill Powell、Ian Smalley
顾名思义,数据整合意味着将不同来源的数据汇总到一个位置中。数据整合使用户能够从单一访问点获取数据,并协助生成数据洞察分析。
数据通常简称为“数据”,即信息集合,就好像每个数据单元均具备相同的结构和用途。 但实际情况却大相径庭。对大多数企业而言,数据并不像装满了苹果的购物车。相反,这个购物车通常已满,但其中大部分数据的格式各不相同(苹果、香蕉、橙子等)。
由于数据驱动型企业一般都依赖于来自众多数据源的各类数据,因此具有前瞻性思维的企业现在都在使用数据整合工具,以便更有效地处理其数据仓库中的大量信息。
虽然最初是原始数据,但企业可以对这些信息进行数据分析,并从中获得商业智能洞察分析。此时,将由企业决定如何将数据分析有效地应用到业务决策中,但至少公司方面可以即时获得更完整的数据,从而作出更明智的决策。
评估风险并制定业务保护措施。
订阅 IBM 时事通讯
数据整合(通常称为“数据集成”)具备若干关键优势:
就整体影响而言,数据整合的最大长远利益可能在于如何通过向所有必要人员提供相关数据,为整个企业(包括所有部门和职能)的决策过程提供启迪。数据整合还可以分析汇总的全部客户数据,并根据这些指标制定行动计划,从而帮助企业与公众建立更良好的互动。
将企业全部数据收集到一个集中位置的另一个益处是便于分析数据,而此举可以揭示企业内部效率低下的情况。这些低效率状况仿佛是对该企业施加的经济处罚, 缓解相关现象有助于降低成本。 由于整合过程提高了数据质量,信息系统的运行将更加可靠。
企业通常不会考虑所有成员在公司收集的所有不同数据资产中搜索所需信息时,究竟要花费多少时间。 如果这些资产难以查找,便会浪费更多的时间。现在不妨考虑一种更好的替代方案,将所有这些不同的数据集中到一个中央存储库(例如数据仓库)中,这样就可以减少耗时的任务。
尽管通常与数据整合无关,但值得注意的是,如果某家企业的数据位于中央存储库中,并且这些数据已经过处理和清理,那么与灾难恢复相关的应急行动可能会更加顺利。
用于支持数据整合项目的方法越来越多。
最重要的数据整合技术被称为“ETL”(提取、转换和加载)。 ETL 流程首先由 ETL 工具从数据源中提取信息,然后将数据转换成标准的信息格式。最后,将数据加载到选定的目标位置。
与 ETL 策略相对应的是一种名为“ELT”(提取、加载和转换)的新兴策略。 重新安排 ELT 步骤至关重要。 在 ELT 中,系统会提取数据,然后加载到某种暂存区域中。 当企业内各个实体从不同角度研究数据时,数据会保留在此处,并最终转换相关数据。
将所有数据保存在中央存储库中是一种实用的做法。 使用数据仓库可以提高数据安全性,因为数据仓库接受来自各种源系统的数据集。 然后,可以使用 ETL 工具自动处理数据并将其整合到仓库中。
数据仓库的部分作用是清理或处理数据。另一方面,数据湖只是一个数据存储库,不提供任何数据处理功能。数据湖本质上是一个存放数据的地方,因为数据仍处于最原始的形态。通常情况下,企业会在其中存放模糊数据。
这完全是规模问题。数据仓库旨在接受和存储所有数据。 数据市场只是一个较小的数据仓库,其关注范围要窄得多。 因此,当一家公司使用数据仓库时,公司内部某个部门或小组可能会拥有满足其特定需求的数据市场。
在自动化时代,人工编码似乎已经过时。 然而,有很多情况需要简单的数据整合工作。 此类工作由数据工程师通过人工编码完成。工程师编写的代码有助于将数据“集中”到一个位置。
数据虚拟化是企业需要考虑的另一种数据整合解决方案,即数据保留在现有孤岛中,并通过为每个数据源添加的虚拟化层加以查看。遗憾的是,这种方法存在一些局限性,包括可扩展性较低。
大数据的迅猛发展继续震撼着科技界,而且应该会持续一段时间。Acumen Research and Consulting 预测,从 2022 年到 2030 年,大数据市场将以每年约 12.7% 的速度继续扩张(ibm.com 外部链接)。 据其预测,预计该市场将从 2021 年的 1,635 亿美元飙升至 2030 年的 4,736 亿美元。、随着大数据市场的扩大,对更多数据整合的需求也在持续增加。
与数据整合相关的手动流程自动化是近年来蓬勃发展的另一个领域。这种情况发生在数据科学人才相对稀缺的时期。 据估计,超过 60% 的数据科学时间(ibm.com 外部链接)用于在整合过程中清理和处理数据。 这些流程可以而且应该实现自动化(并且自动化的程度将会不断增加)。
数据安全仍然是中心议题,这反映出网络攻击或勒索软件攻击的威胁持续出现且不断增加。作为回应,企业正在选择数据管道等选项,这些选项可以在管道移动、存储和分析数据时提供更高的安全性。
同样,近期另一项发展表明,人们对保护消费者隐私的兴趣日益浓厚,尤其是在发生了一系列备受瞩目的网络攻击事件,导致消费者数据大量泄漏后。所谓的“数据洁净室”可以提供良好的隐私,现在日益成为与消费者进行互动的方式。在数据净室中,互动的结构方式限制了企业通常收集的消费者信息量。
无论业务优先级如何,IBM 都能为企业提供安全存储和保护关键资源所需的硬件和软件解决方案,包括旨在帮助企业整合数据并进一步发挥其作用的存储管理软件。
如果可以进一步发挥数据的作用,同时还能减少企业的碳足迹,您会怎么做?可以利用 IBM FlashSystem 存储限制用电量,同时提高存储设备的能效,并为存储设备提供更多功能。
获取企业所需的功能,不仅提供数据保护,还要实现真正的数据弹复性。IBM Storage Defender 可以让企业查看各种主要和次要工作量的端到端数据弹复性。
可以借助 IBM Storage Scale 的全局数据平台,利用开放式存储选项生态系统连接整个企业的数据孤岛,包括从边缘到核心再到云端的非 IBM 存储平台。