什么是数据仓库|数据仓库的定义？| IBM

什么是数据仓库？

数据仓库或企业数据仓库 (EDW) 是一种系统，它可将来自不同来源的数据汇聚到一个集中、统一的数据存储中，从而为数据分析、数据挖掘、人工智能 (AI) 和机器学习提供支持。

通过数据仓库系统，组织能以标准数据库无法企及的方式对大量数据（TB 级和 PB 级）运行强大的分析。

三十多年来，数据仓库系统一直是商业智能 (BI) 解决方案的一个组成部分。但是，随着新的数据类型和数据托管方法的出现，这些数据仓库系统最近也在不断发展。过去，数据仓库往往会托管在本地（通常位于大型计算机上），而其功能也主要涉及从其他来源提取数据、清理和准备数据，以及在关系数据库中加载和维护数据。而眼下，数据仓库则可能会托管在专用设备上或云端，且大多数数据仓库均新增了分析功能以及数据可视化与演示工具。

通过 AI 治理构建负责任的 AI 工作流程

了解构建块和最佳实践以帮助您的团队加速开发负责任的 AI。

数据仓库与数据湖

数据仓库使用管数据道将来自多个来源的原始数据集中到中央存储库中，并使用专为数据分析而设计的预定义架构对这些数据进行结构化处理。数据湖是一种不含预定义架构的数据仓库。因此，与数据仓库相比，它支持更多类型的分析。数据湖通常基于 Apache Hadoop 等大数据平台进行构建。

数据仓库与数据市场

数据市场是数据仓库的一个子集，其中包含特定于某一业务线或部门的数据。由于数据市场包含较少的数据，因此在处理更广泛的数据仓库数据集时可让某一部门或业务线更快地发现更为集中的洞察信息。

数据仓库与数据库

数据库主要用于快速查询和事务处理，而非分析。数据库通常会作为特定应用程序的集中数据存储，而数据仓库则可存储来自组织内任意数量（甚至全部）应用程序的数据。

数据库侧重于更新实时数据，而数据仓库的范围则更广；例如，捕获当前与历史数据以便进行预测分析、机器学习和其他高级分析。

数据仓库的类型

云数据仓库

云数据仓库是专门为在云中运行而构建的一种数据仓库，它作为一项托管服务提供给客户。过去五到七年间，随着越来越多公司开始使用云计算服务并致力于缩减其本地数据中心所占空间，于基云的数据仓库变得日趋流行。

借助云数据仓库，物理数据仓库基础结构则可由云公司进行管理。如此一来，客户便无需对硬件或软件进行前期投资，也不必管理或维护数据仓库解决方案。

数据仓库软件（本地部署/许可证）

企业可购买数据仓库许可证，然后在自己的内部基础设施上部署数据仓库。尽管此举通常比云数据仓库服务更为昂贵，但对政府实体、金融机构或希望加强控制其数据或需遵守严格的安全或数据隐私标准或法规的其他组织来说，却可能是其更好的选择。

数据仓库设备

数据仓库设备是指预先集成的一系列硬件和软件（CPU、存储、操作系统和数据仓库软件），而企业可将这类设备连接到其网络并开始照常使用。在前期成本、部署速度、易扩展性和数据管理控制方面，数据仓库设备介于云实施与本地实施之间。

数据仓库的优点

数据仓库可为以下方面奠定基础：

提升数据质量：数据仓库可集中来自各种数据源的数据，如事务处理系统、操作数据库和平面文件。然后，它会清理运行数据、消除重复数据并将其标准化，从而创建一个单一事实来源。
加快提供业务洞察：来自不同来源的数据会限制决策者从容制定业务战略的能力。数据仓库可实现数据整合，以便业务用户能在每项业务决策中充分利用公司的所有数据。通过数据仓库数据，用户便可针对从工程生命周期管理 (ELM) 应用程序中收集的数据来报告主题、趋势、聚合和其他关系。
提高决策明智度：数据仓库支持大规模 BI 功能，例如数据挖掘（通过数据来查找隐藏的模式和关系）、人工智能与机器学习工具。数据专业人员和业务领导者可使用这些工具来获取确凿的证据，从而在组织的几乎每个领域（从业务流程到财务管理和库存管理）做出更明智的决策。
获得并积累竞争优势：通过将以上所有优点相结合，可帮助组织更快地发现数据中隐藏的更多机会，而不是从不同数据存储中发现机会。

数据仓库架构面临的挑战

随着公司开始存储更多数据并需要更高级的分析和更广泛的数据，数据仓库便会开始变得昂贵且不够灵活。如果要分析非结构化或半结构化数据，数据仓库将无法应对。我们发现越来越多公司开始转向湖仓一体架构，而它有助于解决上述问题。开放式湖仓一体允许您在开放且灵活的架构中运行仓库工作负载以处理各种数据。通过研究数据来获取业务洞察的数据科学家和工程师也可使用这些数据。湖仓一体并非一种紧密耦合式系统，而是更为灵活且可管理非结构化与半结构化数据，如照片、视频、IoT 数据等。

除报告与仪表板工作负载外，湖仓一体还可支持数据科学、ML 和 AI 工作负载。如果想从湖仓一体架构进行升级，开发一个开放式湖仓一体系统则是必经之路。