主页 topics data mart 什么是数据集市?
了解数据集市以及它如何帮助提高团队效率、降低成本以及促成企业中更加智慧的战术性业务决策
蓝黑背景
什么是数据集市?

数据集市是专注于特定业务线、部门或主题领域的数据仓库子集。   数据集市为定义的用户组提供特定数据,支持这些用户快速获得关键洞察,而无需浪费时间来搜索整个数据仓库。 例如,许多企业可能具有对应于特定业务部门(如财务、销售或营销)的数据集市。

数据集市、数据仓库与数据湖

数据集市、数据仓库和数据湖都是非常重要的中央数据存储库,但它们分别用于满足组织中的不同需求。

所谓数据仓库是一个系统,用于将多个来源的数据汇总到一个统一的中央数据存储中,以支持数据挖掘、人工智能 (AI) 和机器学习,最终改善复杂的分析和商业智能。 通过这个战略性的数据收集过程,数据仓库解决方案可整合不同来源的数据,以统一的形式提供数据。   

数据集市(如上所述)是更有针对性的数据仓库版本,它包含较小的数据子集,这些数据对组织中的单一团队或特定用户组而言意义重大而且必不可少。 数据集市是通过复杂的过程,基于现有数据仓库(或其他数据源)构建的,该过程包括使用多种技术和工具,设计和构建物理数据库,使用数据进行填充,并设置复杂的访问和管理协议。

虽然这是个具有挑战性的过程,但与使用更广泛的数据仓库数据集相比,它能让业务线用户更快地发现更有针对性的洞察。 例如,营销团队可以通过根据现有数据仓库创建数据集市而受益,因为该团队的活动往往独立于企业的其他部门。 因此,他们不需要访问所有企业数据。

数据湖也是一种数据存储库。 数据湖可以海量存储通过多个来源获得的非结构化或原始数据,但这些信息尚未经过处理或尚未准备好用于分析。 由于能够以原始格式存储数据,因此数据湖比数据仓库更易于访问,而且更具成本效益。 在采集数据之前无需整理和处理数据。

例如,政府可以使用特定技术跟踪与交通行为、电力使用和水道相关的数据,并将其存储在数据湖中,同时确定如何使用这些数据创建“智慧城市”,以提供更高效的服务。

数据集市的优势

数据集市旨在通过范围相对较小的数据主题,满足特定群体的需求。 尽管数据集市仍可能包含数百万条记录,但其目标是在最短的时间内为业务用户提供最相关的数据。 

凭借其更小规模但更有针对性的设计,数据集市可以为最终用户带来多种优势,包括:

  • 经济实惠:建立数据集市时需要考虑许多因素,例如,范围、集成以及提取、转换和加载 (ETL) 流程。 然而,数据集市的成本通常只是数据仓库成本的一个零头。

  • 简化的数据访问:数据集市仅保存一小部分数据,因此与使用数据仓库中更广泛的数据集相比,用户可以通过更少的工作量快速检索所需的数据。 

  • 更快获得洞察:从数据仓库中获得的洞察支持企业层面的战略决策,从而对整个企业产生影响。  数据集市有助于推动商业智能和分析能力,从而更精准地指导部门层面的决策。 团队可以利用更有针对性的数据洞察,实现特定目标。 由于团队可在更短的时间内发现和提取有价值的数据,因此可以帮助企业加速执行业务流程,提高生产力,获得更大的收益。

  • 更简单的数据维护:数据仓库包含丰富的业务信息,范围覆盖多条业务线。  而数据集市则专注于单一业务线,其容量低于 100GB,因此有助于减少混乱情况,更易于维护。

  • 更便捷的实施:数据仓库需要大量的实施时间,尤其是在大型企业中,因为需要从大量内部和外部来源收集数据。  而在建立数据集市时,您只需要一小部分数据,因此实施往往更高效,所需时间更少。
数据集市类型

数据集市共有三种类型,差异体现在与数据仓库的关系以及每个系统各自的数据源。

  • 从属数据集市是企业数据仓库中的分区数据段。  这种自上而下的方法首先将所有业务数据存储在一个中心位置。 新创建的数据集市在需要分析时提取主要数据中定义的子集。

  • 独立数据集市是独立的系统,不依赖于数据仓库。  分析人员可从内部或外部数据源提取有关特定主题或业务流程的数据,对这些数据进行处理,然后将其存储在数据集市存储库中,以供团队使用。

  • 混合数据集市将来自现有数据仓库和其他运营数据源中的数据合并在一起。  这种统一方法不仅具备自上而下方法的速度和用户友好界面,还提供了独立的企业级集成方法。
数据集市的结构

数据集市是面向主题的关系数据库, 以行和列的形式存储事务性数据,以便于访问、组织和理解。  由于它包含历史数据,因此分析人员可通过这种结构更轻松地确定数据趋势。 典型的数据字段包括数字顺序、时间值以及对一个或多个对象的引用。

企业采用多维模式将数据集市组织为蓝图形势,以满足要使用数据库执行分析任务的用户的需求。 以下是三种主要类型的模式:星型、雪花和保险库。

星型
 

星型模式是多维数据库中表的逻辑形势,其形状跟星形相似。 在此蓝图中,一个事实表(与特定业务事件或流程相关的指标集)位于星型模式的中心,周围环绕着几个关联的维度表。

维度表之间没有依赖关系,因此星型模式在编写查询时需要使用的联结 (join) 很少。 这种结构有助于简化查询,因此星型模式对于想要访问和浏览大型数据集的分析人员来说非常高效。

雪花
 

雪花模式是星型模式的逻辑扩展,它使用额外的维度表扩展蓝图。 这些维度表已进行规范化,因此可以保护数据完整性,最大程度减少数据冗余。

虽然这种方法只需较少的空间来存储维度表,但其复杂的结构可能难以维护。 使用雪花模式的主要优点在于磁盘空间的需求较低,但需要注意的是,额外的表会对性能产生负面影响。

保险库
 

数据保险库是一种现代数据库建模方法,使 IT 专业人员能够设计敏捷的企业数据仓库。 这种方法实施分层结构,专用于解决使用其他模式模型时出现的敏捷性、灵活性和可扩展性等方面的问题。

数据保险库不需要像星型模式那样整理数据,并且简化了添加新数据源的过程,因为添加时无需中断现有模式。

谁需要使用数据集市(以及如何使用)?

数据集市可在部门层级为重要的业务决策提供指导。 例如,营销团队可使用数据集市分析消费者行为,而销售人员可使用数据集市编制季度销售报告。 由于这些任务都发生在各自的部门内部,因此团队不需要访问所有企业数据。

通常,数据集市由打算使用它的特定业务部门创建和管理。 设计数据集市的过程通常包括以下步骤:

  1. 记录基本需求,旨在了解数据集市的业务和技术需求。 

  2. 确定数据源,数据集市从这些数据源中获取信息。 

  3. 确定数据子集,这种更细颗粒度的子集可以是关于某个主题或特定字段的所有信息。

  4. 设计数据集市的逻辑布局,选择与更大的数据仓库相关的模式。 

完成基础工作后,可使用专业的商业智能工具(例如 Qlik 或 SiSense)从数据集市获得最大价值。 这些解决方案包含仪表板以及可视化功能,帮助您轻松地从数据中发掘洞察,做出更明智的决策,从而使企业获益。

数据集市与云架构

虽然数据集市可以为企业带来更高的效率和更大的灵活性,但数据的不断增长也给继续使用本地解决方案的企业制造了新的问题。

随着数据仓库逐步迁移到云端,数据集市也会紧跟其后尘。  通过将数据资源整合到包含所有数据集市的单个存储库中,企业可以降低成本,确保所有部门都可以不受限制地实时访问所需的数据。

使用基于云的平台,可以轻松创建、共享和存储海量数据集,更高效地进行数据访问和分析。 云系统是为企业的可持续业务发展而构建的,许多现代的软件即服务 (SaaS) 提供商都将数据存储与计算分开,以提高查询数据时的可扩展性。

相关解决方案
Db2 Warehouse on Cloud

探索为高性能分析和 AI 构建的完全管理的弹性云数据仓库的功能。

探索 Db2 Warehouse on Cloud
InfoSphere Master Data Management

探索 IBM InfoSphere Master Data Management 如何支持业务和 IT 用户利用整个企业中的可信主数据开展协作和创新。

探索 InfoSphere Master Data Management
资源 寻找能够应对数据和 AI 挑战的企业数据仓库

企业数据仓库和数据集市可以帮助克服 AI 所带来的许多挑战。 了解如何评估此类解决方案可以实现的总体价值。

数据湖与数据仓库

了解 Ventana Research 的分析师 David Menninger 对数据湖与数据仓库之间交叉点的看法,这是构建任何数据集市时需要考虑的一个重要因素。

采取下一步行动

IBM Db2 Warehouse on Cloud 是一种富有弹性的云数据仓库,能够独立扩展存储和计算能力。 较小的数据集市可使用 Flex One 功能,这是专为高性能分析而构建的富有弹性的数据仓库。 该系统可部署在多个云提供商的平台上,起步存储容量为 40 GB。

探索 IBM Db2 Warehouse on Cloud