数据集市是专注于特定业务线、部门或主题领域的数据仓库子集。 数据集市为定义的用户组提供特定数据,支持这些用户快速获得关键洞察,而无需浪费时间来搜索整个数据仓库。 例如,许多企业可能具有对应于特定业务部门(如财务、销售或营销)的数据集市。
数据集市、数据仓库和数据湖都是非常重要的中央数据存储库,但它们分别用于满足组织中的不同需求。
所谓数据仓库是一个系统,用于将多个来源的数据汇总到一个统一的中央数据存储中,以支持数据挖掘、人工智能 (AI) 和机器学习,最终改善复杂的分析和商业智能。 通过这个战略性的数据收集过程,数据仓库解决方案可整合不同来源的数据,以统一的形式提供数据。
数据集市(如上所述)是更有针对性的数据仓库版本,它包含较小的数据子集,这些数据对组织中的单一团队或特定用户组而言意义重大而且必不可少。 数据集市是通过复杂的过程,基于现有数据仓库(或其他数据源)构建的,该过程包括使用多种技术和工具,设计和构建物理数据库,使用数据进行填充,并设置复杂的访问和管理协议。
虽然这是个具有挑战性的过程,但与使用更广泛的数据仓库数据集相比,它能让业务线用户更快地发现更有针对性的洞察。 例如,营销团队可以通过根据现有数据仓库创建数据集市而受益,因为该团队的活动往往独立于企业的其他部门。 因此,他们不需要访问所有企业数据。
数据湖也是一种数据存储库。 数据湖可以海量存储通过多个来源获得的非结构化或原始数据,但这些信息尚未经过处理或尚未准备好用于分析。 由于能够以原始格式存储数据,因此数据湖比数据仓库更易于访问,而且更具成本效益。 在采集数据之前无需整理和处理数据。
例如,政府可以使用特定技术跟踪与交通行为、电力使用和水道相关的数据,并将其存储在数据湖中,同时确定如何使用这些数据创建“智慧城市”,以提供更高效的服务。
数据集市旨在通过范围相对较小的数据主题,满足特定群体的需求。 尽管数据集市仍可能包含数百万条记录,但其目标是在最短的时间内为业务用户提供最相关的数据。
凭借其更小规模但更有针对性的设计,数据集市可以为最终用户带来多种优势,包括:
数据集市共有三种类型,差异体现在与数据仓库的关系以及每个系统各自的数据源。
数据集市是面向主题的关系数据库, 以行和列的形式存储事务性数据,以便于访问、组织和理解。 由于它包含历史数据,因此分析人员可通过这种结构更轻松地确定数据趋势。 典型的数据字段包括数字顺序、时间值以及对一个或多个对象的引用。
企业采用多维模式将数据集市组织为蓝图形势,以满足要使用数据库执行分析任务的用户的需求。 以下是三种主要类型的模式:星型、雪花和保险库。
星型模式是多维数据库中表的逻辑形势,其形状跟星形相似。 在此蓝图中,一个事实表(与特定业务事件或流程相关的指标集)位于星型模式的中心,周围环绕着几个关联的维度表。
维度表之间没有依赖关系,因此星型模式在编写查询时需要使用的联结 (join) 很少。 这种结构有助于简化查询,因此星型模式对于想要访问和浏览大型数据集的分析人员来说非常高效。
雪花模式是星型模式的逻辑扩展,它使用额外的维度表扩展蓝图。 这些维度表已进行规范化,因此可以保护数据完整性,最大程度减少数据冗余。
虽然这种方法只需较少的空间来存储维度表,但其复杂的结构可能难以维护。 使用雪花模式的主要优点在于磁盘空间的需求较低,但需要注意的是,额外的表会对性能产生负面影响。
数据保险库是一种现代数据库建模方法,使 IT 专业人员能够设计敏捷的企业数据仓库。 这种方法实施分层结构,专用于解决使用其他模式模型时出现的敏捷性、灵活性和可扩展性等方面的问题。
数据保险库不需要像星型模式那样整理数据,并且简化了添加新数据源的过程,因为添加时无需中断现有模式。
数据集市可在部门层级为重要的业务决策提供指导。 例如,营销团队可使用数据集市分析消费者行为,而销售人员可使用数据集市编制季度销售报告。 由于这些任务都发生在各自的部门内部,因此团队不需要访问所有企业数据。
通常,数据集市由打算使用它的特定业务部门创建和管理。 设计数据集市的过程通常包括以下步骤:
完成基础工作后,可使用专业的商业智能工具(例如 Qlik 或 SiSense)从数据集市获得最大价值。 这些解决方案包含仪表板以及可视化功能,帮助您轻松地从数据中发掘洞察,做出更明智的决策,从而使企业获益。
虽然数据集市可以为企业带来更高的效率和更大的灵活性,但数据的不断增长也给继续使用本地解决方案的企业制造了新的问题。
随着数据仓库逐步迁移到云端,数据集市也会紧跟其后尘。 通过将数据资源整合到包含所有数据集市的单个存储库中,企业可以降低成本,确保所有部门都可以不受限制地实时访问所需的数据。
使用基于云的平台,可以轻松创建、共享和存储海量数据集,更高效地进行数据访问和分析。 云系统是为企业的可持续业务发展而构建的,许多现代的软件即服务 (SaaS) 提供商都将数据存储与计算分开,以提高查询数据时的可扩展性。