主页

topics

现代数据平台

什么是现代数据平台?
深入了解 Databand
外观现代的数字显示屏照片
什么是现代数据平台?

现代数据平台是一套云优先、云原生软件产品,能够收集、清理、转换和分析组织的数据,帮助改进决策。

如今,数据管道变得越来越复杂,对于数据分析和做出数据驱动型决策也越来越重要。现代数据平台通过对数据的摄取、存储、处理和转换,确保信息的准确性和及时性,减少数据孤岛,实现自助服务并提高数据质量,从而建立对数据的信任。

现代数据平台也称为现代数据堆栈,由五个关键基础层组成:数据存储和处理、数据摄取、数据转换、商业智能 (BI) 以及分析和数据可观察性。

管理现代数据平台的两个基本原则是:

  • 可用性: 数据湖 数据仓库提供随时可用的数据,它们将存储和计算分开。对这些功能进行拆分,可以以相对低廉的价格存储大量数据。

  • 弹性:计算功能基于云,允许自动扩展。例如,如果大部分数据和分析是在某一天和某一时间消耗的,则可以自动扩大处理规模以获得更好的客户体验,也可以随着工作负载需求的减少而缩小处理规模。
立即预约 IBM Databand 演示

了解主动数据可观察性如何帮助您更早地检测数据事件并更快地加以解决。

相关内容 订阅 IBM 时事通讯
现代数据平台理念

现代数据平台不仅需要技术的支持,还需要开发运维DataOps 和敏捷理念的支持。尽管开发运维和 DataOps 的目的完全不同,但它们都类似于敏捷理念,旨在缩短项目工作周期。

开发运维专注于产品开发,而 DataOps 专注于创建和维护分布式数据架构系统,从数据中提供业务价值。

敏捷是一种软件开发理念,旨在提高速度和效率,但不会消除“人工”因素。它强调将面对面对话作为最大限度提高沟通的方式,同时也强调将自动化作为最大限度减少错误的手段。

数据存储和处理

现代数据平台的第一个基础层是存储和处理。

现代数据存储系统专注于有效地使用数据,包括数据存储位置和处理方式。尽管数据湖仓一体和数据网格越来越受欢迎,但两种最流行的存储格式是数据仓库和数据湖。

数据仓库

数据仓库是为管理结构化数据而设计的,其用例清晰明确。

数据仓库的使用可以追溯到 20 世纪 90 年代,当时数据库用于存储数据。这些数据仓库位于本地,存储容量非常有限。

2013 年左右,数据仓库开始转向云端,可扩展性突然成为可能。基于云的数据仓库仍然是首选的数据存储系统,因为它们优化了计算能力和处理速度。

要使数据仓库正常运行,必须收集、重新格式化、清理数据并将其上传到仓库。任何无法重新格式化的数据都可能丢失。

数据湖

2008 年 1 月,Yahoo 向 Apache 软件基金会发布了 Hadoop(基于 NoSQL)作为开源项目。数据湖最初构建在 Hadoop 上,具有可扩展性并且专为本地部署使用而设计。遗憾的是,Hadoop 生态系统极其复杂且难以使用。数据湖在 2015 年左右开始转向云端,使其成本大幅降低、对用户更友好。

数据湖最初的设计目的是收集原始的非结构化数据,而不强制要求模式(格式),以便研究人员可以从广泛的数据中获得更多洞察。由于解析陈旧、不准确或无用的信息时出现问题,数据湖可能会变成效率低下的“数据沼泽”。

典型的数据湖架构可能将数据存储在对象存储(例如 AWS 的 Amazon S3)上,并结合 Spark 等工具来处理数据。

湖仓一体

湖仓一体将数据湖的灵活性、成本效益和扩展能力与数据仓库的 ACID(原子性、一致性、隔离性和持久性)事务和数据管理功能相结合。(ACID 是定义事务的 4 个关键属性的首字母缩写词:原子性 (Atomicity)、一致性 (Consistency)、隔离性 (Isolation) 和持久性 (Durability)。)

湖仓一体支持 BI 和机器学习,而湖仓一体的一个关键优势是它使用元数据层。湖仓一体还使用新的查询引擎,专为高性能 SQL 搜索而设计。

数据网格

与数据仓库、数据湖和湖仓一体不同,数据网格分散管理数据所有权。通过这种架构模型,特定域(例如合作伙伴或部门)不拥有其数据,而是与其他域自由共享数据。这意味着数据网格系统内的所有数据都应保持统一的格式。

数据网格系统对于支持多个数据域的企业非常有用。在数据网格设计中,有一个数据治理层和一个可观测性层,以及一个通用的互操作性层。

数据网格对于快速扩张并需要可扩展性来存储数据的组织非常有用。

数据摄取

将数据放入存储系统以供将来使用的过程称为数据摄取,这是现代数据平台的第二层。

简单来说,数据摄取意味着将各种来源的数据移动到一个集中位置。在该集中位置,数据可用于保存记录或进一步处理和分析,这两者都依赖于可访问、一致和准确的数据。

组织使用来自其分析基础架构的数据做出业务决策。这些数据的价值取决于摄取并整合这些数据的过程是否完备是否到位。如果在摄取过程中出现问题,例如数据集丢失或过时,分析过程的每一步都会受到影响。当涉及到大数据时尤其如此。

数据处理模型

可以通过不同方式来摄取数据,并且特定数据摄取层的设计方式可以基于不同的处理模型。数据可以来自各种不同的来源,包括 SaaS 平台、物联网 (IoT) 设备和移动设备。良好的数据处理模型是创建高效数据战略的基础,因此组织必须确定最适合自身情况的模型。

  • 批处理是最常见的数据摄取形式,尽管它不是为实时处理而设计的。相反,它收集源数据并将其分组为批次,然后将其发送到目的地。可以使用简单的时间表来启动批处理,或者当存在某些预定条件时激活批处理。它通常用于不需要实时数据的情况,因为与实时处理相比,它需要的工作量更少,成本更低。
  • 实时处理(也称为流式处理或数据流处理)不对数据进行分组。相反,一旦识别出数据,就会获取、转换和加载数据。实时处理的成本更高,因为它需要持续监控数据来源并自动接受新信息。
数据转换

下一层是数据转换,包括更改数据的值、结构和格式,这通常是数据分析项目的必需流程。使用数据管道时,可以在数据到达存储目标位置之前或之后转换数据。

直到最近,现代数据摄取模型还使用 ETL(提取、转换、加载)流程从来源获取数据、重新格式化数据并将其传输到目标位置。当企业必须使用昂贵的内部分析系统时,此流程很有用。在交付之前做好准备工作,包括数据转换,有助于降低成本。仍在使用本地数据仓库的组织通常会使用 ETL 流程。

如今,许多组织更喜欢基于云的数据仓库(IBM、Snowflake、Google BigQuery、Microsoft Azure 等),因为它们可以根据需要扩展计算和存储资源。云可扩展性允许绕过预加载转换,因此原始数据可以更快地发送到数据仓库。数据到达后,通常在回答查询时使用 ELT(提取、加载、转换)模型进行转换。

此时,数据可以转换为 SQL 格式并在研究过程中在数据仓库中运行。

数据转换具有以下几个优点:

  • 可用性:对数据进行标准化处理并将其置于正确的结构下,可以让您的数据工程团队从无法使用、未经分析的数据中创造商业价值。
  • 数据质量:转换原始数据有助于识别和纠正数据错误、不一致和缺失值,从而获得更清晰、更准确的数据。

  • 改善组织:对于相关人员和计算机来说,转换后的数据都更容易处理。
商业智能和分析

现代数据平台的第四层是商业智能 (BI) 和分析工具。

1865 年,Richard Millar Devens 在《商业轶事百科全书》(Cyclopedia of Commercial and Business Anecdotes) 中提出了“商业智能”一词。他用这个术语来描述银行家 Henry Furnese 爵士如何通过在竞争之前收集和使用信息达到牟利目的。

目前,大量的业务信息是通过业务分析和数据分析收集的。BI 和分析工具可用于访问、分析数据并将其转换为可视化数据,从而提供可理解的洞察。为研究人员和数据科学家提供详细的情报可以帮助他们做出战术和战略业务决策。

数据可观测性

现代数据平台的五个基础层中的最后一层是数据可观察性

数据可观察性描述监视和观察数据状态及其运行状况的能力。它涵盖许多活动和技术,结合使用这些活动和技术可以让用户近乎实时地识别和解决数据难题。

可观察性使数据工程团队能够回答有关极端分布式系统幕后情况的具体问题。它可以显示数据在哪些地方移动缓慢,哪些地方出现损坏。

管理人员、数据团队和其他各种利益相关者可以收到有关潜在问题的警报,以便积极主动地解决问题。尽管可预测性功能可能有所帮助,但它并不能保证它能解决所有问题。

为了发挥数据可观察性的作用,它需要包含以下功能:

  • SLA 跟踪:根据预定义标准衡量管道元数据和数据质量。
  • 监控:显示系统或管道运行指标的详细仪表板。
  • 日志记录:保存事件的历史记录(跟踪、比较、分析),以便与新发现的异常进行比较。
  • 警报:针对异常和预期事件发出警告。
  • 分析:适合您的系统的自动化检测过程。
  • 跟踪:提供跟踪特定指标和事件的功能。
  • 比较:提供历史背景和异常警报。

对于许多组织来说,可观察性是孤立的,这意味着只有某些部门可以访问数据。从理念方面讲,数据网格系统通过要求共享数据来解决这个问题,而这在传统存储和处理系统中通常是不鼓励的。

其他现代数据平台层

除了上述五个基础层之外,现代数据堆栈中常见的其他层包括:

数据发现

无法访问的数据本质上是无用的数据。数据发现有助于确保检测无法访问的数据。它涉及收集、评估和深入了解不同来源的数据,以帮助企业领导者了解数据中发现的趋势和模式。通过数据发现可以清理和准备数据,有时与 BI 相关,因为它可以汇集孤立的数据进行分析。

数据治理

现代数据平台强调数据治理和安全,以保护敏感信息、确保法规一致性和管理数据质量。支持这一层的工具具有数据访问控制、加密、审计和数据沿袭跟踪功能。

数据目录和元数据管理

数据目录和元数据管理对于发现和了解可用数据资产至关重要。这可以帮助用户找到适合其分析的数据。

机器学习和人工智能

一些现代数据平台结合使用机器学习和 AI 功能,用于预测性分析、异常检测和自动决策。

相关产品
IBM Databand

IBM® Databand® 是用于数据管道和仓库的可观察性软件,该软件会自动收集元数据来构建历史基线、检测异常并分类警报,以修复数据质量问题。

深入了解 Databand

IBM DataStage

IBM® DataStage® 支持 ETL 和 ELT 模式,在本地和云中提供灵活且近乎实时的数据集成。

探索 DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog 是 AI 时代的智能数据目录,让您可以访问、整理、分类和共享数据、知识资产及其关系,而无论这些数据存储于何处。

探索 Knowledge Catalog
资源 什么是数据可观测性?

深入了解什么是数据可观察性、为什么它很重要,以及随着现代数据系统和实现数据可观察性框架的最佳实践的变化,它如何发展。

什么是 ELT(提取、加载、转换)?新手指南

了解 ELT 是什么、该流程如何运作、它与 ETL 有何不同、它的挑战和限制以及实施 ELT 管道的最佳实践。

现代云数据平台是所有智能供应链的基础

多年来,企业供应链一直依赖于不连贯、不可验证和不及时的数据,基础不稳固。干净、互联的数据是下一代供应链运营的基础。

什么是数据科学?

了解数据科学如何发掘业务洞察、加速数字化转型并实现数据驱动型决策。

采取下一步行动

立即使用 IBM Databand 实现主动数据可观测性,以便先于用户了解到何时出现数据运行状况问题。

深入了解 Databand