主页
topics
现代数据平台
现代数据平台是一套云优先、云原生软件产品,能够收集、清理、转换和分析组织的数据,帮助改进决策。
了解主动数据可观察性如何帮助您更早地检测数据事件并更快地加以解决。
现代数据平台的第一个基础层是存储和处理。
现代数据存储系统专注于有效地使用数据,包括数据存储位置和处理方式。尽管数据湖仓一体和数据网格越来越受欢迎,但两种最流行的存储格式是数据仓库和数据湖。
数据仓库
数据仓库是为管理结构化数据而设计的,其用例清晰明确。
数据仓库的使用可以追溯到 20 世纪 90 年代,当时数据库用于存储数据。这些数据仓库位于本地,存储容量非常有限。
2013 年左右,数据仓库开始转向云端,可扩展性突然成为可能。基于云的数据仓库仍然是首选的数据存储系统,因为它们优化了计算能力和处理速度。
要使数据仓库正常运行,必须收集、重新格式化、清理数据并将其上传到仓库。任何无法重新格式化的数据都可能丢失。
数据湖
2008 年 1 月,Yahoo 向 Apache 软件基金会发布了 Hadoop(基于 NoSQL)作为开源项目。数据湖最初构建在 Hadoop 上,具有可扩展性并且专为本地部署使用而设计。遗憾的是,Hadoop 生态系统极其复杂且难以使用。数据湖在 2015 年左右开始转向云端,使其成本大幅降低、对用户更友好。
数据湖最初的设计目的是收集原始的非结构化数据,而不强制要求模式(格式),以便研究人员可以从广泛的数据中获得更多洞察。由于解析陈旧、不准确或无用的信息时出现问题,数据湖可能会变成效率低下的“数据沼泽”。
典型的数据湖架构可能将数据存储在对象存储(例如 AWS 的 Amazon S3)上,并结合 Spark 等工具来处理数据。
湖仓一体
湖仓一体将数据湖的灵活性、成本效益和扩展能力与数据仓库的 ACID(原子性、一致性、隔离性和持久性)事务和数据管理功能相结合。(ACID 是定义事务的 4 个关键属性的首字母缩写词:原子性 (Atomicity)、一致性 (Consistency)、隔离性 (Isolation) 和持久性 (Durability)。)
湖仓一体支持 BI 和机器学习,而湖仓一体的一个关键优势是它使用元数据层。湖仓一体还使用新的查询引擎,专为高性能 SQL 搜索而设计。
数据网格
与数据仓库、数据湖和湖仓一体不同,数据网格分散管理数据所有权。通过这种架构模型,特定域(例如合作伙伴或部门)不拥有其数据,而是与其他域自由共享数据。这意味着数据网格系统内的所有数据都应保持统一的格式。
数据网格系统对于支持多个数据域的企业非常有用。在数据网格设计中,有一个数据治理层和一个可观测性层,以及一个通用的互操作性层。
数据网格对于快速扩张并需要可扩展性来存储数据的组织非常有用。
将数据放入存储系统以供将来使用的过程称为数据摄取,这是现代数据平台的第二层。
简单来说,数据摄取意味着将各种来源的数据移动到一个集中位置。在该集中位置,数据可用于保存记录或进一步处理和分析,这两者都依赖于可访问、一致和准确的数据。
组织使用来自其分析基础架构的数据做出业务决策。这些数据的价值取决于摄取并整合这些数据的过程是否完备是否到位。如果在摄取过程中出现问题,例如数据集丢失或过时,分析过程的每一步都会受到影响。当涉及到大数据时尤其如此。
数据处理模型
可以通过不同方式来摄取数据,并且特定数据摄取层的设计方式可以基于不同的处理模型。数据可以来自各种不同的来源,包括 SaaS 平台、物联网 (IoT) 设备和移动设备。良好的数据处理模型是创建高效数据战略的基础,因此组织必须确定最适合自身情况的模型。
下一层是数据转换,包括更改数据的值、结构和格式,这通常是数据分析项目的必需流程。使用数据管道时,可以在数据到达存储目标位置之前或之后转换数据。
直到最近,现代数据摄取模型还使用 ETL(提取、转换、加载)流程从来源获取数据、重新格式化数据并将其传输到目标位置。当企业必须使用昂贵的内部分析系统时,此流程很有用。在交付之前做好准备工作,包括数据转换,有助于降低成本。仍在使用本地数据仓库的组织通常会使用 ETL 流程。
如今,许多组织更喜欢基于云的数据仓库(IBM、Snowflake、Google BigQuery、Microsoft Azure 等),因为它们可以根据需要扩展计算和存储资源。云可扩展性允许绕过预加载转换,因此原始数据可以更快地发送到数据仓库。数据到达后,通常在回答查询时使用 ELT(提取、加载、转换)模型进行转换。
此时,数据可以转换为 SQL 格式并在研究过程中在数据仓库中运行。
数据转换具有以下几个优点:
现代数据平台的第四层是商业智能 (BI) 和分析工具。
1865 年,Richard Millar Devens 在《商业轶事百科全书》(Cyclopedia of Commercial and Business Anecdotes) 中提出了“商业智能”一词。他用这个术语来描述银行家 Henry Furnese 爵士如何通过在竞争之前收集和使用信息达到牟利目的。
目前,大量的业务信息是通过业务分析和数据分析收集的。BI 和分析工具可用于访问、分析数据并将其转换为可视化数据,从而提供可理解的洞察。为研究人员和数据科学家提供详细的情报可以帮助他们做出战术和战略业务决策。
现代数据平台的五个基础层中的最后一层是数据可观察性。
数据可观察性描述监视和观察数据状态及其运行状况的能力。它涵盖许多活动和技术,结合使用这些活动和技术可以让用户近乎实时地识别和解决数据难题。
可观察性使数据工程团队能够回答有关极端分布式系统幕后情况的具体问题。它可以显示数据在哪些地方移动缓慢,哪些地方出现损坏。
管理人员、数据团队和其他各种利益相关者可以收到有关潜在问题的警报,以便积极主动地解决问题。尽管可预测性功能可能有所帮助,但它并不能保证它能解决所有问题。
为了发挥数据可观察性的作用,它需要包含以下功能:
对于许多组织来说,可观察性是孤立的,这意味着只有某些部门可以访问数据。从理念方面讲,数据网格系统通过要求共享数据来解决这个问题,而这在传统存储和处理系统中通常是不鼓励的。
除了上述五个基础层之外,现代数据堆栈中常见的其他层包括:
无法访问的数据本质上是无用的数据。数据发现有助于确保检测无法访问的数据。它涉及收集、评估和深入了解不同来源的数据,以帮助企业领导者了解数据中发现的趋势和模式。通过数据发现可以清理和准备数据,有时与 BI 相关,因为它可以汇集孤立的数据进行分析。
现代数据平台强调数据治理和安全,以保护敏感信息、确保法规一致性和管理数据质量。支持这一层的工具具有数据访问控制、加密、审计和数据沿袭跟踪功能。
数据目录和元数据管理对于发现和了解可用数据资产至关重要。这可以帮助用户找到适合其分析的数据。
一些现代数据平台结合使用机器学习和 AI 功能,用于预测性分析、异常检测和自动决策。
IBM® Databand® 是用于数据管道和仓库的可观察性软件,该软件会自动收集元数据来构建历史基线、检测异常并分类警报,以修复数据质量问题。
IBM® DataStage® 支持 ETL 和 ELT 模式,在本地和云中提供灵活且近乎实时的数据集成。
IBM® Knowledge Catalog 是 AI 时代的智能数据目录,让您可以访问、整理、分类和共享数据、知识资产及其关系,而无论这些数据存储于何处。