数据可靠性是指数据的完整性和准确性,用于衡量数据在不同时间段内和来源的一致性和无误性。
数据越可靠,就越值得信赖。无论是在学术研究、商业分析还是公共政策方面,对数据的信任为获得有意义的洞察和明智的决策提供坚实的基础。
不准确或不可靠的数据可能导致错误结论、缺陷模型和糟糕决策。这就是为什么越来越多的公司引入首席数据官。2019 年至 2021 年期间,顶级上市公司的首席数据官数量增加了一倍。1
不良数据的风险与准确数据的竞争优势相结合,意味着数据可靠性措施应成为每个企业的优先事项。为了取得成功,重要的是要了解评估和提高可靠性所涉及的内容(这在很大程度上取决于数据可观察性),然后设定明确的责任和改进目标。
实施端到端数据可观察性,可以帮助数据工程团队在不良数据问题有机会蔓延之前识别、排查和解决问题,从而确保整个数据堆栈中的数据可靠性。
了解主动数据可观察性如何帮助您更早地检测数据事件并更快地加以解决。
订阅 IBM 时事通讯
衡量数据的可靠性需要考虑三个核心因素:
1. 数据是否有效?
数据的有效性取决于它的存储方式和格式是否正确,以及它衡量的内容是否是预期衡量对象。例如,如果您正在收集有关现实世界特定现象的新数据,那么只有准确反映该现象并且不受无关因素影响的数据才有效。
2. 数据是否完整?
数据完整性可识别信息中是否缺少任何内容。虽然数据可能有效,但如果不存在可能改变其他人理解信息的关键字段,则数据可能仍然不完整。不完整的数据可能导致偏差分析或错误分析。
3. 数据是否独一无二?
数据唯一性可检查数据集中是否存在重复数据。这种唯一性对于避免过度代表性非常重要,因为过度代表性并不准确。
为了更进一步了解,一些数据团队还考虑各种其他因素,包括:
衡量数据的可靠性对于帮助团队建立对数据集的信任并及早发现潜在问题至关重要。定期有效的数据测试可以帮助数据团队快速查明问题,确定问题根源并采取行动解决问题。
数据可靠性和数据有效性涉及数据质量的两个不同方面。
在数据管理的背景下,这两种特质在确保现有数据的完整性和实用性方面发挥着至关重要的作用。
尽管数据可靠性和数据有效性相关,但它们不可互换。例如,您可能拥有高度可靠的数据收集流程(提供一致且可重复的结果),但如果收集的数据未经验证(不符合所需的规则或格式),最终结果仍然是低质量数据。
相反,您可能拥有完全有效的数据(满足所有格式和完整性规则),但如果收集该数据的流程不可靠(每次测量或观察都会产生不同的结果),那么该数据的实用性和可信度就会受到质疑。
为了保持数据的可靠性,必须建立并严格遵循收集和处理所有类型数据的一致方法。为了确保数据的有效性,必须制定严格的数据验证协议。这可能包括数据类型检查、范围检查、引用完整性检查等。这些协议将有助于确保数据采用正确的格式并遵守所有必要的规则。
所有数据可靠性举措都在众多研究和数据分析领域提出了相当重要的问题和挑战,包括:
收集数据的方式会极大地影响数据可靠性。如果用于收集数据的方法存在缺陷或偏差,则数据不可靠。此外,在收集数据时、输入数据期间或处理或分析数据时,都可能发生测量误差。
数据必须随着时间推移和不同环境的变化而保持一致,才能可靠。由于测量技术、定义或用于收集数据的系统的变化,可能会出现不一致的数据。
人为错误始终是不可靠的潜在原因。出现这种情况的原因有很多,如数据录入错误、数据编码不一致以及对数据的误读。
在某些情况下,测量的内容可能会随着时间推移而发生变化,从而导致可靠性问题。例如,预测消费者行为的机器学习模型在首次创建时可能是可靠的,但随着潜在消费者行为的变化可能会变得不准确。
不一致的数据治理实践和缺乏数据管理可能导致对数据质量和可靠性缺乏问责。
数据源发生变化或更新时,可能会破坏数据可靠性,尤其是在数据格式或结构发生变化时。来自不同数据源的数据集成也会造成现代数据平台中的数据可靠性问题。
重复的记录或条目可能导致不准确和结果偏差。识别和处理重复数据是保持数据可靠性的一项挑战。
解决这些问题和挑战需要结合数据质量流程、数据治理、数据验证和数据管理实践。
确保数据的可靠性是健全数据管理的一个基本方面。以下是维护和提高整个数据堆栈中数据可靠性的一些最佳实践:
数据可观察性是指了解系统中数据的运行状况和状态。它包括各种活动,而不仅仅是描述问题。数据可观察性可以帮助近乎实时地识别、排查和解决数据问题。
重要的是,数据可观察性对于解决不良数据问题至关重要,而不良数据问题是数据可靠性的核心。从更深入的角度来说,数据可观察性涵盖监控、警报、跟踪、比较、分析、日志记录、SLA 跟踪和数据沿袭等活动,所有这些活动协同作用,以了解端到端数据质量,包括数据可靠性。
如果实施良好,数据可观察性可以通过尽早发现问题来帮助提高数据可靠性,从而使整个数据团队可以更快地做出响应,了解影响的程度并恢复可靠性。
通过实施数据可观察性实践和工具,组织可以增强数据可靠性,确保数据在整个数据生命周期中准确、一致且值得信赖。这在数据驱动的环境中尤其重要,在这种环境中,高质量数据可以直接影响商业智能、数据驱动的决策和业务成果。
IBM® Databand® 是用于数据管道和仓库的可观察性软件,该软件会自动收集元数据来构建历史基线、检测异常并分类警报,以修复数据质量问题。
IBM® DataStage® 支持 ETL 和 ELT 模式,在本地和云中提供灵活且近乎实时的数据集成。
IBM® Knowledge Catalog 是 AI 时代的智能数据目录,让您可以访问、整理、分类和共享数据、知识资产及其关系,而无论这些数据存储于何处。
如今,您可以运用适用的数据存储来调整分析和 AI 的规模,该数据存储基于开放式湖仓一体架构而构建,并通过查询、治理和开放式数据格式访问和共享数据,从而提供支持。
1. 关于我们信任的数据(ibm.com 外部链接),PwC,2022 年 4 月 28 日