从很多方面来说,你只有在最后一次交付时才是最优秀的,而对于我们中的很多人来说,持续交付意味着持续审查。您不仅要保证质量,还要保证人们对质量的认知,因为一旦数据信任被打破,您的工作就会变得更加困难。
让我们从定义开始。数据质量框架是一种工具,组织可利用它来定义相关的数据质量属性,并为数据质量管理流程提供指导,以持续确保数据质量满足消费者的期望(服务水平协议)。
这句话很复杂,让我们来解读一下:
要实现上述承诺,有很多事情要做,而其中的每一个要素都充满了依赖性。例如,如果你要问自己如何构建这样一个系统,你会提出以下问题:
看似长长的、编号可能不吉利的清单?不要害怕。你可以委托他人。
问题 1 最适合你所在小组的业务分析员。这就需要他们与业务部门沟通,将用户故事、既定偏好、隐含偏好、请求和事件后记分解成一份数据"需求”清单。这些都是消费者对数据的定性期望,这是一种双向对话,因为他们可能无法用语言准确描述他们想要什么。(除非你的数据消费者是你的数据科学家,这样才能真正加快速度。)
问题 2 需要您和您的数据科学家共同回答(尤其是当他们也是消费者时)。鉴于每个管道的数据特征,您可以实际测量哪些属性,从而将定性期望清单进一步分解为定量测量清单?
根据您所遵循的数据质量模型,有四个或五个质量维度需要关注。在 IBM Databand,我们更喜欢具有四个特征的模式:
有了这些指标,数据工程师就可以解决第 3-13 个问题,并开始构建数据质量管理策略。在讨论如何做到这一点之前,我们应该问一问,为什么要做这些努力?
几年前,一家大型零售商的 Microsoft Dynamics CRM 系统进行了一次无关紧要的配置更改,这意味着网上显示的每件物品的库存数量不再反映实际情况。计数器干脆停止了更新。
人们继续购买,但数量保持不变。当数据工程团队接到警报时,事情已经变得很糟糕了。
大多数商品都可以在网上购买,也可以到店取货。很多人选择店内取货。订单得到了处理,但并不存在的物品却被售出。于是,消费者来到商店,零售商们争先恐后地寻找替代品,或承诺折扣,或以某种方式安抚他们。开始排队。商店里的游客不得不等待购买,而且很多人都在愤愤不平地玩手机,这让他们很反感。由于从发现问题到修复管道需要几天时间,所以又过了几天,事情才得到解决。
考虑到品牌声誉的损失,这次失误造成了数千万的损失,而这种损失本不应该发生。
这一切都说明,数据问题是复杂的。它们可能很难被发现和解决,并在不经意间滋生。我们很容易陷入这样一种模式,即假定一切正常,只是因为你还能得出一些洞察分析,即使你正在积累越来越多的地下数据债务。
此外,数据质量问题的最真实迹象也往往是滞后指标。例如,消费者告诉您或者像上一个零售客户关系管理的例子一样,成千上万的零售经理和地区副总裁告诉你。真糟糕。这意味着数据已经在系统中存在了一段时间,修复需要几天时间才能见效。谈不上满足消费者的期望。
这就是航运初创公司 Shipper 所遇到的情况,也是他们投入巨资防止这种情况发生的原因。他们的数据工程团队为一个应用程序提供尽可能接近实时的数据,帮助电子商务供应商将库存运送到装运港。他们不仅要担心消费者的期望,还要担心消费者的消费者。而当他们的系统有时过期两天时,就会造成期望落空的连锁反应。因此,他们在数据质量管理和工具方面投入了大量资金,这些工具可以通过自动检查向他们发出预警警报。
数据质量管理是一种使数据质量检查自动化和普遍化的方法,这样你就能以等量和反量的力量对抗数据集和管道上的熵。
让我们回到之前的例子和问题清单。您的分析师会与业务部门沟通以收集需求,您的数据科学家会向您提供一份量化的消费者期望清单。然后如何继续前进并建立系统?
制定数据质量框架。你的框架首先应该承认,系统是一个循环,你所了解到的一切有关消费者期望的信息都会影响系统,而消费者的期望是不断变化的。
让我们逐一探讨这些阶段:
你如何处理你的框架?你把它付诸实践。