人们很容易相信,数据及其质量管理是一种新事物,是由电子隐私和欧盟GDPR等新法规的出现带来的。事实并非如此。数据、它的管理和它的质量从信息第一次被创造出来就已经存在了:当我们开始把东西写下来的时候。
数据质量定义
“数据质量是将质量管理技术应用于数据的活动的计划、实施和控制,以确保数据适合消费并满足数据消费者的需求。”
数据管理知识体系
我们可以进一步讨论什么是数据质量作为一个过程,使数据可操作,使个人和组织能够从数据中获得见解,从而为他们的决策提供信息。
我们将DQ描述为一个过程而不是一个单一项目的原因是,它由各种元素组成,这些元素都有助于使数据“适合目的”。有时人们使用术语数据准备来指代这些元素,尽管数据准备现在应该被视为单独的。
数据质量的维度是什么?
DQ位于数据管理这一总括术语的下面,它对整个数据集进行整体视图,将这些元素(通常称为数据质量维度)组合在一起,以提供所持有数据质量的快照。
完整性
数据中是否存在空白,如果有,在哪里?有些差距比其他差距更严重,什么是差距取决于使用数据的过程。例如,如果账单部门同时需要电话号码和电子邮件地址,那么缺少其中一个或另一个的记录都不能被认为是完整的。您还可以度量任何特定列的完整性。分析您的数据将发现这些差距。
有效性
你所持有的邮政编码记录的格式是否有效?您对数据库中保存的电子邮件和邮政地址记录能够接收有多大信心?有效性检查验证是否符合特定的格式、数据类型和值范围。
由于数据驱动的自动化在当今非常重要,数据必须是有效的,才能被期望它的流程和系统所接受。
及时性
新信息是否每天都实时进入您的CRM,还是手动导入?数据“刷新”的频率是多少?及时性是一个至关重要的方面,因为对最新数据的需求日益增加。
与其他维度类似,时效性是用户自定义的。有一种数据需要按季度进行财务报告。用于实时分析的其他数据不能超过5分钟。
独特性
您是否在数据集或数据目录中记录了两次相同的客户?唯一性度量给定数据集中有多少重复数据,可以是在任何特定列中,也可以是作为整个记录。例如,在订单表中,每个订单应该只有一行。另一方面,如果遇到两个具有相同订单id的记录,则有一个副本。它是怎么到那里的?可能是有人打错了订单号。这就把我们带到了下一个维度:准确性。
精度
准确性可能是最重要的维度,它指的是数据中的错误数量。换句话说,它衡量的是记录的数据在多大程度上代表了真相。准确性很棘手,因为数据可能是有效的、及时的、唯一的、完整的,但不准确。
100%的准确性是许多数据管理人员的理想目标,一旦实现,数据治理的原则可以与DQ相结合,以确保数据不会降级并再次变得不准确。
一致性
您是否在两个不同的系统中有关于同一客户的冲突信息?这意味着数据不一致,这可能导致不一致的报告和糟糕的客户服务。
数据质量的重要性及其价值
当然,每个人都想知道“为什么数据质量很重要?”然而,我们认为这里需要讨论数据的一个更重要的维度:价值。
我们对数据质量价值的定义是:赋予任何信息的业务、风险和财务价值是什么?通过这种方式,数据分析师和其他数据管理从业者在执行数据质量项目时可以快速为不同的数据源或特定的数据域分配优先级。
我们建议使用一个工具来为你的数据赋值,比如:
业务——例如,员工工资数据对市场营销有多大价值?很有可能,它对人力资源部门有更高的商业价值,而客户电子邮件对营销更有用。
风险-您是否持有个人身份信息(PII)?这意味着,如果这些数据没有得到准确保护,以确保个人隐私,您可能会面临GDPR罚款的风险。
金融——电子商务公司是数据金融价值的最好例子:通常电子邮件地址和信用卡号码是与客户交易所需的全部,因此分析数据,保持高质量,并随着时间的推移报告它可以帮助电子商务企业了解客户的平均价值和准确的电子邮件地址。
从这些示例中可以看出,数据质量工具可以迅速成为业务的关键任务,这取决于执行日常操作所需的数据的质量。那么,为什么数据质量很重要呢?因为它增加了价值。
数据质量差的业务成本和风险是什么?
数据质量成熟度曲线正变得越来越普遍,组织可以快速确定他们在数据管理方法中是被动的还是优化和治理的。
在数据捕获和管理方面不成熟的组织的一个例子是,在其网站的联系表单上不使用验证字段或使用自由格式的捕获字段,允许任何人输入他们喜欢的任何内容。
不应轻视不良数据,因为它会带来重大风险和业务成本。下面是几个例子:
浪费营销预算:如果你的组织正在向你的客户和营销线索发送实体邮件,但这些地址已经过期或无效,你将浪费宝贵的营销资金和时间。
不合规数据:GDPR等法规要求在数据的准确性和完整性方面如何保持数据质量的特定标准(第5条)。如果一个组织的数据被发现不符合欧盟通用数据保护条例(GDPR)等数据驱动法规,他们可能会被处以高达2000万欧元或年营业额4%的罚款——以高者为准!
阻碍IT现代化项目:当数据从源系统转移到目标系统时,如果没有正确的映射和数据质量工具,旧的脏数据可能会对新系统造成严重破坏。
糟糕的客户体验:如果联系信息质量差,你就不能为客户提供量身定制的客户体验,并通过他们喜欢的渠道为他们服务。
罚款:在医疗保健和银行业等受监管的行业,企业可能会在监管报告中错误计算关键统计数据,从而被罚款。
不可靠的分析和机器学习:不准确或无效的数据将提供不准确的分析和不可靠的机器学习模型。
战略操作错误:在错误的位置建仓库,没有发现欺诈行为,生产错误的合金都是在商业决策中使用不良数据的例子。
是的,你可以用一个数字来衡量数据质量。
糟糕的数据让公司损失了10-30%的收入,纠正数据错误的成本为每条记录1-10美元。
更好的数据质量有什么好处?
提高你的信息质量有很多好处,不可能一一列出,但一些常见的包括:
由于改进了电子邮件和邮政投递能力以及更可靠的目标定位,增加了营销活动的投资回报
减少修复脏数据的时间。这将为你每条记录节省1-10美元。
增加个性化服务或产品的能力
改进、更快的决策
遵守新的和现有的法规,并创建以消费者为中心的数据驱动文化
还有更多。最终,您的业务是独一无二的,因此您如何从改进的DQ中获益也是独一无二的。
确保数据质量的必备特性是什么?
如果您想了解数据质量的所有基本功能,可以在这里阅读全文。
数据概要分析
在进行任何数据质量检查之前,从源头检查数据以更好地解释和理解它是很重要的。数据分析比通过SQL查询更快更有效。它有助于定义哪些转换对数据是必要的,以及将来要跟踪哪些问题。
数据清理和转换
您经常需要转换数据以提高其质量。这包括:
格式的标准化
解析数据并将其分解为单独的属性(例如,将全名分解为姓和名)
数据丰富:从外部来源带来额外的数据
重复数据删除:删除数据中的重复项
数据屏蔽:出于安全原因,有时需要对数据进行模糊处理
需要注意的是,在任何新数据传输到其他系统并到达数据分析师并用于业务决策之前,这些流程都需要自动发生。
话虽如此,在数据进入任何it系统之前建立验证和“处理数据”的流程更为有益和明智。这就是所谓的数据质量防火墙。这方面的一个例子是一种算法,它根据要求的格式检查输入到web表单中的数据,并提醒用户修复它,例如电子邮件地址或出生日期。但是DQ防火墙也可以嵌入到复杂的企业应用程序中。
监测和报告
彼得·德鲁克(Peter Drucker)说得好:“如果你不能衡量它,你就不能改进它。”这是有效的数据质量,因为它是一般业务。随着时间的推移,跟踪数据的变化和改进是至关重要的,通常通过数据质量仪表板来完成。
首先,它显示了您是否在朝着正确的方向前进,即您所定义的数据质量指标是否在改进。其次,监控数据质量有助于捕捉不良数据的意外流入,并追踪其来源。第三,它有助于跟踪对监管要求的遵守情况。