协会聚焦 | 数据血缘是什么?数据血缘都能解决哪些问题?

协会聚焦 | 数据血缘是什么?数据血缘都能解决哪些问题?大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,也在爆发性增长,这导致了数据之间的关系也变得越发复杂。

大家好,欢迎来到IT知识分享网。

大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,也在爆发性增长,这导致了数据之间的关系也变得越发复杂。

因此对数据工程师来说,如何管理表之间、代码之间的复杂关系,从而更好地认识和理解业务系统与底层表的关系、底层表的表间关系,理清当前数据(字段、关键指标或者数据标签)从哪里来?到哪里去?搞清楚哪些下游系统在使用这些数据等成为一件很重要的事。

而要解决这个事,我们就不得不提到元数据管理中的数据血缘。数据血缘描述了数据的来源和去向,以及数据在多个ETL处理过程中的转换,因此,数据血缘是组织内使数据发挥价值的重要基础能力。今天小亿就来为大家分享下什么是数据血缘,以及如何做好血缘分析?

什么是数据血缘?

数据血缘,又称数据血统、数据起源、数据谱系,是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。

协会聚焦 | 数据血缘是什么?数据血缘都能解决哪些问题?

数据血缘关系的4个特征

与人类社会中的血缘关系不同,数据的血缘关系包含4个特有的特征:

01

归属性

数据是被特定组织或个人拥有所有权的,拥有数据的组织或个人具备数据的使用权,实现营销、风险控制等目的。

02

多源性

这个特性与人类的血缘关系有本质的差异,同一个数据可以有多个来源。来源包括,数据是由多个数据加工生成的,或者由多种加工方式或加工步骤生成的.

03

可追溯

数据的血缘关系体现了数据的全生命周期,从数据生成到废弃的整个过程,均可追溯。

04

层次性

数据的血缘关系是具备层级关系的,就如同传统关系型数据库中,用户是级别最高的,之后依次是数据库、表、字段,他们自上而下,一个用户拥有多个数据库,一个数据库中存储着多张表,而一张表中有多个字段。他们有机结合在一起,形成完整的数据血缘关系。

数据血缘关系,从概念来讲很好理解,即数据的全生命周期中,数据与数据之间会形成多种多样的关系,这些关系与人类的血缘关系类似,所以被称作数据的血缘关系。

协会聚焦 | 数据血缘是什么?数据血缘都能解决哪些问题?

从数据价值评估角度来看

通过对数据血缘关系的梳理,我们不难发现,数据的拥有者和使用者,简单地来看,在数据拥有者较少且使用者(数据需求方)较多时,数据的价值较高。在数据流转中,对最终目标数据影响较大的数据源价值相对较高。同样,更新、变化频率较高的数据源,一般情况下,也在目标数据的计算、汇总中发挥着更高的作用,那可以判断为这部分数据源具有较高的价值。

从数据质量评估角度来看

清晰的数据源和加工处理方法,可以明确每个节点数据质量的好坏。从数据生命周期管理角度来看,数据的血缘关系有助于我们判断数据的生命周期,是数据的归档和销毁操作的参考。

考虑到数据血缘的重要性和特性,以一般来讲,我们在血缘分析时,会关注应用(系统)级、程序级、字段级三个层次间数据间的关系。比较常见的是,数据通过系统间的接口进行交换和传输。

协会总结

目前的数据血缘大多是基于技术的梳理,一般服务技术人员的需求。随着数据服务走向前台,服务业务分析和CDO的业务数据血缘,目前已经有相关产品,通过数据的语义分析,将技术元数据映射到业务元数据上,将血缘以业务流程方式发布共享出来,辅助商务决策,这是未来的发展方向之一。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/65867.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信