大数据高频面试题之数据治理

大数据高频面试题之数据治理元数据管理元数据管理目前开源的框架中 Atlas 框架使用的较多 再就是采用自研的系统 1 元数据管理底层实现原理解析如下 HQL 获取对应的原数据表和目标表直接的依赖关系

大家好,欢迎来到IT知识分享网。

大数据高频面试题之数据治理

元数据管理

元数据管理目前开源的框架中,Atlas 框架使用的较多。再就是采用自研的系统。

1)元数据管理底层实现原理

解析如下 HQL,获取对应的原数据表和目标表直接的依赖关系。

insert into table ads_user

select id, name from dws_user

依赖关系能够做到:表级别和字段级别 neo4j

2)用处:作业执行失败,评估他的影响范围。主要用于表比较多的公司

atlas 版本问题:

0.84 版本:2019-06-21

2.0 版本:2019-05-13

框架版本:

Apache 0.84 2.0 2.1

CDH 2.0

3)尚大自研的元数据管理

大数据高频面试题之数据治理

数据质量监控

实现数据质量监控,你具体怎么做,详细说?

实现数据质量检测的功能,我们需要首先明确数据质量的维度,例如准确性、完整性、

唯一性、及时性和一致性。

1)确定数据源

确定需要进行数据质量检测的数据源。这可能是数据库表、文件、API 等。

2)定义质量规则

为每个数据质量维度定义具体的规则。例如:

  • 准确性:检查数据是否符合预期的范围或分布
  • 完整性:检查数据是否存在缺失值或空值
  • 唯一性:检查数据中是否存在重复项
  • 及时性:检查数据是否在预期的时间范围内更新。
  • 一致性:检查数据是否符合预定义的格式或标准。

3)实现检测功能

使用编程语言(如 SQL)编写检测数据质量的函数。这些函数可以包括:

  • 数据导入:从数据源导入数据。
  • 数据清理:对数据进行预处理,如去除空格、转换数据类型等。
  • 应用质量规则:根据定义的质量规则,实现相应的检测函数。例如,检查缺失值、重复项或数据范围等。
  • 输出报告:生成数据质量报告,如将检测结果汇总成表格或可视化图表。

4)自动化和监控

将数据质量检测功能集成到数据管道或 ETL 过程中,以实现自动化检测。此外,可以设置监控和警报机制,以便在检测到数据质量问题时及时通知相关人员。

监控原则

1)单表数据量监控

一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值

  • SQL 结果:var 数据量 = select count(*)from 表 where 时间等过滤条件
  • 报警触发条件设置:如果数据量不在[数值下限, 数值上限], 则触发报警
  • 同比增加:如果((本周的数据量 – 上周的数据量)/上周的数据量*100)不在 [比例下线,比例上限],则触发报警
  • 环比增加:如果((今天的数据量 – 昨天的数据量)/昨天的数据量*100)不在 [比例下线,比例上限],则触发报警
  • 报警触发条件设置一定要有。如果没有配置的阈值,不能做监控

日活、周活、月活、留存(日周月)、转化率(日、周、月)GMV(日、周、月)复购率(日周月) 30%

2)单表空值检测

某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内

  • 目标字段:选择要监控的字段,不能选“无”
  • SQL 结果:var 异常数据量 = select count(*) from 表 where 目标字段 is null
  • 单次检测:如果(异常数据量)不在[数值下限, 数值上限],则触发报警

3)单表重复值检测

一个或多个字段是否满足某些规则

  • 目标字段:第一步先正常统计条数;select count(*) form 表;
  • 第二步,去重统计;select count(*) from 表 group by 某个字段
  • 第一步的值和第二步不的值做减法,看是否在上下线阀值之内
  • 单次检测:如果(异常数据量)不在[数值下限, 数值上限], 则触发报警

4)单表值域检测

一个或多个字段没有重复记录

  • 目标字段:选择要监控的字段,支持多选
  • 检测规则:填写“目标字段”要满足的条件。其中$1 表示第一个目标字段,$2 表示第二个目标字段,以此类推。上图中的“检测规则”经过渲染后变为“delivery_fee =delivery_fee_base+delivery_fee_extra”
  • 阈值配置与“空值检测”相同

5)跨表数据量对比

主要针对同步流程,监控两张表的数据量是否一致

  • SQL 结果:count(本表) – count(关联表)
  • 阈值配置与“空值检测”相同

数据治理

大数据高频面试题之数据治理

资产健康度量化模型。

根据数据资产健康管理的关键因素,明确量化积分规则。根据数据基础信息完整度、数据存储和数据计算健康度、数据质量监控规则合理性等,完整计算数据资产健康分。

1)资产健康分基础逻辑

(1)健康分基本设定原则:

健康分采用百分制,100 最高,0 分最低;

健康度以表为最细粒度,每个表都有一个健康分;

个人、业务版块、团队、一级部门、以及集团的健康分以所属表的健康分加权平均;

数据表权重=(表字节数 + 1)再开立方根;空表的权重为 1;

(2)数据表资产健康分:

数据表资产健康分 score =(规范合规健康分*10% + 存储健康分*30% + 计算健康分*30% + 数据质量健康分*15% + 数据安全健康分 * 15%);

2)数据资产特征列表:

大数据高频面试题之数据治理

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/92695.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信