什么是数据血缘?怎么做好数据血缘分析?

目录

一、什么是数据血缘?

二、数据血缘关系的四大特征

三、数据血缘分析怎么做?

1.定义元数据模型

2.收集元数据

3.建立血缘关系模型

4.追踪数据流动

5.可视化分析

6.集成到数据治理中

7.持续更新和维护

8.应用分析结果

四、数据血缘技术趋势

1.通用的血缘解析能力

2.非侵入式的非 SQL 类型血缘采集

3.时序血缘


什么是数据血缘?

数据血缘(Data Lineage),又称为数据血统、数据起源、数据谱系,是指在数据的全生命周期中,从数据的产生、处理、加工、融合、流转到最终消亡,数据之间自然形成的一种类似人类血缘的关联关系。简单来说,就是数据之间的上下游来源去向关系——数据从哪里来,到哪里去。数据血缘不仅涉及数据的物理流动,还包括数据的逻辑关系和转换过程。

数据血缘对于理解数据的来源、加工方式、映射关系以及数据出口至关重要。它有助于企业更好地管理数据资产,确保数据质量和安全,同时也有助于数据问题的排查和解决。

二、数据血缘关系的四大特征

归属性:一般来说,特定的数据归属于特定的组织或者个人。

多源性:同一个数据可以有多个来源(多个父亲);一个数据也可以是多个数据经过加工生成的,而且这种加工过程可以是多个。

可追溯性:数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。

层次性:数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度的描述信息形成了数据的层次。

、数据血缘分析怎么做?

数据血缘分析是元数据管理的重要应用之一,其过程可以大致分为以下几个步骤:

1.定义元数据模型

确定需要管理的元数据类型,如数据库表、字段、ETL过程、数据仓库模型等。定义元数据的属性,包括名称、描述、数据类型、来源、去向等。

2.收集元数据

从各种数据源(如数据库、数据仓库、ETL工具、数据湖等)中提取元数据。利用元数据抽取工具或服务,自动化地收集元数据。

3.建立血缘关系模型

确定血缘关系的类型,如上游/下游关系、父子关系、依赖关系等。设计血缘关系图模型,以图形化的方式表示元数据之间的关系。

4.追踪数据流动

实现算法来追踪元数据的流动路径,确定从一个数据元素到另一个数据元素的完整路径。使用图数据库或图处理框架(如Neo4j、Apache Giraph、Spark GraphX等)来存储和查询血缘关系。

5.可视化分析

利用可视化工具和技术(如D3.js、ECharts、Tableau等)来展示血缘关系图。提供交互式界面,允许用户探索和分析血缘关系。

6.集成到数据治理中

将血缘关系分析作为数据治理的一个重要组成部分。利用血缘关系分析结果来制定数据质量规则、数据安全策略和数据保留政策。

7.持续更新和维护

随着数据环境的变化(如新数据源的加入、数据流程的修改等),持续更新血缘关系图。监控数据血缘关系的准确性和完整性,确保分析结果的可靠性。

8.应用分析结果

利用分析结果进行数据变更影响分析,评估数据质量问题和数据安全事件对相关数据的潜在影响。根据分析结果优化数据流程,提升数据使用效率和质量。

四、数据血缘技术趋势

在业界,血缘的发展趋势主要关注以下几点:

1.通用的血缘解析能力

血缘是元数据平台的核心能力,很多时候元数据平台会接入多样化元数据,这些业务元数据也会依赖血缘不同的血缘解析能力,现在的解析往往是依赖各个引擎团队来支持的,但是其实在更加广泛的场景,我们需要有一个兜底的方案来提供一个更通用的血缘解析能力,所以未来我们会提供标准 SQL 解析引擎,以达到通用解析的目的。

2.非侵入式的非 SQL 类型血缘采集

除了可解析的 SQL 或可配置的任务,日常还会涉及到代码类型的任务,如 JAR 任务。JAR 任务现在的解析方式是根据一些埋点信息或者用户录入的上下游信息去完成血缘的收集,这部分未来会出现一种非侵入式的非 SQL 类型血缘采集的技术,比如 Flink 或者 Spark 的 JAR 任务,我们可以在任务运行时拿到这些血缘,来丰富平台侧血缘的数据。

3.时序血缘

目前血缘信息图数据库相当于是对当前血缘拓扑的一次快照,其实血缘是会变化的,比如用户在修改一个任务的时候,上线任务变更或是修改表结构,然后对应的修改自己生产任务的时候,涉及到时序的概念,这个时序可以方便我们去追溯一些任务的变化,支持我们去做事前事后影响分析,所以时序血缘如何在图数据库中引入也是未来的一个趋势。

厘清数据的血缘关系,就是厘清数据之间的上下游来源去向关系。企业构建全面准确的全链路数据血缘视图,就可以找出数据上下游的应用方,加快数据部门对业务数据报错的debug速度,降低企业决策的失误;也可以及时对长期无用的数据库或报表进行下线处理,节省数据管理成本。

FineDataLink,它专注于帮助企业进行数据集成和同步,确保数据的高效流动和一致性。通过FineDataLink,企业能够将来自不同数据源的数据整合在一起,建立起完整的数据血缘关系。这样,企业可以更好地理解数据的来源、变化和流向,梳理和管理数据血缘关系,提高数据质量和可信度。

了解更多数据仓库与数据集成关干货内容请关注>>>FineDataLink官网

免费试用、获取更多信息,点击了解更多>>> 体验FDL功能
往期推荐:
为什么要读写分离?如何实现业务系统读写分离?-CSDN博客
帆软职业资格认证 FCA-FineDataLink上线公告-CSDN博客
【大数据】什么是数据对接?(附方法及工具介绍)-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3281489.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

测试环境领域到测试环境产品

作者:攻心 去年之前,阿里巴巴的淘天集团测试环境是以领域方式运作:不局限测试环境治理本身,从测试模式方法论及用好测试环境思路引领集团测试环境治理。领域运作最难的是“统一思想”。业务进一步细分调整后,测试环境治…

修改所属用户/用户组——chown

目录 (1)修改所属用户 (2)修改所属用户组 (3)修改所属用户和用户组 (4) 选项 -R 使用 chown 可以修改文件/文件夹的所属用户,所属用户组; 当然与 chmod …

数字人直播系统搭建能力评测!3招教你快速摸清源码厂商的真实实力?

随着数字人直播的应用场景不断拓展和应用频率的持续升高,其所蕴含着的市场前景和收益潜力逐渐显现,连带着数字人直播系统搭建的热度也迎来了新的高潮。在此背景下,作为非科班和研发资源有限的创业者们主要的入局途径,各大数字人源…

C++原创系列创斯人工智能Trons10.0.135.7911最新概念版本预告及思路总结

这次更新删掉了以前的所有代码,重新编写,只因我有了新的思路,以前的思路太过于原始,我的思路中的聊天功能如下 这只是聊天函数的原理,聊天函数对一句话的回答有5个到10个,在主函数中多次运行这个函数&#…

ruoyi vue3版本web端隐藏侧边栏及其顶部导航栏

做项目时有个需求是在web端里面嵌入一个页面全屏的大屏,但若依web自带的侧边栏导航和顶部导航一时还不知道怎么隐藏起来,于是在网上到处查找资料,终于,还是在若依的gitee文档中发现了线索 怎么隐藏侧边栏和顶部导航栏实现完全的全…

<数据集>工程机械识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:6338张 标注数量(xml文件个数):6338 标注数量(txt文件个数):6338 标注类别数:7 标注类别名称:[Excavator, Loader, Dumb_truck, Mobile_crane, Roller, Bull_dozer, …

微信小程序之使用智能对话服务,客服回复的跳转小程序指定页面链接无效

在微信小程序中使用了微信智能对话服务&#xff0c;客服回复的是小程序指定页面的链接&#xff0c;无法正确跳转&#xff0c;而是返回到进入客服时的页面去了 解决方案&#xff1a; 需在小程序的客服组件 button 上添加 bindcontact 监听事件即可 <movable-area class"…

【ROS 最简单教程 007/300】ROS 架构 - 目录解析 增删改查 计算图

⭐ 工作空间目录解析如下 &#xff1a; WorkSpace --- 自定义的工作空间|--- build:编译空间&#xff0c;用于存放 CMake 和 catkin的 缓存信息、配置信息和其他中间文件|--- devel:开发空间&#xff0c;用于存放编译后生成的目标文件&#xff0c;包括头文件、动态&静态链接…

MySQL基础练习题14-产品销售分析1

题目&#xff1a;获取 Sales 表中所有 sale_id 对应的 product_name 以及该产品的所有 year 和 price 。 准备数据 分析数据 题目&#xff1a;获取 Sales 表中所有 sale_id 对应的 product_name 以及该产品的所有 year 和 price 。 准备数据 ## 创建库 create database db;…

DNS查询服务器的基本流程以及https的加密过程

DNS查询服务器的基本流程&#xff0c;能画出图更好&#xff0c;并说明为什么DNS查询为什么不直接从单一服务器查询ip&#xff0c;而是要经过多次查询&#xff0c;多次查询不会增加开销么&#xff08;即DNS多级查询的优点&#xff09;&#xff1f; 用户发起请求&#xff1a;用户…

Linux 修改磁盘挂载的目录路径

确认新路径地址&#xff0c;能找到&#xff0c;或者mkdir新创建新路径&#xff0c;考虑权限 #查看当前挂载情况 df -h 卸载已经挂载的目录 umount /media/vdtest #挂载新目录 mount /dev/vdb /mnt #查询/dev/vdb的UUID blkid /dev/vdb #修改 fstab文件实现开机自动挂载&…

Spring源码解析(25)之AOP的BeanDefinitiion准备

一、AOP代码准备 aop.xml文件准备&#xff0c;代码如下&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.springframework.org/schema/beans"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance…

汇川技术|CANlink、CANopen、Profibus-DP网络编辑器的使用

哈喽&#xff0c;你好啊&#xff0c;我是雷工&#xff01; 本节学习CANlink、CANopen、Profibus-DP网络编辑器的使用。 以下为学习笔记。 01 CANlink编辑器 在AC810的【网络组态】中未看到CANlink主站的功能&#xff0c;所以先简单了解&#xff0c;等具体使用时再具体查看。 …

2025上海国际显示技术及应用创展览会

DIC EXPO2025中国&#xff08;上海&#xff09;国际显示技术及应用创展览会 时间&#xff1a;2025年8月7-9日 地点&#xff1a;上海新国际博览中心 主办单位&#xff1a; 中国光学光电子行业协会液晶分会 联合主办&#xff1a; 中国电子材料行业协会 中国电子商会 韩国…

【iOS】——持久化

在iOS开发中&#xff0c;数据持久化是非常重要的&#xff0c;因为它允许应用程序在不同会话之间保存用户数据、设置、偏好等信息。 为什么数据持久化 数据保存&#xff1a; 目的&#xff1a;将应用程序中的数据保存到非易失性存储中&#xff0c;以便在应用程序关闭或重启后仍…

对零基础想转行网络安全同学的一点建议

最近有同学在后台留言&#xff0c;0基础怎么学网络安全&#xff1f;0基础可以转行做网络安全吗&#xff1f;以前也碰到过类似的问题&#xff0c;想了想&#xff0c;今天简单写一下。 我的回答是先了解&#xff0c;再入行。 具体怎么做呢&#xff1f; 首先&#xff0c;你要确…

WIFI7在游戏领域引发的变革

随着无线技术的快速进步&#xff0c;游戏体验正变得愈加丰富、复杂和逼真。现在最新的WIFI 7技术将带来新的飞跃&#xff0c;不仅有望重新定义网络游戏的体验&#xff0c;还有可能彻底革新整个游戏产业。可以想象一下&#xff0c;在未来&#xff0c;游戏世界不再有延迟和连接中…

VirtualFlow案例 | 油箱燃油晃动模拟,高效分析管路及油箱内油面变化

在探索流体行为模拟的领域&#xff0c;CFD技术为油箱燃油晃动模拟带来了革命性的转变。通过高精度的数值模拟&#xff0c;它不仅揭示了燃油在不同工况下的复杂动态&#xff0c;还为油箱设计的优化提供了关键洞察。这一技术在航空航天、汽车制造、船舶与海洋工程等多个行业中展现…

阿里云SSO和RAM权限控制及TLS安全设计实践

阿里云SSO和RAM概述 随着企业上云的趋势越来越明显&#xff0c;阿里云提供的各类服务成为了许多企业的首选。为了确保云上资源的安全管理&#xff0c;阿里云提供了单点登录&#xff08;SSO&#xff09;和资源访问管理&#xff08;RAM&#xff09;两种权限控制机制。 企业在使…

深入浅出消息队列----【延迟消息的实现原理】

深入浅出消息队列----【延迟消息的实现原理】 粗说 RocketMQ 的设计细说 RocketMQ 的设计这样实现是否有什么问题&#xff1f; 本文仅是文章笔记&#xff0c;整理了原文章中重要的知识点、记录了个人的看法 文章来源&#xff1a;编程导航-鱼皮【yes哥深入浅出消息队列专栏】 粗…