探索天穹数仓自治能力的新实践

探索天穹数仓自治能力的新实践

随着业务和技术的发展,传统数仓模式向数智数仓模式演进,数据治理面临诸多挑战。自治平台采用双引擎策略,注重感知能力、观测能力、诊断能力和优化能力的建设,实现了对数据的精细化管理。例如,通过算子粒度的异常识别、SQL引擎选择和资源优化等功能,提升了SQL计算的效率和性能。

随着大数据技术的不断发展,数据治理的重要性日益凸显,而腾讯天穹自治平台的出现为解决数据治理中的诸多挑战提供了新的思路和方法。

文档首先介绍了大数据自治的背景,随着业务和技术的快速发展,传统数仓模式逐渐向数智数仓模式演进,数据规模不断增长,实时性要求越来越高,计算也变得更加复杂。在这个过程中,数据治理面临着诸多问题,如质量、时效、研发等,需要一种更加智能和高效的方式来管理数据的整个生命周期。

在这里插入图片描述

腾讯天穹自治平台采用双引擎策略,将传统机器学习和智能体相结合,以提升平台的自治能力。在自治能力建设中,感知能力被放在首位,通过对数据相关“进程”粒度的感知,实现了对大数据生态的全面监测。可观测能力的建设使大数据生态的“黑盒”更加透明化,能够支撑到任务、进程粒度的数据上卷和下钻能力,为数据治理提供了更加详细和准确的信息。

在这里插入图片描述

全链路诊断能力的构建是腾讯天穹自治平台的重要特色之一。在大数据生态中,数据计算链路调用复杂,组件间的毛刺、稳定性和异常信息不规范等问题给数据计算带来了挑战。腾讯天穹自治平台通过构建全链路诊断能力,能够对数据计算过程中细粒度的根因进行分析定位,及时发现和解决问题,提高了数据计算的稳定性和可靠性。

算子粒度的异常识别是腾讯天穹自治平台的关键能力之一。针对SQL任务,平台能够做到算子粒度的诊断,包括数据倾斜、数据膨胀、笛卡尔积、暴力扫描、算子是否下推等问题的识别和诊断,从而实现对SQL任务的优化,提高了SQL计算的效率和性能。

在这里插入图片描述

在大数据自治的难点和痛点方面,“数据计算”是日常业务中的高频问题。腾讯天穹自治平台通过数据驱动的资源优化、SQL计算引擎的自动选择和反哺计算引擎等功能,实现了SQL编译过程中的智能优化,提高了SQL计算的效率和性能。

在这里插入图片描述

SQL智能体作为腾讯天穹自治平台的第二引擎,发挥了重要作用。70%以上的任务都是SQL任务,SQL智能体通过多轮对话和问诊模式构建,让SQL从研发到计算更加简单高效。同时,SQL智能体让大模型拥有更强大的SQL领域知识,能够实现智能SQLHint、智能RSS等功能,提升了SQL的执行效率和准确性。

在天穹大数据自治的落地与进展方面,腾讯大数据取得了显著的成果。例如,算子粒度的回放和诊断能够支持约40个算子粒度的问题点诊断,实现了细粒度诊断定位和SQL计算过程清晰的数据流透视;SQL算子粒度的优化通过数据持续打造深度优化的能力,在性能提升方面取得了显著成效,如在Presto上测试Case中,CPU Time节省60%,内存节省90.2GB降至295M;SQL引擎选择算法的上线使公共集群的Presto fallover规避率从之前的70%左右上升至87%左右,presto failover的数目直接减少了50%;作业任务资源优化通过黑盒和白盒相结合的机制,实现了超过50%的内存成本和30%的CPU成本节省;SQL逻辑正确性解析并转换、一定长度的SQL优化以及SQL逻辑简化等功能,都提升了SQL的执行效率和可读性。

在这里插入图片描述

未来,腾讯大数据将继续推进天穹数仓自治能力的建设。在优化计算场景的能力方面,将进一步提升数据治理的效率和质量,为企业的数字化转型提供更加有力的支持。针对“湖仓”的进一步抽象,将使数据治理和智能体运行的模式更加完善,形成一站式的系统化解决方案。通过优化人机接口,将平台自治能力通过多轮对话的方式进行交互,将使数据治理更加智能化和便捷化。

总的来说,腾讯大数据在天穹数仓自治能力建设方面的实践为我们展示了大数据治理的新方向。通过智能技术的应用,实现了对数据的精细化管理和优化,提高了数据的质量和价值。同时,腾讯大数据的经验也为其他企业提供了借鉴,推动了整个行业的数据治理水平的提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3280430.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

这本vue3编译原理开源电子书,初中级前端竟然都能看懂

前言 众所周知vue提供了很多黑魔法,比如单文件组件(SFC)、指令、宏函数、css scoped等。这些都是vue提供的开箱即用的功能,大家平时用这些黑魔法的时候有没有疑惑过一些疑问呢。 我们每天写的vue代码一般都是写在*.vue文件中,但是浏览器却只…

JavaSE面向对象进阶

static 介绍 static表示静态,是Java中的一个修饰符可以修饰成员方法、成员变量 被static修饰的成员变量,叫做静态变量被static修饰的成员方法,叫做静态方法 静态变量 特点:被该类所有对象共享 调用方式: 类名调用&am…

聚芯前行|美格智能亮相2024 ChinaJoy骁龙主题馆,展现数字娱乐的无限可能

7月26日,2024中国国际数码互动娱乐展览会(ChinaJoy)在上海新国际博览中心正式拉开帷幕。美格智能携手高通公司亮相骁龙主题馆,以5G-A毫米波MiFi解决方案及高算力AI模组,共同为广大玩家和粉丝打造了一个前沿技术赋能、充…

27-《木芙蓉》

木芙蓉 木芙蓉(Hibiscus mutabilis Linn.)又名芙蓉花、拒霜花、木莲、地芙蓉、华木,原产中国。其喜温暖、湿润环境,不耐寒,忌干旱,耐水湿。对土壤要求不高,瘠薄土地亦可生长。为锦葵科、木槿属落…

校园气象站

TH-XQ3校园气象站是一个用于测量和记录气象数据的设备,可以帮助学生和教师更好地了解校园的气候情况。以下是校园气象站的使用方法: 安装:校园气象站通常需要安装在一个开阔的区域,远离建筑物和树木等遮挡物。确保气象站稳固地安装…

中文网址导航模版HaoWa1.3.1/模版网站wordpress导航主题

HaoWa v1.3.1由挖主题开发的一款网址导航类主题。 HaoWA主题除主体导航列表外,对主题所需的小模块都进行了开放式的HTML编辑器形式的功能配置,同时预留出默认的代码结构,方便大家在现有的代码结构上进行功能调整。 同时加入了字体图标Font …

Bus Number

https://codeforces.com/problemset/problem/991/E 假想一下,如果我们知道m序列的长度是不是可以计算数量 这个好算,但是好像多了一点数,因为不能有前导零,所以我们要减去有前导零的部分 最后得到 那么我们只需要枚举数量即可&am…

【C#】 使用GDI+获取两个多边形区域相交、非相交区域

一、使用GDI获取两个多边形区域相交、非相交区域 在 C# 中使用 GDI(Graphics Device Interface Plus)处理图形时,你可以使用 System.Drawing 和 System.Drawing.Drawing2D 命名空间中的类来操作区域(Region)。下面是一…

Spark累加器(Accumulator)

1.累加器类型: 数值累加器:用于计算总和、计数等。布尔累加器:用于计算满足特定条件的次数。自定义累加器:允许定义复杂的聚合逻辑和数据结构。集合累加器:用于计算唯一元素的数量,处理去重操作。 在 Spar…

Study--Oracle-07-ASM常用操作(五)

一、向磁盘组添加磁盘 1、查看系统中可用的磁盘 set lines 150; col name for a35; col path for a35; select group_number,path, state, name, total_mb, free_mb from v$asm_disk; 2、磁盘组操作 创建磁盘组 create DISKGROUP DATADGV2 EXTERNAL REDUNDANCY DISK /dev/…

解决Qt3D程序场景中无法显示创建的立体图形?

有的新手在创建Qt3D程序时,因为不熟练,导致经常遇到无法显示3D图形的情况。 原因其实也简单,就是设置的摄像机的位置不对,或者压根没有设置摄像机。 // CameraQt3DRender::QCamera *cameraEntity view.camera();cameraEntity-&g…

Java二十三种设计模式-外观模式(9/23)

外观模式:简化复杂系统的统一接口 引言 外观模式(Facade Pattern)是一种结构型设计模式,它为子系统中的一组接口提供一个统一的高层接口。外观模式定义了一个可以与复杂子系统交互的简化接口,使得子系统更加易于使用…

Android 10.0 Launcher3仿ios的folder文件夹widget功能实现二

1.前言 在10.0的系统ROM开发中,在进行一些系统Launcher3定制功能开发中,需要实现folder文件夹widget的功能,由于launcher3 默认不支持folder跨行显示,所以就需要借助自定义的widget小部件功能来实现相关功能,接下来分析实现相关功能 2.Launcher3仿ios的folder文件夹widge…

jQuery前端网页制作

1、Jquery的概述 1.1JavaScript库 JavaScript 高级程序设计(特别是对浏览器差异的复杂处理),通常很困难也很耗时。 为了应对这些调整,许多的 JavaScript (helper) 库应运而生。 这些 JavaScript 库常被称为 JavaScript 框架。 市面上一些广受欢迎的 JavaScript 框架:…

大厂linux面试题攻略五之数据库管理

一、数据库管理-MySQL语句 0.MySQL基本语句: 1.SQL语句-增 创建xxx用户: mysql>create user xxx % indentified by 123456; xxx表示用户名 %b表示该用户用来连接数据库的方式(远程或本地连接) indentified by 123456设置密码…

Reranker技术

文章目录 Reranker技术0. 什么是RAG1. 什么是Reranker?2. Reranker在RAG技术中的应用3.使用 Reranker 的优缺点4.总结参考:知乎 Reranker技术 0. 什么是RAG 基础 RAG 的操作流程大致如下:首先,你需要将文本切分成小段&#xff0…

centos7 docker空间不足

今天在使用docker安装镜像的时候,出现报错 查看原因,发现是分区空间不足导致的 所以考虑进行扩容 首先在vmware扩容并没有生效 因为只是扩展的虚拟空间,并不支持扩展分区大小,下面对分区进行扩容 参考: 分区扩容 主…

细说MCU的DAC改变输出信号频率的方法

目录 一、参考硬件 二、改变输出信号的频率 1.建立新工程 2.配置TIM3 三、代码修改 四、查看结果 一、参考硬件 本项目依赖的软件和硬件工程参考本文作者写的文章:细说MCU的DAC1和DAC2各自输出一通道模拟信号的方法-CSDN博客 https://wenchm.blog.csdn.net/a…

【初阶数据结构篇】二叉树算法题

文章目录 二叉树算法题前言单值二叉树相同的树对称二叉树另一棵树的子树二叉树的前序遍历 二叉树算法题 前言 本篇的算法题涉及到链式结构二叉树的实现方法可参考:二叉链实现方法上篇二叉链实现方法下篇 单值二叉树 如果二叉树每个节点都具有相同的值,…