Runaway Queries 管理:提升 TiDB 稳定性的智能引擎

在数字化系统扮演重要角色的今天,数据库稳定性成为企业关注的核心问题。对于重要计算机系统而言,突发的性能下降可能对业务造成不可估量的损失。为了稳定数据库性能,用户可以从管理流程入手规范变更的测试,或者利用产品手段减少预期外的变化。然而,这仍旧无法完全规避突发的SQL性能问题,其中的原因包括但不仅限于:

  1. 数据量和数据分布剧烈变化,从前被验证过的执行计划可能变得效率更低。
  2. 数据库中的查询变得越来越复杂,优化器对执行计划的选择存在不可控因素。
  3. 频繁的业务更新给测试带来巨大压力,未经充分验证的 SQL 有潜在的性能问题 。

对于一些对延迟非常敏感的应用而言,这些潜在问题有可能对业务造成不可估量的损失。 如何降低这类不可控的突发问题对业务的影响,是摆在每个管理者面前的难题。

做为资源管控的一部分,TiDB 在 7.2.0 引入 Runaway Queries 管理,并持续增强,旨在通过系统化的手段缓解上述难题。

本文将从从适用场景、实现原理等角度详细介绍 TiDB 的 Runaway Queries 管理功能,并通过一个示例展示其在系统中的作用。

什么是 Runaway Queries

Runaway Queries 是指执行时间或消耗资源超出预期的查询,在运行时间和资源消耗上有显著特征。

Runaway Queries 管理旨在提供一种高效、可控、自动化的资源识别和管控机制,以降低突发 SQL 性能问题带来的负面影响,保护复杂工作负载下系统的稳定性,让 TiDB 更加可靠。

Runaway Queries 管理适用哪些场景

● 为了保障重要系统的服务质量,需要能够自动识别并处理异常 SQL 性能问题。

● 当遇到突发 SQL 性能问题,但又没有立即有效的修复手段时,希望临时缓解其影响。

● 当已知个别 SQL 有安全或性能问题,希望加入黑名单或对其进行限流。

Runaway Queries 管理能做什么

Runaway Queries 管理主要提供两个重要能力,即对查询的 “识别” 和 “处置” 。

3.1 查询的识别

TiDB 资源管控模块提供 两类 识别方式

● 动态识别 - 根据运行时规则识别 。指根据 SQL 实际运行指标自动识别 (通过 resource group 定义),目前支持利用 EXEC_ELAPSED 设置实际执行时间,即当查询运行时间超过 EXEC_ELAPSED 的定义时,这个查询会被识别为 Runaway Query。比如:

ALTER RESOURCE GROUP default QUERY_LIMIT=(EXEC_ELAPSED='5s', ACTION=KILL);

○ 上面命令执行的效果是, 属于 default 资源组的查询运行超过 5 秒钟,那么这个查询会被识别为 Runaway Query。 (识别规则的生效范围为“资源组”,如果你没有创建任何资源组,那么可以修改 default 资源组的规则将会对全局有效。 )

○ TiDB 特意提供了每个资源组 Query Max Duration 的监控指标,能够查看一段时间内运行时间最长的查询,这个指标能够协助设置一个合理的 EXEC_ELAPSED .

Resource Group 的定义同时支持将识别到的 SQL 特征同时加入监控列表特定一段时间,即一段时间内,资源管控直接识别 SQL 特征而无需用规则识别。相当于将 SQL 放入监控名单,并阶段性检查是否它已经恢复健康。

ALTER RESOURCE GROUP default QUERY_LIMIT=(EXEC_ELAPSED='5s', ACTION=KILL, WATCH=SIMILAR DURATION='10m');

○ 上述例子里,我们向配置里加入了 WATCH 规则, 那么和被识别成 Runaway Query 查询类似的查询(比如只有过滤值不同),在接下来的 10 分钟里,会直接执行对应操作,而不会再等待 5 秒。10 分钟之后,如果这个查询的性能已经恢复,则不再对其进行限制;如果没有恢复,则再次对这个查询监控 10 分钟。

● 静态识别 - 根据 SQL 特征识别 。自动筛选规则并不能精确的识别出所有有问题的查询,因此我们加入了对监控列表的人工管理。通过 query watch 命令定义 SQL 特征识别及处置规则, 能够达到数据库查询黑名单的作用。目前已支持的 SQL 特征的设置:

○ SQL Text : 根据 SQL 文本做精确匹配。

○ SQL Digest : 根据 SQL Digest 匹配模式相同的查询。比如 select c from t1 where a=1 和 select c from t1 where a=2 拥有相同的 Digest。

○ Plan Digest : 根据 Plan Digest 匹配执行计划相同的查询。相同 SQL 可能存在多个执行计划,造成性能问题的往往是其中少部分执行计划。

SQL 特征可以通过“慢查询”等方式采集,这里是一个“慢查询”示例

SELECT count(1)    FROM  sbtest.sbtest1 AS S1        ,sbtest.sbtest2 AS S2        ,sbtest.sbtest3 AS S3  WHERE S1.c=S2.c     AND S1.c=S3.c;
# Time: 2023-09-19T17:16:56.640436+08:00
...
# Digest: d3c7846bb8f6b817ae395db30eadedec57af08f7983466f68db93d9ce1ac5872
...
# Plan_digest: 41fee801f07e06aa4aba4c0142ce4c624e8dc932c9e14d49854b8ce57366b443

用户可以根据经验选择其中一种识别方式,比如下面例子里用 SQL DIGEST 子句将类似的查询加入监控队列, 那么和此查询类似的查询会被识别并做出对应的处置。

mysql> QUERY WATCH ADD ACTION KILL SQL DIGEST 'd3c7846bb8f6b817ae395db30eadedec57af08f7983466f68db93d9ce1ac5872';
Query OK, 0 rows affected (0.01 sec)
​
mysql> SELECT * FROM INFORMATION_SCHEMA.RUNAWAY_WATCHES ORDER BY id\G
*************************** 1. row ***************************ID: 54
RESOURCE_GROUP_NAME: defaultSTART_TIME: 2023-09-20 01:59:14END_TIME: UNLIMITEDWATCH: SimilarWATCH_TEXT: d3c7846bb8f6b817ae395db30eadedec57af08f7983466f68db93d9ce1ac5872SOURCE: manualACTION: Kill
1 row in set (0.04 sec)

3.2 查询的处置

处置 , 指被识别到的 Runaway Queries 要如何处理。目前支持以下几个处理方式。

● DRYRUN : 仅识别不做处理,在日志和对应视图中显示。 初期配置的时候,可以利用 DRYRUN 试运行一段时间,检测是否有误判的风险。

● COOLDOWN : 将查询置于资源组的最低优先级,限制其处理速度。

● KILL : 终止被识别的查询,防止其进一步影响数据库性能。

○ 在 7.5.0 版本, COOLDOWN 在复杂场景下的限制作用有限,如果对服务质量要求比较高,则推荐设置 KILL

在这个例子里,被识别为 Runaway Queries 的查询会被自动取消。

ALTER RESOURCE GROUP default QUERY_LIMIT=(EXEC_ELAPSED='5s', ACTION=KILL, WATCH=SIMILAR DURATION='10m');

3.3 历史记录及观测性

以上所有的设置,及识别和处置的历史记录,TiDB 提供了一组系统表用于查询:

● INFORMATION_SCHEMA.RESOURCE_GROUPS : 资源组定义,包括对 Runaway Queries 识别规则和处置设置。

● INFORMATION_SCHEMA.RUNAWAY_WATCHES : 监控队列中的规则。

● MYSQL.TIDB_RUNAWAY_QUERIES : 记录被识别和处置的 Runaway Queries 历史记录。

运行示例

  1. 正常负载下, 整体 QPS 接近 11k , P999 在 50ms 上下。
  2. 出现一个异常查询,每秒提交一次,运行时间在 3~8 秒, QPS 从 11K 急剧下降至 3K 左右,P999 由 60ms 增加到 200ms 。
  3. 这时我们尝试向 default 资源组加入一条规则,自动杀掉运行时间超过 1 秒的查询。QPS 回升至 7.5k , P999 下降。
mysql> alter resource group default QUERY_LIMIT=(EXEC_ELAPSED='1s', ACTION=KILL);
Query OK, 0 rows affected (1.02 sec)
​
mysql> SELECT * FROM information_schema.resource_groups;
+---------+------------+----------+-----------+--------------------------------+------------+
| NAME    | RU_PER_SEC | PRIORITY | BURSTABLE | QUERY_LIMIT                    | BACKGROUND |
+---------+------------+----------+-----------+--------------------------------+------------+
| default | UNLIMITED  | MEDIUM   | YES       | EXEC_ELAPSED='1s', ACTION=KILL | NULL       |
+---------+------------+----------+-----------+--------------------------------+------------+
1 row in set (0.01 sec)

通过系统表 mysql.tidb_runaway_queries ,我们看到 Runaway 管理开始介入,有问题的 SQL 被持续标记并处理。

mysql> select * from mysql.tidb_runaway_queries limit 1 \G
*************************** 1. row ***************************
resource_group_name: defaulttime: 2023-09-19 15:18:10match_type: identifyaction: killoriginal_sql: SELECT count(1)FROM  sbtest.sbtest1 AS S1,sbtest.sbtest2 AS S2,sbtest.sbtest3 AS S3WHERE S1.c=S2.cAND S1.c=S3.cplan_digest: 41fee801f07e06aa4aba4c0142ce4c624e8dc932c9e14d49854b8ce57366b443tidb_server: 127.0.0.1:4000
​
​
mysql> select count(*) from mysql.tidb_runaway_queries;
+----------+
| count(*) |
+----------+
|       56 |
+----------+
1 row in set (0.02 sec)

这里 QPS 仍没有回升至原先的水平, 因为虽然会把运行超过 1 秒的查询杀掉,但每个查询仍旧都会运行 1 秒,对系统仍旧造成消耗 。

  1. 修改资源组规则,把符合 runaway 规则的查询的文本,加入到监控列表中,时长为 5 分钟。 这意味着,如果文本匹配到被标记为 runaway 的查询,那么会被直接杀掉,不再等待 1 秒;而每隔 5 分钟,TiDB 会自动放开限制,检查一下查询的性能是否恢复。如果恢复,则不再对此查询进行取消处理 。这时系统的 QPS 和 P999 恢复到阶段 1 的水平。
mysql> alter resource group default QUERY_LIMIT=(EXEC_ELAPSED='1s', ACTION=KILL, WATCH=EXACT DURATION='5m');
Query OK, 0 rows affected (0.53 sec)
​
mysql> SELECT * FROM information_schema.resource_groups;
+---------+------------+----------+-----------+-------------------------------------------------------------+------------+
| NAME    | RU_PER_SEC | PRIORITY | BURSTABLE | QUERY_LIMIT                                                 | BACKGROUND |
+---------+------------+----------+-----------+-------------------------------------------------------------+------------+
| default | UNLIMITED  | MEDIUM   | YES       | EXEC_ELAPSED='1s', ACTION=KILL, WATCH=EXACT DURATION='5m0s' | NULL       |
+---------+------------+----------+-----------+-------------------------------------------------------------+------------+
1 row in set (0.00 sec)

查看视图,有一条 watch 规则生成:

mysql> SELECT * FROM INFORMATION_SCHEMA.RUNAWAY_WATCHES ORDER BY id\G
*************************** 1. row ***************************ID: 50
RESOURCE_GROUP_NAME: defaultSTART_TIME: 2023-09-19 16:58:20END_TIME: 2023-09-19 17:03:20WATCH: ExactWATCH_TEXT: SELECT count(1)FROM  sbtest.sbtest1 AS S1,sbtest.sbtest2 AS S2,sbtest.sbtest3 AS S3WHERE S1.c=S2.cAND S1.c=S3.cSOURCE: 127.0.0.1:4000ACTION: Kill
1 row in set (0.01 sec)

有问题的查询被执行时会直接退出,告知已经被监控隔离:

ERROR 8254 (HY000): Quarantined and interrupted because of being in runaway watch list

至此,我们看到, 通过对异常查询的自动识别和监测,能够有效限制个别 SQL 的资源消耗, 缓解其对整体性能的影响。

在上述示例中,即使没有设置资源组对查询的自动识别,在出现 SQL 性能问题时,我们仍可以通过“慢日志”或者系统表找出问题查询的“特征”,用 QUERY WATCH 手工将查询加入监视列表,达到设置黑名单的效果。

展望

TiDB Runaway Queries 管理的一个显著优势是提升了用户体验。通过自动化和手动管理的结合,用户能够更轻松地监控和控制数据库中的 Runaway Queries,避免它们对正常业务的干扰。

未来, TiDB 会持续增强管理 Runaway Queries 的能力, 支持更多且复杂的识别规则, 增加更丰富的处理手段,全面提升可观测性,通过引入图形化管理的方式进一步提升用户体验 , 为 TiDB 迈向企业级数据库平台保驾护航。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2805270.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

基于JAVA的房屋出售出租系统 开源项目

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 房屋销售模块2.2 房屋出租模块2.3 预定意向模块2.4 交易订单模块 三、系统展示四、核心代码4.1 查询房屋求租单4.2 查询卖家的房屋求购单4.3 出租意向预定4.4 出租单支付4.5 查询买家房屋销售交易单 五、免责说明 一、摘…

SQL 中如何实现多表关联查询?

阅读本文之前请参阅----MySQL 数据库安装教程详解(linux系统和windows系统) 在SQL中,多表关联查询是通过使用JOIN操作来实现的,它允许你从两个或多个表中根据相关列的值来检索数据。以下是几种常见的JOIN类型: …

docker镜像和容器的关系

背景 镜像和容器都是docker中非常重要的概念,镜像是静态的,而容器是动态的,两者的关系就类似类和实例的关系,本文就来分析下两者的关联 镜像和容器 我们知道镜像是存放在仓库中的静态的文件,而容器是运行中的进程&a…

【Python_Zebra斑马打印机编程学习笔记(二)】基于BarTender将btw文件转换为zpl文件

基于BarTender将btw文件转换为zpl文件 基于BarTender将btw文件转换为zpl文件前言一、BarTender1、BarTender 介绍2、BarTender 安装 二、导出 ZPL 文件1、导出 ZPL 文件步骤2、Zebra 打印机驱动安装 基于BarTender将btw文件转换为zpl文件 前言 本文介绍如何基于 BarTender 软…

Android LinearLayout 如何让子元素靠下居中对齐 center bottom

Android LinearLayout 如何让子元素靠下居中对齐 center bottom 首先你需要知道两个知识点: android:layout_gravity 指定的是当前元素在父元素中的位置android: gravity 指定的是当前元素子元素的排布位置 比如: 有这么一个布局,我需要让…

TESTLINK 测试用例数据结构解析

一、node_types 测试组件信息表 我们查询表 select * from testlink.node_types; 得到如下结果 二、nodes_hierarchy 测试用例目录层次表 我们以下图的项目为例,来讲解 1、测试项目 首先,我们有个Train的项目,存在表testprojects中&#…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 2月24日,星期六

每天一分钟,知晓天下事! 2024年2月24日 星期六 农历正月十五 元宵节 1、 快递新规3月1日起施行,快递不得擅自放服务站,违者最高罚3万元。 2、 人社部:将外卖小哥、网约车司机等新就业形态劳动者纳入最低工资保障。 3…

防御保护--VPN

目录 VPN的概述 VPN的分类 VPN的核心技术 --- 隧道技术 VPN其他常用技术 VPN的概述 VPN --- 虚拟专用网 --- 一般指依靠ISP或者其他NSP,也可以是企业自身,提供的一条虚拟网 络专线。这个虚拟的专线是逻辑上的,而不是物理上的,所…

【深度学习】SSD 神经网络:彻底改变目标检测

一、说明 Single Shot MultiBox Detector (SSD) 是一项关键创新,尤其是在物体检测领域。在 SSD 出现之前,对象检测主要通过两阶段过程执行,首先识别感兴趣的区域,然后将这些区域分类为对象类别。这种方法虽…

C#,计算几何,计算机图形学(Computer Graphics)洪水填充算法(Flood Fill Algorithm)与源代码

1 泛洪填充算法(Flood Fill Algorithm) 泛洪填充算法(Flood Fill Algorithm) ,又称洪水填充算法,是在很多图形绘制软件中常用的填充算法,最熟悉不过就是 windows 自带画图软件的油漆桶功能。 2 源程序 using System; using System.Collecti…

危险!Wyze 摄像头安全漏洞致1.3万用户隐私遭窥探

最近,一则关于 Wyze 摄像头再次出现安全漏洞的新闻引起了人们的广泛关注。据报道,该安全漏洞导致约1.3万用户的摄像头受到了未经授权的访问,使得这些用户的隐私信息遭到了窥视。这一事件再次引发了人们对网络安全的关注和讨论。 网络安全不仅…

01VScode开发stm32环境搭建

title: VScode开发stm32环境搭建 tags: STM32vscode 1.准备工作 1.下载并安装VSCODE 在百度上搜索vscode记住一定要是官方的 不然你自己就是在给自己下毒2345全来了 打红圈一定要有不然就是在垃圾网站上下的 VSCode下载链接 选一个适合你的      安装正常流程走就行不再…

【Linux进阶之路】Socket —— “UDP“ “TCP“

文章目录 一、再识网络1. 端口号2. 网络字节序列3.TCP 与 UDP 二、套接字1.sockaddr结构2.UDP1.server端1.1 构造函数1.2 Init1.3 Run 2.客户端1.Linux2.Windows 3.TCP1. 基本接口2. 客户端3. 服务端1.版本12.版本23.版本34.版本4 三、守护进程尾序 一、再识网络 1. 端口号 在…

【Java程序设计】【C00279】基于Springboot的智慧外贸平台(有论文)

基于Springboot的智慧外贸平台(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的智慧外贸平台 本系统分为系统功能模块、管理员功能模块、买家功能模块以及商家功能模块。 系统功能模块:在平台首页可以…

【BUG】解决java.util.Date and java.lang.String

报错解析与解决方案:Java中处理Date类型与String比较引发的IllegalArgumentException 前言 在日常的开发过程中,我们可能会遇到各种类型转换和比较相关的异常。今天,我在调用接口时就遭遇了这样一个问题: 错误描述 在执行SQL查…

力扣精选100道——外观数列(模拟专题)

外观数列算法题链接 🚩了解题意 该题的下面充分的给你说明了这个题目的意思。 3 3 2 2 2 5 1 我们根据我们正常读的顺序读 俩个3 三个2 一个5 一个1 连起来就是 2 3 3 2 1 5 1 这就是最终输出的字符串。 题目开头说了,我们最初是 1开始读…

BUUCTF crypto做题记录(8)新手向

一、密码学心声 得到信息如下图 背景故事没什么信息,主要看曲谱。大概率不会让我们涉及与音乐有关的内容,题目中也提示说答案是一串字符串,所以我们可以猜测是将曲谱上的数字转化成字符。曲谱中文字提示是用ASCII码进行转换。没有数字8可能是…

C/C++内存管理学习【new】

文章目录 一、C/C内存分布二、C语言中动态内存管理方式:malloc/calloc/realloc/free三、C内存管理方式3.1 new/delete操作内置类型3.2 new和delete操作自定义类型四、operator new与operator delete函数五、new和delete的实现原理5.1 内置类型 六、定位new表达式(pl…

【办公类-16-10-02】“2023下学期 6个中班 自主游戏观察记录(python 排班表系列)

背景需求: 已经制作了本学期的中4班自主游戏观察记录表 【办公类-16-10-01】“2023下学期 中4班 自主游戏观察记录(python 排班表系列)-CSDN博客文章浏览阅读398次,点赞10次,收藏3次。【办公类-16-10-01】“2023下学…

反序列化字符串逃逸 [安洵杯 2019]easy_serialize_php1

打开题目 $_SESSION是访客与整个网站交互过程中一直存在的公有变量 然后看extract()函数的功能: extract($_POST)就是将post的内容作为这个函数的参数。 extract() 函数从数组中将变量导入到当前的符号表(本题的作用是将_SESSION的两个函数变为post传参) function…