vivo 互联网业务就近路由技术实战

一、问题背景

在vivo互联网业务高速发展的同时,支撑的服务实例规模也越来越大,然而单个机房能承载的机器容量是有限的,于是同城多机房甚至多地域部署就成为了业务在实际部署过程中不得不面临的场景。

一般情况下,同一个机房内部的网络调用平均时延在0.1ms左右,同城多个机房之间的平均时延在1ms左右,跨地域机房之间的网络时延则更大,例如北京到上海的平均时延达到了30ms以上。

在业务多机房部署场景中,内部服务如果存在大量的跨机房、甚至跨地域的网络调用,则请求时延会显著加大,会直接影响到服务质量,甚至是用户体验。

二、解决方案

要解决以上问题,只需要实现服务消费者和服务提供者之间的网络调用尽量是同机房内部、或者是同地域即可,即服务消费者在调用服务提供者时,优先调用部署在本机房的服务提供者,当本机房没有部署该服务提供者时,再跨机房调用同地域的同城机房、甚至是跨地域机房的服务。

以上策略我们内部称为 就近路由。业务的就近路由示意图如下:

为了简单易用,vivo内部的服务间调用均使用了RPC框架来实现,在Java技术栈方向,我们选择了阿里巴巴开源的RPC框架 Dubbo,针对该场景的问题,我们扩展了Dubbo框架的源码实现,提供了 Dubbo就近路由能力。

三、技术原理说明

在服务提供者注册服务时,把该实例节点的机房信息【我们内部将机房标签定义为 app_loc 字段】注册到注册中心,在开启了就近路由策略后,消费者在过滤服务列表时,会自动筛选、匹配和消费者自己 app_loc 字段相同的服务提供者列表,从而实现就近路由访问。我们实现的就近路由策略,在本机房存在对应服务提供者的情况下,消费者会优先调用本机房的服务。

四、实现方案

开源版本的Dubbo框架并不提供就近路由能力,我们需要基于Dubbo框架源码扩展实现。Dubbo框架整体设计如下:【左侧为服务消费者使用的接口,右侧为服务提供方使用的接口】。

我们知道,Dubbo框架中服务消费者选择具体的服务提供者实例调用的匹配、筛选逻辑是在 Consumer 侧完成的,在 Cluster 层中,消费者会先应用用户配置的 Router 规则,然后再符合规则的服务提供者列表中,使用 LoadBalance 策略选择具体的服务提供者节点进行调用。

结合Dubbo框架源码实现,我们选择基于Dubbo 2.7.x版本的router层扩展接口 org.apache.dubbo.rpc.cluster.Router 实现一种新的路由方式,即就近路由(我们内部标识为 NearestRouter)

有了具体的解决方案,我们很快就完成了代码开发,内部也发布了一个集成就近路由策略的Dubbo版本,但在实际的线上灰度和业务推广过程中,我们实现的初版就近路由碰到了新的问题:

  • 基于机房容量、机器成本等因素考虑,并不是所有的业务都实现了多机房部署,即有部分业务只实现了单机房部署,这部分业务的消费方无法实现同机房内部调用;

  • 即使部分业务实现了多机房部署,但多个机房之间能提供的服务容量并不是相同的,对于服务容量较小的机房,如果一部分服务节点不可用,剩下的服务节点能提供的服务容量无法支撑本机房的消费方调用时,会造成该机房内的服务节点雪崩;

  • 业务侧在开启就近路由策略时,希望消费服务的业务方能逐个开启,有一段时间的灰度观察过程,保证更平滑的升级验证;而不是比较粗暴的要么开启,要么关闭;

  • 部分消费者的Dubbo版本较低,不支持就近路由功能,或者不支持配置应用维度的就近路由,在业务灰度过程中,希望能实现向前兼容,业务侧不报错。

基于以上问题,我们细化了实现方案:

  • 就近路由策略默认不强制执行,即当本机房不存在服务提供者时,不再区分本机房、跨机房,就近路由策略自动失效,优先保障服务之间的正常调用;

  • 支持设置就近路由策略的降级阈值,在调用本机房服务的过程中,当 本机房服务实例数量 / 集群服务实例数量 得到的数值小于设置的降级阈值时,我们认为当前机房的服务容量无法支撑本机房的消费方调用,就近路由策略自动失效;

  • 支持配置应用维度的就近路由策略,即配置的就近路由策略可只针对配置的应用生效,实现应用维度的灰度效果;

  • 实现Dubbo版本自动校验能力,不满足开启就近路由策略条件的业务,提示用户不开启。

有了以上细化方案,我们梳理的就近路由大致逻辑流程如下:

扩展Dubbo框架 Router 接口实现的 NearestRouter 核心代码如下:

public <T> List<Invoker<T>> route(List<Invoker<T>> invokers, URL consumerUrl, Invocation invocation) throws RpcException {// validate application name (this.url -> routerUrl)String applicationName = getProperty(APP_NAME, consumerUrl.getParameter(CommonConstants.APPLICATION_KEY, ""));boolean validAppFlag = application.equals(applicationName) || CommonConstants.ANY_VALUE.equals(application);if (!validAppFlag) {return invokers;}String local = getProperty(APP_LOC);if (invokers == null || invokers.size() == 0) {return invokers;}List<Invoker<T>> result = new ArrayList<Invoker<T>>();for (Invoker invoker: invokers) {String invokerLoc = getProperty(invoker, invocation, APP_LOC);if (local.equals(invokerLoc)) {result.add(invoker);}}if (result.size() > 0) {if (fallback){// 开启服务降级,available.ratio = 当前机房可用服务节点数量 / 集群可用服务节点数量int curAvailableRatio = (int) Math.floor(result.size() * 100.0d / invokers.size());if (curAvailableRatio <= availableRatio) {return invokers;}}return result;} else if (force) {LOGGER.warn("The route result is empty and force execute. consumerIp: " + NetUtils.getLocalHost()+ ", service: " + consumerUrl.getServiceKey() + ", appLoc: " + local+ ", routerName: " + this.getUrl().getParameterAndDecoded("name"));return result;} else {return invokers;}
}

在vivo内部的服务治理平台上,我们提供了可视化的配置能力,页面内容如下:

通过扩展Dubbo框架,服务治理平台能力支持,我们以上问题都得到了较好的解决。

五、写在将来

虽然以上解决方案能覆盖我们当前业务场景中的大部分问题,随着业务的高速发展,新的业务问题也接踵而至。

  • 当前就近路由策略代码实现集成在Dubbo框架中,业务侧需升级Dubbo框架版本才能完成升级,升级周期长,框架碎片化问题趋向严重;

  • 当前业务服务注册时携带的机房信息比较有限,例如缺失服务实例所在的机架信息,和当前服务同城的其他机房信息等,该类信息可支持我们实现更丰富的就近路由策略;

  • 业务侧的流量灰度策略较丰富,除了就近路由策略之外、往往还需要结合Dubbo框架自带的条件路由、标签路由策略才能实现;

  • 在特定场景下,就近路由策略失效由框架自动完成,业务侧缺少及时的感知能力。

针对以上问题,我们的解决思路如下:

  • 适配云原生ServiceMesh技术方案,实现RPC框架复杂逻辑和业务代码的分层解耦,业务侧集成的SDK功能偏向简单,版本迭代较少,版本碎片化问题能得到较好解决;框架的复杂逻辑下沉到Agent端,框架升级业务基本无感知。幸运的是Dubbo 3.0 版本已规划增加对云原生的支持,我们将持续关注;

  • Dubbo框架的注册中心和内部CMDB系统结合,可以获取到更多维度的信息,不限于该服务节点所在的机架、同城的其他机房信息等。目前vivo内部已启动自研注册中心,可在该场景的能力建设上走的更远;

  • 服务治理平台结合业务侧常用的流量灰度策略,提供结合就近路由、条件路由、标签路由的组合式路由策略,提供更丰富的流量路由能力;

  • 针对框架错误、异常、自适应变更等的告警需求,vivo内部规划建设统一的框架SDK侧的监控告警能力,对于常见的错误、异常、自适应变更等,从SDK侧直接捕获,并和告警中心进行联动,缩短整个监控告警的链路路径,让业务侧能及时感知,甚至是提前感知。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/353637.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

进出口跨境电商软件平台系统开发,源码技术架构

一、进出口跨境电商软件平台系统开发需做好相应的前期准备&#xff0c;如确定市场、了解政策、推广宣传等。 欢迎名片沟通探讨 确定目标市场&#xff1a;选择合适的目标市场。需要了解目标市场的消费习惯、政策法规以及竞争情况。 了解海关相关政策&#xff1a;针对不同国家或…

机器学习——集成学习(装袋法Bagging、提升法Boosting、梯度提升决策树GBDT、随机森林RF)

集成学习 集成学习通过构建并结合多个学习器来完成学习任务 集成方法是用多种学习方法的组合来获取比原方法更优的结果 使用于组合的算法是弱学习算法 即分类正确率仅比随机猜测略高的学习算法 但是组合之后的效果仍可能高于强学习算法 即集成之后的算法准确率和效率都很高…

C++,Qt部分面试和笔试题

面试这么多次&#xff0c;C这块基础太差了&#xff0c;乘着还有印象总结下相关的面试问答和笔试题&#xff0c;后续会不断更新内容 目录 问答题1.计算机网络七层体系结构2.C中关键字static和const的使用3.QList和QVector for循环输出速度比较4.构造函数能否为虚函数5.谈谈你对面…

Mysql进阶【1】论述索引,索引数据结构,MVCC

1. ReadView 案例&#xff0c;解释为什么 RR 和 RC 隔离级别下看到查询结果不一致 案例 01- 读已提交 RC 隔离级别下的可见性分析 开启两个回话&#xff0c;会话事务级别都是READ-COMMITED; 操作步骤 开启两个数据库会话&#xff0c;设置事务为提交读事务2查询id1数据&#…

纯净内存清理加速软件(Mem Reduct)

纯净内存清理加速软件&#xff08;Mem Reduct) 文章目录 纯净内存清理加速软件&#xff08;Mem Reduct)一、Mem Product是什么&#xff1f;二、使用步骤1.下载2.安装 总结 你还为了加速球还困扰全家桶吗&#xff0c;看看这个&#xff01;&#xff01; 一、Mem Product是什么&a…

如何清理占用计算机内存,告诉你如何深度清理电脑内存

在如今这个社会时代中,电脑可以说是人们在日常生活中必不可少的一个工具,电脑对我们的学习和工作都起着非常大的作用。但电脑也有出现问题的时候,比如说电脑内存变得越来越小,遇到该问题是该如何处理呢?当然是进行清理内存啦,今天小编就给大家分享一下清理电脑内存的方法…

计算机C盘内存清理

计算机C盘总是莫名其妙的就满了&#xff0c;于是总结了一些清理C盘垃圾以及维护C盘内存的方法。大家有别的有效的方法欢迎告诉我&#xff0c;随时补充。 目录 一、 清理C盘垃圾方法1 利用系统自带的磁盘清理工具进行清理2 定期清理系统临时文件3 清理电脑缓存垃圾4 定期清理浏…

服务器系统如何清理,服务器清理内存怎么清理

服务器清理内存怎么清理 内容精选 换一换 本节操作指导您完成Windows操作系统云服务器磁盘空间清理。弹性云服务器匀出一部分磁盘空间来充当内存使用,当内存耗尽时,云服务器可以使用虚拟内存来缓解内存的紧张。但当内存使用率已经非常高时,频繁的内存与虚拟内存的切换会导致…

Lftp+Sftp传输总结

背景介绍&#xff1a;因为备份数据的不断扩大&#xff0c;需要把现网备份的数据&#xff08;2T左右&#xff09;传回到本地进行异地保存。但是2T太大了&#xff0c;需要进行压缩&#xff0c;这里采用了3G一个压缩包的方式。以下是压缩脚本 #!/bin/bash # 此脚本是全量压缩mongo…

xftp,xftp怎么连接

服务器管理进行文件传输用的最多的就是FTP传输&#xff0c;那xftp怎么连接服务器呢&#xff1f;打开xftp软件&#xff0c;新建一个连接&#xff0c;填上要连接的IP&#xff0c;端口号&#xff0c;用户名&#xff0c;密码等&#xff0c;保存即可。在选项中选择编码为UTF-8&#…

JAVA日志框架

JAVA日志框架 常见日志框架日志级别阿里日志规约什么时候打印日志配置文件log4j.propertieslogback-spring.xmllogback的默认配置 导入依赖日志使用方式&#xff0c;引入slf4j的API输出用户日志 常见日志框架 日志框架&#xff1a;Log4j 、Logback 。 日志门面&#xff1a;Slf…

VSFTP服务

概述&#xff1a; FTP服务器&#xff08;File Transfer Protocol Server&#xff09;是在互联网上提供文件存储和访问服务的计算机&#xff0c;它们依照FTP协议提供服务。 FTP&#xff08;File Transfer Protocol: 文件传输协议&#xff09;作用&#xff1a; Internet 上用来…

vsftp

一、概述 FTP是file Transfer Protocoll文件传输下ieyi&#xff0c;用于Internet上的文件的双向传输。因ftp是明文传输&#xff0c;没有受到保护&#xff0c;所以具有一定危险性。 VSFTP是一个基于GPL发布的类unix系统上使用的FTP服务器软件。为了解决ftp传输安全性问题的&…

SFTP在Linux和window下的文件传输

使用SecureCRT的SFTP在WINDOWS与LINUX之间传输文件 参考文献&#xff1a; http://ice-k.iteye.com/blog/1068275 http://www.cnblogs.com/chen1987lei/archive/2010/11/26/1888391.html 背景&#xff1a; 有一台主机&#xff0c;安装了windows7&#xff0c;在其安装了virtualbo…

vsftp的简单使用

一、vsftp以及安装 服务端软件&#xff1a;vsftpd 客户端软件&#xff1a;ftp 端口号&#xff1a;20、21或指定范围内其他随机端口 配置文件&#xff1a;vim /etc/vsftpd/vsftpd.conf # 安装 yum install vsftpd ftp# 开机自启 systemctl enable vsftpd# 启动 systemc…

Explaining predictive models: the Evidence Counterfactual

Imagine being targeted with an advertisement for this blog. You’d like to know: why did the AI model predict you’d be interested in the Faculty of Business and Economics’ blog, based on the hundreds of web pages you visited? The answer could be: becaus…

记录搭建hadoop集群的过程

Linux(CentOS-7.6-x64位)基础配置, 虚拟机平台VmWare15 CentOS-7.6-x64镜像下载&#xff1a; https://www.aliyundrive.com/s/72Xg449t6i8 提取码: 32rm VmVare15安装包下载带序列号&#xff1a;VmVare15安装包下载带激活序列号资源-CSDN文库 点击关闭&#xff0c;点击完成&…

ChatGPT热度不减!华为宣布入局,盘古GPT能否大杀四方!

ChatGPT热度不减 六月份了&#xff0c;朋友们&#xff0c;来到六月份了已经&#xff0c;ChatGPT的热度依旧不减&#xff0c;各大论坛网站的榜单上还飘着ChatGPT相关话题的文章&#xff0c;且排名靠前。由此可见&#xff0c;这ChatGPT这股子热潮还得持续一段时间呢。 而且ChatG…

三国志战略版:Daniel_新晋减伤战法-奇计良谋

一、战法介绍 战法定位&#xff1a;稳定且有针对性的群体减伤战法。 同类效果&#xff1a; 稳定的群体减伤战法&#xff1a;八门金锁阵、抚辑军民、暂避其锋、锋矢阵、藤甲兵、御敌屏障。 稳定群体减伤战法往往可以极大提升一个队伍的强度&#xff0c;如今一线群体减伤战法中…

英雄打怪

英雄类 package LOLDemo;/*** ClassName: Hero* Description: * 自定义一个英雄类* 0.英雄类中加入“经验值”&#xff0c;“等级”&#xff0c;“攻击力”等属性变量,加入“击打”方法&#xff0c;击打的目标是怪物&#xff0c;击打的结果是怪物的生命值-英雄攻击力* …