深度解析 | 什么是超融合数据中心网络?

数据中心网络连接数据中心内部通用计算、存储和高性能计算资源,服务器间的所有数据交互都要经由网络转发。当前,IT架构、计算和存储技术都在发生重大变革,驱动数据中心网络从原来的多张网络独立部署向全以太化演进。而传统的以太网无法满足存储和高性能计算的业务需求。超融合数据中心网络以全无损以太网来构建新型的数据中心网络,使通用计算、存储、高性能计算三大种类业务均能融合部署在一张以太网上,同时实现全生命周期自动化和全网智能运维。

Part1为什么会产生超融合数据数据中心网?

1现状:数据中心内有三张网络

数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高,要求网络0丢包;通用计算业务规模大,扩展性强,要求网络低成本、易扩展。

由于上述业务对网络的要求不同,当前数据中心内部一般会部署三张不同的网络:

  • 由IB(InfiniBand)网络来承载HPC业务

  • 由FC(Fiber Channel)网络来承载存储网络

  • 由以太网来承载通用计算业务

数据中心内的三张网络

2AI时代的变化1:存储和计算能力大幅提升,网络成为瓶颈

企业数字化过程中将产生大量的数据,这些数据正在成为企业核心资产。通过AI技术从海量数据中挖掘价值成为AI时代不变的主题。通过AI机器学习利用各种数据辅助实时决策,已经成为企业经营的核心任务之一。与云计算时代相比,AI时代企业数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理转变。

数据中心正在从云计算时代走向AI时代

为了提升海量AI数据处理的效率,存储和计算领域正在发生革命性的变化:

  • 存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足数据的实时存取要求,存储介质时延降低了不止100倍。

  • 为了满足数据高效计算的诉求,业界已经在采用GPU甚至专用的AI芯片,处理数据的能力提升了100倍以上。随着存储介质和计算能力的大幅提升,在高性能的数据中心集群系统中,当前网络通信的时延成为应用整体性能进一步提升的瓶颈,通信时延在整个端到端时延中占比从10%上升到60%以上,也就是说,宝贵的存储或计算资源有一半以上的时间是在等待网络通信。

总的来说,随着存储介质和计算处理器的演进,网络的低效阻碍了计算和存储性能的发挥;只有将通信时长降低到与计算和存储接近,才能消除木桶原理中的“短板”,提升应用整体的性能。

3AI时代的变化2:RDMA替代TCP/IP成为大势所趋,但RDMA的网络承载方案存在不足

如下图所示,在服务器内部,由于TCP协议栈在接收/发送报文,以及对报文进行内部处理时,会产生数十微秒的固定时延,这使得在AI数据运算和SSD分布式存储这些微秒级系统中,TCP协议栈时延成为最明显的瓶颈。另外,随着网络规模的扩大和带宽的提高,宝贵的CPU资源越来越地多被用于传输数据。

RDMA(Remote Direct Memory Access)允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA允许接收端直接从发送端的内存读取数据,极大减少了CPU的负担。

RDMA与TCP的对比 根据业务的测试数据, 采用RDMA可以将计算的效率同比提升6~8倍;而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能,(公众号:网络工程师阿龙)所以在最新的NVMe(Non-Volatile Memory express)接口协议中,RDMA成为主流的默认网络通信协议栈。因此,RDMA替换TCP/IP成为大势所趋。

在服务器之间的互联网络中,当前有两种方案来承载RDMA:专用InfiniBand网络和传统IP以太网络,然而,它们都存在不足:

  • InfiniBand网络:架构封闭,采用私有协议,难以与现网大规模的IP网络实现很好的兼容互通;运维复杂,专人运维,OPEX居高不下。

  • 传统IP以太网:对于RDMA来说,大于10-3的丢包率,将导致网络有效吞吐急剧下降,2%的丢包则使得RDMA的吞吐率下降为0。要使得RDMA吞吐不受影响,丢包率必须保证在十万分之一以下,最好为无丢包。而拥塞丢包是传统IP以太网络的基本机制,传统IP以太网中会使用PFC和ECN机制来避免丢包,但其基本原理是通过反压降低发送端速度来保证不丢包,实际上并没有达到提升吞吐率的效果。

因此,RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。

4AI时代的变化3:分布式架构成为趋势,加剧网络拥塞,驱动网络变革

在企业的数字化转型中,以金融和互联网企业为代表,大量的应用系统迁移到分布式系统上:通过海量的PC平台替代传统小型机,带来了成本低廉、易扩展、自主可控等优势,同时也给网络互联带来了挑战:

  • 分布式架构带来了服务器间大量的互通需求。

  • Incast型流量(多点对一点的流量)会在接收端造成流量突发,瞬间超过接收端接口能力,造成拥塞丢包。

分布式架构流量模型示意

  • 随着分布式系统应用复杂度的增加,服务器之间交互的消息长度越来越大,即流量具备“大包”特征,进一步加剧了网络拥塞。

Part2什么是超融合网数据中心网络的核心指标?

从上一节来看,为了满足AI时代的数据高效处理诉求、应对分布式架构挑战,0丢包、低时延、高吞吐成为下一代数据中心网络的三个核心指标。这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战。

三个核心指标相互影响

同时满足0丢包、低时延、高吞吐,背后的核心技术是拥塞控制算法。通用的无损网络的拥塞控制算法DCQCN(Data Center Quantized Congestion Notification),需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数组合达到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,常常无法同时满足这三个核心指标。

Part3超融合数据中心网络与HCI有什么异同?

HCI(Hyper-Converged Infrastructure,超融合基础架构)是指在同一套单元设备中不但具备了计算、网络、存储和服务器虚拟化等资源和技术,而且多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(Scale—Out),形成统一的资源池。

HCI将虚拟化计算和存储整合到同一个系统平台。简单地说就是物理服务器上运行虚拟化软件(Hypervisor),通过在虚拟化软件上运行分布式存储服务供虚拟机使用。分布式存储可以运行在虚拟化软件上的虚拟机里也可以是与虚拟化软件整合的模块。广义上说,HCI既可以整合计算和存储资源,还可以整合网络以及其它更多的平台和服务。目前业界普遍认为,软件定义的分布式存储层和虚拟化计算是HCI架构的最小集。

与HCI不同,超融合数据中心网络只专注于网络层面,提供全新的计算、存储互联的网络层方案。使用超融合数据中心网络,不需像HCI那样对计算资源、存储资源进行改造和融合,并且基于以太网很容易实现成低成本的快速扩容。

Part4什么是华为的超融合数据中心网络方案?

华为公司基于多年数据中心网络成功实践的经验,面对动态流量和海量参数调整,提炼出不同的流量特征模型;在交换机中实时采集流量特征和网络状态,使用独创的iLossless智能无损算法,本地实时决策并动态调整网络参数配置,使得交换机缓存被合理高效利用,实现整网0丢包。在网络架构上,基于CLOS组网模型构建基于CloudEngine系列交换机的Spine-Leaf两级智能架构:计算智能和网络智能结合、全局智能和本地智能协同,共同打造无损低时延的数据中心网络。(公众号:网络工程师阿龙)

另外,基于华为的智能分析平台iMaster NCE-FabricInsight,基于全局采集到的流量特征和网络状态数据,结合AI算法,对未来的流量模型进行预测,从全局的视角,实时修正网卡和网络的参数配置,以匹配应用的需求。

华为的超融合数据中心网络,基于开放以太网,通过独特的AI算法,可以使以太网络同时满足低成本,0丢包和低时延的诉求。超融合数据中心网络成为AI时代的数据中心构建统一融合的网络架构的最佳选择。

Part5从独立组网到统一融合的组网

华为超融合数据数据中心网络有什么价值?传统的FC专网和IB专网,价格昂贵,生态封闭,且需要专人运维,也不支持SDN,无法满足云网协同等自动化部署的诉求。

使用华为超融合数据中心网络具有以下价值:

  • 提升端到端业务性能
    使用华为超融合数据中心网络,据权威第三方测试EANTC测试结论,可以在HPC场景下最高降低44.3%的计算时延,在分布式存储场景下提升25%的IOPS能力,且所有场景保证网络0丢包。
    使用华为超融合数据中心网络,可提供25G/100G/400G组网,满足AI时代海量数据对网络大带宽的需求。

  • 降低成本,提升收益
    数据中心投资中网络占比仅10%左右,相对服务器/存储的投资(占比85%),有10倍的杠杆效应,撬动服务器和存储投资的大幅降低;华为超融合数据数据中心网络可以带来25%的存储性能提升,40%的计算效率提升,将带来数十倍的ROI(Return On Investment)能力。

  • 支持SDN自动化和智能运维
    华为超融合数据中心网络支持SDN云网协同的全生命周期业务自动化,OPEX降低至少60%以上。另外,由于华为超融合数据中心网络本质上是以太网,因此传统以太网运维人员就可以管理,且可以依托华为智能分析平台iMaster NCE-FabricInsight,多维度地、可视化地对网络进行运维。

Part6华为超融合数据数据中心网络如何工作?

上文提到,使用以太网来承载RDMA流量,目前使用的协议为RoCE(RDMA over Converged Ethernet)v2。华为超融合数据中心网络,使用iLossless智能无损算法构建无损以太网络,是一系列技术的合集,通过以下三个方面技术的相互配合,真正解决传统以太网络拥塞丢包的问题,为RoCEv2流量提供“无丢包、低时延、高吞吐”的网络环境,满足RoCEv2应用的高性能需求。

  • 流量控制技术
    流量控制是端到端的,需要做的是抑制发送端的发送速率,以便接收端来得及接收,防止设备端口在拥塞的情况下出现丢包。华为提供了PFC死锁检测和死锁预防,提前预防PFC死锁的发生。

  • 拥塞控制技术
    拥塞控制是一个全局性的过程,目的是让网络能承受现有的网络负荷,往往需要转发设备、流量发送端、流量接收端协同作用,并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。在拥塞控制过程中,华为提供了AI ECN(Artificial Intelligence Explicit Congestion Notification)、iQCN(intelligent Quantized Congestion Notification)、ECN Overlay和NPCC(Network-based Proactive Congestion Control)功能,解决了传统DCQCN存在的问题。

  • 智能无损存储网络技术
    为了更好地服务存储系统,华为提供了iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)功能,实现对主机的快速管控。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2659504.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Pycharm引用其他文件夹的py

Pycharm引用其他文件夹的py 方式1:包名设置为Sources ROOT 起包名的时候,需要在该文件夹上:右键 --> Mark Directory as --> Sources ROOT 标记目录为源码目录,就可以了。 再引用就可以了 import common from aoeweb impo…

【C++】开源:cpp-httplib HTTP协议库配置与使用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍cpp-httplib HTTP协议库配置与使用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下&a…

美国Top科技公司年薪大曝光,OpenAI 600万高居榜首!

全美顶尖AI公司年薪大曝光! OpenAI 600万高居榜首,微软、英伟达只有OpenAI 的一半。 近日,美国一家帮助博士生协商薪资的公司Rora发布了一份薪资报告,公布了这些顶尖AI公司给研究人员开出的平均薪水。 以下是部分顶级AI公司的名…

《PCI Express体系结构导读》随记 —— 第I篇 第1章 PCI总线的基本知识(11)

接前一篇文章:《PCI Express体系结构导读》随记 —— 第I篇 第1章 PCI总线的基本知识(10) 1.3 PCI总线的存储器读写总线事务 1.3.2 Posted和Non-Posted传送方式 PCI总线规定了两类数据传送方式,分别是Posted和Non-Posted数据传送…

数据仓库 基本信息

数据仓库基本理论 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support&#xff09…

【轻松入门】OpenCV4.8 + QT5.x开发环境搭建

引言 大家好,今天给大家分享一下最新版本OpenCV4.8 QT5 如何一起配置,完成环境搭建的。 下载OpenCV4.8并解压缩 软件版本支持 CMake3.13 或者以上版本 https://cmake.org/ VS2017专业版或者以上版本 QT5.15.2 OpenCV4.8源码包 https://github.com/op…

EDKII:第一个Helloworld

目录 0 说明 1 步骤 1.1 简介 1.2 创建新文件 1.3 创建printhelloworld.c、printhelloworld.inf: 1.4 修改MdeModulePkg\MdeModulePkg.dsc 1.5 修改EmulatorPkg\EmulatorPkg.dsc 1.6 运行 0 说明 上篇文章记录了如何安装UEFI环境,在这里将会写下…

启明智显开源项目分享|基于Model 3c芯片的86中控面板ZX3D95CM20S-V11项目软硬件全开源

前言: 本文为4寸 480*480 RGB接口IPS全面触屏的86中控面板(RT-ThreadLVGL)软硬件开源干货内容,该项目是综合性非常强的RTOS系列项目!项目主控芯片使用 Model 3c,整体实现了简化版本的86中控面板的功能需求…

apisix admin api 403 Forbidden(接口请求403)

故事背景 当你通过admin api 接口方式执行相关操作时,例如route、upstream设置,接口返回403 Forbidden, 例如 请求 curl -i "http://192.168.100.1:9180/apisix/admin/routes" -H X-API-KEY: edd1c9f034335f136f87ad84b625c8f1 -X…

微软 Power Platform 零基础 Power Apps 解决查找字段多选问题无需写代码

微软 Power Platform 零基础 Power Apps 解决查找字段多选问题无需写代码 在开发Power Apps产品的过程中,我们经常遇到查找字段多选的问题,只想用字段显示,又不想用子网格,我们今天来寻找一种不用开发的方式来实现这个功能。 效果…

「年终总结」生成人工智能的奇妙年份

自我介绍 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【…

登录不上linux keyboard-inter

登录不上linux keyboard-inter. 可以用其他工具测试下:cmd 删除历史记住密码:

go 源码解读 - sync.Mutex

sync.Mutex mutex简介mutex 方法源码标志位获取锁LocklockSlowUnlock怎么 调度 goroutineruntime 方法 mutex简介 mutex 是 一种实现互斥的同步原语。(go-version 1.21) (还涉及到Go运行时的内部机制)mutex 方法 Lock() 方法用于…

JavaScript练习题第(四)部分

大家好关于JavaScript基础知识点已经发布:需要的大家可以去我的主要查看 (当然了有任何不会的,可以私信我!!!!) 为了巩固大家学习知识点给大家准备几道练习题: 当然&…

GPT-4 API惨遭美国加州实验室团队毒手,清纯工具被进行攻击测试,经坑蒙拐骗黑化成坏蛋

美国加州实验室FAR AI的团队在对GPT-4 API进行安全测试时,采用了三大方向的“红队”攻击,结果让他们大吃一惊,GPT-4居然成功被越狱。通过对15个有害样本和100个良性样本的微调,他们成功地使GPT-4降低了警惕,使其生成有…

低代码平台在金融银行中的应用场景

随着数字化转型的推进,商业银行越来越重视技术在业务发展中的作用。在这个背景下,白码低代码平台作为一种新型的开发方式,正逐渐受到广大商业银行的关注和应用。白码低代码平台能够快速构建各类应用程序,提高开发效率,…

BAQ压缩MATLAB仿真

本专栏目录: ​​​​​​​全球SAR卫星大盘点与回波数据处理专栏目录-CSDN博客 我们按照上一期文章的BAQ原理编写MATLAB代码,进行baq压缩与解压缩的全流程验证,并分析BAQ压缩对信号指标造成的影响。 生成3个点目标回波数据,加入高斯噪声,对回波进行BAQ压缩和解BAQ压缩,…

Spring Boot + Mybatis + vue2 — 实现分页查询

后端 pom.xml文件导入依赖 <!--分页查询--> <dependency><groupId>com.github.pagehelper</groupId><artifactId>pagehelper-spring-boot-starter</artifactId><version>1.4.6</version> </dependency> 配置全局配置…

flink内存配置

flink内存配置 配置 TaskManager 内存 | Apache Flink

java设计模式学习之【中介者模式】

文章目录 引言中介者模式简介定义与用途实现方式 使用场景优势与劣势在Spring框架中的应用聊天室示例代码地址 引言 想象一下一座忙碌的机场&#xff0c;各种飞机需要起飞、降落&#xff0c;而不同的飞行活动之间必须互不干扰。如果没有一个统一的控制系统&#xff0c;这将是一…