是谁?阻止CXL在AI场景大展身手~

CXL虽然被视为业内新宠,但好像在AI场景的应用反而没有得到广泛的响应。

AI场景对内存带宽、容量以及数据一致性有着极高需求,特别是在深度学习训练和推理过程中,大量数据需要在CPU、GPU、加速器以及内存之间快速、高效地流动。CXL作为一种新兴的高速互连技术,旨在通过提供低延迟、高带宽的内存一致性互连,解决现代数据中心的内存扩展、池化和异构计算问题。然而,AI场景是否真正需要CXL,取决于以下几个关键因素的综合分析:

一是内存扩展与池化

AI应用,特别是大规模深度学习模型训练,常常需要远超单台服务器内存容量的数据缓冲区。CXL通过允许CPU直接访问连接设备(如CXL内存扩展器或CXL内存模组)上的内存,能够显著增加可用内存容量,避免因内存不足导致的数据交换瓶颈。同时,CXL支持内存池化,使得内存资源能够在多台服务器间共享,提高整体内存利用率,这对于成本敏感的AI数据中心至关重要

图片

二是异构计算支持

AI计算往往依赖于CPU、GPU、FPGA、ASIC等多种加速器的协同工作。CXL提供了一种低延迟、高带宽的缓存一致性互连,使得CPU和其他加速器能够透明地共享同一内存空间,简化编程模型,提高数据访问效率,这对于AI应用的并行计算和分布式训练尤为重要。

图片

三是带宽与延迟

AI工作负载对内存带宽有极高要求,尤其是在处理大量浮点运算和大规模张量数据时。CXL 3.0规范基于PCIe 6.0支持高达64 GT/s的带宽,远超过当前PCIe 4.0(16 GT/s)和PCIe 5.0(32 GT/s),能够有效满足AI应用的带宽需求。

图片

然而,对于AI而言,带宽并非唯一的决定性因素,延迟同样重要。尽管CXL通过缓存一致性机制减少了数据同步的复杂性,但与专为AI优化的互连技术(如Nvidia的NVLink或AMD的Infinity Fabric)相比,其延迟可能仍不具优势。这些专有技术通常提供更低的延迟和更高的带宽,更适合AI应用中的大规模并行计算。

四是互连技术生态

AI硬件生态系统中,GPU是当前AI训练和推理的主力,尤其是Nvidia的GPU产品。然而,Nvidia的GPU并未广泛支持CXL,而是倾向于使用自家的NVLink或其他专有互连技术。专有互连技术如NVLink、InfiniBand等在带宽与延迟方面优于PCIe/CXL,更适合AI应用的大规模并行计算需求。在AI集群中,这些专有协议成为首选的扩展与扩展互连技术。这意味着AI系统中大量使用Nvidia GPU的场景下,CXL可能无法充分发挥其优势。

图片

尽管AMD的部分产品如MI300A理论上具备CXL支持,但实际应用中可能存在限制。缺乏关键硬件的支持,限制了CXL在AI场景下的广泛部署。相比之下,如果AI系统中包含支持CXL的加速器,或者采用CXL内存扩展器和内存池化技术,CXL的价值将更加突出。

图片

尽管CXL内存带宽扩展理论上对AI有潜在价值,但由于硬件支持不足、与其他专有互连技术在带宽与延迟上的差距,以及AI工作负载的特定需求,CXL在短期内可能难以成为AI领域的主流互联标准。随着CXL技术的发展、生态系统完善以及AI硬件市场动态的变化,这一需求判断可能会随着时间的推移而发生变化。

从其他定制AI超大规模芯片的发展来看,CXL的AI场景之路也并没有很顺利。超大规模数据中心运营商(如Google、Amazon、Facebook等)近年来大力投资研发定制AI芯片,以满足其特定工作负载需求、降低成本并提高能源效率。这些芯片通常结合ASIC、FPGA、定制CPU或GPU等多种技术,实现高度优化的AI处理能力。它们在设计时可能考虑与CXL兼容,以利用其内存扩展与池化功能。

然而,考虑到上述CXL在AI领域面临的挑战,以及定制AI芯片往往更倾向于采用专有或经过优化的互连技术(如Google的TPU通过定制的高速网络互连),CXL在定制AI超大规模芯片中的实际采纳情况可能较为有限。定制芯片厂商可能更倾向于选择与自家硬件架构紧密集成、性能更优的互连解决方案,而非依赖标准化的CXL。

当然,也不用失望,AI场景的发展不顺利。但是在非AI场景下,CXL内存池化与扩展的经典用例依然具有显著价值。例如比较典型的应用场景:

  • 内存池化:对于传统企业级应用、内存数据库、数据分析等工作负载,内存池化可通过动态分配内存资源,提高整体DRAM利用率,减少硬件成本。这些工作负载对内存一致性要求较高,且可能不涉及大规模并行计算,因此CXL的低延迟、一致性保证特性更具吸引力。

  • 内存扩展:对于科学计算、金融建模、高性能计算(HPC)等需要大量内存的场景,CXL内存扩展能够提供远超传统服务器内存容量的解决方案,无需牺牲内存访问性能。这些应用往往对内存带宽需求强烈,但对互连技术的特定要求可能不如AI严格。

针对这个话题,你有什么不同的看法吗?欢迎评论区留言交流~

如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • 字节跳动入局存储内存SCM

  • 解读“CFMS中国闪存市场峰会”存储技术看点

  • 首个业内DNA存储技术规范发布

  • 如何突破SSD容量提升的瓶颈?

  • 固态存储是未来|浅析SSD架构的演进与创新技术

  • 论文解读:NAND闪存中读电压和LDPC纠错码的高效设计

  • 华为新发布磁电存储“王炸”,到底是什么?

  • SSD LDPC软错误探测方案解读

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 对于超低延迟SSD,IO调度器已经过时了吗?

  • 浅析CXL P2P DMA加速数据传输的原理

  • NVMe over CXL技术如何加速Host与SSD数据传输?

  • 浅析LDPC软解码对SSD延迟的影响

  • 为什么QLC NAND才是ZNS SSD最大的赢家?

  • SSD在AI发展中的关键作用:从高速缓存到数据湖

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

如果您也想针对存储行业分享自己的想法和经验,诚挚欢迎您的大作。
投稿邮箱:Memory_logger@163.com (投稿就有惊喜哦~)

《存储随笔》自媒体矩阵

图片

更多存储随笔科普视频讲解,请移步B站账号

图片

如您有任何的建议与指正,敬请在文章底部留言,感谢您不吝指教!如有相关合作意向,请后台私信,小编会尽快给您取得联系,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2906677.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

ForkJoinPool、CAS原子操作

ForkJoinPool ForkJoinPool是由JDK1.7后提供多线程并行执行任务的框架。可以理解为一种特殊的线程池。 1.任务分割:Fork(分岔),先把大的任务分割成足够小的子任务,如果子任务比较大的话还要对子任务进行继续分割。 …

内网靶机~~dc-2

一、信息收集 1.端口扫描: nmap -sV -p 1-10000 10.1.1.4 2.CMS识别 3.目录扫描: dirsearch http://10.1.1.4/ 4.FLAG1 似乎让我们用cewl生成密码字典,并爆破登录。 cewl -w rewl_passwd.txt http://dc-2/index.php/flag/ 总结&#xff…

离线Linux/openEuler服务器指定本地yum仓库

1、前提准备一个预装坏境比较完整的linux镜像文件,本文服务器使用的是openEuler 官网:openEuler下载 | 欧拉系统ISO镜像 | openEuler社区官网 2、上传镜像文件至服务器 如果是集群服务器,上传其中一台服务器之后,使用scp指令将镜…

数据结构刷题篇 之 【力扣二叉树基础OJ】详细讲解(含每道题链接及递归图解)

有没有一起拼用银行卡的,取钱的时候我用,存钱的时候你用 1、相同的树 难度等级:⭐ 直达链接:相同的树 2、单值二叉树 难度等级:⭐ 直达链接:单值二叉树 3、对称二叉树 难度等级:⭐⭐ 直达…

【滑动窗口】Leetcode 最大连续1的个数 III

题目解析 1004. 最大连续1的个数 III 按照k的数值将0反转成1,记录数组中连续1的最长个数 算法讲解 我们需要一个变量temp记录翻转的次数,每遇到一次0,temp。当temp > k的时候此时说明翻转0已经到达极限,已经不可以在翻转了&…

基于二级片内硬件堆栈的后向CFI 验证方法研究,第三章

随着计算机技术的发展,针对计算机系统的恶意攻击越来越多,造成了巨大的经济损失。面向返回导向编程等恶意攻击方式通过修改堆栈中程序返回地址劫持控制流,达到恶意攻击的目的。后向控制流完整性即返回地址的完整性验证,是一种保护…

Tesla技术方案解析

Tesla技术方案解析 附赠自动驾驶学习资料和量产经验:链接 参考&部分摘选: EatElephant:解读: Tesla Autopilot技术架构 chenq100:TechTips - 031: “Tesla AI Day 2021”学习笔记 All you need to know about Tesla AI Da…

基于单片机的二维码LCD显示控制设计

**单片机设计介绍,基于单片机的二维码LCD显示控制设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的二维码LCD显示控制设计是一个集硬件、软件与通信于一体的综合性项目。此设计的主要目标是实现单片机…

蓝桥备赛——堆队列

AC code import os import sys import heapq a [] b [] n,k map(int,input().split())for _ in range(n):x,y map(int,input().split())a.append(x)b.append(y) q []# 第一种情况:不打第n个怪兽# 将前n-1个第一次所需能量加入堆 for i in range(n-1):heapq.h…

Doris实践——叮咚买菜基于OLAP引擎的应用实践

目录 前言 一、业务需求 二、选型与对比 三、架构体系 四、应用实践 4.1 实时数据分析 4.2 B端业务查询取数 4.3 标签系统 4.4 BI看板 4.5 OLAP多维分析 五、优化经验 六、总结 原文大佬介绍的这篇Doris数仓建设实践有借鉴意义的,这些摘抄下来用作沉淀学…

NFT Insider #125:Astar将与索尼开发的新公链将关注游戏或 NFT 等众多领域

引言:NFT Insider由NFT收藏组织WHALE Members (https://twitter.com/WHALEMembers)、BeepCrypto (https://twitter.com/beep_crypto)联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜…

TR2 - Transformer模型的复现

目录 理论知识模型结构结构分解黑盒两大模块块级结构编码器的组成解码器的组成 模型实现多头自注意力块前馈网络块位置编码编码器解码器组合模型最后附上引用部分 模型效果总结与心得体会 理论知识 Transformer是可以用于Seq2Seq任务的一种模型,和Seq2Seq不冲突。 …

STL —— vector(1)

博主首页: 有趣的中国人 专栏首页: C专栏 本篇文章主要讲解vector使用的相关内容 1. vector简介 vector 是 C 标准库中的一个容器类模板,它提供了动态数组的功能,可以方便地管理和操作元素的集合。下面是关于 vector 的一些基本信…

NRF24L01P和SI24R1的区别

NRF24L01无线模块广泛地运用于:无线门禁、无线数据通讯、安防系统、遥控装置、遥感 勘测、智能运动设备、工业传感器;平常我们用到的无线鼠标基本上采用的都是NORDIC的N RF24L01无线模块方案,而且,只需要一个5号电池即可。 几年前…

HarmonyOS实战开发-如何实现一个自定义抽奖圆形转盘

介绍 本篇Codelab是基于画布组件、显式动画,实现的一个自定义抽奖圆形转盘。包含如下功能: 通过画布组件Canvas,画出抽奖圆形转盘。通过显式动画启动抽奖功能。通过自定义弹窗弹出抽中的奖品。 相关概念 Stack组件:堆叠容器&am…

详解TCP的三次握手和四次挥手

文章目录 1. TCP报文的头部结构2. 三次握手的原理与过程三次握手连接建立过程解析 3. 四次挥手的原理与过程四次挥手连接关闭过程的解析 4. 常见面试题 深入理解TCP连接:三次握手和四次挥手 在网络通信中,TCP(传输控制协议)扮演着…

人才推荐 | 材料化学博士,热衷于创新且可扩展的电池技术开发

编辑 / 木子 审核 / 朝阳 伟骅英才 伟骅英才致力于以大数据、区块链、AI人工智能等前沿技术打造开放的人力资本生态,用科技解决职业领域问题,提升行业数字化服务水平,提供创新型的产业与人才一体化服务的人力资源解决方案和示范平台&#x…

java多线程——概述,创建方式及常用方法

前言: 学习到多线程了,整理下笔记,daydayup!!! 多线程 什么是线程 线程(Thread)是一个程序内部的一条执行流程。若程序只有一条执行流程,那这个程序就是单线程的程序。 什么是多线程 多线程是指从软硬件上…

【AIGC】如何在Windows/Linux上部署stable diffusion

文章目录 整体安装步骤windows10安装stable diffusion环境要求安装步骤注意事项参考博客其他事项安装显卡驱动安装cuda卸载cuda安装对应版本pytorch安装git上的python包Q&A linux安装stable diffusion安装anaconda安装cudagit 加速配置虚拟环境挂载oss(optional…

传播力研究期刊投稿发表

《传播力研究》杂志是经国家新闻出版总署批准,黑龙江日报报业集团主管主办,面向全国公开发行的学术刊物。本刊为新闻、传媒、传播学类专业院校师生、文化传播理论研究者和从业人员及爱好者,开展学术交流与研讨,汲取当今业界新鲜的…