暴雨发布大模型专用分布式全闪存储

近日,暴雨信息发布为大模型专门优化的分布式全闪存储AVERSE系列。该系列依托暴雨信息自研分布式文件系统,搭载新一代数据加速引擎Xdata,通过盘控协同、GPU直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。


构建存储底座化解大模型时代挑战

大模型已经成为驱动数字经济深度创新、引领企业业务变革、加速形成新质生产力的重要动能,随着大模型参数量和数据量的极速膨胀,多源异构数据的传、用、管、存,正在成为制约生成式AI落地的瓶颈之一,用户亟需构建更加高效的存储底座。在数据准备阶段,在规模大、来源广泛、格式多样的原始数据中,筛选和清洗出利用于训练的高质量数据常会耗费大量时间;在模型训练阶段,海量小文件数据加载、Checkpoint数据调用对IO处理效率提出严苛要求;模型训练之后,多个数据资源池无法互通、海量冷数据归档带来较高的数据管理复杂度。

作为率先在业界提出分布式融合存储的厂商,暴雨信息聚焦行业客户的大模型落地需求与核心痛点,基于NVMe SSD研发出高效适配和优化的分布式全闪存储AVERSE系列。硬件方面,AVERSE是一款2U24盘位的全闪存储机型,搭载英特尔®至强®第四、第五代可扩展处理器,支持400 Gb 网卡,同时每盘位可配置15.36TB 大容量NVMe SSD。软件方面,通过集群控制服务将N个节点联成一套具有高扩展性的文件系统;通过分布式元数据服务提升海量小文件读写性能;通过数控分离架构,实现东西向网络优化,降低IO访问时延,提升单节点带宽。在软硬件协同创新下,AVERSES充分满足大模型应用在存储性能和存储容量方面的严苛需求。

具体来说,在数据准备阶段,通过多协议融合互通技术,面对多份、多种协议的数据,存储底层仅保留一份数据,实现数据共享免搬迁;在模型训练阶段,通过大小IO智能识别和缓存预读技术快速保存和恢复checkpoint(检查点)文件,实现TB级训练数据Checkpoint读取耗时从10分钟缩短至10秒内,大幅提升训练过程中数据加载速度;RDMA/RoCE网络连接技术和数控分离架构的设计,实现东西向数据免转发,极限发挥大模型训练中硬件网络带宽性能;基于盘控协同架构,网络数据直通NVMe SSD,进一步提升单盘带宽;在数据归档与管理阶段,AVERSE提供了多元异构存储的统一纳管能力,保障数据资产高效存储与管理,大幅提升存储资源的利用率且最大化数据基础设施投资回报比。

利用数据加速引擎保障大模型高效训练

在大模型的数据应用全流程中,要想使训练效率达到极致,减少不必要的资源浪费,训练阶段的数据读写性能成为重中之重。而想要提升算力利用率、降低模型训练成本,必须要在数据存储性能上进行创新。

AVERSE系列具备强大的端到端性能优化能力,这也是模型训练阶段最为核心的考量因素。暴雨信息基于计算和存储协同的理念,依托自研分布式文件系统构建了新一代数据加速引擎,在缓存优化、空间均衡、缩短GPU与存储读取路径等方面进行了全面升级。”

智能缓存优化保障大模型训练速度与质量

AVERSE能够通过对大小IO的智能识别,进行分类治理,小文件采取聚合的操作,大文件采取切片的操作,所有数据以大小均衡的模式保存到全局缓存中,实现小文件性能提升5倍,大文件性能提升10倍。在模型训练中断后,从Checkpoint恢复数据过程中,AVERSE通过缓存预读技术,提前识别数据的冷热程度,加速了重复样本数据的读取,训练加载速度提升10倍。无论是读操作还是写操作,AVERSES采取了字节级(Byte)分布式锁机制,粒度是主流并行文件系统锁机制粒度的几十分之一,确保多个节点访问共享资源时能够安全、有序地进行操作,从而保持训练数据的强一致性和训练质量。

智能空间均衡性能无衰减

AVERSE搭载了暴雨信息自主研发的分布式并行客户端技术,相比通用私有客户端,卸载了独立的元数据,实现了元数据和数据节点的高效统一部署,有效提升存储的并发能力,充分利用训练节点网卡的带宽,让GPU算力得到完全释放。同时在存储端,相较于业界主流的文件系统需要在磁盘之上构筑一层文件协议,AVERSE能够直接对裸盘的空间进行均衡排布,并在管理层面设计了智能空间预分技术,能够结合用户前端算力节点数量、训练模型的数量,对存储空间分配进一步进行智能策略预埋。这套组合拳能够使AVERSE在空间利用率达到95%高水位时,依然可以平稳输出强大的性能。在模型训练的空间损耗上,AVERSE相较传统方案,将损耗率降低了85%左右,充分保护了客户在大模型存储上的投资。

■ GPU直通服务万亿参数大模型

当大模型参数在百亿级别,GPU对存储资源的调用效率往往差别不大。但随着大模型从单模态走向多模态,数据量指数型增长,训练效率随之要求更高。从数据层面来看,AVERSE具备和GPU直通的能力,数据流不经过客户端缓存,直接到达存储底层文件系统,缩短GPU与存储的读取路径,这项技术能够使存储读写带宽翻倍,大模型训练加载时间缩短50%。随着万卡万亿参数模型时代的到来,GPU直通存储高效提升数据读写访问的能力将是大模型训练的标配。

通过上述技术创新,分布式全闪存储AVERSE凭借领先的性能和管理优势,能够帮助用户加速大模型的数据归集、提升模型训练效率、简化海量异构数据的管理,从而推动业务智能化变革。暴雨信息将借助AVERSE等存储产品,与合作伙伴加快在场景化方案定制、市场拓展等方面的创新,助力用户构筑人工智能时代最佳数据存储底座。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3015885.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

06-07 - 变量的高级主题

---- 整理自狄泰软件唐佐林老师课程 文章目录 1. 变量值的替换2. 变量的模式替换3. 规则中的模式替换4. 变量值的嵌套使用5. 命令行变量6. 环境变量7. 目标变量(局部变量)8. 模式变量9. 工程 1. 变量值的替换 使用指定字符(串)替…

vue-img-cutter 图片裁剪详解

前言&#xff1a;vue-img-cutter 文档&#xff0c;本文档主要讲解插件在 vue3 中使用。 一&#xff1a;安装依赖 npm install vue-img-cutter # or yarn add vue-img-cutter # or pnpm add vue-img-cutter 二&#xff1a;构建 components/ImgCutter.vue 组件 <script se…

激光雕刻优化:利用RLE压缩技术提高雕刻效率与节省能源成本

什么是 RLE &#xff1f;RLE 在激光雕刻应用实现代码&#xff1a;总结 什么是 RLE &#xff1f; RLE 是 Run-Length Encoding&#xff08;游程长度编码&#xff09;的缩写。这是一种数据压缩技术&#xff0c;它通过减少连续重复的数据来减小文件的大小。RLE 在图像处理、无损…

linux学习:音视频编程+alsa声音架构

目录 概念 采样 量化 编码 音频文件wav 格式 标准音频接口 ALSA 录制音频 步骤 api 获取pcm设备句柄 设置 PCM 设备参数 代码 播放音频 步骤 代码 概念 信号都是模拟信号&#xff0c;不管是声音还是光线&#xff0c;这些模拟信号需要被 A/D 转换器转换成数字信…

小程序预览或上传代码时,遇到app.json未找到某个wxml文件的解决方法

uniapp小程序&#xff0c;点击预览或者是上传代码&#xff0c;遇到app.json无法找到某个wxml文件的解决方法&#xff1a;清缓存 问题&#xff1a; message&#xff1a;Error: app.json: 未找到 ["subPackages"][3]["pages"][3] 对应的 subPackages4/pages/…

PXE 批量安装部署

目录 一、PEX批量部署优点 二、PXE&#xff1a;预启动执行环境 三、搭建PXE远程服务器 要想全自动安装 接下来请看步骤&#xff1a; 一、PEX批量部署优点 规模化&#xff1a;同时装配多台服务器自动化&#xff1a;安装系统 配置各种服务远程实现&#xff1a;不需要光盘&…

语音识别--光谱门控降噪

⚠申明&#xff1a; 未经许可&#xff0c;禁止以任何形式转载&#xff0c;若要引用&#xff0c;请标注链接地址。 全文共计7267字&#xff0c;阅读大概需要3分钟 &#x1f308;更多学习内容&#xff0c; 欢迎&#x1f44f;关注&#x1f440;【文末】我的个人微信公众号&#xf…

FSC森林认证是什么?

FSC森林认证&#xff0c;又称木材认证&#xff0c;是一种运用市场机制来促进森林可持续经营&#xff0c;实现生态、社会和经济目标的工具。FSC森林认证包括森林经营认证&#xff08;Forest Management, FM&#xff09;和产销监管链认证&#xff08;Chain of Custody, COC&#…

使用IIS部署Vue项目

前提 使用IIS部署Vue项目&#xff0c;后端必须跨域&#xff0c;不要在Vue中用proxy跨域&#xff0c;那个只在dev环境中有用&#xff01; IIS安装&#xff0c;不用全部打勾&#xff0c;有些他默认就是方块 ■ 选择性安装的&#xff0c;就维持原样就可以。 添加网站配置 右键…

Ecovadis认证是什么?

Ecovadis认证是一种企业社会责任&#xff08;CSR&#xff09;评估和评级的认证&#xff0c;旨在衡量企业在环境、劳工和人权、道德以及可持续采购四个方面的可持续发展表现。该认证已成为全球范围内许多公司和组织的评估标准之一&#xff0c;有助于提高企业的会声誉和可持续发展…

Redis系列之key过期策略介绍

为什么要有过期策略&#xff1f; Redis是一个内存型的数据库&#xff0c;数据是放在内存里的&#xff0c;但是内存也是有大小的&#xff0c;所以&#xff0c;需要配置redis占用的最大内存&#xff0c;主要通过maxmemory配置 maxmomory <bytes> # redis占用的最大内存官…

Pycharm无法链接服务器环境(host is unresponsived)

困扰了很久的一个问题&#xff0c;一开始是在服务器ubuntu20.04上安装pycharm community&#xff0c;直接运行服务器上的pycharm community就识别不了anaconda中的环境 后来改用pycharm professional也无法远程连接上服务器的环境&#xff0c;识别不了服务器上的环境&#xff…

Nessus 部署实验

一、下载安装https://www.tenable.com/downloads/nessus 安装好之后&#xff0c;Nessus会自动打开浏览器&#xff0c;进入到初始化选择安装界面&#xff0c;这里我们要选择 Managed Scanner 点击继续&#xff0c;下一步选择Tenable.sc 点击继续&#xff0c;设置用户名和密码 等…

2024DCIC海上风电出力预测Top方案 + 光伏发电出力高分方案学习记录

海上风电出力预测 赛题数据 海上风电出力预测的用电数据分为训练组和测试组两大类&#xff0c;主要包括风电场基本信息、气象变量数据和实际功率数据三个部分。风电场基本信息主要是各风电场的装机容量等信息&#xff1b;气象变量数据是从2022年1月到2024年1月份&#xff0c;…

翻译《The Old New Thing》- Rendering menu glyphs is slightly trickier

Rendering menu glyphs is slightly trickier - The Old New Thing (microsoft.com)https://devblogs.microsoft.com/oldnewthing/20050802-13/?p34743 Raymond Chen 2005年08月02日 上次&#xff0c;我们看到了如何绘制有主题和无主题的单选按钮&#xff0c;我提到菜单位图更…

cmake进阶:目录属性说明一

一. 简介 接下来简单学习一下 cmake 中的属性相关的概念。 属性大概可以分为多种&#xff1a;全局属性、目录属性&#xff08;源码属性&#xff09;、目标属性以及其它一些分类。 二. cmake进阶&#xff1a;目录属性 cmake中的属性可以 在如下网址查询到&#xff1a; http…

【深度学习实战(33)】训练之model.train()和model.eval()

一、model.train()&#xff0c;model.eval()作用&#xff1f; model.train() 和 model.eval() 是 PyTorch 中的两个方法&#xff0c;用于设置模型的训练模式和评估模式。 model.train() 方法将模型设置为训练模式。在训练模式下&#xff0c;模型会启用 dropout 和 batch norm…

python爬虫学习------scrapy第三部分(第三十一天)

&#x1f388;&#x1f388;作者主页&#xff1a; 喔的嘛呀&#x1f388;&#x1f388; &#x1f388;&#x1f388;所属专栏&#xff1a;python爬虫学习&#x1f388;&#x1f388; ✨✨谢谢大家捧场&#xff0c;祝屏幕前的小伙伴们每天都有好运相伴左右&#xff0c;一定要天天…

ttkbootstrap界面美化系列之PanedWindow(七)

在界面设计中经常用PanedWindow控件来对整个界面进行切割布局&#xff0c;让整个界面看上去有层次感&#xff0c;不至于说杂乱无章。在我之前的文章中有对tkinter的该控件做了详细的介绍&#xff0c;链接如下基于Tkinter的PanedWindow组件进行窗口布局-CSDN博客 本文主要是介绍…