H800算力低至5.99元/卡时!抢鲜体验LLaMA3最佳实践就在潞晨云

由Meta发布的LLaMA3 8B和LLaMA3 70B的,将开源AI大模型推向新的高度。在多个基准测试上的表现均大幅超过已有竞品,成为AI应用的最新优选。

潞晨云现已上架 LLaMA3 8B和LLaMA3 70B从推理到微调和预训练的实践教程

提供免费测试代金券,限时特供H800-80GB-NVLINK低至5.99元/卡时等算力支持。

诚邀感兴趣的用户前来注册体验。

体验地址:https://cloud.luchentech.com/

其中在64卡H100集群上,经过潞晨Colossal-AI优化,相比微软+英伟达方案,可提升LLaMA3 70B的训练性能近20%,推理性能也优于vLLM等方案。


 

不仅好用还便宜的潞晨云

想体验LLaMA3等AI任务,还需要有GPU等算力支持。目前主流的AI云主机有AWS、AutoDL、阿里云等。但GPU资源不仅昂贵稀缺,供应商普遍还要求使用者必须预先进行高额投入,按年或提前数个月预付定金。

潞晨云不仅提供了便捷易用的AI解决方案,还为力求为广大AI开发者和其他提供了随开随用的廉价算力:

价格信息统计于2024年4月16日,普通账号可按需按量开启的价格及可用性,大型云厂商一般仅支持老旧型号算力(Nvdia V100/P100等)按需按量使用,美元-人民币汇率换算为1:7.2368

原价19.99元/卡时的H800-80GB-NVLINK,限时特供低至5.99元/卡时!

对于使用较稳定的长期需求,在潞晨云还可以按月、按年租用,获得进一步折扣。

潞晨云还为新用户准备了多种形式的优惠代金券活动,注册即可白嫖H800、A800、4090、910B等高端算力,构建属于自己的AI大模型!

使用潞晨云部署和训练LLaMA3

01创建云主机

新注册用户自动获得代金券额度!

打开算力市场,按照筛选目标算力。

可以看到如图所示的控制台页面,右边是两台可用的服务器,每台上有8块可租用的GPU,我们选择一个,点击“8卡可租”按钮,进入算力市场界面。

在租用配置选择界面,为自己的云主机取一个名字并选择任务所需数量的显卡,LLaMA3 8B推理可以在单卡H800上完成),因此,此处选择1卡H800。

02推理

Colossal-Inference现已适配支持了LLaMA-3推理加速。在潞晨云,您可以选择推理镜像,使用Colossal-Inference进行推理优化提速,体验LLaMA-3的自然语言生成能力。

前期准备

LLaMA-3模型权重已准备好,无需额外安装步骤。

推理生成

运行生成脚本

PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B" # huggingface or local model path

进行多卡TP推理,如下例使用两卡生成

colossalai run --nproc_per_node 2 llama_generation.py -m PRETRAINED_MODEL_PATH --max_length 80 --tp_size 2

吞吐脚本

运行吞吐Benchmark测试

PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B"

单卡H100对LLaMA3-8B进行Benchmark结果与vLLM对比(例:输入序列长度128,输出长度256)


 

03微调与继续预训练

我们在原有 LLaMA-2 汉化项目中,支持了 LLaMA-3 的继续预训练与微调。在潞晨云,您可以通过选择训练镜像,快速对 LLaMA-3 进行继续预训练与微调。

前期准备

1. 编译安装 Colossal-AI​

cd /root/ColossalAI
BUILD_EXT=1 pip install .

2. 创建训练需要的文件夹

mkdir /root/training_outputs
mkdir /root/training_outputs/checkpoints
mkdir /root/training_outputs/configs
mkdir /root/training_outputs/tensorboards

3. 修改 hostfile


cd /root/ColossalAI/ColossalAI/applications/Colossal-LLaMA/
cp hostfile.example hostfile

注:可通过 `apt install iproute2 -y` 在镜像中安装 ip addr 指令查看镜像内 ip 地址

​数据准备

当前路径:

/root/ColossalAI/ColossalAI/applications/Colossal-LLaMA/

1. 继续预训练

{"source": "", "target": "Lionel Andrés Messi(Spanish pronunciation: [ljoˈnel anˈdɾes ˈmesi] (i); born 24 June 1987), also known as Leo Messi, is an Argentine professional footballer who plays as a forward for and captains both Major League Soccer club Inter Miami and the Argentina national team.", "category": "sports"}
{"source": "猜谜语:一身卷卷细毛,吃的青青野草,过了数九寒冬,无私献出白毛。(打一动物)", "target": "白羊", "category": "riddle"

python prepare_pretrain_dataset.py \--data_input_dirs "Directory that contains one or more JSONL file(s)>" \--tokenizer_dir "Tokenizer directory" \--data_output_dirs "Spliced tokenized output" \--max_length 8192 \--num_spliced_dataset_bins 10

2. 微调

{"messages": [{"from": "human", "content": "What are the three primary colors?"}, {"from": "assistant", "content": "The three primary colors are red, blue, and yellow."}]}
{"messages": [{"from": "human", "content": "解释个人电脑和服务器之间的区别。"}, {"from": "assistant", "content": "个人电脑和服务器是两种不同类型的计算机系统,它们的主要区别在于用途、硬件配置和性能。个人电脑,顾名思义,是为个人使用而设计的计算机。它们通常用于日常的工作、娱乐和学习,可以运行各种各样的应用程序和游戏。个人电脑的硬件配置一般是按照标准配置来设计的,不过也可以根据个人需求进行定制。而服务器是为了满足大量用户的需求而设计的计算机系统,它们通常用于为用户提供各种网络服务,如网站、电子邮件和文件传输等。服务器通常需要高性能的硬件配置,并且可以承受高负载和长时间的运行。由于服务器需要支持大量用户的访问,它们通常配备多核处理器、大容量内存和大容量硬盘驱动器,以提高系统的运行速度和稳定性。总之,个人电脑和服务器之间的主要区别在于它们的用途、硬件配置和性能。个人电脑用于个人使用,而服务器用于支持大量用户的访问。服务器的硬件配置通常比个人电脑更高,以保证系统的性能和稳定性。"}]}

python prepare_sft_dataset.py.py \--data_input_dirs "Directory that contains one or more JSONL file(s)>" \--tokenizer_dir "Tokenizer directory" \--data_output_dirs "Spliced tokenized output" \--max_length 8192 \--num_spliced_dataset_bins 10 \--llama_version 3

运行成功后,data_output_dirs 文件夹内会自动生成 3 个子文件夹,其中,arrow 文件夹中的数据可用来直接训练。

我们提供简单数据集以供测试,处理好数据集可见:

/root/notebook/common_data/tokenized-cpt-data

训练脚本

当前路径:

/root/ColossalAI/ColossalAI/applications/Colossal-LLaMA/

1. 修改 config 文件

cp train.example.sh train.sh
#更新训练脚本

2. 参考训练脚本

PROJECT_NAME="LLaMA-3-8B-cpt"
PARENT_SAVE_DIR="/root/training_outputs/checkpoints/" # Path to a folder to save checkpoints
PARENT_TENSORBOARD_DIR="/root/training_outputs/tensorboards/" # Path to a folder to save logs
PARENT_CONFIG_FILE="/root/training_outputs/configs/" # Path to a folder to save training config logs
PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B" # huggingface or local model path# 以预置已处理数据集为例
declare -a dataset=(/root/notebook/common_data/tokenized-cpt-data/arrow/part-00000/root/notebook/common_data/tokenized-cpt-data/arrow/part-00001/root/notebook/common_data/tokenized-cpt-data/arrow/part-00002
)TIMESTAMP=$(date +%Y-%m-%d-%H-%M-%S)
FULL_PROJECT_NAME="${PROJECT_NAME}-${TIMESTAMP}"
SAVE_DIR="${PARENT_SAVE_DIR}${FULL_PROJECT_NAME}"
CONFIG_FILE="${PARENT_CONFIG_FILE}${FULL_PROJECT_NAME}.json"colossalai run --nproc_per_node 8 --hostfile hostfile --master_port 31312 train.py \--pretrained $PRETRAINED_MODEL_PATH \--dataset ${dataset[@]} \--plugin "zero2" \--save_interval 400 \--save_dir $SAVE_DIR \--tensorboard_dir $TENSORBOARD_DIR \--config_file $CONFIG_FILE \--num_epochs 1 \--micro_batch_size 2 \--lr 1e-4 \--mixed_precision "bf16" \--grad_clip 1.0 \--weight_decay 0.01 \--warmup_steps 100 \--use_grad_checkpoint \--use_flash_attn \


 

其他训练详情可参考:https://github.com/hpcaitech/ColossalAI/tree/main/applications/Colossal-LLaMA

04大规模训练

对于大规模预训练等场景,结合LLaMA3 序列变长、embedding增大等特性,我们针对3D混合并行场景进行了优化,通过自定义流水线切分、gradient checkpoint策略,我们可以进一步精细化控制每个GPU的内存占用和速度,从而达到整体训练效率的提升。

我们使用整数线性规划搜索出在64x H100上最适合LLaMA3-70B的切分、gradient checkpoint策略,最终训练可以达到每卡410+ TFLOPS的卓越性能。

详情可参考:

​https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/llama

​此例子附上了我们测试时使用的配置。使用方法如下

git clone https://github.com/hpcaitech/ColossalAI
cd ColossalAI/examples/language/llama
BUILD_EXT=1 pip install -U git+https://github.com/hpcaitech/ColossalAI
pip install -r requirements.txt
export PYTHONPATH=$(realpath ..)
colossalai run --nproc_per_node 8 --hostfile HOSTFILE benchmark.py -c Meta-Llama-3-70B -x -g -p 3d --tp 4 --pp 4 --zero 1 -l 8192 --mbs 2 -b 128 --custom-ckpt

百万福利大放送!羊毛速薅

潞晨云已准备首期百万元的代金券,后续还会不断放出,可以持续关注!

注册即送:新账户注册即送50元代金券,便捷试用多种AI算力。

企业认证:完成企业认证的账户可额外获得1000元代金券,可稳定测试多机H800等稀缺资源。

在线评价:用户在社交媒体和专业论坛(如知乎、小红书、微博、CSDN等)上分享使用体验,有效分享一次可得100元代金券。每月最佳分享可额外再获500元代金券(根据点赞、评论等真实活跃度;每个账号最多每月各计一次;发布24小时后请找小客服核对验证)

加入用户群:不定时发放特价资源、代金券等优惠活动。

欢迎访问潞晨云官方网站:http://cloud.luchentech.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2982344.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

树莓派学习之入门必会操作

树莓派学习之入门指南 一、软件准备二、镜像烧录三、远程登录 一、软件准备 ①raspberry pi image(官方烧录工具,将操作系统烧录到SD卡,SD卡插入树莓派) ②putty(远程登录软件,输入ip,以及username/password就可以远程登录树莓派不带图形化的…

【SMART目标法】项目管理必会的思维分析工具 06

SMART分析方法,是让管理者的工作变被动为主动的一个很好的手段。实施目标管理不但是有利于员工更加明确高效地工作,更是为未来的绩效考核制定了目标和考核标准,使考核更加科学化、规范化,更能保证考核的公开、公平与公正。 “sma…

嵌入式MCU和SOC的区别?

你大概率并不知晓嵌入式 MCU 与 SOC 之间的区别吧?从表面上来看,MCU 指代的是嵌入式微控制器,而 SOC 则代表着片上系统,这仿佛仅仅是嵌入式系统的不同称谓罢了。然而,在实际的研发以及产品设计过程中,你将会…

【算法刷题 | 贪心算法02】4.24(摆动序列)

文章目录 3.摆动序列3.1题目3.2解法:贪心3.2.1贪心思路3.2.2代码实现 3.摆动序列 3.1题目 如果连续数字之间的差严格地在正数和负数之间交替,则数字序列称为 摆动序列 。 第一个差(如果存在的话)可能是正数或负数。仅有一个元素…

docker-compose搭建redis环境:哨兵模式(一主两重两哨兵)

文章目录 0.BG1. 编写docker-compose.yml文件2. 哨兵配置文件sentinel.conf3.启动容器4.模拟故障转移 0.BG redis环境有多中模式,包括Standalone,Cluster和Sentinel模式等。这里介绍一种简单搭建Sentinel模式的方法,搭建一个一主两重两哨兵的…

一文速览Llama 3及其微调:如何通过paper-review数据集微调Llama3 8B

前言 4.19日凌晨正准备睡觉时,突然审稿项目组的文弱同学说:Meta发布Llama 3系列大语言模型了 一查,还真是 本文以大模型开发者的视角,基于Meta官方博客的介绍:Introducing Meta Llama 3: The most capable openly a…

vue中web端播放rtsp视频流(摄像头监控视频)(海康威视录像机)

一、ffmpeg安装​​​​​​ ffmpeg下载 https://ffmpeg.org/download.html找ffmpeg-release-essentials.zip点击下载,下载完解压ffmpeg.exe 程序运行 二、配置ffmpeg环境变量 添加成功后验证是否生效任意地方打开cmd窗口输入 ffmpeg 打印如下表示成功 三、node…

Codeforces Educational Codeforces Round 164 E. Chain Reaction 【思维、分块、调和级数复杂度】

E. Chain Reaction 题意 有 n n n 个怪物排成一行,第 i i i 个怪物的生命值为 a i a_i ai​ 当一只怪物的生命值为正数时,它才被认为是活着的 假设你的闪电技能每次能够造成 k k k 点伤害,你每次可以选择一个怪物攻击,这只怪…

如何使用 Vercel 托管静态网站

今天向大家介绍 Vercel 托管静态网站的几种方式,不熟悉 Vercel 的伙伴可以看一下之前的文章:Vercel: 开发者免费的网站托管平台 Github 部署 打开 Vercel 登录界面,推荐使用 GitHub账号 授权登录。 来到控制台界面,点击 Add New …

Linux——NFS网络文件系统

在生产环境中共享宿主目录可以用于集中管理账户 一、存储设备 DAS 是直连存储相当于移动硬盘 NAS 是网络文件系统,挂载后可以直接访问 SAN 存储区域网络 IPSAN 网线连接 共享的是设备,需要挂载后分区使用 FCSAN 光纤连接 二、服务的管理 1、安…

【一些神金】怎么缓解工作压力?使用VS-code彩虹屁插件

怎么缓解工作压力? 其实吃点好的,多睡一会儿,再锻炼锻炼身体就好。 但我只是想炫耀一下这个彩虹屁插件。 原版插件:VS-code-Rainbowfart 我的版本:RainbowFart-Oberon 基于 MIT 开源,包括所有设计资源及音…

影视后期特效合成:DaVinci Fusion Studio19 激活版

DaVinci Fusion Studio是一款功能强大的影视后期特效合成软件,可广泛应用于视觉效果、广播电视设计、动态图形设计、3D动画设计等领域。 如综合的绘图、动态掩蔽、遮片、图层叠加、字幕等工具,结合高效的粒子生成系统,通过它可以创建各种精细…

【电控笔记5.10】Luenberger估测器

Luenberger估测计 单积分器:pi控制器的补偿 双积分器:使用pid控制器的补偿 除了受控厂跟传感器,其他都在mcu 去掉Rs就是一个PLL锁相环 带宽比PLL更大

【Linux】gdb的简单使用

文章目录 一、gdb是什么?二、使用说明1. 安装2. 注意事项3. 常用调试指令3.1 gdb3.2 l3.3 r3.4 n3.5 s3.6 b3.7 info b3.8 finish3.9 p3.10 set var3.11 c3.12 d breakpoints3.13 d n3.14 disable/enable breakpoints3.15 disable/enable n3.16 info b3.17 display …

如何在Windows服务做性能测试(CPU、磁盘、内存)

目录 前言1. 基本知识2. 参数说明 前言 由于需要做一些接口测试,测试是否有真的优化 1. 基本知识 该基本知识主要用来用到Performance Monitor,以下着重介绍下这方面的知识 性能监视器(Performance Monitor):Windo…

梯度下降法总是在同一点收敛吗?

梯度下降法总是在同一点收敛吗? 梯度下降法并不总是在同一点收敛。梯度下降法的收敛取决于多个因素,包括初始参数的选择、学习率的设置、损失函数的形状等。 以下是一些影响梯度下降法收敛行为的关键因素: 1.初始参数: 初始参数…

【数据库】三、数据库SQL语言命令(基础从入门到入土)

【全文两万多字,涵盖大部分常见情况,建议点赞收藏】 目录 文章目录 目录安装SQL语言1.使用2.DATABASE查看所有库新建数据库修改数据库删除数据库连接数据库 3.TABLE创建表查看库所有表删除表查看表信息重命名表修改表字段(列)表中…

【八股】Java基础、集合、JVM

面向对象三大特性 1 封装: 将 方法 和 属性 写到同一个类中,并将属性 私有化,生成 get set方法,外部访问属性需要通过get和set方法,内部可以直接访问属性,这样的一个类我们认为它完成了封装。 2 继承: 子…

月入8k,21岁计算机专业男孩转行网优,天赋可以让人发光,努力也能!

今天的主人公是一位仅21岁的年轻小帅哥,大学学的是计算机专业,毕业后的工作是卖苦力,工作一段时间后毅然决然的选择了转行后台网优,让我们一起来看看这位21岁男孩转行背后的故事... 卖苦力,是没有前途的 今天的主人公…