swift与Internvl下的多模态大模型分布式微调指南(附代码和数据)

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 基于Dify的智能分类方案:大模型结合KNN算法(附代码)
  2. OpenCompass:大模型测评工具
  3. 一文读懂多模态大模型基础架构
  4. 大模型管理平台:one-api使用指南
  5. 大模型RAG、ROG、RCG概念科普
  6. RAGOnMedicalKG:大模型结合知识图谱的RAG实现
  7. DSPy:变革式大模型应用开发
  8. 最简明的Few-shot Prompt指南
  9. Semantic Kernel:微软大模型开发框架——LangChain 替代
  10. 对话大模型Prompt是否需要礼貌点?
  11. swift与Internvl下的多模态大模型分布式微调指南(附代码和数据)

文章目录

  • 大模型相关目录
  • OCR多模态大模型微调全流程记录
    • 前言
    • 微调框架部署
    • 数据集构建及注册
    • 微调配置


OCR多模态大模型微调全流程记录

前言

微调框架:swift
微调模型:internvl-chat-v1_5
微调任务:多模态大模型在指定任务上的OCR能力微调优化
微调显存:55G,多batch时对单卡要求较高(4090不能满足需求)

在这里插入图片描述

微调框架部署

git clone https://kkgithub.com/modelscope/swift.git
cd swift/
conda create -n swift -y python=3.11
conda activate swift
pip install -e '.[llm]'# glm4-v还需要额外安装torchvision
pip install torchvision
# minicpm-v-v2_5-chat还需要timm
pip install timm

数据集构建及注册

下载开源数据集,以多模态OCR数据集为例:
该数据集包含2个部分,即JPG、PNG格式的带编号图像数据集和与图像数据集对应的QA问答JSONL数据集。
在这里插入图片描述
在这里插入图片描述
寻找swift在多模态任务中所需的数据格式:
在这里插入图片描述
编写脚本,批量处理数据格式:

import json# 写入jsonl文件
def write_jsonl(data_list, filename):with open(filename, 'w', encoding='utf-8') as f:for item in data_list:json_str = json.dumps(item, ensure_ascii=False)  # 将Python对象转换为JSON格式的字符串f.write(json_str + '\n')# 读取jsonl文件
def read_jsonl(filename):data_list = []with open(filename, 'r', encoding='utf-8') as f:for line in f:data_list.append(json.loads(line))  # 将JSON格式的字符串转换为Python对象return data_list# 读取jsonl文件
read_data = read_jsonl('/home/super/sgq/swift/metadata.jsonl')# 打印读取的数据
new_data = []
for item in read_data:new_data.append({"query": item['question'],"response": item['answers'],"images": ["/self_data/test/"+item['file_name']]})write_jsonl(new_data,'finall_data.jsonl')

为使数据能够在框架中进行应用,需进行数据集注册:
于路径:
/home/super/sgq/swift/swift/llm/data/dataset_info.json
对数据集信息进行注册,自定义数据集格式参考:
在这里插入图片描述
需强调的是,默认数据集使用dataset_id字段进行索引定位,自定义数据集使用dataset_path即可,目前仅支持jsonl、json格式,推荐jsonl。
最后附处理后可用于微调的数据集:
链接:https://pan.baidu.com/s/1dvWs8ny2-bky_zAWIXnxrg
提取码:ybwe

微调配置

项目部署成功,且数据集准备后,启动框架,指令如下:

cd sgq/swift/
conda activate swift
WEBUI_SERVER=0.0.0.0 swift web-ui

启动后界面如下:
在这里插入图片描述
1.选择需要微调训练的模型型号:
在这里插入图片描述
如图所示,在选项栏中选定internvl-chat-v1_5,后方的路径和模型类型系统会自动加载。须注意的是,模型路径是项目缓存路径,由框架自动缓存并路由。未试验自定义路径时框架是否能够作用。
2.配置系统提示词和微调数据集,数据集可多选,具体如下方红色框图区域所示:
在这里插入图片描述
需注意的是,选择数据集要出现在可选下拉框中且可用,必须安装“数据集构建及注册”所强调的步骤自定义数据并注册。
3.训练方式配置
在这里插入图片描述
默认训练方式采取LoRA,需设置精度为bf16。
在这里插入图片描述
设置batch为1,2及以上时4090卡会报显存溢出。
学习率等参数保持不变,本文未提到的参数项均可不做改动。
Flash attention可选项勾上,这是一种显存利用优化方案。
下拉项目界面,LoRA更多参数设置如图:
在这里插入图片描述
以上参数设置为经验之谈,网上案例如此配置效果较好。
4.点击开始训练,若无报错,显示显存加载,并最终显示预估训练时间即表示微调成功。
在这里插入图片描述
在这里插入图片描述
5.微调成功后,查看训练结果(日志及模型全重)。
训练日志路径:
/home/super/output/internvl-chat-v1_5/v4-20240708-180015/runs/
训练参数:
“/home/super/output/internvl-chat-v1_5/v4-20240708-180015/training_args.json”
训练度量:
“/home/super/output/internvl-chat-v1_5/v4-20240708-180015/logging.jsonl”

在这里插入图片描述
可视化脚本:

import json
loss_values = []
acc_values = []
# 打开JSONL文件
with open(r"C:\Users\12258\Desktop\logging.jsonl", 'r') as file:for line in file:try:# 加载每一行的JSON对象entry = json.loads(line)print(entry)# 打印出每个条目的内容loss_values.append(entry['loss'])acc_values.append(entry['acc'])except:Pass
import matplotlib.pyplot as plt
# Plot the loss values
plt.plot(loss_values, label="Loss")
plt.xlabel("Global Step")
plt.ylabel("Loss")
plt.title("Loss Over Global Steps")
plt.legend()
plt.grid(True)
plt.show()
import matplotlib.pyplot as plt
# Plot the loss values
plt.plot(acc_values, label="Acc",color='orange')
plt.xlabel("Global Step")
plt.ylabel("Acc")
plt.title("Acc Over Global Steps")
plt.legend()
plt.grid(True)
plt.show()

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3225795.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

InavFlight飞控固件学习-1《开发环境搭建》

目录 文章目录 目录摘要1.官网2.形成Linux开发环境工具2.1 简介2.2 相关工具2.2.1 Ubuntu / Debian系统配置命令2.2.2 Fedora系统配置命令2.2.3 Fedora系统配置命令 2.3 克隆存储库2.4 构建工具2.5 使用cmake2.6 构建固件2.7 清除2.8 cmake 缓存维护2.9 编译通过ninja2.10 更新…

小程序跳企业微信教程

来别急,我说几个点,你先记着, 必须真机才能测必须要企业微信里头去配置下关联到对应的小程序(文章底部有图)要同一个公司主体! 说说几个报错, 一、代码其实就这么一个,你别在微信…

virtuoso:layout如何做flat修drc

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 有些drc在virtuoso layout中修更节省时间,比如遇到一些via array需要做删改时,发现工具把via array做成了一个cell,如图。 去改cell可能会影…

高考志愿怎么选专业,哪些是热门专业?

选专业看上去非常简单,但是真正做起来的时候确实不容易,因为对于很多结束高考的学生来说,选专业就意味着他们选择自己的未来,这可是直接关系到未来的学习和职业发展,关系到将来的就业方向,再加上现在的社会…

逆向案例十一——华强北登录逆向

网址:aHR0cHM6Ly9wYXNzcG9ydC5ocWV3LmNvbS9sb2dpbg 登陆页面: 打开开发者工具会出现debugger调试: 直接使用一律不再此处暂停即可。点击登录,找到登录包。 发现有三个参数进行了加密,分别是Password,UserName和Devic…

如何修复 wxpython 事件调用?

1、问题背景 在使用 wxpython 开发 GUI 时,遇到了一个问题。当鼠标悬停在 BitmapButton 上时,会同时调用两个事件: self.Bind(wx.EVT_LEAVE_WINDOW, self.onPanelMouseLeave)self.Bind(wx.EVT_ENTER_WINDOW, self.onPanelMouseOver) 这导致…

解决U盘识别不了的一个小思路

我的U盘在自己在其他地方能正常使用,但是到了自己电脑突然就用不了了,其他设备也同样在自己电脑可以正常读写。 看了经验贴,大多是在设备管理器设置启动,但我的U盘明显不是这个问题。后面我看到一个贴子上的一个评论,想…

MQ四兄弟:如何保证消息顺序性

在当今的分布式系统架构中,消息队列(MQ)是不可或缺的组成部分。它们在确保系统组件之间高效通信方面发挥着关键作用。特别是在金融交易、物流跟踪等对消息处理顺序有严格要求的场景中,消息队列的顺序性保证显得更为重要。接下来&a…

本地电脑连接FTP服务器,显示无权限连接?

问题: 打开文档,在这一栏输入ftp服务器地址,按下回车,弹出无权限提示。 解决方案: 1、系统设置——网络和Internet——网络和共享中心 2、Internet选项 3、高级——取消“使用被动FTP”的勾选

@RequestBody注解的使用及源码解析

前言 RequestBody 注解是我们进行JavaEE开发,最常见的几个注解之一,这篇博文我们以案例和源码相结合,帮助大家更好的了解 RequestBody 注解 使用案例 1.自定义实体类 Data NoArgsConstructor AllArgsConstructor public class User {priv…

如何判断一个js对象为数组类型

如何判断一个js对象为数组类型? 能想到的最常见的intanceof是吗?开始是这么认为,但是不是哈,看下面的解释,也没有太明白,暂且记住吧 综上,判断js对象为数组的两种方式 Array.isArray([]) // trueObject.prototype.toString.call([]) ‘[object Array]’ //true

Oracle基础以及一些‘方言’(一)

1、什么是Oracle ORACLE数据库系统是美国ORACLE公司(甲骨文)提供的以分布式数据库为核心的一组软件产品,是最流行的客户/服务器(CLIENT/SERVER)或B/S体系结构的数据库之一。 ORACLE 通常应用于大型系统的数据库产品。 ORACLE 数据库是目前世界…

CSDN回顾与前行:我的创作之旅——2048天的技术成长与感悟

CSDN回顾与前行:我的创作之旅——2048天的技术成长与感悟 💖The Begin💖点点关注,收藏不迷路💖 前言 时光荏苒,岁月如梭。转眼间,从我在CSDN上写下第一篇技术博客《2-6 带头结点的链式表操作集…

从头开始学习扩散模型 Stable Diffusion

今天我们来揭开 Stable Diffusion 技术的神秘面纱。 1.稳定扩散原理 Stable Diffusion 在2022年发表,一种基于Latent Diffusion Models的新兴机器学习技术。它基于扩散过程,利用数学模型将机器学习中的高维度数据降低到低维度空间,并在该空间…

安卓 无线投屏 sink端 RTSP报 “505 RTSP Version not supported“

最近做安卓无线投屏的sink端,自己手搓RTSP协议,自己手搓容易出错,然后报了上面505,这个RTSP文档的意思是版本不一致,但是出现 "505 RTSP Version not supported"不一定是版本不一致,可能是 消息错…

AI究竟是在帮助开发者还是取代他们?来看大佬的观点你就明白了

AI(人工智能)在现代社会中扮演着越来越重要的角色,其在软件开发领域的应用也日益广泛。关于AI是在帮助开发者还是取代他们,V 哥个人认为,一半一半吧,为什么这么说,先不用噴,我们需要…

一个使用Go语言和现代Web技术构建跨平台桌面应用程序开源项目

大家好,今天给大家分享一个使用Go语言和现代Web技术构建跨平台桌面应用程序开源项目Wails。 Wails是一个允许开发者使用Go和Web技术编写桌面应用程序的项目。 它被设计为Go的快速且轻量的Electron替代品,旨在提供一个平台,让开发者可以利用Go…

excel PivotTable 透视表

开发数据导出excel功能,设置导出透视表 数据源: 透视表: 使用插件EPPlus 数据源: IF OBJECT_ID(tempdb..#temptable) IS NOT NULLDROP TABLE #temptable; CREATE TABLE #temptable ( [PROJECT] varchar(50), [PRODUCT_CODE] var…

Java NIO合并多个文件

NIO API java.nio (Java Platform SE 8 ) 直接上代码 package com.phil.aoplog.util;import lombok.extern.slf4j.Slf4j;import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.nio.channels.FileChannel;Slf4j public…

深入剖析C++的 “属性“(Attribute specifier sequence)

引言 在阅读开源项目源代码是,发现了一个有趣且特殊的C特性:属性。 属性(attribute specifier sequences)是在C11标准引入的。在C11之前,编译器特有的扩展被广泛用来提供额外的代码信息。例如,GNU编译器&…