书生大模型实战营闯关 - 8GB显存玩转书生大模型demo

创建开发机

创建一个使用10%GPU算力,cuda12.2系统的开发机,并启动。由于开发机的IO性能较差,开发机共享盘中已经创建好了本次实验所需要的conda环境

# 启动共享的conda环境
conda activate /root/share/pre_envs/icamp3_demo

部署cli模型

创建目录

创建一个目录用于存放代码

mkdir -p /root/demo
touch /root/demo/cli_demo.py

编写代码

代码的主要逻辑是使用transformers加载共享目录下的internlm2-chat-1_8b模型

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM# 模型地址
model_name_or_path = '/root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b'# 创建tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True, device_map='cuda:0') # 运行在第0块显卡上# 创建大语言模型
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, trust_remote_code=True, device_map='cuda:0')# 切换到评估模式,推理时不进行反向传播,可以节约内存
model = model.eval()# 系统提示词
system_prompt = """You are an AI assistant whose name is InternLM(书生·浦语).
- InternLM(书生·浦语)is a conversational language model that is developed by Shanghai AI Laboratory (上海人工智能实验室). It is designed to be helpful, honest, and harmless.
- InternLM(书生·浦语)can understand and communicate fluently in the language chosen by the user such as English and 中文.
"""# 对话历史记录
messages = [(system_prompt, '')]print("====================Welcome to InternLM chatbot, type 'exit' to exit.=====================")while True:input_text = input("\User >>> ")input_text = input_text.replace(' ', '')if input_text == 'exit':breaklength = 0for response, _ in model.stream_chat(tokenizer, input_text, messages):if response is not None:print(response[length:], flush=True, end='')length = len(response)

运行模型

接下来直接使用命令启动上面的模型

python /root/demo/cli_demo.py

cli部署模型

部署streamlit web demo

使用streamlit web demo来部署模型,可以给模型一个简单的web ui,交互对人类更加友好。

拉取代码

cd /root/demo
git clone https://github.com/InternLM/Tutorial.git

启动streamlit服务

代码中有streamlit服务的启动脚本,我们直接运行

cd /root/demo
streamlit run /root/demo/Tutorial/tools/streamlit_demo.py --server.address 127.0.0.1 --server.port 6006

streamlit服务启动

ssh连接远程开发机时,配置远程6006端口转发到本地

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p [你的ssh端口号]

访问streamlit服务

在本地机器上访问 http://localhost:6006 来访问demo。第一次访问后才会开始加载模型,需要等待一会。当出现以下画面时,服务已经启动成功了。
streamlit服务加载完毕
可以修改下左侧的推理参数,查看模型的输出效果。
streamlit测试
我把最大生成长度修改为8,模型输出变化很大。

LMDeploy部署InternLM-Xcomposer2-VL-1.8B模型

InternLM-XComposer2是一款基于InternLM2的视觉大模型,擅长自由形式的文本图像合成和理解。主要特点如下:

  • 自由形式的交错文本图像合成:可以根据大纲、详细文本要求和参考图像等不同的输入,生成连贯且上下文相关,具有交错图像和文本的文章,从而实现高度可定制的内容创建。
  • 准确的视觉语言问题解决:基于自由形式的指令准确地处理多样化和具有挑战性的视觉语言问答任务,在识别、感知、详细标签,视觉推理等方面表现出色。
  • 令人惊叹的性能:基于InternLM2-7B的InternLM2-XComposer2在多个基准测试中位于开源多模态模型第一梯队,在部分基准测试中与GPT-4v和gemini Pro相当,甚至超过它们。

LMDeploy是一个用于压缩、部署和服务LLM的工具包,由MMRazor和MMDeploy团队开发。它具有以下核心功能

  • 高效的推理:LMDeploy通过引入 持久化批处理、块KV缓存、动态分割与融合、张量并行、高性能CUDA内核等关键技术,提供了比vLLM高1.8倍的推理性能。
  • 有效的量化:LMDeploy支持仅权重量化和k/v量化,4bit推理性能是FP16的2.4位。量化后的模型质量已经通过OpenCompass评估确认
  • 轻松的分发:利用请求分发服务,LMDeploy可以在多台机器和设置上轻松高效地部署多模型服务
  • 交互式推理模式:通过缓存多轮圣诞过程中注意力的k/v,推理引擎记住对话历史,从而避免重复处理历史会话
  • 优秀的兼容性:LMDeploy运行KV Cache Quant,AWQ和自动前缀缓存同时使用

LMDeploy已经支持了InternLM-XComposer2系列的部署,但要注意的是它仅支持InternLM-XComposer2系列模型的视觉对话功能。

启动gradio服务

conda activate /root/share/pre_envs/icamp3_demo
lmdeploy serve gradio /share/new_models/Shanghai_AI_Laboratory/internlm-xcomposer2-vl-1_8b --cache-max-entry-count 0.1

lmdeploy启动gradio过程1

访问gradio服务

和上面一样,在ssh连接时创建端口映射,在本地打开即可。
gradio服务测试
使用lmdeploy启动的服务,不用等待模型的首次加载,在启动阶段模型就已经加载完毕了。
gradio服务测试2
响应速度非常快。

LMDeploy 部署InternVL2-2B模型

InternVL2是上海人工智能实验室推出的新一代视觉-语言多模态大模型,是首个综合性能媲美美国闭源商业模型的开源多模态大语言模型。InternVL2系列从千亿参数到端侧小模型全覆盖,通专融合,支持多种模态。

LMDeploy也支持部署InternVL2系列模型的部署

启动gradio服务

conda activate /root/share/pre_envs/icamp3_demo
lmdeploy serve gradio /share/new_models/OpenGVLab/InternVL2-2B --cache-max-entry-count 0.1

启动gradio服务2

访问gradio服务

和上面一样,在ssh连接时创建6006端口映射,在本地打开即可。
gradio测试3
可以发现InternVL2模型的效果似乎比InternLM-XComposer2还要好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3281757.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Python安装与环境配置,2024最新,超详细保姆级教程!

安装Python 来到Python官网:https://www.python.org/ Downloads>Windows: 选择想要的版本后点击进去: 下载后点击安装: 在本地电脑输入命令提示符:winR 环境变量配置 若执行命令提示符,输入Python后&…

网工必装软件,SecureCRT从零到精通,不可错过

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部 中午好,我的网工朋友。 相信在平时的日常工作中,大家经常需要通过安全的方式远程访问各种设备和服务。SecureCRT作为一款强…

SSM大学生体质管理系统-计算机毕业设计源码75960

摘要 基于SSM的大学生体质管理系统是一款综合性平台,融合了在线课程、健康知识、体测报告等多项功能,旨在为广大大学生提供全方位的健康管理服务。通过在线课程和健康知识模块,用户可以随时学习健康知识,掌握科学的健康管理方法&a…

前端面试宝典【设计模式】【1】

欢迎来到《前端面试宝典》,这里是你通往互联网大厂的专属通道,专为渴望在前端领域大放异彩的你量身定制。通过本专栏的学习,无论是一线大厂还是初创企业的面试,都能自信满满地展现你的实力。 核心特色: 独家实战案例:每一期专栏都将深入剖析真实的前端面试案例,从基础知…

C语言典型例题19

《C程序设计教程(第四版)——谭浩强》 例题2.7 检查浮点型数据的舍去误差 C语言知识: 浮点数在C语言用有两个类型,有float和double类型,其中double类型的数据精度更高 解题思路: 可以将一个double类型的…

根据需求修改el-tab的默认样式

根据需求修改el-tab的默认样式 样式代码&#xff1a; <style lang"scss" scoped>//去掉了最下面的那条线:deep(.el-tabs--card > .el-tabs__header){border-bottom: none}//单独给每一项添加下边框、修改背景色:deep(.el-tabs--card > .el-tabs__heade…

【Golang 面试 - 基础题】每日 5 题(九)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/UWz06 &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 Golang 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏…

redis集群(高可用)

redis集群&#xff08;高可用&#xff09; redis集群的三种模式 主从复制 奇数 3台 1主2从 哨兵模式 3台 1主2从 cluster 集群 6台 生产中&#xff1a;333 9台 主从复制&#xff1a; 和MySQL的主从复制类似&#xff0c;主可以写&#xff0c;写入主的数据通过RDB方式把数据…

ft232 win10驱动

ft232 win10驱动 https://ftdichip.com/drivers/d2xx-drivers/

Qt for MCUs 2.8 LTS已发布

本文翻译自&#xff1a;Qt for MCUs 2.8 LTS released 原文作者&#xff1a;Qt Group高级产品经理Yoann Lopes 我们很高兴地宣布Qt for MCUs 2.8 LTS版本已发布&#xff0c;该版本带来了激动人心的新变化&#xff0c;如GUI的构建模块、构建工具工作流程的改进、对Infineon TRA…

excel如何绘制多列数据的折线图

1.注意表中的数据必须是数据类型的&#xff0c;不能是字符串格式的。如果是用python生成的&#xff0c;需要填充int或者float型的数据。 2.选择数据&#xff08;多列数据的选择&#xff0c;可以按住ctrl键后选中多列&#xff09; 2. 选择插入 3.选择 推荐的图表->所有图表…

PostgreSQL——查询扫描介绍

顺序扫描 概述 顺序扫描&#xff08;Sequential Scan&#xff09;是PostgreSQL中一种基本的数据检索方式&#xff0c;它通过按顺序读取表中的所有页面来查找满足查询条件的记录。这种方式不依赖于索引&#xff0c;因此在某些情况下可能是唯一的选择&#xff0c;尤其是当表没有…

QT:控件圆角设置、固定窗口大小

实现控件圆角度设置//使用的是setStyleSheet方法 //改变的控件是QTextEdit&#xff0c;如果你想改变其他控件&#xff0c;将QTextEdit进行更换 this->setStyleSheet("QTextEdit{background-color:#FFFFFF;border-top-left-radius:15px;border-top-right-radius:15px;bo…

农合生活平台更新升级啦!了解详情戳这里

7月24日&#xff0c;农合生活平台完成了新一轮的版本更新。新版本上线后&#xff0c;农元NYT购买数量将不做限制&#xff0c;优惠券更易得&#xff0c;购物更划算&#xff0c;农元价值升值将进一步「加速度」。 更新说明 1. 数量&#xff1a;旧版本中农元只能定额定量购买&…

Vmware ubuntu22.04 虚拟机 连接windows主机虚拟串口

1.虚拟机配置 鼠标右键点击这个图标&#xff0c;在弹出的菜单里有“连接”或者的“断开连接”的选项&#xff0c;单击即可完成相应的操作。串口连接后图标下侧会出现一个小绿点&#xff0c;断开时没有小绿点。鼠标移动到这个图标上&#xff0c;会显示“串行端口&#xff1a;正在…

找到/打开pupprteer对应chrome版本

前期提要&#xff1a;导出pdf的时候&#xff0c;会用pupprteer启动一个浏览器实例&#xff0c;再打开指定页面进行打印&#xff0c;页面写成什么样&#xff0c;导出的pdf内容就是什么样&#xff0c;听起来很正常。 但是遇到了调试的时候页面显示很正常&#xff0c;而导出的内容…

PostgreSQL——tsearch全文搜索

背景 全文搜索&#xff08;文本搜索&#xff09;提供了一种可以检索出满足某个查询条件的自然语言文档的能力&#xff0c;并且还可以根据文档的相关性对文档进行排序。最常见的搜索是找出所有包含给出的查询词的文档&#xff0c;并且以它们符合查询的程度排序输出。 文本搜索…

Java之Java基础二十(集合[上])

Java 集合框架可以分为两条大的支线&#xff1a; ①、Collection&#xff0c;主要由 List、Set、Queue 组成&#xff1a; List 代表有序、可重复的集合&#xff0c;典型代表就是封装了动态数组的 ArrayList 和封装了链表的 LinkedList&#xff1b;Set 代表无序、不可重复的集…

好多人都找不到这四个提升iPhone音质的技巧

在这个快节奏的时代里&#xff0c;我们每天都在寻找让生活变得更美好的方式。对于iPhone用户而言&#xff0c;无论是享受音乐、观看视频还是接听电话&#xff0c;良好的音频体验无疑是提升日常幸福感的关键之一。 然而&#xff0c;许多人可能不知道他们的设备中隐藏着许多能够…