docker部署通义千问-7B-Chat的openai-api环境

服务器环境:

显卡驱动:Driver Version: 530.30.02

CUDA版本:CUDA Version: 12.1

显卡:NVIDIA GeForce RTX 3090共4张

注意:最好把显卡驱动升级到530,CUDA版本之前使用11.7有问题。

一、下载模型文件

通义千问-7B-Chat模型下载地址:通义千问-7B-Chat · 模型库 (modelscope.cn)

通义千问-7B-Chat-int4模型下载地址:通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)

二、配置docker-compose

docker-compose.yml文件内容如下:

version: '3'
services:qwen7b_api:container_name: LLMs_qwen7b_apienvironment:TZ: Asia/Shanghaiimage: qwenllm/qwen:cu121runtime: nvidiarestart: alwaysnetworks:- generaldeploy:resources:reservations:devices:- device_ids: ['2','3']capabilities: ["gpu"]driver: "nvidia"ports:- "8003:8000"volumes:# 使用全量模型#- ./Qwen-7B-Chat:/data/shared/Qwen/Qwen/Qwen-7B-Chat# 使用int4量化模型- ./Qwen-7B-Chat-int4:/data/shared/Qwen/Qwen/Qwen-7B-Chatcommand:["/bin/sh","-c","python openai_api.py --server-name 0.0.0.0",]networks:general:external: true

文件结构如下:

docker-compose中的volumes可自定义使用全量模型还是int4量化模型。

三、接入one-api

四、接入fastgpt

fastgpt的config.json配置:

"llmModels": [{"model": "qianwen","name": "通义千问7b模型","maxContext": 4000,"maxResponse": 4000,"quoteMaxToken": 2000,"maxTemperature": 1,"vision": false,"defaultSystemChatPrompt": ""}
]

测试反应速度可以

参考:容器 纯新手 docker langchain Qwen1.5 部署 - 夸智网 (kuazhi.com) 

以容器方式部署通义千问 Qwen - dudu - 博客园 (cnblogs.com) 

通义千问本地部署教程Qwen-7B-Chat Qwen1.5-1.8B Windows-详细认真版_qwen1.5 本地部署-CSDN博客 通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)

qwenllm/qwen Tags | Docker Hub 

Qwen/README_CN.md at main · QwenLM/Qwen (github.com) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2979391.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Linux之安装Nginx

目录 传送门前言一、快速安装二、反向代理语法1、基本语法2、location语法1. 基本语法2. 匹配规则3. 修饰符4. 权重5. 嵌套location6. 其他指令7.案例 三、配置反向代理 传送门 SpringMVC的源码解析(精品) Spring6的源码解析(精品&#xff0…

2024年深圳杯东三省数学建模联赛A题论文首发第二种思路

深圳杯A题论文代码分享资料链接:链接:https://pan.baidu.com/s/1L2NVgoefSW-yuqZjEB3wcw 提取码:sxjm 问题一 数据转换: 首先,我们将监测站的经纬度坐标转换为基于米的笛卡尔坐标系。这是因为在地面上的大尺度距离…

selenium‘拟人包装‘设置

1、设置header,proxy 1.1关于user-agent 输入about:version 找到user-agent: import requests # 引用requests库 from selenium import webdriver#载入浏览器驱动#header,proxy设置 optionswebdriver.ChromeOptions()#实例化浏览器参数设置options.add_argument…

探索深度与广度的平衡:迭代加深深度优先搜索技术解析

探索深度与广度的平衡:迭代加深深度优先搜索技术解析 迭代加深深度优先搜索(IDDFS)的基本原理伪代码C语言实现讨论结论 迭代加深(Iterative Deepening Depth-First Search, IDDFS)是一种用于解决搜索问题的方法&#x…

解决配置Tomcat时,找不到war和war exploded问题

解决配置Tomcat时,找不到war和war exploded问题 文章目录 解决配置Tomcat时,找不到war和war exploded问题前言一、解决方法:1. war exploded2. war 总结 前言 提示:以下是本篇文章正文内容: 一、解决方法:…

spring的跨域问题

跨域问题 什么是跨域解决跨域 什么是跨域 跨域问题本质是浏览器的一种保护机制,它的初衷是为了保证用户的安全,防止恶意网站窃取数据。如果出现了以下情况中的任意一种,那么它就是跨域请求: 1、协议不同,如 http 和 h…

网站想实现HTTPS访问需要有哪些步骤?

网站要实现HTTPS访问,以确保数据传输安全和提升用户信任度,主要需按以下步骤操作: 1. 购买或申请SSL证书: - 根据网站类型和需求,选择合适的SSL证书:DV(域名验证)、OV(组…

翻页电子图书制作小技巧分享给你

当今社会,二维码已经成为了信息传递的重要方式之一,其在电子商务、广告营销、活动推广等领域广泛应用。而如何将二维码巧妙地融入电子画册中,制作出高端、具有吸引力的作品,成为了许多设计师和营销人员关注的焦点 但是很多人却不知…

TCP协议核心一文搞懂<随手笔记>

1.简介 传输控制协议,是一种面向连接的、可靠的、基于IP的传输层协议。 TCP工作于传输层,IP在网络层,ARP在数据链路层 源端口和目的端口: 各占两个字节,这两个值加上IP首部中的源端IP地址和目的端IP地址唯一确定一个T…

华为sr-mpls policy配置案例

SR-MPLS POLICY在ensp上面做不了,这是官方上的配置

解压RPM包---rpm2cpiocpio的使用

RPM包括是使用cpio格式打包的,因此可以先转成cpio然后解压,如下所示: rpm2cpio xxx.rpm | cpio -div

【C++】项目级的组织结构与Cmake编译

文章目录 C项目级的组织结构与Cmake编译分文件编写程序C项目级的组织结构Cmake编译 C项目级的组织结构与Cmake编译 分文件编写程序 (1) 创建后缀名为.h的头文件max.h&#xff0c;并在其中写函数的声明 #include<iostream> using namespace std; int max(int a, int b)…

【Linux】文件目录及路径表示

1. Linux目录结构 在 Linux 系统中&#xff0c;有几个目录是比较重要的&#xff0c;平时需要注意不要误删除或者随意更改内部文件。 /etc&#xff1a; 这个是系统中的配置文件&#xff0c;如果更改了该目录下的某个文件可能会导致系统不能启动。 /bin, /sbin, /usr/bin, /usr…

前端JS必用工具【js-tool-big-box】,获取浏览器参数、cookie、localStorage的存取

这一小节&#xff0c;我们针对js-tool-big-box工具做一些使用讲解&#xff0c;主要获取浏览器参数、cookie、localStorage的存取方面的。 这些方法差不多每次项目中要么用不到&#xff0c;要么就自己写一份&#xff0c;轮子造的很重复啊&#xff0c;而且localStorage有时候要求…

Docker Compose 的安装和使用详解

Docker Compose 是 Docker 官方开源的容器编排(Orchestration)项目之一,用于快速部署分布式应用。本文将介绍 Docker Compose 的基本概念、安装流程及使用方法。 简介 Compose 项目是 Docker 官方的开源项目,负责实现对 Docker 容器集群的快速编排。从功能上看,Docker C…

利用观测云打造企业级的统一日志中心

前言 在数字化转型时代&#xff0c;现代的大规模应用程序每天可以生成数以亿计的日志数据。它是企业运营和管理中的宝贵资产&#xff0c;记录了系统、应用和设备的各种活动和事件。通过分析日志数据&#xff0c;企业可以深入了解业务运行情况、识别潜在问题和优化机会&#xf…

indexDB 大图缓存

背景 最近在项目中遇到了一个问题&#xff1a;由于大屏背景图加载速度过慢&#xff0c;导致页面黑屏时间过长&#xff0c;影响了用户的体验。从下图可以看出加载耗时将近一分钟 IndexDB 主要的想法就是利用indexDB去做缓存&#xff0c;优化加载速度&#xff1b;在这之前&am…

云架构(五)BBF模式

BFF模式&#xff08;Backends for Frontends pattern&#xff09;- https://learn.microsoft.com/en-us/azure/architecture/patterns/backends-for-frontends。 创建单独的后台服务用以提供给特定的前端或者接口。当你希望避免为多个接口定制单独的后台时&#xff0c;此模…

​「Python绘图」绘制皮卡丘

python 绘制皮卡丘 一、预期结果 二、核心代码 import turtle print("开始绘制皮卡丘") def getPosition(x, y):turtle.setx(x)turtle.sety(y)print(x, y)class Pikachu:def __init__(self):self.t turtle.Turtle()t self.tt.pensize(3)t.speed(190)t.ondrag(getP…

Matlab分段微分方程组拟合【案例源码+视频教程】

专栏导读 作者简介&#xff1a;工学博士&#xff0c;高级工程师&#xff0c;专注于工业软件算法研究本文已收录于专栏&#xff1a;《复杂函数拟合案例分享》本专栏旨在提供 1.以案例的形式讲解各类复杂函数拟合的程序实现方法&#xff0c;并提供所有案例完整源码&#xff1b;2.…