书生大模型实战营--L1关卡-OpenCompass 评测 InternLM-1.8B 实践

一、使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 MMLU 数据集上的性能

1、使用lmdeploy部署 internlm2-chat-1.8b模型

2、根据OpenCompass官网教程安装并下载数据集

opencompass/README_zh-CN.md at main · open-compass/opencompass · GitHub

注意:

pyhton3.11 安装pyext时报错

解决方法:

[Python]AttributeError: module ‘inspect‘ has no attribute ‘getargspec‘. Did you mean: ‘getargs‘解决方法_attributeerror: module 'inspect' has no attribute -CSDN博客x

下载源码:

pyext · PyPI

修改内容:

pyext-0.7/pyext.py

然后执行python setup install 进行安装

3、再里面的 opencompass/configs/eval_internlm_chat_lmdeploy_apiserver.py增加1.8b调用地址

注意:评测mmlu的时候注释掉其他数据集

4、运行评测脚本---使用API调用

python run.py configs/eval_internlm_chat_lmdeploy_apiserver.py -w outputs/turbomind/internlm-1-8b --datasets mmlu_ppl

评测结果:

dataset                                            version    metric    mode      internlm2-chat-1_8b
-------------------------------------------------  ---------  --------  ------  ---------------------
lukaemon_mmlu_college_biology                      8c2e29     accuracy  gen                     46.53
lukaemon_mmlu_college_chemistry                    0afccd     accuracy  gen                     41.00
lukaemon_mmlu_college_computer_science             c1c1b4     accuracy  gen                     41.00
lukaemon_mmlu_college_mathematics                  9deed0     accuracy  gen                     33.00
lukaemon_mmlu_college_physics                      f5cf5e     accuracy  gen                     36.27
lukaemon_mmlu_electrical_engineering               3d694d     accuracy  gen                     40.00
lukaemon_mmlu_astronomy                            7ef16f     accuracy  gen                     48.03
lukaemon_mmlu_anatomy                              2d597d     accuracy  gen                     41.48
lukaemon_mmlu_abstract_algebra                     ec092c     accuracy  gen                     33.00
lukaemon_mmlu_machine_learning                     d489ae     accuracy  gen                     27.68
lukaemon_mmlu_clinical_knowledge                   af10df     accuracy  gen                     52.83
lukaemon_mmlu_global_facts                         cad9e0     accuracy  gen                     24.00
lukaemon_mmlu_management                           65f310     accuracy  gen                     68.93
lukaemon_mmlu_nutrition                            80bf96     accuracy  gen                     50.65
lukaemon_mmlu_marketing                            9a98c0     accuracy  gen                     68.38
lukaemon_mmlu_professional_accounting              9cc7e2     accuracy  gen                     28.01
lukaemon_mmlu_high_school_geography                c28a4c     accuracy  gen                     56.57
lukaemon_mmlu_international_law                    408d4e     accuracy  gen                     56.20
lukaemon_mmlu_moral_scenarios                      9f30a6     accuracy  gen                     25.70
lukaemon_mmlu_computer_security                    2753c1     accuracy  gen                     55.00
lukaemon_mmlu_high_school_microeconomics           af9eae     accuracy  gen                     52.52
lukaemon_mmlu_professional_law                     7c7a62     accuracy  gen                     34.49
lukaemon_mmlu_medical_genetics                     b1a3a7     accuracy  gen                     56.00
lukaemon_mmlu_professional_psychology              c6b790     accuracy  gen                     42.32
lukaemon_mmlu_jurisprudence                        f41074     accuracy  gen                     53.70
lukaemon_mmlu_world_religions                      d44a95     accuracy  gen                     61.40
lukaemon_mmlu_philosophy                           d36ef3     accuracy  gen                     47.91
lukaemon_mmlu_virology                             0a5f8e     accuracy  gen                     38.55
lukaemon_mmlu_high_school_chemistry                5b2ef9     accuracy  gen                     42.36
lukaemon_mmlu_public_relations                     4c7898     accuracy  gen                     51.82
lukaemon_mmlu_high_school_macroeconomics           3f841b     accuracy  gen                     47.95
lukaemon_mmlu_human_sexuality                      4d1f3e     accuracy  gen                     51.15
lukaemon_mmlu_elementary_mathematics               0f5d3a     accuracy  gen                     32.54
lukaemon_mmlu_high_school_physics                  0dd929     accuracy  gen                     31.79
lukaemon_mmlu_high_school_computer_science         bf31fd     accuracy  gen                     41.00
lukaemon_mmlu_high_school_european_history         d1b67e     accuracy  gen                     59.39
lukaemon_mmlu_business_ethics                      af53f3     accuracy  gen                     47.00
lukaemon_mmlu_moral_disputes                       48239e     accuracy  gen                     45.95
lukaemon_mmlu_high_school_statistics               47e18e     accuracy  gen                     48.61
lukaemon_mmlu_miscellaneous                        573569     accuracy  gen                     57.47
lukaemon_mmlu_formal_logic                         7a0414     accuracy  gen                     31.75
lukaemon_mmlu_high_school_government_and_politics  d907eb     accuracy  gen                     61.66
lukaemon_mmlu_prehistory                           65aa94     accuracy  gen                     50.00
lukaemon_mmlu_security_studies                     9ea7d3     accuracy  gen                     53.06
lukaemon_mmlu_high_school_biology                  775183     accuracy  gen                     55.48
lukaemon_mmlu_logical_fallacies                    19746a     accuracy  gen                     53.99
lukaemon_mmlu_high_school_world_history            6665dc     accuracy  gen                     67.09
lukaemon_mmlu_professional_medicine                a05bab     accuracy  gen                     41.54
lukaemon_mmlu_high_school_mathematics              0e6a7e     accuracy  gen                     28.52
lukaemon_mmlu_college_medicine                     5215f1     accuracy  gen                     46.82
lukaemon_mmlu_high_school_us_history               b5f235     accuracy  gen                     54.41
lukaemon_mmlu_sociology                            4980ec     accuracy  gen                     60.70
lukaemon_mmlu_econometrics                         4d590b     accuracy  gen                     29.82
lukaemon_mmlu_high_school_psychology               440e96     accuracy  gen                     65.50
lukaemon_mmlu_human_aging                          d0a8e1     accuracy  gen                     47.98
lukaemon_mmlu_us_foreign_policy                    adcc88     accuracy  gen                     72.00
lukaemon_mmlu_conceptual_physics                   a111d3     accuracy  gen                     34.04

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3269796.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【Java】this关键字、构造方法、标准javabean类(009)

目录 ♦️构造方法 🎃无参数构造方法(空参构造) 🎃有参数构造方法 ♦️this关键字 🎃就近原则 🎃使用this关键字调用本类中的属性 ​编辑 🎃使用this关键字调用成员方法 ​编辑 &#x…

Collention集合基础知识

Array 数组是一种连续的内存空间存储相同数据类型数据的线性数据结构 数组获取其他元素的地址值 寻址公式 a[i] baseaddress i*datatypesize 为什么数组索引从0开始 从1开始不行吗 从0开始寻址公式 a[i] baseaddress i*datatypesize 从1开始寻址公式 a[i] baseadd…

【计算机网络】无线网络和移动网络(第9章)大纲(共70+页)

最后只复习了1.5天,应用层简单过了一遍。 本来是mindmap的,但是太大了只能导出成提纲了,凑合看吧orz。 如果你找我要源文件,最好是在2024年,不然我可能就找不到了()。

基于STC8H系列单片机的中断系统

基于STC8H系列单片机的中断系统 STC8H4K64TL单片机介绍STC8H4K64TL单片机管脚图(48个引脚)STC8H4K64TL单片机串口仿真与串口通信STC8H4K64TL单片机管脚图(32个引脚)STC8H4K64TL单片机管脚图(20个引脚)STC8H系列单片机管脚说明STC8H系列单片机I/O口STC8H系列单片机I/O口相…

【C++】:红黑树的应用 --- 封装map和set

点击跳转至文章:【C】:红黑树深度剖析 — 手撕红黑树! 目录 前言一,红黑树的改造1. 红黑树的主体框架2. 对红黑树节点结构的改造3. 红黑树的迭代器3.1 迭代器类3.2 Begin() 和 End() 四,红黑树相关接口的改造4.1 Find…

centos stream 9安装 Kubernetes v1.30 集群

1、版本说明: 系统版本:centos stream 9 Kubernetes版本:最新版(v1.30) docker版本:27.1.1 节点主机名ip主节点k8s-master172.31.0.10节点1k8s-node1172.31.0.11节点2k8s-node2172.31.0.12 2、首先,使用Vagrant和Virt…

【2024年国际高等学校数学建模竞赛IMMCHE】问题 B:太空移民计划和战略 问题分析及数学模型及求解代码

【2024年国际高等学校数学建模竞赛IMMCHE】问题 B:太空移民计划和战略 问题分析及数学模型及求解代码 Problem B: Space Migration Program and Strategy 1 题目 我们的未来有两种可能:第一,我们将留在地球上,直到完全灭绝&…

Hive3:Hive初体验

1、创建表 CREATE TABLE test(id INT, name STRING, gender STRING);2、新增数据 INSERT INTO test VALUES(1, 王力红, 男); INSERT INTO test VALUES(2, 钉钉盯, 女); INSERT INTO test VALUES(3, 咔咔咔, 女);3、查询数据 简单查询 select * from test;带聚合函数的查询 …

Halcon 引擎方式调试

1.C# 端添加代码 启动调试模式 public HDevEngine MyEngine new HDevEngine(); // halcon引擎;// 启动调试服务 MyEngine.StartDebugServer();2.Halcon程序添加到进程 打开Halcon程序 【执行】>【附加到进程】 点击【确定】 3.C# 程序执行到相关位置 C# 程序执行调用…

vector深度剖析及模拟实现

目录 前言vector核心框架模拟实现1. 前期准备2. 构造和销毁补充: 隐式类型转换和多参数构造的区别 3. 迭代器相关4. 容器相关补充: memcpy拷贝问题 5. 元素访问6. vector的修改测试代码 总结 前言 本文重点模拟实现vector的核心接口, 帮助我们更好的理解底层逻辑, 以及对vecto…

科学又省力 宠物浮毛怎么去掉便捷高效?除毛秘籍养宠空气净化器

上次和朋友逛完街去她家,她家的猫哈基米一开门就飞奔过来,朋友直接抱起它狂亲。结果,猫毛和汗水粘得到处都是,手臂上、脸上都是,看得我这鼻炎星人直起鸡皮疙瘩。很多养宠物的朋友都说,天天给猫狗梳毛&#…

Android Studio导入源码

在有源码并且编译环境可用的情况下: 1.生成导入AS所需的配置文件 在源码的根目录执行以下命令: source build/ensetup.sh lunch 要编译的项目 make idegen //这一步会生成out/host/linux-x86/framework/idegen.jar development/tools/idegen/idegen.sh…

利用OSMnx求路网最短路径并可视化(二)

书接上回,为了增加多路径的可视化效果和坐标匹配最近点来实现最短路可视化,我们使用图形化工具matplotlib结合OSMnx的绘图功能来展示整个路网图,并特别高亮显示计算出的最短路径。 多起终点最短路路径并计算距离和时间 完整代码#运行环境 P…

《昇思25天学习打卡营第24天|基于MindSpore通过GPT实现情感分类》

基于MindSpore通过GPT实现情感分类 %%capture captured_output # 实验环境已经预装了mindspore2.2.14,如需更换mindspore版本,可更改下面mindspore的版本号 !pip uninstall mindspore -y !pip install -i https://pypi.mirrors.ustc.edu.cn/simple mind…

自动化测试 pytest 中 scope 限制 fixture使用范围!

导读 fixture 是 pytest 中一个非常重要的模块,可以让代码更加简洁。 fixture 的 autouse 为 True 可以自动化加载 fixture。 如果不想每条用例执行前都运行初始化方法(可能多个fixture)怎么办?可不可以只运行一次初始化方法? 答&#xf…

C语言进阶 11.结构体

C语言进阶 11.结构体 文章目录 C语言进阶 11.结构体11.1. 枚举11.2. 结构类型11.3. 结构与函数11.4. 结构中的结构11.5. 类型定义11.6. 联合11.7. PAT11-0. 平面向量加法(10)11-1. 通讯录的录入与显示(10) 11.1. 枚举 常量符号化: 用符号而不是具体的数字表示程序中的数字 cons…

【C++深度探索】AVL树与红黑树的原理与特性

🔥 个人主页:大耳朵土土垚 🔥 所属专栏:C从入门至进阶 这里将会不定期更新有关C/C的内容,欢迎大家点赞,收藏,评论🥳🥳🎉🎉🎉 前言 前…

渣土车与搅拌车安全问题解析及智能监控解决方案

一、背景分析 近年来,渣土车在货物运输中由于超载超速、违规驾驶、车辆盲区过大等问题导致的事故频发,严重影响了人们的生命财产安全。而搅拌车作为一种特殊的运输车辆,在混凝土输送过程中也存在类似的隐患。针对这些问题,对搅拌…

多维矩阵乘积运算和对应的广播机制

神经网络中的多维矩阵乘积运算: 遵循的原则是: 两张量前两维度应该是相同的,如果不同则其中一张量维度为1。 如果有论文中有遇到矩阵乘积的两项维度不一致,那就考虑它计算时是使用了广播机制(如YOLACT)。…

谁说只有车载HMI界面?现在工业类的HMI界面UI也崛起了

谁说只有车载HMI界面?现在工业类的HMI界面UI也崛起了 引言 艾斯视觉作为行业ui设计和前端开发领域的从业者,其观点始终认为:工业自动化和智能化水平不断提高,人机界面(Human-Machine Interface,简称HMI&a…