【大模型开源篇1】彦宏您怎么看LLaMA3的开源

Meta LLaMA是Meta公司开源的大模型,作为大模型开源界得鼻祖, 刚刚发布LLaMA3。从ChatGPT 拉开了大模型竞赛的序幕,Meta 选择了开源,至此大模型也开始百花齐放的时期,但是开源模型一直无法超过必源模型,如今LLaMA3发布,大有后来居上的趋势。

01 Meta LLaMA3的优势

  • 基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多;
  • 支持 8K 长文本,改进的 tokenizer 具有 128K token 的词汇量,可实现更好的性能;
  • 在大量重要基准中均具有最先进性能;
  • 在 8B 和 70B 大小上采用了分组查询注意力 (GQA,包括增强的推理和代码能力;
  • 结合了三种类型的并行策略:数据并行、模型并行和流水线并行,训练效率比 Llama 2 高 3 倍;
  • 带有 Llama Guard 2、Code Shield 和 CyberSec Eval 2 的新版信任和安全工具
  • 先进的训练堆栈,可以自动执行错误检测、处理和维护,
  • 通过 PPO 和 DPO 从偏好排名中学习也极大地提高了 LLaMA3 在推理和编码任务上的性能。
  • 其他同等规模模型的比较,前者表现出 SOTA 水平.
  • 目前还在开发的最大模型是 400B+ 参数的杀手锏.

此外,Meta还支持丰富的应用生态, Meta 提供的生成式 AI 能力在免费产品中性能是最强大的。在 Facebook、Instagram、WhatsApp 和 Messenger 上,用户现在可以借助 Meta AI 进行搜索,无需在应用程序之间切换.

02 Meta LLaMA3的架构

Llama 3 选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:

  • Llama 3 使用具有 128K token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;
  • 为了提高 Llama 3 模型的推理效率,研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA);
  • 在 8192 个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

03 Meta LLaMA3 性能

(1)预训练模型的性能

66ccf7e90aae0e8c5aa156509f96f466.jpeg

(2)指令微调性能

05993f1d2fff2e36c69d4eb92ed5d688.jpeg

(3)人工评估

涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、抽取、扮演一个角色/人物、开放式问答等,下图针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果

8dd718784f9809afe51d9edfbd5ea5d0.jpeg

04 Meta LLaMA3使用

是驴是马,得让群众跑一跑才知道, Meta也是毫不吝啬,提供多种使用的方式给各位技术爱好者玩耍.

148e7bb22db1ba5cf78a7aa81d06e89d.jpeg

05 彦宏, 您怎么看

李彦宏近期表示,这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等尺寸下,效果明显更好;同等效果下,成本明显更低。“所以开源模型会越来越落后。

确实大模型时代, 需要很多金钱投入, 在这些方面, 往往大公司很有优势,这一点不可否认, 但是计算机近些年发展如此快速,得益于计算机技术不断开源, 比如我们常用linux操作系统、java语言、大数据hadoop、云平台k8s、opentelemetry、深度学习框架pytorch、tensorflow等等,我相信大模型也不例外,现在大模型发展就2条主线,开源和闭源, 开源也有优秀的模型,比如, Meta的LLama ,画图的Stable diffusion等推动大模型社区不断发展, 涌现更多创业型、创新型的小公司, 更多惠及到每个技术人

各位读者,你们觉得呢?

【大模型应用篇1】学会对模型念咒语

【大模型应用篇2】提示词实践-短剧文案

【大模型应用篇3】LLM时代下的智能体

【大模型应用篇4】普通人构建智能体的工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2978668.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

图像超分辨率技术在AI去衣中的应用探索

在数字图像处理领域,图像超分辨率(Super-Resolution, SR)技术一直是研究的热点之一。该技术旨在从低分辨率的图像中恢复出高分辨率的图像,以提供更清晰、更丰富的细节信息。近年来,随着人工智能(AI&#xf…

【电控笔记5.8】数字滤波器设计流程频域特性

数字滤波器设计流程&频域特性 2HZ : w=2pi2=12.56 wc=2*pi*5; Ts=0.001; tf_lpf =

windows实现文件共享

新建一块磁盘作为共享磁盘 开启该磁盘文件共享 访问该共享磁盘 上传镜像到该共享磁盘 在目标主机上查看已上传的共享镜像

【nmap】基于python实现nmap端口扫描

nmap下载:nmap 将所在路径放入环境变量: D:\Program Files\Nmap\zenmap\bin 安装模块 pip install python-nmap python代码实现: import nmapdef scan(host, min_port, max_port):port_range str(min_port) - str(max_port)nm nmap.Po…

Python | Leetcode Python题解之第43题字符串相乘

题目: 题解: class Solution:def multiply(self, num1: str, num2: str) -> str:if num1 "0" or num2 "0":return "0"m, n len(num1), len(num2)ansArr [0] * (m n)for i in range(m - 1, -1, -1):x int(num1[i…

【基础算法】双指针

1.移动零 移动零 思路: 利用双指针算法 cur:从左往右扫描数组,遍历数组 dest:处理好的区间包括dest dest初始化为-1,因为刚开始dest前应该没有非零元素。 即将非零元素移到dest之前即可 class Solution { public…

ArrayList与顺序表(2)

前言~🥳🎉🎉🎉 hellohello~,大家好💕💕,这里是E绵绵呀✋✋ ,如果觉得这篇文章还不错的话还请点赞❤️❤️收藏💞 💞 关注💥&#x1…

【THM】Linux Privilege Escalation(权限提升)-初级渗透测试

介绍 权限升级是一个旅程。没有灵丹妙药,很大程度上取决于目标系统的具体配置。内核版本、安装的应用程序、支持的编程语言、其他用户的密码是影响您通往 root shell 之路的几个关键要素。 该房间旨在涵盖主要的权限升级向量,并让您更好地了解该过程。无论您是参加 CTF、参加…

海睿思受邀参加 “走进海澜之家”研习交流,共探制造业数据治理的新模式

近日,OceanMind海睿思参加了由江苏省企业信息化协会(以下简称“苏信会”)主办的“走进海澜之家集团股份有限公司”研习交流活动。 海睿思与南京我乐家居、江苏今世缘酒业、江苏鱼跃医疗等近30家制造业领域的优秀企业代表,一同围绕…

【精简改造版】大型多人在线游戏BrowserQuest服务器Golang框架解析(2)——服务端架构

1.架构选型 B/S架构:支持PC、平板、手机等多个平台 2.技术选型 (1)客户端web技术: HTML5 Canvas:支持基于2D平铺的图形引擎 Web workers:允许在不减慢主页UI的情况下初始化大型世界地图。 localStorag…

为何申请图形商标的通过率比文字商标低!

最近有朋友找普推知产老杨说要申请图形商标,从全国的平均通过率来看,图形商标的通过率要比文字低一些,因为图形商标存在许多不确定因素。 文字在检索时只要不在盲查期,基本都可以搜索出来,是相同还是高近差不多就可以检…

符号内链接文件作用域:static限制在本模块

示例&#xff1a; /*** brief how about symbol-inner? show you here.* author wenxuanpei* email 15873152445163.com(query for any question here)*/ #define _CRT_SECURE_NO_WARNINGS//support c-library in Microsoft-Visual-Studio #include <stdio.h>static…

基于K-means和FCM算法的合成纹理图像及SAR图像的分割

&#x1f380;个人主页&#xff1a; https://zhangxiaoshu.blog.csdn.net &#x1f4e2;欢迎大家&#xff1a;关注&#x1f50d;点赞&#x1f44d;评论&#x1f4dd;收藏⭐️&#xff0c;如有错误敬请指正! &#x1f495;未来很长&#xff0c;值得我们全力奔赴更美好的生活&…

使用Docker搭建本地Nexus私有仓库

0-1开始Java语言编程之路 一、Ubuntu下Java语言环境搭建 二、Ubuntu下Docker环境安装 三、使用Docker搭建本地Nexus Maven私有仓库 四、Ubuntu下使用VisualStudioCode进行Java开发 你需要Nexus Java应用编译构建的一种主流方式就是通过Maven, Maven可以很方便的管理Java应用的…

wsl2 中docker安装完毕后无法正常启动

wsl2 中docker安装完毕后无法正常启动 1、背景2、目标3、环境4、原因4、操作5.1、查看配置5.2、 切换配置5.3、启动docker5.4、验证docker 1、背景 在win10中安装wsl2体验linux操作系统&#xff0c;按照docker官网步骤安装&#xff0c;安装完毕后面提示 $ docker ps Cannot co…

每日一题 — 二分查找

704. 二分查找 - 力扣&#xff08;LeetCode&#xff09; 朴素二分查找模板&#xff1a; while(.......){//防止溢出int mid left(right - left)/2;if(........){right mid-1;}else if(......){left mid1;}else{return mid;}} 代码&#xff1a; public int search(int[] num…

【前端】项目中如何快速构建vue脚手架

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、vue脚手架介绍二、构建vue脚手架三、总结 前言 随着开发语言的普及&#xff0c;越来越多的开发框架需要搭建ue脚手架来进行敏捷开发&#xff0c;本文主要介…

软考高项(已通过,E类人才)-学习笔记材料梳理汇总

软考高项&#xff0c;即软考高级信息系统项目管理师&#xff0c;全国计算机技术与软件专业技术资格&#xff08;水平&#xff09;考试中的高级水平测试。适用于从事计算机应用技术、软件、网络、信息系统和信息服务等领域的专业人员&#xff0c;以及各级企业管理人员和从事项目…

MySQL学习笔记5——函数和索引

函数和索引 一、函数1、数学函数2、字符串函数3、条件判断函数 二、索引1、索引是什么2、单字段索引3、组合索引4、总结 一、函数 MySQL提供了很多功能强大&#xff0c;而且使用起来非常方便的函数&#xff0c;包括数学函数、字符串处理函数和条件判断函数等。 1、数学函数 …

Spring Cloud面试篇

面试篇-nacos面试题 1. springboot常见组件 注册中心组件&#xff1a;Eureka、Nacos 负载均衡组件&#xff1a;Ribbon 远程调用组件&#xff1a;OpenFeign 网关组件&#xff1a;Zuul、Gateway 服务保护组件&#xff1a;Hystrix、Sentinel 服务配置管理组件&#xff1a;SpringCl…