Gradient发布支持100万token的Lllama3,上下文长度从8K扩展到1048K

前言

近日Gradient公司在Crusoe Energy公司的算力支持下,开发了一款基于Llama-3的大型语言模型。这款新模型在原Llama-3 8B的基础上,将上下文长度从8000 token大幅扩展到超过104万token。

这一创新性突破,展现了当前SOTA大语言模型在长上下文学习方面的能力。Gradient团队通过合理调整RoPE,以及采用渐进式训练的方法,仅使用了原Llama-3不到0.01%的训练数据,就实现了这一飞跃。

  • Huggingface模型下载:https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

  • AI快站模型免费加速下载:https://aifasthub.com/models/gradientai

技术亮点

Gradient发布的这款超长上下文Llama-3模型,主要有以下几个技术特点:

  • 大幅扩展的上下文长度

相比Llama-3 8B仅支持8000 token的上下文长度,新模型可处理超过104万token的长文本。这不仅可以更好地支持复杂的多轮对话,也为处理长篇文章、报告等提供了基础。

  • 高效的分阶段渐进式训练

Gradient采用了类似"Large World Model"的分阶段渐进式训练方法。他们先在较短的上下文上进行预训练,然后逐步增加训练数据的上下文长度,直至达到104万token。这种策略可以有效提升模型在长上下文上的学习效果。

  • 优化的RoPE

RoPE是Llama-3等模型用于编码位置信息的关键组件。Gradient团队采用了基于NTK(Neural Tangent Kernel)的插值方法,合理初始化RoPE theta参数,并进行后续经验性优化,进一步增强了模型在长上下文下的性能。

应用前景

凭借出色的性能和大幅扩展的上下文长度,Gradient发布的这款Llama-3超长上下文模型,在以下场景中具有广阔的应用前景:

  • 对话式AI助手:100万token的上下文长度,可以帮助构建功能强大、记忆力持久的对话式AI助手。

  • 智能问答系统:出色的常识理解和推理能力,可以提供更准确全面的信息回答。

  • 编程助手:优秀的代码理解和生成能力,可以为程序员提供智能化的编码辅助。

  • 内容生成:强大的语言理解和生成能力,可以辅助撰写报告、文章、剧本等各类内容创作。

总的来说,Gradient发布的这款Llama-3超长上下文模型,必将为对话式AI、智能问答、编程辅助等领域带来新的发展机遇,为人工智能应用注入新的动力。

模型下载

Huggingface模型下载

https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

AI快站模型免费加速下载

https://aifasthub.com/models/gradientai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3030747.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【JVM基础篇】JVM入门介绍

JVM入门介绍 为什么学习JVM 岗位要求 解决工作中遇到的问题 性能调优 真实案例 导出超大文件,系统崩溃从数据库中查询超大量数据出错消费者消费来不及导致系统崩溃Mq消息队列接受消息导致的内存泄漏业务高峰期系统失去响应 初识JVM 什么是JVM? JV…

Excel——项目管理,设置时间到期自动提醒及颜色高亮

效果图 第一步、自动获取合同到期日期 1、首先合同【签约日期】和【到期日期】下面的数据必须是日期格式,不能是其它的格式否则无法计算,如果是其它格式需要转换成标准的日期格式,如下图所示。 2、在“到期日期”下面的第一个单元格中输入公…

【Web后端】web后端开发简介_Servlet简介

1.web后端开发简介 Java企业级开发,也就是学习]avaEE(Enterprise Edition)版本,是一种结构和一套标准。在应用中开发的标准就是Servlet、jsp和JavaBean技术。jsp技术现在已基本处于淘汰状态,简单了解即可web后端开发,基于B/S模式的开发体系。…

【系统架构师】-选择题(十二)计算机网络

1、网闸的作用:实现内网与互联网通信,但内网与互联网不是直连的 2、管理距离是指一种路由协议的路由可信度。15表示该路由信息比较可靠 管理距离越小,它的优先级就越高,也就是可信度越高。 0是最可信赖的,而255则意味…

智能奶柜:健康生活新风尚

智能奶柜:健康生活新风尚 在快节奏的都市生活中,健康与便利成为了现代人的双重追求。而在这两者交汇之处,智能奶柜应运而生,它不仅是科技与生活的完美融合,更是日常营养补给的智慧之选。 清晨的第一缕温暖 —— 新鲜…

Ansible-Playbook通过role角色部署Lnmp架构

目录​​​​​​​ 一、配置Nginx的Roles角色 1.1编写files/default.conf 1.2编写files/nginx.repo 1.3编写handlers/main.yml 1.4编写tasks/main.yml文件 1.5编写vars/main.yml文件 1.6测试运行结果,并不是真的执行任务 二、配置Mysql的Roles角色 2.1编写…

Go实现树莓派I2C读取SHT30温度湿度传感器

简介 树莓派其实本身包含很多资源引脚, 合理利用其实可以自制智能家居的一部分,本身硬件和Linux系统等高级语言支持加生态, 不说了, 做就好了… I2C 功能开启 参考之前的文章就可以了 Go实现树莓派读取bh1750光照强度 查看I2C总…

(Java)心得:LeetCode——5.最长回文子串

一、原题 给你一个字符串 s,找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。 示例 1: 输入:s "babad" 输出:"bab" 解释:"aba"…

网页版Figma汉化

最近学习Figma,简单介绍一下网页版Figma的汉化方法 1.打开网址:Figma软件汉化-Figma中文版下载-Figma中文社区 2.下载汉化插件离线包 解压汉化包 3.点开谷歌的管理扩展程序 4.点击加载已解压的扩展程序,选择刚刚解压的包 这样就安装好了汉化…

厚德提问大佬答4:AI绘画生成的心得

遇到难题不要怕!厚德提问大佬答! 厚德提问大佬答 你是否对AI绘画感兴趣却无从下手?是否有很多疑问却苦于没有大佬解答带你飞?从此刻开始这些问题都将迎刃而解!你感兴趣的话题,厚德云替你问,你解…

2019年计算机真题

2019年计算机真题 离散数学 一、用逻辑符号表达下列语句(论域为包含一切事物的集合) 1)过平面上的两个点,有且仅有一条直线通过。 解: (1) P ( x , y ) : x , y \mathrm{P}_{(\mathrm{x}, \mathrm{y})}: \mathrm{x}, \mathrm{y} P(x,y)​:x,y 是平面上的…

Git泄露(续)

接上一篇补充 git config --global user.name " " git config --global user.email 邮箱地址 配置用户名和邮箱 git commit 使其处于交互区,没有使用 -m,默认用vim 来编辑和提交信息 输入要提交的内容,然后按ESC建回到命令…

智慧仓储可视化大屏,以最直观的形式展示海量数据。

智慧仓储可视化大屏是一种通过数据可视化技术,将仓储管理系统中的海量数据以图表、地图、仪表盘等形式直观展示在大屏上的解决方案。它可以帮助仓储管理人员更清晰地了解仓库的运营情况,从而做出更明智的决策。 智慧仓储可视化大屏通常包括以下功能和特点…

github删除自己的仓库

测试Github的时候新建了很多仓库,但是后来想删除,找了半天居然没有找到按钮。 我就推测这个删除的功能肯定藏起来了,后来度娘了一下,发现果然在一个比较隐蔽的位置,不知道以后这个功能会不会改到一个比较明显的位置吧…

高效工作之软件系统——数据结构登记表

数据结构模板 开发完软件系统后,往往需要进行一些登记——《软件系统数据结构登记表》 然后软件项目有60个表左右,难道需要手动录入,那肯定不可能 工欲善其事必先利其器!go。。。同事给的模板是下图 效果图 于是想到 之前使用…

Java代理Ⅱ

目录 静态代理的内存结构图 测试demo 内存图 关于为什么不能直接修改原方法,而是要用代理 参考文章 关于代理我之前写过一篇博客,基本已经讲的差不多了,有兴趣的读者可以去看看 Java代理 最近有了新的感悟,所以记录一下 静…

基于springboot实现毕业设计系统项目【项目源码+论文说明】

基于springboot实现毕业设计系统演示 摘要 在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以&#xff…

文本三剑客grep与正则表达式、元字符

正则表达式 正则表达式又称为正规表达式、常规表达式、在代码中常简写为regex、regex或RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,简单来说,是一种匹配字符串的方法,通过一些特殊符号,实现快速查…

cocos中的meta文件有什么用?如何生成?

cocos中的.meta文件有什么用?如何生成? 1. .meta文件有什么用? Cocos Creator 会为 assets 目录下的每一个文件和目录生成一个同名的 meta 文件 示例 {"ver": "4.0.23", // 版本"importer": "typescr…

Mybatis入门之在基于Springboot的框架下拿到MySQL中数据

介绍 Java技术操作数据库 MyBatis是一款优秀的持久层框架 用于简化JDBC的开发 优秀的持久层框架 我们要基于Springboot整合Mybatis 实操 学习 基于Mybatis是如何操作数据库的 通过MyBatis书写SQL语句 SQL语句执行完毕后 会将查询结果返回给Java程序 表中数据会自动封装…