模型上下文长度达到10000000,又一批创业者完蛋了?

没有疑问,Gemini 1.5 Pro的隆重推出被Sora抢了风头。

社交平台X上OpenAI介绍Sora的第一条动态,现在已经被浏览了超过9000万次,而关于Gemini 1.5 Pro热度最高的一条,来自谷歌首席科学家Jeff Dean,区区123万人。

或许Jeff Dean自己也觉得郁闷。Gemini 1.5 Pro和Sora共同发布的一周后,他在X上点赞了沃顿商学院副教授Ethan Mollick认为人们对大模型的注意力发生了偏差的观点。

Ethan Mollick几乎是教育界最早公开推崇生成式AI的人之一,他在2023年2月公开呼吁学生应该都应该开始用ChatGPT写论文。而这一次他的观点是,考虑到大模型在图像生成方面所体现出的有限价值,它实在是引起了过多的讨论了。

“对于大模型的实验室来说,图像生成更像是一个聚会上的节目......做为内核的LLM才是价值所在。但社交媒体更乐于分享照片。”

——没说的是,社交媒体也更乐于分享Gif,以及视频。

人类是视觉动物,所以Sora才会这么抢眼。或许我们太高估了Sora,又太忽视了Gemini 1.5 Pro。

Gemini 1.5 Pro展现出的众多能力中有一点很特殊,它已经是一个具备处理视频语料输入的多模态大模型。Sora能将文字扩展成视频,Gemini 1.5 Pro的野心是把理解视频的能力开放出来。在对模型能力的考验上,很难说后者就弱于前者。

这背后的基础性工作在上下文输入长度上。Gemini 1.5 Pro的上下文长度达到1M Token,这意味着一小时的视频、3万行代码或者JK·罗琳把小说从《哈利波特与魔法石》写到《哈利波特与凤凰社》,远高于包括GPT、Claude系列在内的目前市面上所有的大模型。而谷歌甚至透露,1M Token并不是极限,谷歌内部已经成功测试了高达10M Token的输入,也就是说,它已经能一口气看完9个小时的《指环王》三部曲。

上下文长度抵达10M Token到底意味着什么,等到Sora带来的激情稍褪,人们逐渐回过味儿来。

X、Reddit......越来越多的讨论场开始关注到10M Token所展现出的可能性,其中最大的争议在于,它是否“杀死”了RAG(Retrieval Augment Generation,检索增强生成)。

大模型从概念走向商业应用的过程中,本身的问题逐渐暴露,RAG开始成为贯穿整个2023年最火热的技术名词。

一个被普遍接受的描述框架给这项技术找到了最精准的定位。如果将整个AI看作一台新的计算机,LLM就是CPU,上下文窗口是内存,RAG技术是外挂的硬盘。RAG的责任是降低幻觉,并且提升这台“新计算机”的实效性和数据访问权限。

但本质上这是因为这台“新计算机”仍然又笨又贵,它需要更多脑容量、需要了解更具专业性的知识,同时最好不要乱动昂贵又玻璃心的那颗CPU。RAG某种程度上是为了生成式AI能够尽早进入应用层面的权宜之计。

10M Token的上下文输入上限,意味着很多RAG要解决的问题不成问题了,然后一些更激进的观点出现了。

曾构建了评测基准C-EVAL的付尧认为,10M Token杀死了RAG——或者更心平气和的说法是,长文本最终会取代RAG。

图片

这个观点引发了巨大讨论,他也随后对这个看起来“暴论”式的判断所引发的反对观点做了进一步解释,值得一看。

其中最重要的,是长文本相比于RAG在解码过程中检索上的优越性:

“RAG只在最开始进行检索。通常,给定一个问题,RAG会检索与该问题相关的段落,然后生成。长上下文对每一层和每个Token进行检索。在许多情况下,模型需要进行即时的每个Token的交错检索和推理,并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。

针对RAG支持1B级别的Token,而目前Gemini 1.5 pro支持的上下文长度是1M的问题:

“确实如此,但输入文档存在自然分布,我倾向于相信大多数需要检索的案例都在百万级以下。例如,想象一个处理案例的层,其输入是相关的法律文件,或者一个学习机器学习的学生,其输入是三本机器学习书籍——感觉不像1B那么长,对吗?”

“大内存的发展并不意味着硬盘的淘汰。”有人持更温和的观点。

出于成本和效率上的考虑,超长文本输入在这两方面显然并不成熟。因此哪怕面对10M Token的上下文输入上限,RAG仍然是必须的,就像我们时至今日仍然没有淘汰掉硬盘。

图片

如果将上下文的窗口设定为1M,按现在0.0015美元/1000token的收费标准,一次请求就要花掉1.5美元,这么高的成本显然是无法实现日常使用的。

时间成本上,1M的上下文长度在Gemini 1.5 Pro的演示实例中,需要60秒来完成结果的输出——但RAG几乎是实时的。

付尧的观点更倾向于——“贵的东西,缺点只有贵”。

“RAG 很便宜,长上下文很昂贵。确实如此,但请记住,与 LLM 相比,BERT-small 也便宜,n-gram 更便宜,但今天我们已经不使用它们,因为我们希望模型首先变得智能,然后再变得智能模型更便宜。

——人工智能的历史告诉我们,让智能模型变得更便宜比让廉价模型变得智能要容易得多——当它很便宜时,它就永远不会智能。”

一位开发者的观点代表了很多对这一切感到兴奋的技术人员:在这样一场技术革命的早期阶段,浪费一点时间可能也没有那么要紧。

“假设我花了5分钟或1小时(见鬼,即使花了一整天)才将我的整个代码库放入聊天的上下文窗口中。如果在那之后,人工智能能够像谷歌声称的那样,在剩下的对话中近乎完美地访问该上下文,我会高兴、耐心和感激地等待这段时间。”这位在一家数字产品设计公司中供职的博客作者里这样写道。

在这位开发者发布这条博客之前,CognosysAi的联创Sully Omarr刚刚往Gemini 1.5 Pro的窗口里塞进去一整个代码库,并且发现它被完全理解了,甚至Gemini 1.5 Pro辨别出了代码库中的问题并且实施了修复。

“这改变了一切。”Sully Omarr在X上感叹。

被改变的可能也包括与Langchain相关的一切。一位开发者引用了Sully Omarr的话,暗示Langchain甚至所有中间层玩家即将面临威胁。

向量数据库可能突然之间就变成了一个伪需求——客户直接把特定领域的知识一股脑儿扔进对话窗口就好了,为什么要雇人花时间来做多余的整理工作呢(并且人脑对信息的整理能力也比不过优秀的LLM)?

付尧的预测与这位开发者相似,甚至更具体——以Langchain 、LLaMA index这类框架作为技术栈的初创公司,会在2025年迎来终结。

但必须强调的是,付尧对于RAG的判断和解释弱化了在成本和响应速度上的考虑,原因或许是他正在为谷歌工作,而这两点仍然是让在当下RAG具备高价值的决定性因素。而如果看向这场上下文长度的讨论背后,谷歌在这场竞争中最大的优势开始展现出来了。

他拥有目前这个行业里最多的计算能力。换句话说,对于上下文长度极限的探索,目前只有谷歌能做,它也拿出来了。

从2014年至今,谷歌已经构建了6种不同的TPU芯片。虽然单体性能仍然与H100差距明显,但TPU更贴合谷歌自己生态内的系统。去年8月,SemiAnalysis的两位分析师Dylan Patel和Daniel Nishball揭露谷歌在大模型研发上的进展时表示,⾕歌模型FLOPS利⽤率在上一代TPU产品TPUv4上已经⾮常好,远超GPT-4。

目前谷歌最新的TPU产品是TPUv5e。两位分析师的调查显示,谷歌掌握的TPUv5e数量比OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的GPU总和更多。文章里称TPUv5e将会用到谷歌最新的大模型(即是后来发布的Gemini系列)训练上,算力高达1e26 FLOPS,是GPT-4的5倍。

图片

这个猜测在谷歌最新开源的Gemma身上得到了佐证。Gemma是Gemini的轻量化版本,两者共享相同的基础框架和相关技术,而在Gemma放出的技术报告中表明,其训练已经完全基于TPUv5e。

这也不难理解为何奥特曼要花7万亿美元为新的算力需求未雨绸膜。虽然OpenAI拥有的总GPU数量在2年内增长了4倍。

“"In our research, we’ve also successfully tested up to 10 million tokens."(在研究中,我们也成功测试了多达10M Token)”

这被Sora暂时掩盖住的一次尝试或许在未来会作为生成式AI上的一个重要时刻被反复提及,它现在也真正让发明了transformer框架的谷歌,回归到这场本该由自己引领的竞争中了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2807811.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【设计模式】策略模式及函数式编程的替代

本文介绍策略模式以及使用函数式编程替代简单的策略模式。 策略模式 在策略模式(Strategy Pattern)中一个类的行为或其算法可以在运行时更改。这种类型的设计模式属于行为型模式。 在策略模式定义了一系列算法或策略,并将每个算法封装在独立…

Jenkins解决Host key verification failed (2)

Jenkins解决Host key verification failed 分析原因情况 一、用OpenSSH的人都知ssh会把你每个你访问过计算机的公钥(public key)都记录在~/.ssh/known_hosts。当下次访问相同计算机时,OpenSSH会核对公钥。如果公钥不同,OpenSSH会发出警告,避免…

基于SpringBoot的航班进出港管理系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式 🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 &…

【Java程序设计】【C00319】基于Springboot的志愿服务管理系统(有论文)

基于Springboot的志愿服务管理系统(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的志愿服务管理系统设计与实现,本系统有管理员以及用户二种角色权限 管理员:首页、个人中心、管理员管理、…

【MATLAB源码-第146期】基于matlab的信源编码仿真GUI,对比霍夫曼编码,算术编码和LZ编码。

操作环境: MATLAB 2022a 1、算法描述 霍夫曼编码、算术编码和LZ编码是三种广泛应用于数据压缩领域的编码技术。它们各自拥有独特的设计哲学、实现方式和适用场景,因此在压缩效率、编解码速度和内存使用等方面表现出不同的特点。接下来详细描述这三种编…

Base64 编码 lua

Base64 编码 -- Base64 字符表 local base64_chars { A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,…

freeswitch 权威指南 --- 高级篇

官网文档:https://developer.signalwire.com/freeswitch/FreeSWITCH-Explained/ 关于 freeswitch 的公开教程:https://zhuanlan.zhihu.com/p/451981734 内容来自 《FreeSWITCH 权威指南》:目录:https://juejin.cn/post/702058079…

Vue+SpringBoot打造开放实验室管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容2.1 实验室类型模块2.2 实验室模块2.3 实验管理模块2.4 实验设备模块2.5 实验订单模块 三、系统设计3.1 用例设计3.2 数据库设计 四、系统展示五、样例代码5.1 查询实验室设备5.2 实验放号5.3 实验预定 六、免责说明 一、摘…

什么是智慧公厕?如何打造智慧公厕?

近年来,随着城市信息化建设的不断推进,智慧公厕的建设成为我国城市发展的重要一环。以智能化管理为核心,将公厕纳入互联互通的“智慧城市”大数据平台,使得公厕管理更加高效便捷,为市民提供更好的公共服务。本文将以智…

零基础C++开发上位机--基于QT5.15的串口助手(一)

嵌入式开发的过程中,大部分我们的代码是无法一次成功的。这时候我们大部分的工程师可能最熟练的调试方法是printf函数,打印随意一个数据,来观察当前运行的函数是否执行正确。我们连接的工具有各个大神做的串口助手。另外,在做一般…

[RCTF2015]EasySQL1 题目分析与详解

一、题目介绍: 1、题目来源: BUUCTF网址 2、题目介绍: 拿到flag。 二、解题思路: 我们发现题目首页有登录和注册账号两个选项,我们首先尝试注册账号,尝试注册username为admin的账号,输入密码…

2024年贵州省事业单位考试下周一开始报名,千万不要错过报名时间

2024年贵州省事业单位考试公告已出!快看看你能不能报名! 1、报名时间安排 (一)网上报名 2024年2月26日-2024年2月28日 (二)网上资格初审 2024年2月26日-2024年2月29日 (三)网上缴费 2024年2月26日-2024年3月1日 2、笔试安排 2024年3月30日 08:30-10:…

sentinel整合nacos在gateway中实现限流

sentinel整合nacos在gateway中实现限流 一、应用层面完成网关整合nacos和sentinel实现限流 前沿 启动nacos与sentinel的jar的启动,这里不细讲 sentinel官网 https://github.com/alibaba/Sentinel/wiki/%E4%B8%BB%E9%A1%B5 sentinel 下载地址 https://github.com/…

Google炸场!最强轻量级、开放模型Gemma发布,个人PC就能用,内部员工:强是强,但名字取得让我混乱

想参与根多多学术讨论,请加qq群 链接直达:00后编程交流qq群 如果想要聊天交友,可以加qq群 链接直达:00后聊天交友处cp 欢迎大家加入 不同于OpenAI的闭源大模型,科技巨头如Google和Meta正积极投入开放模型的开发&a…

uni-app 实现拍照后给照片加水印功能

遇到个需求需要实现&#xff0c;研究了一下后写了个demo 本质上就是把拍完照后的照片放到canvas里&#xff0c;然后加上水印样式然后再重新生成一张图片 代码如下&#xff0c;看注释即可~使用的话记得还是得优化下代码 <template><view class"content"&g…

【ArcGIS】利用DEM进行水文分析:流向/流量等

利用DEM进行水文分析 ArcGIS实例参考 水文分析通过建立地表水文模型&#xff0c;研究与地表水流相关的各种自然现象&#xff0c;在城市和区域规划、农业及森林、交通道路等许多领域具有广泛的应用。 ArcGIS实例 某流域30m分辨率DEM如下&#xff1a; &#xff08;1&#xff09…

【新书推荐】7.6语句综合实战

本节必须掌握的知识点&#xff1a; 项目需求 示例二十八 综合实战&#xff0c;本小节将我们之前介绍的所有知识点结合在了一起&#xff0c;其目的就为了告诉大家&#xff0c;学了这么长时间的C语言了&#xff0c;我们可以做一些有趣的小游戏了。 7.6.1 项目需求 ■游戏界面 …

jQuery 基础、选择器和筛选器

【一】JQuery基础 【1】什么时Jquery &#xff08;1&#xff09;定义 jQuery是一个流行的JavaScript库&#xff0c;旨在简化JavaScript编程和处理HTML文档的任务。它提供了一组易于使用的功能和方法&#xff0c;可以加快开发速度并提高跨浏览器兼容性。一款轻量级的JS框架 …

vivado VHDL Objects、VHDL实体描述

VHDL对象包括&#xff1a;信号、变量、常量和运算符。 信号 在中声明VHDL信号&#xff1a; •体系结构声明部分&#xff1a;在该体系结构内的任何位置使用VHDL信号。 •一个块&#xff1a;在该块中使用VHDL信号。 使用<信号分配运算符分配VHDL信号。 signal sig1 : std…

matlab|计及源荷不确定性的综合能源生产单元运行调度与容量配置随机优化模型

目录 1 主要内容 1.1 风光场景聚类 1.2 主模型程序结果 1.3 随机模型和确定性模型对比 1.4 有无储气对比 1.5 煤价灵敏性分析 1.6 甲烷价格灵敏性分析 2 部分程序 3 下载链接 1 主要内容 本程序复现《计及源荷不确定性的综合能源生产单元运行调度与容量配置两阶段随机…