GPT-4引领:AI新浪潮的转折点

OneFlow编译

**翻译|贾川、杨婷、徐佳渝

编辑|王金许**

一朝成名天下知。ChatGPT/GPT-4相关的新闻接二连三刷屏朋友圈,如今,这些模型背后的公司OpenAI的知名度不亚于任何科技巨头。

不过,就在ChatGPT问世前,OpenAI在GPT-3发布后的两年多时间里陷入沉寂,甚至开始被人唱衰。实际上,OpenAI在这期间正在潜心打磨GPT-3.5。

在OneFlow去年3月发布的《
深度学习崛起十年:“开挂”的OpenAI革新者
》一文中,OpenAI联合创始人、首席科学家就介绍了那些现在业内人尽皆知的人类反馈的强化学习(RLHF)、AI对齐以及多模态等关键名词和基本思路。

只不过,那时业内似乎都在忙着比拼更大的模型参数,无暇顾及抑或并不在意OpenAI正在研究的工作,看过这个对话的人很少。

当然,即使看了他们的技术思路,相信他们能走通的人就更少了,能去真正实践的也只有他们自己。直到ChatGPT大获成功,同行也只好羡慕嫉妒拍自己大腿,并说上一句:不就是已有技术的组合。然后眼睁睁看着OpenAI一脚油门,甩出同行几条街。

作为GPT系列模型背后“组装者”和推动者,
毫不夸张地说,没有Ilya Sutskever,就没有现在的ChatGPT以及GPT-4
。他正在改变世界。

更惊人的是,
十年前,他已经改变过一次世界
。那个引发深度学习新一轮革命浪潮的AlexNet也与Ilya有关,他是AlexNet的作者之一,后续随之而来的AlphaGo、GPT、CLIP、DALL-E和Codex都离不开他的贡献。

那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响?

在近期与
英伟达CEO黄仁勋
(GTC大会)以及Eye on AI播客的主持人Craig S. Smith的两场对话中,Ilya对此进行了解答。

对话中的Ilya像是AI研究者中的苦行僧。不同于
Sam Altman

Greg Brockman
两位创始人在交谈中表现出的异常敏捷的表达能力,Ilya的语速相对平缓很多,但他的思考要比说出口的内容更深远。当你问他能否解决GPT模型一本正经地胡说八道的问题时,他说,“让我们拭目以待”,这个回答让你感觉毛骨悚然的同时还会相信这家伙真的能做到。

就在业内其他团队正在研究怎么研发类ChatGPT追赶甚至“弯道超车”OpenAI时,GPT-5或许已经在路上了。在这之前,最好看看Ilya怎么思考AI及其未来发展方向,或许会启发我们提出更好的、不一样的发展路径。

OneFlow以QA形式对上述两场对话进行了编译整理,对于问题以下不作具体区分。(Craig的播客经授权后由OneFlow编译,内容转载请联系OneFlow获得授权。播客:https://www.eye-on.ai/)

1

AI界的“iPhone时刻”

Q:ChatGPT就是AI界的“iPhone时刻”,你是如何实现这一历史性转变的?

A:
最开始,我们也不清楚该如何开展整个项目,而且这个领域与现在的发展走向也完全不同。2016年左右开始创办OpenAI时,这一领域的研究者还很少,我们当时的同事大多来自Google/DeepMind,他们有从业经验,但思路相对而言比较狭窄,有所束缚。

那时我们有两个大的基础想法,它们的影响一直延续到今天。
第一个想法是通过压缩进行无监督学习。
现在看来这是理所应当,但在2016年,无监督学习是一个还没有被解决的问题,也没有任何科学家有相关想法。

Yann LeCun当时到处说这是一个技术上的瓶颈。压缩也不是人们经常会谈到的问题,但ChatGPT实际上确实压缩了训练数据,我们通过不断训练自回归生成模型实现了数据压缩。如果数据被压缩得足够好,就必须要提取其中存在的所有隐藏信息,这就是关键所在。

这也直接导致了我们研究情绪神经元。
OpenAI科学家Alec Radford
训练LSTM来预测亚马逊评论的下一个字符时发现,如果你预测下一个字符足够好,LSTM就会有一个与情绪对应的神经元。这就很好地展示了无监督学习的效果,也验证了下一个字符预测的想法。
这个发现对我们的影响很大。

但哪里能得到无监督学习的数据呢?无监督学习的难点不在于数据,更多关于为什么要这么做,以及意识到训练神经网络来预测下一个字符是值得追求和探索的。

然后Transformer出来后,我们立即发现这个模型就是我们想要的,于是做出了GPT-1。

第二个想法就是强化学习。
我有一个很强的信念是“越大越好”,OpenAI的目标是找到扩展的正确路径。我们完成的第一个真正的大型项目是实时战略游戏DOTA 2。当时我们训练了一个强化学习的Agent来与自己对抗,目标是达到人类玩家的水平。

从DOTA的强化学习转变为人类反馈的强化学习,再加上GPT技术基座,成就了今天的ChatGPT。

Q:有人认为,ChatGPT只是一个大型语言模型,但在我看来,那背后有自己的复杂系统。能否介绍一下你们是如何通过强化学习进行
精调的
?ChatGPT背后是否有多种系统进行支撑?

A:
当我们训练大型神经网络以准确预测互联网上大量不同文本的下一个词时,
我们在做的其实是在学习一个世界模型。
从表面看,神经网络只是在学习文本中的统计相关性,但实际上&#x

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3267670.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Reaxys平台账号创建:简易注册流程

Reaxys数据库是Elsevier旗下的全球最大物质理化性质和事实反应数据库,包含了超过5亿条经过实验验证的物质信息,收录超过1.38亿种化合物,5,000万种单步和多步反应、6,000万条文摘记录。涵盖全球7大专利局和16,000种期刊16个学科中与化合物性质…

全网最详细Gradio教程系列5——Gradio Client: python

全网最详细Gradio教程系列5——Gradio Client: python 前言本篇摘要5. Gradio Client的三种使用方式5.1 使用Gradio Python Client5.1.1 安装gradio_client5.1.2 连接Gradio应用程序1. 通过URL连接2. 通过SpaceID连接3. 辅助:duplicate()和hf_token4. Colab Noteboo…

ajax学习1

<!-- 目标&#xff1a;使用axios库&#xff0c;获取省份列表数据&#xff0c;展示到页面上 1.引入axios库 --> <p class"my-p"></p> <script src"https://cdn.jsdelivr.net/npm/axios/dist/axios.min.js"></ script> <sc…

Tomcat项目本地部署

今天来分享一下如何于本机上在不适用idea等辅助工具的前提下&#xff0c;部署多个tomcat的web项目 我这里以我最近写的SSM项目哈米音乐为例&#xff0c;简单介绍一下项目的大致组成&#xff1a; 首先&#xff0c;项目分为4个模块&#xff0c;如下图所示&#xff1a; 其中&…

力扣高频SQL 50题(基础版)第十八题

文章目录 力扣高频SQL 50题&#xff08;基础版&#xff09;第十八题1633. 各赛事的用户注册率题目说明思路分析实现过程准备数据实现方式结果截图 力扣高频SQL 50题&#xff08;基础版&#xff09;第十八题 1633. 各赛事的用户注册率 题目说明 用户表&#xff1a; Users --…

RPG素材Unity7月20闪促限时4折游戏开发资产兽人角色模型动画休闲放置模板物理交互流体水下焦散VR界面UI2D模板场景20240720

今天这个是RPG素材比较多&#xff0c;还有一些休闲放置模板、FPS场景素材、角色模型、动画、特效。 详细内容展示&#xff1a;www.bilibili.com/video/BV1Tx4y1s7vm 闪促限时4折&#xff1a;https://prf.hn/l/0eEOG1P 半价促销&#xff1a;https://prf.hn/l/RlDmDeQ 7月闪促…

小红书(社招二面)算法原题

萝卜快跑涨价 距离我们上次谈 萝卜快跑 不足半月&#xff0c;萝卜快跑迎来了不少"反转"。 先是被曝远程后台有人操控&#xff0c;真实日成本超 400&#xff1a; 最近还被不少网友吐槽&#xff1a;萝卜快跑涨价了&#xff0c;如今价格和网约车持平。 据不少博主实测&a…

17 Python常用内置函数——基本输入输出

input() 和 print() 是 Python 的基本输入输出函数&#xff0c;前者用来接收用户的键盘输入&#xff0c;后者用来把数据以指定的格式输出到标准控制台或指定的文件对象。无论用户输入什么内容&#xff0c;input() 一律作为字符串对待&#xff0c;必要时可以使用内置函数 int()、…

【SpringBoot教程:从入门到精通】掌握Springboot开发技巧和窍门(四)-Vue项目配置环境、导航栏

主要写前端页面&#xff0c;采用vue框架写页面的导航栏&#xff01;&#xff01;&#xff01; 文章目录 前言 Vue项目配置环境 安装依赖 创建菜单 总结 前言 主要写前端页面&#xff0c;采用vue框架写页面的导航栏&#xff01;&#xff01;&#xff01; Vue项目配置环境 安装…

【算法】分布式共识Paxos

一、引言 在分布式系统中&#xff0c;一致性是至关重要的一个问题。Paxos算法是由莱斯利兰伯特&#xff08;Leslie Lamport&#xff09;在1990年提出的一种解决分布式系统中一致性问题的算法。 二、算法原理 Paxos算法的目标是让一个分布式系统中的多个节点就某个值达成一致。算…

2000-2023年上市公司全要素生产率数据LP法(含原始数据+计算代码+结果)

2000-2023年上市公司全要素生产率数据LP法&#xff08;含原始数据计算代码结果&#xff09; 1、时间&#xff1a;2000-2023年 2、指标&#xff1a;stkcd、year、证券代码、固定资产净额、资产总计、负债合计、支付给职工以及为职工支付的现金、购建固定资产无形资产和其他长期…

Monaco 使用 LinkedEditingRangeProvider

Monaco LinkEdit 功能是指同时修改同样的字符串&#xff0c;例如在编辑 Html 时&#xff0c;修改开始标签时会同时修改闭合标签。Monaco 支持自定义需要一起更新的字符串列表。最终效果如下&#xff1a; 首先&#xff0c;通过 registerLinkedEditingRangeProvider 注册 LinkEd…

关键词查找【Knuth-Morris-Pratt (KMP) 算法】

一个视频让你彻底学懂KMP算法_哔哩哔哩_bilibili KMP算法的核心是利用匹配失败后的信息&#xff0c;尽量减少模式串与主串的匹配次数以达到快速匹配的目的。 第一步&#xff1a;计算模式串(子串)和next[j]数组 模式串 前2位字母的next[j]固定是0 和 1 后续字母的nex[j]&…

生成式AI的发展方向是chat还是Agent探讨

生成式 AI 的发展方向&#xff0c;是 Chat 还是 Agent&#xff1f; 随着生成式AI技术的不断进步&#xff0c;关于其未来发展方向的讨论也愈发激烈。究竟生成式AI的未来是在对话系统&#xff08;Chat&#xff09;中展现智慧&#xff0c;还是在自主代理&#xff08;Agent&#x…

MySQL之触发器和存储过程

1、触发器 触发器简介 触发器&#xff08;trigger&#xff09;是一个特殊的存储过程&#xff0c;它的执行不是由程序调用&#xff0c;也不是手工启动&#xff0c;而是由事件来触 发&#xff0c;比如当对一个表进行操作&#xff08; insert&#xff0c;delete&#xff0c; upda…

js返回一个月的所有天数,用数组表示

直接上代码 import dayjs from dayjs import isSameOrBefore from dayjs/plugin/isSameOrBefore dayjs.extend(isSameOrBefore)function getCurrentMonthDays(month) {const firstDay dayjs().startOf(month);const lastDay dayjs().endOf(month);const allDatesInMonth []…

【C++笔试强训】day05

游游的you 思路 贪心&#xff1a;优先组成 you&#xff0c;最少的字母决定了you的数量。需要注意&#xff1a;如果oo剩下n个&#xff0c;那么相邻oo的个数是n-1个&#xff0c;而不是n/2个。 例如 oooooo oo oo oooo oo 6个o&#xff0c;两两组合有3对&#xff0c;掐头去尾有…

【支持语言模型和视觉语言模型的推理引擎sglang】

介绍 sglang是一个AI推理引擎&#xff0c;是一个专门为大语言模型和视觉语言模型设计的高效服务框架。 就像F1赛车需要顶级发动机一样&#xff0c;大语言模型也需要高效的推理引擎来发挥潜力。 而sglang正是这样一个性能怪兽。 根据LMSys组织的官方公告&#xff0c;最新的s…

CCS(Code Composer Studio 10.4.0)编译软件中文乱码怎么解决

如果是所有文件都出现了中文乱码这时建议直接在窗口首选项中修改&#xff1a;选择"Window" -> "Preferences"&#xff0c;找到"General" -> "Workspace"&#xff0c;将"Text file encoding"选项设置为"Other&quo…

Mac printf处理参数的奇特之处(macOS中,printf使用%d输出一个浮点数会发生什么情况?)

今天早上网上冲浪的时候看到了 2016 年的一篇文章&#xff0c;里面提到了一段代码&#xff1a; #include <stdio.h> int main() {double a 10;printf("a %d\n", a);return 0; }说这段代码在 x86&#xff08;IA-32&#xff09;上运行时&#xff0c;输出为0&a…