【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来

28 日,阿里巴巴达摩院发布 2022 十大科技趋势。其中,“大模型参数竞赛进入冷静期,大小模型将在云边端协同进化”的断言,在 AI 圈备受关注。

eed6829dc64a5afb51ef02081b30574b.png

2021 是大模型爆发之年,我们见证了大模型的惊艳,但也了解了目前大模型的一些局限,如显著的高能耗等问题。

达摩院认为,超大规模预训练模型是从弱人工智能向通用人工智能的突破性探索,解决了传统深度学习的应用碎片化难题,但性能与能耗提升不成比例的效率问题限制了参数规模继续扩张。

接下来,人工智能研究将从大模型参数竞赛走向大小模型的协同进化,大模型向边、端的小模型输出模型能力,小模型负责实际的推理与执行,同时小模型再向大模型反馈算法与执行成效,让大模型的能力持续强化,形成有机循环的智能体系。 

周志华、唐杰、杨红霞等多位学界、业界代表性专家,对此发表了评论。

大模型接下来会如何发展?岁末年初之际,让我们回顾大模型的过去,展望大模型的未来。

大小模型将承担不同角色

南京大学计算机科学与技术系主任兼人工智能学院院长 周志华

5482e78881d541fbfbfb899bff809e72.png

大模型一方面在不少问题上取得了以往难以预期的成功,另一方面其巨大的训练能耗和碳排放是不能忽视的问题。个人以为,大模型未来会在一些事关国计民生的重大任务上发挥作用,而在其他一些场景下或许会通过类似集成学习的手段来利用小模型,尤其是通过很少量训练来 “复用” 和集成已有的小模型来达到不错的性能。

我们提出了一个叫做 “学件” 的思路,目前在做一些这方面的探索。大致思想是,假设很多人已经做了模型并且乐意放到某个市场去共享,市场通过建立规约来组织和管理学件,以后的人再做新应用时,就可以不用从头收集数据训练模型,可以先利用规约去市场里找找看是否有比较接近需求的模型,然后拿回家用自己的数据稍微打磨就能用。这其中还有一些技术挑战需要解决,我们正在研究这个方向。

另一方面,有可能通过利用人类的常识和专业领域知识,使模型得以精简,这就要结合逻辑推理和机器学习。逻辑推理比较善于利用人类知识,机器学习比较善于利用数据事实,如何对两者进行有机结合一直是人工智能中的重大挑战问题。麻烦的是逻辑推理是严密的基于数理逻辑的 “从一般到特殊”的演绎过程,机器学习是不那么严密的概率近似正确的 “从特殊到一般”的归纳过程,在方法论上就非常不一样。已经有的探索大体上是以其中某一方为倚重,引入另一方的某些成分,我们最近在探索双方相对均衡互促利用的方式。

站在 2022,展望大模型的未来

清华大学计算机系教授,北京智源人工智能研究院学术副院长 唐杰

78dc10ec2e4e9764ad27993a4cad8628.png

2021 年,超大规模预训练模型(简称大模型)成为国际人工智能前沿研究和应用的热点,发展迅速也面临系列挑战。最新发布的《达摩院 2022 十大科技趋势》将 “大小模型协同进化” 列为 AI 模型发展的新方向,提出“大模型参数竞赛进入冷静期,大小模型将在云边端协同进化”,值得业界关注。站在年末岁初,让我们一起回望大模型的 2021,展望它的 2022 和更远未来。

一、超大规模预训练模型迅速发展但也面临系列挑战

2021 年 8 月,斯坦福大学成立基础模型研究中心(CRFM)并将 BERT、GPT-3 和 CLIP 等基于大规模数据进行训练并可以适应广泛下游任务的模型统称为 “基础模型”。虽然这个概念在学术界引起了不少争议,有学者对于模型是否具有“基础性” 提出了质疑,但是应该看到,这些模型所表现出的能够更好处理现实世界复杂性的能力,使得它们变得愈发重要。

产业界持续推动大模型研发,并不断将模型的规模和性能推向新高。1 月,OpenAI 发布大规模多模态预训练模型 DALL·E 和 CLIP,谷歌发布 1.6 万亿规模预训练语言模型 Switch Transformer,10 月,微软和英伟达发布 5300 亿规模的 Megatron-Turing 自然语言生成模型 MT-NLG。另外,大模型应用也在不断丰富,目前全球基于 GPT-3 的商业应用已有几百个,随着近期 GPT-3 全面开放 API 申请和微调功能,GPT-3 应用生态也将加速形成。

2021 年也是我国超大规模预训练模型发展的“元年”,目前,已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。

虽然国内外超大规模预训练模型取得了较大进展,但是同时也应认识到,大模型发展还有很多亟待解决的重要问题。例如,预训练模型的理论基础尚未明确(如大模型智能的参数规模极限存在吗),大模型如何高效、低成本的应用于实际系统;其次构建大模型需要克服数据质量、训练效率、算力消耗、模型交付等诸多障碍;最后目前大部分大模型普遍缺乏认知能力的问题,这也是部分学者质疑这类模型能否被称为 “基础模型” 的原因之一。能否通过大模型实现更通用的智能?怎么实现?这些都需要学术界和产业界不断探索。

二、大模型打造数据与知识双轮驱动的认知智能

人工智能经过数十年的发展,历经符号智能、感知智能两个时代,目前来到第三代人工智能即认知智能的大门口。认知智能不仅要求基于大数据的深度学习及对应的感知识别,还要求机器具有认知和推理能力,要让机器具备与人接近的常识和逻辑,这就对数据与知识的融合提出了迫切需求。

回顾人工智能的发展,1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL;1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念;图灵奖获得者 Yoshua Bengio 在 2019 年 NeurIPS 大会的主题报告中指出,深度学习应该从感知为主向基于认知的逻辑推理和知识表达方向发展,这个思想和清华大学张钹院士提出的第三代人工智能思路不谋而合。同期,美国国防部高级研究计划局(DARPA)发布 AI NEXT 计划,核心思路是推进数据计算与知识推理融合的计算,还委托了伯克利等机构,开展 SYMBOLIC - NEURAL NEWORK(符号加神经网络计算)研究,其目的就是要加快推进这一进程。

总的来说,研究数据与知识融合的双轮驱动 AI 时代已经到来,核心是利用知识、数据、算法和算力 4 个要素,不仅是使用数据驱动的方法来建构模型,还需要将用户行为、常识知识以及认知联系起来,主动 “学习” 与创造。

智源研究院研发的 “悟道” 大模型是我国具有代表性的超大规模预训练模型,探索了大模型研发的另外一条路径,旨在打造数据与知识双轮驱动的认知智能,建立超越图灵测试的通用机器认知能力,让机器像人一样“思考”。

在大模型研发过程中,我们初步定义了大模型需要具备的 9 种机器认知能力(T9 准则):

1. 适应与学习能力:机器具有一定的模仿能力,能够通过模仿和反馈学习人的语言和行为;

2. 定义与情境化能力:机器能够根据感知上下文场景做出反应(语言和行为反馈),并保证反应的一致性;

3. 自我系统的准入能力:机器具有一个稳定的人设(如:稳定的心理大五人格),在生成对待事物的观点时,不会随意改变自己的观点和情感倾向;

4. 优先级与访问控制能力:机器具有能发现自我观点的矛盾和纠结,但最终能做出一个选择,并在后续行为中保持一致;

5. 召集与控制能力:机器能主动搜索与自身人设一致或者符合自身利益的内容(新闻),并对其进行正面评论;反之也能搜索与自身人设相违背的内容,并对其进行反驳;

6. 决策与执行能力:机器能主动搜索内容信息、统计其他机器与人的观点与倾向,根据自身人设做出对自己有利的决策并执行;

7. 错误探测与编辑能力:机器能自动对无法判断的事物进行假设,并进行追踪,如果发现假设错误或者假设不完备,能自动进行编辑修正;

8. 反思与自我监控能力:机器具有自动校验能力,如果发现执行的操作不正确,具有自我监控和修正的能力;

9. 条理与灵活性之间的能力:机器能够自动规划和保证执行操作之间的条理性;同时如果发现条理不正确的时候,具有一定灵活性,可以修正自己的行为。

要全面实现以上 9 种机器认知能力还有很长的路要走,但我们坚信下一个人工智能浪潮的兴起必然伴随着认知智能的实现,让机器具有推理、解释、认知能力,在多项人类感知与认知任务中超越图灵测试。大模型已经在认知智能发展上进行了一年的探索,并取得阶段进展。

三、大模型的未来

《达摩院 2022 十大科技趋势》提出,大小模型将在云边端协同进化。大模型向边、端的小模型输出模型能力,小模型负责实际的推理与执行,同时小模型再向大模型反馈算法与执行成效,让大模型的能力持续强化,形成有机循环的智能体系。这一观点富有启发性,而且有助于大模型从实验室走向规模化的产业应用。

在我看来,未来大规模研究将更加注重原始创新,围绕认知智能以及高效应用等多个角度展开。

在认知智能方面,模型参数不排除进一步增加的可能,甚至到百万亿、千万亿规模,但参数竞赛本身不是目的,而是要探究进一步性能提升的可能性。大模型研究同时注重架构原始创新,通过模型持续学习、增加记忆机制、突破三元组知识表示方法等方法进一步提升万亿级模型的认知智能能力。在模型本身方面,多模态、多语言、面向编程的新型模型也将成为研究的重点。

在高效应用方面,将大大降低大模型使用门槛,让大模型用起来,促进中小企业形成 “大模型 + 少量数据微调” 的 AI 工业化开发模式。主要实现:

1)降成本:降低模型在预训练、适配下游任务、推理过程中的算力消耗;

2)提速度:通过模型蒸馏、模型裁剪等手段提升千亿或以上规模模型推理速度 2 个数量级;

3)搭平台:通过搭建一站式开发及应用平台提供从在线模型构建、在线模型部署、应用发布的全流程预训练服务,能够支持成百上千个应用的开发与部署,相信后续大模型的广泛应用将成为赋智我国经济高质量发展的关键助推剂。

思考的快与慢,与下一代人工智能

阿里巴巴达摩院人工智能科学家 杨红霞

50dc8e21af2cabc9213420a0ab75a00a.png

人工智能学者一直试图从大脑工作模式中汲取灵感,但大脑究竟如何思考是非常复杂的课题。诺贝尔经济学奖获得者丹尼尔 · 卡内曼教授的《思考, 快与慢》指出,人的思考有两种模式。我们很多时候下意识地作出反应,是快的模式。举个例子,如果每天从家到公司的路线一模一样,就不需要做太多思考,沿着原路走就行,这是快思考。什么是慢思考?突然有一天,公司和家之间在修路,需要重新规划路径,这时就不得不进行慢思考。

基于大脑思考的模式,解决下一代人工智能的核心认知推理问题,是我们团队近几年最重要的目标。GPT-3 激发了大家投入大模型研发的巨大热情,但由于大模型的能耗和效率问题,学界又对是否一定要用大模型提出疑问。通过大量的实际探索,我们认为,大模型和小模型可以协同发展,分别承担慢思考和快思考的任务。云上能容纳海量知识的大模型,就像超级大脑,有能力进行慢思考,而在端上与大模型协同的小模型可以执行快思考。

近年来,随着预训练技术在深度学习领域的飞速发展,预训练大模型(大模型)逐渐走进人们的视野,成为人工智能领域的焦点。大模型在文本、图像处理、视频、语音等多个 AI 领域实现较大突破进展,并逐渐成为 AI 的基础模型(Foundation Model),同时大模型也在积极与生命科学领域进行结合,包括在蛋白质、基因等方向取得进展,并在细胞分类、基因调控关系发现、细菌耐药性分析等任务中前景广阔。可以认为大模型是目前解决推理认知问题最先进的工具,不过预训练大模型还有亟待突破的几个课题,比如:

1、目前的主流实践是先通过训练大模型(Pretrained Model),得到参数规模大、精度高的模型后,再基于下游任务数据,通过剪枝、微调的方法(Finetune)将模型的体积压缩,在基本不损失精度的情况下减轻部署的压力,目前业界还没找到通用的、直接训练小型模型就能得到较满意精度的办法;

2、训练千亿、万亿模型动辄就上千张 GPU 卡,给大模型的推广和普惠带来了很大的挑战;

3、预训练模型 Pretrain 阶段参数量大,目前主要采用大量非结构化数据进行训练,如何与知识等结构化数据进行结合,让模型更加有效地实现认知推理,也是一个非常大的挑战。

在解决大模型亟待突破的课题方面,我们做了不少尝试,可供业界参考。今年 11 月,我们发布了全球首个 10 万亿参数的多模态大模型 M6,相比去年发布的 GPT-3,实现同等参数模型能耗仅为其 1%,降低了大模型实现门槛,推动了普惠 AI 的发展。今年 10 月我们对外开放的云服务化平台是目前业界覆盖下游任务最广泛的平台,涵盖各项单模态和跨模态的理解及生成任务。目前,M6 已在阿里巴巴超 50 余个不同业务场景中应用。

未来,除了通过低碳化发展绿色 AI、平台化应用推进普惠 AI 以及突破认知推理等技术外,我们希望大模型还能积极探索与科学应用的结合,潜在科学应用方向可能包括脑神经连接图谱绘制、脑机接口、透明海洋等领域。

在形成更高效、更广泛的智能体系上,大小模型在云边端协同进化带来了新的可能性。在边端与大模型协同的小模型执行快思考方面,我们也进行了积极探索和规模化落地。大模型可以向边、端小模型的输出,让小模型更容易获取通用的知识与能力,小模型专注在特定场景做极致优化,提升了性能与效率;同时小模型向大模型反馈执行成效,解决了过去大模型数据集过于单一的问题,最后全社会不需要重复训练相似的大模型,模型可以被共享,算力与能源的使用效率得以最大化。这一模式有望构建下一代人工智能的基础设施,在让人工智能的通用能力进一步提升。

经历符号主义的衰落与深度学习的繁荣,我们来到了新的路口。科技的进程往往由天才般的灵感与极大量的实践推进,人工智能的演进也是如此,在收敛与发散之间不断寻找突破口。大模型是一个令人激动的里程碑,接下来该走向何方,我们或许可以继续向自身追问,在快思考与慢思考中获取新的启示。

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 仅需12层网络,在ImageNet上准确率达到80.7%!普林斯顿大学最新提出ParNet!

  • MobileViT: 一种更小,更快,高精度的轻量级Transformer端侧网络架构(附代码实现)

  • 【移动端最强架构】LCNet吊打现有主流轻量型网络(附代码实现)

  • 基于Attention机制的轻量级网络架构以及代码实现

  • 深度学习中的轻量级网络架构总结与代码实现

  • 一文详解Inception家族的前世今生(从InceptionV1-V4、Xception)附全部代码实现

  • 华为2012实验室诺亚方舟实验室招聘视觉感知算法实习生

欢迎大家加入DLer-计算机视觉&Transformer群!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

7579d681dab41a929e31ef888ffa2ffe.png

👆 长按识别,邀请您进群!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1621692.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

量子力学历史与理论

量子力学历史与理论 提到量子力学,很多人的第一反应是微观、不连续、不确定,然后就是玄乎、奇怪、诡异,乃至恐怖。 有这样的想法并不奇怪,毕竟,它跟经典物理的确不太一样,大家也乐于相信玻尔说的&#xff1…

2个月7登顶刊!郭光灿团队实现硅自旋量子比特的国际最快调控

光子盒研究院出品 硅基半导体自旋量子比特以其长量子退相干时间和高操控保真度,以及其与现代半导体工艺技术兼容的高可扩展性,成为实现量子计算机研制的重要候选者之一。近年来,由于硅量子点的优越性,基于硅量子点的研究取得了实质…

读京东技术解密,感桑田沧海变迁

前言:读完《京东技术解密》的试读章节,情不自禁叹了口气,不仅仅感叹文章带给我的震撼,更感叹我们的团队在未来能取得怎样的成就。书中提及的京东技术架构以及成长史,足够的牛气,足够的辉煌,然而…

请接收 | 京东探索研究院陶大程院长的一封信

技术为帆 不负韶华 京东探索研究院陶大程院长的一封信 年轻的朋友们: 感谢大家对京东探索研究院(JD Explore Academy)的关注与支持!感谢大家对科研工作的殷切期待与信心! 今天我们正飞速进入一个由人工智能…

量子前沿英雄谱|跨学科学霸:Surya Ganguli

斯坦福大学应用物理学教授,量子神经网络科学家Surya Ganguli教授 (图片来源:斯坦福大学) Surya Ganguli,斯坦福大学应用物理学教授,谷歌客座研究教授,量子神经网络科学家。美国国家科学基金会职…

北大直博保送生论文涉嫌抄袭?原作者实名举报,北大南开火速调查

【导读】保送北大直博的学生被扒出抄袭了川大学生的SCI论文,还是从论文机构买的? 南开保送北大直博的学生,抄袭川大学生的SCI论文发了本普刊,还是直接英翻中? 更为离奇的是,这篇抄袭论文似乎是从论文辅导…

玻色量子与前台湾大学校长张庆瑞联合发表IEEE光量子计算综述文章

​2022年7月,玻色量子团队与前台湾大学校长、台湾大学IBM量子电脑中心主任、IEEE Fellow、鸿海研究院咨询委员张庆瑞教授团队联合在IEEE Nanotechnology年度特刊上发表了论文:Photonic Quantum Computers Enlighten the World:A review of th…

LeetCode-56-合并区间

题目描述: 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 可以使用 LinkedList,…

Java 火车票订票系统

架构:SSH 数据库:mysql 开发工具:eclipse/myeclipse 简介: 本文实现一个简单的java web火车票订票项目: 架构:SSH 数据库:mysql 开发工具:eclipse/myeclipse java web 火车售…

Python实现全自动购买火车票!抢票回家过年咯!

这个是实现结果,因为一天只能取消三次,所以最后一步点击确认被我注释了 1.首先实现使用selenium登陆12306 关于使用selenium实现12306登陆可以看我的另一篇文章 这里实现了使用selenium登陆12306,这次是基于上次的代码进行修改实现全自动购买…

java多线程模拟购买火车票

java多线程模拟购买火车票 本次做的是一个火车票的售卖模拟,不管用户是在窗口还是APP上购买,必然不可能买到同一张票这也就是说一张票的售卖必然是一个线程在操作的,所以,我们在写代码是也要注意这一点 首先我们要进行分析 我们需要几个类来完成我们的代码 根据java面向对象编…

Java使用多线程和GUI实现购买火车票<集合>

文章目录 绪:样例DEMO——购票项目项目要求实现步骤一、【车次.txt】【Person类】【Ticket类】1.【车次.txt】2.【Person类】3.【Ticket类】 二、主窗口 【Window类】1、界面2、事件监听1.窗口加载就显示出信息2.查找按钮3. 刷新4.购买 三、购买窗口【PayWindow类】…

Python selenium实现全自动购买火车票

这个是实现结果,因为一天只能取消三次,所以最后一步点击确认被我注释了 1.首先实现使用selenium登陆12306 关于使用selenium实现12306登陆可以看我的另一篇文章 这里实现了使用selenium登陆12306,这次是基于上次的代码进行修改实现全自动购买…

【web测试】实战1:去哪儿网购买火车票|优化|po模式

【web测试】实战1:去哪儿网购买火车票|优化|po模式 测试用例设计1.项目计划2.测试用例 项目实战脚本基本代码优化代码重构base_function.pyqunaer_book.pytest_qunaer_book.pydata.xlsx po模式目录base.pyfunction.pybook_ticket_page.pybook_list_page.pybook_orde…

java购买火车票

题目要求:假设从A地到B地的火车票有硬座和硬卧,价格分别为100和190元。根据铁路部门规定,未成年人(18周岁以下)身高不足120cm免票,120(含)-150(不含)cm需半票…

Java购买火车票(初识并发)

初识并发(购买火车票) 购买火车票 发现问题:多个线程操作同一个资源的情况下,线程不安全,数据紊乱。 Code: public class TicketDemo_04 implements Runnable{private int ticketNumber 10; // 票数Overridepubli…

Spring注解之@validated的使用

使用步骤 1.引入依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-validation</artifactId> </dependency> 2.异常拦截类 /*** 全局异常处理*/ Slf…

电视卡众说纷纭(二):2007年度市面常见电视卡软硬件性能

在查找VISTA MCE插件开发的过程中看到很多的是跟电视卡硬件相关的资料。看到最多的名词就是软压卡、硬压卡。一个好的软件开发人员不只是要了解软件的开发&#xff0c;对硬件的设施也应该有相关的了解。要不然就成了闭塞的书呆子。所以我整理了我看到的关于电视卡比较好帖子和文…

dasBlog-1.8.5223.1中文版

dasBlog-1.8.5223.1中文版 本版本的DasBlog是qihangnet基于dasBlog-1.8.5223.1原版做的本地化版本。安装提示&#xff1a;1、由于本系统是使用Asp.Net开发的&#xff0c;所以在安装前请确保您的服务器或者虚拟主机支持Asp.net&#xff1b;2、请确定您将要安装的目录&#xff0c…

关于Linux下ISE和vivado安装cable usb驱动的问题

由于先前安装Android Studio一直不成功&#xff0c;一气之下&#xff0c;本人重装了系统&#xff0c;导致之前装的驱动什么的都没有了&#xff0c;这时再安装vivado&#xff0c;检测不到驱动&#xff0c;这里介绍怎么安装cable usb的驱动&#xff0c;供参考。 要安装这个驱动&a…