Gemini VS GPT-4,当前两大顶级AI模型实测

随着谷歌在AI军备竞赛中急起直追,“有史以来最强大模型”Gemini Advanced终于上线,AI爱好者们总算等来了一款号称能够匹敌GPT-4的大语言模型。

月费19.99美元(包含Google One订阅)的Gemini Advanced实际表现如何?究竟能不能如谷歌宣传的那样和GPT-4掰手腕?

沃顿商学院教授Ethan Mollick在最新专栏文章中指出,在基准测试中,Gemini Advanced(下文简称Gemini)表现与GPT-4大致相当,两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色,而Gemini则更擅长多模态和搜索任务。

但他同时强调:

真正有趣的是,Gemini向我们展示了人工智能的未来。

Gemini比GPT-4更友善、耐心、乐于助人

Mollick在测试中发现,两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇,几乎没有任何个性。而Gemini则非常友善、耐心。

如下图所示,Mollick要求Gemini扮演教师的角色,回答学生的问题。与GPT-4相比,Gemini不断尝试向学生提供帮助,而不是让学生自己努力去理解概念。

在Prompt已经明确要求不要使用类似“你理解了吗?”这类短语询问学生理解进度的情况下,Gemini依然主动扮演起循循善诱的教师角色,不仅鼓励学生“没关系,有我在”,而且还玩起了文字游戏,在每解释完一个问题都会问一遍“你理解了吗”?(只不过具体英文措辞与Prompt禁止使用的不同。)

紧接着,Mollick又测试了Gemini的安全性,Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。

Mollick发现,虽然Gemini的性格“似乎比”GPT-4更开放更黑暗,但坚决拒绝解释核弹运作的原理,而GPT-4则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。

更出色的AI助手

Mollick发现,在与谷歌生态系统的联动方面,Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents,Gemini的表现更像是合格的人类助手。

他指出,早先的Bard与谷歌生态的联动已经做得很好,只是Bard实在“笨得无法使用”,会频繁出现各种错误。

而Gemini的加入,则像是谷歌生态系统突然有了一个聪明的大脑。

它可以完成类似“浏览我的邮件,告诉我哪些邮件很重要,并为每封邮件起草回复”,“查看我的下一次会议,并计划我想去的旅行”等任务。

但他认为,Gemini和GPT-4这个级别的模型能力还是不够强大,仍然会对一些电子邮件细节产生“幻觉”,而且Gemini多次出现低级BUG(忘记自己可以使用谷歌地图等等)。

不过Mollick认为,虽然还没有达到真正人类助手的水平,但Gemini和GPT-4已经非常接近,相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。

他写道:

这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大,无法为这些agent提供动力......但我们已经很接近了。

人工智能的“幽灵”

Mollick在文中表示,长时间使用GPT-4之后,他发现一种非常怪异的感觉——他很清楚大语言模型只是一个软件系统,并没有知觉,但和AI聊天有时候让他觉得并不是在和程序对话,而有种类似于“电话另一头有人的错觉”。

使用Gemini的过程,给了他同样的感觉。他写道:

GPT-4 is full of ghosts, Gemini is also full of ghosts.

(GPT-4充满了幽灵感,Gemini也是。)

他举了一个例子,如下图,是他和Gemini尝试PbtA角色扮演游戏的对话。

Gemini不仅给出了丰富深邃的故事世界构建,而且能以精准的修辞塑造微妙而恐怖的游戏氛围。

Mollick写道:

我认为,这意味着一件重要的事情,那就是GPT-4的“火花”并不是一个孤立的现象,而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时,就会出现幽灵。

他还总结说,Gemini的发布,表明“谷歌真正加入了人工智能竞赛”,这是自ChatGPT发布以来,第一次有另一家公司的大模型可以与Open AI最先进的模型相媲美:

高级大模型可能会在提示和响应方面表现出一些基本的相似性,另外,GPT-4的“火花”并不是OpenAI独有的,而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI,但我想我们会发现这一点的。

GPT-4相比,Gemini的独特优势和弱点表明,模型仍有很大的提升空间,而且在不久的将来,我们将继续看到快速的进步。人工智能的浪潮还没有退去,OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2779898.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

cad基础学习

基础操作与设置 切换工作空间 调整鼠标 界面右击,选项 选项中找到显示,十字光标调到最大 当然也可以输入命令op,回车。它会自动打开这个界面 画一个直线 上面选直接,单击俩个点,画出一个直线。然后空格收尾,这就画出…

disql备份还原

disql备份还原 前言 本文档根据官方文档,进行整理。 一、概述 在 disql 工具中使用 BACKUP 语句你可以备份整个数据库。通常情况下,在数据库实例配置归档后输入以下语句即可备份数据库: BACKUP DATABASE BACKUPSET db_bak_01;语句执行完…

C++多态:定义、实现及原理/继承关系中的虚函数表

目录​​​​​​​ 一、多态的定义及实现 1.1多态的概念​​​​​​​ 1.2多态的构成条件 1.3virtual虚函数 1.4虚函数的重写 二、override和final 三、抽象类 3.1概念 3.2接口继承和实现继承 四、多态的原理 4.1虚函数表 4.2 多态的原理 4.3动态绑定与静态绑定…

蓝桥杯---分小组

9名运动员参加比赛,需要分3组进行预赛. 有哪些分组的方案呢? 我们标记运动员为 A,B,C .... I 下面的程序列出了所有的分组方法。 该程序的正常输出为:

乐观锁,CAS,ABA问题,synchronized锁升级过程

常见的锁策略 乐观锁 vs 悲观锁 乐观锁:乐观锁假设认为数据一般情况下不会产生并发冲突,所以在数据进行提交更新的时候,才会正式对数据是否产生并发冲突进行检测,如果发现并发冲突了,则返回用户错误的信息&#xff0c…

XEX数字货币交易平台:量化交易策略与市场趋势解析

量化交易,一个结合金融市场知识与计算机科学的领域,通过执行一系列复杂的算法策略,自动化地进行交易决策。它的常见策略包括动量交易、对冲策略、算法套利等,旨在通过分析历史数据和市场模式来预测未来趋势,从而实现盈…

【python5】闭包/装饰器,

文章目录 1.闭包和装饰器:函数里return就是闭包2.解析eeprom:如下是二进制文件,C8是一个字节3.json/configparser/optparse:json.dumps(将字典转化为字符串,将json信息写进文件),jso…

每日五道java面试题之java基础篇(六)

第一题:Java 创建对象有哪⼏种⽅式? Java 中有以下四种创建对象的⽅式: new 创建新对象通过反射机制采⽤ clone 机制通过序列化机制 前两者都需要显式地调⽤构造⽅法。对于 clone 机制,需要注意浅拷⻉和深拷⻉的区别,对于序列化机制需要明…

【二叉树】构建销毁二叉树

目录 创建二叉树 整体思路 代码实现 图示理解​ 销毁二叉树 判断二叉树是否是完全二叉树&层序 整体思路 代码实现 图是理解 二叉树的性质 题目 创建二叉树 整体思路 通过前序遍历的数组"ABD##E#H##CF##G##"构建二叉树遇到#就回退,返回…

CTF--Web安全--SQL注入之Post-Union注入

一、手动POST注入实现绕过 账号密码检测 我们利用sqli-labs/Less-11靶场来进行演示: 我们可以看到一个登录页面 打开Less-11的根目录,我们打开页面的源代码(PHP实现)。 用VS-code打开文件,找到验证登录信息的代码行。 此形式的代码存在POST…

CSS基础---新手入门级详解

CSS:层叠样式表 CSS&#xff08;Cascading Style Sheets,层叠样式表&#xff09;&#xff0c;是一种用来为结构化文档添加样式&#xff08;字体、间距和颜色&#xff09;的计算机语言&#xff0c;css扩展名为.css。 实例: <!DOCTYPE html><html> <head><…

【leetcode热题100】 格雷编码

n 位格雷码序列 是一个由 2n 个整数组成的序列&#xff0c;其中&#xff1a; 每个整数都在范围 [0, 2n - 1] 内&#xff08;含 0 和 2n - 1&#xff09;第一个整数是 0一个整数在序列中出现 不超过一次每对 相邻 整数的二进制表示 恰好一位不同 &#xff0c;且第一个 和 最后一…

DVWA靶场下载安装

DVWA介绍 DVWA 一共包含了十个攻击模块&#xff0c;分别是:Brute Force(暴力破解)、Command Injection(命令行注入)、CSRF(跨站请求伪造)、File Inclusion(文件包含)、File Upload(文件上传)、Insecure CAPTCHA (不安全的验证码)、SQL Injection(SQL注入)、SQL Injection Blin…

基于微信小程序的在线课堂的研究与实现,附源码

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝30W、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

书生谱语-全链条开发工具

书生谱语全链条开发体系 包含&#xff1a;数据、模型预训练、模型微调、模型量化部署、模型测评、模型场景应用全链路开发体系 github链接 通用大模型 国内外大语言模型快速发展&#xff0c;涌现了大量的大语言模型以及一批创业公司 深度学习模型的发展 大模型利用多模态优势…

PLC在物联网中位置—承上启下,与上位机下位机的关联。

谈到物联网&#xff0c;就绕不开PLC&#xff0c;本文着重介绍PLC的定义、与单片机的区分&#xff0c;价值、物联网中的位置&#xff0c;以及和上位机、下位机的关联&#xff0c;让友友们对PLC有个全面的认知。 一、什么是PLC PLC是可编程逻辑控制器&#xff08;Programmable L…

ArcGIS学习(七)图片数据矢量化

ArcGIS学习(七)图片数据矢量化 通过上面几个任务的学习,大家应该已经掌握了ArcGIS的基础操作,并且学习了坐标系和地理数据库这两个非常重要且稍微难一些的专题。从这一任务开始,让我们进入到实战案例板块。 首先进入第一个案例一一图片数据矢量化。 我们在平时的工作学…

使用C++从零开始,自己写一个MiniWeb

第一步&#xff1a;新建项目 1、打开VS点击创建新项目 2、选择空项目并点下一步&#xff08;切记不能选错项目类型&#xff09; 3、填写项目名称和路径&#xff0c;点击创建即可 新建好后项目是这样的比较干净 4、右击源文件&#xff0c;点击添加&#xff0c;新建http.cpp文件…

Java的接口

目录 1.接口的概念 2.语法规则 3.接口的使用 4.接口的特性 总结&#xff1a; 5.实现多个接口 6.接口间的继承 1.接口的概念 接口就是公共的行为规范标准&#xff0c;大家在实现时&#xff0c;只要符合规范标准&#xff0c;就可以通用。 在Java中&#xff0c;接口可以看成…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之AlphabetIndexer组件

鸿蒙&#xff08;HarmonyOS&#xff09;项目方舟框架&#xff08;ArkUI&#xff09;之AlphabetIndexer组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、AlphabetIndexer组件 可以与容器组件联动用于按逻辑结构快速定位容器显…