奥运会被误报的韩国国旗,有多少AI能准确识别?结果出人意料!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

近日,微博出现了这么一条热搜词条:#法国人天天两眼一睁就是惹韩国人生气,阅读量已达3.1亿。

关注奥运会的小伙伴应该知道是怎么回事。事情发生在2024年巴黎奥运会期间。首先,在开幕式上,韩国代表团被错误地播报为朝鲜,引发了韩国媒体和公众的不满。尽管国际奥委会随后道歉,但问题并未结束。电视转播中,韩国国旗被虚化,甚至被错误地展示为韩国和日本国旗的结合体,太极图案被替换成太阳图案。此外,街访节目中有人将韩国国旗误认为是百事可乐的标志。在赛事进行中,韩国首金得主吴尚旭的名字被错打,奖牌榜上韩国国旗位置被错误地标记为中国国旗。

韩国国旗就这么难以识别吗?为了一探究竟,我测试了15个AI模型/工具,看看它们怎么说?测试结果出人意料。

测试问题

详细解释说明这是哪国国旗,并写出这个国家完整版的中文和英文名

本次测试主要测试的是LLM模型的多模态能力,如图像输入的识别能力(有时也叫做Vision Capability,视觉能力),这一能力对于一些只擅长文本任务的模型来说是一个挑战。同时,还考察模型能否将图像识别结果转换为准确的文字描述,最后,从模型的知识库(训练数据)中提取相关信息,以支持其判断和解释。

测试结果

1. GPT-4o

回答正确。

2. GPT-4 Turbo

回答正确。

3. GPT-4o mini

由于ChatGPT中的GPT-4o mini模型是不允许上传文件来解析的,所以GPT-4o mini的测试通过API调用来完成。

回答正确。

4. Claude 3.5 Sonnet

回答正确。不愧是Claude,和GPT系列模型的回答比较,Claude的回答条理更加清晰,像极了一名优秀的文科生。

5. 谷歌Gemini

回答正确。谷歌Gemini的回答是内容最丰富的,条理组织的也很清晰明了。

值得一提的是,自2024年7月25日起,谷歌Gemini的默认模型已升级为Gemini 1.5 Flash,它是Gemini 1.5系列模型中的次旗舰模型。根据谷歌官方的描述,这个新模型优化了速度和效率,将上下文窗口从之前的8000 tokens扩展到了32000 tokens,并提高了整体响应质量和准确性。

6. Kimi

Kimi的测试结果不太稳定。第一次测试时,出现了无法识别的错误;我不死心的又试了几次,后面均准确识别出了国旗,但有的回答中国家英文名不是特别准确,正确答案应为Republic of Korea,而South Korea只是一个简称。

测试结果1:

回答错误。

测试结果2:

准确识别,但国家英文名不够正式和准确。

测试结果3:

完全正确。

7. 百度文心3.5

回答正确。文心一言的回答和谷歌Gemini非常相似,条理清晰,内容丰富。美中不足的是,看起来文心3.5在解析图片时调用了一个名叫“说图解画”的工具/插件,所以无法确定这个回答是否反应了文心3.5模型的真实能力。

8. 讯飞星火大模型

回答错误。讯飞星火大模型表示:抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。

9. 阿里通义千问

无法上传图片。尝试了多次上传“韩国国旗”的图片让通义千问解析,但均以失败告终。一开始我以为是网络或者其他原因,但切换网络后依然如此。后来意识到可能是因为某些敏感原因,所以我尝试了上传我国国旗,这次能正常上传并解析。后来又尝试了其它国家的国旗,均无法上传,报错提示语为:很抱歉,换个图片试试吧

10. 字节豆包

不支持图片输入,豆包仅支持PDF等文件格式类型。

11. 智谱清言

回答正确。但回答的很简单,我尝试了多次,均得到同样一句话的答案。

12. 天工AI

天工AI在对话问答的主界面并没有上传图片/文档的选项,只有某些智能体支持上传图片。在AI识图这个智能体中测试,该智能体准确识别并回答出了正确答案。但和前面的文心3.5一样,无法判断这是否能够体现天工大模型(天工3.0)的真实能力。

13. MiniMax海螺AI

回答正确。我测试了关闭联网选项以及开启联网搜索功能这两种状态,海螺AI均能准确识别图片内容并给出正确的答案。

14. 零一万物万知

由于零一万物的万知平台不支持图片输入,故无法进行本测试。

15. 百川智能百小应

回答正确。虽然回答略简单,但回答的内容完全正确。

结语

总结来看,国外的3大模型,包括GPT系列,Claude系列以及Gemini系列模型表现良好且稳定;国内的一众模型中,个人认为MiniMax海螺AI表现最好,其余的Kimi、文心一言、智谱、天工和百小应均有正确回答的实力,但有的是回答效果不稳定,有的是借助了外部插件。

序号模型名称测试结果
1️⃣GPT-4o✅ 回答正确
2️⃣GPT-4 Turbo✅ 回答正确
3️⃣GPT-4o mini✅ 回答正确
4️⃣Claude 3.5 Sonnet✅ 回答正确,条理更清晰
5️⃣谷歌Gemini✅ 回答正确,内容最丰富
6️⃣Kimi❌ 回答不稳定,有时不准确
7️⃣百度文心3.5✅ 回答正确,但使用了插件
8️⃣讯飞星火大模型❌ 回答错误
9️⃣阿里通义千问❌ 无法上传图片
1️⃣0️⃣字节豆包❌ 不支持图片输入
1️⃣1️⃣智谱清言✅ 回答正确,但较简单
1️⃣2️⃣天工AI✅ 回答正确,但无法确定是否反映模型的真实能力
1️⃣3️⃣MiniMax海螺AI✅ 回答正确
1️⃣4️⃣零一万物万知❌ 不支持图片输入
1️⃣5️⃣百川智能百小应✅ 回答正确,但内容简单


精选推荐

  1. 超越Claude 3.5 Sonnet,GPT-4o mini夺得第二名!

  2. 全民进入GPT-4时代:OpenAI强势推出GPT-4o mini!彻底取代GPT-3.5!

  3. GPT-4o mini可能没那么强,但也绝对不弱!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3281352.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

飞创直线模组桁架机械手优势及应用领域

随着工业自动化和智能制造的发展,直线模组桁架机械手极大地减轻了人类的体力劳动负担,在危险性、重复性高的作业环境中展现出了非凡的替代能力,引领着工业生产向自动化、智能化方向迈进。 一、飞创直线模组桁架机械手优势 飞创直线模组桁架…

Spring Boot集成udp通讯

Spring Boot集成udp通讯 加入依赖编辑配置文件配置相关属性具体业务类客户端调试 加入依赖 <!--加入UDP通信所需依赖--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-integration</artifactId&…

【PCB设计原则5】-PCB设计的寄生元件

寄生电容 在PCB上布两条靠近的走线&#xff0c;很容易形成寄生电容。由于这种电容的存在&#xff0c;在一条走线上的快速电压变化&#xff0c;可在另一条走线上产生电流信号。 设计电路板时&#xff0c;放置两条彼此靠近的走线就会产生寄生电容。例如,在不同的两层&#xff0c…

OJ-0731

题目 题解 参考 import java.util.Arrays; import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System.in);while (scanner.hasNext()) {int xmh scanner.nextInt();int n scanner.nextInt();int[] COs …

SFP, SFP+,QSFP光模块封装类型

前言&#xff1a; 本文是自己对SFP, SFP,QSFP光模块封装类型的学习记录&#xff0c;所有的资料都搜集字引用链接里的博客内容&#xff0c;本文更多的是自己的学习笔记记录所以可能会有一些理解错误&#xff0c;请更多的参考引用链接里的信息来源。 引用&#xff1a; 认识SFP/SF…

Arduino Mega 2560开发板的引脚分配图及说明,以及链接can的方法

与Arduino Uno相比,Arduino Mega2560的资源就丰富多了,它具有54个数字I/O口(其中14个可提供PWM输出),16个模拟I/O口,4对串行数据通信口(UART),一个复位开关,一个ICSP下载口,支持USB接口和直流电源供电,具体的资源分配见下图。 Arduino Mega 2560开发板的引脚分配…

nginx代理设置时能获取到源IP地址的方法

nginx通过http_x_forwarded_for限制来访IP示例_ngnix 根据header的x-forwarded-for限制接入-CSDN博客 名称ip客户端地址10.0.23.90nginx服务器地址110.0.202.48:18888&#xff0c;代理到10.0.204.82:8888nginx服务器地址210.0.204.82:8888&#xff0c;代理到10.0.204.82:8887后…

Yarn UI 时间问题,相差8小时

位置 $HADOOP_HOME/share/hadoop/yarn/hadoop-yarn-common-2.6.1.jar 查看 jar tf hadoop-yarn-common-2.6.1.jar |grep yarn.dt.plugins.js webapps/static/yarn.dt.plugins.js 解压 jar -xvf hadoop-yarn-common-2.6.1.jar webapps/static/yarn.dt.plugins.js inflated: we…

Windows本地构建镜像推送远程仓库

下载 Docker Desktop https://smartidedl.blob.core.chinacloudapi.cn/docker/20210926/Docker-win.exe 使用本地docker构建镜像和推送至远程仓库&#xff08;harbor&#xff09; 1、开启docker的2375端口 2、配置远程仓库push镜像可以通过http harbor.soujer.com:5000ps&am…

【转型必看】Java到AI,程序员的逆袭秘籍,转行人工智能不再是梦!

随着技术的不断进步&#xff0c;人工智能&#xff08;AI&#xff09;已经成为当今科技领域最热门的话题之一。许多开发者开始考虑从传统的软件开发领域&#xff0c;如Java&#xff0c;转向人工智能领域&#xff0c;今天小编和大家一起来探讨Java开发者是否可以转型到人工智能&a…

Python中导入不同文件夹中的函数

1、代码举例&#xff1a;from Python_CodeFile.LDAP3.del_file.Get_Computer_Dn import get_computer_dn # 以上代码导入路径为&#xff1a;Python_CodeFile/LDAP3/del_file/Get_Computer_Dn.py 文件中的get_computer_dn函数。

计算机网络知识点面试总结5

#来自ウルトラマンゼロ&#xff08;赛罗&#xff09; 1 网络应用模型 1.1 客户/服务器模型 总是打开一个主机称为服务器&#xff0c;服务与其他客户机的请求。 1.2 P2P 模型 任意一对计算机-称为对等方&#xff0c;直接相互通信。(每一台计算机既是客户机&#xff0c;又是服务…

谷粒商城实战笔记-99-仓储服务-API-仓库管理-完成采购

文章目录 一&#xff0c;业务逻辑分析二&#xff0c;模拟调用和效果1&#xff0c;Postman模拟调用2&#xff0c;页面效果 三&#xff0c;代码总结1 分页插件配置2 服务间接口调用的不同方式直接访问服务通过网关访问服务小小结 一&#xff0c;业务逻辑分析 采购负责人在完成采…

算法板子:DFS(深度优先搜索、暴搜)——寻找1~n这n个数的所有排列方案

思想&#xff1a;深搜会一条路走到黑&#xff0c;把所有的位置都填满&#xff0c;如下图中的路径1&#xff1a; 代码——重点在dfs函数&#xff1a; #include <iostream> using namespace std;const int N 7; int n;// st[i]代表i这个数有没有被用过; 比如st[1]false代…

希尔排序【C语言】

希尔排序 前言 在上一篇文章中我们了解了直接插入排序算法&#xff08;建议先阅读&#xff09;&#xff0c;但其实这个算法还是有一定优化空间的。而它优化之后&#xff0c;就变成了另一个大名鼎鼎的排序算法&#xff1a;希尔排序。 希尔排序(Shell’s Sort)是插入排序的一种…

C语言中的浮点数存储:深入探讨

案例引入 请看下面一段代码并思考结果&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int main() {int n 9;float* pFloat (float*)&n;printf("n的值为&#xff1a;%d\n", n);printf("*pFloat的值为&#xff1a;%f\n", *…

Java线程阻塞:原因

Java线程阻塞&#xff1a;原因 1. sleep()2. suspend() 和 resume()&#xff08;不推荐&#xff09;3. yield()4. wait() 和 notify()/notifyAll() &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 线程阻塞是一个重要的概念&#xff0c;它决…

Linux下docker部署drools并集成项目使用

Linux下docker部署drools并集成项目使用 一、背景介绍二、 思路方案三、过程四、总结 一、背景介绍 上一篇文章是对规则引擎的基本介绍&#xff0c;本篇文章是对于drools规则引擎的基本使用。 二、 思路方案 前提&#xff1a;首先保证主机联网、有docker环境、保证Linux空闲…

OS—文件系统

目录 一. 文件系统结构I/O 控制层基本文件系统文件组织模块逻辑文件系统 二. 文件系统布局文件系统在磁盘中的结构主引导记录(MasterBoot Record,MBR)引导块(boot block)超级块(super block)文件系统中空闲块的信息 文件系统在内存中的结构 三. 外存空间管理空闲表法空闲链表法…

面向对象 - 概述、类的创建、 实例化与内存解析

一、学习面向对象的三条主线 Java类及类的成员&#xff1a;&#xff08;重点&#xff09;属性、方法、构造器&#xff1b;&#xff08;熟悉&#xff09;代码块、内部类面向对象的特征&#xff1a;封装、继承、多态、&#xff08;抽象&#xff09;其他关键字的使用&#xff1a;…