如何分辨AI生成的内容?AI生成内容检测工具对比实验

检测人工智能生成的文本对各个领域的组织都提出了挑战,包括学术界和新闻界等。生成式AI与大语言模型根据短描述来进行内容生成的能力,产生了一个问题:这篇文章/内容/作业/图像到底是由人类创作的,还是AI创作的?虽然 LLM 在改进文本方面发挥着无价的作用,但我们也必须承认这种演变给智力生产概念带来的问题。作为人类,我们依靠线索来评估文本的可信度。然而,随着 LLM 驱动的文本生成,越来越难以确定文本是否源自人类,以及它是否呈现了准确或有偏见的想法和陈述。

人工智能在文本生成方面的进步使得区分人类编写的内容和机器生成的内容变得越来越困难。这对依赖准确的标注数据进行机器学习训练和自然语言处理任务的公司构成了重大挑战。市场上有各种人工智能检测器,包括 Open AI 于 2023 年初发布的现已撤回的人工智能检测器。然而,它未能达到预期,仅捕获了 26% 的人工智能生成文本,仅在六个月后就退役了。最近的研究还揭示了人工智能检测器对非母语人士的偏见。这些复杂性凸显了人工智能检测的难度,强调了与其他检测器的区别。

目前市场上可用的解决方案使用基于文本的方法,通过对合成和真实的人类书写文本进行训练后分析词汇、语义或语法线索来检测人工智能生成的文本。正如 Appen 数据科学家 Arjun Patel 和 Phoebe Liu 所描述的那样,这些解决方案在检测 LLM 生成的文本方面存在缺陷,因为 LLM 生成的文本通常与人类书写的内容非常相似。此外,当前的检测方法容易出现误报和漏报。因此,未被发现的人工智能生成的文本被标记为真实可靠的风险进一步加剧了人们对数据准确性和可信度的担忧。

AI生成内容检测的挑战

由于以下几种因素,研究人员在检测人工智能生成的文本方面正面临重大挑战:

  • 大语言模型 (LLM) 性能的提升与使用新示例训练 AI 检测器之间的不断竞争,需要频繁地重新训练检测器。
  • 大语言模型(LLM)的普及度不断提高,从商业产品到开源模型。
  • 捕捉人类使用文本生成工具的真实数据集稀缺,以及对注释提交中人工智能生成文本的普遍性的理解有限。
  • 缺乏标准化指标来评估此类模型。
  • 第三方模型所采用的防止对抗性攻击的方法缺乏透明度。

设定正确的指标

在确定任何事物的有效性时,主要的挑战是确定正确的指标。根据所选的指标,即使某件事不符合预期的使用要求,也可能被视为成功。了解不同的指标并仔细选择真正反映您目标的指标对于准确评估成功至关重要。

尽管模型准确度通常被视为评估性能的关键指标,但它可能会误导人们判断模型是否有效。在处理不平衡数据集或成本敏感性很重要时尤其如此。例如,如果将一段文本误认为是由人工智能生成的,而实际上它是由人类编写的,可能会对人类作者产生严重而有害的影响。模型准确度通常表示为正确预测占总预测数的百分比。在处理不平衡数据集时,有可能实现高准确率,但假阳性率也会很高。这正是人工智能检测器被认为不可靠的原因。

我们的期望是,我们的人群总体上是诚实的,并且在被要求不要使用外部 LLM 进行内容生成时倾向于遵循指示。这意味着我们的人群主要由善意的个人组成,但也有一些坏人。因此,使用准确率高但误报率也高的模型是有害的,因为它可能会破坏我们的贡献者对 Appen 的信任。

除了准确度之外,还可以使用各种指标,例如曲线下面积、假阳性、真阳性等等。确定最有意义的指标在很大程度上取决于 AI 检测器的具体用例和上下文。这就是为什么定义指标通常需要产品和数据科学团队之间的协作,因为这对于满足业务需求至关重要。

在 Appen,我们采取保守的方法,并优先考虑一个指标,即如果 AI 检测器不会对人类(尤其是所分析文本的作者)产生负面影响,则该指标被视为有效。我们的目标是评估 AI 检测器将文本错误地识别为 AI 生成的频率,而这些文本实际上是由人类撰写的。这在我们以人为本的方法中非常重要,因为被错误地标记为 AI 生成的作者几乎没有或根本没有办法挑战这一预测。因此,我们仔细检查了误报率,它表示错误地将人类生成的文本识别为 AI 生成的文本的比例。

Appen 的 AI 检测基准测试实验

最近,Appen 数据科学家Phoebe Liu和Arjun Patel与 Appen 高级产品经理Alice Desthuilliers合作,进行了一项实验,以评估不同市场解决方案的有效性。得益于 Appen 的专业知识和致力于策划有目的的人群并通过精心设计的任务收集高质量的人工数据,这项实验成为了现实。利用我们自己的众包团队,Appen 能够根据不同的基准评估各种 AI 检测器的性能。该实验旨在确定 AI 检测器将人工生成的文本错误地归类为 AI 生成的频率。

[研究人员评估了四种流行的市场解决方案:OpenAI 已撤回的 AI 检测器作为对照、商业解决方案、开源解决方案和澳鹏内部开发的基于机器学习的模型。这些模型中的每一个都基于 Appen 的高质量数据进行了测试。然后将结果与预定义的 95% 准确度基线,高效 AI 检测器的预期性能,进行对比。实验得出的结论是,目前的市场解决方案均未达到此基准,所有模型的误报率均高于 10%,即将10%的人工撰写内容判断为AI生成。]

人群标准

为了开展我们的 AI 检测实验,Appen 团队组建了一支由 24 名贡献者组成的团队,他们的英语水平以美国英语为母语或接近母语。这些贡献者居住在美国或菲律宾。多亏了这个团队,我们才得以创建控制数据集。

任务

在实验中,Appen 团队安排了两种不同的任务:

  • 人类撰写组:在没有任何外部帮助的情况下对提示做出响应。
  • 人工智能组:使用 ChatGPT 等生成式人工智能来响应提示。

在执行每项任务之前,团队都会对参与实验的人员进行一次培训,以确保参与者理解方法并正确执行任务。实验采用的所有提示都是从开源 Dolly 数据集中精心挑选出来的。

对于第一组,团队要求参与者在澳鹏数据标注平台中从头撰写针对prompt的回应,并保证长度超过150字(大多数AI生成内容检测器所需的内容长度),注意不出现错字,并给出正确的答案。整体而言,我们希望参与者扮演一个乐于助人的助手,对问题做出客观细致的回复。

第二组参与者可以选择自己喜欢的生成式AI应用,团队也与他们分享了网上公开的生成式AI使用指南。

结果

Patel、Liu 和 Desthuilliers 通过 7 个作业的组合生成了总共 636 个提示-响应对数据集。其中,334 对是使用生成式AI 工具创建的,而 302 对是由人类写作的。

为了评估性能,Appen 的数据科学和产品团队选择了几种广为使用且以宣传的功效而闻名的 API,其中包括:

  • Sapling AI
  • GPTZero (句子级和文档级)
  • OpenAI GPT2 Detector,这是OpenAI 的一个早期模型,作为基准

每个模型都经过 5 倍分层交叉验证进行评估。综合考虑准确率、f1 分数、假阳性率(False positive rate, FPR)和真阳性率(True positive rate, TPR)等指标,实验结果如下:

准确率F1假阳性率真阳性率
sapling0.620.710.670.90
GPTZero0.700.700.260.66
GPTZero文档级0.610.710.730.91
OpenAI GPT20.510.310.160.21

结果显示,虽然某些模型在某些指标上的表现优于其他模型,但所评估的所有 AI 检测工具均未达到 95% 准确率的预期基准。事实上,实验四个工具的误报率在 16.67% 到 70% 之间,这凸显了 AI 生成内容检测技术需要进一步改进。

与 OpenAI 撤回的 AI 检测模型的比较

请记住,OpenAI 发布了 ChatGPT 分类器,据报道,该分类器的真实阳性率 (TPR) 为 26%,假阳性率 (FPR) 为 9%。虽然这个模型后来被撤回,我们无法使用我们的控制数据集对其进行评估,但值得注意的是,它是少数几个声称可以在现实世界数据上运行的模型之一,来自一家顶级 LLM 公司。如果有人知道人工智能生成的内容应该是什么,那就是 OpenAI!

为了确保 FPR 保持在 9% 以下,我们重新计算了在我们的数据上观察到的每个模型的最佳 TPR,并使用不同的阈值进行优化。这有助于我们衡量这些付费第三方 API 与 OpenAI 的免费撤回模型相比的改进。为此,Appen 数据科学团队测试了 API,以实现低于 9% 的误报率,并尝试使用不同的阈值找到实现的最佳真实阳性率。

假阳性率FPR真阳性率TPR
sapling0.070.05
GPTZero文档级0.070.15
OpenAI GPT20.080.15

我们初步调查发现,所有第三方模型都达不到 OpenAI 撤回的分类器的标准。该分类器的真阳性率为 26%,假阳性率为 9%。在所有模型中,GPTZero 的表现最为出色,真阳性率为 13%,假阳性率为 8%。虽然某些模型的真阳性率非常高,在某些情况下甚至超过 91%,但假阳性率却高得惊人,尤其是表现最好的 GPTZero 模型,高达 73%。这些高假阳性率对贡献者构成了重大风险,导致 OpenAI 撤回了他们最新的分类器。

Patel 表示:“尽量减少误报对于维护系统的信任和确保公平至关重要。虽然真阳性对于发现实际作弊情况很重要,但优先减少误报有助于在准确性和尽量减少对无辜者的伤害之间取得微妙的平衡。”

有趣的是,句子级 GPTZero 模型在我们的观察中缺失。这是因为该模型未能在我们的数据集上实现如此低的假阳性率。Sapling 模型面临类似的问题,因为它必须像 AI 一样预测所有实例才能满足假阳性率要求。只有 GPTZero 文档级分类器表现良好,与已退役的 OpenAI 检测器相比,其假阳性率降低了 3 个百分点。然而,该模型识别出的真阳性比 OpenAI 的解决方案要少。

这可能表明人工智能检测技术中最小化假阳性和最大化真阳性之间的权衡。

努力打造更安全、更道德的数字环境

我们的研究强调了使用现有技术检测 AI 生成内容所面临的挑战。虽然第三方 API 已显示出令人鼓舞的结果,但它们仍未达到预期并有效地以高精度识别 AI 生成的文本。需要进一步改进以确保这些系统能够准确有效地识别 AI 生成的内容并防止有害或欺骗性信息。

随着人工智能技术的不断发展,检测方法需要不断重新评估和更新,以跟上人工智能生成文本不断发展的格局。我们必须保持开放的心态,拥抱新技术,同时保持谨慎和警惕,确保负责任地使用这些技术。有效检测和监管人工智能生成内容的旅程可能充满挑战,但这是朝着在当今世界更负责任、更合乎道德地使用人工智能迈出的重要一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3227177.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

TCP 握手数据流

这张图详细描述了 TCP 握手过程中,从客户端发送 SYN 包到服务器最终建立连接的整个数据流转过程,包括网卡、内核、进程中的各个环节。下面对每个步骤进行详细解释: 客户端到服务器的初始连接请求 客户端发送 SYN 包: 客户端发起…

【音频特征提取】傅里叶变换算法源码学习记录

目录 背景快速理解FFT(快速傅里叶变换)IFFT(逆傅里叶变换)STFT(短时傅里叶变换) 代码实现FFT源代码IFFT源代码FFT、IFFT自己实验STFT源代码STFT自己实验 总结 背景 最近用到了相关操作提取音频信号特征&am…

Apache配置与应用(企业网站架构部署与优化)

本章结构 如果要修改以上文件中的内容,想要生效,需要在主配置文件中能够扫描到这个默认文件的修改: 文件在: Apache 连接保持 Apache 的访问控制 针对IP地址的限制缺陷是不可预知性,需要事先直到对方的IP才能进行基于…

剪画小程序:雷军演讲真精彩:视频/录音转文本

最近,雷军在小米汽车发布会的演讲精彩绝伦,其中的经典语句深深触动了我。为了能够随时随地回味这些充满智慧和激情的话语,我使用了剪画这一神奇的工具,将演讲视频转换成音频,并保存到了自己的手机里。 在这个信息爆炸的…

Puppeteer 是什么以及如何在网络抓取中使用它 | 2024 完整指南

网页抓取已经成为任何处理网页数据提取的人都必须掌握的一项重要技能。无论你是开发者、数据科学家还是希望从网站收集信息的爱好者,Puppeteer都是你可以使用的最强大工具之一。本完整指南将深入探讨什么是Puppeteer以及如何有效地在网页抓取中使用它。 Puppeteer简…

【扩散对抗】AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models

原文标题: AdvDiffuser: Natural Adversarial Example Synthesis with Diffusion Models 原文代码: https://github.com/lafeat/advdiffuser 发布年度: 2023 发布期刊: ICCV 目录 摘要背景创新点模型Adversarial GuidanceAdversar…

FlutterFlame游戏实践#15 | 生命游戏 - 演绎启动

theme: cyanosis 本文为稀土掘金技术社区首发签约文章,30天内禁止转载,30天后未获授权禁止转载,侵权必究! Flutter\&Flame 游戏开发系列前言: 该系列是 [张风捷特烈] 的 Flame 游戏开发教程。Flutter 作为 全平台 的 原生级 渲…

零基础做项目---五子棋对战---day02

用户模块 完成注册登录,以及用户分数管理~使用数据库来保存上述用户信息. 使用 MyBatis来连接并操作数据库了 主要步骤: 1.修改 Spring的配置文件,使数据库可以被连接上. 2.创建实体类,用户, User 3.创建Mapper接口~ 4.实现MyBatis 的相关xml配置…

【ffmpeg系列二点五】(失败,建议放弃)ubuntu下进行源码构建,给ffmpeg7.0.1添加hevc支持。

背景 windows下构建失败,ffmpeg对于flv-h265的处理得到新的报错。 开始ubuntu22下编译 pre:清除我们之前编译的nightly版本 sudo rm -rf /usr/local/bin/ffmpeg sudo rm -rf /usr/local/bin/ffprobe sudo rm -rf /usr/local/bin/ffserver sudo rm -…

轻松掌握图片压缩技巧,释放存储空间!

前言 在这个充满视觉冲击的时代,我们每天都在创造和分享图片。但你是否发现,手机和电脑的存储空间越来越不够用了?图片文件过大,不仅占用空间,还影响传输速度和网页加载。今天,就让我来教你几招&#xff0…

Python爬虫:BeautifulSoup的基本使用方法!

1.简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup…

Python基础语法:变量和数据类型详解(整数、浮点数、字符串、布尔值)①

文章目录 变量和数据类型详解(整数、浮点数、字符串、布尔值)一、变量二、数据类型1. 整数(int)2. 浮点数(float)3. 字符串(str)4. 布尔值(bool) 三、类型转换…

生物打印后的生物力学过程

生物打印后的生物力学过程 3D生物打印技术在组织工程领域展现出巨大的潜力,但打印后组织的生物力学特性对其最终成功至关重要。本文将详细介绍打印后组织的生物力学特性及其在组织工程中的应用。 1. 打印后水凝胶交联 原位交联可以在生物打印过程中提供足够的机械…

LoRaWAN网络协议Class A/Class B/Class C三种工作模式说明

LoRaWAN是一种专为广域物联网设计的低功耗广域网络协议。它特别适用于物联网(IoT)设备,可以在低数据速率下进行长距离通信。LoRaWAN 网络由多个组成部分构成,其中包括节点(终端设备)、网关和网络服务器。Lo…

【Unity2D 2022:NPC】制作任务系统

一、接受任务 1. 编辑NPC对话脚本: (1)创建静态布尔变量用来判断ruby是否接受到任务 public class NPCDialog : MonoBehaviour {// 创建全局变量用来判断ruby是否接到任务public static bool receiveTask false; } (2&#xff…

类型“RouteRecordName”上不存在属性“includes”。 类型“symbol”上不存在属性“includes”

确定 route.name 运行时是 字符串,强制转换 为字符串。 removeRoute(id: string) { this.dynamRoute this.dynamRoute.filter(route > !(route.name as string).includes(id)) localStorage.setItem(dynamRoute, JSON.stringify(this.dynamRoute)) delete this.t…

4.3 设备管理

大纲 设备分类 输入输出 虚设备和SPOOLING技术

【C语言之高级编程】如何将指定变量或函数编译至固定的内存区域中?

如何将指定变量或函数编译至固定的内存区域? 1. 内存类型1.1 bss段(Block Started by Symbol)1.2 data段(data segment)1.3 text段(code segment/text segment)1.4 dec1.5 堆(heap&a…

绝区玖--人工智能物料清单 (AI BOM)

前言 AI BOM 涵盖了从输入模型的数据到为模型提供支持的基础设施以及将 AI 从概念转化为生产的过程的一切。 但为什么我们需要人工智能物料清单?答案在于当今世界人工智能/Gen AI系统的复杂性和关键性: 透明度和可重复性:AI BOM 提供所有组件…

python怎么求因数

要想做到python语言求因数方法,首先要明白其中的原理: 1、对由123456789这九个数字组成的9位数进行分解质因数。 2、1234576982x3x3x7x13x23x29x113,所以他的值因数是113。 3、总共有362880种可能,从中找出值因数中最小的数字和…