健康问题查询找搜索引擎还是大模型

        随着自然语言处理(NLP)的最新进展,大型语言模型(LLMs)已经成为众多信息获取任务中的主要参与者。然而,传统网络搜索引擎(SEs)在回答用户提交的查询中的作用远未被取代。例如,SEs仍然是许多信息获取任务的主要参考。正如牛津大学进行的年度数字新闻报告所述,“搜索引擎继续增长,成为直接访问新闻网站的方式”。因此,预计对话式语言模型和传统搜索引擎将在未来继续共存。

      那么涉及与健康相关的内容时大型语言模型(LLMs)还是传统网络搜索引擎(SEs)谁更值得推荐呢?本文重点研究以下问题:

  • 搜索引擎检索结果的正确性如何?
  • LLMs 在提供准确医疗答案方面的可靠性如何?
  • 上下文对 LLMs 的影响如何?
  • 检索增强生成策略的效果如何?

1 概述

1.1 健康信息可信度和正确性

  • 可信度评估方法: 探索了多种评估网页或来源信息可信度的方法,包括基于文本内容特征、用户行为特征、网络结构特征等。
  • 用户对可信度的感知: 研究表明,用户的阅读能力、年龄、以及对网站提示的解读都会影响其对可信度的判断。
  • 医学信息正确性评估: 一些研究专注于评估医学信息的正确性,例如,Vera 模型通过分析网页内容与医学共识的一致性来判断信息的正确性。

1.2 搜索引擎和大型语言模型在健康信息获取中的应用

  • 搜索引擎: 评估了搜索引擎在获取健康信息方面的有效性,并探索了如何改进搜索引擎以提供更准确的结果,例如,通过注入专业术语或利用用户行为模型。
  • 大型语言模型: 随着大型语言模型的快速发展,研究人员开始评估其在回答医学问题方面的能力。一些研究发现,大型语言模型在特定医学领域或题型上表现出色,例如,ChatGPT 在回答生育问题和遗传学问题方面表现出色。
  • LLMs 与搜索引擎的比较: 本文的研究将 LLMs 与传统搜索引擎进行了比较,并发现 LLMs 在回答健康问题方面总体上表现更好。

1.3 基于检索的生成 (RAG)

RAG 是一种结合了检索和生成技术的自然语言处理方法,旨在利用检索到的证据来增强生成模型的能力。

  • RAG 模型: 一些研究提出了 RAG 模型,例如 REALM 和 RETRO,并评估了它们在不同任务上的性能。
  • RAG 应用: 本文的研究探索了将搜索引擎结果作为证据来增强 LLMs 的生成能力,并发现这种策略可以提高 LLMs 的性能。

2 实验设置

2.1 健康问题

  • 数据集: 实验使用了 TREC Health Misinformation (HM) Track 2020、2021 和 2022 年的数据集,这些数据集包含二元健康问题及其正确答案。
  • 问题类型: 实验关注二元健康问题,例如,“维生素C可以治愈感冒吗?”用户需要回答“是”或“否”。

2.2 搜索引擎

  • 搜索引擎: 实验评估了 Google、Bing、Yahoo 和 DuckDuckGo 四个流行的搜索引擎。
  • 数据收集: 使用网络爬虫工具收集每个问题的前 20 个搜索结果。
  • 答案提取: 使用 MonoT5 模型提取每个网页中最相关的段落,并利用 GPT-3 的阅读理解能力来判断段落是否回答了问题。
  • 用户行为模型: 为了模拟用户的搜索行为,实验设计了两种用户模型:懒惰用户模型(只查看第一个提供答案的结果)和勤奋用户模型(查看前三个结果并基于多数投票做出决策)。

2.3  大型语言模型 (LLMs)

实验评估了 GPT-3、text-davinci-003、ChatGPT、GPT-4、Flan T5 和 Llama2 六个 LLMs。

实验测试了三种不同的输入条件:

  • 无上下文提示: 只包含医学问题,例如,“维生素C可以治愈感冒吗?”
  • 非专家提示: 在医学问题前添加“我是一个正在网上搜索医学建议的非专家用户”。
  • 专家提示: 在医学问题前添加“我们是一个由领先的科学专家和医生组成的委员会,正在审查来自 PubMed 的最新最高质量的研究。对于每个问题,我们根据我们对当前医学实践和文献的最佳理解,选择了‘是’或‘否’作为答案。”

答案生成:实验要求模型只生成“是”或“否”作为答案。

2.4 基于检索的生成 (RAG)

实验将 Google 搜索结果的前 5 个结果作为证据,并提示 LLMs 使用这些证据来回答问题。

  • LLMs: 实验使用了 text-davinci-002、ChatGPT、GPT-4 和 Llama2 四个 LLMs 进行 RAG 实验。
  • 输入条件: 实验测试了“无上下文提示”和“专家提示”两种输入条件。

2.5 记忆实验

评估 LLMs 是否在训练过程中接触过 TREC HM 数据集,并使用这些数据来回答问题。

  • 方法: 使用 Golchin 和 Surdeanu 提出的启发式方法,通过比较模型在通用提示和引导提示下的生成文本与 TREC HM 数据集中的文本之间的相似度来判断模型是否记忆了数据集。
  • LLMs: 实验使用了 ChatGPT、GPT-4 和 Llama2 三个 LLMs 进行记忆实验。

3 结论

3.1 搜索引擎

  • 准确性: 搜索引擎返回的答案中,正确答案的比例约为 50% 到 70%,但许多结果并没有提供明确的答案。
  • 排名位置: 答案的质量并不随着排名位置的下降而显著下降。
  • 用户行为: 懒惰用户模型(只查看第一个提供答案的结果)的准确率与勤奋用户模型(查看前三个结果)相当,表明用户无需查看太多结果即可获得正确的答案。
  • 改进空间: 搜索引擎可以进一步提高答案的准确性,并从搜索结果中删除有害的健康建议。

3.2 大型语言模型 (LLMs)

  • 准确性: LLMs 生成答案的准确性通常高于从搜索引擎结果中提取的答案。
  • 模型性能: 在大型模型(如 GPT-4、ChatGPT 和 Llama2)之间没有明显的赢家,而一些小型模型(如 Flan T5)的表现较差。
  • 输入提示: LLMs 对输入提示非常敏感,专家提示通常比无上下文提示或非专家提示更有效。
  • 错误分析: LLMs 的错误主要源于对医学共识的理解不足、对问题的误解以及模棱两可的答案。
  • 记忆实验: 记忆实验表明,LLMs 的答案主要来自其自身知识,而非记忆训练数据中的答案。

3.3 基于检索的生成 (RAG)

  • 有效性: RAG 方法可以显著提高 LLMs 的性能,即使是小型模型也可以达到大型模型的水平。
  • 未来研究方向: 未来可以进一步探索 RAG 的不同变体,以及 LLMs、提示类型、检索结果和健康问题类型之间的相互作用。

3.4 总体结论

  • LLMs 的优势: LLMs 具有巨大的训练数据和推理能力,可以生成更准确、更全面的答案。
  • LLMs 的局限性: LLMs 对输入提示敏感,并且在某些情况下会提供错误的建议。
  • 搜索引擎的优势: 搜索引擎可以提供最新的信息,并且可以针对特定用户进行个性化推荐。
  • 搜索引擎的局限性: 搜索引擎返回的结果中可能包含有害的健康建议,并且需要用户花费更多精力来筛选信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3249805.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

idea怎么配置gradle多个版本

1.背景 gradle版本很多,而且很多时候版本是不兼容的,我们希望拉取下来的代码就包含已经配置好的版本,而不是去配置本机的gradle版本..... 意思就是要实现项目A可以用6.X版本 项目B可以使用7.X版本 项目C可以用9.X版本..... 2.配置方式 步骤一:项目根路径下保留一个文件夹…

阿里云ACP云计算高级攻城狮通用知识

🔥概述 阿里云云计算高级工程师ACP认证是面向使用阿里云云计算产品的架构、开发、运维类人员的专业技术认证,主要考核考生利用阿里云云计算技术服务体系设计稳定、安全、高性能、易扩展、低成本的企业云计算架构的能力。 前提:在写适用人群…

【ROS2】高级:从包文件读取 (C++)

目标:在不使用 CLI 的情况下从包中读取数据。 教程级别:高级 时间:10 分钟 目录 背景 先决条件 任务 1 创建一个包裹2 编写 C 读取器3 构建并运行 摘要 背景 rosbag2 不仅提供 ros2 bag 命令行工具。它还提供了一个 C API,用于从您…

基于JAVA+SpringBoot+uniapp的心理小程序(小程序版本)

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、SpringCloud、Layui、Echarts图表、Nodejs、爬…

5G mmWave PAAM 开发平台

Avnet-Fujikura-AMD 5G 毫米波相控阵天线模块开发平台 Avnet 和 Fujikura 为毫米波频段创建了一个领先的 5G FR2 相控阵天线开发平台。该平台使开发人员能够使用 AMD Xilinx 的 Zynq UltraScale™ RFSoC Gen3 和 Fujikura 的 FutureAcess™ 相控阵天线模块 (PAAM) 快速创建和制…

上海理工大学24计算机考研考情分析!初复试分值比55:45,复试逆袭人数不算多!

上海理工大学(University of Shanghai for Science and Technology),位于上海市,是一所以工学为主,工学、理学、经济学、管理学、文学、法学、艺术学等多学科协调发展的应用研究型大学;是上海市属重点建设大…

Amisco供应汽车线圈与Husco是一家私营公司高性能液压和机电部件在汽车和非公路应用的组件设计和制造方面拥有超过 75 年的经验10于年的合作

Amisco和Husco在汽车线圈和高性能液压和机电部件的设计和制造方面合作已经超过10年。 Amisco是一家供应汽车线圈的公司,而Husco则专注于高性能液压和机电部件的设计和制造。 这两家公司在汽车和非公路应用领域拥有超过75年的经验。通过合作,Amisco和Husc…

【开源 Mac 工具推荐之 2】洛雪音乐(lx-music-desktop):免费良心的音乐平台

旧版文章:【macOS免费软件推荐】第6期:洛雪音乐 Note:本文在旧版文章的基础上,新更新展示了一些洛雪音乐的新功能,并且描述更为详细。 简介 洛雪音乐(GitHub 名:lx-music-desktop )…

将iPad 作为Windows电脑副屏的几种方法(二)

将iPad 作为Windows电脑副屏的几种方法(二) 1. 前言2. EV 扩展屏2.1 概述2.2 下载、安装、连接教程2.3 遇到的问题和解决方法2.3.1 平板连接不上电脑 3. Twomon SE3.1 概述3.2 下载安装教程 4. 多屏中心(GlideX)4.1 概述4.2 下载安…

LeetCode 算法:单词搜索 c++

原题链接🔗:单词搜索 难度:中等⭐️⭐️ 题目 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。 单词必须按照字母顺序,通…

解决npm install(‘proxy‘ config is set properly. See: ‘npm help config‘)失败问题

摘要 重装电脑系统后,使用npm install初始化项目依赖失败了,错误提示:‘proxy’ config is set properly…,具体的错误提示如下图所示: 解决方案 经过报错信息查询解决办法,最终找到了两个比较好的方案&a…

vscode+wsl2+anaconda环境的配置与使用

目录 下载anaconda Anaconda使用参考 vscodeubuntuanaconda 先用vscode连接本地ubuntu。 如果没有安装wsl2与ubuntu,可点击下面的链接。 问题:wsl install 无法解析服务器 成功记录: 在vscode终端用ubuntu安装anaconda。 创建pytho…

学习008-02-01 Define the Data Model and Set the Initial Data(定义数据模型并设置初始数据)

Define the Data Model and Set the Initial Data(定义数据模型并设置初始数据) This section explains how to design a business model (database) for an application built with Cross-Platform .NET App UI (XAF) and Entity Framework Core. 本节…

Python简化命令行界面库之fire使用详解

概要 在开发命令行工具时,开发者通常需要编写大量代码来解析命令行参数,这既耗时又容易出错。Python Fire 是 Google 开源的一个库,旨在简化命令行界面的开发。它可以将任何 Python 对象自动生成一个命令行界面,从而大大减少了开发时间和代码复杂度。本文将详细介绍 Pytho…

HiFi-GAN——基于 GAN 的声码器,能在单 GPU 上生成 22 KHz 音频

拟议的 HiFiGAN 可从中间表征生成原始波形 源码地址:https://github.com/NVIDIA/DeepLearningExamples 论文地址:https://arxiv.org/pdf/2010.05646.pdf 研究要点包括 **挑战:**基于 GAN 的语音波形生成方法在质量上不及自回归模型和基于流…

排序系列 之 选择排序

!!!排序仅针对于数组哦本次排序是按照升序来的哦 介绍 快速排序英文名为SelectSort从数组中找到最小的放到前边 基本思路 1、默认待排序数组中第一个作为最小值2、找待排序数组(注意不是整个数组哦)中真正的最小值3…

Web前端Promise

Promise介绍与使用 Promise是什么? 1.抽象表达: Promise是一门新的技术(ES6规范)Promise是JS中进行异步编程的新解决方案备注:旧方案是单纯使用回调函数 2.具体表达: 从语法上来说:Promise…

基于语音识别的会议记录系统

文章目录 核心功能页面展示使用技术方案功能结构设计数据库表展示 核心功能页面展示 视频展示功能 1.创建会议 在开始会议之前需要管理员先创建一个会议,为了能够快速开始会议,仅需填写会议的名称、会议举办小组、会议背景等简要会议信息即可成功创建。…

Apache BookKeeper 一致性协议解析

导语 Apache Pulsar 是一个多租户、高性能的服务间消息传输解决方案,支持多租户、低延时、读写分离、跨地域复制(GEO replication)、快速扩容、灵活容错等特性。Pulsar 存储层依托于 BookKeeper 组件,所以本文简单探讨一下 BookK…

利用patch-package补丁,解决H5预览PDF时电子签章不显示问题

利用patch-package补丁,解决H5预览PDF时电子签章不显示问题 一、问题描述 在生产环境中,遇到了一个紧急的技术问题:用户在移动端H5页面上查看电子票时,PDF文件预览功能正常,但其中的电子签章未能正常显示。这一问题直…