Beam Search 原理详解

文章目录

  • 1. 前言
  • 2. 原理
  • 3. 举例
  • 4. 参考


1. 前言

Beam Search 是一种启发式图搜索算法,用于在图或树的搜索过程中寻找最有可能的路径。它常用于自然语言处理(NLP)中的序列生成任务,如机器翻译、语音识别和文本生成等。与穷举搜索(如广度优先搜索)不同,Beam Search 通过限制搜索过程中的候选节点数量来提高效率,从而在保证搜索质量的同时减少计算资源的消耗。

2. 原理

Beam Search 的核心思想是维护一个固定大小的候选列表(称为 beam),在每一步中,算法只保留最有可能的几个候选节点,而不是考虑所有可能的节点。这个“最有可能”的判断通常基于节点的累积得分,该得分是节点从起始点到当前节点路径的得分之和。

以下是 Beam Search 的基本步骤:

  1. 初始化:将起始节点(通常是序列的开始标记)加入到候选列表中,并将其得分设为0。

  2. 扩展节点:对于候选列表中的每个节点,生成所有可能的后继节点,并计算每个后继节点的得分。

  3. 选择和更新:根据得分,从所有生成的后继节点中选择得分最高的 beam 个节点,将它们加入到候选列表中,并更新它们的得分。

  4. 终止条件:重复步骤2和3,直到达到预设的终止条件,例如达到序列的最大长度,或者候选列表中没有新的节点生成。

  5. 选择最终结果:从候选列表中选择得分最高的节点作为搜索结果。

Beam Search 的关键参数是 beam 的宽度,即在每一步中保留的候选节点数量。beam 的宽度越大,搜索过程越接近穷举搜索,计算成本也越高;beam 的宽度越小,搜索过程越快,但可能丢失一些好的候选节点。

在实际应用中,Beam Search 已被证明是一种有效的搜索策略,特别是在处理具有大量可能输出的复杂序列生成任务时。通过调整 beam 的宽度,可以在搜索质量和计算效率之间取得平衡。

3. 举例

下面是 Beam Search 生成句子的具体例子,从 start token 开始,最终生成 the green witch arrived
在这里插入图片描述
Beam Search 不是在每个时间步选择最佳的生成词元,而是在每一步保留 k(束宽 beam width) 个可能的词元,k 可以根据需要调整得更宽或更窄。

在解码的第一步,计算整个词汇表上的 softmax 函数,给每个词分配一个概率。然后从这个 softmax 输出中选择 k 个最佳选项。这些初始的 k 个输出构成了搜索前沿,这 k 个初始词被称为假设 (hypotheses)。一个假设是一个输出序列,即到目前为止的翻译 + 概率。

在后续步骤中,每个最佳假设通过分别传递给不同的解码器而逐步扩展,这些解码器各自在全部词汇表上生成一个 softmax 函数以将假设扩展到每一个可能的下一个词元。

每个这样的 k ∗ V k*V kV 个假设都通过 P ( y i ∣ x , y < i ) P(y_i | x, y < i) P(yix,y<i) 来评分:当前词选择的概率乘以导致该路径的概率。然后我们将 k ∗ V k*V kV 个假设裁剪到 k 个最佳假设,因此搜索前沿始终不超过 k 个假设,且不会同时存在超过 k 个解码器。

4. 参考

https://stackoverflow.com/questions/22273119/what-does-the-beam-size-represent-in-the-beam-search-algorithm


欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3267341.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

渲染技术如何帮助设计内容实现从平面到立体的转换

随着数字艺术和视觉特效的飞速发展&#xff0c;三维建模与渲染技术在影视、游戏、广告、工业设计、建筑可视化等多个领域展现出了其不可或缺的重要性。这一技术不仅实现了从平面到立体的跨越&#xff0c;还极大地丰富了视觉表达的层次感和真实感。 三维建模&#xff1a;构建虚…

一站式企业服务平台有哪些特点和优势!

随着我国经济的快速发展&#xff0c;各地方政府及产业园区为了能够吸引投资和优质企业入驻&#xff0c;纷纷在营商环境优化上大下功夫&#xff0c;这是因为当下企业已经不再满足于基础服务&#xff0c;而是更看重利于企业发展的软环境&#xff0c;随之建设“一站式企业服务平台…

flex/lex使用和学习

flex/lex用于生成解析配置文件的C代码&#xff0c;我们可以不用自己手动去做解析的工作&#xff0c;交由他们生成的代码去做。 假设&#xff0c;我有如下一个配置文件config.xml 配置文件中定义了三种channel,分别为SSIF, IPMB, NET&#xff0c;每一种channel都有4个int属性&a…

PyTorch基础(24)--torch.multinomial()方法

&#x1f449;torch.multinomial的源码见https://github.com/dongjinkun/PyTorch/tree/main/torch 一、前言 torch.multinomial()方法多出现在需要采样的场景中&#xff0c;如强化学习。具体讲&#xff0c;当使用强化学习解决旅行商问题时&#xff0c;针对某一个instance&…

项目实战——外挂开发(30小时精通C++和外挂实战)

项目实战——外挂开发&#xff08;30小时精通C和外挂实战&#xff09; 外挂开发1-监控游戏外挂开发2-秒杀僵尸外挂开发3-阳光地址分析外挂开发4-模拟阳光外挂开发5-无限阳光 外挂开发1-监控游戏 外挂的本质 有两种方式 1&#xff0c;修改内存中的数据 2&#xff0c;更改内存中…

外文文献去哪个网站查找下载又快又准

今天收到好多同学的文献求助&#xff0c;大部分都是外文文献。那么外文文献去哪里查找下载比较好呢&#xff1f;本文小编就讲解一下自己平时是在什么网站上查找获取文献的&#xff0c;下面就用几篇求助文献演示一下获取过程&#xff1a; 第一篇、OVID数据库&#xff1a;A Crit…

录音教程分享:电脑在线录音,7款录音软件免费版公开!

在我们的日常生活中&#xff0c;不可避免地会遇到需要在电脑上录制各种系统内音频的场景。无论是记录一次讲座、一段对话&#xff0c;或者录制某个重要网站上的音频&#xff0c;这种需求变得愈发重要且广泛。然而&#xff0c;对许多人来说&#xff0c;在电脑上在线录音可能是一…

菜鸟从0学微服务——MyBatis-Plus

关于“菜鸟从0学微服务” 针对有编程基础&#xff0c;开始学习微服务的同学&#xff0c;我们陆续推出从0学微服务的笔记分享。力求从各个中间件的使用来反思这些中间件的作用和优势。 会分享的比较快&#xff0c;会记录demo演算和中间件的使用过程&#xff0c;至于细节的理论…

Spark_Oracle_II_Spark高效处理Oracle时间数据:通过JDBC桥接大数据与数据库的分析之旅

接前文背景&#xff0c; 当需要从关系型数据库&#xff08;如Oracle&#xff09;中读取数据时&#xff0c;Spark提供了JDBC连接功能&#xff0c;允许我们轻松地将数据从Oracle等数据库导入到Spark DataFrame中。然而&#xff0c;在处理时间字段时&#xff0c;可能会遇到一些挑战…

计算机网络知识-面试点1

1. 三握四挥 定义&#xff1a; 在计算机网络中&#xff0c;特别是TCP/IP协议中&#xff0c;“三握”指的是三次握手&#xff08;Three-way Handshake&#xff09;&#xff0c;而“四挥”则指的是四次挥手&#xff08;Four-way Handshake&#xff09;。这两个过程分别用于TCP连接…

模式Hash和history

vuerouter有两种路由模式Hash和history。区别&#xff1a;Hash为默认模式&#xff0c;url中包含一个#符号的哈希部分。优势&#xff1a;兼容性好&#xff0c;不需要后端服务器的特殊配置。缺点&#xff1a;不够美观&#xff0c;搜索引擎优化较差。History模式使用的浏览器的His…

多模态大模型应用中的Q-Former是什么?

多模态大模型应用中的Q-Former是什么&#xff1f; Q-Former是一种新型的神经网络架构&#xff0c;专注于通过查询&#xff08;Query&#xff09;机制来改进信息检索和表示学习。在这篇博客中&#xff0c;我们将详细探讨Q-Former的工作原理、应用场景&#xff0c;并在必要时通过…

leetcode日记(55)二进制求和

将短的字符串前面补充0&#xff0c;使两字符串对其再进行加法&#xff1a; class Solution { public:string addBinary(string a, string b) {int na.size();int mb.size();if(n>m) b.insert(0,n-m,0);else if(m>n) a.insert(0,m-n,0);string c;int jw0;for(int imax(n,…

【C++指南】类和对象(上)

&#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;《数据结构与算法》 期待您的关注

PostgreSQL的pg-collector工具

PostgreSQL的pg-collector工具 pg-collector 是一个用于 PostgreSQL 数据库的监控和数据收集工具。它主要用于收集 PostgreSQL 实例的性能指标、查询统计和日志信息&#xff0c;以便进行数据库性能分析和故障排查。通过收集这些数据&#xff0c;管理员可以更好地了解数据库的运…

减少 95% 资源的向量搜索 | 使用云搜索的 DiskANN

当前尖端的向量近邻搜索算法&#xff0c;主要以图搜索算法为主&#xff0c;此类算法为了能够最大化搜索的速度与准确度&#xff0c;需要将对应的索引结构和原始数据存放在内存中&#xff0c;显然这不仅大大提高了成本&#xff0c;还限制了数据集的大小。例如在当前主流的内存型…

快递员工告诉你,寄快递如何薅羊毛(知道这个方法,立省好几百)

谁能想象自从去了快递公司上班后&#xff0c;知道了一个惊人的内幕&#xff01;&#xff01;现在发快递和大件的&#xff0c;全国不管寄到哪都才只要5块钱呢&#xff01;&#xff01; 上门取件不说&#xff0c;不管寄多少快递&#xff0c;寄到哪里&#xff0c;仅是原价的5折。 …

MongoDB教程(二十):MongoDB正则表达式

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; 文章目录 引言一、正则表…

csa笔记6-网络管理命令

nmcli命令 字符终端&#xff0c;可以立即生效且重启系统后配置也不会丢失 nmtui命令 可视终端&#xff0c;立即生效&#xff0c;重启有效 network.service 管理网络 RHEL 7 以前&#xff1a;使用network.service管理网络 RHEL 7&#xff1a;使用network.service和Netwo…

springboot高等职业院校实验室信息管理-计算机毕业设计源码24015

摘 要 本文旨在设计并实现一个基于Spring Boot框架的高等职业院校实验室信息管理系统。该系统采用B/S体系结构&#xff0c;以MySQL作为数据库管理平台&#xff0c;结合前端技术如HTML、CSS和JQuery&#xff0c;为用户提供一个功能全面、操作便捷的实验室信息管理平台。 在系统设…