昇思25天学习打卡营第21天|LSTM+CRF序列标注

1. 学习内容复盘

概述

序列标注指给定输入序列,给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取,包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。以命名实体识别为例:

输入序列

输出标注

B

I

I

I

O

O

O

O

O

B

I

如上表所示,清华大学  北京是地名,需要将其识别,我们对每个输入的单词预测其标签,最后根据标签来识别实体。

这里使用了一种常见的命名实体识别的标注方法——“BIOE”标注,将一个实体(Entity)的开头标注为B,其他部分标注为I,非实体标注为O

条件随机场(Conditional Random Field, CRF)

从上文的举例可以看到,对序列进行标注,实际上是对序列中每个Token进行标签预测,可以直接视作简单的多分类问题。但是序列标注不仅仅需要对单个Token进行分类预测,同时相邻Token直接有关联关系。以清华大学一词为例:

输入序列

输出标注

B

I

I

I

输出标注

O

I

I

I

×

如上表所示,正确的实体中包含的4Token有依赖关系,I前必须是BI,而错误输出结果将字标注为O,违背了这一依赖。将命名实体识别视为多分类问题,则每个词的预测概率都是独立的,易产生类似的问题,因此需要引入一种能够学习到此种关联关系的算法来保证预测结果的正确性。而条件随机场是适合此类场景的一种概率图模型。下面对条件随机场的定义和参数化形式进行简析。

考虑到序列标注问题的线性序列特点,本节所述的条件随机场特指线性链条件随机场(Linear Chain CRF)

x={x0,...,xn}𝑥为输入序列,y={y0,...,yn}yY为输出的标注序列,其中n为序列的最大长度,Y表示x对应的所有可能的输出序列集合。则输出序列y的概率为:

xiyi为序列的第iToken和对应的标签,则Score需要能够在计算xiyi的映射的同时,捕获相邻标签yi−1yi之间的关系,因此我们定义两个概率函数:

  1. 发射概率函数ψEMIT:表示xiyi的概率。
  2. 转移概率函数ψTRANS:表示yi−1yi的概率。

则可以得到Score的计算公式:

设标签集合为T,构造大小为|T|x|T|的矩阵P,用于存储标签间的转移概率;由编码层(可以为DenseLSTM)输出的隐状态h可以直接视作发射概率,此时Score的计算公式可以转化为:

完整的CRF完整推导可参考Log-Linear Models, MEMMs, and CRFs

接下来我们根据上述公式,使用MindSpore来实现CRF的参数化形式。首先实现CRF层的前向训练部分,将CRF和损失函数做合并,选择分类问题常用的负对数似然函数(Negative Log Likelihood, NLL),则有:

【】

由公式(1)可得,

根据公式(5),我们称被减数为Normalizer,减数为Score,分别实现后相减得到最终Loss

Score计算

首先根据公式(3)计算正确标签序列所对应的得分,这里需要注意,除了转移概率矩阵P外,还需要维护两个大小为|T|的向量,分别作为序列开始和结束时的转移概率。同时我们引入了一个掩码矩阵mask,将多个序列打包为一个Batch时填充的值忽略,使得Score计算仅包含有效的Token

Normalizer计算

根据公式(5)Normalizerx对应的所有可能的输出序列的Score的对数指数和(Log-Sum-Exp)。此时如果按穷举法进行计算,则需要将每个可能的输出序列Score都计算一遍,共有|T|n个结果。这里我们采用动态规划算法,通过复用计算结果来提高效率。

假设需要计算从第0至第iToken所有可能的输出序列得分Scorei,则可以先计算出从第0至第i1Token所有可能的输出序列得分Scorei1。因此,Normalizer可以改写为以下形式:

其中hi为第iToken的发射概率,P是转移矩阵。由于发射概率矩阵h和转移概率矩阵P独立于y的序列路径计算,可以将其提出,可得:

Viterbi算法

在完成前向训练部分后,需要实现解码部分。这里我们选择适合求解序列最优路径的Viterbi算法。与计算Normalizer类似,使用动态规划求解所有可能的预测序列得分。不同的是在解码时同时需要将第iToken对应的score取值最大的标签保存,供后续使用Viterbi算法求解最优预测序列使用。

取得最大概率得分Score,以及每个Token对应的标签历史History后,根据Viterbi算法可以得到公式:

从第0个至第iToken对应概率最大的序列,只需要考虑从第0个至第i1个Token对应概率最大的序列,以及从第i𝑖个至第i1个概率最大的标签即可。因此我们逆序求解每一个概率最大的标签,构成最佳的预测序列。

由于静态图语法限制,我们将Viterbi算法求解最佳预测序列的部分作为后处理函数,不纳入后续CRF层的实现。

CRF

完成上述前向训练和解码部分的代码后,将其组装完整的CRF层。考虑到输入序列可能存在Padding的情况,CRF的输入需要考虑输入序列的真实长度,因此除发射矩阵和标签外,加入seq_length参数传入序列Padding前的长度,并实现生成mask矩阵的sequence_mask方法。

BiLSTM+CRF模型

在实现CRF后,我们设计一个双向LSTM+CRF的模型来进行命名实体识别任务的训练。模型结构如下:

nn.Embedding -> nn.LSTM -> nn.Dense -> CRF

其中LSTM提取序列特征,经过Dense层变换获得发射概率矩阵,最后送入CRF层。

2.平台实验结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3223704.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Linux|背景 环境搭建

目录 一、简述Linux发展史 1.1计算机的诞生 1.2操作系统的诞生 1.3Linux操作系统开源 1.4Linux发行版本 二、搭建Linux环境 三、使用shell远程登入到Linux 一、简述Linux发展史 可能大家未听说过Linux,或者只知道它是一个搭配在计算机上的操作系统&#xff0…

【刷题汇总 -- 求最小公倍数、数组中的最长连续子序列、字母收集】

C日常刷题积累 今日刷题汇总 - day0081、求最小公倍数1.1、题目1.2、思路1.3、程序实现 -- 穷举法1.2、程序实现 -- 辗转相除法 2、数组中的最长连续子序列2.1、题目2.2、思路2.3、程序实现 3、字母收集3.1、题目3.2、思路3.3、程序实现 4、题目链接 今日刷题汇总 - day008 1、…

02day-C++学习(const 指针与引用的关系 inline nullptr)

02day-C学习 1. 使用const注意事项 注意事项 • 可以引⽤⼀个const对象,但是必须⽤const引⽤。const引⽤也可以引⽤普通对象,因为对象的访 问权限在引⽤过程中可以缩⼩,但是不能放⼤。 • 不需要注意的是类似 int& rb a3; double d 1…

Mybatis Plus 3.X版本的insert填充自增id的IdType.ID_WORKER策略源码分析

总结/朱季谦 某天同事突然问我,你知道Mybatis Plus的insert方法,插入数据后自增id是如何自增的吗? 我愣了一下,脑海里只想到,当在POJO类的id设置一个自增策略后,例如TableId(value "id",type …

单对以太网连接器多场景应用

单对以太网连接器应用场景概述 单对以太网(Single Pair Ethernet,简称SPE)作为一种新兴的以太网技术,以其独特的优势在多个领域得到了广泛的应用。SPE通过单对电缆进行数据传输,支持高速数据传输,同时还能…

【python基础】—入门函数print()的参数解析及使用场景

文章目录 一、print()函数二、区隔符—sep三、结束符号—end四、内容写入文件—file五、缓冲输出设置—flush 一、print()函数 功能 print()函数就是把一个或多个对象转换为其文本表达式形式,然后发送给标准输出流或者类似的文件流。 语法 print(value, …, sep’ …

一行代码,开发项目使用阿里巴巴图标-暂存库

减少项目内存,适用于一切项目。防止你使用线上官网的图标,官网更新后,你项目中的图标也消失不能用。此外微信小程序代码上线2M,很实用。 把图标存在阿里巴巴图标库 如下图: 可以在这新建项目并上传项目需要的图标 …

移动公厕有无人显示屏为何多采用RS485、IO信号通讯方式

在户外活动、临时集会或是应急情况下,移动公厕作为解决人们生理需求的重要设施,发挥着不可替代的作用。然而,随着人口密度的增加和对公共卫生要求的提高,如何确保移动公厕的高效利用和良好维护,成为了组织者和管理者面…

《大语言模型的临床和外科应用:系统综述》

这篇题为《大语言模型的临床和外科应用:系统综述》的文章对大语言模型(LLM)目前在临床和外科环境中的应用情况进行了全面评估。 大语言模型(LLM)是一种先进的人工智能系统,可以理解和生成类似人类的文本。…

突破传统,实时语音技术的革命。Livekit 开源代理框架来袭

🚀 突破传统,实时语音技术的革命!Livekit 开源代理框架来袭! 在数字化时代,实时通信已成为我们日常生活的一部分。但你是否曾想象过,一个能够轻松处理音视频流的代理框架,会如何改变我们的沟通方式?今天,我们就来一探究竟! 🌟 什么是 Livekit 代理框架? Live…

比赛获奖的武林秘籍:05 电子计算机类比赛国奖队伍技术如何分工和学习内容

比赛获奖的武林秘籍:05 电子计算机类比赛国奖队伍技术如何分工和学习内容 摘要 本文主要介绍了在电子计算机类比赛中技术层面上的团队分工和需要学习的内容,分为了嵌入式硬件、嵌入式软件、视觉图像处理、机械、上位机软件开发和数据分析等六个方向&am…

iPhone短信被拉黑了怎么恢复?4步快速移除黑名单

在日常使用iPhone的过程中,可能会因为误操作或其他原因将某些联系人拉入黑名单,导致无法接收他们发送的短信。那么,iPhone短信被拉黑了怎么恢复? 其实,只需要简单的4步操作,就能快速将联系人移出黑名单&am…

【Java 的四大引用详解】

首先分别介绍一下这几种引用 强引用: 只要能通过GC ROOT根对象引用链找到就不会被垃圾回收器回收,当所有的GC Root都不通过强引用引用该对象时,才能被垃圾回收器回收。 软引用(SoftReference): 当只有软引…

网站更新改版了

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏:Leo杂谈 ✨特色专栏:MySQL学…

JVM原理(二四):JVM虚拟机锁优化

高效并发是从JDK 5升级到JDK 6后一项重要的改进项,HotSpot虛 拟机开发团队在这个版本上花费了大量的资源去实现各种锁优化技术,如适应性自旋( Adaptive Spinning)、锁消除( Lock Elimination)、锁膨胀(Lock Coarsening)、轻量级锁(Lightweight Locking)、…

Websocket 替代方案:如何使用 Firestore 监听实时事件

大家好,我是CodeQi! 一位热衷于技术分享的码仔。 ​在现代 Web 开发中,实时更新功能对于许多应用程序(如聊天应用、协作工具和在线游戏)都是必不可少的。虽然 WebSocket 是一种常用的实时通信技术,但 Google 的 Firestore 也提供了一种强大的替代方案,使得实时监听变得…

AdaBoost集成学习算法理论解读以及公式为什么这么设计?

本文致力于阐述AdaBoost基本步骤涉及的每一个公式和公式为什么这么设计。 AdaBoost集成学习算法基本上遵从Boosting集成学习思想,通过不断迭代更新训练样本集的样本权重分布获得一组性能互补的弱学习器,然后通过加权投票等方式将这些弱学习器集成起来得到…

解析MySQL的数据类型:理解每种类型及其应用

MySQL是一种流行的关系型数据库管理系统,被广泛应用于Web应用开发中。在数据库设计的过程中,选择合适的数据类型至关重要,因为它不仅影响存储效率和数据完整性,还影响数据库操作的性能和查询速度。本文将详细介绍MySQL支持的各种数…

飞跃边界,尽在掌握 —— Jump Desktop 8 for Mac,远程工作新体验!

Jump Desktop 8 for Mac 是一款强大的远程桌面控制软件,专为追求高效工作与生活平衡的用户设计。它允许您轻松地从Mac设备上远程访问和控制另一台电脑或服务器,无论是跨房间、跨城市还是跨国界,都能实现无缝连接,仿佛操作就在眼前…

【Python实战因果推断】28_倾向分8

目录 Treatment Is Easy to Model Treatment Is Easy to Model 第一个例子中,治疗分配的模型相当容易建立,但干预结果的模型却比较复杂。具体来说,干预遵循伯努利分布,其概率由以下倾向得分给出: 如果您没有意识到&a…