论文笔记:利用词对比注意增强预训练汉字表征

整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att)论文的阅读笔记

  • 背景
  • 模型
  • 实验

论文地址:论文

背景

  近年来,以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是,已有的中文预训练模型大多以汉字为基本单位,根据汉字的外部语境学习表征,基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息,对各种基于字符的中文预训练语言模型的表征进行增强。

模型

  对于n个字符的输入序列表示为 S = [ c 1 , c 2 , . . . , c n ] S=[c_1,c_2,...,c_n] S=[c1,c2,...,cn] c j c_j cj表示输入序列的第j个字符,也就是汉字。使用分词工具 π \pi π对序列进行分词: π ( S ) = [ w 1 , w 2 , . . . , w m ] , ( m < = n ) \pi(S)=[w_1,w_2,...,w_m],(m<=n) π(S)=[w1,w2,...,wm],(m<=n),这里面的w就是一个个子序列,代表了由几个字符构成的词语,它们是不相交的,表述为 w i = { c s , c s + 1 , . . . , c s + l − 1 } w_i=\{c_s,c_{s+1},...,c_{s+l-1}\} wi={cs,cs+1,...,cs+l1}
  对于预训练的输出的字符级的表示,首先算一个自注意矩阵 A c ∈ R n × n A_c\in R^{n×n} AcRn×n A c = F ( H ) = s o f t m a x ( ( K W k ) ( Q W + q ) T d ) A_c = F(H)=softmax(\frac{(KW_k)(QW+q)^T}{\sqrt d}) Ac=F(H)=softmax(d (KWk)(QW+q)T)  其中,K和Q都是H(预训练模型最后一层的字符级表示)分别作为kays和quire参与计算, W k W_k Wk W q W_q Wq是可学习参数,维度是d×d, A c A_c Ac矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。
  本文的做法就是,利用这个相似度矩阵和上面的分词信息,在单词内部对字符相似度进行整和,首先将 A c A_c Ac表示为 [ a c 1 , a c 2 , . . . , a c n ] [a_c^1,a_c^2,...,a_c^n] [ac1,ac2,...,acn]其中 a c i a_c^i aci就是 A c A_c Ac矩阵的一行,它表示某个字符对其它字符的注意力向量,利用分词结果对注意力矩阵进行划分: π ( A c ) = [ { a c 1 , a c 2 } , { a c 3 } , . . . , { a c n − 1 , a c n } ] \pi(A_c)=[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}] π(Ac)=[{ac1,ac2},{ac3},...,{acn1,acn}]  然后,本文设计了一个聚合模块对词内注意力进行聚合,将根据分词结果划分好的注意力序列 a c s , . . . , a c s + l − 1 {a_c^s,...,a_c^{s+l-1}} acs,...,acs+l1转变成一个统一的 a w i a_w^i awi,它对应着词 w i w_i wi,具体计算过程为: a w i = λ M a x p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) + ( 1 − λ ) M e a n p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) a_w^i=\lambda Maxpooling(\{a_c^s,...,a_c^{s+l-1}\})+(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{s+l-1}\}) awi=λMaxpooling({acs,...,acs+l1})+(1λ)Meanpooling({acs,...,acs+l1}) A ^ c [ s : s + l − 1 ] = e l ⋅ a w i \hat A_c[s:s+l-1]=e_l\cdot a_w^i A^c[s:s+l1]=elawi  其中, λ \lambda λ是一个自适应学习的参数, e l e^l el是一个全1向量,也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H: H ^ = A ^ c V W \hat H=\hat A_cVW H^=A^cVW  其中,V就是H,W是一个科学系矩阵,这样我们就通过分词对预训练模型的结果进行了增强。
在这里插入图片描述
  也可以进行多头的,在多头注意力架构下,最终结果为: H ˉ = C o n c a t ( H ^ 1 , H ^ 2 , , . . . , H ^ K ) \bar H=Concat(\hat H^1,\hat H^2,,...,\hat H^K) Hˉ=Concat(H^1,H^2,,...,H^K)  此外,由于歧义和非形式化输入的风险,分割器通常是不可靠的,特别是在域外数据上,这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器(M个)得到M个最终的表示 H ˉ 1 , . . . , H ˉ M \bar H^1,...,\bar H^M Hˉ1,...,HˉM,文中建议的融合方式为: H ~ = ∑ m = 1 M t a n h ( H ˉ m W g ) \tilde H=\sum_{m=1}^Mtanh(\bar H^mW_g) H~=m=1Mtanh(HˉmWg)

实验

  选择了三个公开可用的中文预训练模型作为基本编码器:BERT、ERNIE和BERT-wwm。在5个中文自然语言处理任务和6个公共基准数据集上进行了实验。实验设置:
在这里插入图片描述实验结果:在这里插入图片描述消融实验:在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2804118.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

前端数据可视化:ECharts使用

可视化介绍 ​  ​  应对现在数据可视化的趋势&#xff0c;越来越多企业需要在很多场景(营销数据&#xff0c;生产数据&#xff0c;用户数据)下使用&#xff0c;可视化图表来展示体现数据&#xff0c;让数据更加直观&#xff0c;数据特点更加突出。   ​  数据可视化主要目…

【工具】阿莫智能设备之脱机烧录器K202C-1

注意&#xff0c;本文档仅仅是介绍烧录器的资料构成&#xff0c;并非烧录器的说明书&#xff0c;详细请看各对说明书及视频。 1. 资料图解 首先需要下载资料&#xff0c;通常稳定发布版本可以从 www.amomcu.cn 下载&#xff0c; 也可以向我们客服获取最新版本&#xff0c; 获…

4G模块获取多个基站信息

获取多个基站信息&#xff0c;需要将其模块注网上不同的频段 以下使用ATQCFG"band" 配置频段 验证一 ATQENG"SERVINGCELL" 获取注网信息解析说明 在没锁频之前查询注网信息 [2024-02-23_11:22:41:108]ATCPIN? [2024-02-23_11:22:41:108]CPIN: R…

推荐系统经典模型YouTubeDNN

文章目录 YouTubeDNN概念YouTubeDNN模型架构图YouTubeDNN召回阶段YouTubeDNN层级介绍 YouTubeDNN排序阶段YoutubeDNN模型中的一些Trick负采样问题特征构造上下文选择 总结 YouTubeDNN概念 YouTubeDNN是YouTube用于做视频推荐的落地模型&#xff0c;其大体思路就是召回阶段使用…

Linux系统运维:离线安装sar-性能监视和分析工具

目 录 一、前言 二、系统环境 三、安装sar &#xff08;一&#xff09;准备工作 1、下载 sar 工具的安装包&#xff1a; 2、将安装包传输到 CentOS 服务器 &#xff08;二&#xff09;安装工作 1、解压 2、配置安装 3、编译 4、安装 &#xff08;三&#xff0…

每日五道java面试题之spring篇(四)

目录&#xff1a; 第一题 Spring框架的设计目标&#xff0c;设计理念&#xff0c;和核心是什么&#xff1f;第二题. Spring由哪些模块组成&#xff1f;第三题. 详细讲解一下核心容器&#xff08;spring context应用上下文) 模块第四题.Spring框架中有哪些不同类型的事件第五题.…

【2024软件测试面试必会技能】Jmeter_性能测试(6):收集性能测试结果

收集性能测试结果 性能测试执行过程中&#xff0c;场景监控的主要任务是收集测试结果&#xff0c;测试结果有事 务响应时间、吞吐量、TPS、服务器硬件性能、JVM使用情况和数据库性能状态 等。Jmeter中通过监听器及其它外置工具来完成测试结果收集工作 事务响应时间 用户从发…

html的无语义标签:div span

html的无语义标签&#xff1a;div & span 无语义标签&#xff1a;div & span 标题&#xff0c;段落&#xff0c;图片等都是通过固定的标签来表示&#xff0c;标题用h1~h6标签来表示&#xff0c;段落用p标签来表示&#xff0c;图片用img标签来表示……每个标签都有自己…

RRT算法学习及MATLAB演示

文章目录 1 前言2 算法简介3 MATLAB实现3.1 定义地图3.2 绘制地图3.3 定义参数3.4 绘制起点和终点3.5 RRT算法3.5.1 代码3.5.2 效果3.5.3 代码解读 4 参考5 完整代码 1 前言 RRT&#xff08;Rapid Random Tree&#xff09;算法&#xff0c;即快速随机树算法&#xff0c;是LaVa…

ORA-02062: distributed recovery received DBID 9ad10df5, expected 38cc1cd5

今晚做重启维护&#xff0c;发现节点二上报错如下 Fri Feb 23 21:47:43 2024 Errors in file /u01/app/oracle/diag/rdbms/orcl/orcl2/trace/orcl2_reco_58540.trc: ORA-02062: distributed recovery received DBID 9ad10df5, expected 38cc1cd5 Errors in file /u01/app/oracl…

稀疏计算、彩票假说、MoE、SparseGPT

稀疏计算可能是未来10年内最有潜力的深度学习方向之一&#xff0c;稀疏计算模拟了对人脑的观察&#xff0c;人脑在处理信息的时候只有少数神经元在活动&#xff0c;多数神经元是不工作的。而稀疏计算的基本思想是&#xff1a;在计算过程中&#xff0c;将一些不重要的参数设置为…

yolov9目标检测报错AttributeError: ‘list‘ object has no attribute ‘device‘

最近微智启软件工作室在运行yolov9目标检测的detect.py测试代码时&#xff0c;报错&#xff1a; File “G:\down\yolov9-main\yolov9-main\detect.py”, line 102, in run pred non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_detmax_det) Fil…

基于ssm的校园帮系统设计与实现(源码+调试)

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于ssm的校园帮系统设计…

一篇文章搞懂CDN加速原理

目录 一、什么是CDN CDN对网络的优化作用主要体现在以下几个方面&#xff1a; 二、CDN工作原理 CDN网络的组成元素&#xff1a; 三、名词解释 3.1 CNAME记录&#xff08;CNAME record&#xff09; 3.2 CNAME域名 3.3 DNS 3.4 回源host 3.5 协议回源 一、什么是CDN CD…

在Win11下安装pytorch3d

安装Visual Studio 安装的时候一定要选择language C。 安装成功后&#xff0c;将cl.exe的路径添加到环境变量Path中。 一般cl.exe的地址是在Microsoft Visual Studio***\VC\bin\amd64\里面。 安装依赖项 conda create -n pytorch3d python3.10 conda activate pytorch3d co…

Python实战:读取MATLAB文件数据(.mat文件)

Python实战&#xff1a;读取MATLAB文件数据(.mat文件) &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程 &#x1f448; 希望得到您的订阅…

Linux设备模型(二) - kset/kobj/ktype APIs

一&#xff0c;kobject_init_and_add 1&#xff0c;kobject_init_and_add实现 /** * kobject_init_and_add() - Initialize a kobject structure and add it to * the kobject hierarchy. * kobj: pointer to the kobject to initialize * ktype: p…

【Docker快速入门】Docker部署MySQL

个人名片&#xff1a; &#x1f43c;作者简介&#xff1a;一名大三在校生&#xff0c;喜欢AI编程&#x1f38b; &#x1f43b;‍❄️个人主页&#x1f947;&#xff1a;落798. &#x1f43c;个人WeChat&#xff1a;hmmwx53 &#x1f54a;️系列专栏&#xff1a;&#x1f5bc;️…

探索D咖智能饮品机器人的工作原理:科技、材料与设计的相互融合

智能饮品机器人是近年来随着人工智能和自动化技术的发展而崭露头角的一种创新产品。它将科技、材料和设计相互融合&#xff0c;为消费者带来了全新的饮品体验。下面D咖来探索智能饮品机器人的工作原理&#xff0c;以及科技、材料和设计在其中的作用。 首先&#xff0c;智能饮品…

C 嵌入式系统设计模式 09:硬件适配器模式

本书的原著为&#xff1a;《Design Patterns for Embedded Systems in C ——An Embedded Software Engineering Toolkit 》&#xff0c;讲解的是嵌入式系统设计模式&#xff0c;是一本不可多得的好书。 本系列描述我对书中内容的理解。本文章描述访问硬件的设计模式之二&…