从头理解transformer，注意力机制（上）

从头理解transformer，注意力机制（上）

news/2025/3/14 16:44:31/文章来源:https://blog.csdn.net/qq_36372352/article/details/138683503

深入理解注意力机制和Transformer架构，及其在NLP和其他领域的突破。

要想理解transformer，先从编码器解码器结构开始理解

基于transformer发展起来的llm

右边：只有解码器，强项是生成内容

左边：只有编码器，强项是学习和理解语言的内容

编码和解码的码究竟是什么码

图像领域 CNN

文字领域 RNN

从数学角度看，transformer和RNN是一致的，和CNN也是一致的

transformer和RNN从结构上都保留了编码和解码结构

码就是把语言中符号发音等形式不同剥离后的语义关系

编码的两个标准

1.可以数字化

2.数字化的数值可以体现语义之间的相对关系

tokenizer标记器（分词器）和one hot 独热编码

作用都是对最基础的语义单元token进行数字化

标记器和独热编码都能很好达到第一个标准，但第二个标准会出现问题

标记器信息密度过高一维
独热编码密度过低高维

潜空间

所以找一个维度高，但是又没那么高的空间，协助完成编码和解码的工作。他就是一个纯粹的语义空间

有两个方向

基于分词后的ID去升维
基于独热编码降维、

显然降维是更易操作的。这里会用到向量和矩阵相乘的相关知识 https://blog.csdn.net/qq_36372352/article/details/138669909?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22138669909%22%2C%22source%22%3A%22qq_36372352%22%7D以及神经网络与空间变换的关系https://blog.csdn.net/qq_36372352/article/details/138671246?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22138671246%22%2C%22source%22%3A%22qq_36372352%22%7D

词嵌入embedding

编码就是先把一个文本里的token都先编成独热码，然后进行降维，相当于是把输入额一句话根据语义投射到一个潜空间中，把高维空间对象投射到低维空间

使用矩阵乘法实现embedding，所以把token投入到潜空间的矩阵叫做嵌入矩阵。

一个token被嵌入以后，就变成了多维的向量，每一个维度都代表一个独立的基础语义

这个token具体的语义是什么要看各个维度分配的值是多少

Word2Vec

像是编词典，里面不需要激活函数，因为只涉及向量求和与向量分解，计算起来更简单。生成的潜空间就是用其他词向量合成目标词向量。只是提供了一个对语义的最初理解，体现了单个token之间的联系。这个潜空间里面词向量对应的词意不依赖作者主观意图。

不同词和不同顺序体现了主观性，这就需要注意力机制了

编码和解码原理：

token经过矩阵编码位词向量，词向量可以解码回token

但采取这种形式是不能训练的

训练有两种方式

CBOW

准备奇数个token，拿掉一个，剩下的分别给同一个嵌入矩阵相乘，把他们变成词向量之后，再把四个向量加在一起合成一个向量.再对和向量进行解码，损失函数会定量去看，和向量解码后得到的token和挖掉的中间token是不是一样的。如果不一样需要修改参数.

目的是训练出体现语义的嵌入矩阵

skip-gram

与CBOW反过来，已知一个token根据他的词向量求出上下文对应的token分量，看是不是和训练数据一致

这两种方法可以自监督学习，不需要人为打标签，只要给文本就可以用文本自己挖掉一些空自己训练

注意力

transformer架构

现在的各大模型都是为了适应各种需求对他进行了各种变化和优化

把词和词组合后的语义进行理解，靠的就是注意力机制，图中的multi-head attention

一组词向量经过三个矩阵相乘以后，分别得到Q，K， V三个矩阵，再进行运算最后还是会输出一组词向量。词嵌入已经解决了单个词的语义问题，

输入一组词向量，词向量组成了数据矩阵，输入的是t行的矩阵，输出也是t行矩阵，输出的列数是一个词向量上它的维度的个数。

Wq，Wk，Wv这三个矩阵按照注意力机制的要求，输入的词向量矩阵都需要先和这三个矩阵相乘之后，才会得到QKV 。

Dout决定了输出的词向量是多少列，也就是多少维度。

注意力机制最值得关注的是得到QKV之后的操作

先把K进行转置，然后让Q和K的转置相乘，也可以是Q转置和K相乘，会得到一个T行T列的矩阵A，A被称作注意力得分

向量内积a12的大小某种程度能体现出q1和k2两个向量的关系，也就是说Q和K的转置相乘存在A里的数值代表这两组向量他们互相之间的关系是大还是小

每一个词向量都要和包括自己在内的所有其他词向量进行内积运算，如果是垂直他们之间无关。

对A的每一项进行缩放，除以根号下Dout，让这些数值尽量分散一点，而不是集中在0和1的饱和区。为什么要除是从概率分布考虑的

每一项都除以根号Dout，方差就又变成1，A里面每一项又变成标准正态分布了

按行计算softmax，得到按行归一的注意力得分A’,再和V进行矩阵相乘。V其实就是表示从词典里查出的token的客观语义，A‘相当于是因为上下文关联而产生的修改系数

能对v22’产生影响的是所有词向量的一个维度。

总结：

Q和K是得到了这一组词向量自己和自己之间的相互关系，再用这个相互关系来修正词向量，让词向量的每一个维度都能得到修正，和V相比，这里修正之后得到的词向量，都会根据上下文进行修正，这些词向量，除了词典里那个客观的语义外，还会根据上下文对语义本身进行一些校准

而以上也就为一句话一段话多个词向量叠在一起这些内容增加了主观性，让你说的话和我说的话可以表达不同意思

这些计算的意义

在没有使用注意力机制之前，词向量虽然具备了词意，词意是字典里的词意，客观词意

当按自己想法将客观词意按不同顺序组合到一起以后，就变成了表达不同语义的文章了，这个时候具备了主观性

注意力需要识别出那些因为上下文关联，而对词典中客观的语义进行调整和改变的幅度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://xiahunao.cn/news/3030242.html

如若内容造成侵权/违法违规/事实不符，请联系瞎胡闹网进行投诉反馈，一经查实，立即删除！

相关文章

Ftp笑脸漏洞（VSFTPD 2.3.4）复现（后门漏洞）

Ftp笑脸漏洞（VSFTPD 2.3.4）复现（后门漏洞）

Ftp笑脸漏洞（VSFTPD 2.3.4）复现（后门漏洞） 一、原理二、复现准备三、漏洞复现四、Metasploit利用脚本复现一、原理 vsftpd 是“ very secure FTP daemon ”的缩写，安全性是它的一个最大的特点。 vsftpd是一个 UNIX 类…

阅读更多...

NSS刷题

NSS刷题

1、[SWPUCTF 2021 新生赛]gift_f12 打开题目后查看源码无发现，用f12发现flag 2、[GDOUCTF 2023]hate eat snake 打开链接是一个贪吃蛇小游戏，f12找到js文件中有一个speed的语句，该语句的作用是使速度增加，因此，将该语…

阅读更多...

Linux虚拟机运行“yum install gcc-c++”报错“Loading mirror speeds from cached hostfile”

Linux虚拟机运行“yum install gcc-c++”报错“Loading mirror speeds from cached hostfile”

目录一、在Linux上安装Redis时，在终端执行命令“yum install gcc-c”时，报错： 二、然后发现linux的网络不通，什么网站都访问不了三、连上网后，再变换yum源四、重新运行yum install gcc 一、在Linux上安装Redis时…

阅读更多...

分布式与一致性协议之MySQL XA协议

分布式与一致性协议之MySQL XA协议

MySQL XA协议概述相信很多人都知道MySQL支持单机事务，那么在分布式系统中，涉及多个节点，MySQL又是怎样实现分布式事务的呢？ 举个例子，一个业务系统需要接收来自外部的指令，然后访问多个内部其他系统来执…

阅读更多...

机器学习算法应用——神经网络回归任务、神经网络分类任务

机器学习算法应用——神经网络回归任务、神经网络分类任务

神经网络回归任务（4-3） 神经网络回归任务，通常指的是使用神经网络模型进行回归分析。回归分析是一种统计学方法，用于研究一个或多个自变量（预测变量）与一个因变量（响应变量）之间的关…

阅读更多...

【北京迅为】《iTOP-3588开发板从零搭建ubuntu环境手册》-第2章获取并安装Ubuntu操作系统

【北京迅为】《iTOP-3588开发板从零搭建ubuntu环境手册》-第2章获取并安装Ubuntu操作系统

RK3588是一款低功耗、高性能的处理器，适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用，RK3588支持8K视频编解码，内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

阅读更多...

使用2G内存求20亿个数字中出现次数最多的N个

使用2G内存求20亿个数字中出现次数最多的N个

又是一个TOP -N的题目我看了一下CSDN上大多数人的回答和GPT说的差不多，都是说使用哈希之类的； 我今天说一下我的解法，首先说一下不太快的基础解法 20亿数字使用uint32需要80GB， （1）分为40块读取&#…

阅读更多...

Apinto下载安装以及集群部署总结

Apinto下载安装以及集群部署总结

下载下载官方提供的安装包安装（推荐） wget https://github.com/eolinker/apinto/releases/download/v0.13.3/apinto_v0.13.3_linux_amd64.tar.gz && tar -zxvf apinto_v0.13.3_linux_amd64.tar.gz && cd apinto 安装先确保已经入解…

阅读更多...

3d如何同时贴两个图在模型上？---模大狮模型网

3d如何同时贴两个图在模型上？---模大狮模型网

在3D设计中，为模型贴上纹理或图案是常见的操作，可以使模型更加逼真和生动。然而，有时候我们需要在同一个模型上同时贴上两个不同的图案，这可能会对初学者构成一定的挑战。在本文中，我们将分享一些简单而有效的方法&…

阅读更多...

$【数学】泰勒公式$

【数学】泰勒公式

目录引言一、泰勒公式 1.泰勒公式及推导 （1）推导 （2）公式 2.泰勒中值定理 （1）定理1（佩亚诺余项） （2）定理2（拉格朗日余项） …

阅读更多...

【系统架构师】-选择题（十一）操作系统与嵌入式

【系统架构师】-选择题（十一）操作系统与嵌入式

1、紧耦合多机系统一般通过（共享内存）实现多机间的通信。对称多处理器结构（SMP）属于（ 紧耦合）系统。松耦合多机系统又称间接耦合系统,—般是通过通道或通信线路实现计算机间的互连。 2、采用微内核的OS结构…

阅读更多...

VM虚假机联网（无代码，超简单）NAT模式

VM虚假机联网（无代码，超简单）NAT模式

1、左边顶上编辑里面最下面找到虚拟网络编辑器2.启用管理员特权3.重新创建一个NAT模式的网络（名称随便一个） 4.打开这两个设置里面的东西进行拍照并记住IP区间和网关，等下要用； 5.打开虚拟机，右上角，下标点…

阅读更多...

操作系统实战（三）（linux+C语言实现）

操作系统实战（三）（linux+C语言实现）

实验目的加深对进程调度概念的理解，体验进程调度机制的功能，了解Linux系统中进程调度策略的使用方法。练习进程调度算法的编程和调试技术。实验说明 1.在linux系统中调度策略分为3种 SCHED_OTHER：默认的分时调度策略，值为0…

阅读更多...

Keycloak实战+spring boot

Keycloak实战+spring boot

标题前言项目搭建前言最近项目中使用keycloak，为了更好的上手，我先本地Windows搭建一套demo 项目搭建我本地jdk版本号为：通过网上查询一些资料查看，jdk1.8对应的keycloak版本为：15的版本，但是没有找到，我只能下载如下：通过码云我找到了具体的版本号，开始下…

阅读更多...

国内注册Claude 3流程

国内注册Claude 3流程

国内注册Claude 3流程 Claude 3是什么注册过程准备国外IP节点准备谷歌账号或者邮箱准备接码平台接码平台WildCard输入验证码继续注册使用聊天功能识图功能文件解析编码能力 Cloud 3 已经推出两个月了，当时可是轰动一时，但是其并不对国内开放&#xff0c…

阅读更多...

Go 语言并发编程初体验：简洁高效

Go 语言并发编程初体验：简洁高效

文章目录前言GoLang 并发编程基本概念进程与线程线程和协程并行与并发GoLang的协程机制 GoLang 并发实践案例需求传统方式实现使用 goroutines 实现并发goroutine 如何通信channel 使用注意事项总结前言 Go语言是谷歌推出的一种的编程语言，可以在不损失应用程序…

阅读更多...

Java通过百度地图API获取定位-普通IP定位

Java通过百度地图API获取定位-普通IP定位

项目中有一个登录邮箱提醒的功能，需要根据IP地址获取定位信息，从而更好地提示用户账号登录的所在地。为此，花费了一些时间来实现这个功能。在CSDN搜索了一下，发现关于获取定位的文章说明都不够详细，于是决定自己创作一…

阅读更多...

【C++ 内存管理】深拷贝和浅拷贝你了解吗？

【C++ 内存管理】深拷贝和浅拷贝你了解吗？

文章目录 1.深拷贝2.浅拷贝3.深拷贝和浅拷贝 1.深拷贝 🍎 深拷⻉: 是对对象的完全独⽴复制，包括对象内部动态分配的资源。在深拷⻉中，不仅复制对象的值，还会复制对象所指向的堆上的数据。特点： 🐧① 复制对…

阅读更多...

1.理解机器学习

1.理解机器学习

本文参考于：https://hands1ml.apachecn.org/1/ 大多数人听到“机器学习”，往往会在脑海中勾勒出一个机器人：一个可靠的管家，或是一个可怕的终结者，这取决于你问的是谁。但是机器学习并不是未来的幻想，它已经…

阅读更多...

【吃透Java手写】3-SpringBoot-简易版-源码解析

【吃透Java手写】3-SpringBoot-简易版-源码解析

【吃透Java手写】SpringBoot-简易版-源码解析 1 SpringbootDemo2 准备工作2.1 Springboot-my2.1.1 依赖2.1.2 SpringBootApplication2.1.3 SJBSpringApplication2.1.3.1 run方法 2.2 Springboot-user2.2.1 依赖2.2.2 UserController2.2.3 UserApplication 2.3 分析run方法的逻辑…

阅读更多...

最新文章