NLP - 神经网络与反向传播

使用神经网络进行命名实体识别(二值词窗分类)

根据上下文窗口 建立词向量
通过一个神经网络层,通过一个逻辑分类器,得到这个概率是属于特定实体词的预测概率。
另一个分类器来比较说明 这个词是哪个实体类型(比较概率)

在这里插入图片描述
在这里插入图片描述

手工实现梯度下降

基础知识

雅可比矩阵:梯度的推广

  • 给定一个具有 m m m 输出和 n n n 输入的函数:
    f ( x ) = [ f 1 ( x 1 , x 2 , . . . , x n ) , . . . , f m ( x 1 , x 2 , . . . , x n ) ] \boldsymbol{f}(\boldsymbol{x})=[f_1(x_1,x_2,...,x_n),...,f_m(x_1,x_2,...,x_n)] f(x)=[f1(x1,x2,...,xn),...,fm(x1,x2,...,xn)]
  • 它的雅可比矩阵是一个 m × n m\times n m×n 偏导数矩阵:
    ∂ f ∂ x = [ ∂ f 1 ∂ x 1 … ∂ f 1 ∂ x n ⋮ ⋱ ⋮ ∂ f m ∂ x 1 … ∂ f m ∂ x n ] ( ∂ f ∂ x ) i j = ∂ f i ∂ x j \dfrac{\partial\boldsymbol{f}}{\partial\boldsymbol{x}}=\begin{bmatrix}\frac{\partial f_1}{\partial x_1}&\dots&\frac{\partial f_1}{\partial x_n}\\\vdots&\ddots&\vdots\\\frac{\partial f_m}{\partial x_1}&\dots&\frac{\partial f_m}{\partial x_n}\end{bmatrix} \color{red}{\boxed{\left(\frac{\partial f}{\partial x}\right)_{ij}=\frac{\partial f_i}{\partial x_j}}} xf= x1f1x1fmxnf1xnfm (xf)ij=xjfi

链式法则

  • 对于一变量函数的复合:乘导数
    z = 3 y y = x 2 d z d x = d z d y d y d x = ( 3 ) ( 2 x ) = 6 x \begin{aligned} &z=3y \\ &y=x^{2} \\ &\begin{aligned}\frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}=(3)(2x)=6x\end{aligned} \end{aligned} z=3yy=x2dxdz=dydzdxdy=(3)(2x)=6x
  • 对于同时多个变量:乘以雅可比行列式
    h = f ( z ) z = W x + b ∂ h ∂ x = ∂ h ∂ z ∂ z ∂ x = . . . \begin{aligned} &\boldsymbol{h}=f(\boldsymbol{z}) \\ &z=\boldsymbol{W}\boldsymbol{x}+\boldsymbol{b} \\ &\begin{aligned}\frac{\partial\boldsymbol{h}}{\partial\boldsymbol{x}}=\frac{\partial\boldsymbol{h}}{\partial\boldsymbol{z}}\frac{\partial\boldsymbol{z}}{\partial\boldsymbol{x}}=...\end{aligned} \end{aligned} h=f(z)z=Wx+bxh=zhxz=...

雅可比行列式示例:逐元素激活函数

h = f ( z ) , ∂ h ∂ z 是什么 ? h , z ∈ R n \boldsymbol{h}= f( \boldsymbol{z}) ,\ \, \frac {\partial\boldsymbol{h}}{\partial\boldsymbol{z}}是什么? \ \ \ \ \ \ \ \ h,z\in\mathbb{R}^n h=f(z), zh是什么?        h,zRn h i = f ( z i ) h_i=f(z_i) hi=f(zi)
( ∂ h ∂ z ) i j = ∂ h i ∂ z j = ∂ ∂ z j f ( z i ) 雅可比行列式的定义 = { f ′ ( z i ) if  i = j 0 if otherwise 常规的一个变量的导数 \begin{aligned} \left(\frac{\partial\boldsymbol{h}}{\partial\boldsymbol{z}}\right)_{ij}& =\frac{\partial h_{i}}{\partial z_{j}}=\frac{\partial}{\partial z_{j}}f(z_{i}) \ \ \ \ \ \ 雅可比行列式的定义 \\ &=\begin{cases}f'(z_i)\quad\text{if }i=j\\0\quad \text{if otherwise}\end{cases} \ \ \ \ \ 常规的一个变量的导数 \end{aligned} (zh)ij=zjhi=zjf(zi)      雅可比行列式的定义={f(zi)if i=j0if otherwise     常规的一个变量的导数
∂ h ∂ z = ( f ′ ( z 1 ) 0 ⋱ 0 f ′ ( z n ) ) = diag ⁡ ( f ′ ( z ) ) \left.\frac{\partial\boldsymbol{h}}{\partial\boldsymbol{z}}=\left(\begin{array}{ccc}f'(z_1)&&0\\&\ddots&\\0&&f'(z_n)\end{array}\right.\right)=\operatorname{diag}(\boldsymbol{f'}(\boldsymbol{z})) zh= f(z1)00f(zn) =diag(f(z))

其他雅可比行列式

∂ ∂ x ( W x + b ) = W ∂ ∂ b ( W x + b ) = I (单位矩阵) ∂ ∂ u ( u T h ) = h T \begin{aligned} &\begin{aligned}\frac{\partial}{\partial\boldsymbol{x}}(\boldsymbol{W}\boldsymbol{x}+\boldsymbol{b})=\boldsymbol{W}\end{aligned} \\ &\begin{aligned}\frac{\partial}{\partial\boldsymbol{b}}(\boldsymbol{W}\boldsymbol{x}+\boldsymbol{b})&=\boldsymbol{I}&\text{(单位矩阵)}\end{aligned} \\ &\begin{aligned}\frac{\partial}{\partial\boldsymbol{u}}(\boldsymbol{u}^T\boldsymbol{h})=\boldsymbol{h}^T\end{aligned} \end{aligned} x(Wx+b)=Wb(Wx+b)=I(单位矩阵)u(uTh)=hT

回到神经网络

在这里插入图片描述

怎么计算 ∂ s ∂ b \frac{\partial s}{\partial b} bs

  1. 把等式拆解成简单的几个分块
    在这里插入图片描述
  2. 应用链式法则
  3. 写下雅各比表达式
    在这里插入图片描述

怎么计算 ∂ s ∂ w \frac{\partial s}{\partial w} ws

在这里插入图片描述
δ \delta δ 是局部误差符号,是固定的。

关于矩阵的导数:输出形状

雅可比公式表达: 如果有一个函数 y = f ( x ) ,其中 x 是一个向量, y 是一个向量, 则雅可比矩阵  J 的元素  J i j 表示  y i 对  x j 的偏导数。 雅可比公式表达:\\ 如果有一个函数 y = f(x),其中 x 是一个向量,y 是一个向量,\\ 则雅可比矩阵\ J\ 的元素\ J_{ij}\ 表示\ y_i\ 对\ x_j\ 的偏导数。 雅可比公式表达:如果有一个函数y=f(x),其中x是一个向量,y是一个向量,则雅可比矩阵 J 的元素 Jij 表示 yi  xj 的偏导数。

W ∈ R n × m W\in\mathbb{R}^{n\times m} WRn×m , ∂ s ∂ W \frac{\partial s}{\partial W} Ws 的形状是:

  • “ 给定一个具有 m m m 输出和 n n n 输入的函数,它的雅可比矩阵是一个 m × n m\times n m×n 偏导数矩阵。”
  • 1个输出, n × m n\times m n×m 个输入,得到的应该是 1 × n m 1\times nm 1×nm 的雅可比矩阵?一个很长的低向量
    • 问题: 这样不方便更新参数 θ n e w = θ o l d − α ∇ θ J ( θ ) \theta^{new}=\theta^{old}-\alpha\nabla_\theta J(\theta) θnew=θoldαθJ(θ),都应该是 n × m n\times m n×m
    • 解决: 脱离数学,使用形状约定:导数的矩阵形状等于参数的矩阵形状
      • ∂ s ∂ W \frac{\partial s}{\partial W} Ws 的形状是 n × m n\times m n×m
      • [ ∂ s ∂ W 11 ⋯ ∂ s ∂ W 1 m ⋮ ⋱ ⋮ ∂ s ∂ W n 1 ⋯ ∂ s ∂ W n m ] \left.\left[\begin{matrix}\frac{\partial s}{\partial W_{11}}&\cdots&\frac{\partial s}{\partial W_{1m}}\\\vdots&\ddots&\vdots\\\frac{\partial s}{\partial W_{n1}}&\cdots&\frac{\partial s}{\partial W_{nm}}\end{matrix}\right.\right] W11sWn1sW1msWnms

b ∈ R n × 1 b\in\mathbb{R}^{n\times 1} bRn×1 , ∂ s ∂ b \frac{\partial s}{\partial b} bs 的形状是:

  • ∂ s ∂ b = h T ∘ f ′ ( z ) \frac{\partial s}{\partial\boldsymbol{b}}=\boldsymbol{h}^T\circ f^{\prime}(z) bs=hTf(z) 是行向量
  • 但是习惯上 梯度应该是一个列向量 因为 b b b 是一个列向量

雅可比矩阵形式(这使得链式法则很容易,对计算微积分很有意义) 和 形状约定(这使得SGD很容易实现)之间的分歧。

  • 解决:两个选择
    • 尽量使用雅可比矩阵形式(不完全使用),最后按照形状约定进行整形
      • 最后转置 ∂ s ∂ b \frac{\partial s}{\partial b} bs 使导数成为列向量(而不是按照雅各比矩阵形式的行向量),
      • 通过 δ T \delta^T δT 来实现,这样始终遵循形状约定。
    • 一直遵循形状约定
      • 查看维度,找出何时转置 和/或 重新排序项。

关于矩阵的导数(按照雅各比矩阵形式)

∂ s ∂ W = δ ∂ z ∂ W \quad\frac{\partial s}{\partial W}=\boldsymbol{\delta}\frac{\partial z}{\partial W} Ws=δWz

δ \delta δ 将出现在我们的答案中。
另一项应该是 x x x ,因为 z = W x + b z=Wx+b z=Wx+b

∂ s ∂ b = δ ∂ z ∂ b \quad\frac{\partial s}{\partial b}=\boldsymbol{\delta}\frac{\partial z}{\partial b} bs=δbz

δ \delta δ 将出现在我们的答案中。
另一项应该是 1 1 1 ,因为 z = W x + b z=Wx+b z=Wx+b

这表明 ∂ s ∂ W = δ T x T \frac{\partial s}{\partial W}=\boldsymbol{\delta}^T\boldsymbol{x}^T Ws=δTxT ∂ s ∂ b = δ T \frac{\partial s}{\partial b}=\boldsymbol{\delta}^T bs=δT

δ \delta δ 是 z 处的局部误差信号
x 是本地输入信号

总结

在这里插入图片描述

反向传播

求导,使用链式法则

构建计算图

  • 前向传播阶段
    在这里插入图片描述

神经网络的基本附加元素是 发回梯度,告诉我们怎么更新模型的参数,使得模型在 获得损失函数后进行学习(最小化损失)。

  • 反向传播阶段
    在这里插入图片描述
  • 反向传播:单个节点
    在这里插入图片描述
    在这里插入图片描述
  • 反向传播:多个节点
    在这里插入图片描述
  • 一个例子
    反向传播最后的结果体现 改变输入对输出的影响,上涨/减少这个变量的多少倍
    在这里插入图片描述

开始计算

在这里插入图片描述
在这里插入图片描述

就像前面手动计算梯度下降那样

在一般的计算图中进行反向传播计算的流程

在这里插入图片描述

现在的深度学习神经网络框架(Tensorflow, PyTorch, etc…)可以自动做反向传播,但是主要让层/节点编写器手动计算局部导数。我们需要为图中的特定节点或层添加内容。

反向传播的具体实现

class ComputationalGraph(object):#..... def forward(inputs):# 1.[pass inputs to input gates...] # 2. forward the computational graph: # 根据节点在计算图中的依赖关系对节点进行拓扑排序for gate in self .graph.nodes_topologically_sorted(): gate.forward()return loss # the final gate in the graph outputs the loss def backward():# 反转图的拓扑排序for gate in reversed(self.graph.nodes_topologically_sorted()):gate.backward() # little piece of backprop (chain rule applied) return inputs_gradients
手动实现前向/后向API

在这里插入图片描述

总结

  • 反向传播:下游梯度 = 上游梯度 * 局部梯度
  • 前向传播计算出当前参数的值,然后进行反向传播以计算出损失的梯度(当前参数的损失)。
  • 现在的深度学习神经网络框架(Tensorflow, PyTorch, etc…)可以自动做反向传播,我们不用知道具体是怎么操作的,就像我们使用gcc来编译c代码,但是我们不需要具体知道gcc是怎么操作的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2822187.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

赵本山与高秀敏夫妇本想找范伟要那1200元电视机垫款,却不好意思向范伟开口--小品《面子》(中1)的台词

赵本山与高秀敏夫妇本想找范伟要那1200元电视机垫款,却不好意思向范伟开口 --小品《面子》(中1)的台词 表演者:赵本山 高秀敏 范伟 (接上) 高秀敏:咱俩抓紧提事啊 赵本山:不着急…

Python 迭代器和生成器的妙用

本文将探讨python的迭代器和生成器在实际场景中的一些巧妙用法。掌握迭代器和生成器的使用,能够让开发者在解决实际问题时更加得心应手。 Python 迭代器的妙用 Python 的迭代器是一个实现了迭代器协议的对象,它包含方法 __iter__() 和 __next__()。迭代…

实现任意系统下载office文件的域控

一.背景 最近用户提出需求:某个系统A下载的excel文档需要进行权限控制,比如只能下载文档的用户(即文档owner)查看或者编辑,其他人想要查看或者编辑,需要文档owner进行手动设置,当然也可以手动取…

初识C语言—指针

.h 头文件(函数的声明,类型的声明,头文件的包含) .c 源文件(函数实现) 浮点数的四舍五入,不能用你肉眼看到的数值来计算,因为浮点数在内存中有可能不能精确保存。 内存&#xff1a…

ICML23 - Synthetic Data for Model Selection

前言 如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。 本文关注的问题为:是否可以使用合成数据(Synthetic Data)用于模型选择?即不…

多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网络多输入多输出预测

多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网络多输入多输出预测 目录 多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网络多输入多输出预测预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介绍 多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网…

MySQL 外键约束 多表联查 联合查询

外键约束 外键用来让两张表的数据之间建立连接,从而保证数据的一致性和完整性。 有一张学生表和班级表,学生表通过班级表的ID引用到该班级,从而进行关联,而通过外键约束可以保证数据的一致性完整性。 如学生ID18关联到课程ID1号…

瑞吉苍穹外卖如何拓展?已经经过不同公司多轮面试。项目中会问到哪些问题?以及问题如何解决?

别催了,别催了,先收藏吧。 作者大大正在加班加点完成。 文章会尽快发布,关注收藏,尽请期待。 想要加入并查阅作者的知识库可以联系作者 不要白嫖,通过后,附上关注和收藏截图。 已有众多小伙伴加入 目前…

MySql安全加固:可信IP地址访问控制 设置密码复杂度

MySql安全加固:可信IP地址访问控制 & 设置密码复杂度 1.1 可信IP地址访问控制1.2 设置密码复杂度 💖The Begin💖点点关注,收藏不迷路💖 1.1 可信IP地址访问控制 当您在创建用户时使用’%作为主机部分,…

Day20-磁盘管理

Day20-磁盘管理 1. cut 切:2. 磁盘历史和内外部物理结构介绍2.1 磁盘发展趋势和实现措施2.2 磁盘知识的体系结构2.3 机械磁盘的外部结构2.4 SSD固态硬盘的外部结构2.5 固态硬盘内部结构2.6 缓存在服务器各硬件上的速度和大小对比另类维度图解,从上到下由高速到低速&…

2024现代Android开发趋势

2024现代Android开发趋势 在当今的Android开发领域,我们看到了许多令人兴奋的技术和趋势,这些技术和趋势正在改变着应用程序的开发方式和用户体验。让我们一起深入探讨2024年现代Android开发的主要方向和关键技术。 无处不在的Kotlin Kotlin已经成为An…

202435读书笔记|《半小时漫画中国史》——读点经济学与历史,生活更美好,趣味烧脑土地制度、商鞅变法、华丽丽的丝绸之路这里都有

202435读书笔记|《半小时漫画中国史》——读点经济学与历史,生活更美好,趣味烧脑土地制度、商鞅变法、华丽丽的丝绸之路这里都有 1. 土地政策、度量衡及税收2. 商鞅变法3. 西汉经济4. 西汉盐铁大辩论5. 西汉丝绸之路 《半小时漫画中国史:经济…

吸猫毛空气净化器哪个好?推荐除猫毛效果好宠物空气净化器品牌

当下有越来越多的家庭选择养宠物!尽管家里变得更加温馨,但养宠可能会带来异味和空气中的毛发增多可能会带来健康问题,这是一个大问题! 不想家里弥漫着异味,特别是来自宠物便便的味道,所以需要一款能够处理…

打印100-200之间的素数

#include <stdio.h>int prime(int n){int i 1;for(i 2;i < n;i){if(n % i 0)return 0;}return 1; } //打印100-200之间的素数 int main() {int n 0;int j 100;for(j 100;j < 200;j){if(prime(j)){printf("%d是素数\n",j);n;}}printf("100-200…

【center-loss 中心损失函数】 原理及程序解释(更新中)

文章目录 前言问题引出open-set问题抛出 解决方法softmax函数、softmax-loss函数解决代码&#xff08;center_loss.py&#xff09;原理程序解释 代码运用 如何梯度更新首先了解一下基本的梯度下降算法然后 补充&#xff1a;外围知识模型 前言 学习一下&#xff1a; 中心损失函…

【刷题】位运算

消失的两个数字 消失的两个数字 “单身狗”进阶版思路 class Solution { public:vector<int> missingTwo(vector<int>& nums) {int ret 0;int n nums.size();for(int i 0; i < n; i){ret ^ (nums[i] ^ i);}ret ^ (n ^ (n 1) ^ (n 2));// 按位异或的…

94. 递归实现排列型枚举 刷题笔记

思路 依次枚举 每个位置用哪个数字 要求按照字典序最小来输出 而每次搜索下一层时i都是从1开始 也就是说 如果有小的数可以填上 那么该方案会填上这个数字 例如 当n等于3 第一次搜索 1 2 3输出后返回 返回后此时i3 第二个位置填3 1 3 2 输出后返回 此时返回到第一层…

如何用Python检查时间序列数据是否平稳?

时间序列数据通常以其时间性质为特征。这种时间性质为数据增加了趋势或季节性&#xff0c;使其与时间序列分析和预测兼容。如果时间序列数据不随时间变化或没有时间结构&#xff0c;则称其为静态数据。因此&#xff0c;检查数据是否平稳是非常必要的。在时间序列预测中&#xf…

基于粒子群优化算法的图象聚类识别matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于粒子群优化算法的图象聚类识别。通过PSO优化方法&#xff0c;将数字图片的特征进行聚类&#xff0c;从而识别出数字0~9. 2.测试软件版本以及运行结果展示 M…

智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人(机器人大模型与具身智能挑战赛)

智能咖啡厅助手&#xff1a;人形机器人 融合大模型&#xff0c;行为驱动的智能咖啡厅机器人(机器人大模型与具身智能挑战赛) “机器人大模型与具身智能挑战赛”的参赛作品。的目标是结合前沿的大模型技术和具身智能技术&#xff0c;开发能在模拟的咖啡厅场景中承担服务员角色并…