Pytorch:张量的梯度计算

目录

    • 一、自动微分简单介绍
      • 1、基本原理
      • 2、梯度计算过程
      • 3、示例:基于 PyTorch 的自动微分
        • a.示例详解
        • b.梯度计算过程
        • c.可视化计算图
      • 4、总结
    • 二、为什么要计算损失,为何权重更新是对的?
      • 1、梯度下降数学原理
      • 2、梯度上升
    • 三、在模型中使用自动微分

前向传播、反向传播教程:包含梯度计算理解
前馈神经网络:

  • 前向传播:输入信号 输入模型计算 得到输出的过程
  • 反向传播:将损失的梯度回传,传播误差,从而更新每层权重参数的过程。本质上是利用(求导的)链式法则,计算损失函数对所有参数的梯度。
    • 新的权重 = 旧的权重 − 学习率 × 梯度 新的权重=旧的权重−学习率×梯度 新的权重=旧的权重学习率×梯度

一、自动微分简单介绍

  在 PyTorch 中,张量的自动微分功能是通过一个叫做自动微分(Automatic Differentiation,简称 AD)的系统实现的。自动微分是一种用于自动计算导数的技术,它在机器学习和深度学习中扮演着核心角色,特别是在神经网络的训练过程中计算梯度时。

1、基本原理

  在 PyTorch 中,每个 torch.Tensor 对象都有一个 requires_grad 属性;如果设置为 True,PyTorch 会跟踪所有对该张量的操作。当完成计算后,你可以调用 .backward() 来自动计算所有梯度,这些梯度会累积到相应张量的 .grad 属性中。

2、梯度计算过程

当你对一个输出张量执行 .backward() 时,PyTorch 会进行如下步骤:

  1. 反向传播:从输出张量开始,反向遍历整个操作图(计算图),计算每个节点的梯度。
  2. 链式法则:自动应用链式法则计算梯度。
  3. 累积梯度:对于那些有多个子节点的张量(在图中被多次引用),梯度会累积,而不是被替换。

3、示例:基于 PyTorch 的自动微分

让我们通过一个简单的例子来看看 PyTorch 如何实现自动微分:

import torch# 创建一个张量,并设置requires_grad=True来追踪与它相关的计算
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
# x = torch.tensor([1.0, 2.0, 3.0])
# x.requires_grad=True
# 是一样的# 定义张量上的操作
y = x * x  # y = x^2 ,逐元素乘法得 tensor[1.0,4.0,9.0]
z = y.mean()  # z = 1/3 * sum(x^2)# 计算z关于x的梯度
z.backward()# 打印梯度 dz/dx
print(x.grad)

逐元素乘法:张量的基础运算
在这个例子中,x 是一个具有三个元素的张量,我们对它应用平方操作得到 y,然后对 y 取均值得到 z。调用 z.backward() 后,x 的梯度将存储在 x.grad 中。

输出将是:

tensor([0.6667, 1.3333, 2.0000])

这个梯度实际上是函数 z = 1 3 ∑ x 2 z = \frac{1}{3} \sum x^2 z=31x2 x = [ 1.0 , 2.0 , 3.0 ] x = [1.0, 2.0, 3.0] x=[1.0,2.0,3.0] 处的导数。

梯度下降法 反向传播中,如果 x 是模型中的一个可训练的权重参数,并且我们已经计算出了损失函数关于 x 的梯度(x.grad),那么在权重更新阶段,x 会按照以下方式更新:
x ← x − 学习率 × x . grad x \leftarrow x - \text{学习率} \times x.\text{grad} xx学习率×x.grad
在梯度上升法中 区别是加号。

a.示例详解

示例包括以下步骤:

  1. 张量创建x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
  2. 应用操作y = x * x (即 y = x 2 y = x^2 y=x2)
  3. 计算均值z = y.mean() (即 z = 1 3 ∑ x 2 z = \frac{1}{3} \sum x^2 z=31x2)

当我们调用 z.backward() 时,计算图会反向传递梯度,使用链式法则计算关于每个节点的梯度。

b.梯度计算过程
  1. 初始化:梯度 dz/dz 初始化为 1。
  2. 从 z 到 y:应用链式法则,计算 dz/dy。由于 z = 1 3 ∑ y z = \frac{1}{3} \sum y z=31y,有 dz/dy = [1/3, 1/3, 1/3]
  3. 从 y 到 x:继续使用链式法则,计算 dy/dx。由于 y = x^2,有 dy/dx = 2x。所以在 x = [1.0, 2.0, 3.0] 处,我们得到 dy/dx = [2*1.0, 2*2.0, 2*3.0] = [2, 4, 6]
  4. 组合:结合这些,得到 dz/dx = dz/dy * dy/dx = [1/3, 1/3, 1/3] * [2, 4, 6] = [2/3, 4/3, 6/3] = [0.6667, 1.3333, 2.0000]
c.可视化计算图
import torchviz
import torch
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = x * x
z = y.mean()
z.backward()torchviz.make_dot(z, params={'x': x, 'y': y, 'z': z})

这将生成一个图形,清晰地表示了计算图中的各个节点以及它们之间的依赖关系。这对于理解复杂的神经网络结构非常有帮助。
安装 Graphviz

  • x (3): 这是一个有 3 个元素的一维张量 [1.0, 2.0, 3.0],作为计算图的输入。它的形状是 ( 3 ) (3) (3),代表有 3 个元素。

  • AccumulateGrad: 这表示梯度累积节点。由于 x 被创建为 requires_grad=True,所以 PyTorch 会追踪它的梯度。当 z.backward() 被调用时,PyTorch 会计算 z 相对于 x 的梯度,并将这些梯度累积(即累加)到 x.grad 属性中。

  • MulBackward0: 这是一个反向传播操作,表示 y = x * x 操作的梯度计算。MulBackward0 是 PyTorch 自动为乘法操作分配的反向传播函数。

  • MeanBackward0: 类似地,这是 z = y.mean() 的反向传播操作。MeanBackward0 计算 z 相对于 y 的梯度。

  • z (): 这是计算图的最终输出。zy 张量的平均值。由于 z 是一个标量(即它只有一个元素),所以它的形状为空(())。

箭头显示了数据和梯度的流向。当调用 z.backward() 时,PyTorch 会沿着这些箭头的方向逆向传播梯度,从 z 开始,通过 MeanBackward0MulBackward0,最后到达 x 并在 AccumulateGrad 节点处累积梯度。

4、总结

总的来说,一般输出通过最终的损失函数来反向计算梯度。梯度实际上就是进行链式法则求偏导得到对应点的值,这个梯度可以根据学习率大小用来更新权重。

以上的实际上,我们可以把z看作 损失函数(不管意义是啥),x看作可训练的权重参数,然后反向传播zx求梯度,最后得到了每个x值的梯度值(求法在之前有介绍,就是一个链式法则求某个点的导数而已),然后更新x,可以简略认为是一个神经网络的反向传播过程。
损失函数: z = 1 3 ∑ x 2 损失函数:z = \frac{1}{3} \sum x^2 损失函数:z=31x2
反向传播更新: x ← x − 学习率 × x . grad 反向传播更新:x \leftarrow x - \text{学习率} \times x.\text{grad} 反向传播更新:xx学习率×x.grad

二、为什么要计算损失,为何权重更新是对的?

我们从梯度下降来理解~

1、梯度下降数学原理

在这里插入图片描述

  我们说对一个权重求梯度,实际上就是目标函数z对该权重求偏导,而链式法则也不过是一个求导方法,最后不过也相当于把其他变量看成常数,对需要求导的变量进行求导。对x求偏导可以把其他变量(其他权重)看作一个常数。换句话说,我们先理解成,z关于x的单变量函数,因此我们对x求梯度之后(即导数之后),根据导数的下降方向改变原来的x,实际上这个变化后x值就可以使得z值更小。因此我们所谓的梯度下降,实际上就是通过对x求偏导沿z下降的方向更新x, 使得z(损失函数)更小的方法。

  • 沿梯度方向下降更新权重,实际上就是可以看成z=z(x),让z最小,对x求导,让x沿梯度下降的方向变化,达到z变小的目的。

  而我们的学习率(通常表示为 α \alpha α η \eta η 在梯度下降算法中扮演着关键的角色,因为它决定了每一步更新参数时的步长:

  1. 学习率过大

    • 如果学习率设置得太大,那么每次更新时步长过长,可能会导致参数 (x) 跳过最小值点,甚至可能导致每次迭代后离最小值点越来越远,从而使算法发散,无法收敛到最小值。
  2. 学习率过小

    • 反之,如果学习率太小,虽然可以保证更稳定地逼近最小值,但更新的速度会非常慢。这不仅意味着需要更多的迭代次数才能达到最小值,而且还可能在到达全局最小值前就因为其他条件(如迭代次数限制或计算时间限制)而停止,导致算法效率低下。
  3. 梯度为零的情况

    • 理想情况下,当达到函数的最小值点时,该点的梯度为零。在这种情况下,由于没有梯度(即没有变化的方向或大小),参数不再更新,算法停止。这是梯度下降算法收敛的标志。

合适的学习率选择对于梯度下降法的成功至关重要。在实践中,选择合适的学习率可能需要基于经验、实验调整或者使用一些适应性学习率调整策略,如 Adam 或 AdaGrad,这些方法可以自动调整学习率,以改进梯度下降的性能和稳定性。

2、梯度上升

刚刚提到的梯度下降让损失函数达到最小值,那么梯度上升就是反过来了,它让目标函数达到最大值。

三、在模型中使用自动微分

import torchclass MyModel(torch.nn.Module):def __init__(self):super(MyModel, self).__init__()def forward(self, x, w, b):return 1 / (torch.exp(-(w * x + b)) + 1)model = MyModel()# 设置输入参数
x = torch.tensor(1.0, requires_grad=True)
w = torch.tensor(0.0, requires_grad=True)
b = torch.tensor(0.0, requires_grad=True)# Forward pass
output = model(x, w, b)# Backward pass
output.backward()# Access the gradients
print(x.grad)  # Gradient with respect to x
print(w.grad)  # Gradient with respect to w
print(b.grad)  # Gradient with respect to b

使用 PyTorch 中的 backward() 方法可以自动计算所有注册了梯度(即设置了 requires_grad=True)的张量的导数。在示例中,x, w, 和 b 都被设置为 requires_grad=True,这意味着 PyTorch 会追踪这些变量的所有操作,用来构建一个计算图。当调用 output.backward() 时,PyTorch 将自动计算 output 对于所有涉及的变量的梯度。

模型执行的是逻辑回归的前向传播公式:

output = 1 exp ⁡ ( − ( w ⋅ x + b ) ) + 1 \text{output} = \frac{1}{\exp(-(w \cdot x + b)) + 1} output=exp((wx+b))+11

这是一个经典的 sigmoid 激活函数应用。以下是 backward() 过程的详细说明:

  1. 前向传播(Forward Pass)
    在前向传播中,使用给定的输入 x, w, 和 b,按照您定义的 forward 方法计算输出。

  2. 反向传播(Backward Pass)
    output.backward() 被调用时,PyTorch 从 output 开始,自动计算它对 x, w, 和 b 的梯度。这是通过反向遍历从输出到每个输入的计算图,应用链式法则完成的。

  3. 访问梯度
    在反向传播之后,每个变量的 .grad 属性会包含其对应的梯度。这些梯度表示了损失函数相对于每个变量在当前值的斜率或变化率。

  • x.grad 会包含 outputx 的梯度。
  • w.grad 会包含 outputw 的梯度。
  • b.grad 会包含 outputb 的梯度。

这些梯度可以用于优化步骤,比如在一个训练循环中用梯度下降法更新 wb。这是实现参数更新和模型训练的关键步骤。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2978991.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Hbuilder快捷键个人习惯修改

自定义修改 [// {"key":"ctrld","command":"editor.action.deleteLines"},// {"key":"ctrle","command":"editor.action.addSelectionToNextFindMatch"}//目录内查找字符串{"key"…

DC-DC电源设计中电感选型详解

电感参数: DC-DC 电感选型步骤: 1, 根据 DC-DC 的输入输出特性计算所需的最小电感量。 (1)对于 Buck 型 DC-DC,计算公式如下 Lmin= 【Vout*(1-Vout/Vinmax)】/ (Fsw*Irpp ) 其中: Vinmax = maximum input voltage Vout = output voltage fsw = switching frequency…

电路仿真,为何国产软件成首选?

随着科技的飞速发展,电路仿真技术在电子工程设计中的作用日益凸显。面对市场上琳琅满目的电路仿真软件,为何我们应该优先选择国产软件呢?本文将从多个方面为您深入解析。 一、国产软件的安全性保障 在当前国际形势下,信息安全尤为…

[2024更新]如何从Android恢复已删除的相机照片?

相信大家都经历过Android手机误删相机图片的经历。您是否正在寻找一种可行的方法来挽救这些丢失的照片?如果这是你迫切想解决的问题,那么这篇文章绝对可以帮助你。然而,与其考虑如何从Android恢复已删除的相机照片,我们更愿意建议…

【C++类和对象】日期类的实现

💞💞 前言 hello hello~ ,这里是大耳朵土土垚~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页&#x…

万兆以太网MAC设计(6)IP协议报文格式详解以及IP层模块设计

文章目录 前言:IPv4报文协议格式二、IP_RX模块设计2.1、模块接口2.2、模块工作过程 三、IP_TX模块设计3.1、模块接口3.2、模块工作过程 四、仿真4.1、发送端4.2、接受端 前言:IPv4报文协议格式 参考:https://sunyunqiang.com/blog/ipv4_prot…

【Linux学习】初始冯诺漫体系结构

文章目录 认识冯诺依曼系统 认识冯诺依曼系统 什么是冯诺依曼体系结构? 冯诺依曼体系结构是一种将程序指令和数据以二进制形式存放在主存储器中,由中央处理器统一控制和执行的计算机系统结构。冯诺依曼体系结构实现了程序的可编程性和硬件与软件的分离&…

jdk版本冲突,java.lang.UnsupportedClassVersionError: JVMCFRE003

主要是编辑器所用的jdk版本和项目用的不一致导致的,虽然编译通过了,但是运行是会报错 选好后点击Apply点击ok,然后重新编译一遍项目就可以了

OpenTelemetry-1.介绍

目录 1.是什么 2.为什么使用 OpenTelemetry 3.数据类型 Tracing Metrics Logging Baggage 4.架构图 5.核心概念 6.相关开源项目 ​编辑 7.分布式追踪的起源 8.百花齐放的分布式追踪 Zipkin Skywalking Pinpoint Jaeger OpenCensus OpenTracing 9.Openteleme…

Linux运维之道:深入探索开源世界的基石

💂 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】🤟 一站式轻松构建小程序、Web网站、移动应用:👉注册地址🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交…

【LeetCode热题100】【多维动态规划】最小路径和

题目链接:64. 最小路径和 - 力扣(LeetCode) 给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 说明:每次只能向下或者向右移动一步。 经典动态规…

向量的点积和叉积的几何意义

1. 点积 点积(dot product),又称标量积(scalar product)。结果等于。 可用于 判断的是否垂直求投影长度求向量是抑制作用还是促进作用计算两个向量的夹角 2. 叉积 叉积(cross product),又称为向量积(vector product)。模长等…

vue 表格获取当前行索引,加颜色

vue 表格获取当前行索引&#xff0c;加颜色 <span styledisplay:inline-block;width:10px;height:10px;border-radius:50% :style"{background:color[scope.$index]}" />//定义颜色color: [#5387F7, #A794E0, #F3543C, #999999, #77D3F8, #FFA1B4, #26CEBA, #…

C++:基础语法

一、命名空间 在C/C中&#xff0c;变量、函数和后面要学到的类都是大量存在的&#xff0c;这些变量、函数和类的名称将都存在于全局作用域中&#xff0c;可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化&#xff0c; 以避免命名冲突或名字污染&#xff0c;n…

30V-STM32设计项目

30V-STM32设计 一、项目描述 (已验证) 基于STM32c8t6芯片设计的开发板&#xff0c;支持4-30V宽电压输入&#xff0c;串口模式自动下载功能&#xff0c;支持串口和STlink&#xff0c;方式下载程序 二、原理图介绍 电源电路采用了DCDCLDO电路&#xff0c;如果是外接DC头供电的话&…

BM25检索算法 python

1.简介 BM25&#xff08;Best Matching 25&#xff09;是一种经典的信息检索算法&#xff0c;是基于 TF-IDF算法的改进版本&#xff0c;旨在解决、TF-IDF算法的一些不足之处。其被广泛应用于信息检索领域的排名函数&#xff0c;用于估计文档D与用户查询Q之间的相关性。它是一种…

HarmonyOS开发实例:【图片编辑应用】

介绍 本篇Codelab通过动态设置元素样式的方式&#xff0c;实现几种常见的图片操作&#xff0c;包括裁剪、旋转、缩放和镜像。效果如图所示&#xff1a; 相关概念 [image组件]&#xff1a;图片组件&#xff0c;用来渲染展示图片。[div组件]&#xff1a;基础容器组件&#xff0…

学习Rust的第16天:泛型类型

泛型类型是减少代码重复的好方法&#xff0c;因此它们对性能有巨大的影响&#xff0c;通过利用Rust中的泛型类型&#xff0c;开发人员可以编写更通用和可重用的代码&#xff0c;同时保持类型安全和性能。这种方法不仅减少了冗余&#xff0c;还增强了代码的可维护性和可扩展性&a…

AI大模型探索之路-实战篇2:基于CVP架构-企业级知识库实战落地

目录 前言 一、概述 二、本地知识库需求分析 1. 知识库场景分析 2. 知识库应用特点 3. 知识库核心功能 三、本地知识库架构设计 1. RAG架构分析 2. 大模型方案选型 3. 应用技术架构选型 4. 向量数据库选型 5. 模型选型 三、本地知识库RAG评估 四、本地知识库代码落地 1. 文件…

服务器基础知识(1)

&#x1f40c;博主主页&#xff1a;&#x1f40c;​倔强的大蜗牛&#x1f40c;​ &#x1f4da;专栏分类&#xff1a;服务器❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 1、什么是服务器 服务器是计算机的一种&#xff0c;它比普通计算机运行更快、负载更高、价格更贵。服务…