大模型面试常考知识点1

文章目录

1. 写出Multi-Head Attention

import torch
import torch.nn as nn
import torch.nn.functional as F
import mathclass MHA(nn.Module):def __init__(self, d_model, nums_head):super(MHA, self).__init__()     # !!self.d_model = d_modelself.nums_head = nums_headself.wq = nn.Linear(d_model, d_model)self.wk = nn.Linear(d_model, d_model)self.wv = nn.Linear(d_model, d_model)self.dk = d_model/nums_headself.wo = nn.Linear(d_model,d_model)def split_head(self, x, batch_size):  # x(batch_size, seq_len, d_model) -> x(batch_size, seq_len, nums_head, d_k) -> x(batch_size, nums_head, seq_len, dk)return x.view(batch_size, self.nums_head, -1, self.dk).transpose(1,2)def forward(self, q, k, v, mask=None):batch_size = q.size(0)q = self.wq(q)k = self.wk(k)v = self.wv(v)q = self.split_head(q, batch_size)k = self.split_head(k, batch_size)v = self.split_head(v, batch_size)scores = torch.matmul(q, k.transpose(-2,-1))/math.sqrt(self.dk)if mask is not None:scores = scores.mask_fill(mask, float('-inf'))    # mask_fillweights = F.softmax(scores, dim=-1)attention = torch.matmul(weights, v)concat = attention.transpose(1,2).contiguous().view(batch_size, -1, self.d_model)     # contiguousoutput = self.wo(concat)return output

2. Pre-Norm vs Post-Norm

在这里插入图片描述

  • Pre-Norm优势:
    在这里插入图片描述

  • 为什么层数较深时,Pre-Norm不如Post-Norm:
    在这里插入图片描述

3. Layer Norm

任何norm的意义都是为了让使用norm的网络的输入的数据分布变得更好,也就是转换为标准正态分布,数值进入敏感度区间,以减缓梯度消失,从而更容易训练。
在这里插入图片描述
这里结合PyTorch的nn.LayerNorm算子来看比较明白:

nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True, device=None, dtype=None)
  • normalized_shape:归一化的维度,int(最后一维)list(list里面的维度),还是以(2,2,4)为例,如果输入是int,则必须是4,如果是list,则可以是[4], [2,4], [2,2,4],即最后一维,倒数两维,和所有维度
  • eps:加在分母方差上的偏置项,防止分母为0
  • elementwise_affine:是否使用可学习的参数 γ \gamma γ β \beta β ,前者开始为1,后者为0,设置该变量为True,则二者均可学习随着训练过程而变化

RMS Norm

与layerNorm相比,RMS Norm的主要区别在于去掉了减去均值的部分
在RMS Norm的论文中指出:RMS Norm 比Layer Norm更快(可以在各个模型上减少约 7%∼ 64% 的计算时间),效果也基本一致。

Batch Norm

在这里插入图片描述

  • Batch Norm:把每个Batch中,每句话的相同位置的字向量看成一组做归一化。
  • Layer Norm:在每一个句子中进行归一化。
  • Instance Norm:每一个字的字向量的看成一组做归一化。
  • Group Norm:把每句话的每几个字的字向量看成一组做归一化。计算成本较高

4. SwiGLU

  • Sigmoid

在这里插入图片描述

从ReLU到Swish

  • ReLU
    在这里插入图片描述

  • Leaky ReLU,ELU
    在这里插入图片描述

  • Swish
    在这里插入图片描述

  • GELU vs Swish
    在这里插入图片描述

GELU (高斯误差线性单元)与 Swish 激活函数(x · σ(βx))的函数形式和性质非常相像,一个是固定系数 1.702,另一个是可变系数 β(可以是可训练的参数,也可以是通过搜索来确定的常数),两者的实际应用表现也相差不大。
【GPT2, BERT, ALBERT, RoBERTA常用GELU】

SwiGLU

  • GLU
    在这里插入图片描述理解GLU激活函数的关键在于它的门控机制。门控机制使得GLU能够选择性地过滤输入向量的某些部分,并根据输入的上下文来调整输出。门控部分的作用是将输入进行二分类,决定哪些部分应该被保留,哪些部分应该被抑制。

  • SwiGLU
    在这里插入图片描述

5. AdamW

  • Adam

优点:惯性保持 + 自适应
在这里插入图片描述

g t \ g_t  gt为梯度
在这里插入图片描述自适应:经常被更新的权重,更新的幅度小一些;不经常被更新的权重,更新的幅度大一些

  • AdamW
    Adam的基础上,权重更新时,加入L2正则化项。
    之前各类框架对 Adam 的实现中,在损失函数中加入了 L2 正则化项,也就是把权重衰减放到了梯度里,由梯度间接缩小θ。但是这种方法并没有起到有效的正则化作用。AdamW 直接将权重衰减项放到权重计算中,可以对大的权重进行惩罚,起到了有效的正则化作用。
    (下图中x表示权重)
    在这里插入图片描述

6. 位置编码

原因:为 Attention 添加位置信息
没有位置编码的Attention并不能捕捉序列的顺序。(交换单词位置后 Attention map 的对应位置数值也会进行交换,然而并不会产生数值变化)

Transformer位置编码

用sin和cos交替来表示位置,并把位置编码加在embeding上。

RoPE

参考文献
Transformer中sinusoidal位置编码对相对位置关系的表示还是比较间接的,那有没有办法更直接的表示相对位置关系呢?旋转位置编码(Rotary Position Embedding,RoPE)是一种用绝对位置编码来表征相对位置编码的方法,并被用在了很多大语言模型的设计中。

假设通过下述运算来给 q, k 添加绝对位置信息:
f ( q , m ) \ f(q,m)  f(q,m) 表示给向量 q q q在位置 m m m添加位置信息, f ( k , n ) \ f(k,n)  f(k,n) 表示给向量 k k k在位置 n n n添加位置信息。
同时,我们希望经过 Attention 的内积运算后,内积结果带有相对位置信息:
在这里插入图片描述RoPE这一研究就是为上面这个等式找到了一组解答,也就是:

f ( q , m ) = q e i m θ \ f(q,m) = qe^{imθ}  f(q,m)=qeimθ

根据复数乘法的⼏何意义,该变换实际上对应着向量的旋转,所以我们称之为“旋转式位置编码”,
它还可以写成矩阵形式(二维):
在这里插入图片描述根据刚才的结论,结合内积的线性叠加性,可以将结论推广到高维的情形。可以理解为,每两个维度一组,进行了上述的“旋转”操作,然后再拼接在一起:
在这里插入图片描述由于矩阵的稀疏性,会造成计算上的浪费,所以在计算时采用逐位相乘再相加的方式进行:
在这里插入图片描述

ALibi

在这里插入图片描述注意看上表的位置编码那一列,baichuan 7B无论第一代还是第二代,位置编码均用的RoPE,而baichuan 13B则无论是第一代还是第二代,均用的ALiBi

在这里插入图片描述

在这里插入图片描述
怎么理解呢,就是在query和key做矩阵点乘的基础上,加上一个常数负值,比如距离当前位置前1位为-1, 前两位为-2,这些常数要乘上 权重 m

在这里插入图片描述

7. LoRA

lora之前的PEFT方法是adapter/prefix/promp/P-tuning,但是Adapter会引入很强的推理延迟(只能串行),prefix/prompt/P-tuning很难练,而且要占用context length,变相的降低模型能力——所以,根本不改原来的model,这就引出了lora:Low-Rank Adaptation

在这里插入图片描述
在这里插入图片描述

初始化

为什么用随机高斯分布初始化 A ,用 0 矩阵初始化 B ?
需要深入探讨这两个矩阵在权重更新过程中的角色和相互作用

  • 矩阵𝐴:这个矩阵可以被看作是一个特征提取器,它将输入特征映射到一个低维空间(通过矩阵乘法)。在 LORA 的设置中,𝐴通常被视为首先应用于输入的一种转换,将数据从原始的高维空间压缩到一个低维空间。
  • 矩阵𝐵:这个矩阵作为一个特征转换器,它将𝐴输出的低维表示映射回原始的高维空间。可以看作是从𝐴创建的低维空间中恢复信息到原始空间的过程。

为什么𝐴不能为零而 𝐵采用高斯初始化?
如果𝐴初始化为零,那么无论𝐵初始化为什么值,Δ𝑊始终为零矩阵。这意味着在训练的开始阶段,没有任何更新被应用于原始权重 𝑊,导致模型在这一阶段无法学习或适应任何新的特征或模式。

优点:

  • 在面对不同的下游任务时,仅需训练参数量很少的低秩矩阵,而预训练权重可以在这些任务之间共享;
  • 省去了预训练权重的梯度和相关的 optimizer states,大大增加了训练效率并降低了硬件要求;
  • 训练好的低秩矩阵可以合并(merge)到预训练权重中,多分支结构变为单分支,从而达到没有推理延时的效果;
  • 与之前的一些参数高效的微调方法(如 Adapter, Prefix-Tuning 等)互不影响,并且可以相互结合

局限性:

  • 基于低秩的微调可能并不always work,比如finetune与pretrain的gap过大的时候,比如中英差异。当然,这一点在LLM时代可能并不突出,我们认为LLM在预训练阶段已经get了所有基本的知识,finetune只是格式微调,因此可能不会有上述gap过大的情况。
  • 用lora也需要设置r和target module等,这部分超参的设置需要考虑

参考文献

大模型面试八股

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3032328.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【VMware】vSphere 8.0 安装和设置简介

本信息的目标读者为熟悉虚拟机技术和数据中心操作并具有丰富经验的 Windows 或 Linux 系统管理员。 vSphere 8.0 提供了各种安装和设置选项,这些选项定义了相应的任务序列。 vSphere 的两个核心组件是 ESXi 和 vCenter Server。ESXi 是可用于创建和运行虚拟机和虚拟…

【算法】最短路问题 bfs 到 dijkstra

1976、到达目的地的方案数 你在一个城市里,城市由 n 个路口组成,路口编号为 0 到 n - 1 ,某些路口之间有 双向 道路。输入保证你可以从任意路口出发到达其他任意路口,且任意两个路口之间最多有一条路。 给你一个整数 n 和二维整…

laravel8 导入 excel常见问题

上传xls 或 xlsx 文件后,文件解析为 zip 格式,输入正常情况,不影响解析 里面的内容 遇到解析内容,解析为空的情况,可能是 因为excel 存在多个 Sheet1 造成,服务器不能解析一个 Sheet1 的情况&#xff0…

小程序获取手机号,用户昵称,头像

一、手机号 在微信小程序中,获取用户手机号也需要用户的明确授权。你可以使用 button 组件的 open-type 属性设置为 getPhoneNumber 来实现这个功能。当用户点击这个按钮时,会弹出一个对话框请求用户的授权。如果用户同意,你可以在 bindgetp…

如何通过优质服务建立客户忠诚度,促进口碑传播

在生活中,我们经常听到“客户忠诚度”一词,但很少有人真正理解客户忠诚度的含义。其实,客户忠诚度是指企业忠实于其所提供的产品或服务的程度,客户忠诚度对企业和个人都非常重要。高忠诚度的客户会给企业带来巨大的经济和社会效益…

VMware虚拟机故障:“显示指定的文件不是虚拟磁盘“,处理办法

一、故障现象 由于虚拟机宕机,强制重新启动虚拟机后显示错误,没有办法启动虚拟机。 虚拟机有快照,执行快照还原,结果也不行,反复操作,在虚拟机文件目录出现很多莫名文件 二、故障原因 根据故障提示&#…

Swift 初学者趣谈:一招教你记住模式匹配 if case let 的语法,永不忘记

概览 相信初学 Swift 头发茂盛的小伙伴们都对 Swift 简洁且极富表现力的语法倾心不已。不过凡事皆有例外,模式匹配(Pattern Matching)的语法就是其中之一。 在本篇博文中,您将学到如下内容 概览1. 诡异的 if case let 语法&…

代码随想录算法训练营第二十五天 | 669. 修剪二叉搜索树、108.将有序数组转换为二叉搜索树、538.把二叉搜索树转换为累加树

669. 修剪二叉搜索树 题目链接/文章讲解: 代码随想录 视频讲解: 你修剪的方式不对,我来给你纠正一下!| LeetCode:669. 修剪二叉搜索树_哔哩哔哩_bilibili 解题思路 在上一题的删除二叉树节点中,我们通过在…

python实现星号打印出金字塔

#编程实现下列图形的打印 a input() for i in range(int(a)//21): num * * ((i1)*2-1) print(num.center(int(a), )) 编译后通过。输入20后得到下面的星号金字塔

麒麟kylin-v10系统,虚拟机kvm的使用

kvm的使用 虚拟机新建 点击选择对应的iso文件 选择相应的系统 (注意,如果这里没有相应的系统比如:windows,可以直接选择Generic default这是通用默认的意思) 选择cpu 完成即可 等待安装完毕 网络设置-ssh连接 虚拟…

在 Navicat 17 创建一个数据字典

即将于 5 月 13 日发布的 Navicat 17(英文版)添加了许多令人兴奋的新功能。其中之一就是数据字典工具。它使用一系列 GUI 指导你完成创建专业质量文档的过程,该文档为跨多个服务器平台的数据库中的每个数据元素提供描述。在今天的博客中&…

企业网络需求及适合的解决方案

近年来,企业网络通信需求可谓五花八门,变幻莫测。它不仅为企业的生产、办公、研发、销售提供全面赋能,同时也让企业业务规模变大成为了可能。 在当前的技术格局下,中大型企业常见的技术方案有很多,而同时也有各自不可替…

docker部署minio和业务服务因变更minio密码导致访问不到图片的问题

问题起因 业务application和minio都是docker部署。按部署规则minio的环境变量中设置了MINIO_ROOT_USER和MINIO_ROOT_PASSWORD。这样就可以用这套用户名密码登录minio了。而我的application中是通过api访问minio获取资源URL,提供给前端的。所以在application的环境变…

4种最佳后端开发语言(2024版本)

本文发表于 入职啦 公众号。 什么是后端语言? 在开发方面,前端和后端技术之间有非常明显的区别。 Web开发方面虽然由于浏览器兼容性,前端生态系统仅限于 JavaScript(和其他基于 JavaScript 的语言,如 TypeScript&…

C++笔试强训day17

目录 1.小乐乐改数字 2.十字爆破 3.比那名居的桃子 1.小乐乐改数字 链接 简单把他当成字符串遍历即可。 详细代码&#xff1a; #include <iostream> #include <string> using namespace std; int main() {string s;cin >> s;for (int i 0; i < s.si…

MySQL innodb_buffer_pool_size 相关常用语句

对于MySQL速度慢的问题&#xff0c;除了优化 SQL 以外&#xff0c;应该必须优先想到的即使 MySQL 数据库的 innodb_buffer_pool_size 配置问题。 一般来说&#xff0c;innodb_buffer_pool_size 的默认大小都是很小的&#xff0c;尤其是 win 下其默认大小更是只有离谱的 8M。Li…

1-2亿条数据需要缓存,如何合理设计存储

单机是不可能的&#xff0c;肯定是分布式存储 数据怎么落&#xff1f; 一般业界有三种解决方案 哈希取余分区 一致性哈希算法分区 哈希槽分区&#xff08;大厂专用&#xff0c;都在用&#xff09;最终的选择

地下工程中测斜仪的关键应用

地下工程&#xff0c;如隧道、地铁和基坑等项目的建设&#xff0c;对于现代城市的发展至关重要。然而&#xff0c;这些工程的实施往往伴随着诸多风险&#xff0c;特别是与周围土体的稳定性有关的风险。为了确保工程的安全进行&#xff0c;实时监测技术变得尤为关键。其中&#…

Ubuntu18.04--虚拟机配置Samba并从Windows登录

前言&#xff1a; 本文记录我自己在Windows上安装 Virtualbox &#xff0c;并在Virtualbox中安装 Ubuntu-18.04 虚拟机&#xff0c;在Ubuntu-18.04虚拟机里安装配置Smaba服务器&#xff0c;从 Windows 宿主系统上访问虚拟机共享samba目录的配置命令。 引用: N/A 正文 虚拟…

【计算机网络】物理层 通信基础、奈氏准则、香农公式 习题2

下列说法中正确的是( )。 A. 信道与通信电路类似&#xff0c;一条可通信的电路往往包含一个信道 B.调制是指把模拟数据转换为数字信号的过程 C. 信息传输速率是指通信信道上每秒传输的码元数 D.在数值上&#xff0c;波特率等于比特率与每符号所含的比特数的比值 信息传输速率&a…