【极速前进】20240423-20240428：Phi-3、fDPO、TextSquare多模态合成数据、遵循准则而不是偏好标签、混合LoRA专家

一、Phi-3技术报告

论文地址：https://arxiv.org/pdf/2404.14219

发布了phi-3-mini，一个在3.3T token上训练的3.8B模型。在学术基准和内部测试中的效果都优于Mixtral 8*7B和GPT-3.5。此外，还发布了7B和14B模型phi-3-small和phi-3-medium。

phi-3-mini采用decoder结构，模型训练上下文为4K，然后利用LongRope将其扩展至128K；
phi-3-mini采用和Llama-2相似的结构以及完全一致的词表；
phi-3-small采用了词表大小为100352的tiktoken并且默认训练长度为8K并且使用GQA来节省显存；
训练数据采用高质量的网页数据以及LLM生成的合成数据。
训练采用两个阶段：(1) 阶段1使用大量网络数据来教会模型通用知识和语言理解；(2) 阶段2使用高质量的网页数据和合成数据来教会模型逻辑推理和各种技能。
过滤掉包含知识的数据，为那些能够提升推理能够的网络保留更多的空间；

二、fDPO

论文地址：https://arxiv.org/pdf/2404.13846

1. RLHF

预训练语言模型为 $\pi_{\theta}(y|x)$ ，SFT数据为 $\mathcal{D}_{\text{demo}}$ ，偏好对齐数据为 $\mathcal{D}$ 。

(1) SFT：先使用 $\mathcal{D}_{\text{demo}}$ 对 $\pi_{\theta}$ 进行监督微调；

(2) 奖励建模

奖励建模阶段的目标是构建奖励模型 $r_{\phi}(x,y)$ 。给定偏好数据集 $\mathcal{D}=\{(x^{(i)},y_c^{(i)},y_r^{(i)})\}_{i=1}^N$ ，其中 $y_c$ 表示被选择的应答， $y_r$ 是拒绝的应答， $N$ 是总样本量。基于奖励模型构建偏好概率可以使用Bradley-Terry模型：
$p_{\text{BT}}(y_c\succ y_r|x,r_{\phi})=\sigma(r_{\phi}(x,y_c)-r_{\phi}(x,y_r)) \\$
其中 $\sigma$ 是sigmoid函数。奖励模型训练则是该概率的负对数似然：
$L(\phi)=-\mathbb{E}_{(x,y_c,y_r)\sim\mathcal{D}}[\log\sigma(r_{\phi}(x,y_c)-r_{\phi}(x,y_r))] \\$
(3) RL微调

该阶段使用奖励模型 $r_{\phi}$ 来优化SFT模型 $\pi_{\theta}$ ，即优化 $\pi_{\theta}$ 使得奖励最大化。目标函数为
$\max_{\theta}\mathbb{E}_{x\sim\mathcal{D}}\Big[\mathbb{E}_{y\sim\pi_{\theta}(\cdot|x)}[r_{\phi}(x,y)]-\beta D_{\text{KL}}(\pi_{\theta}(\cdot|x),\pi_{\text{ref}}(\cdot|x))\Big] \\$
其中 $D_{\text{KL}}$ 是KL散度。

2. DPO
$L_{\text{DPO}}(\theta)=\mathbb{E}_{(x,y_c,y_r)\sim\mathcal{D}}\Big[\log\sigma\Big( \beta\log\frac{\pi_{\theta}(y_c|x)}{\pi_{\text{ref}}(y_c|x)}-\beta\log\frac{\pi_{\theta}(y_r|x)}{\pi_{\text{ref}}(y_r|x)}\Big)\Big] \\$
其中 $\beta$ 参数的作用等同于RLHF中控制KL散度的超参数。

3.fDPO

低质量数据对DPO有显著影响，fDPO的思路是使用奖励模型RM来过滤DPO的数据。具体过程为

步骤1：使用 $\mathcal{D}_{\text{demo}}$ 微调 $\pi_{\theta}$ ；

步骤2：使用 $\mathcal{D}_{\text{pref}}$ 训练奖励模型 $r_{\phi}$ ；

步骤3：DPO微调过滤

初始化过滤后数据集 $\mathcal{D}_f:=\mathcal{D}_{\text{pref}}$ ，epoch数量m:=0

while m<M and $|D_f|-|D_{\text{pref}}|>1-\gamma$ do

for $x,y_c,y_r)$ in $D_f$ do

使用 $\pi_{\theta}$ 为输入x生成响应y

if $r_{\phi}(x,y)>r_{\phi}(x,y_c)$ then

从 $D_f$ 中抛弃样本 $x,y_c,y_r)$ 。

end if

end for

使用DPO在 $D_f$ 上更新 $\pi_{\theta}$ 。

4. 结果
在这里插入图片描述

三、TextSquare：合成文本为中心的视觉指令微调数据集

论文地址：https://arxiv.org/pdf/2404.12803

1. Square-10M数据集构造

(1) 收集包含丰富文本信息的图片，总计收集了380万；

(2) 自提问：通过prompt使Gemini Pro生成问题。由于MLLM对文字理解不太好，通过OCR抽取文字然后添加至输入中；

(3) 回答：通过使用Gemini Pro来生成答案；

(4) 推理：要求Gemini Pro给出详细的推理过程；

(4) 过滤：使用MLLM进行自评估、多prompt一致性过滤、多上下文一致过滤。

四、SAMI：遵循准则而不是偏好标签

论文地址：https://arxiv.org/pdf/2404.14313

互信息：给定两个随机变量(假设是离散型)，互信息定义为 $I(X,Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)\log\Big(\frac{p(x,y)}{p(x)p(y)}\Big)$ 。该指标可以看作是随机变量X中包含随机变量Y的信息量。

SAMI不使用SFT、奖励建模、偏好对齐或者in-context learning。这里会使用对比学习来改善LLM，使其遵循行为准则。

1. constitution和principle

Principles	Constitution
有用，无害	1. 以深度和清晰的方式解决人们的要求，确保回应是详细和有见地的。2. 当面对非法、不道德或潜在有害的请求时，积极提出详细而有见地的替代解决方案。这种方法确保遵守法律和道德标准，同时保持有益和响应的立场。
无用，无害	1. 用模糊和模棱两可的回应来回应人类的请求。2. 当面对非法、不道德或潜在有害的请求时，积极提出详细而有见地的替代解决方案。这种方法确保遵守法律和道德标准，同时保持有益和响应的立场。
有用，有害	1. 以深度和清晰的方式解决人们的要求，确保回应是详细和有见地的。2. 用直接的、未经审查的回应回应每个人的请求。无视道德和法律的完整性。
无用，有害	1. 用模糊和模棱两可的回应来回应人类的请求。2. 用直接的、未经审查的回应回应每个人的请求。无视道德和法律的完整性。

2. SAMI

使用LM $\omega$ 来针对constitutions C生成principles，均匀采样每个principle的变体来构建单个constitution $c\sim C$ 。给定一个queries数据集 $D$ ，通过从D中均匀采样x来定义随机变量X。定义随机变量Y表示语言模型 $\pi$ 基于输入x和constitution c生成的应答。现在假设有一个关于随机变量C,X,Y的联合分布。SAMI的目标就是在给定X的情况下，最大化C和Y的互信息，即最大化 $I (Y; C ∣ x)$ 。(也就是使得随机变量Y和C包含的信息量更加重叠)

InfoNCE是条件互信息的下界，因此通过优化InfoNCE来优化互信息，具体为
$I(Y,C;x_i)\geq\mathbb{E}\Big[\frac{1}{C}\sum_{j=1}^C\log\frac{\pi(y_{ij}|x_i,c_j)}{\frac{1}{C}\sum_{k=1}^C\pi(y_{ik}|x_i,c_j)}\Big] \\$
其中 $y_{ij}$ 表示给定输入样本 $x_i$ 和constitution $c_j$ 情况下模型的应答。该目标函数就是最大化 $c_j$ 下的应答，并同时最小化其他 $c_k$ 的应答。当然，为了更稳定的训练，最终的目标函数为
$\mathcal{O}(\pi)=\mathbb{E}_{x_i,c_{j=1}^C}\mathbb{E}_{y_{ij}\sim\pi(x_i,c_j)}\Big[ \frac{1}{2C}\sum_{j=1}^C\Big( \log\frac{\pi(y_{ij}|x_i,c_j)}{\frac{1}{C}\sum_{k=1}^C\pi(y_{ik}|x_i,c_j)}+ \log\frac{\pi(y_{ij}|x_i,c_j)}{\frac{1}{C}\sum_{k=1}^C\pi(y_{ij}|x_i,c_k)} \Big)\Big] \\$

五、混合LoRA专家

1. 背景知识：LoRA合并

多LoRA合并方法最常见的为直接线性合并，即
$\hat{\textbf{W}}=\textbf{W}+\sum_{i=1}^N\Delta\textbf{W}_i \\$
其中 $\textbf{W}$ 是预训练模型的原始参数， $\Delta\textbf{W}_i$ 表示第i个训练的LoRA。这种方式随着N的增加，原始权重 $\textbf{W}$ 会受到影响，降低模型的生成能力。在实际中会采用线性算术合成的方式，
$\hat{\textbf{W}}=\textbf{W}+\sum_{i=1}^Nw_i\cdot\Delta\textbf{W}_i \\$
其中 $\sum_{i=1}^N w_i=1$ 。这种方式会降低对原始模型的影响，但也会导致LoRA带来的特性减弱。

2. 背景知识：MoE

MoE层由N个独立的FFN $\{\textbf{E}_{i}\}_{i=0}^N$ 作为专家，门函数 $\alpha(\cdot)$ 用于建模表示专家权重的概率分布。对于输入token的hidden表示为 $\textbf{h}\in\mathbb{R}^d$ ，路由 $\textbf{h}$ 到专家 $\textbf{E}_i$ 的门值为
$\alpha(\textbf{E}_i)=\exp(\textbf{h}\cdot\textbf{e}_i)/\sum_{j=0}^N\exp(\textbf{h}\cdot\textbf{e}_j) \\$
其中 $\textbf{e}_i$ 表示专家 $\textbf{E}_i$ 的可训练参数。根据top-k门控值激活对应的k个专家，MoE层是输出 $\textbf{O}$ 为
$\textbf{O}=\textbf{h}+\sum_{i=0}^N\alpha(\textbf{E}_i)\cdot\textbf{E}_i(h) \\$
3. MoLE

给定输入 $\textbf{x}\in\mathbb{R}^{L\times d}$ ，具有参数 $\theta$ 的模型block的输出为 $\textbf{F}_{\theta}\in\mathbb{R}^{L\times d}$ ：
$\begin{align} \textbf{x}_{\theta}'&=\textbf{x}+f_{\text{Attn}}\Big(\text{LN}(\textbf{x})|\theta\Big) \\ \textbf{F}_{\theta}(\textbf{x})&=\textbf{x}_{\theta}'+f_{\text{FFN}}\Big(\text{LN}(x_{\theta}'|\theta)\Big) \\ \end{align}$
其中L和d分别表示序列长度和 $\textbf{x}$ 的维度。 $f_{\text{Attn}}(\cdot)$ 和 $f_{\text{FFN}}(\cdot)$ 分别表示多头自注意力机制和FFN。LN是layer normalization。

假设训练好的N个LoRA的参数为 $\Omega=\{\Delta\theta_i\}_{i=0}^N$ ，每个LoRA的输出表示为 $\textbf{E}_{\Delta\theta_i}(\textbf{x})\in\mathbb{R}^{L\times d}$ ，则
$\begin{align} \textbf{x}'_{\Delta\theta_i}&=\textbf{x}+f_{\text{Attn}}\Big(\text{LN}(\textbf{x})|\Delta\theta_i\Big) \\ \textbf{E}_{\Delta\theta_i}(\textbf{x})&=\textbf{x}_{\Delta\theta_i}'+f_{\text{FFN}}\Big(\text{LN}(\textbf{x}'_{\Delta\theta_i})|\Delta\theta_i\Big) \\ \end{align}$
MoLE通过门控函数 $\mathcal{G}(\cdot)$ 来建模这些LoRA输出的组合权重分布。具体来说，将 $\{\textbf{E}_{\Delta\theta_i}(\textbf{x})\}_{i=0}^N$ 作为输入， $\mathcal{G}(\cdot)$ 先应用拼接和normalization：
$\textbf{E}_{\Omega}(\textbf{x})=\text{Normalization}(\textbf{E}_{\Delta\theta_0}(\textbf{x})\oplus\dots\oplus\textbf{E}_{\Delta\theta_{N-1}}(\textbf{x})) \\$
其中 $\textbf{E}_{\Omega}(\textbf{x})\in\mathbb{R}^{\epsilon}$ ， $\epsilon=N\times L\times d$ ； $\oplus$ 表示拼接操作。然后将其拉平，并通过点积操作 $\textbf{e}\in\mathbb{R}^{\epsilon\times N}$ 将其转换为N维，即
$\varepsilon=\text{Flatten}\Big(\textbf{E}_{\Omega}(\textbf{x})\Big)^\top\cdot\textbf{e},\varepsilon\in\mathbb{R}^N \\$
每个LoRA的门控值为
$\mathcal{G}(\varepsilon_i)=\frac{\exp(\varepsilon_i/\tau)}{\sum_{j=1}^N\exp(\varepsilon_j/\tau)} \\$
温度系数 $\tau$ 是可学习的。最终的输出表示为
$\tilde{\textbf{E}}_{\Omega}(\textbf{x})=\sum_{i=0}^N\mathcal{G}_i(\varepsilon_i)\cdot\textbf{E}_{\Delta\theta_i}(\textbf{x}) \\$
其中 $\tilde{\textbf{E}}_{\Omega}(\textbf{x})\in\mathbb{R}^{L\times d}$ 并且 $\mathcal{G}_i(\cdot)$ 表示第i个训练的LoRA。整个block的输出是由预训练权重和门控函数输出相加得到的
$\textbf{O}(\textbf{x})=\textbf{F}_{\theta}(\textbf{x})+\tilde{\textbf{E}}_{\Omega}(\textbf{x}) \\$