李沐动手学习深度学习—

李沐动手学习深度学习——3.4练习

理解极大似然估计
很巧妙的解释了为什么使用均方误差，因为均方误差是一种似然估计的变种，而对于逻辑回归softmax而言，更好的解释了其中存在exp

在这里插入图片描述

1. 我们可以更深入地探讨指数族与softmax之间的联系。

1. 计算softmax交叉熵损失l(y, ˆy)的二阶导数。

由书中可知对应的sofemax交叉熵一阶导数公式如下：
$\partial_{o_{j}} l(y,\hat{y})= \frac{exp(o_{j})} {\sum_{q}^{k=1}exp(o_{k})} - y_{j}= softmax(o)_{j}-y_{j}$
对其一阶导数求导，需要考虑对于oj和非oj的情况，所以该偏导需要求解两次，分别如下：
$\begin{split} \frac{\partial_{o_{j}} l(y,\hat{y})}{\partial_{o_{j}}}&= \frac{softmax(o)_{j}-y_{j}}{\partial_{o_{j}}} \\&= \frac{softmax(o)_{j}}{\partial_{o_{j}}} \\&= \frac{\frac{\exp(o_{j})}{\sum_{q}^{k=1}\exp(o_{k})}}{\partial_{o_{j}}} \\&= \frac{\exp(o_{j}) \sum_{q}^{k=1}\exp(o_{k}) - (\exp(o_{j}))^{2} } { (\sum_{q}^{k=1}\exp(o_{k}))^{2} } \\&= \frac{\exp(o_{j})}{\sum_{q}^{k=1}\exp(o_{k})}(1-\frac{\exp(o_{j})}{\sum_{q}^{k=1}\exp(o_{k})} ) \\&= softmax(o)_{j}(1-softmax(o)_{j}) \end{split}$
另一种偏导格式，假设非oj的元素导数设置为oi，如下：
$\begin{split} \frac{\partial_{o_{j}} l(y,\hat{y})}{\partial_{o_{i}}} &= \frac{softmax(o)_{j}-y_{j}}{\partial_{o_{i}}} \\&= -\frac{\exp(o_{i})\times \exp(o_{j})}{(\sum_{q}^{k=1}\exp(o_{k}))^{2}} \\ &= -softmax(o)_{j} \times softmax(o)_{i} \end{split}$

2. 计算softmax(o)给出的分布方差，并与上面计算的二阶导数匹配。(不懂了在论坛里面找到一份答案进行查看)

在这里插入图片描述
重点是第三步骤的拆分我目前推导不出来

2. 假设我们有三个类发生的概率相等，即概率向量是(1/3， 1/3， 1/3）。

1. 如果我们尝试为它设计二进制代码，有什么问题？

采用2位而进行进行标识三种情况，导致其中一位浪费了。（理解的意思）

2. 请设计一个更好的代码。提示：如果我们尝试编码两个独立的观察结果会发生什么？如果我们联合编码n个观测值怎么办？

在这里插入图片描述

尝试编码两个独立的观测结果类似于树结构，哈夫曼编码树结构。
可以将所有观测情况罗列出来，并且根据概率采用霍夫曼编码。或者将每种情况单独使用数字进行标识。

3.1 证明

$设a\ge b(对称性) \\ 证明RealSoftMax(a,b) > max(a,b)\\ 即证:log(\exp(a)+\exp(b))>a\\ \because \exp(b)>0\\ \therefore \log(\exp(a) + \exp(b))>\log(\exp(a))=a\\ 证毕$

3.2 证明

$设a\ge b(对称性) \\ 证明\lambda ^{-1}RealSoftMax(\lambda a,\lambda b) > max(a,b)\\ 即证:\lambda ^{-1}log(\exp(\lambda a)+\exp(\lambda b))>a\\ \because \exp(\lambda b)>0\\ \therefore \lambda ^{-1}l\log(\exp(\lambda a) + \exp(\lambda b))>\lambda ^{-1}\log(\exp(\lambda a))=a\\ 证毕$

3.3 证明

$\begin{split} &设a\ge b(对称性) \\ &证明\lambda ^{-1}RealSoftMax(\lambda a,\lambda b) \to max(a,b)\\ &即证:\lambda ^{-1}\log(\exp(\lambda a)+\exp(\lambda b))\to a\\ \\ & 情况1:a>b \\ &\because a>b, \lambda \to +\infty\\ &\therefore \exp(\lambda a)>>\exp(\lambda b)\\ &\therefore \lambda ^{-1}\log(\exp(\lambda a) + \exp(\lambda b))\\ &\approx \lambda ^{-1}\log(\exp(\lambda a))\\ &=a\\ \\ &情况2:a=b\\ & \lambda ^{-1}\log(\exp(\lambda a) + \exp(\lambda b))= \lambda ^{-1}\log(2\exp(\lambda a)) \\ &=\lambda ^{-1}\log2 + a \\ &\approx a \\ &证毕 \end{split}$