1. 前言

说起RNN和LSTM，就绕不过Sepp Hochreiter 1997年的开山大作 Long Short-term Memory。奈何这篇文章写的实在是太劝退，整篇论文就2张图，网上很多介绍LSTM的文章都对这个模型反向传播的部分避重就轻，更少见（反正我没找到）有人解析APPENDIX A.1和A.2所写的详细推导过程。笔者向来做事讲究个从心，这次不知道哪根弦打错竟然头铁硬刚这个推导过程。本文逐条参照原论文中的公式，记录整个推导过程的思路和笔者的理解，学习神经网络的同学如果不满足于仅知道LSTM里各个门的功能，本文可以帮助大家理解了这个推导过程，进而能顺利理解为什么那几个门的设置可以解决RNN里的梯度消失和梯度爆炸的问题。好了，Dig in！

2. LSTM模型

2.1 原文中的示意图

先给大家看最原汁原味的模型（LSTM论文中的图）：

记忆细胞模型图示：
网络拓扑图示：

2.2 便于理解的示意图

上边这两个图，第一张图还好，第二张图笔者一开始是看得一头雾水，第一张图有些关键信息也没有表现出来，不看也罢，所以笔者特地画了一张全景体现论文中所涉及到的所有节点的网络示意图。

总图

上图展示了一个包含一个记忆单元（在一些文章中称为记忆细胞） $c_j$ 的LSTM网络。图中蓝色小方格在这里插入图片描述代表输入单元、输出单元或者用于存储中间状态的存储单元。包括输出单元 $y^k$ ，输入单元 $x$ ，输入门 $y^{in_j}$ ，输出门 $y^{out_j}$ ，记忆单元激活状态 $y^{c_j}$ ，及隐藏单元的激活状态 $y^i$ 。输入门、输出门、记忆单元、隐藏单元激活等模块的输入 $y^u$ 包括输入单元、输入门激活、输出门激活、记忆单元激活等信息，输出单元的输入 $y^{u:u\ not\ a\ gate}$ ，包括记忆单元激活和隐藏单元激活两项，不包括输入输出门的激活和输入单元。接下来我们逐个分析LSTM文章中，APPENDIX A.1中的公式。

3. 前向过程

APPENDIX A.1的公式从（3）开始，所以我们也从（3）开始，以便于跟原文对应：

3.1 激活函数

总图中涉及到3中激活函数，分别为 $f, g, h$ ，其中 $f$ 是输入输出门，以及隐藏节点的激活函数，是一个sigmoid函数：
$\frac{1}{1 + exp(-x)} \tag{3}$
$h$ 函数用于激活记忆单元的输出信息，是tanh函数：
$\frac{2}{1 + exp(-x)} -1\tag{4}$
$g$ 函数用于激活记忆单元的输入信息：
$\frac{4}{1 + exp(-x)} -2\tag{5}$

3.2 隐藏节点激活状态的计算

隐藏单元 $i$ 的激活函数计算公式：
$\begin{aligned} net_i(t) &= \sum_u w_{iu}y_u(t-1) \\ y^i(t) &= f_i(net_i(t)). \end{aligned} \tag{6}$
这个公式对应了总图中的这个部分：
在这里插入图片描述
其中 $y_u$ 包含了输入单元 $x$ ，输入门激活状态 $y^{in_j}$ ，输出门激活状态 $y^{out_j}$ ，记忆单元激活状态 $y^{c_j}$ ，以及隐藏单元本身的输出 $y^i$ 。隐藏单元激活状态的输出会更新 $y^i$ ，成为下一个时间步的输入的一部分。

3.3 输入门激活状态的计算

$\begin{aligned} net_{in_j}(t) &= \sum_u w_{{in_j}u}y_u(t-1) \\ y^{in_j}(t) &= f_{in_j}(net_{in_j}(t)). \end{aligned} \tag{7}$
对应于总图这一部分：
在这里插入图片描述
其中输入 $y^u$ 所包含的内容与隐藏节点激活状态计算过程中的 $y^u$ 一致，输出用于更新 $y^{in_j}$ 。作为记忆单元的输入，另外，也作为整个网络下一个时间步输入的一部分。

3.4 输出门激活状态的计算

$\begin{aligned} net_{out_j}(t) &= \sum_u w_{{out_j}u}y_u(t-1) \\ y^{out_j}(t) &= f_{out_j}(net_{out_j}(t)). \end{aligned} \tag{8}$
对应于总图这一部分：
在这里插入图片描述
其中输入 $y^u$ 所包含的内容与隐藏节点激活状态计算过程中的 $y^u$ 一致，输出用于更新 $y^{out_j}$ 。作为记忆单元的输入，另外，也作为整个网络下一个时间步输入的一部分。

3.5 记忆单元的激活状态的计算

$\begin{aligned} net_{c_j}(t) &= \sum_u w_{{c_j}u}y_u(t-1) \\ s_{c_j}(t) &= s_{c_j}(t-1) + y^{in_j} (t) g(net_{c_j}(t)) \\ y^{c_j}(t) &=y^{out_j}(t) h(s_{c_j}(t)). \end{aligned} \tag{9}$
对应于总图的这一部分计算：
在这里插入图片描述
其中输入 $y^u$ 所包含的内容与隐藏节点激活状态计算过程中的 $y^u$ 一致，输出用于更新 $y^{c_j}$ 。作为整个网络下一个时间步输入的一部分。

3.6 输出单元激活状态的计算

$\begin{aligned} net_{k}(t) &= \sum_{u:\ u\ not\ a\ gate} w_{{k}u}y_u(t-1) \\ y^{k}(t) &= f_{k}(net_{k}(t)). \end{aligned} \tag{8}$
对应于总图这一部分：
在这里插入图片描述

其中输入 $y^u$ 所包含的内容仅为 $y^{c_j},y^i$ ，输出作为网络输出。

4. 截断反向传播近似求导（Approximate derivatives for truncated backprop）

在本文中通过这个技术来简化反向传播过程。直觉上来说，就是将流入门或者记忆单元的误差信息截断在门或者记忆单元之内，确保门或者记忆单元的误差信息不会继续往外流动。由此确保了恒定误差转盘（CEC, Constant Error Carrousel）的实现。LSTM一文中，通过 $\approx_{tr}$ 来表示被截断之后的近似导数。

4.1 截断求导的应用范围

应用截断后向传播之后，以下的求导公式的值会被设置为0：
$\begin{aligned} \frac{\partial net _{in_j}(t)}{\partial y^u(t-1)} \approx_{tr} 0\ \forall{u},\\\\ \frac{\partial net _{out_j}(t)}{\partial y^u(t-1)} \approx_{tr} 0\ \forall{u},\\\\ \frac{\partial net _{c_j}(t)}{\partial y^u(t-1)} \approx_{tr} 0\ \forall{u}.\\ \end{aligned}$
我们举输入门为例子，解释上边这三个式子的含义：
在这里插入图片描述
当错误信号通过 $y^{in_j}$ 传进输入门时，假设流到 $net_{in_j}$ 这里的错误信号为 $v$ ，此时输出到 $y^u$ 的错误信号会被截断为0。同样的情况也适用于其他门和记忆单元。
因此可以推导出：
$\begin{aligned} \frac{\partial y^{in_j}(t)}{\partial y^u(t-1)} = f'_{in_j}(net_{in_j}(t))\frac{\partial net_{in_j}(t)}{\partial y^u(t-1)} \approx_{tr}0\ \forall u,\\\\ \frac{\partial y^{out_j}(t)}{\partial y^u(t-1)} = f'_{out_j}(net_{out_j}(t))\frac{\partial net_{out_j}(t)}{\partial y^u(t-1)} \approx_{tr}0\ \forall u. \end{aligned}$
以及：
$\frac{\partial y^{c_j}(t)}{\partial y^u(t-1)} = \frac{\partial y^{c_j}(t)}{\partial net_{out_j}(t)}\frac{\partial net_{out_j}(t)}{\partial y^u(t-1)} + \frac{\partial y^{c_j}(t)}{\partial net_{in_j}(t)}\frac{\partial net_{in_j}(t)}{\partial y^u(t-1)} + \frac{\partial y^{c_j}(t)}{\partial net_{c_j}(t)}\frac{\partial net_{c_j}(t)}{\partial y^u(t-1)}\approx_{tr}0\ \forall u.$
我们利用记忆单元举例说明上边这三个式子的直觉解释：
在这里插入图片描述
从记忆单元激活状态 $y^{c_j}$ 流入的误差信息，在记忆单元内部流转之后，经过 $net_{c_j}$ 流到 $y^u$ 处流出的误差信息被强制截断为0。同样误差信息经 $y^{in_j}$ 流入输入门，再流到 $y^u$ 时，误差信息被截断为0。经 $y^{out_j}$ 流入输出门，再流到 $y^u$ 时，误差信息被截断为0。
综合上述公式，我们可以得到，对于任何 $w_{lm}$ 非直接与记忆单元及门（ $c_{j},in_j,out_j$ ）连接的，即（ $\notin\{c_j, in_j, out_j\}$ ）：
$\frac{\partial y^{c_j}(t)}{\partial w_{lm}}= \sum_u \frac{\partial y^{c_j}(t)}{\partial y^u(t-1)} \frac{\partial y^u(t-1)}{\partial w_{lm}}$
上边这个式子可以理解为，所有只能通过 $y^u$ 与记忆单元、输入输出门连接的网络，都不会收到从记忆单元激活状态输出处传来的错误信号。一般来说是谁与记忆单元和门通过 $y^u$ 间接连接的呢？有几种，第一种就是上一个时间步的记忆单元、输入输出门的激活状态，记为 $y^{in_j}(t-1),y^{out_j}(t-1),y^{c_j}(t-1)$ ；另一种就是隐藏单元激活状态。下边这张图可以帮助大家理解上边这个公式的含义：
在这里插入图片描述

红色箭头和数字，表示 $t$ 时间步下，从 $y^{c_j}$ 传入的误差信息的传播路径，绿色箭头和数字，表示 $t - 1$ 时间步下的误差信息的传播路径。用一句话概括就是，误差信号被门和记忆单元隔开，不会随着时间步循环后向传播。

4.2 输出单元的截断求导

关于输出节点在t时刻的截断求导公式是：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} = & f'_k(net_k(t-1))( \sum_{u:\ u\ not\ a\ gate} w_{ku} \frac{\partial y^u(t-1)}{\partial w_{lm}} + \delta_{kl}y^m(t-1))\\ \approx_{tr} & f'_k(net_k(t)) \begin{cases} y^m(t-1) & l=k \\ w_{kc_{j}}\frac{\partial y^{c_j}(t-1)}{\partial w_{lm}} & l=c_j\\ w_{kc_{j}}\frac{\partial y^{c_j}(t-1)}{\partial w_{lm}} & l=in_j\ or\ l=out_j\\ \sum_{i:\ i\ hidden\ unit} w_{ki} \frac{\partial y^i(t-1)}{\partial w_{lm}} & otherwise \end{cases} \end{aligned} \tag{10}$
上述公式中， $\delta$ 表示克罗内克函数（kronecker delta），即 $\Leftrightarrow (\delta_{ij} = 1)\ AND\ (i\ne j) \Leftrightarrow (\delta_{ij} = 0)$ 。我们来解读上边这个式子：
当 $l = k$ 时，我们有：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} &= \frac{\partial y^k(t)}{w_{km}}\\ &= f'_k(net_k(t)) \frac{\partial \sum_{u:\ u\ not\ a\ gate} w_{ku}y^u(t-1)}{\partial w_{km}}\\ & = f'_k(net_k(t)) y^m(t-1) \end{aligned}$
下图显示了 $l = k$ 时 $\frac{\partial y^k(t)}{w_{lm}}$ 的误差传播路线（红色箭头）：
在这里插入图片描述

当 $l=c_j$ 时，也就是求 $y^k(t)$ 关于记忆单元输入（注意不是输入门）的网络的权重 $w_{c_j}$ 的偏导。原文是把 $c_j$ 写成 $c_j^v$ ，因为一个完整的LSTM网络可以包含 $p$ ( $\in [1,...,p]$ )个记忆块(memory block)，每个记忆块可以有 $q$ （ $\in [1,...,q]$ ）个记忆单元。因此 $c_j^v$ 表示第 $v$ 个记忆块中的第 $j$ 个记忆单元。为了方便理解，笔者把LSTM网络简化成一个单记忆块，单记忆单元的网络。标记则省略记忆块的标记，只保留记忆单元的标记，因此就简化成了 $c_j$ ，表示第 $j$ 个记忆单元。我们现在来理解一下输出单元激活值 $y^k$ 关于记忆单元的输入权重 $w_{c_j}$ 的偏导：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} &= \frac{\partial y^k(t)}{w_{{c_j}m}}\\ &= f'_k(net_k(t)) \frac{\partial \sum_{u:\ u\ not\ a\ gate} w_{{k}u}y^u(t-1)}{\partial w_{{c_j}m}}\\ &= f'_k(net_k(t)) \frac{\partial \sum_{u:\ u\ not\ a\ gate} w_{{k}u}y^u(t-1)}{\partial y^{c_j}(t-1)} \frac{\partial y^{c_j}(t-1)}{\partial w_{{c_j}m}}\\ & = f'_k(net_k(t)) w_{k{c_j}} \frac{\partial y^{c_j}(t-1)}{\partial w_{{c_j}m}} \end{aligned}$
误差传播路线：
在这里插入图片描述

当 $l=in_j$ 时，可以得到：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} &= \frac{\partial y^k(t)}{w_{{in_j}m}}\\ &= f'_k(net_k(t)) \frac{\partial \sum_{u:\ u\ not\ a\ gate} w_{{k}u}y^u(t-1)}{\partial w_{{in_j}m}}\\ &= f'_k(net_k(t)) \frac{\partial \sum_{u:\ u\ not\ a\ gate} w_{{k}u}y^u(t-1)}{\partial y^{c_j}(t-1)} \frac{\partial y^{c_j}(t-1)}{\partial w_{{in_j}m}}\\ & = f'_k(net_k(t)) w_{k{c_j}} \frac{\partial y^{c_j}(t-1)}{\partial w_{{in_j}m}} \end{aligned}$
误差传播路线：
在这里插入图片描述
由于我们的例子中简化了记忆单元的结构，LSTM原文中，实际上是有多个记忆单元，并且多个记忆单元可以组成一个记忆单元块。每个记忆单元块可以直接连接其前面所有的记忆单元的输出，因此原文中，当 $l=in_j$ 时，计算公式为：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} &= \sum_{v=1}^{s_j} f'_k(net_k(t)) w_{k{c_j}} \frac{\partial y^{c_j^v}(t-1)}{\partial w_{{in_j}m}} \end{aligned}$
其中 $c^v_j$ 表示第 $v$ 个记忆单元块中的第 $j$ 个记忆单元。

当 $l=out_j$ 时，通过与上面一样的及算法方法可以得到：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} & = f'_k(net_k(t)) w_{k{c_j}} \frac{\partial y^{c_j}(t-1)}{\partial w_{{out_j}m}} \end{aligned}$
误差传播路线：
在这里插入图片描述
当 $l = i$ ，我们可以得到：
$\begin{aligned} \frac{\partial y^k(t)}{w_{lm}} &= \frac{\partial y^k(t)}{w_{{i}m}}\\ &= f'_k(net_k(t)) \frac{\partial \sum_{i:\ i\ hidden\ units} w_{{k}u}y^u(t-1)}{\partial w_{{i}m}}\\ &= f'_k(net_k(t)) \frac{\partial \sum_{i:\ i\ hidden\ units} w_{{k}u}y^u(t-1)}{\partial y^{i}(t-1)} \frac{\partial y^{i}(t-1)}{\partial w_{{i}m}}\\ & = f'_k(net_k(t)) w_{k{i}} \frac{\partial y^{i}(t-1)}{\partial w_{{i}m}} \end{aligned}$
误差传播路线为：
在这里插入图片描述

4.3 隐藏单元的截断求导

隐藏单元的求导公式如下：
$\frac{\partial y^i}{\partial w_{lm}} = f'_i(net_i(t))\frac{net_i(t)}{\partial w_{lm}}\approx_{tr}\delta_{li}f'_i(net_i(t))y^m(t-1). \tag{11}$
这个求导公式比较一目了然，感觉没什么好说的，我们放一个误差传播路径的示意图上来：
在这里插入图片描述

4.4 输入输出门及记忆单元的激活状态的截断求导

先看输入门的截断求导公式：
$\begin{aligned} \frac{\partial y^{in_j}(t)}{\partial w_{lm}} =& f'_{in_j}(net_{in_j}(t))\frac{\partial net_{in_j}(t)}{\partial w_{lm}} \\ \approx_{tr} & \delta_{in_jl}f'_{in_j}(net_{in_j}(t))y^m(t-1) \end{aligned} \tag{12}$
这个公式的意思就是，当且仅当 $l=in_j$ 时，该公式有非零的值。同样的道理也适用于输出门的求导：
$\begin{aligned} \frac{\partial y^{out_j}(t)}{\partial w_{lm}} =& f'_{out_j}(net_{out_j}(t))\frac{\partial net_{out_j}(t)}{\partial w_{lm}} \\ \approx_{tr} & \delta_{out_jl}f'_{out_j}(net_{out_j}(t))y^m(t-1) \end{aligned} \tag{13}$

接下来是 $s_{c_j}$ 的求导公式：
$\begin{aligned} \frac{\partial s_{c_j}(t)}{\partial w_{lm}}=&\frac{\partial s_{c_j}(t-1)}{\partial w_{lm}} + \frac{\partial g(net_{c_j}(t))f_{in_j}(net_{in_j}(t))}{\partial w_{lm}}\\ =& \frac{\partial s_{c_j}(t-1)}{\partial w_{lm}} + \frac{\partial g(net_{c_j}(t))}{\partial w_{lm}}f_{in_j}(net_{in_j}(t)) + \frac{\partial f_{in_j}(net_{in_j}(t))}{\partial w_{lm}}g(net_{c_j}(t))\\ =& \frac{\partial s_{c_j}(t-1)}{\partial w_{lm}} + \frac{\partial g(net_{c_j}(t))}{\partial w_{lm}}y^{in_j}(t) + \frac{\partial y^{in_j}(t)}{\partial w_{lm}}g(net_{c_j}(t))\\ =& \frac{\partial s_{c_j}(t-1)}{\partial w_{lm}} + \frac{\partial net_{c_j}(t)}{\partial w_{lm}}g'(net_{c_j}(t))y^{in_j}(t) + \frac{\partial y^{in_j}(t)}{\partial w_{lm}}g(net_{c_j}(t))\\ \approx_{tr}& (\delta_{{c_j}l} + \delta_{{in_j}l})\frac{\partial s_{c_j}(t-1)}{\partial w_{lm}} + \delta_{{in_j}l} \frac{\partial y^{in_j}(t)}{\partial w_{lm}}g(net_{c_j}(t)) + \delta_{{c_j}l}y^{in_j}(t)g'(net_{c_j}(t))\frac{\partial net_{c_j}(t)}{\partial w_{lm}}\\ =& (\delta_{{c_j}l} + \delta_{{in_j}l})\frac{\partial s_{c_j}(t-1)}{\partial w_{lm}} + \delta_{{in_j}l}g(net_{c_j}(t)) f'_{in_j}(net_{in_j}(t))y^m(t-1) + \delta_{{c_j}l}y^{in_j}(t)g'(net_{c_j}(t))y^{m}(t-1) \end{aligned} \tag{14}$

最后就是记忆单元的激活状态求导：
$\begin{aligned} \frac{\partial y^{c_j}(t)}{\partial w_{lm}} =& \frac{\partial y^{out_j}(t)}{\partial w_{lm}} h(s_{c_j}(t)) + \frac{\partial h(s_{c_j}(t))}{\partial w_{lm}} y^{out_j}(t)\\ =& \frac{\partial y^{out_j}(t)}{\partial w_{lm}} h(s_{c_j}(t)) + h'(s_{c_j}(t))\frac{\partial s_{c_j}(y)}{\partial w_{lm}}y^{out_j}(t)\\ =& f'_{out_j}(net_{out_j}(t))y^m(t-1) h(s_{c_j}(t)) + h'(s_{c_j}(t))\frac{\partial s_{c_j}(y)}{\partial w_{lm}}y^{out_j}(t)\\ \approx_{tr}& \delta_{out_jl}f'_{out_j}(net_{out_j}(t))y^m(t-1) h(s_{c_j}(t)) + (\delta_{{c_j}l} + \delta_{{in_j}l})h'(s_{c_j}(t))\frac{\partial s_{c_j}(y)}{\partial w_{lm}}y^{out_j}(t)\\ \end{aligned} \tag{15}$

根据公式（14），（15）可知，若要计算记忆单元 $j$ 在 $t$ 时间步下的激活状态 $y^{c_j}(t)$ 关于 $w_{lm}$ 的本地误差因子，需要计算如下的参数： $\frac{\partial s_{c_j}(t-1)}{\partial w_{lm}}$ ， $g(net_{c_j}(t))$ ， $f'_{in_j}(net_{in_j}(t))$ ， $y^m(t-1)$ ， $y^{in_j}(t)$ ， $g'(net_{c_j}(t))$ ， $f'_{out_j}(net_{out_j}(t))$ ， $h(s_{c_j}(t))$ ， $h'(s_{c_j}(t))$ ， $y^{out_j}(t)$ 。

参数	条件	获取方法
$\frac{\partial s_{c_j}(t-1)}{\partial w_{lm}}$	$l=in_{j}\ or\ l=c_j$	正向传播过程中计算并保存
$g(net_{c_j}(t))$	$l=in_{j}$	实时计算
$f'_{in_j}(net_{in_j}(t))$	$l=in_{j}$	实时计算
$y^m(t-1)$	$l=in_{j}\ or\ l=c_j\ or\ l=out_j$	正向传播过程中计算并保存
$y^{in_j}(t)$	$l=c_j$	实时计算
$g'(net_{c_j}(t))$	$l=c_j$	实时计算
$f'_{out_j}(net_{out_j}(t))$	$l=out_j$	实时计算
$h(s_{c_j}(t))$	$l=out_j$	实时计算
$h'(s_{c_j}(t))$	$l=in_{j}\ or\ l=c_j$	实时计算
$y^{out_j}(t)$	$l=in_{j}\ or\ l=c_j$	实时计算

需要在正向传播过程中保存偏导数的情况为：当 $l=in_{j}\ or\ l=c_j$ 时，保存 $\frac{\partial s_{c_j}(t-1)}{\partial w_{lm}}$ 。 $y^{m}(t)$ 值也需要在前向传播过程中计算并保存，后向过程中的其他参数都可以在传播过程中实时生成。