深度学习——第4.1章深度学习的数学基础

第4章深度学习的数学基础

本章总结一下机器学习所需的数学知识，同时介绍如何在Python中使用这些知识。

4.1 向量

4.1.1 什么是向量

向量由几个数横向或纵向排列而成。

数纵向排列的向量叫作列向量，如下式4-1所示的变量就是列向量：
$\boldsymbol{a}=\left[\begin{array}{l} 1 \\ 3 \end{array}\right], \boldsymbol{b}=\left[\begin{array}{l} 2 \\ 1 \tag{4-1} \end{array}\right]$

数横向排列的向量叫作行向量，如下式4-2所示的变量就是行向量：
$\boldsymbol{c}=\left[\begin{array}{ll} 1 & 2 \end{array}\right], \boldsymbol{d}=\left[\begin{array}{llll} 1 & 3 & 5 & 4 \tag{4-2} \end{array}\right]$

构成向量的一个一个数叫作元素。向量中的元素个数叫作向量的维度。如上例所示， $\boldsymbol a$ 为二维列向量， $\boldsymbol d$ 为四维行向量。如 $\boldsymbol a$ 和 $\boldsymbol b$ 所示，向量一般用小写粗斜体表示。

与向量不同的普通的单个数叫作标量。标量一般用小写斜体表示为如 $a 、 b$ 。

向量右上角的 $T$ 是转置符号，表示将列向量转换为行向量，或者将行向量转换为列向量，如下式4-3所示：
$\boldsymbol{a}^{\mathrm{T}}=\left[\begin{array}{l} 1 \\ 3 \end{array}\right]^{\mathrm{T}}=\left[\begin{array}{ll} 1 & 3 \end{array}\right], \boldsymbol{d}^{\mathrm{T}}=\left[\begin{array}{llll} 1 & 3 & 5 & 4 \end{array}\right]^{\mathrm{T}}=\left[\begin{array}{l} 1 \\ 3 \\ 5 \\ 4 \tag{4-3} \end{array}\right]$

机器学习类教材中，除了从数学上来说必须使用转置符号的情况外，考虑到行距，有时也会把
$a=\left[\begin{array}{l} 1 \\ 3 \end{array}\right]$
写成 $\boldsymbol{a}=\left[\begin{array}{ll} 1 & 3 \end{array}\right]^{\mathrm{T}}$ 。

4.1.2 用Python定义向量

接下来，我们用Python定义向量。
要想使用向量，必须先使用import导入NumPy库。

# 代码清单 4-1-(1)
import numpy as np

然后，使用np.array定义向量a。

# 代码清单 4-1-(2)
a = np.array([2, 1])
print(a)

运行type，可以看到a的类型为numpy.ndarray。

# 代码清单 4-1-(3)
type(a)

运行结果：

numpy.ndarray

4.1.3 列向量的表示方法

事实上，一维的ndarray类型没有纵横之分，往往都表示为行向量。

不过用特殊形式的二维ndarray表示列向量也是可以的。

ndarray类型可以表示2×2的二维数组(矩阵)，如代码所示。

# 代码清单 4-1-(4)
c = np.array([[1, 2], [3, 4]])
print(c)

输出结果：

[[1 2]
 [3 4]]

用这个方式定义2×1的二维数组，就可以用它表示列向量。

# 代码清单 4-1-(5)
d = np.array([[1], [2]])
print(d)

输出结果：

[[1]
 [2]]

向量通常定义为一维ndarray类型，必要时可以用二维ndarray类型。

4.1.4 转置的表示方法

使用“变量名.T”表示。

# 代码清单 4-1-(6)
print(d.T)
print(d)
print(d.T.T)

输出结果：

[[1 2]]
[[1]
 [2]]
[[1]
 [2]]

使用d.T.T循环两次转置操作之后，就会变回原来的d。

注意：转置操作对于二维ndarray类型有效，对于一维ndarray类型是无效的。

print(a)
print(a.T)

输出结果：

[2 1]
[2 1]

4.1.5 加法和减法

接下来，我们思考下面两个向量 $\boldsymbol{a}$ 和 $\boldsymbol{b}$ ：
$\boldsymbol{a}=\left[\begin{array}{l} 2 \\ 1 \end{array}\right], \boldsymbol{b}=\left[\begin{array}{l} 1 \\ 3 \tag{4-4} \end{array}\right]$

首先进行加法运算。向量的加法运算 $\boldsymbol{a}+\boldsymbol{b}$ 是将各个元素相加：
$\boldsymbol{a}+\boldsymbol{b}=\left[\begin{array}{l} 2 \\ 1 \end{array}\right]+\left[\begin{array}{l} 1 \\ 3 \end{array}\right]=\left[\begin{array}{c} 2+1 \\ 1+3 \end{array}\right]=\left[\begin{array}{l} 3 \\ 4 \tag{4-5} \end{array}\right]$

向量的加法运算可以通过图形解释。首先，将向量的元素看作坐标点，将向量看作从坐标原点开始延伸到元素坐标点的箭头。这样的话，单纯地将各个元素相加的向量加法运算就可以看作，对以 $\boldsymbol{a}$ 和 $\boldsymbol{b}$ 为邻边的平行四边形求对角线(图4-1)。
在这里插入图片描述

图4-1 向量的加法运算

运行 $\boldsymbol{a}+\boldsymbol{b}$ 的加法运算之后，程序会返回预期的答案，可知 $\boldsymbol{a}$ 和 $\boldsymbol{b}$ 不是list类型，而是被当作向量处理的（对于list类型，加法运算的作用是连接）。

# 代码清单 4-1-(7)
a = np.array([2, 1])
b = np.array([1, 3])
la=list(a)
lb=list(b)
print(a + b)
print(la+lb)

输出结果：

[3 4]
[2, 1, 1, 3]

向量的减法运算与加法运算相同，是对各个元素进行减法运算：
$a-b=\left[\begin{array}{l} 2 \\ 1 \end{array}\right]-\left[\begin{array}{l} 1 \\ 3 \end{array}\right]=\left[\begin{array}{c} 2-1 \\ 1-3 \end{array}\right]=\left[\begin{array}{c} 1 \\ -2 \tag{4-6} \end{array}\right]$

Python计算代码如下：

# 代码清单 4-1-(8)
a = np.array([2, 1])
b = np.array([1, 3])
print(a - b)

输出结果：

[ 1 -2]

那么，减法运算该怎么借助图形解释呢？

$\boldsymbol{a}-\boldsymbol{b}$ 就是 $\boldsymbol{a}+\boldsymbol{(-b)}$ ，可以看作 $\boldsymbol{a}$ 和 $\boldsymbol{-b}$ 的加法运算。从图形上来说， $\boldsymbol{-b}$ 的箭头方向与 $\boldsymbol{b}$ 相反。所以， $\boldsymbol{a}+\boldsymbol{(-b)}$ 是以 $\boldsymbol{a}$ 和 $\boldsymbol{-b}$ 为邻边的平行四边形的对角线(图4-2)。
在这里插入图片描述

图4-2 向量的减法运算

4.1.6 标量积

在标量与向量的乘法运算中，标量的值会与向量的各个元素分别相乘，比如 $2\boldsymbol{a}$ ：
$\boldsymbol{a}=2 \times\left[\begin{array}{l} 2 \\ 1 \end{array}\right]=\left[\begin{array}{l} 2 \times 2 \\ 2 \times 1 \end{array}\right]=\left[\begin{array}{l} 4 \\ 2 \tag{4-7} \end{array}\right]$

在Python中，式4-7的计算如代码如下：

# 代码清单 4-1-(9)
print(2 * a)

输出结果：

[4 2]

从图形上来说，向量的长度变成了标量倍(图4-3)。
在这里插入图片描述

图4-3 向量的标量积

4.1.7 内积

向量与向量之间的乘法运算叫作内积。内积是由相同维度的两个向量进行的运算，通常用“ $\cdot$ ”表示，这在机器学习涉及的数学中很常见。内积运算是把对应的元素相乘，然后求和，比如 $\boldsymbol{b}=\left[\begin{array}{ll} 1 & 3 \end{array}\right]^{\mathrm{T}}、\boldsymbol{c}=\left[\begin{array}{ll} 4 & 2 \end{array}\right]^{\mathrm{T}}$ 的内积：
$\boldsymbol{b} \cdot \boldsymbol{c}=\left[\begin{array}{l} 1 \\ 3 \end{array}\right] \cdot\left[\begin{array}{l} 4 \\ 2 \tag{4-8} \end{array}\right]=1 \times 4+3 \times 2=10$

在Python中，我们使用“变量名1.dot(变量名2)”计算内积(代码清单4-1-(10))。

# 代码清单 4-1-(10)
b = np.array([1, 3])
c = np.array([4, 2])
print(b.dot(c))
print(b*c)

输出结果：

10
[4 6]

但是，内积表示的究竟是什么呢？如图4-4所示，设 $\boldsymbol{b}$ 在 $\boldsymbol{c}$ 上的投影向量为 $\boldsymbol{b'}$ ，那么 $\boldsymbol{b'}$ 和 $\boldsymbol{c}$ 的长度相乘即可得到内积的值。

当两个向量的方向大致相同时，内积的值较大。相反，当两个向量近乎垂直时，内积的值较小；当完全垂直时，内积的值为0。可以说，内积与两个向量的相似度相关。
在这里插入图片描述

图4-4 向量的内积

但是，请注意内积与向量自身的大小也相关。即使两个向量方向相同，只要其中一个向量变成原来的2倍，那么内积也会变成原来的2倍。

x = np.array([1,1])
y = np.array([-1,1])
print(x.dot(y))

z = np.array([0,1])
print(x.dot(z))

nz = np.array([-2,1])
print(x.dot(nz))

输出结果：

0
1
-1

4.1.8 向量的模

向量的模是指向量的长度，将向量夹在两个“ $\|$ ”之间，即可表示向量的模。二维向量的模可计算为：
$\|\boldsymbol{a}\|=\left\|\left[\begin{array}{c} a_{0} \\ a_{1} \tag{4-9} \end{array}\right]\right\|=\sqrt{a_{0}^{2}+a_{1}^{2}}$

三维向量的模可计算为：
$\|\boldsymbol{a}\|=\left\|\left[\begin{array}{c} a_{0} \\ a_{1} \\ a_{2} \tag{4-10} \end{array}\right]\right\|=\sqrt{a_{0}^{2}+a_{1}^{2}+a_{2}^{2}}$

在一般情况下，D维向量的模计算为：
$\|\boldsymbol{a}\|=\left\|\left[\begin{array}{c} a_{0} \\ a_{1} \\ \cdots \\ a_{D-1} \tag{4-11} \end{array}\right]\right\|=\sqrt{a_{0}^{2}+a_{1}^{2}+\cdots+a_{D-1}^{2}}$

在Python中，我们使用np.linalg.norm()求向量的模。

# 代码清单 4-1-(11)
a = np.array([3, 4])
print(np.linalg.norm(a))

输出结果：

5.0

4.2 求和符号

求和符号 $\Sigma$ (西格玛)会经常出现在机器学习教材中，比如，下式4-12的意思是“将从1到5的变量n的值全部相加”。
$\sum_{n=1}^{5} n=1+2+3+4+5 \tag{4-12}$

$n$ 用于简洁地表示长度较长的加法运算。对上式加以扩展，如式4-13所示，它表示“对于 $\Sigma$ 右边的 $f (n)$ ，令变量 $n$ 的取值从 $a$ 开始递增1，直到 $a$ 变为 $b$ ，然后把所有 $f (n)$ 相加”。
$\sum_{n=a}^{b} f(n)=f(a)+f(a+1)+\cdots+f(b) \tag{4-13}$

比如，令 $f(n)=n^2$ ，则结果如式4-14所示。这跟编程中的for语句很像。
$\sum_{n=2}^{5} n^{2}=2^{2}+3^{2}+4^{2}+5^{2} \tag{4-14}$

4.2.1 带求和符号的数学式的变形

在思考机器学习的问题时，我们常常需要对带求和符号的数学式进行变形。接下来，思考一下如何变形。最简单的情况是求和符号右侧的函数 $f (n)$ 中没有 $n$ ，比如 $f (n) = 3$ 。这时，只需用相加的次数乘以 $f (n)$ 即可，所以可以去掉求和符号：
$\sum_{n=1}^{5} 3=3+3+3+3+3=3 \times 5=15 \tag{4-15}$

当 $f (n)$ 为“标量×2的函数”时，可以将标量提取到求和符号的外侧(左侧)：
$\sum_{n=1}^{3} 2 n^{2}=2 \times 1^{2}+2 \times 2^{2}+2 \times 3^{2}=2\left(1^{2}+2^{2}+3^{2}\right)=2 \sum_{n=1}^{3} n^{2} \tag{4-16}$

当求和符号作用于多项式时，可以将求和符号分配给各个项：
$\sum_{n=1}^{5}\left[2 n^{2}+3 n+4\right]=2 \sum_{n=1}^{5} n^{2}+3 \sum_{n=1}^{5} n+4 \times 5 \tag{4-17}$

之所以可以这样做，是因为无论是多项式相加，还是各项单独相加再求和，答案都是一样的。

4.1.7节的向量的内积也可以使用求和符号表示。比如 $\boldsymbol{w}=\left[w_{0},w_{1} \cdots w_{D-1}\right]^{\mathrm{T}}$ 和 $\boldsymbol{x}=\left[x_{0},x_{1} \cdots x_{D-1}\right]^{\mathrm{T}}$ 的内积可以使用“ $\cdot$ ”表示为(图4-6)：
$\boldsymbol{w} \cdot \boldsymbol{x}=w_{0} x_{0}+w_{1} x_{1}+\cdots+w_{D-1} x_{D-1}=\sum_{i=0}^{D-1} w_{i} x_{i} \tag{4-18}$

在这里插入图片描述

图4-5矩阵表示法和元素表示法

图4-5左侧称为矩阵表示法（向量表示法），右侧称为元素表示法，而式4-18则可以看作在两者之间来回切换的一个式子。

4.2.2 通过内积求和

$\Sigma$ 跟编程中的for语句很像，根据式4-18， $\Sigma$ 也与内积有关，所以也可以通过内积计算 $\Sigma$ 。例如，从1加到1000的和为：
$1+2+\cdots+1000=\left[\begin{array}{c} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right] \cdot\left[\begin{array}{c} 1 \\ 2 \\ \vdots \\ 1000 \tag{4-19} \end{array}\right]$

在Python中，式4-19的计算如代码如下所示。与for语句相比，这种方法的运算处理速度更快。

# 代码清单 4-2-(1)
import numpy as np

a = np.ones(1000)     # [1 1 1 ...     1]
b = np.arange(1,1001) # [1 2 3 ...  1000]
print(a.dot(b))

输出结果：

500500.0

4.3 累乘符号

累乘符号 $\Pi$ 与 $\Sigma$ 符号在使用方法上类似。 $\Pi$ 用于使 $f (n)$ 的所有元素相乘(图4-7)：
$\prod_{n=a}^{b} f(n)=f(a) \times f(a+1) \times \cdots \times f(b) \tag{4-20}$

下式是一个最简单的例子：
$\prod_{n=1}^{5} n=1 \times 2 \times 3 \times 4 \times 5 \tag{4-21}$

下式是累乘符号 $\Pi$ 作用于多项式的示例：
$\prod_{n=2}^{5}(2 n+1)=(2 \cdot 2+1)(2 \cdot 3+1)(2 \cdot 4+1)(2 \cdot 5+1) \tag{4-22}$

4.4 导数

大部分情况下，机器学习的问题可以归结为求函数取最小值（或最大值）时的输入的问题（最值问题）。因为函数具有在取最小值的地方斜率为0的性质，所以在求解这样的问题时，获取函数的斜率就变得尤为重要。推导函数斜率的方法就是求导。

4.4.1 多项式的导数

首先，我们以二次函数为例思考一下（图4-6左）：
$f(w)=w^2 \tag{4-23}$

在这里插入图片描述

图4-6左函数的导数表示斜率

import matplotlib.pyplot as plt  #导入matplotlib库
import numpy as np  #导入numpy库
import mpl_toolkits.axisartist as axisartist #并引入axisartist工具
%matplotlib inline

#创建画布
fig = plt.figure(figsize=(8, 8))
#使用axisartist.Subplot方法创建一个绘图区对象ax
ax = axisartist.Subplot(fig, 111)  
#将绘图区对象添加到画布中
fig.add_axes(ax)
#通过set_visible方法设置绘图区所有坐标轴隐藏
ax.axis[:].set_visible(False)
#ax.new_floating_axis代表添加新的坐标轴
ax.axis["x"] = ax.new_floating_axis(0,0)
#给x坐标轴加上箭头
ax.axis["x"].set_axisline_style("->", size = 1.0)
#添加y坐标轴，且加上箭头
ax.axis["y"] = ax.new_floating_axis(1,0)
ax.axis["y"].set_axisline_style("-|>", size = 1.0)
#设置x、y轴上刻度显示方向
ax.axis["x"].set_axis_direction("top")
ax.axis["y"].set_axis_direction("right")

#生成x步长为0.05的列表数据
x = np.linspace(-5,5,200)
y=x**2 
#设置x、y坐标轴的范围
plt.xlim(-5,5)
plt.ylim(-5, 25)
#绘制图形
plt.plot(x,y, c='violet')
plt.plot(x,-1-2*x,c='r')
plt.plot(x,2*x-1,c='g')
plt.plot(x,2*x,c='b')

输出结果：
在这里插入图片描述
函数 $f (w)$ 对 $w$ 的导数可以有如下多种表示形式：
$\frac{\mathrm{d} f(w)}{\mathrm{d} w}, \frac{\mathrm{d}}{\mathrm{d} w} f(w), f^{\prime}(w) \tag{4-24}$

导数表示函数的斜率（上图右）。由于当 $w$ 发生变化时，函数的斜率也会随之发生变化，所以函数的斜率也是一个关于 $w$ 的函数。这个二次函数就是：
$\frac{\mathrm{d}}{\mathrm{d} w}w^2=2w \tag{4-25}$

在一般的情况下，我们可以使用下式简单求出 $w^n$ 形式的函数的导数：
$\frac{\mathrm{d}}{\mathrm{d} w} w^{n}=n w^{n-1} \tag{4-26}$
在这里插入图片描述

图4-7 幂函数的导数公式

比如，四次函数的导数为：
$\frac{\mathrm{d}}{\mathrm{d} w} w^{4}=4 w^{4-1}=4 w^{3} \tag{4-27}$

如果是一次函数，则导数如下式所示。不过，由于一次函数是直线，所以无论 $w$ 取值如何，斜率都不会发生变化。
$\frac{\mathrm{d}}{\mathrm{d} w} w=1 w^{1-1}=w^{0}=1 \tag{4-28}$

4.4.2 带导数符号的数学式的变形

接下来，我们思考一下带导数符号的数学式该如何变形。跟求和符号 $\Sigma$ 一样，导数符号 $\frac{d}{dw}$ 也作用于式子的右侧。

如下面的 $2w^5$ 所示，当常数出现在 $w^n$ 的前面表示相乘时，我们可以把这个常数提取到导数符号的左侧：
$\frac{\mathrm{d}}{\mathrm{d} w} 2 w^{5}=2 \frac{\mathrm{d}}{\mathrm{d} w} w^{5}=2 \times 5 w^{4}=10 w^{4}$

与导数无关的部分(不是 $w$ 的函数的部分)，即使是字符表达式也可以把它提取到导数符号的左侧。

如果 $f (w)$ 中不包含 $w$ ，则导数为0：
$\frac{d}{dw}3=0$

那么，下式的导数是什么呢？
$f(w)=a^3+xb^2+2 \tag{4-29}$

这个式子里也不包含 $w$ ，所以导数为0：

当 $f (x)$ 包含多个带 $w$ 的项时，比如下面这个式子，它的导数是什么呢？
$f(w)=2w^3+3w^2+2$

此时，我们可以一项一项地分别进行导数计算：
$\frac{\mathrm{d}}{\mathrm{d} w} f(w)=2 \frac{\mathrm{d}}{\mathrm{d} w} w^{3}+3 \frac{\mathrm{d}}{\mathrm{d} w} w^{2}+\frac{\mathrm{d}}{\mathrm{d} w} 2=6 w^{2}+6 w \tag{4-30}$

4.4.3 复合函数的导数

在机器学习中，很多情况下需要求复合函数的导数，比如：
$f(w)=f(g(w))=g(w)^2 \tag{4-31}$
$\tag{4-32}$

只需简单地将式4-32代入式4-31中，然后展开，即可计算它的导数：
$f(w)=(aw+b)^2=a^2w^2+2awb+b^2 \tag{4-33}$
$\frac{d}{dw}f(w)=2a^2w+2ab \tag{4-34}$

4.4.4 复合函数的导数：链式法则

但是，有时式子比较复杂，很难展开。在这种情况下，可以使用链式法则。

链式法则的公式是：
$\frac{\mathrm{d} f}{\mathrm{~d} w}=\frac{\mathrm{d} f}{\mathrm{~d} g} \cdot \frac{\mathrm{d} g}{\mathrm{~d} w} \tag{4-35}$

接下来，我们借着式4-31和式4-32讲解一下链式法则。
$f(w)=f(g(w))=g(w)^2 \tag{4-31}$
$\tag{4-32}$

首先， $df / d g$ 的部分是“ $f$ 对 $g$ 求导”的意思，所以可以套用导数公式，得到：
$\frac{\mathrm{d} f}{\mathrm{~d} g}=\frac{\mathrm{d}}{\mathrm{d} g} g^{2}=2 g \tag{4-36}$

后面的 $d g / d w$ 是“ $g$ 对 $w$ 求导”的意思，所以可以得到
$\frac{\mathrm{d} g}{\mathrm{~d} w}=\frac{\mathrm{d}}{\mathrm{d} w}(a w+b)=a\tag{4-37}$

接下来，把式4-36和式4-37代入式4-35，就可以得到和式4-34的答案一样的答案了：
$\frac{\mathrm{d} f}{\mathrm{~d} w}=\frac{\mathrm{d} f}{\mathrm{~d} g} \cdot \frac{\mathrm{d} g}{\mathrm{~d} w}=2 g a=2(a w+b) a=2 a^{2} w+2 a b\tag{4-38}$

链式法则还可以扩展到三重甚至四重嵌套的复合函数中，比如函数：
$f(w)=f(g(h(w)))\tag{4-39}$

此时，需要使用如下公式：
$\frac{\mathrm{d} f}{\mathrm{~d} w}=\frac{\mathrm{d} f}{\mathrm{~d} g} \cdot \frac{\mathrm{d} g}{\mathrm{~d} h} \cdot \frac{\mathrm{d} h}{\mathrm{~d} w}\tag{4-40}$

4.4.5 基本函数的求导公式

$y = c (c 为常数)$
$y^{'} = 0$
$y=x^n$
$y'=nx^{(n-1)}$
$y=a^x$
$y'=a^x\ln a$
$特例：y=e^x时，y'=e^x$
$y=\log_ax$
$y'=\frac {1}{x \ln a}$
$特例： a = e 时， y^{'} = 1/ x$

4.5 偏导数

4.5.1 偏导数的概念

机器学习中不仅会用到导数，还会用到偏导数。

思考一下多变量函数，比如关于 $w_0$ 和 $w_1$ 的函数：
$f\left(w_{0}, w_{1}\right)=w_{0}^{2}+2 w_{0} w_{1}+3\tag{4-41}$

对于式4-41，如果只对其中一个变量（比如 $w_0$ ）求导，而将其他变量（这里是 $w_1$ ）当作常数，那么求出的就是偏导数。
在这里插入图片描述

图4-8 偏导数

“ $f$ 对 $w_0$ 的偏导数”的数学式是：
$\frac{\partial f}{\partial w_{0}}, \frac{\partial}{\partial w_{0}} f, f_{w_{0}}^{\prime}\tag{4-42}$

备注：偏导数的表示符号为：$\partial $ 。$\partial $读作 ro u n d 。$ \partial $是希腊字母$ \delta $的古典写法，数学里只用作表示偏导数的记号，在表示偏导数的时候，一般不念字母名称，大多念作 “ 偏 ” （例如$ z $对$ x $的偏导数, 念作 “ 偏$ z $偏$ x$”）。

求偏导数的方法是“只对要求偏导数的变量进行求导”，实际上它的求导过程与普通的导数（常微分）是一样的。

例如，以前面的式4-41中的 $\partial f / \partial w_{0}$ 来说，就是只关注其中的 $w_0$ ，像下式这样思考：
$f\left(w_{0}, w_{1}\right)=w_{0}^{2}+2 w_{1} w_{0}+3\tag{4-43}$

套用导数公式之后，得到：
$\frac{\partial f}{\partial w_{0}}=2 w_{0}+2 w_{1}\tag{4-44}$

而对于式4-41中的 $\partial f / \partial w_{1}$ ，则只关注其中的 $w_1$ ，像下式这样解释：
$f\left(w_{0}, w_{1}\right)=2 w_{0} w_{1}+w_{0}^{2}+3\tag{4-45}$

然后，就可以得到：
$\frac{\partial f}{\partial w_{1}}=2 w_{0}\tag{4-46}$

4.5.2 偏导数的图形

偏导数的图形是什么样的呢？

$f(w_0,w_1)$ 的函数可以使用matplotlib库绘制的三维图形或等高线图形表示。实际绘制之后会发现，它的图形就像一个两个角被提起来的方巾。
在这里插入图片描述

图4-9 偏导数的图形意义

为了理解 $\partial f / \partial w_{0}$ ，我们可以在与 $w_0$ 轴平行的方向上把 $f$ 切开，然后观察 $f$ 的截面（图4-9①）。

截面是一个向下凸出（向上开口）的二次函数，它的曲线斜率可以通过式4-44求得，式子为 $\partial f / \partial w_{0}=2w_0+2w_1$ 。

当在 $w_1=-1$ 的平面上切开时，把 $w_1=-1$ 代入式4-44，即可得到当 $w_1=-1$ 时斜率的计算式。

把 $w_1=-1$ 代入 $\partial f / \partial w_{0}$ 之后得到：
$\left.\frac{\partial f}{\partial w_{0}}\right|_{w_{1}=-1}\tag{4-47}$

这里，使用式4-44的结果，可以像下式这样去计算（图4-9②）。这是一条斜率为2、截距为-2的直线：
$\left.\frac{\partial f}{\partial w_{0}}\right|_{w_{1}=-1}=2 w_{0}+\left.2 w_{1}\right|_{w_{1}=-1}=2 w_{0}-2\tag{4-48}$

平行于 $w_0$ 轴的平面有无数个。比如，当在 $w_1=1$ 的平面上切开时， $f$ 的截面如图4-9③所示，截面的斜率是(图4-9④)：
$\left.\frac{\partial f}{\partial w_{0}}\right|_{w_{1}=-1}=2 w_{0}+\left.2 w_{1}\right|_{w_{1}=1}=2 w_{0}+2\tag{4-50}$

而 $\partial f / \partial w_{1}$ 是一个平行于 $w_1$ 轴的 $f$ 的截面，这个截面是一条直线。比如，当在 $w_0=1$ 的平面上切开时，得到的截面如图4-12⑤所示，它的斜率是(图4-12⑥)：
$\left.\frac{\partial f}{\partial w_{1}}\right|_{w_{0}=1}=\left.2 w_{0}\right|_{w_{0}=1}=2\tag{4-50}$

又如，当在 $w_0=-1$ 的平面上切开时，得到的截面的斜率是(图4-12⑦)：
$\left.\frac{\partial f}{\partial w_{1}}\right|_{w_{0}=1}=\left.2 w_{0}\right|_{w_{0}=-1}=-2\tag{4-51}$

总的来说，对 $w_0$ 和 $w_1$ 的偏导数就是分别求出 $w_0$ 方向的斜率和 $w_1$ 方向的斜率。

这两个斜率的组合可以解释为向量。这就是 $f$ 对 $w$ 的梯度（梯度向量，gradient），梯度表示的是斜率最大的方向及其大小。
$\nabla_{w} f=\left[\begin{array}{c} \frac{\partial f}{\partial w_{0}} \\ \frac{\partial f}{\partial w_{1}} \tag{4-52} \end{array}\right]$

梯度算子∇应该如何来读呢？詹姆斯·克拉克·麦克斯韦（James Clerk Maxwell)为∇发明了发音，叫作“纳布拉（Nabla）。Nabla原指一种希伯来竖琴，外形酷似倒三角。

4.5.3 梯度的图形

下面实际绘制一下梯度的图形。以下代码绘制了 $f$ 的等高线（图4-10左），并通过箭头绘制了把 $w$ 的空间分为网格状时各点的梯度 $\nabla_{w} f$ (图4-10右)。

# 代码清单 4-2-(2)
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def f(w0, w1):                                    # (A) 定义函数f
    return w0**2 + 2 * w0 * w1 + 3

def df_dw0(w0, w1):                               # (B) 定义用于返回w0方向的偏导数的函数df_dw0
    return 2 * w0 + 2 * w1

def df_dw1(w0, w1):                               # (C) 定义用于返回w1方向的偏导数的函数df_dwl
    return 2 * w0 + 0 * w1

w_range = 2
dw = 0.25
w0 = np.arange(-w_range, w_range + dw, dw)
w1 = np.arange(-w_range, w_range + dw, dw)

ww0, ww1 = np.meshgrid(w0, w1)                    # (D) 将网格状分布的w0和w1存储在二维数组ww0和ww1中

ff = np.zeros((len(w0), len(w1)))
dff_dw0 = np.zeros((len(w0), len(w1)))
dff_dw1 = np.zeros((len(w0), len(w1)))
for i0 in range(len(w0)):
    for i1 in range(len(w1)):
        ff[i1, i0] = f(w0[i0], w1[i1])
        dff_dw0[i1, i0] = df_dw0(w0[i0], w1[i1])
        dff_dw1[i1, i0] = df_dw1(w0[i0], w1[i1])
# (E) 根据ww0和wwl计算f和偏导数的值，并将值存储在ff和dff_dw0、dff_dw1中

plt.figure(figsize=(10, 4.5))
plt.subplots_adjust(wspace=0.3)
plt.subplot(1, 2, 1)
cont = plt.contour(ww0, ww1, ff, 10, colors='k')  # (F) 将ff显示为等高线
cont.clabel(fmt='%d', fontsize=8)
plt.xticks(range(-w_range, w_range + 1, 1))
plt.yticks(range(-w_range, w_range + 1, 1))
plt.xlim(-w_range - 0.5, w_range + 0.5)
plt.ylim(-w_range - 0.5, w_range + 0.5)
plt.xlabel('$w_0$', fontsize=14)
plt.ylabel('$w_1$', fontsize=14)

plt.subplot(1, 2, 2)
plt.quiver(ww0, ww1, dff_dw0, dff_dw1)           # (G) 将梯度显示为箭头
plt.xlabel('$w_0$', fontsize=14)
plt.ylabel('$w_1$', fontsize=14)
plt.xticks(range(-w_range, w_range + 1, 1))
plt.yticks(range(-w_range, w_range + 1, 1))
plt.xlim(-w_range - 0.5, w_range + 0.5)
plt.ylim(-w_range - 0.5, w_range + 0.5)
plt.show()

(D)处的ww0, ww1 = np.meshgrid(w0, w1)将网格状分布的 $w_0$ 和 $w_1$ 存储在了二维数组ww0和ww1中。(E)用于根据ww0和wwl计算 $f$ 和偏导数的值，并将值存储在ff和dff_dw0、dff_dw1中。(F)用于将ff显示为等高线，(G)用于将梯度显示为箭头。

用于显示箭头的代码(G)是通过plt.quiver(ww0, ww1, dff_dw0, dff_dw1)绘制从坐标点(ww0, wwl)到方向(dff_dw0, dff_dw1)的箭头的。

在这里插入图片描述

图4-10梯度向量

通过图4-10左侧的 $f$ 的等高线图形上的数值，我们可以想象到 $f$ 的地形是右上方和左下方较髙，左上方和右下方较低。图4-10右侧是这种地形的梯度，可以看到箭头朝向的是各个点中斜面较高的方向，而且斜面越陡(等高线间隔越短)，箭头越长。

观察可知，箭头无论从哪个地点开始，都总是朝向图形中地形较高的部分。相反，箭尾总是朝向地形较低的部分。因此，梯度是用于寻找函数的最大点或最小点的一个重要概念。在机器学习中，在求误差函数的最小点时会使用误差函数的梯度。

4.5.4 多变量的复合函数的偏导数

当嵌套的是多变量函数时，该怎么求导呢？我们会在推导多层神经网络的学习规则时遇到这个问题。
比如， $g_0$ 和 $g_1$ 都是关于 $w_0$ 和 $w_1$ 的函数， $f$ 是关于函数 $g_0$ 和 $g_1$ 的函数。现在我们使用链式法则来表示 $f$ 对 $w_0$ 和 $w_1$ 的偏导数(图4-11)：
$f\left(g_{0}\left(w_{0}, w_{1}\right), g_{1}\left(w_{0}, w_{1}\right)\right)\tag{4-53}$

在这里插入图片描述

图4-11 偏导数的链式法则

下面先说一下结论，对 $w_0$ 求偏导数的式子是：
$\frac{\partial}{\partial w_{0}} f\left(g_{0}\left(w_{0}, w_{1}\right), g_{1}\left(w_{0}, w_{1}\right)\right)=\frac{\partial f}{\partial g_{0}} \cdot \frac{\partial g_{0}}{\partial w_{0}}+\frac{\partial f}{\partial g_{1}} \cdot \frac{\partial g_{1}}{\partial w_{0}}\\ \tag{4-54}$

对 $w_1$ 求偏导数的式子是：
$\frac{\partial}{\partial w_{1}} f\left(g_{0}\left(w_{0}, w_{1}\right), g_{1}\left(w_{0}, w_{1}\right)\right)=\frac{\partial f}{\partial g_{0}} \cdot \frac{\partial g_{0}}{\partial w_{1}}+\frac{\partial f}{\partial g_{1}} \cdot \frac{\partial g_{1}}{\partial w_{1}}\\ \tag{4-55}$

比如，当 $f$ 如下式时，该如何求解 $\frac{\partial f}{\partial w_{0}}$ 呢？
$f=\left(g_{0}+2 g_{1}-1\right)^{2}, g_{0}=w_{0}+2 w_{1}+1, g_{1}=2 w_{0}+3 w_{1}-1\tag{4-56}$

此时，式4-54的构成要素就变成了：
$\frac{\partial f}{\partial g_{0}}=2\left(g_{0}+2 g_{1}-1\right)\tag{4-57}$
$\frac{\partial f}{\partial g_{1}}=2\left(g_{0}+2 g_{1}-1\right) \cdot 2 \tag{4-58}$
$\frac{\partial g_{0}}{\partial w_{0}}=1 \tag{4-59}$
$\frac{\partial g_{1}}{\partial w_{0}}=2 \tag{4-60}$

把它们代入式4-54，即可像下式这样求解，请注意，式4-57和式4-58也使用了链式法则：
$\frac{\partial f}{\partial w_{0}}=2\left(g_{0}+2 g_{1}-1\right) \cdot 1+2\left(g_{0}+2 g_{1}-1\right) \cdot 2 \cdot 2=10 g_{0}+20 g_{1}-10\tag{4-61}$

在实际推导神经网络的学习规则时，使用的往往是像 $f(g_0(w_0,w_1),g_1(w_0,w_1$ ),…, $g_m(w_0,w_1)$ 这样嵌套了至少两个函数的函数。此时，链式法则是：
$\frac{\partial f}{\partial w_{0}}=\frac{\partial f}{\partial g_{0}} \cdot \frac{\partial g_{0}}{\partial w_{0}}+\frac{\partial f}{\partial g_{1}} \cdot \frac{\partial g_{1}}{\partial w_{0}}+\cdots+\frac{\partial f}{\partial g_{M}} \cdot \frac{\partial g_{M}}{\partial w_{0}}=\sum_{m=0}^{M} \frac{\partial f}{\partial g_{m}} \cdot \frac{\partial g_{m}}{\partial w_{0}}\tag{4-62}$

4.5.5 交换求和与求导的顺序

在机器学习中，计算时常常需要对一个用求和符号表示的函数求导，比如（本节将偏导数也称为导数）：
$\frac{\partial}{\partial w} \sum_{n=1}^{3} n w^{2}\tag{4-63}$

单纯地说，应该可以先求和再求导：
$\frac{\partial}{\partial w}\left(w^{2}+2 w^{2}+3 w^{2}\right)=\frac{\partial}{\partial w} 6 w^{2}=12 w$

但是，实际上即使先求出各项的导数再求和，答案也是一样的：
$\frac{\partial}{\partial w}\left(w^{2}+2 w^{2}+3 w^{2}\right) =\frac{\partial}{\partial w} w^{2}+\frac{\partial}{\partial w} 2 w^{2}+\frac{\partial}{\partial w} 3 w^{2}=2w+4w+6w=12w$

如果使用求和符号表示上述计算过程，则具体为：
$\frac{\partial}{\partial w} w^{2}+2 \frac{\partial}{\partial w} w^{2}+3 \frac{\partial}{\partial w} w^{2}=\sum_{n=1}^{3} \frac{\partial}{\partial w} n w^{2}\tag{4-64}$

因此，根据式4-63和式4-64，下式成立：
$\frac{\partial}{\partial w} \sum_{n=1}^{3} n w^{2}=\sum_{n=1}^{3} \frac{\partial}{\partial w} n w^{2}\tag{4-65}$

我们可以把它一般化为下式。如图4-12所示，可以把导数符号提取到求和符号的右侧，先进行求导计算。
$\frac{\partial}{\partial w} \sum_{n} f_{n}(w)=\sum_{n} \frac{\partial}{\partial w} f_{n}(w)\tag{4-66}$

在这里插入图片描述

图4-12 导数符号和求和符号的互换

我们常常遇到先求导可以令计算更轻松，或者只能求导的情况。因此，机器学习中经常会用到式4-66。

比如，我们使用下式思考一下：
$J=\frac{1}{N} \sum_{n=0}^{N-1}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2}\tag{4-67}$

在求上述函数对 $w_0$ 的导数时，要使用式4-66将导数符号移至求和符号的右侧：
$\frac{\partial J}{\partial w_{0}} =\frac{\partial}{\partial w_{0}} \frac{1}{N} \sum_{n=0}^{N-1}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2} =\frac{1}{N} \sum_{n=0}^{N-1} \frac{\partial}{\partial w_{0}}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2}\tag{4-68}$

然后，求出导数，得到：
$\begin{array}{l} =\frac{1}{N} \sum_{n=0}^{N-1} 2\left(w_{0} x_{n}+w_{1}-t_{n}\right) x_{n}\\ =\frac{2}{N} \sum_{n=0}^{N-1}\left(w_{0} x_{n}+w_{1}-t_{n}\right) x_{n}\tag{4-69} \end{array}$

这里，在计算 $\frac{\partial}{\partial w_{0}}\left(w_{0} x_{n}+w_{1}-t_{n}\right)^{2}=2\left(w_{0} x_{n}+w_{1}-t_{n}\right) x_{n}$ 时，我们使用了链式法则的式子，即 $f=g^{2}, \quad g=w_{0} x_{n}+w_{1}-t_{n}$ 。