
1.1 神经网络的数学基础
接下来的几节将讨论与神经网络相关的数学分支。讨论完后,将回到神经网络本身。
1.1.1 线性代数
线性代数可以处理线性方程组(如a1x1+a2x2+…+anxn+b=0)和线性变换(或线性函数)及其表示(如矩阵和向量)。
线性代数识别下列数学对象:
- 标量:单个数字。
- 向量:一个一维的数字(或分量)数组。数组的每个分量都有一个索引。在文献中,我们会看到向量用上标箭头
或黑斜体(x)表示。下面是一个向量的例子:
-
我们可以直观地将一个n维向量表示为n维欧几里得空间ℝn中的某一点的坐标,ℝn相当于一个坐标系。在这种情况下,我们称向量为欧几里得向量,每个向量分量代表沿相应轴的坐标,如下图所示:
ℝ3空间中的向量表示
然而,欧几里得向量不仅仅是一个点,我们也可以用以下两个属性来表示它:
- 大小(或长度)是毕达哥拉斯(勾股)定理在n维空间中的推广:
- 方向是向量沿空间各轴的角度。
本书主要使用黑斜体(x)图形符号。但在某些情况下,会用到不同来源的公式,而我们会尽量保留它们最初的符号。
- 矩阵:这是一个二维的数字数组。每个元素由两个索引(行和列)标识。矩阵通常用黑斜体大写字母表示,例如A。每个矩阵元素用小写的矩阵字母和一个下标索引表示,例如aij。让我们看一个矩阵符号的例子:

我们可以将一个向量表示为单列n×1矩阵(称为列矩阵)或单行1×n矩阵(称为行矩阵)。
- 张量:在解释它们之前,我们必须先声明一下。张量最初来自数学和物理,在ML中开始使用它们之前就已经存在很久了。张量在这些领域中的定义与在ML中的不同。本书只考虑ML中的张量。此处,张量是一个具有以下属性的多维数组:
- 阶:表示数组的维数。例如,2阶张量是一个矩阵,1阶张量是一个向量,0阶张量是一个标量。然而,张量在维数上没有限制。实际上,有些类型的神经网络使用4阶张量。
- 形状:每个维度的大小。
- 张量元素的数据类型:这些值在库之间可能不同,但通常包括16、32以及64位浮点数和8、16、32和64位整数。
现代DL库如TensorFlow和PyTorch使用张量作为其主要数据结构。
可以在这里找到关于张量本质的详细讨论:https://stats.stackexchange.com/questions/198061/why-the-sudden-fascination-with-tensors。还可以查阅TensorFlow(https://www.tensorflow.org/guide/tensors)和PyTorch(https://pytorch.org/docs/stable/tensors.html)的张量定义。
我们已经介绍了线性代数中的对象类型,下一节将讨论可以应用于它们的一些运算。
向量与矩阵运算
在这一节中,我们将讨论与神经网络相关的向量和矩阵运算。让我们开始吧:
- 向量加法是将两个或多个向量相加到一个输出向量和的运算。输出为另一个向量,计算公式如下:
a+b=[a1+b1,a2+b2,…,an+bn]
- 点积(或标量积)接受两个向量并输出一个标量值。我们可以用以下公式计算点积:
a·b=|a||b|cosθ
此处,|a|和|b|是向量的大小,θ是两个向量之间的夹角。假设这两个向量是n维的,它们的分量是a1、b1、a2、b2等。此处,上面的公式等价于以下公式:
a·b=a1b1+a2b2+…+anbn
二维向量a和b的点积如下图所示。

向量的点积。上图为向量分量,下图为两个向量的点积
点积是两个向量之间的一种相似性度量——如果两个向量的夹角θ很小(它们的方向相似),那么它们的点积会因为cosθ而增大。
根据这个思想,可以将两个向量之间的余弦相似度定义如下:

- 叉积(或向量积)取两个向量并输出另一个向量,这个向量垂直于两个初始向量。可以用以下公式计算叉积输出向量的大小:
a×b=|a||b|sinθ
下图展示了两个二维向量之间的叉积的例子。

两个二维向量的交叉乘积
如前所述,输出向量垂直于输入向量,这也意味着向量垂直于包含它们的平面。输出向量的大小等于以向量a和b为边的平行四边形的面积(如上图所示)。
还可以通过向量空间定义向量,向量空间是对象(本书中是向量)的集合,可以用标量值相加和相乘。向量空间允许我们将线性变换定义为一个函数f,它可以将向量空间V的每个向量(点)转换为另一个向量空间W的向量(点),f:V→W。对于任意两个向量(u,v∈V),f必须满足以下要求:
- 加性:f(u+v)=f(u)+f(v)
- 齐次性:f(cu)=cf(u),c为标量时
- 矩阵转置:沿着主对角线翻转矩阵(主对角线是矩阵元素aij的集合,其中i=j)。将转置运算记为上标T。矩阵AT中的元素aij等于矩阵A中的元素aji:
[AT]ij=Aji
m×n矩阵的转置是n×m矩阵。下面是一些转置的例子:
- 矩阵-标量乘法是一个矩阵乘以一个标量值。下面的例子中,y是一个标量:
-
- 矩阵-矩阵加法是一个矩阵与另一个矩阵进行元素上的加法。对于这个运算,两个矩阵必须具有相同的大小。下面是一个例子:
-
- 矩阵-向量乘法是一个矩阵与一个向量的乘法。为了使这个运算有效,矩阵列的数目必须等于向量的长度。m×n矩阵与一个n维向量相乘的结果是一个m维向量。下面是一个例子:
-
可以把矩阵的每一行看作一个单独的n维向量。输出向量的每个元素对应矩阵行与x的点积,下面是一个数值例子:
- 矩阵乘法是一个矩阵与另一个矩阵的乘法。为了使其有效,第一个矩阵的列数必须等于第二个矩阵的行数(这是一个不能更改顺序的运算)。我们可以把这个运算看作矩阵-向量的多重乘法,其中第二个矩阵的每一列都是一个向量。一个m×n矩阵乘以一个n×p矩阵的结果是一个m×p矩阵。下面是一个例子:
-
如果把两个向量看作行矩阵,则可以将一个向量点积表示为矩阵乘法,即a·b=abT
线性代数的介绍到此结束。在下一节中,我们将介绍概率论。
1.1.2 概率介绍
本节讨论与神经网络相关的概率和统计的一些知识。
先介绍一下统计实验的概念,它有以下几个特点:
- 由多个独立试验组成。
- 每次试验的结果都是不确定的,也就是说,结果是偶然的。
- 可能的结果不止一种。这些结果称为事件(在集合中会讨论事件)。
- 实验的所有可能结果都是预先知道的。
一个统计实验的例子是抛硬币,它有两种可能的结果——正面或反面。另一个例子是掷骰子,有六种可能的结果:1、2、3、4、5和6。
我们将概率定义为某事件e发生的可能性,用P(e)表示。概率是一个在[0,1]范围内的数字,其中0表示该事件不可能发生,1表示该事件始终会发生。如果P(e)=0.5,则事件发生的概率是50%,以此类推。
有两种方法可以得到概率:
- 理论:我们感兴趣的事件与可能发生的事件总数的比较。所有事件的概率都是一样的。
-
为了理解这一点,使用有两种可能结果的抛硬币的例子。每种可能结果的理论概率是P(正面)=P(反面)=1/2。掷骰子得到每一面的理论概率是1/6。
- 经验:我们感兴趣的事件发生的次数与试验总数的比较。
-
实验结果可能表明这些事件不是等概率的。例如,假设我们抛100次硬币,56次正面朝上。此处,正面的经验概率是P(正面)=56/100=0.56。试验次数越多,计算出的概率就越准确(这称为大数定律)。
下一节讨论集合中的概率。
概率和集合
一个实验的所有可能结果(事件)的集合称为样本空间。样本空间可以被看作一个数学集合,通常用大写字母表示,可以用{}列出集合的所有结果(与Python集合相同)。例如,抛硬币事件的样本空间为Sc={正面,反面},而掷骰子的样本空间为Sd={1,2,3,4,5,6}。集合中的一个结果(例如正面)称为样本点。事件是样本空间的一个结果(样本点)或结果的组合(子集)。一个组合事件的例子是骰子落在一个偶数上,即{2,4,6}。
假设有一个样本空间S={1,2,3,4,5},两个子集(事件)为A={1,2,3},B={3,4,5}。可以用它们进行以下运算:
- 交集:结果是一个新的集合,只包含在两个集合中都存在的元素。
A∩B={3}
交集为空集{}的集合是不相交的。
- 补集:结果是一个新的集合,包含了给定集合中不包含的样本空间的所有元素。
A′={4,5} B′={1,2}
- 并集:结果是一个新的集合,包含可以在任意一个集合中找到的元素。
A∪B={1,2,3,4,5}
下面的维恩图说明了这些不同的集合关系。

可能的集合关系的维恩图
可以将集合属性转换为事件和事件的概率。假设事件是独立的——一个事件的发生不影响另一个事件发生的概率。例如,每次抛硬币的结果都是相互独立的。让我们学习如何在事件域中转换集合运算:
- 两个事件的交集是两个事件中包含的结果的子集。交集的概率称为联合概率,计算公式如下:
P(A∩B)=P(A)*P(B)
假设我们想计算一张红扑克牌(红桃或方块)是Jack的概率。红牌的概率是P(红牌)=26/52=1/2。得到Jack的概率是P(j)=4/52=1/13。因此,联合概率为P(红牌,Jack)=(1/2)*(1/13)=1/26。在这个例子中,假设这两个事件是独立的,然而这两个事件同时发生(我们抽一张牌)。如果它们连续发生,例如,抽两次牌,其中一张是Jack,另一张是红牌,那么我们就进入了条件概率的领域。这个联合概率也记为P(A,B)或P(AB)。
单个事件P(A)发生的概率也称为边际概率(与联合概率相对)。
- 如果两个事件没有共同的结果,那么事件就是不相交的(或相互排斥的)。即它们各自的样本空间子集是不相交的。例如,奇数或偶数骰子的事件是不相交的。不相交事件的概率如下:
- 不相交事件的联合概率(这些事件同时发生的概率)为P(A∩B)=0。
- 不相交事件概率的和是∑P(不相交事件)≤1。
- 如果多个事件的子集包含它们之间的整个样本空间,那么它们是联合穷举的。上面例子中的事件A和B是联合穷举的,因为它们一起填满了整个样本空间(1到5)。联合穷举事件的概率如下:
∑P(联合穷举事件)=1
如果在同一时间只有两个不相交且联合穷举的事件,则这些事件是互补的。例如,奇数和偶数掷骰子事件是互补的。
- 把来自A或B的结果(不一定同时来自两者)称为A和B的并集,这个并集的概率如下:
P(A∪B)=P(A)+P(B)-P(A∩B)
目前为止,我们已经讨论了独立事件。下一节讨论相关事件。
条件概率和贝叶斯规则
如果事件A的发生改变了事件B的发生概率,且A发生在B之前,那么两者是相关的。为了说明这一概念,假设从牌堆中顺序地抽出多张牌。当牌堆完整时,抽到红桃的概率是P(红桃)=13/52=0.25。但是一旦抽到的第一张牌是红桃,在第二次抽到红桃的概率就会改变。现在,我们只有51张牌,少一张红桃。我们称第二次抽到的概率为条件概率,用P(B|A)表示。这表示假设事件A已经发生(第一次抽牌)时,事件B(第二次抽牌)的概率。继续我们的例子,第二次抽到红桃的概率变成P(红桃2|红桃1)=12/51=0.235。
接下来,可以根据相关事件扩展联合概率公式(在前一节中介绍过)。公式如下:
P(A∩B)=P(A)P(B|A)
然而,上面的方程只是两个事件的特例。可以把它扩展到多个事件,A1,A2,…,An。这个新的通用公式称为概率链式法则:
P(An∩…∩A1)=P(An|An-1∩…∩A1)·P(An-1∩…∩A1)
例如,三个事件的链式法则如下:
P(A3∩A2∩A1)=P(A3|A2∩A1)·P(A2∩A1)=P(A3|A2∩A1)·P(A2|A1)·P(A1)
也可以推导出条件概率本身的公式:

这个公式的解释如下:
- P(A∩B)表示如果A已经发生,我们对B的发生感兴趣。换句话说,我们感兴趣的是事件的联合发生,这就是联合概率。
- P(A)表示我们只对事件A发生的结果的子集感兴趣。我们已经知道A发生了,因此我们只观察这些结果。
相关事件适用于以下情况:
P(A∩B)=P(A)P(B|A)
P(A∩B)=P(B)P(A|B)
利用这个等式,可以将条件概率公式中的P(A∩B)的值替换为:

如果知道相反的条件概率P(B|A),那么上面的公式可以计算条件概率P(B|A),该方程称为贝叶斯规则,在ML中经常使用,在贝叶斯统计中,P(A)和P(B|A)分别称为先验概率和后验概率。
贝叶斯规则可用于医学测试领域。假设要确定一个病人是否患有某种疾病。我们做了一个医学测试,其结果是阳性的,但这并不一定意味着病人患有这种疾病。大多数测试都有一个信度值,即对患有某种疾病的人进行测试,其结果呈阳性的百分比。利用这些信息,我们将应用贝叶斯规则来计算病人患病的实际概率,假设测试结果是阳性的。得到以下结果:

此处,P(患病)是没有任何先决条件的疾病的一般概率。把这个看作疾病在一般人群中的概率。
接下来,对这种疾病和测试的准确率做一些假设:
- 测试可信度为98%,即如果测试结果呈阳性,98%的病例也会呈阳性:P(测试结果=阳性|患病)=0.98。
- 50岁以下的人中只有2%患有这种疾病:P(患病)=0.02。
- 50岁以下的人的测试中只有3.9%的人的测试结果是阳性的:P(测试结果=阳性)=0.039。
可以问这样一个问题:如果一项测试对癌症的准确率是98%,而一个45岁的人做了测试,结果是阳性,那么他患病的概率是多少?利用上式,可以计算出:

下一节将在概率的基础上讨论随机变量和概率分布。
随机变量和概率分布
统计学中将变量定义为描述给定实体的属性。属性值可以因实体而异。例如,可以用一个变量来描述一个人的身高,这个变量对不同的人来说是不同的。假设多次测量同一个人的身高。由于一些随机因素,比如人的姿势或者测量不准确,我们每次会得到略微不同的值。因此,尽管测量相同的东西,变量高度的值也会有所不同。为了解释这些变化,我们将引入随机变量。这些变量的值由一些随机事件决定。与常规变量不同,随机变量可以有多个值,每个值都与某个概率相关。
随机变量有两种:
- 离散的,可以取不同的单独值。例如,足球比赛中的进球数是一个离散变量。
- 连续的,它可以取给定区间内的任意值。例如,高度测量是一个连续变量。
随机变量用大写字母表示,随机变量X的某个值x的概率用P(X=x)或p(x)表示。随机变量的每一个可能值的概率集合称为概率分布。
根据变量类型,我们有两种概率分布:
- 离散变量的概率质量函数(PMF)。下图是PMF的一个示例。x轴表示可能的值,y轴表示每个值的概率。
-
PMF的一个示例
PMF只针对随机变量的可能值定义。PMF的所有值都是非负的,它们的和是1。也就是说,PMF的事件是互斥但联合穷举的。我们用P(X)表示PMF,其中X是随机变量。
- 连续变量的概率密度函数(PDF)。与PMF不同,PDF在两个值之间是不间断的(为每个可能的值定义),因此反映了连续变量的性质。下图是一个PDF的示例。
-
PDF的一个示例
在PDF中,概率的计算是针对一个值区间,由该区间所包围的曲线下的表面积给出(如前面图表中标记的阴影面积)。曲线下的总面积是1。用fX表示PDF,其中X是随机变量。
接下来,让我们关注随机变量的一些属性:
- 平均值(或期望值)是一个经过多次观察的实验的预期结果。我们用μ或
来表示。对于离散变量,它的均值是所有可能值乘以其概率的加权和:
-
以前面的离散变量示例为例,其中定义了一个具有六个可能值(0、1、2、3、4、5)及其各自概率(0.1、0.2、0.3、0.2、0.1、0.1)的随机变量。此处,均值是μ=0*0.1+1*0.2+2*0.3+3*0.2+4*0.1+5*0.1=2.3。
连续变量的均值定义为:
对于离散变量,可以将PMF看作一个查找表,而PDF可能更复杂(一个实际的函数或方程),这就是为什么两者之间有不同的符号。我们不会深入讨论连续变量的均值。
- 方差定义为随机变量偏离均值μ的平方差的期望值:
-
换句话说,方差度量的是随机变量的值与其均值之间的差异。
离散随机变量的方差为:
使用前面的例子,我们计算的平均值是2.3。新的方差将是Var(X)=(0-2.3)2*0+(1-2.3)2*1+…+(5-2.3)2*5=2.01。
连续变量的方差定义为:
- 标准差度量随机变量的值与期望值之间的差异程度。如果这个定义听起来像方差,那是因为它确实是方差。实际上,标准差的公式如下:
-
也可以用标准差来定义方差:
标准差与方差的区别是,标准差用与平均值相同的单位表示,而方差用平方单位表示。
这一节定义了什么是概率分布。接下来,讨论不同类型的概率分布。
概率分布
我们将从二项试验中离散变量的二项分布开始。二项试验只有两种可能的结果:成功或失败。它同时满足以下要求:
- 每个试验都是独立于其他试验的。
- 成功的可能性总是一样的。
二项试验的一个例子是抛硬币实验。
现在,假设这个试验包含n次试验。其中x是成功的,而每次试验的成功概率为p。变量X(不要与x混淆)的二项式PMF公式如下:

此处,n!/(x!(n-x)!是二项式系数。这是x个成功试验的组合,可以从n个试验中选择。如果n=1,有一个二项分布的特殊情况叫作伯努利分布。
接下来,讨论连续变量的正态分布(或高斯分布),它非常接近许多自然过程。正态分布定义如下指数PDF公式,称为正态方程(最常用的符号之一):

此处,x是随机变量的值,μ为平均值,σ为标准差,σ2为方差。由上式得到钟形曲线,如下图所示。

正态分布
正态分布的一些特点如下所示:
- 曲线的中心是对称的,也是最大值。
- 曲线的形状和位置可以用均值和标准差充分描述,其中有:
- 曲线的中心(及其最大值)等于平均值。也就是说,平均值决定曲线在x轴上的位置。
- 曲线的宽度由标准差决定。
下页图中,我们可以看到具有不同的μ和σ值的正态分布的示例。

具有不同μ和σ值的正态分布示例
- 正态分布在正/负无穷趋于0,但不会变成0。因此,正态分布下的随机变量可以有任何值(尽管有些值的概率很小)。
- 曲线下的表面积等于1,这是由指数前的常数
确定的。
(位于指数位置)被称为标准分数(或z分数)。一个标准化正态变量的均值为0,标准差为1。一旦被转换,随机变量就会以标准化的形式参与到方程中。
下一节介绍信息理论的多学科领域,这将帮助我们在神经网络的背景下使用概率论。
信息理论
信息理论试图确定一个事件拥有的信息量。信息量遵循以下原则:
- 事件发生的概率越高,该事件的信息量就越少。相反,如果概率较低,则事件包含更多的信息内容。例如,掷硬币的结果(概率为1/2)提供的信息少于掷骰子的结果(概率为1/6)。
- 独立事件所携带的信息量是其各自信息内容的总和。例如,两次投掷骰子的结果为同一面(假设是4)的信息量是单独投掷的两倍。
将事件x的信息量(或自信息量)定义如下:
I(x)=-logP(x)
此处,log是自然对数。例如,如果事件的概率是P(x)=0.8,则I(x)=0.22。或者,如果P(x)=0.2,则I(x)=1.61。可以看出,事件信息量与事件概率呈反比关系。自信息I(x)的数量是用自然信息单位(nat)来衡量的。也可以用以2为底的对数I(x)=-log2(P(x))来计算I(x),这种情况下用位(bit)来度量它。这两个版本之间没有区别。本书使用自然对数版本。
讨论一下为什么在前面的公式中使用对数,即使负概率也满足自信息量和概率之间的互易性。主要原因是对数的积除法规则:
log(x1x2)=log(x1)+log(x2)
log(x1/x2)=log(x1)-log(x2)
此处,x1和x2是标量值。无须过多细节,这些属性允许我们在训练网络期间轻松地最小化误差函数。
到目前为止,已经定义了单个结果的信息内容。但是其他的结果呢?为了测量它们,需要度量随机变量概率分布上的信息量。用I(X)表示信息量,X是一个随机离散变量(此处我们关注离散变量)。回想一下,我们将离散随机变量的均值(或期望值)定义为所有可能值乘以其概率的加权和。此处类似,但是要将每个事件的信息内容乘以该事件的概率。
这个度量称为香农熵(或简称为熵),其定义如下:

此处,xi表示离散变量值。概率高的事件比概率低的事件有更多权重。可以把熵看作概率分布的事件(结果)的预期(平均)信息量。为了理解这一点,试着计算我们熟悉的抛硬币实验的熵。我们将计算两个例子:
- 首先,假设P(正面)=P(反面)=0.5。此时熵为:
H(X)=-P(正面)log(P(正面))-P(反面)log(P(反面))=0.5*(-0.69)-0.5*(-0.69)=0.7
- 接下来假设,由于某种原因,结果不是等概率的概率分布是P(正面)=0.2,P(反面)=0.8。熵值为:
H(X)=-P(正面)log(P(正面))-P(反面)log(P(反面))=-0.2*(-1.62)-0.8*(-0.22)=0.5
可以看到,当结果出现的概率相等时熵最大,当其中一个结果出现较为普遍时熵减小。在某种意义上,可以把熵看作不确定性或混乱的度量。下图显示了二项事件(如抛硬币)的熵H(X)的图,取决于两种结果的概率分布。

左:自然对数的熵;右:以2为底的对数的熵
接下来,假设有一个离散随机变量X,它有两个不同的概率分布。通常情况下,神经网络产生一些输出概率分布Q(X),在训练中将其与目标分布P(X)进行比较。可以测量这两个具有交叉熵的分布的差值,其定义如下:

例如,计算前一个抛硬币场景的两个概率分布之间的交叉熵。我们预测了分布Q(正面)=0.2,Q(反面)=0.8,目标(或真实)分布P(正面)=0.5,P(反面)=0.5。交叉熵为:
H(P,Q)=-P(正面)*log(Q(正面))-P(反面)*log(Q(反面))=-0.5*(-1.61)-0.5*(-0.22)=0.915
另一个衡量两个概率分布差异的方法是Kullback-Leibler散度(KL散度):

对数的乘积法则把第一行公式转换成更直观的第二行形式。很容易看出KL散度度量的是目标概率和预测概率之间的差异。如果进一步推导这个方程,还可以看到熵、交叉熵和KL散度之间的关系。
抛硬币示例场景的KL散度如下:
DKL(P||Q)=P(正面)*[log(P(正面))-Q(正面)]+P(反面)*[log(P(反面))-Q(反面)]
=0.5(log(0.5)-log(0.2))+0.5(log(0.5)-log(0.8))=0.22
下一节讨论微分学领域,它将有助于训练神经网络。
1.1.3 微分学
在ML算法中,我们关心的是如何通过调整ML算法的参数来逼近目标函数。如果把ML算法本身看作一个数学函数(在神经网络中),我们可以知道,改变这个函数的一些参数(权重)时,它的输出是如何变化的。幸运的是,微分学处理的是一个函数关于它所依赖的变量的变化率。以下是对其衍生品的简短介绍。
假设有一个函数f(x),只有一个参数x,其图形见下页。

f(x)和斜率(点虚线)的曲线图
可以通过计算函数在这一点上的斜率来相对地了解f(x)在任意x值下如何随x变化。如果斜率为正,函数值增大。相反,如果斜率是负数,函数值就会减小。斜率的计算公式如下:

此处的想法很简单,计算f在x和x+Δx两个值之间的差别:Δy=f(x+Δx)-f(x)。然后,计算Δy和Δx的比率来得到斜率。但如果Δx太大,那么测量不会很准确,因为函数的部分图(x和x+Δx)之间可能会大幅改变。可以使用一个较小的Δx来最小化这个错误。此处,可以关注图中较小的部分。如果Δx趋于0,可以假设斜率反映了图的一个点。此处,称斜率为f(x)的一阶导数。可以用数学形式表示为:

此处,f′(x)和dy/dx分别是拉格朗日和莱博尼茨对于导数的符号表示。是极限的数学概念——把它看作Δx趋近于0。求f的导数的过程叫作微分。下图为不同x值处的斜率。

可以看到,在这些点(称为鞍点)上,f的局部最小值和局部最大值处的斜率为0,f随着x的改变既不增大也不减小。
接下来,假设有一个多参数的函数f(x1,x2,…,xn)。f对任意参数xi的导数称为偏导数,表示为∂f/∂x。当计算偏导数时,假设所有其他参数(xj≠xi)都是常数。用来表示向量分量的偏导数。
最后,介绍一些有用的微分规则:
- 链式法则:f和g是函数,h(x)=f(g(x))。此处,对于任意x,f关于x的导数如下:

- 求和法则:假设f和g是函数,h(x)=f(x)+g(x)。求和法则规定如下:
h′(x)=(f(x)+g(x))′=f′(x)+g′(x)
- 普通函数:
- x′=1
- (ax)′=a,其中a是标量
- a′=0,其中a是标量
- x2=2x
- (ex)′=ex
神经网络的数学工具和神经网络本身形成了一种知识层。如果把神经网络的实现想象成构建一所房子,那么数学工具就像混合混凝土。我们可以独立地学习如何混合混凝土而不是建造房子。事实上,除了建造房子的特定目的之外,还可以将混凝土用于多种目的。然而,需要知道在建房子之前如何搅拌混凝土。为了继续我们的类比,既然知道了如何混合混凝土(数学工具),我们将关注实际构建房子(神经网络)。