3.1 密度估计的参数方法_机器学习：从公理到算法-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

3.1　密度估计的参数方法

如果已经知道p（x）所在的分布族p（x|θ），此时的密度估计问题变成估计θ。简单说来，此时即为密度估计的参数方法。在此情形下，，SimX（x，θ）=p（x|θ）。假设对θ得到估计，则可设。

3.1.1　最大似然估计

在此情形下，如果对于θ的信息一无所知，则可以假设对θ得到估计。因此，类紧致准则希望最大类内相似度，由此得到目标函数（3.1）。显然，

为了简化计算，对公式（3.1）两边取负自然对数，求最大变为求最小，得到如下目标函数：

显然，最大化目标函数（3.1）是最大似然估计。因此，类紧致准则可以导出常见的最大似然估计。

•　高斯密度估计

假设，其中。根据公式（3.2），我们可以得到如下目标函数（3.3）：

因此，计算目标函数（3.3）的一阶导数，令其等于零可以得到最优估计。

解方程（3.4），可以得到

令，其中按照以上的办法，同样可以得出的估计。

•　n元多项分布估计

假设∀k，xk，x都是只取1，2，…，c其中之一的随机变量，如果，其中x=［l1，l2，…，lc］，，∀i，li∈｛0，1｝，1，∀i，并且。易知，∀k，xk，x可以表示成一个c维的0，1的向量，这里，如果xk=i，则记作（xk）i=1，否则（xk）i=0。显然，，因此，可以知道。

根据公式（3.2），我们可以得到如下目标函数（3.6）：

根据拉格朗日乘子法，要得到目标函数（3.6）在条件下的最小值，只需令如下函数（3.7）的一阶导数为零：

由此得到方程（3.8）：

注意到，由方程（3.8）可以得到λ=N。

据此，解方程（3.8）可以得到如下估计：

3.1.2　贝叶斯估计

需要特别指出的是，在参数估计情形下，类可以用θ来表示。有时候，基于历史经验，人们不仅知道分布的形式，甚至会对θ的信息有所了解。比如，当谈到许海峰的手枪射击成绩时，人们会有先验估计；当谈起烟台苹果莱阳梨，人们一般也会有先验印象。甚至朋友交往，第一印象也对人们后续交往影响巨大。实际上，日常所说的声誉，就是一种对于事物的先验印象。如果θ的信息完全确定，就不需要通过观察抽样样本来估计了，或者说观察已经影响不了人们对于θ的信息。这近似于信仰或者崇拜。

一般情形下，人们对于θ的信息有所了解，但是该信息会随着观察的积累增多而改变，具有不确定性。因此，对θ的信息先验了解程度，可以用假设θ服从p（θ|θ0）分布来表示，p（θ|θ0）反映了人们对于θ的了解程度，θ0是事先确定的值。换一种说法，p（θ|θ0）反映了θ与固定值θ0的相似度，即Sim（θ，θ0）=p（θ|θ0）。理论上，应该选择与固定值θ0最相似的θ值。如果无限相似，即变成信仰，此时观察改变不了θ的估计。如果不是无限相似，则观察可以改变对于θ的估计。