Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十)

一个东西写到10,总会多少有点成就感...只是不知道已经磨掉了多少人的耐心了呢?

此外这节公式密集,大家看着办吧...

-----------笔记开始------------

继续上一讲,先说说EM算法。

MM、EM和GMM

1. MM(混合模型)

(1) 定义:,其中,构成一个离散分布。同时有,且

(2) 隐变量

我们有数据,同时依据条件概率分布,有。记,则,其中

则有为x的边际分布。

(3) GMM(正态混合模型)

,我们有,且

(4) 对数似然函数和最大似然估计

对数似然函数写为。则我们要求的就是,其中

2. EM算法 (expectation maximum,期望最大方法)

(1) 迭代方法: 给定起始值,迭代出。那么问题就是,如何在已知的情况下,求

(2) E1步:求。函数形式已知,故可以求各种条件概率什么的。所以有:

E2步:计算,由于函数形式已知,我们可以计算并将移出来,所以换成线性形式。

(3) M步:求,这样就完成了迭代。需要证明的性质是:随着迭代,越来越大,且收敛。

(4) 定理:

证明:

其中,且,定义为两分布的KL距离。

所以,且。而由M步,,故有

在GMM的情况下,应用EM算法,则有:

(1) E1步:,可以直接计算。

(2) E2步:

(3) M步:注意有约束条件,所以使用拉格朗日乘子法:

,故有一阶条件:。从而,其中

还有一阶条件:,得到

最后,,有

对GMM而言,E步和M步在k=2的时候,求解过程可参见书上。

第七章:模型评估与选择

1. 概念: 我们有数据集,函数族和损失函数,这样得到最优的,然后求得

(有监督的学习)。之后就是对模型进行评估:的精度如何(使用测试集)?模型的选择就是的选择,使得测试误差比较小。

2. 方法:

(1) 数据充分:分成三块,1/2用来训练(train),1/4用来检验(validation),1/4用来测试(test)。其中validation

的概念是,在中,加入J函数来考虑函数族的复杂度,以避免过拟合。而validation就是来调正和选择这里的,再用train和validation重新训练模型。

最后,用test数据集,测试并且评估测试误差。

(2) 数据不充分:一种是cross-validation,分成k(比如5-10)份,极端的就是K=N,ave-win-out;另一种是bootstrap,后续章节详述。

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(九)

眼瞅着这学期也快接近尾声了,也在讲我越来越不熟悉的东西了...

核平滑与局部方法

1. 核平滑器

(1) K-NN(K近邻)

KNN的思想已经说过很多遍了,大致就是找点x的k个近邻,然后取其平均值作为x点y的预测值。不过这里我们就在想了,可不可以加权呀~于是从最简单的,我们给他按距离算个加权平均:,其中代表权重,离x点越近越大,越远越小。这样听起来更make sense一点嘛~近朱者赤,近墨者黑。

(2) 单峰函数

顾名思义,就是长得像一个山峰的函数,比如我们最经典的正态钟型函数,或者翻过来的二次抛物线函数等等。

(3) 权重(按距离)

我们定义权重,再进一步归一化:

多维的情况下,写成矩阵形式就是,其中A为正定对角阵,然后我们就可以加权了。

2. 局部方法

(1) 一般概念

我们有数据集,然后定义函数族。再定义损失函数, 我们的目标就是最小化

相应的引入了加权的概念之后,我们就可以定义加权损失函数:,然后对于每个x做优化,寻找使其最小化的

(2) 具体例子

(i) 局部回归: ,则损失函数为,其中代表已经归一化的权重。

在线性的情况下,我们有,有点类似于我们常见的加权最小二乘法。这里的思想也是,在x点附近的点权重会比较大,离x远的权重则比较小,整体感觉就是在x点附近做了一个回归分析。

(ii) 局部似然:和局部回归蛮像的,只是把损失函数换成(对数)似然函数,即从最大化 到现在的最大化加权似然函数

3. 密度估计与分类

(1) 密度与分类: 我们有x和观测结果G的联合分布:,其中为先验的结果分布,在有K类结果的情况下,写成。这样,也可以写开为 其中

反过来,后验概率,所以我们有贝叶斯分类器

(2) 密度估计

为了使用贝叶斯分类器,我们需要先对密度进行估计。

(i) 直方图: 最简单的就是根据直方图来估计密度,这个没什么好说的...

(ii) 核估计方法(Parzen):Parzen提出的核密度估计为,该估计当在减小的时候,收敛于

4. 核作为基函数

密度函数,然后定义函数族,则其中我iyigexianxingde参数,为指定的函数类,亦为函数参数。这样的话我们有三个函数的参数,指定某一个便可以简化函数形式。不过这里的问题是,没有很好的算法来求解优化问题。比如对于正态分布,我们以写出来,然后的求解就比较复杂了。

上面的两个是非参数方法,下面说一些参数方法。

(iii) 混合模型(GMM, Gauss Mixed Model)

,其中参数有,然后可以利用最大似然准则,最大化,具体算法可用EM,下节课详述。

-----稍稍跑题------

GMM,我印象中它怎么是 Generalized Moment Method, 广义矩估计呢?果然是被计量经济学祸害太深了...