来者皆客

Tag: EM算法

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十）

Post author By Liyun
Post date December 17, 2012
4 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十）

一个东西写到10，总会多少有点成就感...只是不知道已经磨掉了多少人的耐心了呢？

此外这节公式密集，大家看着办吧...

-----------笔记开始------------

继续上一讲，先说说EM算法。

MM、EM和GMM

1. MM（混合模型）

(1) 定义：，其中，，构成一个离散分布。同时有，且，。

(2) 隐变量

我们有数据，同时依据条件概率分布，有。记，则，其中。

则有为x的边际分布。

(3) GMM（正态混合模型）

当，，我们有，且，。

(4) 对数似然函数和最大似然估计

对数似然函数写为。则我们要求的就是，其中。

2. EM算法 (expectation maximum，期望最大方法)

(1) 迭代方法：给定起始值，迭代出。那么问题就是，如何在已知的情况下，求？

(2) E1步：求。函数形式已知，故可以求各种条件概率什么的。所以有：

。

E2步：计算，由于函数形式已知，我们可以计算并将移出来，所以换成线性形式。

(3) M步：求，这样就完成了迭代。需要证明的性质是：随着迭代，越来越大，且收敛。

(4) 定理：。

证明：

其中，且，定义为两分布的KL距离。

所以，且。而由M步，，故有。

在GMM的情况下，应用EM算法，则有：

(1) E1步：，可以直接计算。

(2) E2步：。

(3) M步：注意有约束条件，所以使用拉格朗日乘子法：

，故有一阶条件：。从而，其中。

还有一阶条件：，得到。

最后，，有。

对GMM而言，E步和M步在k=2的时候，求解过程可参见书上。

第七章：模型评估与选择

1. 概念：我们有数据集，函数族和损失函数，这样得到最优的，然后求得

（有监督的学习）。之后就是对模型进行评估：的精度如何（使用测试集）？模型的选择就是的选择，使得测试误差比较小。

2. 方法：

(1) 数据充分：分成三块，1/2用来训练(train)，1/4用来检验(validation)，1/4用来测试(test)。其中validation

的概念是，在中，加入J函数来考虑函数族的复杂度，以避免过拟合。而validation就是来调正和选择这里的，再用train和validation重新训练模型。

最后，用test数据集，测试并且评估测试误差。

(2) 数据不充分：一种是cross-validation，分成k（比如5-10）份，极端的就是K=N，ave-win-out；另一种是bootstrap，后续章节详述。

Tags bootstrap, EM算法, GMM, test, train, validation, 对数似然函数, 损失函数, 最大似然估计, 有监督学习, 期望最大方法, 模型评估, 模型选择, 正态混合模型, 混合模型, 统计学习精要

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（九）

Post author By Liyun
Post date December 11, 2012
2 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（九）

眼瞅着这学期也快接近尾声了，也在讲我越来越不熟悉的东西了...

核平滑与局部方法

1. 核平滑器

(1) K-NN（K近邻）

KNN的思想已经说过很多遍了，大致就是找点x的k个近邻，然后取其平均值作为x点y的预测值。不过这里我们就在想了，可不可以加权呀~于是从最简单的，我们给他按距离算个加权平均：,其中代表权重，离x点越近越大，越远越小。这样听起来更make sense一点嘛~近朱者赤，近墨者黑。

(2) 单峰函数

顾名思义，就是长得像一个山峰的函数，比如我们最经典的正态钟型函数，或者翻过来的二次抛物线函数等等。

(3) 权重（按距离）

我们定义权重，再进一步归一化：。

多维的情况下，写成矩阵形式就是，其中A为正定对角阵，然后我们就可以加权了。

2. 局部方法

(1) 一般概念

我们有数据集，然后定义函数族。再定义损失函数, 我们的目标就是最小化。

相应的引入了加权的概念之后，我们就可以定义加权损失函数：，然后对于每个x做优化，寻找使其最小化的。

(2) 具体例子

(i) 局部回归：，则损失函数为，其中代表已经归一化的权重。

在线性的情况下，我们有，有点类似于我们常见的加权最小二乘法。这里的思想也是，在x点附近的点权重会比较大，离x远的权重则比较小，整体感觉就是在x点附近做了一个回归分析。

(ii) 局部似然：和局部回归蛮像的，只是把损失函数换成（对数）似然函数，即从最大化到现在的最大化加权似然函数。

3. 密度估计与分类

(1) 密度与分类: 我们有x和观测结果G的联合分布：，其中为先验的结果分布，在有K类结果的情况下，写成。这样，也可以写开为其中。

反过来，后验概率，所以我们有贝叶斯分类器。

(2) 密度估计

为了使用贝叶斯分类器，我们需要先对密度进行估计。

(i) 直方图：最简单的就是根据直方图来估计密度，这个没什么好说的...

(ii) 核估计方法（Parzen）：Parzen提出的核密度估计为，该估计当且在减小的时候，收敛于。

4. 核作为基函数

密度函数，然后定义函数族，则其中我iyigexianxingde参数，为指定的函数类，亦为函数参数。这样的话我们有三个函数的参数，指定某一个便可以简化函数形式。不过这里的问题是，没有很好的算法来求解优化问题。比如对于正态分布，我们以写出来，然后的求解就比较复杂了。

上面的两个是非参数方法，下面说一些参数方法。

(iii) 混合模型（GMM, Gauss Mixed Model）

，其中参数有，然后可以利用最大似然准则，最大化，具体算法可用EM，下节课详述。

-----稍稍跑题------

GMM，我印象中它怎么是 Generalized Moment Method, 广义矩估计呢？果然是被计量经济学祸害太深了...

Tags EM算法, GMM, KNN, K近邻, 加权似然函数, 加权平均, 加权最小二乘法, 单峰函数, 基函数, 密度估计, 局部似然, 局部回归, 核估计方法, 核平滑, 混合模型, 统计学习精要, 范数, 贝叶斯分类器