落园 » ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(九)|专注经济视角下的互联网

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(九)

眼瞅着这学期也快接近尾声了,也在讲我越来越不熟悉的东西了...

核平滑与局部方法

1. 核平滑器

(1) K-NN(K近邻)

KNN的思想已经说过很多遍了,大致就是找点x的k个近邻,然后取其y_{i}平均值作为x点y的预测值\hat{y}。不过这里我们就在想了,可不可以加权呀~于是从最简单的\hat{y}=\frac{1}{k}\sum_{x_{i}\in N_{k}(x)}y_{i},我们给他按距离算个加权平均:\hat{y}=\sum_{x_{i}\in N_{k}(x)}w_{i}y_{i},其中w_{i}代表权重,离x点越近越大,越远越小。这样听起来更make sense一点嘛~近朱者赤,近墨者黑。

(2) 单峰函数

顾名思义,就是长得像一个山峰的函数,比如我们最经典的正态钟型函数,或者翻过来的二次抛物线函数等等。

(3) 权重(按距离)

我们定义权重k_{\lambda}(x,x_{i})=D\left(\frac{\left\Vert x-x_{i}\right\Vert ^{2}}{\lambda}\right),再进一步归一化:\frac{k_{\lambda}(x,x_{i})}{\sum_{j=1}^{N}k_{\lambda}(x,x_{j})},1\leq i\leq N

多维的情况下,写成矩阵形式就是k_{\lambda}(x,x_{i})=D\left(\frac{(x-x_{i})^{'}A(x-x_{i})}{\lambda}\right),其中A为正定对角阵,然后我们就可以加权了。

2. 局部方法

(1) 一般概念

我们有数据集D=\{(x_{i},y_{i}),1\leq i\leq N\},然后定义函数族\mathcal{F}=\{f(x|\theta),\theta\in\Theta\}。再定义损失函数\mathcal{L}(y,f(x)), 我们的目标就是最小化\sum_{i}\mathcal{L}(y_{i},f(x_{i}))

相应的引入了加权的概念之后,我们就可以定义加权损失函数:\sum_{i}\frac{k_{\lambda}(x,x_{i})}{\sum_{j=1}^{N}k_{\lambda}(x,x_{j})}\mathcal{L}(y_{i},f(x_{i}|\theta)),然后对于每个x做优化,寻找使其最小化的\theta

(2) 具体例子

(i) 局部回归: y=f(x|\theta)=\theta'x=\sum_{j=1}^{p}\theta_{j}x_{j},则损失函数为\sum_{1}^{N}\bar{k}_{\lambda}(x,x_{i})[y_{i}-f(x_{i}|\theta)]^{2},其中\bar{k}_{\lambda}(x,x_{i})代表已经归一化的权重。

在线性的情况下,我们有\sum_{1}^{N}\bar{k}_{\lambda}(x,x_{i})[y_{i}-\sum_{1}^{p}\theta_{j}x_{ij}]^{2},有点类似于我们常见的加权最小二乘法。这里的思想也是,在x点附近的点权重会比较大,离x远的权重则比较小,整体感觉就是在x点附近做了一个回归分析。

(ii) 局部似然:和局部回归蛮像的,只是把损失函数换成(对数)似然函数,即从最大化 \sum_{1}^{N}\log P(y_{i}|x_{i},\theta)到现在的最大化加权似然函数\sum_{1}^{N}\bar{k}_{\lambda}(x,x_{i})\log P(y_{i}|x_{i},\theta)

3. 密度估计与分类

(1) 密度与分类: 我们有x和观测结果G的联合分布:P(x,G)=P(G)P(x|G),其中p(G)为先验的结果分布,在有K类结果的情况下,写成\pi_{k}=P(G=k)。这样,也可以写开为P_{k}(x)=P(x|G=k), 其中1\leq k\leq K

反过来,后验概率P(G|x)=\frac{P(G,x)}{P(x)}=\frac{\pi_{k}P_{k}(x)}{\sum_{1}^{K}\pi_{l}P_{l}(x)},所以我们有贝叶斯分类器\hat{G}=\arg\max P(G|x)

(2) 密度估计

为了使用贝叶斯分类器,我们需要先对密度进行估计。

(i) 直方图: 最简单的就是根据直方图来估计密度,这个没什么好说的...

(ii) 核估计方法(Parzen):Parzen提出的核密度估计为\hat{f(x)}=\frac{1}{N}k_{\lambda}\left(\frac{\left\Vert x-x_{i}\right\Vert ^{2}}{\lambda}\right)=\frac{1}{N}\sum_{i=1}^{N}\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{(x-x_{i})^{2}}{2\sigma^{2}}},该估计当N\rightarrow\infty\sigma在减小的时候,收敛于f(x)

4. 核作为基函数

密度函数f(x)=\sum_{i=1}^{N}w_{i}k_{\lambda}\left(\frac{\left\Vert x-x_{i}\right\Vert ^{2}}{\lambda}\right),然后定义函数族\mathcal{F}=\{\sum_{i=1}^{N}w_{i}k\left(\frac{\left\Vert x-x_{i}\right\Vert ^{2}}{\lambda}\right)\},则其中w_{i}我iyigexianxingde参数,k为指定的函数类,\lambda亦为函数参数。这样的话我们有三个函数的参数,指定某一个便可以简化函数形式。不过这里的问题是,没有很好的算法来求解优化问题。比如对于正态分布,我们以写出来\min_{\{w_{i}\},\{\sigma_{j}\},\{\mu_{j}\}}\mathcal{L}=\min_{\{w_{i}\},\{\sigma_{j}\},\{\mu_{j}\}}\sum_{i=1}^{N}(y_{i}-\sum_{j=1}^{m}w_{j}\frac{1}{\sqrt{2\pi\sigma_{j}^{2}}}e^{-\frac{(x_{i}-\mu_{j})^{2}}{2\sigma_{j}^{2}}}),然后的求解就比较复杂了。

上面的两个是非参数方法,下面说一些参数方法。

(iii) 混合模型(GMM, Gauss Mixed Model)

f(x|\theta)=\sum_{k=1}^{K}\pi_{k}\frac{1}{\sqrt{2\pi\sigma_{k}^{2}}}e^{-\frac{(x-\mu_{k})^{2}}{2\sigma_{k}^{2}}},其中参数有\theta=\{\{\pi_{k}\},\{\mu_{k}\},\{\sigma_{k}\}\},然后可以利用最大似然准则,最大化\prod_{i=1}^{N}f(x_{i}|\theta)=\max_{\theta}\sum_{i=1}^{N}\log f(x_{i}|\theta),具体算法可用EM,下节课详述。

-----稍稍跑题------

GMM,我印象中它怎么是 Generalized Moment Method, 广义矩估计呢?果然是被计量经济学祸害太深了...


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *