Tag: B-splines

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十三）

Post author By Liyun
Post date January 13, 2013
3 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十三）

本学期最后一堂课的笔记...就这样，每周上班的时候都没有惦念的了，我是有多么喜欢教室和课堂呀。或者说，真的是太习惯学校的生活方式了吧...

这一节主要是在上一节的基础上，介绍一些可加模型或者树模型的相关（改进）方法。

MARS

MARS全称为Multivarible Adaptive Regression Splines，看名字就能猜出来大致他是做啥的。MARS这家伙与CART一脉相承（话说CART的竞争对手就是大名鼎鼎的C4.5）。不过，还是先说一下MARS到底是怎么玩的吧。

数据集依旧记作，然后就是splines的思想：我们定义，其中和，画出图形来就是:

这样就可以定义I函数了：，以及，越来越有spines味道了是不是？

之后就是定义f函数：，然后有意思的就来了：是中函数或者几个函数的乘积，选定了之后我们就可以用最小二乘法来求解相应的了。然后在接下来的每一步，我们都添加这样，一步步的，就开始增长。当我们用完了之后，显然有

over-fit的嫌疑，所以开始逐步的减少一些——考虑移除那些对减少残差平方和贡献比较小的项目。沿着cross-validation的思路，就可以定义函数。

PRIM

PRIM的全称为Patient Rule Induction Method，呃看名字貌似是一种比较耐心的一步步递归的方法。果不其然，最开始就是我们要先定义“削皮”：选取区间内任意的，比如0.1，然后开始削皮～削皮的策略大概就是，选定一个维度，去掉这个维度比如最大10\%或者最小10\%的样本，然后看剩余部分的y均值有没有增长。总共有p个维度，所以我们有中削皮法。选择其中上升最高的方法，削皮。然后继续来一遍，直到不能再增长的时候，停止，最终得到一块“精华”（贪心的算法）。之后，我们又要开始粘贴，即再贴上去一块儿，看看是否能涨。这样我们得到一个区，区域均值为。

从总体中扔掉这区中的样本，然后继续做下去，比如一共J次，得到J个区域（这些区域的空间可能是有交集的），这样的策略称为Bump-Hunting（肿块寻找），最终得到若干个区域，各区域中的样本均值作为（以第一次出现的空间为准）。

HME

HME的全称为Hierarchical Mixture of Experts，听起来像是一个智囊团的感觉。画出来呢，就是一个树的形状。

大致的思想就是，以概率分配到各个枝条（软分类器），这样有。对于最下面一层的expert

net，可以用分类树或者其他任何的分类器。对于HME，可用EM算法来解。两类的情形，就有，有点像logit的变形有没有？

一句话的总结呢，就是这些方法看上去合理，比较容易follow the intuition，但是树类的结构弄得很难用现有的方法证明原理和一些相关性质（完全非线性呀）。

模型的总结：广义线性模型和基函数模型

从第一章到第九章，我们探索了很多个模型。说到底，模型就是，然后我们有参数模型，其中，。

最简单的来说，就是线性模型，形式为，其中。显然，线性模型便是参数模型。

然后就是广义线性模型（GLM），我们可以先扩张x，就有。说到底，就是已知的把数据从空间映射到一个新的空间。然后还可以把y再广义化，用一个可逆的已知函数变成。这样，就有，最终说来和这两个空间实现了一种线性的映射关系。

接下来我们就会看到一种形状很类似的树模型，但不是GLM：。显然这里远非线性的，而且是变量。

接着参数化，我们就有，若未知，即可变，则非GLM。这类的模型更适合的名字是：自适应基函数模型，即我们试图构造一些可以自适应的基函数，然后通过其线性组合构造最终的模型。这类模型经典如：树模型、GMM（高斯混合模型）、神经网络等。

Tags B-splines, bootstrap, Bump-Hunting, cross-validation, HME, logit, MARS, PRIM, 决策树, 分类树, 回归树, 基函数, 广义线性模型, 树模型, 统计学习, 统计学习精要, 自适应基函数模型, 高斯混合模型

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（八）

Post author By Liyun
Post date December 6, 2012
1 Comment on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（八）

平滑splines

有数据集，然后定义目标函数，记为(1)

式。然后我们有如下结论：使（1）最小化的解一定是分段三次多项式。

证明如下。

记为函数族上的分段三次多项式（splines），且在首尾两段和上是一次多项式，那么他一定有的自由度。

若，则当时，有。

(2) 我们设也是(1)式的解，则下面证明一定能找到使得目标函数比小，则,

(3)记，则

(4) 下面我们证明，（两者内积为0），即。

且

所以得到。

(5)有了上述结论后，我们有，然后有，所以对于所有的g，我们都有其二阶导数的范数小于f的二阶导数的范数，故在(1)式中代入g总比代入f大（或者相等）。这样我们就把一个无限维的最优化问题变为了有限维。

子波分析

1. 函数的平移与缩放

平移：

缩放：

组合起来就是。由此，对于每个，我们可以定义一个函数族，写成矩阵形式就是

2. Hoar函数

(1)定义：。

(2)Hoar函数的平滑与缩放。定义Hoar函数族为,

。这样我们每个为一组（胖瘦一样）。

定理1（正交）：是平方可积函数的一个正交基，即对于任意的，有。

定理2（增长）：随着d的增加，张成的闭子空间逐渐增大，且。这样，d比较小的函数一定能用d比较大的函数（正交基）来表示，比如。直观的理解就是，d越大，分辨率越高。

定理3（完备）：

(3)定义，使，或者。

(4)定义，然后。

定理4：函数族,，则亦为完备基，且，如果。也就是说，和之间的空间随着d的增加，彼此正交，且所有的叠起来之后亦为完备空间。

如此，我们称为子波（mother）而为father函数。注意，这里Hoar函数非连续。

在更一般的场合，我们寻找为father函数，然后定义，满足（正交），且（增长），（完备）。

再寻找mother函数满足（同层次内正交）、(相邻层次正交补）和完备。

这样的和到底存不存在呢？实证结论是存在，而且很多，不过坏消息是他们的形式都不算简单。

spline和子波分析

spline和子波分析都提供了一组线性基底，其线性组合可以定义函数类。由此，我们可以定义广义线性模型的函数族，为统计学习模型的函数族做约束。

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（七）

Post author By Liyun
Post date November 24, 2012
1 Comment on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（七）

例行的废话。刚刚看了一下Google Analytics里面的统计，那篇七天搞定SAS果然不负众望的摘得了（单篇博文）点击量桂冠。意外的是居然有那么多人会点击到“关于我”这个页面...呃，对我这么好奇么？

2	/learning-sas-in-7-days-1/
3	/coursera上的r语言课程/
4	/r会议小记/
5	/使用lyxxetex编译中文tex和输出中文pdf/
6	/中文文本聚类小尝试（text-clustering-in-r）/
7	/me/
8	/?统计学习精要the-elements-of-statistical-learning?课堂笔记（一）/
9	/快速将word的doc文件转为latex！/
10	/?统计学习精要the-elements-of-statistical-learning?课堂笔记（三）/

不过他的后续就比较悲催了，点击量寥寥。然后还不出意外的，weibo超越google成为了流量来源第一：

1	weibo.com / referral
2	(direct) / (none)
3	baidu / organic
4	google / organic
5	rss / rss
6	r-ke.info / referral
7	cloudlychen.net / referral
8	h2w.iask.cn / referral
9	so.360.cn / referral
10	yihui.name / referral