≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十三）

本学期最后一堂课的笔记...就这样，每周上班的时候都没有惦念的了，我是有多么喜欢教室和课堂呀。或者说，真的是太习惯学校的生活方式了吧...

这一节主要是在上一节的基础上，介绍一些可加模型或者树模型的相关（改进）方法。

MARS

MARS全称为Multivarible Adaptive Regression Splines，看名字就能猜出来大致他是做啥的。MARS这家伙与CART一脉相承（话说CART的竞争对手就是大名鼎鼎的C4.5）。不过，还是先说一下MARS到底是怎么玩的吧。

数据集依旧记作，然后就是splines的思想：我们定义，其中和，画出图形来就是:

这样就可以定义I函数了：，以及，越来越有spines味道了是不是？

之后就是定义f函数：，然后有意思的就来了：是中函数或者几个函数的乘积，选定了之后我们就可以用最小二乘法来求解相应的了。然后在接下来的每一步，我们都添加这样，一步步的，就开始增长。当我们用完了之后，显然有

over-fit的嫌疑，所以开始逐步的减少一些——考虑移除那些对减少残差平方和贡献比较小的项目。沿着cross-validation的思路，就可以定义函数。

PRIM

PRIM的全称为Patient Rule Induction Method，呃看名字貌似是一种比较耐心的一步步递归的方法。果不其然，最开始就是我们要先定义“削皮”：选取区间内任意的，比如0.1，然后开始削皮～削皮的策略大概就是，选定一个维度，去掉这个维度比如最大10\%或者最小10\%的样本，然后看剩余部分的y均值有没有增长。总共有p个维度，所以我们有中削皮法。选择其中上升最高的方法，削皮。然后继续来一遍，直到不能再增长的时候，停止，最终得到一块“精华”（贪心的算法）。之后，我们又要开始粘贴，即再贴上去一块儿，看看是否能涨。这样我们得到一个区，区域均值为。