overfit – 落园

今儿跑代码的百无聊赖的时间，看了一下昨天收藏的周志华老师的一个演讲：Boosting 25周年。链接在这里：

http://vdisk.weibo.com/s/FcILTUAi9m111

对Adaboost之类的我已经忘得差不多了，还好有当年ESL的笔记可以翻翻。看周老师这张slide，基本上是总结了一下集成学习（ensemble learning）的大概思路。

按照这个思路，Boosting类和bagging以及random forests这种都算作ensemble learning了。然后在简单的回顾了adaboost的前世今生之后，抛出来一个有趣的问题：

理论上我们证明了，Adaboost在多轮学习之后会过拟合，可是为什么实践中很少看到过拟合的现象呢？

嗯...然后就是边界理论和统计观点的两种解释...我就不赘述了，大家去看周老师的slides就好。我好奇的其实是，overfitting本身是怎么可以用一个理论的方法来证明的呢...感觉不那么直观呢...好好奇啊，想找点相关的paper来看看，可又怕是另外一个大坑，上周那个实验设计的大坑还没填平或者弃坑呢。