落园 » 几个有趣的问题|专注经济视角下的互联网

几个有趣的问题

今儿跑代码的百无聊赖的时间,看了一下昨天收藏的周志华老师的一个演讲:Boosting 25周年。链接在这里:

http://vdisk.weibo.com/s/FcILTUAi9m111

对Adaboost之类的我已经忘得差不多了,还好有当年ESL的笔记可以翻翻。看周老师这张slide,基本上是总结了一下集成学习(ensemble learning)的大概思路。

2014-10-20 15_45_23-CCL2014_keynote-周志华.pdf按照这个思路,Boosting类和bagging以及random forests这种都算作ensemble learning了。然后在简单的回顾了adaboost的前世今生之后,抛出来一个有趣的问题:

理论上我们证明了,Adaboost在多轮学习之后会过拟合,可是为什么实践中很少看到过拟合的现象呢?

嗯...然后就是边界理论和统计观点的两种解释...我就不赘述了,大家去看周老师的slides就好。我好奇的其实是,overfitting本身是怎么可以用一个理论的方法来证明的呢...感觉不那么直观呢...好好奇啊,想找点相关的paper来看看,可又怕是另外一个大坑,上周那个实验设计的大坑还没填平或者弃坑呢。


Comments

  • youjian says:

    博主玩新浪微博吗? 就在推特看到你了


  • ecolss says:

    最近常逛落园,;-)
    我也喜欢ensemble method,random forest在多数情况下能给出不错的效果(基本不做任何feature engineering),gbm也很好(就是跑起来比random forest耗时很多)。
    记得当年拜读ESL时,ensemble效果奇好(random forest in particular)是以降低 variance达到的(bias-variance tradeoff)。
    话说文中提到adaboost,这个基本没有怎么用过,不过感觉exponential loss 在数据比较脏的情况下效果应该不怎么样了。
    话说cloudly平时经常用这些模型么?


  • boosting 25 years 报告链接失效啦!


Leave a Reply

Your email address will not be published. Required fields are marked *