Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(一)

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊。

这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听。确实是一本深入浅出讲data mining models的好书。作者网站上提供免费的电子版下载,爽!http://www-stat.stanford.edu/~tibs/ElemStatLearn/

从这周开始,如无意外我会每周更新课堂笔记。另一方面,也会加上自己的一些理解和实际工作中的感悟。此外,对于data mining感兴趣的,也可以去coursera听课~貌似这学期开的machine learning评价不错。我只在coursera上从众选了一门 「Model Thinking」,相对来说比较简单,但是相当的优雅!若有时间会再写写这门课的上课感受。笔记我会尽量用全部中文,但只是尽量...

------------课堂笔记开始--------

第一次上课,主要是导论,介绍这个领域的关注兴趣以及后续课程安排。对应本书的第一章。

1. 统计学习是?从数据中学习知识。简单地说,我们有一个想预测的结果(outcome),记为Y,可能是离散的也可能是连续的。同时,还有一些观察到的特征(feature),记为X,X既可能是一维的也可能是多维的。对于每一个观测个体,我们都会得到一个行向量,对应它的p个特征的观测值,以及一个观测到的结果值。如果总共有N个个体,那么我们对于每个个体都会得到这些值,则有为观测结果的列向量以及X (n*p)矩阵。这样的数据称之为训练数据集(training set)。这里更多是约定一些notation。

2. 统计学习分类?一般说来,我们有个观测到的结果Y,然后找到一个适合的模型根据X预测Y,这样的称之为有监督的学习(supervised learning)。而有些时候,Y是无法观测到的,那么只是通过X来学习,称之为无监督的学习(unsupervised learning)。这本书主要侧重有监督的学习。

3. 回归和分类器。这个主要和Y有关。如果Y为离散,比如红黄蓝不同颜色,则称之为分类器(学习模型);反之,若Y为连续,比如身高,则称之为回归(学习模型)。这里更多只是称谓上的区别。

4. 统计学习的任务?预测。通过什么来预测?学习模型(learning models)。按照什么来学习?需要一定的准则,比如最小均方误差MSE,适用于分类器的0-1准则等。基于这些准则、优化过的实现方法称之为算法。

5. 统计学习举例?

分类器:依据邮件发信人、内容、标题等判断是否为垃圾邮件;

回归:前列腺特异抗原(PSA)水平与癌症等因素的关系;

图形识别:手写字母的识别;

聚类:根据DNA序列判断样本的相似性,如亲子鉴定。

6. 课程安排顺序?

第二章,是对于有监督的学习模型的概览。

第三章和第四章将讨论线性回归模型和线性分类器。

第五章将讨论广义线性模型(GLM)。

第六章涉及kernel方法和局部回归。

第七章是模型评价与选择。

第八章是测侧重算法,比如最大似然估计,bootstrap等。本学期预计讲到这里。所以后面的我就暂时不列出了。

目测第二节开始将变得越来越难,前阵子自学第二章痛苦不已啊...一个LASSO就折磨了我好久。当时的读书笔记见:降维模型若干感悟

--------10.15补充---------

上周写的时候只是凭着记忆,笔记没在身边。今天重新翻了翻当时记下的课堂笔记,再补充一些吧。

第九章是可加模型,即

第十章是boosting模型

第十一章讨论神经网络

第十二章讨论支持向量机 (Support Vector Machine)

第十三章设计原型方法(Prototype)

第十四章从有监督的学习转到无监督的学习(即有X有Y->有X无Y)

第十五章讨论随机森林模型(Random Forest)

第十六章是集群学习

第十七章结构图模型

第十八章高维问题(我最近一直念叨的curse of dimensionality...今年搞笑诺贝尔奖也多少与此有关,见 http://www.guokr.com/article/344117/,还有一篇相关的paper

ps. 吴老师对于随机森林等等模型的评论也挺有意思的,大致是,大家都没搞清随机森林为什么效果这么好...而且这一类模型都是computatoinal intensive的,即有一个非常简单的idea然后借助大量的计算来实现。此外,这类方法更多有“猜”的感觉,无法知道来龙去脉,在现实中显得不那么intuitive...(不像econometrics那般致力于causality呢)。

Categories
读书有感

降维模型若干感悟

前几天集中爆发了一些email,直到最后和Frank兄提起,他说我应该去看一下 Adaptive Lasso,我才终于痛下决心开始看这方面的东西。先说说为啥开始看Lasso。

需求。大数据时代,任务有很多:

  • 理论层面,要有适应大数据的模型。一方面是数据量的增加(表现为个体记录的增长),一方面是数据维度的增加(简单的说就是回归方程右边的变量),让大数据这个任务变得格外艰巨(p.s. 这个不是我总结的,照抄上次ShanghaiR沙龙时候Ming的原话...话说我别的没记住,就这句话深深的印在脑海了,哎~)。
    • 数据量的增加,对应的是大样本理论。这个好玩的有很多,暂且不表。
    • 数据维数的增加,则需要相应的降维模型。你总不能在回归方程右边放入几千个变量,“维数灾难”啊...所以变量选择是个很好玩的话题。
  • 应用层面,一个模型性质再漂亮,你也要能算得出来才行是不是?
    • 首先就是要有个好的算法,比如在「统计学习那些事」中提及的LAR对于Lasso的巨大贡献。
    • 其次,什么分布式计算啊,并行计算啊,都成为热呼呼的实践问题(当然我还是go against那些不管三七二十一、直接软件中调用模型的。任何一个模型的假设和局限性都是应该首先考虑的,要不真不知道预测到哪里去了呢~)。

好吧,好久没用这么多层级了。只是昨天稍稍理了理思路,顺便写在这里,算作「感悟一」。

然后,说到底统计学还是为其他学科服务的(好吧,我是想说数据不是无源之水,总归有自己的背景,总归有在这个背景领域的人希望借助数据来解决的问题)。那么作为一种empirical method,统计模型关心的是什么呢?在被计量经济学熏陶外加祸害了若干年后,发现它本质还是为了经济学研究的一些目的服务的,所以关注的更多是consistency,大家张口闭口就是“变量外生性”...而这多少有些直觉+经验判断的东西。显然,统计模型不仅仅是计量经济学,昨天看「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」,大致的关于统计模型关心的判断标准的「感悟二」总结在这里:

  • consistency:这个还是逃不掉的,一致性在大样本下虽然比小样本的无偏要求来的弱得多(plim毕竟比期望算子好“操作”一些)。其实有一段时间我一直很抵触把计量经济学里面的causality叫做因果关系,学习计量模型的过程基本就是保证估计一致性的推导过程...想说的只是,真正的因果关系不是统计学就可以定义的,还是要回到学科本身。consistency更多包含着“internal validity”的味道,即一个结果可以期望在样本本身内重复实现。个人感觉,从经济学理论与实证研究的角度,这大概是计量经济学能达到的最多的程度了吧。再苛刻的因果真的就是经济理论本身的问题了。
  • accuracy: 统计还有一大任务,做预测。我们都知道OLS有的时候可以很简单的给出一个consistent的估计量,但是仅仅是均值意义上的估计还是不够的,对你还得给出个方差。这个方差就刻画了你的估计值是不是飘来飘去。我们当然希望一个方差比较小的估计量,所以大多数时候OLS是不能满足这样的要求的(顺便复习一下BLUE的那些条件)。
  • implementable: 有的时候我们可以用现有的数据、花费大量的时间,来拟合一个漂亮的模型。但是,模型不是放在那里就可以的,在实际应用中大家更关心的是,模型建立之后对于日后决策的指导作用。可能1000个自变量拟合出来的模型比20个好10%到20%,但是在实际应用中,20个变量显然更实用...同理,有些非线性模型漂亮的一塌糊涂,但是计算复杂度可能远远不是多项式级别的。这个时候,退而求其次也不失为一记良策。说到底,有的时候并不要求最完美的模型,总要在性能和效率之间取得一个平衡。
  • 当然说到prediction,这里更多的就有statistical learning的味道了。回归多少还算是supervised learning,至少脑海里大致有个印象什么是回归方程那一边的y。更多的时候,连y是什么都没有概念,所以就有了基于similarity的模型,比如clustering,比如协同过滤...不过有句话确实说的好(摘抄自「统计学习那些事」):

立新老师曾经有这么一句话:“If a method works well in practice, there must be some theoretical reasons for its success.” 如果一个模型在实践中表现的很好,那么一定有它好的原因。

所以基于上述三点(当然还有可能有更多的考虑),不同的模型对于不同的标准有着不同的达标水平。大家各有所长,用哪个还真得看实际任务的需求了。

「感悟三」,则是statistical learning (统计学习,有点机器学习的味道)的任务,这个是从「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」上照抄的:

  • 预测准确性要高:和上面的accuracy对应。
  • 发现有价值的预测变量:更有可能从归纳法回溯到演绎法,给出更多的insights。

最后的,稍稍偏数学一点。「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」里面第三章讲了很多Shrinkage Methods,关心的是varible selection(生物统计中feature selection)的问题。从大家最耳熟能详的stepwise(逐步回归),到ridge regression(岭回归),再到Lasso(或者把LAR也算进来)。基本说来,ridge和Lasso是在OLS基础上一个很有意思的变化。

  • OLS求解的最优化问题是:
  • ridge regression则是加了一个L2惩罚项,即 ,其中t是一个给定常数参数。
  • Lasso则是把这个L2变成了L1,即

就这么一个简简单单的变化,就有了后面那么多神奇的性质。「感悟四」就是,原来Lasso思想并不是那么复杂啊。

Categories
事儿关经济 读书有感

声誉溢价让资本市场波动愈演愈烈?

按说我一个不怎么研究finance的人,是没什么太多积淀来对这篇paper评头论足的。只是翻这一期AER的时候看到这篇文章了,感觉有点意思,所以简单的说说他的观点。感觉在成熟的资本市场(不包括中国),对于波动性的研究已经越来越细致,各种可能的因素对于市场的冲击都在其中。相比而言,不成熟的市场就有更多匪夷所思的套利机会,这也是很多量化工具切入点吧……不懂乱说,finance我总喜欢用寡头博弈去理解嗯。

Guerrieri, Veronica, and Péter Kondor. 2012. "Fund Managers, Career Concerns, and Asset Price Volatility." American Economic Review, 102(5): 1986–2017.

working paper版本可以直接点击上面的标题链接下载。

前几天的那篇讨论薪酬的paper类似,这篇只是更直接的在说基金经理的报酬,当然随着市场的不同有些假设也不大一样。

先说假设。可能大家都知道,金融圈有两种基金经理,靠数量模型的和靠搞市场关系的。前一种基本就是天天对着计算机,后一种则天天到处跑,然后做的就是去找企业的内幕消息。在这样的现实下,肯定有一部分经理对某些企业的违约情况有着更多的信息。

可惜市场永远是信息不对称的。投资者并不知道哪些人确切的有这些内部信息,他们只能参照这些基金经理以往的业绩来决定投资与否。久而久之,我们就见到了很多所谓的“大牌经理”,做到极致的有庞氏骗局的创立者Ponzi,当然他是直接融资了。随着时间的积累,基金经理之间形成了一些声誉之类的信息,可以向外传递。这东西和我们在淘宝买东西时候看到的卖家评价别无二致——亲,这个经理以前没赔过哦~ 很简单的道理,很多人为了规避风险往往会在淘宝选择大卖家,这样大卖家就借助自己既有的声誉可以设置更高的价格(关于在位者与进入者的博弈模型暂时不考虑,那个更符合最近京东和苏宁的故事,有空另外讲~),这就是所谓的“声誉溢价”了。声誉溢价会对基金经理有着正的激励,所以出于对职业发展的考虑他们的投资决策会有所影响——比如当风险极高的时候,一般会选择保守策略。

这篇文章很有意思,一般说来“高风险高收益”,换成人话就是“舍不得孩子套不住狼”,当企业的违约风险比较高的时候,其对应的(不违约时候)收益也应该比较高,这样就可以补偿这些基金经理被炒鱿鱼的风险。可是这不是一个静态的过程嘛,随着时间的流逝,大牌经理的声誉溢价会越来越多的影响投资者的决策,进而更多的影响基金经理的投资偏好(高风险还是低风险金融产品),进而“小流汇江海”,声誉溢价会带来金融市场本身波动的放大,于是我们看到金融市场的一起起风起云涌浪潮波动愈演愈烈。市场的过激反应,便有可能来源于这种声誉溢价。

简单的说,这篇文章得出的就是这么一个结论。放大冲击的波动示意图见下。

2013-12-09 16_55_23-guerrierikondor_nov7.pdf - Adobe Reader

让我简单的评价的话...嗯,就算有这么个channel,我们也无力从机制设计上改变什么。市场自然演化的结果。

Categories
互联网产业观察 读书有感

互联网广告评估的“不可能定理”?

题外话若干。本来是打算老老实实呆在家里,吃饱了睡,睡饱了吃,吃饱睡饱看奥运的。结果想起来有个电影还没看,搜了一下居然已经上映了,果断下手抢票。可怜唯一的一个场次还是晚上十点半,索性先写点东西再出门看电影嗯嗯。这么晚了,只能一个人去看了,真伤不起啊~

继续说Rao的paper。和昨天说到的那篇相关,这里还有一篇working paper也是在说在线广告的评估问题。

On the Near Impossibility of Measuring Advertising Effectiveness (joint with Randall Lewis)

先看paper中引用的几个数字:

1. 每天,美国人平均要看25-45分钟的电视广告,另加不计其数的户外广告和网络广告。
2. 一些商业报告指出,每年美国的广告业营业额大概在1730亿左右,等价于每人每年500刀。
3. 那么平均算下来,广告投放者每人每天得拿到净利润1.35刀才可以盈亏平衡。
4. 按照企业平均边际收益水平计算,这些大概会带来4-6刀的产品销售额。

嗯,也就是说,我们扪心自问——每天我所花费的钱中,至少有5刀是被广告影响的?而对于不同行业不同产品,比如快消品和汽车广告,前者可能在每个消费者上得到的收益差不多,而后者可能会相当极端——要么是数千数万的消费,要么就是0,波动蛮大的(即方差很大)。这样说来,广告投入到底花的值不值呢?这个评估命题显得有点错综复杂了。

Rao在Yahoo!的时候,他们做了25次在线广告的随机实验(对应广告费为近三百万刀),然后发现,就算是大样本实验,由于个体的差异性太大造成太多噪声,广告的效果可能被因此低估。很多广告主关心的问题,就算借助实验,可能也是无法完美回答的——平均的ROI可能达到50%,但是鉴于方差实在太大,95%的置信区间可能就异常之宽了。这样,显著性检验什么的就很难拒绝“0效果”的原假设了。

与此同时,不做随机实验,效果更加的不可信...总之就是,这东西确实太难评估了,不做实验完全不可信,做实验也没法特别完美精确的评估...呃,听起来就像一个互联网广告评估的“不可能定理”...在互联网这样可以很好的跟踪用户点击什么的平台都没法评估广告效果,那么传统媒介如户外广告什么的,是不是评估就成为了更加困难的任务了呢?哎,数据完全不给力啊...也难怪我们这些天天做事的人痛苦的挣扎在评估指标的各种纠结中...

不过这篇paper,看起来真没营养啊...果然还是econ出身的,marketing sense不是那么强烈...哎~以后还是看看marketing science的paper好了。

Categories
读书有感

主观评价与薪酬设计

本来心情大好的,在这一期AEJ:micro中拎出来两篇papers,准备好好研读的。第一篇关于online marketing的还好,长长的日志已经发出来了。但是这第二篇...我怎么选了一篇TSE(Toulouse School of Economics)的文章呢?自讨苦吃。

题目蛮诱人的,尤其对我这种热衷于机制设计游戏的孩子来说。

Maestri, Lucas. 2012. "Bonus Payments versus Efficiency Wages in the Repeated Principal-Agent Model with Subjective Evaluations". American Economic Journal: Microeconomics, 4(3): 34–56.

什么主观评价体系啊(原来都是看客观评价的),奖金激励啊,有效工资啊,重复PA博弈啊,看起来多么实际的劳动市场机制设计问题啊。然后呢?看到1/2处,我已经忍无可忍了。假设,也太多了吧。各种陈述,各种规则,各种各种最后得出来一些不怎么强的结论。耐着性子推了1/3的公式之后,终于忍无可忍了,直接扫文字,最后跳到conclusion了。

米有意思,大大的米有意思。Too economics to enjoy. 还是喜欢直觉比较强的文章,虽然某种程度上公式是逃不掉的。只是感觉,不够elegent吧。

我不知道应不应该复制一下conclusion,还是复制一下abstract吧。

We study an infinitely repeated principal-agent model with subjective evaluations. We compare the surplus in efficiency-wage equilibria and in bonus-payments equilibria. The agent receives a constant wage and is motivated by the threat of dismissal in efficiency-wage equilibria. The agent receives a bonus and quits the relationship after disagreements between his self-evaluation and the principal's performance appraisal in bonus-payments equilibria. We construct a class of equilibria with bonus payments that approach efficiency as patience increases. In contrast, payoffs from efficiency-wage equilibria are bounded away from the Pareto-payoff frontier for any discount factor.

让我对这篇paper没那么大耐心的另外一个原因是,新一期的Journal of Economic Perspectives也出了,还有一两篇有意思的paper可以读(尤其是一篇两个在业界的研究者搞出来的paper)。只是在这里简单记录一下好了。对TSE的风格,真的是让人越来越不喜欢了(虽然曾几何时,Laffont的那本书几乎成为桌案圣经...)。希望不是我开始越来越浮躁了吧?