Tag: 实验设计

实验设计的原则与我的体会

Post author By Liyun
Post date October 21, 2014

Montgomery, Douglas (2013). Design and analysis of experiments (8th ed.). Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118146927.

嗯，我读的很慢，唉，求轻拍啊。

刚读完第一章...（默默的跪墙角了，第一章才23页，居然读了这么久！）。看到一些比较有意思的点，抄一下顺便罗嗦一下。

1. 实验设计的原则

基本上就三点吧：随机化、重复、分块（blocking）。

随机化没什么好讲的了，就是保证treatment的分配和其他各种可观测不可观测的variable之间相互独立、相互不受干扰。从我的理解，这大概是源于一条定理（下为简述）：
如果回归方程是，且，那么下面两式估计出来的（均值）一致、估计方差后者小。
1)
2)
所以如果我们保证了treatment和其他各种因素相互独立，就可以直接通过随机试验来读出treatment effect了。
重复。重复这里一方面可以广义的理解为“可重复研究”，另一方面其实很简单的就是样本量要足够（比如不停的抛硬币来判断硬币是不是均衡）。也就是说，只针对少数个体的实验可能受到各种随机外在因素的影响太大，而加大样本量（实验个体）有助于减少这样的误差、同时提高估计的精度。所以，重复更多的是，在相同（或者类似）的个体（情景）上重复同样的treatment/control。
分块。这个主要是排除一些样本间差异的影响。作者给的例子比较直接，有两批原料样本，然后做某种实验。两批原料可能由于批次、厂商不同，相互之间有些差别，但这种差别我们是不关心的。所以评估的时候，就把他们分开、每块单独评估。（或者理解为，回归方程里面加一个批次的dummy variable，然后算方差估计值的时候做一下cluster。

除上述三点之外，还有一个要注意的就是factorize，译作因子化？简单的来讲就是一分为二、是或者否。然后多个因子组合一下...

2. 实验设计的一些要点

这个就是高屋建瓴的说说咯。

利用自己在该领域的知识。否则就是盲测？感觉这个有点像经济学里面强调structual model的那种感觉...
实验设计和分析越简单越好。不是什么高深的技巧都应该一股脑的放在实验设计上的...越高深适应性可能就越差。
认识到实际价值和统计显著性。这个就是说，统计上显著的，实际中不一定有意思。比如花了很大力气，证明了某个treatment effect是显著的，但是提升只有0.01%，却增加10%的成本，那就得不偿失了。
实验往往是递进的。几乎没有一次性的实验是完美的，我们往往是在渐进的实验过程中不断学习。一般第一次实验都是简单而广泛的，更多是一种尝试和探索大致方向。作者建议不要把多余25%的资源投入到第一次实验。

嗯...其实挺好玩的还是，虽然有很多繁琐的地方，但大致的原则和方向还是蛮清晰的。实验设计其实最大的区别就是，不是想尽办法用模型去套现有的数据（黑一下ML），而是想办法更好的搜集数据、从而进一步时间简洁有力的分析（simple, elegant and powerful）。

Tags 分块, 实验设计, 统计显著性, 递进, 重复, 随机化

读书有感

实验设计的大坑

我总觉得自己学过实验设计——而今却越来越不敢说这句话。这两天一直在感慨：

1. 最近发现一种可怕的感觉：越是学习越是深入了解一个领域，越觉得自己不知道的很多，而且是越来越多。于是越来越不敢对这个领域发表见解，给出的答案也往往越来越保守...

2. 忧伤的表示，那种问个问题直接扔几篇paper作为回答的童鞋，可不可以考虑一下小白的感受，至少先扔个综述来让我了解一下这个领域的概况好么...直接扔篇working paper来说你自己领悟其中奥秘吧，这是闹哪样....

嗯，这就是我现在对实验设计（experiment design）的感受...水很深。

感慨完了上面第2条，就去乖乖的google相关的知识了。首先从wiki下手：http://en.wikipedia.org/wiki/Design_of_experiments，事实证明我的选择是比较正确的...历史痕迹一览无遗：

Controlled experimentation on scurvy
Statistical experiments, following Charles S. Peirce
Randomized experiments
Optimal designs for regression models: Response surface methodology
Sequences of experiments

瞬间有种拨开云雾见月明的感觉，感觉终于有个清晰的脉络了，残留在脑海各处的零碎的问题终于有个线索可以慢慢追寻了。简单的理解一下这几个东西。

Controlled experimentation on scurvy：最开始的控制/对照实验的想法，很简单，就是把12个坏血病人分为六组，然后分别给了六种治疗办法。结果在一周之内，吃柑橘的那组就很快恢复了...所以这就是为什么维生素C叫做坑坏血酸的原因么？啊啊啊....我又跑题了。
Statistical experiments, following Charles S. Peirce: 到这个时候开始提出频率和概率的概念，开始强调随机化(randomization)。
Randomized experiments：这个时候开始出现随机、双盲、重复试验的概念。
Optimal designs for regression models: Response surface methodology. 这里就是从full factorial到response surface，即从多个可能的factor组合中中寻找最优response。第一步是普通的多因子实验，然后找出显著的因子。在此基础之上，进一步实施更为复杂的比如Central composite design，就是选取这些因子的中心点，run实验；然后保持所有其他因子不变，在一个因子中心点前后选两个点，来做二阶多项式拟合。重复此过程直到所有因子都被测试。
Sequences of experiments：这里就更加灵活，可以通过多期的实验方法来渐进优化。常见的如Multi-armed bandit problem, Gittins index and Optimal design。基本的idea是，按照上一期实验的结果来判断下一期实验的方向。近期的研究可以参考这篇：
Scott, Steven L. "A modern Bayesian look at the multi‐armed bandit." Applied Stochastic Models in Business and Industry 26.6 (2010): 639-658.

最后关于实验设计...貌似有本handbook式的教科书：

Montgomery, Douglas (2013). Design and analysis of experiments (8th ed.). Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118146927.

。。。。。。。。。。。。。。。。

瞬间觉得自己真是跳进了一个大坑。

Tags Response surface methodology, 动态实验, 双盲实验, 回归模型最优设计, 实验设计, 控制实验, 重复试验, 随机试验

读书有感

papers I read in eBay

只是罗列一些这一两年比较关注的具体领域。

自然语言处理与分词：看了很多分词类的算法，从字符匹配、MMSeg、HMM，到条件随机场之类。主要是为了提取关键词作为regressors。当然做这个一方面是好玩（周围很多朋友都在玩），另一方面也是不想被专家忽悠...嗯。另外就是TD-IDF、余弦相似度这些纯粹是为了不被忽悠。
稀疏矩阵：稀疏矩阵完全是从上面继承而来的，往往分词之后搞来一个很大很稀疏的矩阵，为了降低computational cost或者干脆就是考虑到computational capacity，这个不得不做，然后就可以开始奇异值分解了。后面恍然发现，这丫不就是adjancy list和matrix的区别么...顿时为自己的智商隐隐担忧。
近似计算方法：主要是binning methods，起因是觉得teradata算variance比较慢，所以看了一下能不能先binning再算variance以节省计算时间（说白了就是在teradata现有的map-reduce上想个更好的办法）。实用主义嘛。最后的感想就是，其实对于variance这种linear method，分布式已经蛮成熟了，在每一个map步能降低的computational time还是有限的...
异常点识别：这个主要是有段时间在研究怎么可以有效的去掉outlier，不让这些点干扰计算（尤其是涉及均值的）。当然基本的就是基于ranking，后面发现这东西水还蛮深的，牵扯到distance measurement，stratified sampling等等。
分布式计算：有段时间想了解一下Hadoop map reduce，所以去看了一些基本的分布式计算的东西。好吧，其实我还是觉得hadoop接口不够那么人性化，基于java的东西我还一时半会儿搞不定（从伪代码到代码到命令调度及debug还有好长的路要走...）。
实验设计：这个貌似一直都在断断续续的看一些文章，从基本的随机试验的思想到后面各种具体环节的实现，以及不理想状况下的一些修正（比如连续实验、网络中实验、spillover effects等）。最近在试图利用RDD来改善一些现有实验设计和评估，此外不时瞅一下有没有好玩的网络实验的机会。（对eBay 3.0无限期待中...）
贝叶斯网络：从MCMC开始的吧，陆陆续续看了好多马尔可夫网络和贝叶斯网络的东西，什么Belief Propagation。当然这里面也包括了Conditional Random Field这些语音识别、图像识别的基本原理和常用方法什么的。这也有种不被专家忽悠的想法，毕竟看来看去也就是这几种常见的算法的不同应用嘛。（修PGM那门课真的可以列作年度噩梦之一了...）
拍卖设计：这个完全是由于随便搜搜eBay基本上都牵扯到auction design，所以顺带看一下...总的大趋势还是排名在向一口价转变，多少也有种一手市场快速增长的感觉。哎，consumer theory大爱的东西啊。
社群识别：最近遇到一些这方面的挑战...一方面是clustering，另一方面是sparcification。总的感觉是，无论是稀疏矩阵还是矩阵稀疏化，都是去除噪音找到有用信号的过程...
协同过滤：其实collaborative filtering是很久以前看的了，当时工作需要（印象最深的就是IBM的三篇笔记）...现在感觉看过这类方法的好处就是，很多问题越来越能和后面接触到的直觉相契合，感觉很多具体的算法和想法实践都是在这个框架之下或简或繁的变化，万变难离其宗嗯。

总而言之，我觉得我越来越不像一个学经济学的孩子...可怜。好吧，这些最多算是紧跟潮流吧，很多东西回头看看也没觉得多有意思。

被一份工作逼到如此程度也算是奇葩了...哎。最近的感觉就是，我还是去关注一下business side的一些趋势吧，多看一些new business models，毕竟这才是真正创造出来价值的。

事儿关经济读书有感

一些实验设计的小聪明

主要是最近看到了一系列相似的文章，就忍不住说说这一系列文章的好玩之处。这一系列的文章主要是用假的CV来投简历，然后根据HR的电面反馈来探究CV中不同因素对于求职者的影响。当然一开始最关注的就是是不是就业市场中间有性别歧视——即给定两个能力一模一样工作经历也类似的，一男一女，难道女生会因为性别原因而遭受歧视么？

鼓捣出来这种折磨我们亲爱的各大企业HR的方法的就是芝加哥大学的Bertrand, Marianne和Mullainathan, Sendhil （其中后者已经转战到哈佛去了），以及他们那篇著名的AER论文：

Bertrand, Marianne and Mullainathan, Sendhil (2002). "Are Emily and Jane More Employable than Lakisha and Jamal? A Field Experiment on Labor Market Discrimination,". American Economic Review94 (4): 991. doi:10.1257/0002828042002561.

哎，可能开始接触计量经济学或者劳动经济学的，这都是逃不掉的一篇paper吧。idea 真的是很简单：搞一堆相似的简历，只是姓名和性别有所不同，然后投到各大公司，追踪反馈。这样就回答了那个本来看起来无法回答的问题：我们观察到的女性平均工资低于男性，是因为性别歧视还是因为女性的能力较男性差一些？在这里相似的简历代表求职者有着相似的能力，所以能力那个因素就变得可控了，只需要探究性别上的差别就可以了。这样就把一个本来没法做随机试验的内生性问题，巧妙的用另外一种实验设计来稍稍回答了（毕竟只是电面通知，而不是最终的录取。CV容易fake，面试就没办法了）。

结果这篇文章一出，因其idea简单、可行性好、成本低（找几个学生发发邮件就可以了），一下子受到很多被折磨经久的经济学研究者的青睐，然后类似的paper便如雨后春笋般的爆发——不仅仅是美国公司的HR开始遭殃，瞬间各国有着发paper需求的劳动经济学家们开始纷纷效仿、一拥而上，先是席卷欧洲大陆，然后亚洲自然也难以逃掉。嗯，于是就看到下面这些paper：

西班牙：Albert, Rocío, Lorenzo Escot Mangas, and José Andrés Fernández Cornejo. "A field experiment to study sex and age discrimination in selection processes for staff recruitment in the Spanish labor market." Papeles de trabajo del Instituto de Estudios Fiscales. Serie economía 20 (2008): 3-46.
澳大利亚：Booth, Alison, and Andrew Leigh. "Do employers discriminate by gender? A field experiment in female-dominated occupations." Economics Letters 107, no. 2 (2010): 236-238.
英国：Riach, Peter A., and Judith Rich. "An experimental investigation of sexual discrimination in hiring in the English labor market." Advances in Economic Analysis & Policy 6, no. 2 (2006): 1-20.
中国：Zhou, Xiangyi, Jie Zhang, and Xuetao Song. "Gender Discrimination in Hiring*: Evidence from 19,130 Resumes in China."
意大利：Patacchini, Eleonora, CEPR Giuseppe Ragusa, and LUISS Guido Carli. Unexplored Dimensions of Discrimination in Europe: Homosexuality and Physical Appearance. No. 9179. CEPR Discussion Papers, 2012.
“Duration Dependence and Labor Market Conditions: Theory and Evidence from a Field Experiment” (with Fabian Lange and Matthew J. Notowidigdo). Quarterly Journal of Economics, Forthcoming.

其他的我暂时没有搜了，已然觉得足够了。最后上一张中国劳动力市场的结果——怪不得现在研究劳动力市场都要把中国作为一个outlier呢，华夏女性实在是太强了！

Tags 内生性, 劳动经济学, 实验设计, 性别歧视, 简历, 计量经济学, 随机实验

互联网产业观察经济、IT观察与思考

那些埋伏在互联网公司的经济学家....

嗯啊，自从著名的微观经济学家Varian跑到google兼职之后（话说Varian这厮最著名的八卦，就是自己在买新彩电之前，各种搜集数据建立模型，然后经过各种最优化选择了最佳时点入手...不就是买个电视嘛，至于这么学以致用嘛~），经济学帝国主义展露出其雄心勃勃的志向——无底线的渗透到各个行业各个环节。有的披着数量分析的外衣，有的带着策略决策的高帽，总之就是各种高端各种名正言顺。然后看看他们发出的paper嘛，什么呀，还是economists这群人自己的逻辑规则。哎呀呀~

最近看AEA系列的文章，发现了两位埋伏在互联网公司的大神，Justin M.Rao和David H. Reiley，貌似原来都在Yahoo!后来一个跑到了google一个投奔了Microsoft。然后这俩人还到处在econ期刊上面灌水，嗯嗯，小小谴责一下~你们又不评tenure神马的，干嘛总抢有限的publication资源啊(好吧其实这俩明明是过着我羡慕而暂时不可得的生活...)。

本来先看到的是这俩人发在JEP上的，关于垃圾邮件的：

Rao, Justin M., and David H. Reiley. 2012. "The Economics of Spam." Journal of Economic Perspectives, 26(3): 87–110.

然后顺藤摸下去，找到了俩人的网站（作为具有geek气质的经济学家，这俩人果然都有独立网站~），然后就看到了更多的papers:

The Good News-Bad News Effect: Asymmetric Processing of Objective Information about Yourself (local copy) (joint with David Eil AEJ Microeconomics July 2011

Here, There and Everywhere: Correlated Online Behaviors Can Lead to Overestimates of the Effects of Advertising (local copy) (joint with Randall Lewis and David Reiley). Proceedings of World Wide Web Conference 2011 Research Papers

嗯嗯，这两篇看起来也很有意思（对他们研究NBA的那些文章表示~米有兴趣）。这三篇中，最符合我现在的迫切需求的就是最后一篇——在线行为中的相关性与互联网广告效果评估。米办法，现在整天对着各种评估，各种错综复杂让人经常抓狂。还是看看文章舒服一点。

现在开始说一下最后这篇文章。记得刚刚到eBay的时候，就有被问到，“怎么从correlation到casuality？”。当然，呃，计量注重的因果推断只是狭隘的统计意义上的因果，不过还是比correlation有着实质进步的。因果推断的方法，嗯，很多，只要解决了内生性问题，什么都好说。那么，好吧，最simple and elegant的就是随机分组实验了，因为是随机，所以分组变量一定是外生的，所以估计了一定是一致的。然后就是根植IV理念的一系列方法，然后就是对付无法观测变量的panel data方法...时序我实在是不了解，所以这里就不知道了（最悲哀的是为什么总被问到时序的问题啊，个体的数据是多么好的面板分析base啊，为什么一定要损失信息弄成一些时序指标呢？）。

回到文章。一开始作者就提到了互联网广告效果评估的一个经典“相关行为偏差”案例：

案例1：用户行为的相关性与估计偏差

Yahoo!在首页上为某大厂商展示了其品牌广告，之后评估由其带来的相关的关于该品牌的搜索行为。没有对照组的时候，他们使用用户在campaign开始前一个星期的各种浏览行为作为控制变量，然后发现campaign带来的提升效果约在871%到1198%之间，可谓 too good to believe。

然后大家就有疑虑了，作为一个经常访问Yahoo!的用户，自然相比于那些不怎么常来的人有更高的概率看到该广告（在线广告一般定义exposure，即被展现即作为treatment），而且他们作为资深用户更有可能去搜索一些关键词。这样，就出现了这两个变量的高度正相关——搜索却不是在线广告直接引起的，而是用户本身特性决定的。然后大家就会说了，那么干脆把campaign开始前用户的搜索行为也作为一个控制变量好了。但是这个东西实在是不稳定，每天之间波动实在是太大。

简单总结一下，就是被展现过广告的用户for sure会比那些没有展现的用户更活跃，所以本身就是一个selected sample，也没有很好的控制变量可以完全的消除这里的选择性样本问题。而在采用了随机对照试验之后，最终的估计量是5.4%，也就是说实际上直接由广告带来的相关搜索只有5.4%的提升量。

然后就有人说，哦，都是同一站点的行为嘛，自然可能相关性比较强。那么不同站点之间的行为，是不是行为之间的相关性就会比较弱一些呢？然后就不会这样干扰结果了？于是，作者进行了第二个实验。

案例2：网站之间交叉行为相关性

Yahoo!在Amazon上放了一段30秒的视频广告，以推销Yahoo的一项服务。然后他们发现，在接下来的一周之内，这些看到该广告用户的中，使用Yahoo!这项服务的用户大概提升到以前的3倍！可见这个广告是非常之有效啊！

然而有意思的是，在同样的时间段之内，另一组用户看到的是是一段政治广告。作为control group，这些用户对于该服务的使用量也差不多增加了2倍——也就是说，可能是其他的一些campaign或者用户的自然增长导致了活跃用户的增加，而不是直接的源于这段视频广告。对比之后，该广告的效果只能用“微乎其微”来形容了。

所以，不同网站之间的行为可能是高度交叉相关的，不能简单的忽略这种行为相关的可能性去采用一些简单的观测评估。否则，往往估计效果会大大的偏离实际。

案例3：广告会造福竞争对手？

一个在线服务商在Yahoo!上展示了2亿次广告，但是很可惜，Yahoo!无法追踪到该广告为服务商直接带来的用户转化量。不过“幸运”的是，在这段时间，他们追踪到了该服务商的一个竞争对手的新用户注册量。于是，“不幸”的结果发生了——看到广告的当天，用户更可能去注册竞争对手的网站用户。莫非，这段广告不仅仅让投放者收益，而且也造福了竞争对手？（比如促进了消费者对于一项新服务的认知度，我们习惯称之为正面的“溢出效应”）

还好，当时Yahoo!也设置了对照组，发现其实对照组的用户在这段时间之内也有很多人去竞争对手网站注册。所以其实这种溢出效应基本为零，不用担心啦~竞争对手用户数上升可能是与此同时其他促销或者广告行为的影响，与这段广告没什么关系的。

嗯，其实这篇paper本身米有什么technical的难度，稍稍学过一点本科计量经济学的应该都能顺利的看懂，不过几个案例还是蛮有说服力的。唯一稍稍遗憾的是，这篇文章的style还是太economist taste了，不是那么的符合业界人士的思维路径...

我想在此基础之上，稍稍多说几句关于“实验设计”的事儿。随机实验很简单的，解决了很多内生性相关性问题，是一个典型的“better data + simple method = better results"的例子。同样的，很多时候如果可能，提高数据的质量而不是寻求更复杂的模型，往往是解决问题最省力的办法。这里的数据质量不仅仅是说“除噪”这些基本功，而也包括数据是不是贴近分析目的设计和搜集的。去年写了一系列的“社会网络中的实验”，一直在说一个优雅的实验设计会带来多么优雅的分析。当然很多的时候，一些客观的现实问题导致实验也只能被优化到一个特定的层次。其实一直在想的是，连续的实验该怎么设计？

有的时候，因果关系不需要一次次的挖掘，实验也不需要每次都做，毕竟实验都是有成本的。如果能设计出来一系列优雅的实验，那么很多问题就可以一次性的干净利索的回答，不好么？不过既然在这里说到这些，说明日常的工作中还是存在很大改进余地的。嗯，有空间才有成长，挺好的~

p.s. 其他两篇papers也会稍后介绍~嗯嗯。

Tags 互联网广告, 内生性, 因果关系, 因果推断, 在线广告, 垃圾邮件, 实验设计, 微观经济学, 效果评估, 数据质量, 最优化, 溢出效应, 相关行为偏差, 经济学家, 经济学帝国主义, 计量经济学, 连续实验, 随机实验

1. 实验设计的原则

2. 实验设计的一些要点

案例1： 用户行为的相关性与估计偏差

案例2：网站之间交叉行为相关性

案例3：广告会造福竞争对手？

案例1：用户行为的相关性与估计偏差