社会实验的特殊性（二）

还真没想到这一题目居然被我一直写下来了，虽然已然时隔一月。今天想说的是偏社会实验设计的东西，起承于“费歇尔(Fisher)三原则”。当然，关于Fisher，建议大家读一下《女士品茶 (The Lady Testing Tea)》这本书，会得到更多的八卦故事以及他的思想的来源。

Fisher三原则是指实验设计的：1）随机化原则 2）重复原则 3）区组化原则。

我就沿用计量的术语了，第一个随机化原则大家都比较熟悉了，就是保证进行实验的时候实验组和对照组（如为对照实验）的同质性，也就是避免我们在将实验对象分组的时候分组不均、造成由样本偏差带来的实验对照结果偏差。从社会实验来看，实验的对象必然是人，那么人作为一个主动行为和决策的个体，自然会有非常强烈的个体之间的差异，这也是我在[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7]里面一直在说的问题。随机化最常见的就是lottery，比如彩票或者抽签的形式决定哪些人可以进入 treatment group、哪些人留作对照。这种方式最常见于小额贷款实验的实践中，因为他们想看一下有机会得到贷款（优惠）的人是否和其他人日后的生活有了显著的差异，从而证明小额贷款的意义。这种实验方法从技术和随机性原则来说并没有什么问题，但是在实践中却经常被口诛笔伐，毕竟有些优惠政策很吸引人、这样子的随机抽取而不是按需分配多少有点不道德的味道。关于疫苗、书籍等牵涉到一代人命运的分配更是如此，这样子随机实验的“机会成本”着实太高，谁也无力大规模承担。众所周知，由于种种原因印度成为了小额贷款等microcredit的优选试验田，因此有了这么一张经典的图片……

因此随机性原则说起来容易，但是很多时候还是有实践困难的，要不也不用RDD（Regression Discontinuity Design）等稍显复杂和依赖于更强假设的模型了（当然，某些时候RDD的假设也不是那么强……这个各种经典的实验分析方法日后另论）。

再说第二条“重复原则”，就是说实验可以被重复、然后结论经得起重复试验的检验。这种要求最常见于理科实验中，比如物理、生物、化学等。刚看到一条新闻说是“欧洲研究人员发现了难以解释的中微子超光速现象"，其中有这么一句“参与实验的瑞士伯尔尼大学的安东尼奥·伊拉蒂塔托说，他和同事被这一结果震惊了，他们随后反复观测到这个现象1.6万次，并仔细考虑了实验中其他各种因素的影响，认为这个观测结果站得住脚，于是决定将其公开”。我们姑且不论这个发现的物理意义和新闻的正确性，假设新闻是正确的，那么重复实验1.6万次就足以在大样本下排除实验每一次的一些随机性和测量误差，更充分和有说服力的证明一个实验结论的可靠性。这一条原则在社会实验中相对较难满足，因为每一次都是“独立重复”实验隐含着对于实验对象也要保持一模一样的要求。然而我们很难找到两群完全相同的人去做实验，比如我们今年找大一的学生做一次心理暗示教育，明年再做这个东西下一批学生多多少少就会有一些不同，三五年之后这种不同便更明显了。对同一群人做重复实验显然不可取，在经历了一次 treatment 之后实验个体已然发生了改变，不可能回到原来的起点重新做重复实验了。这也是社会实验面临的严格性挑战之一。最简单的，很多人说做博弈论的实验，觉得只需要一组两个人参与，然而看看实验经济学的paper有多少前后实验设计并无二致的实验进行之后结果迥异。这也是实验经济学就算是 lab experiment、不算 field experiment 也会出现各种争议的缘故。毕竟，实验的对象在变化，这样的重复实验并不是完全的“独立重复实验”。从社会实验来看，更多的只是能说一次结果，然后找一群我们认为关键的特征相似的人群做下一次实验。实验的不可完全重复性某种程度上决定了我们对于一次实验结果的internal validity和external validity的难以确保性，也就是说这种试点实验结果在多大程度上可以复制到所有我们感兴趣的人群中，还需心里预先打个折扣。我觉得，两次实验结果一致那真的有点纯属巧合了，不一致还是正常的。这也是很多时候我对于实验估计出来的marginal effect并不是特别的关心，只看一下数量级便是了，更关心的则是显著性。一般说来，几次相差不大的实验若是都能保证我们预期结论的显著成立，那么便可以考虑大规模的复制了。这也是社会实验和自然科学所无法比拟的严格性。

Fisher提出的最后一个原则是“区组化原则”，指的是“消除试验过程中的系统误差对试验结果的影响而遵守的一条规律”。这里要说的两个概念就是“随机误差”和“系统误差”，都和“测不准原则”有关系。随机误差大致是说我们不知道的随机因素造成的每一次实验结果的客观误差存在性，而对应的解决策略就是上面说到的“独立重复实验”。“系统误差”则是更多的在结果出来之后我们对其进行测量的时候带来的误差，比如最经典的测长度可能会由于尺子本身刻度不准的问题带来系统误差，即最简单的“仪器误差”。当然，系统误差还包括我们本身实验设计所依赖的理论要求和实验条件的差别，比如“热学实验中没有考虑散热所导致的热量损失，伏安法测电阻时没有考虑电表内阻对实验结果的影响等”，称之为“理论误差”。当然，“个人误差”也是客观存在的，指的是“由于观测者个人感官和运动器官的反应或习惯不同而产生的误差，它因人而异，并与观测者当时的精神状态有关”。区组化原则更多的就是为了消除/减轻系统误差的影响、提高实验的精确度而建立的一条原则。区组化的做法无外乎先把实验对象按照某种特征分组，使各组之内尽量同质，然后在此基础上每组分别随机抽样。这里多少有点和“分层抽样”的思想契合。从我的感觉来说，社会实验中我们对于这一点的强调相对少一些，除非是比如性别决定了实验方式需要区别（比如对丈夫和妻子要采取不用的treatment），要不大多数情况下常见的还是完全随机抽样。我的感觉来说，区组化原则更多的在于treatment的制定是不是完全相同，如果我们需要依赖于某种特质来制定treatment，那么分组再随机抽样就显得更为必要。当然我这里的理解可能和fisher的意思有一些偏差，但是实际中我们确实是要考虑，比如对于教育水平极低的人（甚至不识字）采用亲笔签名的方式来确认某项事情并不一定反映了其真实意愿，不见得有最传统的“按手印”来的有效。这里我更多的是想说区组化原则除了可以作为分层抽样的基础，更多的是一种制定实验手段的时候可以考虑一些实施中的实际困难、灵活应变，以保证在某些区组中不至于出现大规模的系统误差影响实验最终的平均意义上的效果。这更多的是一种事前的警觉性体现，事后往往修正就比较难了，实验不尽如人意也就在所难免了。

OK，今天就简单的回顾一下Fisher的实验设计三原则，感觉这些东西在最基础的统计学中都学过，估计大家也都有把这些作为“重点”概念熟记应付考试的经历，其实刚才很多名词我搜了一下出来的都是XX试题详解。其实“随机误差”“系统误差”这些东西说起来容易，先不论很多人只是为了考试，大多数人学这些概念思想的时候很少有同时确实在动手做实验的，哪怕是物理化学实验，更少有思考实验设计“为什么这样”的机会，很多东西大家都约定俗成了。而到了社会实验，面临的问题就更复杂和多元化，对这三原则自然也会有一些不同的解读和理解，大概也是走出象牙塔之后的一种进步吧。实践出真知，比证明多少次plim a= a或者E(u|x)=0都更有切身体验。除了数学公式的所确保的一致性，在一个实验的实践过程中确实有太多的环节可以导致结果的偏差了，尤其是系统误差。如果对这些可能的因素没有警觉，那么实验的设计缺陷可能进一步导致实验结论的稳健性下降。所以，设计实验的过程更多本身就是一种学习和积累经验的过程，然后这种积累到了一定程度，就会影响到理论的发展和进步吧。科学不就是这么一点点艰难的前进的？虽然经济学或者其他社会科学还称不上实验科学，但是这些思想的引入和考量我觉得还是有益无害的。