Categories
读书有感

读《中国国家治理的制度逻辑》的一些笔记

最近断断续续地读完了周雪光老师的《中国国家治理的制度逻辑》这本书。周老师很慷慨地把原版电子版放在了他的网站上,很清晰排版也很舒服。当然,最重要的是,我可以不用想方设法从国内扛书了。iPad 12.9'的屏幕基本和打印出来的大小差不多,配上apple pencil很方便地做笔记,我居然就把这本近400页的书花了一个月看完了。

周老师是社会学学者, 所以这本书基本从社会学的角度来分析很多现象背后的形成原理。我没想到的是,社会学近二十年大量吸收经济学的一些方法和框架,比如贯穿本书的“激励理论”,从博弈论和信息经济学的角度来分析很多机制设计方面的原理。还好我有点这方面的功底,所以看起来倒是顺其自然,可以很愉快地享受个中逻辑而不是纠结于方法论。看完的最大感慨就是,原来如此。很多看起来很突兀的、尤其是在网络上被炒作的沸沸扬扬的,其实都是一些组织结构演绎出来的表象而已。透过现象看本质,周老师这本书确实很能帮我理解关于中国政府治理的背后逻辑,探究很多事情的必然性。虽然理解了也不见得可以改变什么,但至少站在一个更高的层面看问题也是很有意思的。更何况,很多道理背后都是相通的,理解这些逻辑本身也有助于我理解身边的一些其他类似的问题,比如公司内部组织结构的逻辑。

读了这么久,边读边思考,也做了一些笔记。再敲打一遍键盘,一是巩固记忆,二则也是为日后重读此类著作加快一些回忆。

1. 中国的三级治理模式:委托-管理-代理,和“官场市场双竞争”

从周黎安提出的我国官员的“晋升锦标赛”制度,到从传统的“委托-代理”两级制度拓展出来的委托-管理-代理三级治理,这些框架很有助于理解很多现象的出现。中央政府作为最终的委托方,承载着整个国家的责任——“国家承担着对外保卫国土疆界, 对内维护社会安定、经济发展、提供公共产品等一系列责任。” 在中国如此大的国土面积、人口数量和经济复杂度之下,中央政府“大政府”的治理规模的巨大可见一斑。相比而言,很多西方国家都是“小政府”的角色,比如欧盟分散于每个国家,比如美国联邦政府其实权力有限。

治理规模巨大就会受到诸多约束:信息流通不完全、激励体制不单一,诸如此类。因此,中央政府不可能以一己之力来管理偌大的国家,只能依靠“行政发包制”来委托地方政府和基层机构执行具体的行动。以中国的治理规模,地方政府其实完全可以媲美一个西方国家的规模,所以在此基础之上,产生了地方政府和基层机构之间的直接的委托-代理制度。因地方政府继承的是中央政府总委托指标,所以在三级治理模式下,又称之为“管理者”,因为他们不仅有寻找代理人的责任,还需要完成监督。

这个三级框架和分工其实很有助于我理解中央政府和地方政府之间的模式。周黎安提出中国现行的是“官场+市场的双市场竞争模式”,而官场在这里就是地方政府之间的竞争。这是一个很有趣的模式,打破了竞争缺失导致的生产效率下降。而中央政府的存在,给地方官员一个明确的晋升激励指标,使得他们有动力发展好地方经济和执行中央的政策。地区之间的竞争使得资源的分配更加有效,而不是单一政府垄断资源。

还有一个有趣的点。管理方其实是要负责考核的。对应公司内部结构,其实我们也有很多考核团队的存在,比如data scientist或者analyst很多时候一项任务就是衡量产出的有效性。他们一般是作为独立的团队存在,从而可以把信息有效地传送给其他组织和领导部门,而不是把坏消息都藏起来。某种意义上,大公司里面也实现着类似的三级治理体制,只是以不同的职位名称体现出来罢了。比如product manager其实就是这框架下的管理方,而engineer则是真正的代理人。

2. 非正式谈判与人情世故

看中国社会和官场,经常大家予以诟病或者津津乐道的就是其中交织的错综复杂的社会关系,或者叫人情世故。“八项规定”以前,公款吃喝的泛滥不仅浪费政府资源,更带来官员家庭本身的分崩离析。那这些社会关系存在的道理又是什么呢?一个层面,它们提供的是一个“非正式谈判”的场合。

非正式谈判自然是相较于正式谈判。红头文件是正式谈判,官员会议是正式谈判。很多时候,当上面的政策难以避免一刀切的问题的时候,如何执行就成为了管理方和代理方的回旋空间。这时候,正式的谈判可能没法给予灵活执行的空间,于是大家就需要非正式的场合来进行斡旋。公款吃喝也好,甚至行贿受贿也好,某种意义上都是在反映非正式谈判的存在和灵活度空间。

换到一个企业内部的场景,其实大部分事情也是靠着正式的制度文书行事(最典型的就是有关法律和财务的管理条例),而很多时候非正式谈判的存在给予了资源分配的灵活性(比如不同团队之间人员和资源的交换,不同层级经理之间的非正式谈判,不同内部组织之间的划线)。理解每个角色的主要激励和灵活空间,才能更有效率地在一个大规模的组织中寻找出路。这也是为什么,很多人近似刻板和不近人情的风格,反而会产生副作用,甚至一事无成。

3. 地方政府的资源约束

很多国家基础建设项目都是中央和地方资金分成投入的,这就考验到地方政府的筹款能力。很多名目繁杂的罚款和地方性行政收入,甚至挪动专项资金,都是地方政府在筹款的时候不得不采取的一些非正常手段。最近有个有意思的反转——地方准备从电商那里找一些税钱,而政策宣布没多久,税务总局就“叫停电商补税”。猛一看,这不是自己打自己脸吗?这其实反映的正是中央和地方激励的不同。地方缺钱,自然要找各种名目增加收入。中央要考虑大局和维持稳定,自然不会任地方肆意胡来。但中央也不是不知道地方的财政困难,所以很多时候,在一定程度内地方是可以灵活获得财政收入的。

最有意思的是,这是一个“达摩克利斯之剑”。由于信息的不对称,地方不会知道中央政府的界限在那里。他们只能一点一点试探,直到出事,然后中央政府叫停。

4. “一刀切”的中央政策与地方政府和代理人的合谋行为

回到治理规模。中央在很多时候,统揽全局,而做出的政策难免没法适应地方的具体情形,多少有一刀切之嫌。地方在实行的时候,一般还是会因地制宜,寻找一些灵活性。“认认真真走过场,踏踏实实搞形式”,这句话虽然听起来搞笑,但是确实是一个适应现实状况的理智选择的结果。

而在“委托-管理-代理”三级体制下,地方政府作为管理者,其实是有激励和代理合谋的。屡见不鲜的重大生产事故的瞒报,其实就是地方和代理人合谋的一个体现。一荣俱荣,一损俱损,地方政府的利益和代理者并不是一直冲突的,他们要一起对中央政府交差。

看到这里,面对很多媒体新闻,有的时候就开始理解为什么曝光出来的地方政府的行径往往引得众怒。中央政府的利益和大部分人的利益一般是一致的,而经过筛选曝光出来的一般都是反例,其中地方政府和中央政府的利益不一致,立马暴露在光天化日之下。念及年初武汉的疫情,一批批官员的撤换,其实一方面是病毒本身确实超越了以往的记录,而另一方面则是公共卫生一直是中央对地方考核的红线之一,一旦出事,就可能引起一票否决。地方政府若是能控制住事态,自然不会希望中央政府知道所有的信息和情况。控制不住之后,后果就如此了。多少也是一场赌局。

5. 文化观念在国家治理的角色

周老师有一点总结得很妙。“维系一统体制的两个核心组织机制,一是官僚制度,二是观念制度。”通俗说来,前者是按照条文规则运转的行政机器,而后者则是这套系统运转的时候起来约定俗成的框架。这里和企业文化有异曲同工之处。很多公司都有“洗脑”似的宣传过程,我一度觉得这就是形式主义,直到看到一句话,“企业文化决定了当领导者不在的时候,人们如何按照一个默认的框架做决策”。虽不是完全赞同,但这本书里面确实把儒家文化在中国古代帝国统治中的作用点了出来。在一个信息闭塞的年代,如何上行下效,很多时候靠的就是文化体系的传承。诸子百家,为何占有着先进的工程技术的墨家未能弘扬光大?某种意义上,对于国家的统治的需求可能远远胜于对于科学技术的需求。如果把文化看作一种双刃剑,这种自上而下的法则是不是决定了中国封建帝国时期不可能有着科学发展的激励呢?

6. 运动型治理机制

这其实是另一个很有意思的现象。我们偶尔看到自上而下的大规模整风,作为群众可能不明觉厉,但其实内部逻辑是对正常运转的庞大的国家机器的调整。当现行的官僚体制过于臃肿且利益偏离于中央政府的时候,最高管理者就不得不借助整风运动,来对这个大型机器的运转方向和模式进行调整。但是,政治动员治标不治本,一般只是短时期的特殊行为,不会长久地干预整个官僚治理体系的运转,否则既有的规则被打破,很多事情就无法实行,对整体的伤害会是巨大的。

换言之,政治运动是中央政府的“划线”行动,防止地方政府过于偏离主体政策的范围,同时也是维持中央政府权威和控制力的方式。当然我们也曾经付出过代价——“而群众运动一旦与官僚体制分离,即使毛泽东的卡理斯玛权威亦难以驾驭(王绍光 2009[2005]),最后以“文化大革命”的形式而走向极端。”

卡理斯玛权威翻译的其实不好,英文原文是Charismatic authority,基于领袖个人魅力的统治权威。

此外,很多高级官员的踉跄入狱,除了确实违法的一些行为之外,也是多少与在灰色地带的越线操作有关。大部分时间可能是可行的,甚至后面会被认可为合法行为,而少数不幸者就此牺牲仕途,也是先锋的悲壮。

7. 短期激励、多重目标和长期一致

中国现行的晋升锦标赛制度有年龄限制,所以对于官员来说,他们的主要激励并不是在如何真正造福于人民群众这个中央政府的长期终极目标,而是如何完成短期的指标实现晋升。比如教育、环保等等,需要几个任期才能看到结果的投入,相比于招商引资这种立竿见影的改变,自然是后者更容易获得官员的青睐。此外, 虽然中央政府一揽子打包的时候,给出的往往是多重目标,包括经济、文化、卫生、环境等等,但最终实现的往往是经济目标,这也是印证了博弈论里面的一个经典结论——多重目标的时候,往往只能实现其中一个,比如教师面对的科研与教学双重任务。当整个考核体系偏向科研的时候,教师其实是没有激励来花很多精力在教学上的,除非本身热爱或者不努力甚至没法达到基本的考核线。美国很多大学里面有专门的“教学岗”,这些人只需要被考核教学而没有文章发表的需要,所以他们反而有可能给出更好的教学质量。

这一现象回到国家治理,就演绎出了“官员行为表现出“渐进搜寻”(serial search)—即在解决问题时采用依次比较方式而不是全面寻找最佳解决方案和“反复解决问题”(repeated attack)的特点, 其注意力集中在简单、渐进的评估,以及那些可以缓解此时此地直接压力的可行性方案上。” 这一现象对于很多人来说屡见不鲜吧,毕竟我们对于大多数事情也是得过且过,个人的精力终究是有限的。具体到企业环境,中层管理者一般是最典型的代表,他们并没有被激励着完成公司最高层领导的终极目标,而是花大部分时间在完成很多基本任务上,因考核制度而形成了过于重视短期激励的现象。我最初观察到类似现象的时候,感慨着资源浪费和重复劳动,却一度以为是人的问题而不是制度的问题。后面才发现,归根结底还是考核制度的短期性,以及其衍生效果——只有达标短期利益的人,才能一步步被晋升上去,而他们惯有的模式已经养成,最终只能恶性循环了。很多人乐于乘着风口飞,就算风口过了,还强烈地依赖着过去的既有模式,没有察觉环境的变化。或者他们察觉了,但是无力切换,就此陷住。一命二运三风水,其实很多时候也就说的是这个事情。人生很多事情在于选择,而不在于能力,也是挺悲伤的。

8. 微观治理结构的一些观察

最后两章,周老师讲到了“村”这一微观主体。我其实不知道,“镇”其实是官僚体制的末尾,而“村”则是一个行为主体的概念了。集体投资和负债就可以发生在村这一级,比如著名的华西村。村一方面受到政府管理的激励,比如政治任务的摊派(村村通公路这种),另一方面也直接面对资源约束。其中非正式的社会联系和人情往来,在微观层面就发挥了巨大的融会贯通作用,否则可能完全没有流动性了。

而村委会选举制度从走形式到真正给予村民权利,也反映了随着经济发展和社会结构改变,村这一单元有了越来越多的自治权,和村民的利益更为一致。民主的作用在此展现,反映了一个集体的核心利益。这一块具体到了微观实施层面,书中很多田野观察的案例,还是蛮有启发性的。

尾笔

我其实没想到自己会花这么久看完这本书。很多书我可能看一半就停了,因为很多主要道理在前1/2就已经理清楚了,后面只是陆陆续续的一些细节。这本书看完,一是对这个问题本身有很多我所不了解的背景知识铺垫,所以想多看一些。二是,疫情期间出门的时间减少,又不需要通勤,多出来的时间正适合看书。有时候挺感激在学校时候各种稀奇古怪的训练的,接触了很多分析问题的框架和角度。近几年的一些人生经历和观察正好需要结合分析框架来内化,所以看一些自己本不熟悉的领域也是一种乐事。

Categories
事儿关经济

Tirole,诺奖,激励理论

看到今年的诺奖经济学奖,不禁想矫情的回顾一段岁月。(非常矫情)

大三寒假那段格外失意的日子,翻开了拉丰的《激励理论》,从此迈入了Toulouse系基于信息经济学的宏大的委托代理框架。那个时候没有人开这门课,就一个人跑到图书馆里面借来这本书,然后采用最笨的方法:一页一页的抄。不仅仅是抄文字公式,连图都没有放过,一张张认真的临摹下来。这样的日子大概过了两三个月,终于抄完了这本书,其中还是懵懵懂懂的很多。然后决意写论文,就有了第一篇关于声誉制度的讨论的论文。边写边看,对激励理论的理解也就越发的深刻。后面再看Toulouse系的其他书,大都也是这个框架,只是具体问题的差异了。

时隔整整五年后的今天,再回忆那段日子,倒是觉得各种美妙的滋味难以言喻。那是每个“躲进小楼成一统,管他春夏与秋冬”的孤独的前行者都会体味到的美妙之处吧。时至今日,激励理论依旧是我分析问题很重要的一个角度,用博弈的角度看问题,有时候真是风景不同。

听,那年的风声依旧作作呢。

Categories
事儿关经济

从激励相容说起市场营销

以下为某天早晨打车来上班的十几分钟路上乱想到的,海涵。
---------------------------
有的时候我都觉得自己被microeconomics毒害太深...整个思维体系全是架构在其之上的,不管是最简单的供求和弹性之类,还是更强调互动的game theory...相比而言,我的macroeconomics直觉就差了很多了,除了能偶尔侃侃税制、社保和房市,我实在是不知道还有什么好关注的宏观经济动向。

大家都在一窝蜂的挤入金融市场,各种各样纷杂缭乱的手段都有,真是集各学科智慧于大成。所有人都在预测、预测。其实预测和信息这东西,只有在“你先于市场知道”的时候才有价值,你知道别人也知道,这信息就已经富含在预期里面了,价格就已经包含了这部分预期。前两天看到新华社一常驻纽约和纳斯达克证交所记者说,美股其实比较好预测——是的,几乎有什么新闻就有什么相应的反应。这也就是说对于大家都知道的信息,价格的反应是很有规律可循的。

看了那么多模型,我还是觉得金融的本质是博弈——你需要比别人先知先觉,不管是以什么方式。更有资本的,就是去找体制的漏洞,所以有索罗斯搅乱英国和香港汇率市场(商务印书馆的索罗斯三部曲不妨一读:金融炼金术、开放社会: 改革全球资本主义、索罗斯论全球化);或者引领市场,比如巴菲特对于投资的带动(我印象最深的就是比亚迪的案例了)。神话之所以成为神话,就是他们是领先而且不可复制的。机不可失,失不再来。

说了这么多金融市场,只是想多少建立一点概念:这个「机制」是一个多么神奇而好玩的东西。玩过魔兽或者三国杀的朋友们或许都对游戏平衡设计印象颇深,这是多么活生生的机制设计案例呀。扯回到市场营销嗯...

营销其实无非就是一个「投入、产出」的过程。你有一堆起始营销资源,然后投放到各个渠道,然后衡量一下各个渠道的投入产出比(ROI),然后根据产出决定下一期怎么优化后继续投入...这说起来和其他投资并无二致之处。对于不同层次的营销人员来说,区别可能是营销资源的量不同、资源的形式不同(钱,时间,精力,实体物质等),再就是可选的营销渠道不同、对于每个渠道的掌控能力和信息不同、ROI的衡量方式不同。这么再去看各种形式的营销,大致也就是在这个框架之内,没什么太神秘的。只是这个环节比较多分工比较细,大家在不同环节上努力罢了。

说个最常见的营销资源投放案例吧:我有一堆优惠券,怎么发放?(瞬间想起小时候去KFC门口,然后一个和蔼可亲的肯德基爷爷塞到我手中一把KFC优惠券的场景了...拿到券的瞬间就不会在KFC还是麦当劳这个问题上犹豫了)优惠券是个很神奇的东西,其实就是变相的价格歧视——有路子找到优惠券的可以享受更低廉的价格,而没有路子的就只能原价付款了。所以我们要找出来的目标群体无非就是:价格敏感的、在买与不买之间徘徊不绝的。这样才能发挥优惠券的最大功效嘛——你给那些一天三顿非KFC不吃的人发券有什么意义?他们本来也要来吃的。找到这样的合适群体,就是建立"参与约束";而使得合适群体做出你想要的行为,就是"激励相容"了。一个机制设计的成功,无非就是满足如上两点。

所以我现在在看到手里经过的分析任务之时,总会不自觉的去开一分钟小差考量一下,这东西满足"激励相容"么?然后默默的继续工作...同样的,经常会在收到各种促销短信邮件的时候,考察一下店家是不是足够聪明...如果有明显的套利机会(过度相容了),就会立马实行:比如某品牌的药妆,我每次都是在其淘宝旗舰店打5折的时候买一年的量囤着,然后等明年打折的时候再去买。类似的例子还有一些,基本就是在我的时间耐心与价格敏感之间寻的一个平衡点,然后就可以优化一下消费流。所以我一直觉得我是一个很符合"贴现效用最大化"的理性消费者...

还是说一个更让大家熟悉一点的参与约束和激励相容例子吧。我们一直期冀"我劝天公重抖擞,不拘一格降人才",但是又在求职和招人的时候不自觉的考量人家的学历。学历到底有多少含金量?学历不等于能力?

一方面,学历是你受教育的体现,也就是在取得学历的过程中完成了一定程度的知识积累。当然一定程度的学校录取证实了你一定程度的才智,但是也不是只有天才没有汗水就可以毕业的。更有意思的是,知识的积累往往是厚积而薄发,或者说是个非线性的...这也是为什么在衡量劳动者劳动价值的时候会放入受教育年限和其二次方的一个缘故(至少我是这么理解那个著名的xx公式中的二次方项的)。

另一方面,这也是一个信号:如果你是能力低下的人,那么完成学位需要付出的痛苦会有很多,这样就使得只有能力强一点的人才会选择更高的学历。因此,学历成为了能力的一个信号。

但问题也来了:这个信号区分度如何?显然是比较粗的。再者,这个机制的顺畅运行显然不仅仅是录取阶段的公平考核及没有经济负担能力等现实约束,而且更多是学习过程的努力付出。我隐约觉得中国的研究生扩招就是把两个重要环节的标准都放低了,所以这个信号的作用越来越差,噪音越来越多。研究生找工作难不单单是一个经济大形势和供给增加导致失衡的问题。

医保体制可以研究的就更多了,比如挂号费到底应该怎么设置才合理,医生的劳动价值怎么可以被体现出来...这都是微观经济学基础上的机制设计研究的问题。当然经济学也在脚踏实地的解决更多现实的问题。我一直觉得经济学给出的是抽茧剥丝分析问题的框架,而不像某些经济学家一天到晚只会在媒体上骇人听闻。我现在看到某些人的微博夸夸其谈的言论真是一阵胃里泛酸。

Categories
读书有感

主观评价与薪酬设计

本来心情大好的,在这一期AEJ:micro中拎出来两篇papers,准备好好研读的。第一篇关于online marketing的还好,长长的日志已经发出来了。但是这第二篇...我怎么选了一篇TSE(Toulouse School of Economics)的文章呢?自讨苦吃。

题目蛮诱人的,尤其对我这种热衷于机制设计游戏的孩子来说。

Maestri, Lucas. 2012. "Bonus Payments versus Efficiency Wages in the Repeated Principal-Agent Model with Subjective Evaluations". American Economic Journal: Microeconomics, 4(3): 34–56.

什么主观评价体系啊(原来都是看客观评价的),奖金激励啊,有效工资啊,重复PA博弈啊,看起来多么实际的劳动市场机制设计问题啊。然后呢?看到1/2处,我已经忍无可忍了。假设,也太多了吧。各种陈述,各种规则,各种各种最后得出来一些不怎么强的结论。耐着性子推了1/3的公式之后,终于忍无可忍了,直接扫文字,最后跳到conclusion了。

米有意思,大大的米有意思。Too economics to enjoy. 还是喜欢直觉比较强的文章,虽然某种程度上公式是逃不掉的。只是感觉,不够elegent吧。

我不知道应不应该复制一下conclusion,还是复制一下abstract吧。

We study an infinitely repeated principal-agent model with subjective evaluations. We compare the surplus in efficiency-wage equilibria and in bonus-payments equilibria. The agent receives a constant wage and is motivated by the threat of dismissal in efficiency-wage equilibria. The agent receives a bonus and quits the relationship after disagreements between his self-evaluation and the principal's performance appraisal in bonus-payments equilibria. We construct a class of equilibria with bonus payments that approach efficiency as patience increases. In contrast, payoffs from efficiency-wage equilibria are bounded away from the Pareto-payoff frontier for any discount factor.

让我对这篇paper没那么大耐心的另外一个原因是,新一期的Journal of Economic Perspectives也出了,还有一两篇有意思的paper可以读(尤其是一篇两个在业界的研究者搞出来的paper)。只是在这里简单记录一下好了。对TSE的风格,真的是让人越来越不喜欢了(虽然曾几何时,Laffont的那本书几乎成为桌案圣经...)。希望不是我开始越来越浮躁了吧?

Categories
事儿关经济 经济、IT观察与思考

社会实验的特殊性(二)

还真没想到这一题目居然被我一直写下来了,虽然已然时隔一月。今天想说的是偏社会实验设计的东西,起承于“费歇尔(Fisher)三原则”。当然,关于Fisher,建议大家读一下《女士品茶 (The Lady Testing Tea)》这本书,会得到更多的八卦故事以及他的思想的来源。

Fisher三原则是指实验设计的:1)随机化原则 2)重复原则 3)区组化原则。

我就沿用计量的术语了,第一个随机化原则大家都比较熟悉了,就是保证进行实验的时候实验组和对照组(如为对照实验)的同质性,也就是避免我们在将实验对象分组的时候分组不均、造成由样本偏差带来的实验对照结果偏差。从社会实验来看,实验的对象必然是人,那么人作为一个主动行为和决策的个体,自然会有非常强烈的个体之间的差异,这也是我在[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7]里面一直在说的问题。随机化最常见的就是lottery,比如彩票或者抽签的形式决定哪些人可以进入 treatment group、哪些人留作对照。这种方式最常见于小额贷款实验的实践中,因为他们想看一下有机会得到贷款(优惠)的人是否和其他人日后的生活有了显著的差异,从而证明小额贷款的意义。这种实验方法从技术和随机性原则来说并没有什么问题,但是在实践中却经常被口诛笔伐,毕竟有些优惠政策很吸引人、这样子的随机抽取而不是按需分配多少有点不道德的味道。关于疫苗、书籍等牵涉到一代人命运的分配更是如此,这样子随机实验的“机会成本”着实太高,谁也无力大规模承担。众所周知,由于种种原因印度成为了小额贷款等microcredit的优选试验田,因此有了这么一张经典的图片……

因此随机性原则说起来容易,但是很多时候还是有实践困难的,要不也不用RDD(Regression Discontinuity Design)等稍显复杂和依赖于更强假设的模型了(当然,某些时候RDD的假设也不是那么强……这个各种经典的实验分析方法日后另论)。

再说第二条“重复原则”,就是说实验可以被重复、然后结论经得起重复试验的检验。这种要求最常见于理科实验中,比如物理、生物、化学等。刚看到一条新闻说是“欧洲研究人员发现了难以解释的中微子超光速现象",其中有这么一句“参与实验的瑞士伯尔尼大学的安东尼奥·伊拉蒂塔托说,他和同事被这一结果震惊了,他们随后反复观测到这个现象1.6万次,并仔细考虑了实验中其他各种因素的影响,认为这个观测结果站得住脚,于是决定将其公开”。我们姑且不论这个发现的物理意义和新闻的正确性,假设新闻是正确的,那么重复实验1.6万次就足以在大样本下排除实验每一次的一些随机性和测量误差,更充分和有说服力的证明一个实验结论的可靠性。这一条原则在社会实验中相对较难满足,因为每一次都是“独立重复”实验隐含着对于实验对象也要保持一模一样的要求。然而我们很难找到两群完全相同的人去做实验,比如我们今年找大一的学生做一次心理暗示教育,明年再做这个东西下一批学生多多少少就会有一些不同,三五年之后这种不同便更明显了。对同一群人做重复实验显然不可取,在经历了一次 treatment 之后实验个体已然发生了改变,不可能回到原来的起点重新做重复实验了。这也是社会实验面临的严格性挑战之一。最简单的,很多人说做博弈论的实验,觉得只需要一组两个人参与,然而看看实验经济学的paper有多少前后实验设计并无二致的实验进行之后结果迥异。这也是实验经济学就算是 lab experiment、不算 field experiment 也会出现各种争议的缘故。毕竟,实验的对象在变化,这样的重复实验并不是完全的“独立重复实验”。从社会实验来看,更多的只是能说一次结果,然后找一群我们认为关键的特征相似的人群做下一次实验。实验的不可完全重复性某种程度上决定了我们对于一次实验结果的internal validity和external validity的难以确保性,也就是说这种试点实验结果在多大程度上可以复制到所有我们感兴趣的人群中,还需心里预先打个折扣。我觉得,两次实验结果一致那真的有点纯属巧合了,不一致还是正常的。这也是很多时候我对于实验估计出来的marginal effect并不是特别的关心,只看一下数量级便是了,更关心的则是显著性。一般说来,几次相差不大的实验若是都能保证我们预期结论的显著成立,那么便可以考虑大规模的复制了。这也是社会实验和自然科学所无法比拟的严格性。

Fisher提出的最后一个原则是“区组化原则”,指的是“消除试验过程中的系统误差对试验结果的影响而遵守的一条规律”。这里要说的两个概念就是“随机误差”和“系统误差”,都和“测不准原则”有关系。随机误差大致是说我们不知道的随机因素造成的每一次实验结果的客观误差存在性,而对应的解决策略就是上面说到的“独立重复实验”。“系统误差”则是更多的在结果出来之后我们对其进行测量的时候带来的误差,比如最经典的测长度可能会由于尺子本身刻度不准的问题带来系统误差,即最简单的“仪器误差”。当然,系统误差还包括我们本身实验设计所依赖的理论要求和实验条件的差别,比如“热学实验中没有考虑散热所导致的热量损失,伏安法测电阻时没有考虑电表内阻对实验结果的影响等”,称之为“理论误差”。当然,“个人误差”也是客观存在的,指的是“由于观测者个人感官和运动器官的反应或习惯不同而产生的误差,它因人而异,并与观测者当时的精神状态有关”。区组化原则更多的就是为了消除/减轻系统误差的影响、提高实验的精确度而建立的一条原则。区组化的做法无外乎先把实验对象按照某种特征分组,使各组之内尽量同质,然后在此基础上每组分别随机抽样。这里多少有点和“分层抽样”的思想契合。从我的感觉来说,社会实验中我们对于这一点的强调相对少一些,除非是比如性别决定了实验方式需要区别(比如对丈夫和妻子要采取不用的treatment),要不大多数情况下常见的还是完全随机抽样。我的感觉来说,区组化原则更多的在于treatment的制定是不是完全相同,如果我们需要依赖于某种特质来制定treatment,那么分组再随机抽样就显得更为必要。当然我这里的理解可能和fisher的意思有一些偏差,但是实际中我们确实是要考虑,比如对于教育水平极低的人(甚至不识字)采用亲笔签名的方式来确认某项事情并不一定反映了其真实意愿,不见得有最传统的“按手印”来的有效。这里我更多的是想说区组化原则除了可以作为分层抽样的基础,更多的是一种制定实验手段的时候可以考虑一些实施中的实际困难、灵活应变,以保证在某些区组中不至于出现大规模的系统误差影响实验最终的平均意义上的效果。这更多的是一种事前的警觉性体现,事后往往修正就比较难了,实验不尽如人意也就在所难免了。

OK,今天就简单的回顾一下Fisher的实验设计三原则,感觉这些东西在最基础的统计学中都学过,估计大家也都有把这些作为“重点”概念熟记应付考试的经历,其实刚才很多名词我搜了一下出来的都是XX试题详解。其实“随机误差”“系统误差”这些东西说起来容易,先不论很多人只是为了考试,大多数人学这些概念思想的时候很少有同时确实在动手做实验的,哪怕是物理化学实验,更少有思考实验设计“为什么这样”的机会,很多东西大家都约定俗成了。而到了社会实验,面临的问题就更复杂和多元化,对这三原则自然也会有一些不同的解读和理解,大概也是走出象牙塔之后的一种进步吧。实践出真知,比证明多少次plim a= a或者E(u|x)=0都更有切身体验。除了数学公式的所确保的一致性,在一个实验的实践过程中确实有太多的环节可以导致结果的偏差了,尤其是系统误差。如果对这些可能的因素没有警觉,那么实验的设计缺陷可能进一步导致实验结论的稳健性下降。所以,设计实验的过程更多本身就是一种学习和积累经验的过程,然后这种积累到了一定程度,就会影响到理论的发展和进步吧。科学不就是这么一点点艰难的前进的?虽然经济学或者其他社会科学还称不上实验科学,但是这些思想的引入和考量我觉得还是有益无害的。