Categories
事儿关经济

数据挖掘 vs 计量经济学 (Data Mining vs Econometrics)

先说一下免责声明:我在数据挖掘 (data mining)和计量经济学 (econometrics)两方面涉猎都不算深入。今天斗胆写这么一篇文章主要是最近在看data mining的东西,有一些小小的体会,故记录下来以备后用。

Data mining是最近几天热起来的东西,而由于其中文翻译又可译作“数据挖矿”,所以做data mining的人有的时候也被戏称为“矿工”。Data mining和近十几年的信息化潮流密不可分——若没有计算机在各行各业的大力应用,又怎么可能会有这么大规模的数据用来分析呢?简单的说,data mining有点“透过现象看本质”的味道,在大家还都在“雾里看花”的时候,data mining致力于“拨开云雾见月明”。当然一个最经典的例子就是“啤酒和尿布”,即经过统计发现男士购买尿布的时候也容易购买啤酒,所以把他们两个放在一起可以很有效的提升啤酒的销量。所以从我个人的浅薄理解来看,data mining更多的就是利用计算机高计算性能把大规模数据一一的进行模型匹配,然后按照我们制定的标准来返回最优的模型。

至于econometrics,它又想回答什么问题呢?我虽然一路经济学出身,计量却只是当工具学的,从未研究过怎么开发工具,这里只从应用计量经济学的角度来说说我看过的研究。嗯,我们可以说在计量经济学里面总是在做“回归分析”(regression analysis),即给定一个感兴趣的变量,把其他的可视作影响因子的东西扔到方程右边。从广义矩估计的角度来说,即在一阶距为0的前提下(小样本下无偏)、最小化二阶距为目标(OLS方法,欧几里德空间内的距离按||·||2来算)进行拟合。当然简单的回归一定是有问题的,得出的结果最多能说明两个变量之间的“(线性)相关性” (linear correlation)而无法提供进一步的原因:到底是由X导致了Y,还是有其他的因子同时作用于X和Y从而他们显示出一致的变化趋势。从经济学的角度,我们当然更感兴趣什么东西导致了Y,所以在大样本下从寻找一个consistent估计量的角度出发,我们一般要求X是外生的,要不就需要借助IV等其他方法了。如果所有的方程右边的变量都是外生的,那么我们就可以放心的说这里面有“计量上的因果关系(causality in econometrics,这里定义明确一点要不又要被Yihui兄等统计学出身的批判了)”。所以说到这里,我可以小心翼翼的说,econometrics毕竟是和经济学紧密相关的,所以我们感兴趣的是变量之间的“谁导致了谁”的关系,而寻求这种答案的途径之一就是让足够的数据来说话。从这个角度来说,我更倾向于把计量作为检验 (empirical check) 经济理论的一个工具。至于我们怎么可以保证X的外生性(exogeneity),那就是要具体问题具体分析了。两种主流的观点是要么依据一个经济理论中的structural的模型来进行估计,从而什么是外生的一目了然;要么做(随机)(田野)实验 (randomized field experiment)。我感觉近两年两者结合的趋势越来越多,毕竟做实验的那群人不是什么都不知道就去试一通,他们很多时候也是依照现有的经济理论进行随机化实验设计的。从这个角度来说,实验更是检验理论的一种途径了,先不论它可以在什么程度上回答一个(经济学)理论问题。

那么数据挖掘和计量经济学直接是冲突的、还是互补的、抑或其他呢?简单的一路看过去数据挖掘的介绍,譬如Wiki,大多数时候看到的是从计算机或者统计学出身的人写出来的方法论上的东西,缺少有人直接论及这东西和经济学是怎么结合的。我也只是粗粗的搜了一番,找到的只有一篇简短的文章:Data Mining in Economic Science,by Ad Feelders。先引用一下它开头引用的一段话:

Let neither measurement without theory nor theory without measurement dominate your mind, but rather contemplate a two-way interaction between the two, which will your thought processes stimulate to attain syntheses beyond a rational expectation!

Arnold Zellner

大意就是说“我们不应一味迷信数据不顾理论,但也不宜欢迎没有现实世界数据支撑的理论”。这篇文章不长,感觉作者可能是更偏向宏观经济学(macroeconomics)分析,所以例子都是宏观中经典的譬如体现凯恩斯主义的IS-LM模型。作者的观点是,很多经济理论并没有直接的给出一个特定的模型设定,所以数据挖掘的方法可以用来选择最优的模型(依稀记得某宏观经济学家曾在上世纪90年代就一一试过1700多个线性模型……当然现在看来他的分析难逃内生性问题的争议,不过这大概是我所知道的最早的和数据挖掘思想相近的尝试吧)。后面还提到时间序列分析VAR模型(vector auto-regression),这个我有点不喜欢VAR的思想,所以不再多做评议。

回到那个啤酒尿布的例子,我想到的是,确实,这个统计结果出来之后经济学家可以很容易的解释“为什么”,但是经济学理论却难以告诉我们在某个(微观)实例中到底反映这种理论力量的“是什么和什么”。与我来说,经济学的 explanatory power已经很强大,但是具体到一个可以操作的层面还是需要其他技术来支撑的。如果我们可以通过数据挖掘在找寻可能存在关系的两个变量(此例中啤酒和尿布),那么就可以依据经济学理论进行可能的解释,然后还可以进一步设计随机对照试验,分析试验结果则是计量的用武之地了。

嗯,这大概是我刚刚接触数据挖掘的一点感触,不知道几分正确几分错误,或许若干年后回头看就会觉得有些幼稚了。最后想说的是,从我个人的观点来说,经济理论能告诉大家的更多的是“为什么”,在这个很general的基础上,我们可以进一步尝试的去回答在某个例子中到底“是什么”。最后无论使用线性模型进行回归分析还是其他的模型设定都好,数据挖掘技术可以在这个方面推进工作的进展、帮助我们更好的理解数据和读懂数据、在浩繁的数据海洋中提取最有力的信号,剩下的可能就是经济学进行分析的工作了(当然我是从纯经济学角度出发说这个话的)。从这个角度而言,数据挖掘和计量经济学更是一种相互裨益的感觉,前者更多是一种思想吧~矿工嘛,先挖挖试试看。

[注:我只是从自己的所学出发随便说说,其间必有偏颇之处,还望各位海涵及不吝拍砖!]

4 replies on “数据挖掘 vs 计量经济学 (Data Mining vs Econometrics)”

Comments are closed.