LoveR!
- 发布 于 April 26th, 2010
- 归类 在 事儿关经济
我终于对Stata忍无可忍了。这种软件我真的不知道为什么有这么多大牛们在用着。我始终难以忍受它奇怪的语法,实在想不出发明它的人到底是怎么一个程序员背景可以想得出这么诡异的命令模式。相比而言,R的血统多正啊~
R, you are my loveR! 这么经典的东西,怎么会没有人用呢?R很难学吗?我不觉得。相反,这是我学了这么多统计/数学软件中学的最快的了。看看package的说明和例子马上就可以用了,那些高级的用不到的技巧也不用去理会。所以现在用R用的我真的是很舒服,很舒服……飘飘欲仙。
好吧,那些对计量里面一堆堆矩阵望而却步、却又不得不写论文的可怜孩子们,转投R的怀抱吧!当你发觉那些看似高深的模型只是一行R命令的时候,会觉得真是扬眉吐气。
当然,我这么说不是希望大家都不去关注计量理论,相反我最痛恨的就是遍布各大垃圾期刊的滥用计量经济学做分析的文章。但是直接学那些计量理论多枯燥啊,还是先拿数据来把玩把玩,然后咱边对着数据寻找经济直觉,边结合计量理论,正所谓理论联系实践,嘿嘿。
好了,不废话了,其实我只是剧透一下,我们COS项目组的一系列普及R的文档都会陆续的在网上发布了,包括运筹学里面常用的最优化的方法、数据挖掘和计量等等等等。是不是看起来很高深呢?怎么会嘛,我们的目标是普及嘛!所以这些文档大都是“问题导向”型的,专注于各种问题的处理而不是理论的推导。所以会让你觉得R原来不是那么神秘,不是一个打开之后只能让你对着界面发呆的黑盒子,它实际上是非常强大而且友好的。嘿嘿,是不是越来越期待了呢?
吊足了大家胃口,我也该拿出一点实际的东西来了。首先是我们这个项目组的一些情况。目前大概是在COS(统计之都)论坛的几位版主亲历/倾力而作,除了我之外都是非常资深的R用户,却有着把复杂变简单的神奇魔力。更难得的是,我们大家奉承的理念都是“知识是拿来共享的”,所以这次发布的文档都将是免费的,我们意在挑战传统的出版模式。传统不意味着不好,但是它流通的速度确实比较慢。以我负责的关于计量的小册子来说,因为我是边写边发布的,所以不可能等到全部写完再出版。我们希望这样的一种模式可以扩大统计之都论坛的影响力,同时让大家真正节约时间和成本去了解R这么一个优秀的软件。
其次呢,我就放出来一个目录让大家看看,是我现在完成的部分的目录。我们目前正在加紧施工,希望尽快的做好发布页面。
最后呢,我连序言都一并贴出来好了……请点入文章查看。
第一章 熟悉R
1.1 数据的导入 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 数据分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 平均值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 线性回归(普通最小二乘法,OLS) . . . . . . . . . . . . . . . . . . . . 8
1.3 作回归图像 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 点预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 多元线性回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 保存和编辑代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 寻求帮助 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
第二章 从截面数据分析说起
2.1 参数检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.1 t检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 F检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 置信区间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 虚拟变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 按性质分组 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2 按数量值分组 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.3 交叉项 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.4 指定参照组 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 异方差检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.1 BP检验(Breusch-Pagan Test) . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 怀特检验(White test for heteroskedasticity) . . . . . . . . . . . . . . . . 20
2.5 稳健标准差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 加权最小二乘估计(WLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.1 扰动项形式已知 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.2 可行广义最小二乘法(Feasible GLS, FGLS) . . . . . . . . . . . . . . . . 22
2.7 广义线性估计(GLM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7.1 最大似然估计(Maximum Likelihood Estimation, MLE) . . . . . . . . . . 25
2.7.2 Probit和Logit模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7.3 Tobit模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.4 有序的probit/logit模型(Ordered Logit/Probit) . . . . . . . . . . . . . 27
2.8 计数模型(Count Model) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.8.1 泊松回归( Poisson Regression Model) . . . . . . . . . . . . . . . . . . . 28
2.8.2 过度离散数据检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8.3 负二项回归模型(negative binomial regression) . . . . . . . . . . . . . 30
2.8.4 零膨胀泊松模型(Zero-inflated Poisson Model, ZIP) . . . . . . . . . . . . 30
2.9 选择性样本问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.9.1 Heckit模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.10 联立方程模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.10.1 两阶段最小二乘法(2SLS)和工具变量法 . . . . . . . . . . . . . . . . . . . 33
2.10.2 联立方程模型估计:似不相关回归法(Seemingly Unrelated Regression) . . . 34
2.11 代理变量(Proxy Variables) . . . . . . . 35
在经济学分析中不可避免的要和数据打交道,而目前数据分析中最主要的工具就是计量经济学。数据源于现实,而对待数据的态度方面,我更欣赏凯恩斯的观点:从数据中寻找直觉(注1):既不是单纯的从计量的结果中寻求观点的佐证,也不是从归纳的角度来推理因果关系。这有些和“散点图是最好的统计图形”的观点有些不谋而合。但是数据本身的特性并不是简简单单的可以肉眼扫视原始数据(raw data) 就可以得出的,这个时候借助计量这个分析工具更有利于我们发现隐藏在原始数据背后的蛛丝马迹,进而寻求灵感。因此,玩转数据是做经济学研究必不可少的一个环节。有句话说得好:Let's get our hands dirty with data first!
当然做计量的时候很依赖计算机软件,常用的有Eviews、Stata、SPSS、SAS等。可以看出,这和统计学中常用的软件惊人的一致。追根溯源,计量经济学本来就是从数理统计学中的回归分析等渐渐延伸出来的,所以其方法在统计软件中可以很容易的实现。近几年R的快速蓬勃发展使之成为了最前沿的统计软件,由于其良好的拓展性,大量的免费的包(package)的出现使得R足以胜任最潮流的统计分析工作。因此,R也足以作为一个计量分析软件来处理计量经济学的问题。
我作为一个经济学专业的学生,机缘巧合接触到了R,并为之深深沉迷。2009年冬天在第二届中国R语言会议做了一个简单的“在计量和经济学中使用R”的报告后,感到有必要写一个简单的小册子,介绍各种计量经济学方法在R中的实现,也希望借此从丰富的实例数据中找寻更多的直觉。
这个小册子主要希望能对下列使用者有所裨益:
1. 想了解经济学和计量经济学分析方法的统计学学生,尤其是有至于转到经济学方向的。
2. 想使用更先进的统计软件R来分析计量经济问题的用户,尤其是想从Stata等转到R的。
因水平所限,这本小册子将会比较简单,着重于介绍各种方法对应的R包和实现,帮助从未使用过R的朋友们尽快的熟悉、了解和应用这款软件。学习一个软件最好的方法无非是多多使用,因此除了囊括大量的实例,我想不出更好的办法。这些例子有些来源于现有出版的计量经济学书籍(例如伍德里奇的《计量经济学导论》),也有些摘取于公开发表的论文。当然,这对我来说是一项浩瀚而繁重的工作,因此诸位朋友的帮助显得格外的珍贵。
从现有的关于计量经济学和R的书籍来说,从网上能找到几本英文的,大都是免费发行并具有非常高的质量。只是国内中文的资料还颇为零散。在撰写这个小册子的过程中,我参考了大量已有的成果并受益匪浅,也建议英文较好的朋友们直接去阅读相关的英文材料尤其是R包自带的介绍,相信会更深入的了解R。在这里特别要说的是AER(全称:Applied Econometrics with R)这个包,是配合同名的书发行的包。不过通过demo可以详尽的看到各个例子的R源代码,也带有丰富的数据集(来自格林的《计量经济分析》等有名的著作),是非常好的练手的包。
最后需要说明的是,这本小册子是我在担任统计之都中文论坛(http://bbs.cos.name) “经济统计版”版主的时候所撰写的。承蒙站长谢益辉和诸位骨干成员的大力帮助,此册子凝结了COS诸多成员的心血,换言之我只是一个代笔者而已。我们通过Git这个多人协作平台共同完善,也借助了Sweave包来结合R与LATEX (LYX)。这样高效且免费的开源平台使得我在撰写过程中受益匪浅,也使得本册子避免潜在的问题得以实现在互联网上的免费发行。
更多信息请期待我们的邮件订阅。
----------------
1参见《凯恩斯传》(Skidelsky, 2005)一书,国内有上海三联出版社的中文译本(蓝欣相& 储英, 2006)。
2我手头的是第三版的英文影印版,国内也有中文译本(中国人民大学出版社) 。目前已有英文第四版(Wooldridge, 2009)出版,国内也已经有相应的影印版。
Posted by Liyun
Trackback URL : trackback
刘思喆 April 26th, 2010 at 9:28 pm
这个是一定要支持的!
本来想再跟几句评语的,发现该说的都说到了,哈哈
回复此评论
Reply by cloudly
April 26th, 2010 at 9:32 pm
呵呵,还等着刘大哥的数据挖掘呢~不过慢慢来就好,我们先去做炮灰~
孺子牛 April 26th, 2010 at 9:45 pm
虽然不懂,但是还是要说:“辛苦了!”
回复此评论
Reply by cloudly
April 27th, 2010 at 2:31 am
呵呵,不辛苦不辛苦,我这本来就是敦促自己学习的一种方式,要不也没有动力看完一本书。以写促学咯。
魏太云 April 26th, 2010 at 11:12 pm
我之前还想着playeR, practiceR,真是土了~
LoveR,赞~
回复此评论
Reply by cloudly
April 27th, 2010 at 2:30 am
这个……嘿嘿,灵机一动了。
要选个以e或o结尾的词儿才有可能加上r成为名词,还不能太长,所以就很恶俗的挑了一个love。不过看起来还好哈@
谢益辉 April 27th, 2010 at 2:03 am
先占座赞一下!
回复此评论
Reply by cloudly
April 27th, 2010 at 2:28 am
刚看到gmail里面自动通知的时候,我还想谁大半夜不睡觉来留言呢,原来是大洋彼岸的……
睡觉去了……醒了再说……
skyphantasy November 17th, 2011 at 12:58 am
弱问下,《在R中玩转计量(Play Econometrics with R)》还会更新吗?
回复此评论
Reply by Liyun
November 17th, 2011 at 8:26 am
会更新的……一定会的。我一定会把这本书写完的。
nigel November 17th, 2011 at 10:59 am
非常好的一本书,现在这本书还没有写完么?
回复此评论
Reply by Liyun
November 17th, 2011 at 11:48 am
还没有啊~写了两三章才。
nigel November 17th, 2011 at 12:52 pm
继续努力,期待你的书!
以前用Matlab,Sas,现在了解下R,非常灵活和强大的一个软件。
原来我都out这么久了。。。
回复此评论