引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。 新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢? links类数据 微博有两大类links: 粉丝关系 评论与转发关系 然后呢然后呢? 首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。 嗯,这样一个基...
在上一篇社会实验的特殊性(二)里面回顾了费歇尔的实验设计三原则之后,那么归根结底,我们为什么要做实验? 从一个纯经济学的角度来看,社会实验的目的之一就是在我们面对现有的数据受到各种局限、从而无法完美的回答我们关心的问题的时候(说到底还是各种内生性问题),采取的一种主动出击寻求答案的方式。故而,实验之前我们一般是有一个基本的思路和方向的,然后更多的想去看一下这个东西到底是不是在现实中就是这个样子。从这个角度而言,社会实验是在很明确的我们知道想得到什么信息的方向上去设计的。 说一下从我个人的感觉上的最大的在业界和在学术界的不同,可能就是data上。在学术界,难得会有非常好的data,所以很多的时候我们都是在有限的数据资源的基础上、去力求用最完美的方法估计我们感兴趣的值。数据源有限的原因有些是历史上的,比如我们研究几十年前的事情,自然当时没有电脑等东西可以完善的记录所有的事情;有些是数据本身的性质决定的,比如宏观里面常用的gdp等东西,中国的数据是1978年之后才有的,而且一般都是年度数据,更受限于国民统计汇总的层级汇报,自然会有一些测量偏差;有些是业界有数据,但是没法得到,这里就牵扯到一些隐私等法律权益、或者...
可能是中文博客给过我种种神奇的经历了,所以现在已经见怪不怪了。但是英文博客却是好玩的紧,总有一些事儿出现让我觉得这个世界真的很神奇。 前几天更新了一篇日志,说的是我想写的一个题目,或者说我觉得足可以从本科毕业论文写到博士毕业论文的一个题目——如果我还有机会继续读下去并且打算拿到一个博士学位的话。没想到很快的就被某网站利用了,真神奇。如果不是trackback的机制,我估计也不知道原来还有如此神奇的事儿。可惜那个网站貌似是金融的,我在上面溜达了一圈实在没发现什么感兴趣的东西,而后灰溜溜的闪人了。 唯一有些疑惑的是,感觉那不是一个关于学术的网站……我就想难道我写的东西就这么的具有“广阔”的现实应用价值,以至于学术圈还未曾发现就被嗅觉灵敏的商业人士闻到了金钱的味道?真的是……(原谅我的自恋吧,哈哈。) Fine... 最近一直在读凯恩斯的传记,实在是受益匪浅。这都读了一个月了,还没读完,不过万里长征也算是看到了尽头。凯恩斯的传记很有意思,越看到后面,搭在他的思想变化的脉搏上,就越让人感到兴奋。感触和体会真的很多,几乎每夜都在一种崇敬和兴奋交杂的心情中入眠。其实每天看完了都有一堆话想写下来的,可惜睡醒了就忘记了。简单...
SPSS是著名的统计分析软件,与Eview和SAS齐名。近几年来,SPSS得到了快速的发展和广泛的应用,不断升级的版本号也能说明一定问题。最近我对统计软件比较感兴趣,先后安装了SPSS和SAS,并在尝试着做一些东西。
SPSS17刚刚发布不久,最值得称道的是多国语言版中自带了中文版,而且翻译得还不错。并且自带了相当丰富的数据库和教程。为了积累经验,今儿就在SPSS自带的中文教程演示下开始一步一步跟着爬了。
...