被标记为计量模型的文章

[RAAT]第一话:微博的数据该怎么玩呢?

引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。 新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢? links类数据 微博有两大类links: 粉丝关系 评论与转发关系 然后呢然后呢? 首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。 嗯,这样一个基...

查看全文

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference? 当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。 这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。 对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个...

查看全文

关于PCAIDS模型的一点简介/A Brief Introduction to the PCAIDS Model

[2009.7.25] 1 Introduction Recently, I had to stop all the other works and have focused on the empirical test of a horizontal merge. Although, in fact, I'm not as interesting in this topic as some others, like the analysis of reputation and motivation and the empirical test of micro foundations for macroeconomics,  there is no [...]

...

查看全文

达则兼济天下, 穷则独善其身。 …… 或曰,兼济则达,独善则穷。

我正在关注的:

社会网络,信息传递,实验经济学,小额贷款...

一点点声明

怕下次找不到门?直接google“落园”呗。

落园是我的非学术博客,只是为了娱乐大众。如果您对学术感兴趣,请移步我的英文博客或查看我的简历

最近寻找新工作中,欢迎推荐机会!我的介绍见这儿

最近常常出没的城市:

沪三角(上海、杭州等)、珠三角(珠海、深圳、香港等)、另加西安、成都。如有这些地方的朋友,欢迎提前邮件联系,一起聊聊相互学习 ^_^