Tag: 数据

把结论假设出来？——记郁彬讲座

一如前篇日志所述，这次帝都之行最大的收获就是有幸聆听了郁彬大神（Berkeley统计系主任）的讲座——还是自由交流式的，让人受益匪浅啊。走出来第一感觉：我要去读Ph.D。

或许以前也说过，最佩服的人就是能 show the beauty of what he/she is doing 的人。我是个极度喜欢美丽的事物的人，不论是那个领域。只要让我看到事物的美丽，那么热情就随之而来，拦也拦不住。幸运或者不幸，昨天郁彬教授恰恰向我展示了这一点。5555，顿时热血沸腾，各种激动。强心针不能长打啊，我脆弱的小心脏真不一定承受的了啊。

郁彬有些很经典的话，摘录于此：

1. “我一直努力的目标，就是不跟我不喜欢的人在一起”。多么的洒脱！是啊，你永远不可能让每个人都喜欢你，你也没必要去喜欢所有人，更没必要讨好什么。做自己喜欢的事情、让自己活得开心，这样就很好了。

2. “经济学者要负责任”。无可避免的，提到了经济学（后面紧接着还提到了social network，连中两枪的我表示格外happy）。确实，一个经济学的研究应该更负责任一些，不要制定了一个经济政策之后，无论好或者不好，都没法评价。那么，这样的事情做下去没有任何的事后风险，确实是不甚公允的。对此，我表示深深的赞同，我也希望有朝一日的经济学研究可以更贴近社会民生、更好的服务于经济发展而不仅仅是某些IQ超高人群的brain game。而且，不仅仅是更好的应用，从theory的角度也应该给出更好的应用指导。

3. “最好的证明，就是假设和结论离得比较远，让人眼前一亮。要不，你干脆把结论假设出来好了！”。确实是，很多时候我们写paper，假设一大堆，尤其是理论经济学那边。是啊，你只要承认我的假设，后面的结论肯定没有问题。关键是，这假设有没有道理呢？如果假设完全是空中花园，结论再美好又有什么意义呢？另外，如果假设和结论就差那么一两步，这样的文章又有多大的价值呢？好的theoretical的文章确实应该是，假设和结论乍看不相干，然后通过巧妙的逻辑推导严密的证明出来。这才是有用的嘛。（话说，数学家们喜欢争执的是definitions，更严格咯）

4. “相关和漂亮，我可能会选择相关”。爱美之心人皆有之，郁教授也一直在强调 enjoy the process not the results，但是很多时候 beautiful researches 并不是那么容易就可以达到的。诚然，我最喜欢的research就是， simple and elegant，但是这样的研究从来都不会是天上掉下来的，一定是不断的努力最后得到的。因此，我这里姑且理解为不能“好高骛远”，很多时候还是要静下心来慢慢沉淀，一点点突破，聚沙成塔。研究考验的不仅仅是人的聪明程度，还有耐心和毅力。一切的美好都是值得等待的。

5. 交叉学科。关于交叉学科，郁教授说了很多。她给我们分享她自己的辛酸历程，这才是今天可以站在聚光灯下的源泉。Title不是决定性因素，但是有的时候为了达到自己的科研目标不得不曲线救国。否则，空有一身本事但是科研资源不会自己找上门来的。郁教授在美国数十载，一步一步都走得那么艰辛，果然通往成功的道路从来都不会是一帆风顺的。失之东隅，收之桑榆，谁也不知道今日的失去明天会如何的pay back，但也不必因为一时的得失过于欣喜或悲伤。这大概就是，不以物喜，不以己悲吧。人生是一场马拉松，每个时刻，大家都在不停的努力，都需要一直去努力。另外，领域的选择，确实没有任何“随大流”的必要。只有自己喜欢的，才能做的卓越。还是，

做自己喜欢的事。

超级喜欢郁教授的坦率、直接和真诚。对我们这些还在、或者刚刚迈出校门的孩子们来说，这样的交流确实弥足珍贵。从来没有一个环境会是完美的，只是不同的环境会在人生不同的阶段提供不同的营养。我多少觉得，自己离开学校来到industry一段时间，是非常值得的（无法判定对错），而一开始选择一份与人打交道更多而不是天天面对数据的工作，也是让我受益匪浅的。很多事情，都要一点点的慢慢积累，路还长着呢，何必心急。只要时间不曾被浪费，就好。保持一颗看风景的心情，无论身在何方。

Thank you so much, Prof. Yu. I will go back to school and continue my research dreams one day, and hopefully, that day is not far away.

Tags Berkeley, 交叉学科, 假设, 应用, 数据, 洒脱, 科研, 经济政策, 统计, 统计学, 美丽, 美好, 证明, 负责任, 郁彬, 风景, 马拉松

互联网产业观察经济、IT观察与思考

[RAAT]第一话：微博的数据该怎么玩呢?

引言(即废话)：每当要准备presentation的时候，就会开始想一些问题。去年写的是【社会实验的特殊性】，然后有一系列的文字和最终的slides。现在，想多少从自己这大半年的工作经历出发，写一系列文章，就叫做 R as an analytical tool吧，简称RAAT。第一话，从微博入手好了；第二话，将由Joke童鞋过年时候问的一个问题引出；第三话，会是更偏向流程和实践的东西。这些我会一点点写，也可能有所改变，看到时候具体的想法了。

新浪微博也火了这么久了，但是对于吾等数据源控来说，这等数据简直不能被暴殄天物啊。怎么用来分析为好呢？

links类数据

微博有两大类links:

粉丝关系
评论与转发关系

然后呢然后呢？

首先很多人感兴趣的是信息传递吧？那么决定信息传递的就是，第一呢，每个用户的信息源（主要来自于他关注的其他微博用户）；第二呢，他关注的人的发布及转发行为。用粉丝关系来计算影响力（influential rank）自然是没有问题，但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是？所以，一个简单可行的思路是，这里不妨用其转发行为来加权，判断每个他关注的用户对于他的影响程度的不同～如是，则每个有向的link上就附加了一个权重，成为了一个加权的有向图。

嗯，这样一个基本的网络模型就构建好了。然后呢？链路预测？等等，我们关注并分析微博数据是为了什么呢？到底构建什么样的指标是合理的呢？

如果你想扩大自己的影响力...

好吧，在下作为一个老字号（落园居然被我坚持写到第6个年头了，这是一种什么精神啊~）blogger，自然可能希望多少扩大一下影响力。落园是落园，blog对我来说有它自己特殊的意义（比如发泄，呃），但是我的新浪微博就沦落为一个落园的notifier了（这个特别的理由就不在这里公开说了，私底下聊）。如是，那么应该怎么办呢？

正常的话，经营一个微博，怎么判断自己是不是越来越受欢迎了呢？显然，简简单单一个“粉丝数”还是不够的，用“转发数”为每个粉丝关系加权也还是不够的，我还得关注一下我的“粉丝”们都是一些什么样的人。比如，他们有几千+的粉丝，还会转发我的东西，那么我的影响力就～哈哈。简单的说，一个衡量指标可以是：我的微博可能会被多少人看到呢？那么，我只要算一下我的粉丝和他们转发的可能性，然后再算他们的粉丝转发他们微博的可能性，以此类推，我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言，这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然，类似的指标还可以构建很多，比如对response进行加权。看具体目的了。我的微博算个特例，因为它有一个特殊性：不转发任何其他微博（机器人自然要符合自己的身份嘛），所以我关注的指标相对单一——我是比较关注“信息能传递到的人”，而不是特别关心他们的response程度（话说最近关评论了，直接刺激大家转发啊，故需要另当别论了）。如果是商业经营一个微博，那么在内容的选择上或许就要更加迎合各自群体的口味，具体的是否可以用Bayesian规则来算算被转发概率呢（不断的update概率）？

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道（沟通成本低嘛），所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家，可以通过找寻自己会员的微博号，来得知他们最近的偏好，然后推荐相应的产品。电商也可以进一步的做一些销售活动，比如我的京东帐号和微博帐号绑定之后，是不是就可以直接留言给京东下单了呢？就像我打个电话似的那么方便。要是他搞什么团购之类的，我也可以直接在微博上买而不是跳转到京东复杂的页面上去，那该多好啊。

对于这样的目的，首要的任务就是找寻自己的用户群，然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外，初期还可以利用社交网络的力量，比如洲际和喜达屋集团都在做一些转发抽奖的活动，让已经关注他们的微博用户来扩散到他们的朋友（所谓物以类聚嘛，自然更有可能也是酒店常客），这样一来就已经实现了用户的识别。然后，怎么引诱这群会员是这些商家的长项，各种美图诱惑之下，让人经常在屋子里面各种坐不住（比如我...）。如果这些用户发一些信息，比如“下周飞北京”，那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户（先发制人啊）……反正至少我认识的玩酒店常客计划的人，都没有只专心的玩一家的。

跟R啥关系？

说了这么多，我们有了一些基本的建模思路。比如希望借助微博扩大影响力，那么最直接的办法：去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格，如果你相信市场是无摩擦的、处于均衡的，自然可以认为价格反映了其影响范围的大小。但是，首先市场就不是一个静态的，难免在动态潮流的波动下偏离均衡；再说怎么可能无摩擦呢，信息不对称总是到处存在的。因此，为了实现现有资金（或其他资源）的集约化投入，往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话，“物以类聚，人以群分”，很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面，如科学松鼠会往往会发布科普类知识，主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之，不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子，我们可以先利用微博的粉丝关系，建立起来一个网络图（更可利用转发情况来建立加权的有向网络）。这在R中可以利用SNA等package完成，或者Gephi之类的更专一的network analysis software。然后在此基础上，分析若干帐户发布的微博关键词（会用到一些text mining技术，其R中的实现可以参见思喆大哥的这篇指导：http://www.bjt.name/2012/03/text-mining-in-r/），然后找到一个或者若干个符合目标群体特征的微博帐户，在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题（think about real analysis...），而加权网络中计算这些并不困难（也可以加入随机的扰动项进行多次模拟得出结果）。最后，自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算，更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题，在R中无论是模拟还是求解都不是难事。最后结论会告知，哪些微博是应该去争取转发的（无论是通过金钱还是内容本身的意义去说服）。

类似的思路，能做的事情还有很多。譬如，哪怕是作为一个个体用户，我只关心某些事情发展的潮流（比如那些会影响股市的情绪），利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源（可能不是全部，或者出于实时性要求无法做到全量检测），即排除噪音，然后这些信息源所提供的信息便有可能给我一些方向上的指导，而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了，背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具，其已经提供的众多packages可以迅速的帮分析人员实现相应的想法，而不是把大量的时间用于无休止的编程以开发相应工具。这样，R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后，很多时候还需要评估效果（这里可以参见去年写的关于社会实验的东西：一、二、三、演讲幻灯片），这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告（简单的分析模型和结果重复可以利用已有的脚本，偏正式的报告可以借助当年的Sweave和进化版如knitr）。

总而言之，我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累，以及一些对于数据的敏锐直觉，而不是编程能力。若有想法便有其他人可以帮忙实现自然好，但是有时候一味的借助他人往往存在着时滞，一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作，只是找到这么一个完美团队的成本实在是太高，更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低，分工模式也会更加的偏向项目执行流程（比如分析->成熟模型->自动化系统），而不是在分析阶段就完全的实现了各展所长（那样对每个成员的要求可能都太高了~）。在效率和效果兼顾的现实情况中，R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然，有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力，而network的数据往往又是一个N*N维的（N为个体数量），更加大了对于空间计算量的需求。这方面，解决思路一方面是把线性的计算分块化、分批跑；对于非线性的计算，更多的则可能是先抽取一个小样本，然后确定一个或几个模型，最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

事儿关经济经济、IT观察与思考

社会实验的特殊性（三）

在上一篇[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7%ef%bc%88%e4%ba%8c%ef%bc%89]里面回顾了费歇尔的实验设计三原则之后，那么归根结底，我们为什么要做实验？

从一个纯经济学的角度来看，社会实验的目的之一就是在我们面对现有的数据受到各种局限、从而无法完美的回答我们关心的问题的时候（说到底还是各种内生性问题），采取的一种主动出击寻求答案的方式。故而，实验之前我们一般是有一个基本的思路和方向的，然后更多的想去看一下这个东西到底是不是在现实中就是这个样子。从这个角度而言，社会实验是在很明确的我们知道想得到什么信息的方向上去设计的。

说一下从我个人的感觉上的最大的在业界和在学术界的不同，可能就是data上。在学术界，难得会有非常好的data，所以很多的时候我们都是在有限的数据资源的基础上、去力求用最完美的方法估计我们感兴趣的值。数据源有限的原因有些是历史上的，比如我们研究几十年前的事情，自然当时没有电脑等东西可以完善的记录所有的事情；有些是数据本身的性质决定的，比如宏观里面常用的gdp等东西，中国的数据是1978年之后才有的，而且一般都是年度数据，更受限于国民统计汇总的层级汇报，自然会有一些测量偏差；有些是业界有数据，但是没法得到，这里就牵扯到一些隐私等法律权益、或者数据接口API等开放的幅度的问题；还有些是知道数据在哪里、也可以得到，但是成本太高，比如个人层面的数据，除了全民普查外很难有全覆盖的数据，一般只是小规模样本；最后的就是信息并不是直接以数字的方式记录的，比如twitter上面的用户微博记录，因此需要借助文本挖掘等手段进一步深究。

业界主要提供的就是第三类，大量的个人用户的数据，比如淘宝上各种买卖双方交易的数据。现在淘宝的交易量真的是非常大，而且每笔交易都是真实的现金往来的（我们不考虑非法的洗钱状况），其实背后对应的就是一个真实的微观交易的集合。但是这个交易数据怎么用？最简单的，我们可以看价格，对于同质品之间竞争已然白热化的，已然相差无几，那么价格几乎就等同于scanner price，可以用来衡量物价的波动。当然，网络交易有不同于实体交易的地方，比如受限于运输成本和采购的规模效应，肯定会和超市里的价格有所区别。另一方面，网络上的价格信息流动非常充分，越来越接近于理想中的完全竞争市场对于信息的要求，所以多少也让人兴奋。

另外一个有趣的数据可能就是微博，因为其实质上是一种“短平快”的信息传播渠道，会把信息通过简单的几个信息源极快的扩散到整个网络中去（所谓的influencer model）。所以现在很多人炒得很热的微博营销也是背后有着深刻的渊源的。但是同样的，信息传输成本降低的背后就是噪音的增加，因此对于微博的信息分析起来除了文本挖掘技术实现之外，就是怎么去在大量的噪音数据中寻找到有用的信息。从这个角度而言，就是在进行任何文本挖掘或者信息提取之前，是不是有一个主导的思路去明确的知道需要挖掘的信息。业界很多时候不是数据太少了，而是太多了，以至于大家根本不知道这些数据可以怎么用，所以data mining成为了救命稻草，一窝蜂的上去看看能不能挖到金矿。从我的角度看，每一个data mining算法背后必然是有一种主导的思想来支撑的，比如决策树，不过是分类统计最优化路径的感觉，这样的直觉还是蛮强的。所有数据分析的任务无外乎两个字：降维，怎么在一个多维的好烦的数据海中找到自己最感兴趣的数据，可能是几个变量之间的关系，可能是一个综合指标的创建。最简单的，GDP就是对于国民生产消费活动的降维衡量指标，所以他既然降维了自然有损失，能够多么真切的反应经济活动的现实就必然要打个折扣。

经济学里面常用的“降维”的方法就是回归，无论回归在统计学或者其他学科里面被批判的多么体无完肤，但是回归最大的好处在我看来就是最容易融入经济学直觉。在[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]里面我曾经提到一些最新的高维数据降维的算法，然而算法本身必然是有直觉甚至是（经济）理论来支撑的。当数据挖掘方法被应用在一个经济活动或者经济问题的时候，如果完全脱离了经济直觉和经济思维衍生的分析方法，我觉得未免有点太过于高傲了。有的时候，如果分析思路足够敏锐，那么基于这样思路的各种算法的出来的结果可能是殊途同归。正所谓“万变不离其宗”，这也是我觉得很多data mining的方法应该和经济学、商科的思维更好的融合在一起的缘故。就像挖矿，我们除了要有先进的挖掘机以外，事前的各种勘探和经验思路还是有非常大的价值的，至少可以降低找到金矿位置的成本、尤其是时间成本。这也是我觉得经济学在业界的应用天地断然不仅仅限于和金融相关的那些而已的缘故。

另外，如果“降维”说的广义一点，就是科学的目标。可能不同的人对科学有不同的定义，我除了喜欢一种“概率”角度的定义之外，刚看到一种定义也是蛮受启发的，

The object of science is the discovery of relations.., of which the complex may be deduced from the simple. John Pringle Nichol, 1840

然而，说到底，经济直觉总要来源于实践经验，只要经济学还是定位于“研究人类行为活动的科学”。实践中信息不足的时候，信息是制约的瓶颈，因此我们要借助更多的数学建模工具来力求完美精细的刻画现有的数据构成的轮廓。反之，如果数据是可选择的，那么更多的精力就应该放在如何去“选择”数据上。我认为，实验最大的好处就是数据完全是由实验设计阶段决定的，实验设计的好数据自然会更好的告诉我们所关心的答案。

忘了是哪位大牛在Handbook of Econometrics里面写的了，大意是“与其寻求更好的估计方法，不如寻找更高质量的数据”，言下之意就是在数据可以被“设计”而获得的情况下，我们可以把精力更多的放在实验设计而不是估计模型的选择上。我并不是一个纯粹的reduced form鼓吹者，相反，我是更欣赏structural model后面的经济学思维的。因此，在实验的方法被付诸实践之前，我更希望更多的按照一种经济学model的模式去考量这些问题，去更精巧的让实验告诉我们想知道的答案。除了社会实验的特殊性考量之外，必然的，我们没有任何理由抛弃现有的经济理论、尤其是微观经济理论去完全随意的“检查”几个变量之间的实验上的因果关系。且不论efficiency，社会实验的对象为参与经济活动的人、这一特质决定了我们在设计实验的时候便要充分利用现有对于人类行为的认识成果，更好的一步步设计实验的流程——可能不只是一次实验的流程，更多的是一环扣一环的一个个实验如何按部就班进行下去。一个动态的实验设计会更好的考量实验设计者对于经济学的理解，也是社会实验较之于费歇尔三原则下的自然科学实验、要求更高的方面之一。

事儿关经济

英文的神奇

可能是中文博客给过我种种神奇的经历了，所以现在已经见怪不怪了。但是英文博客却是好玩的紧，总有一些事儿出现让我觉得这个世界真的很神奇。

前几天更新了一篇日志，说的是我想写的一个题目，或者说我觉得足可以从本科毕业论文写到博士毕业论文的一个题目——如果我还有机会继续读下去并且打算拿到一个博士学位的话。没想到很快的就被某网站利用了，真神奇。如果不是trackback的机制，我估计也不知道原来还有如此神奇的事儿。可惜那个网站貌似是金融的，我在上面溜达了一圈实在没发现什么感兴趣的东西，而后灰溜溜的闪人了。

唯一有些疑惑的是，感觉那不是一个关于学术的网站……我就想难道我写的东西就这么的具有“广阔”的现实应用价值，以至于学术圈还未曾发现就被嗅觉灵敏的商业人士闻到了金钱的味道？真的是……（原谅我的自恋吧，哈哈。）

Fine... 最近一直在读凯恩斯的传记，实在是受益匪浅。这都读了一个月了，还没读完，不过万里长征也算是看到了尽头。凯恩斯的传记很有意思，越看到后面，搭在他的思想变化的脉搏上，就越让人感到兴奋。感触和体会真的很多，几乎每夜都在一种崇敬和兴奋交杂的心情中入眠。其实每天看完了都有一堆话想写下来的，可惜睡醒了就忘记了。简单的拎一点出来吧：对于数据的态度。书中提到“凯恩斯不是利用数据来证明自己的理论，也不是从数据中归纳出结论”，他有着非凡的数学才华，对于数据却更讲究直觉——“他从数据中发现问题、找寻灵感”。

“找寻灵感”说起来貌似也很容易，但是真正做起来往往就出现“做理论做得好的最后都转到计量去了”这种尴尬的境地。原来我一直坚持计量只能拿来作为论据辅佐证明理论模型的缺陷，但是看到凯恩斯的观点，才恍然大幅应该回归数据本源——我们生下来对于数据的态度，不就是如此吗？何必沉浸在计量方法的花里胡哨却忘记了我们为什么收集、分析数据？此言大有“一语点醒梦中人”的神奇功效。看到凯恩斯那种对于自己的理论谨小慎微的态度，才体悟到一个负责任的社会科学学家的态度。态度决定一切，不是吗？倘若都有此心，那么怎么会有dirty work甚至于学术腐败造假呢？

呃，华丽丽的跑题了。算了，先到这里吧，睡觉去了。

Tags 凯恩斯, 数学, 数据, 毕业论文, 灵感, 神奇, 英文, 计量