Tag: 预测

一些观察

Post author By Liyun
Post date June 17, 2014
1 Comment on 一些观察

随便写写，随便看看。

1. 关于研究方向。

读的paper多了，发现大多数人的研究路数无非两种：

一种是锚定一个问题，然后用尽各种办法来看哪种可解。换个通俗的就是，车坏了，找出一堆工具来看看怎么可以修好。
另一种则是，沿袭一套方法论的路数，试图解决越来越多的问题。通俗的讲，就是木工不满足于打打家具，还要去试试电工水工装修工。

你说孰优孰劣？没有高下之分。谁也说不好一篇好的研究到底是问题导向的还是方法论导向的。不过鉴于一般来讲方法论比较容易训练出来，所以有的时候看似包装的很漂亮的paper可能正是这个方法灵了然后倒回头来包装问题本身。

本以为这个只是看paper时候的感觉。后面发现，工作其实也不外乎如此。有的人凭着一门专业技能，比如编程，就可以在不同部门之间切换来切换去，反正总有需要用到编程的地方。有的人有一些具体问题，然后就广撒网找来各种背景的人帮忙解决。前者最后进化为技术专家，后者进化为大BOSS。

2. 关于建模

说到模型，反正上来都是那句至理名言：

没有模型是正确的，只有一些是有用的。

所以一切试图证明自己是真理的模型都是无用功。如果是真理，搞成体系那就叫他理论，可以慢慢证明就叫做定理，不证自明那就叫公理好了。反正我觉得说某个模型是正确的这种言论都是挺无聊的。

基于这一条，在实际商业环境中建模，就不要一开始给自己摆太高的期望。就跟上面说的，很多时候问题都是第一类人发现的，他们只是寻求有着不同技能的第二类人帮忙看一下，实践中谁好用就用谁。所以一群第二类人内部争来争去，什么机器学习流派啊、数理统计流派啊、计量帮啊、物理统计帮啊还是算命仙人这些其实都不那么重要...比如最近世界杯大家都在预测，那么不管你是章鱼还是小丸子还是霍金，只有预测对了大家才信你。

所以在学校里被某个流派洗脑洗的深入骨髓的，可以醒醒了。不要一上来就摆出自己是真理这样的架势。每个人在象牙塔里都是这么教的。

3. 关于统计建模

如果大家笃定就要用统计的方法了，那么要解决的问题就无非是：搜集数据（变量）、选择模型、修改参数以达到最优。

具体到项目，搜集数据这个肯定是大头。每个学过统计的都被教导过“garbage in, garbage out”。只可惜大部分老师讲完这句话之后，学生并没有多少机会实际的去搜集数据，或者更直接的去想要怎么搜集数据。大部分学校里面的训练（尤以网上数据挖掘竞赛之时）都是，数据集给定，怎么找个更好的模型来预测/评估/解释。真到了项目上需要搜集数据了，大部分人的做法无非就是先找张纸把想到的变量都分门别类列出来，然后把所有可能拿到的数据都扔进去试试，从简单的线性回归或者分类器开始，到非线性的各种模型都扔进去跑一遍，反正这年头计算能力不是瓶颈，总有合适的模型自己可以去做变量选择。

听到这里，貌似也挺好啊。是啊确实没什么不好，如果大家都有充足的时间慢慢玩的话。可惜的就是这种无脑流在大多数情况下都是受制约于时间的。于是为了省时间，要么就某些麻烦的数据不搜集了，要么就某些计算复杂的模型不去跑了。差不多就好了。解决问题了么？可能也差不多解决了70%-80%。

与此同时还有一类业务流派。这类人特别像医生似的，是某个具体领域的专家，专到什么程度呢？基本上他熟悉的地儿有个风吹草动都逃不过他的眼睛。直觉很准，或者说经验实在是太丰富了。跟这个流派的人一起工作很好玩，他们想到一个问题大概的给你指一个方向，大部分情况下八九不离十，差不多就可以把问题解决了。就算事后需要稍微建建数理模型多做一些分析和验证，基本也不会太麻烦。每当此时，不禁大呼一声畅快，瞬间觉得自己以前的思路真实的麻烦爆了。嗯，爽归爽，不过这种流派需要在一个领域浸淫比较长的时间，逃出他的领域就比较难说了。

4. 关于这些碎碎念

基本上就是想说，容易训练出来的都是不重要的...那些东西都进化很快，学术界不是白白养了一群人浪费的（虽然也挺浪费的），所以长江后浪一定会把前浪拍死在沙滩上。

与此同时，业务知识也不是那么重要的。经济环境变化太快，谁也不知道明天这个世界会变成什么样子。

那既然都是以不变应万变，那还是选一条比较开心的路子。总是需要合作的，这个世界已经复杂到没有可以一个人解决的问题了。

Tags 变量, 合作, 建模, 技术专家, 搜集数据, 方法论, 模型, 洗脑, 流派, 研究, 统计学, 编程, 计算能力, 预测

事儿关经济

R并行做大数据时间序列分析与bootstrap

Post author By Liyun
Post date October 15, 2012

好久没写关于经济学的文章了...今天看到两个搞matching的人拿到诺奖，瞬间想起当年和一个学心理学出身的童鞋一起搞的考虑到心理学因素的matching game...可惜最后没有时间完善，就放在那里当雏形了。我们的idea应该还是蛮有新意的呢~matching需要设计机制，然后用博弈来解，哎，很好玩的...

很多人都知道我是不搞时间序列分析的，尤其不喜欢基于时间序列的因果推断（格兰杰因果检验几乎是被我打入黑名单的一个词）。但这次为什么专门写这么一篇blog post呢？其实，我不反对时间序列作预测嘛~而google这篇paper，目的在于预测，又是latex排版的（搞不好还有sweave或者knitr的功劳），读起来赏心悦目的多。

这篇paper题目是：

Large-Scale Parallel Statistical Forecasting Computations in R

地址见：http://research.google.com/pubs/pub37483.html

亮点自然是：大数据计算、map reduce、时间序列分析、bootstrap （所以说google是一家让人尊敬的公司，http://t.cn/zlbAYJY这里总结了他将学术成果悄无声息的服务于大众的案例）。虽说大半夜的，但看到这个东西，再也睡不着了，索性写完一吐为快。（那次沙龙还说到来着，看吧，google早把这些好玩的东西都搞定了，只是不公开拿出来给大家用罢了~）

1. 并行算法

并行算法这里，主要是map reduce。他们的任务主要有：

Facilitate parallelism of computations on up to thousands of machines without access to shared NFS filesystems（上千个节点的并行计算，无共享的NFS文件系统）.

Make distribution of code and required resources as seamless as possible for analysts to minimize code modifications required to enable parallelism.（无缝衔接各环节，减少分析师写并行算法工作量）

No setup or pre-installation of R or specific libraries should be required on the machines in the cluster. A virtual machine for the workers should be created dynamically based on the global environment and available libraries of the caller（节点上无需事先安装R，虚拟机会自动按需构建）.

Return results of parallel computations in list form directly back to the calling interactive session, as with lapply in R.（lapply函数直接返回并行结果）

Allow the parallel functions to be used recursively, so that MapReduce workers can in turn spawn additional MapReduces.（并行函数可以循环调用）

系统构架如下：

然后若干技术细节还包括，搞定R函数复制和计算的环境并行同步，搞定data.frame和list存储格式与在map函数中直接调用。搞定后，基本底层就搭建好了，剩下的就是调用R了。

2.时间序列预测

最典型的就是google trend的预测了...

这里他们直接用R包googleparallelism，然后希望用一些时序模型都尝试，做预测，然后取他们的均值（剔除上下总计20%）作为估计值以减少误差。示意图如下：

我只能说，果然是做机器学习的人啊，和random forest思路一致，弱的分类器结合起来，可能有意想不到的结果。同样的，每个模型都是多少有效的话，平均一下就更稳健啦，尤其是在大数据支撑下...

这样的平均之后已经无法直接推导方差和置信区间，所以他们采取了更依赖机器计算的bootstrap方法，直接强行算出来置信区间...喵的，我只能说谁让当年高斯那群天才整出来大数定律和中心极限定理呢？推不出来估量量方差不要紧嘛，直接重抽样模拟就好了...汗。

3.训练集

果然是做机器学习的人，接下来的思路就是直接一期期训练模拟呗。这个没啥说的了，见下图。

模拟出来的结果示意图：

至此，整个问题解决完毕。细节还请大家直接去看原文paper。我的几点感触吧：

1. 机器学习之所以在业界这么受欢迎，主要是其确实能够解决问题。迅速、有效，这个是其他方法比不上的。
2. 大数据、大规模计算，使得一些很简单的idea借助模拟和重抽样方法，大放异彩。
3. 预测，有时候不比因果推断次要。
4. 传统模型，需要适应大数据。
5. 说到底，理论体系还是有待完善的。希望这类方法是下一个微积分，可以先用，然后慢慢补充完相应理论体系。这样，我们才知道什么时候，需要勒贝格测度来取代原有牛顿积分。

总之，虽然无奈，但是有用之物必有有用的道理。期待对理论研究的冲击和激发。

Tags bootstrap, Google, map reduce, R, 事儿关经济, 大数定律, 大数据, 并行算法, 时间序列分析, 时间序列预测, 机器学习, 预测

读书有感

降维模型若干感悟

前几天集中爆发了一些email，直到最后和Frank兄提起，他说我应该去看一下 Adaptive Lasso，我才终于痛下决心开始看这方面的东西。先说说为啥开始看Lasso。

需求。大数据时代，任务有很多：

理论层面，要有适应大数据的模型。一方面是数据量的增加（表现为个体记录的增长），一方面是数据维度的增加（简单的说就是回归方程右边的变量），让大数据这个任务变得格外艰巨（p.s. 这个不是我总结的，照抄上次ShanghaiR沙龙时候Ming的原话...话说我别的没记住，就这句话深深的印在脑海了，哎~）。
- 数据量的增加，对应的是大样本理论。这个好玩的有很多，暂且不表。
- 数据维数的增加，则需要相应的降维模型。你总不能在回归方程右边放入几千个变量，“维数灾难”啊...所以变量选择是个很好玩的话题。
应用层面，一个模型性质再漂亮，你也要能算得出来才行是不是？
- 首先就是要有个好的算法，比如在「统计学习那些事」中提及的LAR对于Lasso的巨大贡献。
- 其次，什么分布式计算啊，并行计算啊，都成为热呼呼的实践问题（当然我还是go against那些不管三七二十一、直接软件中调用模型的。任何一个模型的假设和局限性都是应该首先考虑的，要不真不知道预测到哪里去了呢~）。

好吧，好久没用这么多层级了。只是昨天稍稍理了理思路，顺便写在这里，算作「感悟一」。

然后，说到底统计学还是为其他学科服务的（好吧，我是想说数据不是无源之水，总归有自己的背景，总归有在这个背景领域的人希望借助数据来解决的问题）。那么作为一种empirical method，统计模型关心的是什么呢？在被计量经济学熏陶外加祸害了若干年后，发现它本质还是为了经济学研究的一些目的服务的，所以关注的更多是consistency，大家张口闭口就是“变量外生性”...而这多少有些直觉+经验判断的东西。显然，统计模型不仅仅是计量经济学，昨天看「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」，大致的关于统计模型关心的判断标准的「感悟二」总结在这里：

consistency：这个还是逃不掉的，一致性在大样本下虽然比小样本的无偏要求来的弱得多(plim毕竟比期望算子好“操作”一些)。其实有一段时间我一直很抵触把计量经济学里面的causality叫做因果关系，学习计量模型的过程基本就是保证估计一致性的推导过程...想说的只是，真正的因果关系不是统计学就可以定义的，还是要回到学科本身。consistency更多包含着“internal validity”的味道，即一个结果可以期望在样本本身内重复实现。个人感觉，从经济学理论与实证研究的角度，这大概是计量经济学能达到的最多的程度了吧。再苛刻的因果真的就是经济理论本身的问题了。
accuracy: 统计还有一大任务，做预测。我们都知道OLS有的时候可以很简单的给出一个consistent的估计量，但是仅仅是均值意义上的估计还是不够的，对你还得给出个方差。这个方差就刻画了你的估计值是不是飘来飘去。我们当然希望一个方差比较小的估计量，所以大多数时候OLS是不能满足这样的要求的（顺便复习一下BLUE的那些条件）。
implementable: 有的时候我们可以用现有的数据、花费大量的时间，来拟合一个漂亮的模型。但是，模型不是放在那里就可以的，在实际应用中大家更关心的是，模型建立之后对于日后决策的指导作用。可能1000个自变量拟合出来的模型比20个好10%到20%，但是在实际应用中，20个变量显然更实用...同理，有些非线性模型漂亮的一塌糊涂，但是计算复杂度可能远远不是多项式级别的。这个时候，退而求其次也不失为一记良策。说到底，有的时候并不要求最完美的模型，总要在性能和效率之间取得一个平衡。
当然说到prediction，这里更多的就有statistical learning的味道了。回归多少还算是supervised learning，至少脑海里大致有个印象什么是回归方程那一边的y。更多的时候，连y是什么都没有概念，所以就有了基于similarity的模型，比如clustering，比如协同过滤...不过有句话确实说的好(摘抄自「统计学习那些事」)：

立新老师曾经有这么一句话：“If a method works well in practice, there must be some theoretical reasons for its success.” 如果一个模型在实践中表现的很好，那么一定有它好的原因。

所以基于上述三点（当然还有可能有更多的考虑），不同的模型对于不同的标准有着不同的达标水平。大家各有所长，用哪个还真得看实际任务的需求了。

「感悟三」，则是statistical learning (统计学习，有点机器学习的味道)的任务，这个是从「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」上照抄的：

预测准确性要高：和上面的accuracy对应。
发现有价值的预测变量：更有可能从归纳法回溯到演绎法，给出更多的insights。

最后的，稍稍偏数学一点。「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」里面第三章讲了很多Shrinkage Methods，关心的是varible selection(生物统计中feature selection)的问题。从大家最耳熟能详的stepwise（逐步回归），到ridge regression(岭回归)，再到Lasso(或者把LAR也算进来)。基本说来，ridge和Lasso是在OLS基础上一个很有意思的变化。

OLS求解的最优化问题是：
ridge regression则是加了一个L2惩罚项，即，其中t是一个给定常数参数。
Lasso则是把这个L2变成了L1，即

就这么一个简简单单的变化，就有了后面那么多神奇的性质。「感悟四」就是，原来Lasso思想并不是那么复杂啊。

Tags Lasso, ringe regression, Shrinkage Methods, Statistical Learning, 一致性, 变量选择, 外生性, 大数据, 大样本, 机器学习, 统计学习, 统计模型, 维数灾难, 计量经济学, 降维, 预测

互联网产业观察经济、IT观察与思考

[RAAT]第二话：如果，定格初见~

有句很煽情很酸的文字，叫做“人生若只如初见”，然后再随意的填上几个星星点点的省略号就可以了。初见，嗯，那么多人事匆匆，初见也显得格外珍贵了。有的时候，是不是一别，就不知道何时才能再相见？

如果，如果，你是一个软件的开发者或者网店店主，那么，你和每一位顾客的初见，又是什么样子呢？这个时候第一印象——第一次使用体验或者第一次购买体验，往往是决定了这到底是个回头客还是一去不复返。顾客都是懒的，他不会那么主动的给你提供那么多反馈，那么，你可以怎么了解到他的更多信息呢？如果你自己开发一个软件，那么恭喜，每一次和用户数据交互的时候，你都可以记录一些信息。然后这些信息累加起来，就成为了你们之间的来往信息。可问题是，就算打电话我也不能把她说的每句话都记住啊，更何况来来往往那么多数据。应该保留哪些呢？

好吧，不效仿什么“甄嬛体”了，还是“说人话”吧。继RAAT第一话说了说微博数据与network effect玩法之后，现在的问题是：

如果你是一个app的开发者，你应该记录哪些用户反馈/交互的信息呢？

这个问题是一位创业青年过年的时候问我的，到现在我也只能理出来一个简单的回复，真的是有些抱歉。同样的类似的问题，或者更general一点用学术化的语言来表达，那就是，

在设计一个社会实验/survey的时候，你会问哪些问题、记录那些反馈呢？

或者说，当你面对一个回归分析问题的时候，

你会把那些变量放入回归方程呢？你关心的是哪些纬度呢？

这个问题可能是一个非常ad hoc的，往往需要根据一个具体的产品、业务或者目标来因地制宜的选择。比如，我想提高落园用户的粘性——好不容易来一次，多看几个网页呗，那么除了版式设计什么好看一点之外，我还得多观察一下博文之间的关联性——读过XX的，还倾向于点击XXX。这样，“相关博文”那里就可以优化一下，而不仅仅是现在这样基于tags的关联了——嗯，根据已有用户的阅读行为，来建立collective intelligence记录，然后向新的访客推荐。挺好的不是么？那显而易见的，为了达到这个目标，我需要记录每个访客（比如ip或者cookie识别），landing的网页及其来源、停留的时间、接下来点击的动作等等，大多数指标都可以在google analytics里面看到。

那么对于一个app，用户识别首先不是大的问题——需要购买嘛。这样的话，就不用劳神记录cookie什么的了。然后，从用户体验的角度，往往需要经历一个新手->热衷体验->维持一个稳定的访问/使用频率。依旧以我的这位朋友的产品为例，他们的产品叫做“我有啦”，是一个在线分享自己所拥有的物品的社交平台，类似于一个“物品签到”的概念。现在有个很具体的问题，怎么充分调用network effect来增加新用户、减少流失用户呢？这个过程中，需要什么样的数据呢？

所有基于SNS的产品推广的时期最重要的怕就是利用社会网络自身的network effect扩散特性，最成功的例子大概就是开心网当年利用病毒营销异军突起，利用虚拟游戏当中的奖励刺激用户去邀请自己的亲朋好友加入。然后，开心网的社交游戏特性，又进一步加强了这种朋友联系对于用户使用粘性的正作用（network effect在社交游戏中成功的例子还可见于最近很火的猜词游戏Draw Something）。从直觉来说，用户最乐意向他的朋友们推广一个应用的时候，应该是他使用热度最高的时候--尤其是这种以“炫富”+“拼爹”为卖点的app，不赶紧向自己周围的朋友们炫耀怎么可以呢？

为了识别一个用户的成长轨迹、以便于在他热度很高的时候给予一些奖励（尤其是虚拟地位勋章等等），来刺激他拉自己的朋友进来攀比，必要的数据记录自然是用户每天登陆的时间、地点，然后一连串的点击行为来判断他到底是在摸索这个软件怎么使用还是已经成为了一个熟络的高手（包括错误操作的提示和记录），这样就可以完成初期对于用户成长周期阶段的识别（被用滥了的CRM-customer relation management-系统基本概念之一）。一种理想的情况是，如果根据已有用户的成长记录，发现用户的每日使用时长或者每日点击量呈现S型曲线增长，区别只是增长基数、斜率不同，那么一个简单的函数拟合预测便可以得知用户使用高峰时点的来临，然后采取相应的激励措施。另外一个需要强调的是，在采取了任何策略之后，务必须要关注的就是用户的反馈，这样会知道上一期时点的选择是不是最优的——一种事后的反馈和假设参数的更新。

除了激励用户推荐给自己的亲朋好友之外，network effect另外的应用便是在用户呈现流失倾向的时候，利用朋友的力量来提醒他回来看看。这里有意思的是，根据最近一个基于facebook的研究显示，并不是“来邀请加入的朋友的数量”而是“这些朋友分属的圈子”对邀请成功率有更决定性的影响，因此提醒的时候需要发送的内容也应该是该用户最感兴趣的商品类别以及他最关心的朋友。这样，需要记录的就是他每次访问、评论物品等展现出来的行为，以及他朋友们的互动记录。

到此，直接的一种利用社交圈子的营销机制已经建立，后面进一步利用"用户-物品"双重联系的网路模型还可以进一步优化。暂时直觉只到这里。于我看来，一切所谓的营销都是一个营销资源最优化的投放问题：在最优的时间、对最合适人、采取最优的策略。如是来看，其实什么基于网络与否也只是对资源投放效果的一个预估，和其他一般的营销总体思路并无二致（p.s. 有意思的是，最近还被问到诸如电商 coupon 券应该怎么发放…一样的道理嘛，为了最大化ROI自然是在已有数据的基础上，分析并预测式选择反馈最大的人群，促成其关键购买行为成长环节的转化）。

上述局限：只能知道使用自己开发的产品的用户信息，无法得到并利用其他业务的使用信息，从而偏好数据来源受到极大局限，进而影响全方位对用户的偏好识别、把握以及差异化新产品的推广。换言之，交叉推荐等不可行。

这一话更多的是一些具体的问题和可能的对策，暂时不涉及技术实现策略。在最后一话，针对前两话涉及到的数据搜集及分析，将会尽量给出相应的解决策略，还请稍待片刻。

Tags app, CRM, Facebook, RAAT, ROI, 互动, 交互信息, 分析维度, 初见, 反馈, 定格, 实验设计, 技术实现, 推荐, 数据分析, 数据搜集, 激励, 炫耀, 用户模型, 营销, 营销机制, 集体智慧, 顾客, 预测

事儿关经济互联网产业观察

大数据的潮流？

一边是流浪的心，一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午，说到了一个很有意思的话题，“我们为什么需要海量数据”？或者说， why and how does big data make a difference?

当时说的统计/计量分析的应用很简单，无非是做一些销量、价格弹性和资源投放的预测与优化罢了，典型的咨询业务。然后我就好奇的问了一句数据源，无非是nielsen或者iresearch的市场调查数据之类的，或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度，所以一般都是long panel（T>N），以城市为单位之类的。

这样的数据量，肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯，我们多少也会把这些原始数据做一个aggregate，比如以每人每日为单位（当然单位的选择取决于具体项目的关注点），但是大多数还是wide panel，N>>T。这两种panel data的（计量）模型显然就不一样了。一个会更多的沿袭time series的分析路子，什么auto-regression、unit root之类的；另外一个要沿袭的更多是cross-section的方法，关注大量个体的特性。

对计量的一个争议就是 ATE （average treatment effect），尤其是做data mining的那些人。明明individuals之间千差万别，计量怎么可以这么简单的取个平均呢？不过一个辩护就是，关注的问题太不同了！data mining很多时候关注的是针对每个个体选择适当的信息传递，而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上，针对这一点我现在越来越认同某个计量学家对于consistency的评价了：

（大意）我喜欢计量经济学，正是因为他对于政策制定的强力支撑。

况且，还有quantile regression可以做一个完整的系数分布估计呢！加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨，

要会技术（统计、机器学习、可视化、最优化），要懂市场（营销，产品，客户行为，渠道），要懂沟通（同事协同，上级汇报，对外呈现），工具要熟练（SQL、Excel、SAS、ppt），公司战略还要懂点，没准还要带团队，要懂管理……。OMG，我在说什么，不是MBA，是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛（题外话，我等consultant活得也格外艰辛啊，这些加上无穷无尽的出差 -_-|| ），而我后面跟的一句是“市场发展不成熟，分工不明确，相关领域人才太少的恶果”。没办法，只做模型和分析远远不够啊，太少人可以看懂并完美应用了，所以搞分析的不得不自己卷起袖子上阵，即当爹又当妈……

那么说到底，为什么现在big data这么火？为什么 quantitative analysts 对数据源这么 obsessing 呢？我的理解是，

1. 大数据可以很容易的aggregate到适当的level，从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通（既实话又废话）。
2. 大数据使得很多大样本的性质可以直接应用，需要依赖的模型假设大大放松，从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining（又废话了），从而不仅仅服务于单一的policy making，还可以实现定点、极端个性化的信息投递。说白了，就是既可以分析群体特性，又可以兼顾个人特质，像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据，格式整齐（要不搜集成本过高也没法搜集）、数据真实、定义明确，很容易进行data cleaning（一个反例：跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱，统计口径什么的千差万别，数据来源也未必可信）。这样的数据只要简单的编程处理就可以了，把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息，比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用（idea -> result -> implementation）。关于这一点，Frank曾经发给我一个很好的summary，说的是大数据为发展（经济学）带来的新机遇：http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的，social network的数据往往都是大数据（得有links嘛），所以既然我的研究兴趣在那里，自然会更多的关注大数据。

那么，大数据的对于分析人员挑战在哪里呢？
1. 从噪音中找到有用的信息：正如前面所说，大数据包含了太多个体的信息，所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息，对于统计分析专家的思路清晰要求度非常之高（Frank兄曾经对此做过一些简单的批判，业界的一些报告有时候无奈的直接把数据aggregate了，丢失了部分有用信息）。而我总觉得，对数据背景一定要有所了解才可以，不能是简单的大海捞针，还是要有直觉指引方向的。（只针对业界数据，制药行业之类的实验数据我没接触过，没有感觉～）
2. 大数据对于建模者的学术训练背景要求更高： econometrics, data mining等等统计分析方法，及其结合，往往意味着分析者需要有着良好的数据直觉。而这一切，往往离不开一个solid的学术训练背景。最简单的，如果不会C或者python之类的编程，不会R之类的统计软件，那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集，我知道很多人就是excel手动做数据清理，然后扔到stata之类的软件中调用相关的命令（或者可以称之为函数）就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私：大数据往往来源于个体，这也就意味着data access往往被控制的很严，不可能向所有研究者开放。那么，研究者往往只能接触一个领域、一个公司的数据，而无法是非常全面的行业数据（比如，通信数据你要么有移动的，要么有联通的，不太可能移动联通的同时都给你）。这也多少造成了分析只能从一边入手（依赖双方数据的，比如game theory的实证分析，可能会有些困难）。

暂时先想到这些，或许日后还会补充吧，欢迎各种批判（我只是小小的井底观天而已，加上各种眼高手低、站着说话不腰疼）。其实有的时候，想想自己明明是 more into theories than empiric，但是也就被各种“拉上贼船”下不来了。至少我还是坚信，更难积累的是analytical sense而不是skills，后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说，很多时候还轮不到拼天赋……

（p.s. 发现新版WP的全屏编辑模式很好用啊，很简洁明了令人可以专注写作！）