Tag: 噪音

互联网广告评估的“不可能定理”？

题外话若干。本来是打算老老实实呆在家里，吃饱了睡，睡饱了吃，吃饱睡饱看奥运的。结果想起来有个电影还没看，搜了一下居然已经上映了，果断下手抢票。可怜唯一的一个场次还是晚上十点半，索性先写点东西再出门看电影嗯嗯。这么晚了，只能一个人去看了，真伤不起啊～

继续说Rao的paper。和昨天说到的那篇相关，这里还有一篇working paper也是在说在线广告的评估问题。

On the Near Impossibility of Measuring Advertising Effectiveness (joint with Randall Lewis)

先看paper中引用的几个数字：

1. 每天，美国人平均要看25-45分钟的电视广告，另加不计其数的户外广告和网络广告。
2. 一些商业报告指出，每年美国的广告业营业额大概在1730亿左右，等价于每人每年500刀。
3. 那么平均算下来，广告投放者每人每天得拿到净利润1.35刀才可以盈亏平衡。
4. 按照企业平均边际收益水平计算，这些大概会带来4-6刀的产品销售额。

嗯，也就是说，我们扪心自问——每天我所花费的钱中，至少有5刀是被广告影响的？而对于不同行业不同产品，比如快消品和汽车广告，前者可能在每个消费者上得到的收益差不多，而后者可能会相当极端——要么是数千数万的消费，要么就是0，波动蛮大的（即方差很大）。这样说来，广告投入到底花的值不值呢？这个评估命题显得有点错综复杂了。

Rao在Yahoo!的时候，他们做了25次在线广告的随机实验（对应广告费为近三百万刀），然后发现，就算是大样本实验，由于个体的差异性太大造成太多噪声，广告的效果可能被因此低估。很多广告主关心的问题，就算借助实验，可能也是无法完美回答的——平均的ROI可能达到50%，但是鉴于方差实在太大，95%的置信区间可能就异常之宽了。这样，显著性检验什么的就很难拒绝“0效果”的原假设了。

与此同时，不做随机实验，效果更加的不可信...总之就是，这东西确实太难评估了，不做实验完全不可信，做实验也没法特别完美精确的评估...呃，听起来就像一个互联网广告评估的“不可能定理”...在互联网这样可以很好的跟踪用户点击什么的平台都没法评估广告效果，那么传统媒介如户外广告什么的，是不是评估就成为了更加困难的任务了呢？哎，数据完全不给力啊...也难怪我们这些天天做事的人痛苦的挣扎在评估指标的各种纠结中...

不过这篇paper，看起来真没营养啊...果然还是econ出身的，marketing sense不是那么强烈...哎~以后还是看看marketing science的paper好了。

Tags 不可能定理, 互联网广告, 噪音, 市场营销, 显著性检验, 置信区间, 随机实验

互联网产业观察经济、IT观察与思考

[RAAT]第一话：微博的数据该怎么玩呢?

引言(即废话)：每当要准备presentation的时候，就会开始想一些问题。去年写的是【社会实验的特殊性】，然后有一系列的文字和最终的slides。现在，想多少从自己这大半年的工作经历出发，写一系列文章，就叫做 R as an analytical tool吧，简称RAAT。第一话，从微博入手好了；第二话，将由Joke童鞋过年时候问的一个问题引出；第三话，会是更偏向流程和实践的东西。这些我会一点点写，也可能有所改变，看到时候具体的想法了。

新浪微博也火了这么久了，但是对于吾等数据源控来说，这等数据简直不能被暴殄天物啊。怎么用来分析为好呢？

links类数据

微博有两大类links:

粉丝关系
评论与转发关系

然后呢然后呢？

首先很多人感兴趣的是信息传递吧？那么决定信息传递的就是，第一呢，每个用户的信息源（主要来自于他关注的其他微博用户）；第二呢，他关注的人的发布及转发行为。用粉丝关系来计算影响力（influential rank）自然是没有问题，但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是？所以，一个简单可行的思路是，这里不妨用其转发行为来加权，判断每个他关注的用户对于他的影响程度的不同～如是，则每个有向的link上就附加了一个权重，成为了一个加权的有向图。

嗯，这样一个基本的网络模型就构建好了。然后呢？链路预测？等等，我们关注并分析微博数据是为了什么呢？到底构建什么样的指标是合理的呢？

如果你想扩大自己的影响力...

好吧，在下作为一个老字号（落园居然被我坚持写到第6个年头了，这是一种什么精神啊~）blogger，自然可能希望多少扩大一下影响力。落园是落园，blog对我来说有它自己特殊的意义（比如发泄，呃），但是我的新浪微博就沦落为一个落园的notifier了（这个特别的理由就不在这里公开说了，私底下聊）。如是，那么应该怎么办呢？

正常的话，经营一个微博，怎么判断自己是不是越来越受欢迎了呢？显然，简简单单一个“粉丝数”还是不够的，用“转发数”为每个粉丝关系加权也还是不够的，我还得关注一下我的“粉丝”们都是一些什么样的人。比如，他们有几千+的粉丝，还会转发我的东西，那么我的影响力就～哈哈。简单的说，一个衡量指标可以是：我的微博可能会被多少人看到呢？那么，我只要算一下我的粉丝和他们转发的可能性，然后再算他们的粉丝转发他们微博的可能性，以此类推，我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言，这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然，类似的指标还可以构建很多，比如对response进行加权。看具体目的了。我的微博算个特例，因为它有一个特殊性：不转发任何其他微博（机器人自然要符合自己的身份嘛），所以我关注的指标相对单一——我是比较关注“信息能传递到的人”，而不是特别关心他们的response程度（话说最近关评论了，直接刺激大家转发啊，故需要另当别论了）。如果是商业经营一个微博，那么在内容的选择上或许就要更加迎合各自群体的口味，具体的是否可以用Bayesian规则来算算被转发概率呢（不断的update概率）？

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道（沟通成本低嘛），所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家，可以通过找寻自己会员的微博号，来得知他们最近的偏好，然后推荐相应的产品。电商也可以进一步的做一些销售活动，比如我的京东帐号和微博帐号绑定之后，是不是就可以直接留言给京东下单了呢？就像我打个电话似的那么方便。要是他搞什么团购之类的，我也可以直接在微博上买而不是跳转到京东复杂的页面上去，那该多好啊。

对于这样的目的，首要的任务就是找寻自己的用户群，然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外，初期还可以利用社交网络的力量，比如洲际和喜达屋集团都在做一些转发抽奖的活动，让已经关注他们的微博用户来扩散到他们的朋友（所谓物以类聚嘛，自然更有可能也是酒店常客），这样一来就已经实现了用户的识别。然后，怎么引诱这群会员是这些商家的长项，各种美图诱惑之下，让人经常在屋子里面各种坐不住（比如我...）。如果这些用户发一些信息，比如“下周飞北京”，那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户（先发制人啊）……反正至少我认识的玩酒店常客计划的人，都没有只专心的玩一家的。

跟R啥关系？

说了这么多，我们有了一些基本的建模思路。比如希望借助微博扩大影响力，那么最直接的办法：去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格，如果你相信市场是无摩擦的、处于均衡的，自然可以认为价格反映了其影响范围的大小。但是，首先市场就不是一个静态的，难免在动态潮流的波动下偏离均衡；再说怎么可能无摩擦呢，信息不对称总是到处存在的。因此，为了实现现有资金（或其他资源）的集约化投入，往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话，“物以类聚，人以群分”，很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面，如科学松鼠会往往会发布科普类知识，主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之，不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子，我们可以先利用微博的粉丝关系，建立起来一个网络图（更可利用转发情况来建立加权的有向网络）。这在R中可以利用SNA等package完成，或者Gephi之类的更专一的network analysis software。然后在此基础上，分析若干帐户发布的微博关键词（会用到一些text mining技术，其R中的实现可以参见思喆大哥的这篇指导：http://www.bjt.name/2012/03/text-mining-in-r/），然后找到一个或者若干个符合目标群体特征的微博帐户，在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题（think about real analysis...），而加权网络中计算这些并不困难（也可以加入随机的扰动项进行多次模拟得出结果）。最后，自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算，更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题，在R中无论是模拟还是求解都不是难事。最后结论会告知，哪些微博是应该去争取转发的（无论是通过金钱还是内容本身的意义去说服）。

类似的思路，能做的事情还有很多。譬如，哪怕是作为一个个体用户，我只关心某些事情发展的潮流（比如那些会影响股市的情绪），利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源（可能不是全部，或者出于实时性要求无法做到全量检测），即排除噪音，然后这些信息源所提供的信息便有可能给我一些方向上的指导，而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了，背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具，其已经提供的众多packages可以迅速的帮分析人员实现相应的想法，而不是把大量的时间用于无休止的编程以开发相应工具。这样，R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后，很多时候还需要评估效果（这里可以参见去年写的关于社会实验的东西：一、二、三、演讲幻灯片），这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告（简单的分析模型和结果重复可以利用已有的脚本，偏正式的报告可以借助当年的Sweave和进化版如knitr）。

总而言之，我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累，以及一些对于数据的敏锐直觉，而不是编程能力。若有想法便有其他人可以帮忙实现自然好，但是有时候一味的借助他人往往存在着时滞，一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作，只是找到这么一个完美团队的成本实在是太高，更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低，分工模式也会更加的偏向项目执行流程（比如分析->成熟模型->自动化系统），而不是在分析阶段就完全的实现了各展所长（那样对每个成员的要求可能都太高了~）。在效率和效果兼顾的现实情况中，R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然，有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力，而network的数据往往又是一个N*N维的（N为个体数量），更加大了对于空间计算量的需求。这方面，解决思路一方面是把线性的计算分块化、分批跑；对于非线性的计算，更多的则可能是先抽取一个小样本，然后确定一个或几个模型，最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

事儿关经济互联网产业观察

大数据的潮流？

一边是流浪的心，一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午，说到了一个很有意思的话题，“我们为什么需要海量数据”？或者说， why and how does big data make a difference?

当时说的统计/计量分析的应用很简单，无非是做一些销量、价格弹性和资源投放的预测与优化罢了，典型的咨询业务。然后我就好奇的问了一句数据源，无非是nielsen或者iresearch的市场调查数据之类的，或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度，所以一般都是long panel（T>N），以城市为单位之类的。

这样的数据量，肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯，我们多少也会把这些原始数据做一个aggregate，比如以每人每日为单位（当然单位的选择取决于具体项目的关注点），但是大多数还是wide panel，N>>T。这两种panel data的（计量）模型显然就不一样了。一个会更多的沿袭time series的分析路子，什么auto-regression、unit root之类的；另外一个要沿袭的更多是cross-section的方法，关注大量个体的特性。

对计量的一个争议就是 ATE （average treatment effect），尤其是做data mining的那些人。明明individuals之间千差万别，计量怎么可以这么简单的取个平均呢？不过一个辩护就是，关注的问题太不同了！data mining很多时候关注的是针对每个个体选择适当的信息传递，而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上，针对这一点我现在越来越认同某个计量学家对于consistency的评价了：

（大意）我喜欢计量经济学，正是因为他对于政策制定的强力支撑。

况且，还有quantile regression可以做一个完整的系数分布估计呢！加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨，

要会技术（统计、机器学习、可视化、最优化），要懂市场（营销，产品，客户行为，渠道），要懂沟通（同事协同，上级汇报，对外呈现），工具要熟练（SQL、Excel、SAS、ppt），公司战略还要懂点，没准还要带团队，要懂管理……。OMG，我在说什么，不是MBA，是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛（题外话，我等consultant活得也格外艰辛啊，这些加上无穷无尽的出差 -_-|| ），而我后面跟的一句是“市场发展不成熟，分工不明确，相关领域人才太少的恶果”。没办法，只做模型和分析远远不够啊，太少人可以看懂并完美应用了，所以搞分析的不得不自己卷起袖子上阵，即当爹又当妈……

那么说到底，为什么现在big data这么火？为什么 quantitative analysts 对数据源这么 obsessing 呢？我的理解是，

1. 大数据可以很容易的aggregate到适当的level，从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通（既实话又废话）。
2. 大数据使得很多大样本的性质可以直接应用，需要依赖的模型假设大大放松，从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining（又废话了），从而不仅仅服务于单一的policy making，还可以实现定点、极端个性化的信息投递。说白了，就是既可以分析群体特性，又可以兼顾个人特质，像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据，格式整齐（要不搜集成本过高也没法搜集）、数据真实、定义明确，很容易进行data cleaning（一个反例：跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱，统计口径什么的千差万别，数据来源也未必可信）。这样的数据只要简单的编程处理就可以了，把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息，比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用（idea -> result -> implementation）。关于这一点，Frank曾经发给我一个很好的summary，说的是大数据为发展（经济学）带来的新机遇：http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的，social network的数据往往都是大数据（得有links嘛），所以既然我的研究兴趣在那里，自然会更多的关注大数据。

那么，大数据的对于分析人员挑战在哪里呢？
1. 从噪音中找到有用的信息：正如前面所说，大数据包含了太多个体的信息，所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息，对于统计分析专家的思路清晰要求度非常之高（Frank兄曾经对此做过一些简单的批判，业界的一些报告有时候无奈的直接把数据aggregate了，丢失了部分有用信息）。而我总觉得，对数据背景一定要有所了解才可以，不能是简单的大海捞针，还是要有直觉指引方向的。（只针对业界数据，制药行业之类的实验数据我没接触过，没有感觉～）
2. 大数据对于建模者的学术训练背景要求更高： econometrics, data mining等等统计分析方法，及其结合，往往意味着分析者需要有着良好的数据直觉。而这一切，往往离不开一个solid的学术训练背景。最简单的，如果不会C或者python之类的编程，不会R之类的统计软件，那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集，我知道很多人就是excel手动做数据清理，然后扔到stata之类的软件中调用相关的命令（或者可以称之为函数）就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私：大数据往往来源于个体，这也就意味着data access往往被控制的很严，不可能向所有研究者开放。那么，研究者往往只能接触一个领域、一个公司的数据，而无法是非常全面的行业数据（比如，通信数据你要么有移动的，要么有联通的，不太可能移动联通的同时都给你）。这也多少造成了分析只能从一边入手（依赖双方数据的，比如game theory的实证分析，可能会有些困难）。

暂时先想到这些，或许日后还会补充吧，欢迎各种批判（我只是小小的井底观天而已，加上各种眼高手低、站着说话不腰疼）。其实有的时候，想想自己明明是 more into theories than empiric，但是也就被各种“拉上贼船”下不来了。至少我还是坚信，更难积累的是analytical sense而不是skills，后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说，很多时候还轮不到拼天赋……

（p.s. 发现新版WP的全屏编辑模式很好用啊，很简洁明了令人可以专注写作！）

事儿关经济经济、IT观察与思考

跨学科研究之殇

今天看到木遥的一篇文章：为什么跨学科的研究项目是件残酷的事，略有感触，在此罗嗦几句。

1. 经济学大量吸收了数学家，Arrow之后更是有一系列微观理论数理化的变革，Laffont的加入对于博弈论的影响扩大也不可或缺。这些人，在当年应该都算是“跨学科”的吧，经济和数学总是走的那么近，和统计学就更不用说了。
2. 很多学科领域都在期待数学工具的变革和进步，很多学科的突破式发展也是得益于数学工具的引入。物理和数学的渊源就不用说了，生物这些年来也多多少少依赖着好多数学工具的发展。另外从某种层次上，计算机和数学是不分家的……
3. 交叉学科研究最难的是，要求一个人具备两个、或者更多领域相对专业的知识。某一个领域少了一点，都不足以支撑一个突破性研究的进展。或者应该这么说，纯知识是好学的，关键是习惯两个以上领域的思维方式，知道他们分别关心的是什么，然后找到交叉点，这是我觉得对人要求最高的。隔行如隔山，很多时候确实如此。

最后补一句，最近常用一句话，

偏见源于无知

无知请理解为“某种知识的欠缺”。举个简单的例子，一个统计调查和研究估计往往首先要考虑的问题之一就是，样本是不是selected sample。简单的说，你不能跑到东北去进行人口身高采样然后回来告诉大家这就是中国人的平均身高（而某些国际研究，限于资金人力，往往在一个国家就取一个或者几个点）。selected sample，以及我们耳熟能闻的truncted data, censored data 等等，都是样本较之于总体的缺陷，自然会造成最后估计的偏颇。这也是很多时候，为了保持无偏（一致）性，我们需要根据样本的特征加上各种假设（比如Tobit模型）进行修正，然后才能得到基于假设下面的一致估计。

这是从统计或者计量的角度说这个估计的事儿，那么扩展一点，统计的本质无非是“归纳法”（此处特指相比于演绎法），那么自然是基于已有的信息集作出对已经发生的事件的判断。如果信息集不全，正如我对“无知”一词在上面的运用，那么得出的结论必然多多少少是有所偏颇的（无偏成为了小概率事件）。从这个角度来说，跨学科研究对于研究者多领域知识的高要求，在我的理解中，是这些研究突破困难但是珍贵的最主要原因（至于是不是偏颇，我们只能说这里无偏就更加的是一种信念了，没有什么可以衡量比对的依据了）。

终归，在一个充满噪音的信息集里面，找到有效信息，是一个脑力+体力活。Ph.D在我看来，值钱的地方正是这种孜孜以求的苦干精神，怕是真的与上上课就能学来的知识、和考考试就能获得的分数或者证书没什么关系。至于木遥所说的就业问题，呃，学界容不下还有业界……不要这么看不起业界……实践也能出真知啊。从学术研究突破所需的资源来看，业界能提供给研究的资源是完全不同的，所谓换个角度看世界嘛。

Tags 交叉学科, 估计, 信息, 信息集, 偏见, 噪音, 归纳法, 数学, 数学工具, 统计分析, 统计学, 跨学科研究, 选择性样本