Category: 互联网产业观察

互联网广告评估的“不可能定理”？

题外话若干。本来是打算老老实实呆在家里，吃饱了睡，睡饱了吃，吃饱睡饱看奥运的。结果想起来有个电影还没看，搜了一下居然已经上映了，果断下手抢票。可怜唯一的一个场次还是晚上十点半，索性先写点东西再出门看电影嗯嗯。这么晚了，只能一个人去看了，真伤不起啊～

继续说Rao的paper。和昨天说到的那篇相关，这里还有一篇working paper也是在说在线广告的评估问题。

On the Near Impossibility of Measuring Advertising Effectiveness (joint with Randall Lewis)

先看paper中引用的几个数字：

1. 每天，美国人平均要看25-45分钟的电视广告，另加不计其数的户外广告和网络广告。
2. 一些商业报告指出，每年美国的广告业营业额大概在1730亿左右，等价于每人每年500刀。
3. 那么平均算下来，广告投放者每人每天得拿到净利润1.35刀才可以盈亏平衡。
4. 按照企业平均边际收益水平计算，这些大概会带来4-6刀的产品销售额。

嗯，也就是说，我们扪心自问——每天我所花费的钱中，至少有5刀是被广告影响的？而对于不同行业不同产品，比如快消品和汽车广告，前者可能在每个消费者上得到的收益差不多，而后者可能会相当极端——要么是数千数万的消费，要么就是0，波动蛮大的（即方差很大）。这样说来，广告投入到底花的值不值呢？这个评估命题显得有点错综复杂了。

Rao在Yahoo!的时候，他们做了25次在线广告的随机实验（对应广告费为近三百万刀），然后发现，就算是大样本实验，由于个体的差异性太大造成太多噪声，广告的效果可能被因此低估。很多广告主关心的问题，就算借助实验，可能也是无法完美回答的——平均的ROI可能达到50%，但是鉴于方差实在太大，95%的置信区间可能就异常之宽了。这样，显著性检验什么的就很难拒绝“0效果”的原假设了。

与此同时，不做随机实验，效果更加的不可信...总之就是，这东西确实太难评估了，不做实验完全不可信，做实验也没法特别完美精确的评估...呃，听起来就像一个互联网广告评估的“不可能定理”...在互联网这样可以很好的跟踪用户点击什么的平台都没法评估广告效果，那么传统媒介如户外广告什么的，是不是评估就成为了更加困难的任务了呢？哎，数据完全不给力啊...也难怪我们这些天天做事的人痛苦的挣扎在评估指标的各种纠结中...

不过这篇paper，看起来真没营养啊...果然还是econ出身的，marketing sense不是那么强烈...哎~以后还是看看marketing science的paper好了。

Tags 不可能定理, 互联网广告, 噪音, 市场营销, 显著性检验, 置信区间, 随机实验

互联网产业观察经济、IT观察与思考

那些埋伏在互联网公司的经济学家....

嗯啊，自从著名的微观经济学家Varian跑到google兼职之后（话说Varian这厮最著名的八卦，就是自己在买新彩电之前，各种搜集数据建立模型，然后经过各种最优化选择了最佳时点入手...不就是买个电视嘛，至于这么学以致用嘛~），经济学帝国主义展露出其雄心勃勃的志向——无底线的渗透到各个行业各个环节。有的披着数量分析的外衣，有的带着策略决策的高帽，总之就是各种高端各种名正言顺。然后看看他们发出的paper嘛，什么呀，还是economists这群人自己的逻辑规则。哎呀呀~

最近看AEA系列的文章，发现了两位埋伏在互联网公司的大神，Justin M.Rao和David H. Reiley，貌似原来都在Yahoo!后来一个跑到了google一个投奔了Microsoft。然后这俩人还到处在econ期刊上面灌水，嗯嗯，小小谴责一下~你们又不评tenure神马的，干嘛总抢有限的publication资源啊(好吧其实这俩明明是过着我羡慕而暂时不可得的生活...)。

本来先看到的是这俩人发在JEP上的，关于垃圾邮件的：

Rao, Justin M., and David H. Reiley. 2012. "The Economics of Spam." Journal of Economic Perspectives, 26(3): 87–110.

然后顺藤摸下去，找到了俩人的网站（作为具有geek气质的经济学家，这俩人果然都有独立网站~），然后就看到了更多的papers:

The Good News-Bad News Effect: Asymmetric Processing of Objective Information about Yourself (local copy) (joint with David Eil AEJ Microeconomics July 2011

Here, There and Everywhere: Correlated Online Behaviors Can Lead to Overestimates of the Effects of Advertising (local copy) (joint with Randall Lewis and David Reiley). Proceedings of World Wide Web Conference 2011 Research Papers

嗯嗯，这两篇看起来也很有意思（对他们研究NBA的那些文章表示~米有兴趣）。这三篇中，最符合我现在的迫切需求的就是最后一篇——在线行为中的相关性与互联网广告效果评估。米办法，现在整天对着各种评估，各种错综复杂让人经常抓狂。还是看看文章舒服一点。

现在开始说一下最后这篇文章。记得刚刚到eBay的时候，就有被问到，“怎么从correlation到casuality？”。当然，呃，计量注重的因果推断只是狭隘的统计意义上的因果，不过还是比correlation有着实质进步的。因果推断的方法，嗯，很多，只要解决了内生性问题，什么都好说。那么，好吧，最simple and elegant的就是随机分组实验了，因为是随机，所以分组变量一定是外生的，所以估计了一定是一致的。然后就是根植IV理念的一系列方法，然后就是对付无法观测变量的panel data方法...时序我实在是不了解，所以这里就不知道了（最悲哀的是为什么总被问到时序的问题啊，个体的数据是多么好的面板分析base啊，为什么一定要损失信息弄成一些时序指标呢？）。

回到文章。一开始作者就提到了互联网广告效果评估的一个经典“相关行为偏差”案例：

案例1：用户行为的相关性与估计偏差

Yahoo!在首页上为某大厂商展示了其品牌广告，之后评估由其带来的相关的关于该品牌的搜索行为。没有对照组的时候，他们使用用户在campaign开始前一个星期的各种浏览行为作为控制变量，然后发现campaign带来的提升效果约在871%到1198%之间，可谓 too good to believe。

然后大家就有疑虑了，作为一个经常访问Yahoo!的用户，自然相比于那些不怎么常来的人有更高的概率看到该广告（在线广告一般定义exposure，即被展现即作为treatment），而且他们作为资深用户更有可能去搜索一些关键词。这样，就出现了这两个变量的高度正相关——搜索却不是在线广告直接引起的，而是用户本身特性决定的。然后大家就会说了，那么干脆把campaign开始前用户的搜索行为也作为一个控制变量好了。但是这个东西实在是不稳定，每天之间波动实在是太大。

简单总结一下，就是被展现过广告的用户for sure会比那些没有展现的用户更活跃，所以本身就是一个selected sample，也没有很好的控制变量可以完全的消除这里的选择性样本问题。而在采用了随机对照试验之后，最终的估计量是5.4%，也就是说实际上直接由广告带来的相关搜索只有5.4%的提升量。

然后就有人说，哦，都是同一站点的行为嘛，自然可能相关性比较强。那么不同站点之间的行为，是不是行为之间的相关性就会比较弱一些呢？然后就不会这样干扰结果了？于是，作者进行了第二个实验。

案例2：网站之间交叉行为相关性

Yahoo!在Amazon上放了一段30秒的视频广告，以推销Yahoo的一项服务。然后他们发现，在接下来的一周之内，这些看到该广告用户的中，使用Yahoo!这项服务的用户大概提升到以前的3倍！可见这个广告是非常之有效啊！

然而有意思的是，在同样的时间段之内，另一组用户看到的是是一段政治广告。作为control group，这些用户对于该服务的使用量也差不多增加了2倍——也就是说，可能是其他的一些campaign或者用户的自然增长导致了活跃用户的增加，而不是直接的源于这段视频广告。对比之后，该广告的效果只能用“微乎其微”来形容了。

所以，不同网站之间的行为可能是高度交叉相关的，不能简单的忽略这种行为相关的可能性去采用一些简单的观测评估。否则，往往估计效果会大大的偏离实际。

案例3：广告会造福竞争对手？

一个在线服务商在Yahoo!上展示了2亿次广告，但是很可惜，Yahoo!无法追踪到该广告为服务商直接带来的用户转化量。不过“幸运”的是，在这段时间，他们追踪到了该服务商的一个竞争对手的新用户注册量。于是，“不幸”的结果发生了——看到广告的当天，用户更可能去注册竞争对手的网站用户。莫非，这段广告不仅仅让投放者收益，而且也造福了竞争对手？（比如促进了消费者对于一项新服务的认知度，我们习惯称之为正面的“溢出效应”）

还好，当时Yahoo!也设置了对照组，发现其实对照组的用户在这段时间之内也有很多人去竞争对手网站注册。所以其实这种溢出效应基本为零，不用担心啦~竞争对手用户数上升可能是与此同时其他促销或者广告行为的影响，与这段广告没什么关系的。

嗯，其实这篇paper本身米有什么technical的难度，稍稍学过一点本科计量经济学的应该都能顺利的看懂，不过几个案例还是蛮有说服力的。唯一稍稍遗憾的是，这篇文章的style还是太economist taste了，不是那么的符合业界人士的思维路径...

我想在此基础之上，稍稍多说几句关于“实验设计”的事儿。随机实验很简单的，解决了很多内生性相关性问题，是一个典型的“better data + simple method = better results"的例子。同样的，很多时候如果可能，提高数据的质量而不是寻求更复杂的模型，往往是解决问题最省力的办法。这里的数据质量不仅仅是说“除噪”这些基本功，而也包括数据是不是贴近分析目的设计和搜集的。去年写了一系列的“社会网络中的实验”，一直在说一个优雅的实验设计会带来多么优雅的分析。当然很多的时候，一些客观的现实问题导致实验也只能被优化到一个特定的层次。其实一直在想的是，连续的实验该怎么设计？

有的时候，因果关系不需要一次次的挖掘，实验也不需要每次都做，毕竟实验都是有成本的。如果能设计出来一系列优雅的实验，那么很多问题就可以一次性的干净利索的回答，不好么？不过既然在这里说到这些，说明日常的工作中还是存在很大改进余地的。嗯，有空间才有成长，挺好的~

p.s. 其他两篇papers也会稍后介绍~嗯嗯。

Tags 互联网广告, 内生性, 因果关系, 因果推断, 在线广告, 垃圾邮件, 实验设计, 微观经济学, 效果评估, 数据质量, 最优化, 溢出效应, 相关行为偏差, 经济学家, 经济学帝国主义, 计量经济学, 连续实验, 随机实验

互联网产业观察读书有感

网购中新品牌更难出头？

前几天看到最新一期的 American Economic Journal: Microeconomics 出来了，扫了一眼目录然后发现有两篇papers挺好玩的。也可能是现在人在电商的缘故，对online marketing格外的敏感，所以先拎出来一篇对比在线个购物和传统购物中新品牌探索的论文，一睹为快，顺便忍不住和大家分享一下：

Pozzi, Andrea. Shopping Cost and Brand Exploration in Online Grocery, American Economic Journal: Microeconomics,4(3), p96-120, 2012

AEJ版的米有权限下不到（有权限的童鞋帮忙给我发一份），去作者网站上找到了working paper版。有兴趣的不妨去下个PDF看看原文，虽然有点小长（econ的论文难得见到50页以下的-_-||，命苦啊）。

---------一点经济学理论背景知识----------

相关信息提供结束，下面开始全力关注正文。网购出现之后，由于其一堆让人欣喜的特性，受到广大人民群众的广泛欢迎。作为一个从高中时代就开始支持电商的孩纸，我个人网购的主要理由如下：

便宜：相比于实体店，网店房租等固定成本投入低的多，所以价格上自然有所让利。加之现在电商之间竞争惨烈，消费者自然可以期望一个更接近于博弈均衡价格的价格（基本就是，会稳定的趋近于成本）。优胜劣汰的信息丰富下的完全竞争市场模型嘛。
选择丰富：实体店往往受限于店面面积，能陈列的就那么几个牌子。而网购则不同，可以一下子把更多的东西都放在上面，任君挑选。有的时候可以很方便的买到一些平时便利店买不到的小东西，各种造福生活。当然还有各种限定版或者水货之类的？
便于比较：比较一方面是价格，另一方面还有商品的评价。比如买电器，在国美苏宁基本上就是推销员口若兰花，根本不知道一件东西到底有什么缺点（比如西门子关不上冰箱门）...而在电商网站，可以很容易的看到其他购买者对于商品的评价，各种实拍图什么的，有利于作出更理论性的购买判断。再者，选定了款式之后，价格比较也是很容易的。呃，作为一个有经验的网购者，基本上不会出现严重的被欺骗交易——网购市场一分钱一分货的道理还是一直存在的，所以我很少会买特别廉价的东西，还是习惯于一个reasonable的折扣（相较于实体店）。

我曾经很关注网购市场，尤其关注的是其中的交易机制设计。这个名词听起来挺专业的感觉，其实不过是一些很细微的规则：比如，淘宝商家商品上架要不要收费？商家要做哪些身份验证？商家的声誉是怎么积累的？商品打分评价是怎么计算的（豆瓣现在对电影图书等评分系统有了更好的算法调整，避免过高/过低的个别评价干扰整体结果）？退货换货制度是怎么设计的？保险又是怎么规定的？

这些看起来细微的东西，累积起来，就在一定的时间范围内决定了一个市场的生态状况。简单的说，每一次淘宝对于收费等等的调整都会引起很多商家的地震，优胜劣汰本来无可厚非，只是这其中牺牲的卖家有的时候还真让人感觉制定规则之人的凶残~ 嗯，淘宝需要经济学家，嘻嘻。这些东西真的不是拍拍脑袋想出来就可以的嘛~

而在一个给定的制度下，从更微观的角度，我们不仅仅可以看到商家之间的竞争，更多的也可以看到消费者行为的变化。比如现在更习惯淘宝商城或者京东这些B2C平台的购物者，和那些喜欢在淘宝C2C中浏览购买的人群（或者同样的人购买的商品），往往都是呈现一定程度的差异性的。简而言之，这是对于消费者的一个自然划分过程，通过他们对于机制的选择体现了他们本身的属性：购买力，价格敏感度，风险偏好，时间成本，计算机使用程度，决策理性程度等等。这些属性共同的，在网购的市场中，决定了消费者购买的产品和购买地。在这些特性之中，风险偏好貌似是网购市场中最最让人关注的事情——可能是因为，市场机制的调整会直接的影响不同风险偏好程度消费者的购买行为变化。一般说来，感觉习惯于B2C的消费者会有更高的风险厌恶特性——哪怕付出稍稍高的价钱。为什么这里我说B2C价格一般会高一些呢，主要是B2C为了进入市场（比如拿到淘宝商城的执照），需要一次性或者长期的付出更高的成本（进入成本或者声誉成本，或者像京东商城那样趁着奥运会打广告什么的）。短期之内低价可能是驱逐其他竞争者的策略，但长期看来这些成本必然还是由消费者买单的。

风险偏好的一大体现就是，消费者对于既有商家或者既有商品品牌的认可。比如，对于一些日常用品，我会倾向性的选择某些品牌。相机，嗯，Nikon或者Sony吧；笔记本自然是IBM(好吧现在是联想)的Thinkpad；出门一般不会去坐小航空公司的航班，碰到天气不好先取消的肯定是这些，还是大航空公司的调度能力强一些。之类之类的吧，人们对于品牌的依赖无处不在。品牌理论有很多，我有些武断和路径依赖的认为，品牌存在的核心价值就是降低了消费者的选择成本——习惯性的去购买自己习惯的商品，不会出现什么突发的不适应情况（当然也就没有了意外惊喜）。当然，品牌还有一个功能就是向自己周围的人传递一些信号，比如投行的孩子们一般需要一身名牌来武装自己，而IT男则常年拎着各种小众神器招摇过市吸引MM眼光...奢侈品基本就是这个目的的。然而，无论是哪个目的，品牌的塑造总是有成本的。一遍呢，是口碑长期的积累，类似于“百年老店”这样的声誉，这个是时间赋予的；另一方面，则是广告投入。最近看奥运会的童鞋有米有发现，比赛之间穿插着各种广告，不断的用某些名词来刺激人们脑子中对于品牌的反应和认知（恶心的例子如某年春晚，恒源祥的“羊羊羊”，导致大家的电视机集体呈现死机状~你懂得）。

就算我们耳熟能详的一些品牌，也有子品牌和多品牌策略，可以方便的区分不同的顾客群。典型如各大酒店连锁集团，例如喜来登，高端的有以私人管家服务著称的“瑞吉”（补一句，拉萨有一家，让人各种流口水啊~）；商务客有艾美、威斯汀和喜来登；然后还有稍稍平民的福朋喜来登。日常生活中，你知道的，什么潘婷啊、沙宣啊、飘柔啊都是宝洁的，对吧？这个世界大概只有强大如apple，才能上下通吃吧...一个iphone搞定所有孩子。微博最近流传了一张很经典的快消品品牌图:the illusion of choice，嗯，其实这些都是一家的...

那么一个关键的问题也就浮出水面了——在网购中，人们对于新品牌是什么态度呢？我们一边看到淘宝让很多江浙地区的中小企业有了打造自己品牌的机会（比如裂帛？），另外一个方面网购的时候出于风险厌恶和时间紧迫，可能人们更多就是匆匆买完自己需要的东西而已。那么，是不是对于人们在传统超市里面买的更多的快消品，网购市场会使得新品牌更难出头呢？而对于一些实体店更难买到的东西，或者人们更追求风格和设计的商品（比如女装），网购中反而新品牌更容易确立呢？

----------实证结果-------
罗嗦了这么多，终于回归这篇论文，让我们来看一下实证的结果吧！

先说数据集，嗯嗯，这个永远是我们首要关心的。当然，世界上永远不可能有那么完美的数据，可以100%科学的回答这个问题。不过有的时候选择性样本也不是什么大问题，如果这个样本代表性还是可以的话。在Andrea这篇论文中，她的数据来源于美国一家拥有1500多家门店的连锁超市。有意思的是，这家超市一是有会员制度，二是它同时提供网上购物。也就是说，你如果是这家店的会员，既可以自己开车去超级宽广的超市购物，也可是坐在家里点点鼠标等人送货上门。具体到数据，作者拿到了11640个家庭2004到2006年之间的购物样本（时间有点早呃），这些家庭同时有实体店和网络商店的购物记录。数据是scanner level的，就是可以看到购物清单，包含商品名称价格等等。

然后，作者为了保持一个比较好的可比性，选择了grocery这个类别，基本就是我们常见的各种快消品：食品、日用品这些吧，可以参见上面那张图。作者对于新品牌的定义可能和我们感知的有点不同：对于每个消费者来说，买他以前没有买过的品牌就算一次新品牌探索行为。不管这个新品牌是不是真的新上市的。特别的，作者格外关注cereal的购买（燕麦片？），体现了人们对于早餐的选择。

好了，基本的数据情况就是这样，我们先来看一眼简要的结果：网购中，消费者购买新品牌的倾向比实体店中低13%。

可能的原因是：

网购快消品更多的是为了节省时间
消费者对触碰不到的东西质量更为忧虑
购物网站上更多的呈现“历史购买记录”等对新品牌购买有负面影响的信息

前两点有点显而易见，最后一点则是非常有趣的。去年接触了很多推荐算法方面的东西，从理论的角度来说，很多现行的推荐算法确实倾向于推荐热门的商品。最简单的，如amazon初期使用的，购买过XX的人还购买过YY，这样一来越来越多的人可能会被导向YY。一些新品牌因为可能比较小众，就比较难以在这种推荐算法中脱颖而出。如果是电影还好，至少还有导演演员等等可以做一些基于内容的推荐。但是，对于快消品来说，本来品牌的竞争就已经呈现白热化了，推荐算法除非特别调整，否则还是很难把这些近乎“冷启动”的品牌推荐出来的。此外，推荐算法的diversity一直是一个评价算法很重要的指标，虽然很多简单的算法带来了较多的转化率，但是这样长此以往会出现热门商品更热门，冷僻商品更冷僻的两极分化。热门商品由于各个电商之间竞争激烈，很难获得高额利润，这样下来不一定电商的利润会更高。

与之相对的，是实体超市中的“推荐算法”——强大的人肉推销员。在实体超市中，会有各种试吃试用的机会，还有推销员现场演示，这样的使用体验感知会抵消人们对于新品牌的质量忧虑，反而有了猎奇的好奇心。这样一来，冷启动也不是一个冷冰冰的问题了。

嗯，接下来我们自然关心的是，一个消费者在什么情况下，会从传统超市购物转向网络购物呢？这大概是很多电商极为关注的问题。对于这个问题，Andrea使用了一个简单的线性模型，考虑了距离、运费、是否为周末这几个因素，外加一堆控制变量，主要是受教育程度、收入等等家庭特征因素。然后对于燕麦片的需求，主要考虑了价格、以前是否购买过、购买渠道等等因素。

嗯嗯，最后高潮来了——估计的时候，Andrea使用了贝叶斯估计（Gibbs随机抽样），对于购物渠道选择估计结果如下：

运费越高，网购可能性越小。
越有钱的人，越倾向网购（当然财富本身可能是内生的，由教育程度等等决定）。
周末的时候，人们更可能出门购物而不是网购（注：这个结果可能更适用于美国）。
住的离超市越远，越倾向网购。
18-35岁的人群更爱网购。

而后，对于消费者品牌选择的估计结果为：

网站界面设计的影响：新品牌在网购中如果希望脱颖而出，往往需要提供一个特别诱人的巨大折扣（4$以下折扣基本无作用——而一般一盒麦片也就是三五刀而已）。
周末的时候，新品牌看起来更容易被发现。
网购中，人们对于质量的忧虑更高。
人们时间不足的时候，购买新品牌的可能性降低。

那么，网站上的推荐列表影响到底有多大呢？作者实施了一个simulation，从“历史购买记录”到“相似购买推荐”，实验结果是两年的时间内预期可以提高23%的新品牌探索比例，但是依旧低于实体店。同时，模拟结果也侧面证实了，一个新品牌进入网购市场的时候，不仅仅面对实体店中存在的进入壁垒，同时还受到人们历史购物习惯和推荐列表的双重影响（尤其是历史购买记录，成为了一个新的无形的进入壁垒）。

那么，最后的指导就是，新品牌若想在网购中谋得一席之地，类似于病毒营销的强力广告营销是不可或缺的；与此同时，如果网站的推荐算法包容新品牌，那么新品牌将受益，更容易脱颖而出。嗯，满符合直觉的嘛~ 在一个成熟的市场要脱颖而出，不靠创意和广告怎么可能呢？此外网站算法导致的信息不同流向，自然会很大程度影响网购的品牌选择——不像实体店，网络中的信息更多的呈现“被设计”感呢。

互联网产业观察经济、IT观察与思考

[RAAT]第二话：如果，定格初见~

有句很煽情很酸的文字，叫做“人生若只如初见”，然后再随意的填上几个星星点点的省略号就可以了。初见，嗯，那么多人事匆匆，初见也显得格外珍贵了。有的时候，是不是一别，就不知道何时才能再相见？

如果，如果，你是一个软件的开发者或者网店店主，那么，你和每一位顾客的初见，又是什么样子呢？这个时候第一印象——第一次使用体验或者第一次购买体验，往往是决定了这到底是个回头客还是一去不复返。顾客都是懒的，他不会那么主动的给你提供那么多反馈，那么，你可以怎么了解到他的更多信息呢？如果你自己开发一个软件，那么恭喜，每一次和用户数据交互的时候，你都可以记录一些信息。然后这些信息累加起来，就成为了你们之间的来往信息。可问题是，就算打电话我也不能把她说的每句话都记住啊，更何况来来往往那么多数据。应该保留哪些呢？

好吧，不效仿什么“甄嬛体”了，还是“说人话”吧。继RAAT第一话说了说微博数据与network effect玩法之后，现在的问题是：

如果你是一个app的开发者，你应该记录哪些用户反馈/交互的信息呢？

这个问题是一位创业青年过年的时候问我的，到现在我也只能理出来一个简单的回复，真的是有些抱歉。同样的类似的问题，或者更general一点用学术化的语言来表达，那就是，

在设计一个社会实验/survey的时候，你会问哪些问题、记录那些反馈呢？

或者说，当你面对一个回归分析问题的时候，

你会把那些变量放入回归方程呢？你关心的是哪些纬度呢？

这个问题可能是一个非常ad hoc的，往往需要根据一个具体的产品、业务或者目标来因地制宜的选择。比如，我想提高落园用户的粘性——好不容易来一次，多看几个网页呗，那么除了版式设计什么好看一点之外，我还得多观察一下博文之间的关联性——读过XX的，还倾向于点击XXX。这样，“相关博文”那里就可以优化一下，而不仅仅是现在这样基于tags的关联了——嗯，根据已有用户的阅读行为，来建立collective intelligence记录，然后向新的访客推荐。挺好的不是么？那显而易见的，为了达到这个目标，我需要记录每个访客（比如ip或者cookie识别），landing的网页及其来源、停留的时间、接下来点击的动作等等，大多数指标都可以在google analytics里面看到。

那么对于一个app，用户识别首先不是大的问题——需要购买嘛。这样的话，就不用劳神记录cookie什么的了。然后，从用户体验的角度，往往需要经历一个新手->热衷体验->维持一个稳定的访问/使用频率。依旧以我的这位朋友的产品为例，他们的产品叫做“我有啦”，是一个在线分享自己所拥有的物品的社交平台，类似于一个“物品签到”的概念。现在有个很具体的问题，怎么充分调用network effect来增加新用户、减少流失用户呢？这个过程中，需要什么样的数据呢？

所有基于SNS的产品推广的时期最重要的怕就是利用社会网络自身的network effect扩散特性，最成功的例子大概就是开心网当年利用病毒营销异军突起，利用虚拟游戏当中的奖励刺激用户去邀请自己的亲朋好友加入。然后，开心网的社交游戏特性，又进一步加强了这种朋友联系对于用户使用粘性的正作用（network effect在社交游戏中成功的例子还可见于最近很火的猜词游戏Draw Something）。从直觉来说，用户最乐意向他的朋友们推广一个应用的时候，应该是他使用热度最高的时候--尤其是这种以“炫富”+“拼爹”为卖点的app，不赶紧向自己周围的朋友们炫耀怎么可以呢？

为了识别一个用户的成长轨迹、以便于在他热度很高的时候给予一些奖励（尤其是虚拟地位勋章等等），来刺激他拉自己的朋友进来攀比，必要的数据记录自然是用户每天登陆的时间、地点，然后一连串的点击行为来判断他到底是在摸索这个软件怎么使用还是已经成为了一个熟络的高手（包括错误操作的提示和记录），这样就可以完成初期对于用户成长周期阶段的识别（被用滥了的CRM-customer relation management-系统基本概念之一）。一种理想的情况是，如果根据已有用户的成长记录，发现用户的每日使用时长或者每日点击量呈现S型曲线增长，区别只是增长基数、斜率不同，那么一个简单的函数拟合预测便可以得知用户使用高峰时点的来临，然后采取相应的激励措施。另外一个需要强调的是，在采取了任何策略之后，务必须要关注的就是用户的反馈，这样会知道上一期时点的选择是不是最优的——一种事后的反馈和假设参数的更新。

除了激励用户推荐给自己的亲朋好友之外，network effect另外的应用便是在用户呈现流失倾向的时候，利用朋友的力量来提醒他回来看看。这里有意思的是，根据最近一个基于facebook的研究显示，并不是“来邀请加入的朋友的数量”而是“这些朋友分属的圈子”对邀请成功率有更决定性的影响，因此提醒的时候需要发送的内容也应该是该用户最感兴趣的商品类别以及他最关心的朋友。这样，需要记录的就是他每次访问、评论物品等展现出来的行为，以及他朋友们的互动记录。

到此，直接的一种利用社交圈子的营销机制已经建立，后面进一步利用"用户-物品"双重联系的网路模型还可以进一步优化。暂时直觉只到这里。于我看来，一切所谓的营销都是一个营销资源最优化的投放问题：在最优的时间、对最合适人、采取最优的策略。如是来看，其实什么基于网络与否也只是对资源投放效果的一个预估，和其他一般的营销总体思路并无二致（p.s. 有意思的是，最近还被问到诸如电商 coupon 券应该怎么发放…一样的道理嘛，为了最大化ROI自然是在已有数据的基础上，分析并预测式选择反馈最大的人群，促成其关键购买行为成长环节的转化）。

上述局限：只能知道使用自己开发的产品的用户信息，无法得到并利用其他业务的使用信息，从而偏好数据来源受到极大局限，进而影响全方位对用户的偏好识别、把握以及差异化新产品的推广。换言之，交叉推荐等不可行。

这一话更多的是一些具体的问题和可能的对策，暂时不涉及技术实现策略。在最后一话，针对前两话涉及到的数据搜集及分析，将会尽量给出相应的解决策略，还请稍待片刻。

Tags app, CRM, Facebook, RAAT, ROI, 互动, 交互信息, 分析维度, 初见, 反馈, 定格, 实验设计, 技术实现, 推荐, 数据分析, 数据搜集, 激励, 炫耀, 用户模型, 营销, 营销机制, 集体智慧, 顾客, 预测

互联网产业观察经济、IT观察与思考

[RAAT]第一话：微博的数据该怎么玩呢?

引言(即废话)：每当要准备presentation的时候，就会开始想一些问题。去年写的是【社会实验的特殊性】，然后有一系列的文字和最终的slides。现在，想多少从自己这大半年的工作经历出发，写一系列文章，就叫做 R as an analytical tool吧，简称RAAT。第一话，从微博入手好了；第二话，将由Joke童鞋过年时候问的一个问题引出；第三话，会是更偏向流程和实践的东西。这些我会一点点写，也可能有所改变，看到时候具体的想法了。

新浪微博也火了这么久了，但是对于吾等数据源控来说，这等数据简直不能被暴殄天物啊。怎么用来分析为好呢？

links类数据

微博有两大类links:

粉丝关系
评论与转发关系

然后呢然后呢？

首先很多人感兴趣的是信息传递吧？那么决定信息传递的就是，第一呢，每个用户的信息源（主要来自于他关注的其他微博用户）；第二呢，他关注的人的发布及转发行为。用粉丝关系来计算影响力（influential rank）自然是没有问题，但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是？所以，一个简单可行的思路是，这里不妨用其转发行为来加权，判断每个他关注的用户对于他的影响程度的不同～如是，则每个有向的link上就附加了一个权重，成为了一个加权的有向图。

嗯，这样一个基本的网络模型就构建好了。然后呢？链路预测？等等，我们关注并分析微博数据是为了什么呢？到底构建什么样的指标是合理的呢？

如果你想扩大自己的影响力...

好吧，在下作为一个老字号（落园居然被我坚持写到第6个年头了，这是一种什么精神啊~）blogger，自然可能希望多少扩大一下影响力。落园是落园，blog对我来说有它自己特殊的意义（比如发泄，呃），但是我的新浪微博就沦落为一个落园的notifier了（这个特别的理由就不在这里公开说了，私底下聊）。如是，那么应该怎么办呢？

正常的话，经营一个微博，怎么判断自己是不是越来越受欢迎了呢？显然，简简单单一个“粉丝数”还是不够的，用“转发数”为每个粉丝关系加权也还是不够的，我还得关注一下我的“粉丝”们都是一些什么样的人。比如，他们有几千+的粉丝，还会转发我的东西，那么我的影响力就～哈哈。简单的说，一个衡量指标可以是：我的微博可能会被多少人看到呢？那么，我只要算一下我的粉丝和他们转发的可能性，然后再算他们的粉丝转发他们微博的可能性，以此类推，我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言，这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然，类似的指标还可以构建很多，比如对response进行加权。看具体目的了。我的微博算个特例，因为它有一个特殊性：不转发任何其他微博（机器人自然要符合自己的身份嘛），所以我关注的指标相对单一——我是比较关注“信息能传递到的人”，而不是特别关心他们的response程度（话说最近关评论了，直接刺激大家转发啊，故需要另当别论了）。如果是商业经营一个微博，那么在内容的选择上或许就要更加迎合各自群体的口味，具体的是否可以用Bayesian规则来算算被转发概率呢（不断的update概率）？

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道（沟通成本低嘛），所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家，可以通过找寻自己会员的微博号，来得知他们最近的偏好，然后推荐相应的产品。电商也可以进一步的做一些销售活动，比如我的京东帐号和微博帐号绑定之后，是不是就可以直接留言给京东下单了呢？就像我打个电话似的那么方便。要是他搞什么团购之类的，我也可以直接在微博上买而不是跳转到京东复杂的页面上去，那该多好啊。

对于这样的目的，首要的任务就是找寻自己的用户群，然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外，初期还可以利用社交网络的力量，比如洲际和喜达屋集团都在做一些转发抽奖的活动，让已经关注他们的微博用户来扩散到他们的朋友（所谓物以类聚嘛，自然更有可能也是酒店常客），这样一来就已经实现了用户的识别。然后，怎么引诱这群会员是这些商家的长项，各种美图诱惑之下，让人经常在屋子里面各种坐不住（比如我...）。如果这些用户发一些信息，比如“下周飞北京”，那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户（先发制人啊）……反正至少我认识的玩酒店常客计划的人，都没有只专心的玩一家的。

跟R啥关系？

说了这么多，我们有了一些基本的建模思路。比如希望借助微博扩大影响力，那么最直接的办法：去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格，如果你相信市场是无摩擦的、处于均衡的，自然可以认为价格反映了其影响范围的大小。但是，首先市场就不是一个静态的，难免在动态潮流的波动下偏离均衡；再说怎么可能无摩擦呢，信息不对称总是到处存在的。因此，为了实现现有资金（或其他资源）的集约化投入，往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话，“物以类聚，人以群分”，很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面，如科学松鼠会往往会发布科普类知识，主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之，不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子，我们可以先利用微博的粉丝关系，建立起来一个网络图（更可利用转发情况来建立加权的有向网络）。这在R中可以利用SNA等package完成，或者Gephi之类的更专一的network analysis software。然后在此基础上，分析若干帐户发布的微博关键词（会用到一些text mining技术，其R中的实现可以参见思喆大哥的这篇指导：http://www.bjt.name/2012/03/text-mining-in-r/），然后找到一个或者若干个符合目标群体特征的微博帐户，在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题（think about real analysis...），而加权网络中计算这些并不困难（也可以加入随机的扰动项进行多次模拟得出结果）。最后，自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算，更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题，在R中无论是模拟还是求解都不是难事。最后结论会告知，哪些微博是应该去争取转发的（无论是通过金钱还是内容本身的意义去说服）。

类似的思路，能做的事情还有很多。譬如，哪怕是作为一个个体用户，我只关心某些事情发展的潮流（比如那些会影响股市的情绪），利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源（可能不是全部，或者出于实时性要求无法做到全量检测），即排除噪音，然后这些信息源所提供的信息便有可能给我一些方向上的指导，而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了，背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具，其已经提供的众多packages可以迅速的帮分析人员实现相应的想法，而不是把大量的时间用于无休止的编程以开发相应工具。这样，R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后，很多时候还需要评估效果（这里可以参见去年写的关于社会实验的东西：一、二、三、演讲幻灯片），这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告（简单的分析模型和结果重复可以利用已有的脚本，偏正式的报告可以借助当年的Sweave和进化版如knitr）。

总而言之，我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累，以及一些对于数据的敏锐直觉，而不是编程能力。若有想法便有其他人可以帮忙实现自然好，但是有时候一味的借助他人往往存在着时滞，一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作，只是找到这么一个完美团队的成本实在是太高，更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低，分工模式也会更加的偏向项目执行流程（比如分析->成熟模型->自动化系统），而不是在分析阶段就完全的实现了各展所长（那样对每个成员的要求可能都太高了~）。在效率和效果兼顾的现实情况中，R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然，有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力，而network的数据往往又是一个N*N维的（N为个体数量），更加大了对于空间计算量的需求。这方面，解决思路一方面是把线性的计算分块化、分批跑；对于非线性的计算，更多的则可能是先抽取一个小样本，然后确定一个或几个模型，最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

案例1： 用户行为的相关性与估计偏差

案例2：网站之间交叉行为相关性

案例3：广告会造福竞争对手？

如果你是一个app的开发者，你应该记录哪些用户反馈/交互的信息呢？

在设计一个社会实验/survey的时候，你会问哪些问题、记录那些反馈呢？

你会把那些变量放入回归方程呢？你关心的是哪些纬度呢？

links类数据

如果你想扩大自己的影响力...

如果你是想提供一个互动渠道……

跟R啥关系？

案例1：用户行为的相关性与估计偏差