落园 – Page 62 – 来者皆客

Machine learning for KIDS?

Post author By Liyun
Post date June 18, 2012
17 Comments on Machine learning for KIDS?

在慢慢火车旅途上，看看书还是不错的消遣。第二个kindle也挂了之后，只能借助ipad勉强看看书了。还好吧，至少还能集中注意力，不会手贱的不停刷微博什么的。

离开上海之前，两天奋战看完了备受推崇的「三体」三部曲，不禁对作者的想象力、天文、物理功底所深深折服。总有一段时间觉得自己的思维格外的开阔，喜欢这样智力上的挑战。而接下来打定主意在路上看的，第一本就是说「machine learning for hackers」，听说是R与数据挖掘教程之一，很多人多次提及过，思喆大哥貌似还评论过，却忘了大家是褒是贬。当然，这其中还有一层原因是，适合自己的才是最好的，就像我从来不能如同在经济学家面前声称自己学过经济学一样，在统计学phd面前号称自己学过统计学（cannot speak the statistics language well）。根基差太远。

然而看过了这本书之后，只想问一句，are you kidding?通篇都是各种回归就罢了，还常常一整页就一幅图（至少我看的版本中如此），每个例子都有配图（当然我不否认可视化对于帮助理解数据的意义，但亲啊，是不是有点多了啊？），这样稀哩哗啦的居然凑了300多页。我只想说，如果我的小册子也这么写，突破500页指日可待啊。

好吧，回到价值评价。这本书信息量真的不怎么大。我不是machine learning科班出身，没学过这东西的发展史，不知道这些模型的历史地位和演化过程，只是断断续续、这里一点、那里一片的接触了一些模型（当然回归模型除外，计量的招牌菜啊，虽然我一度觉得我计量学的也不咋地）。看完这本书，先是简单的线性回归，然后polynomial拟合，然后是logit回归等等，中间加上一些莫名其妙的检验指标，各种看着不爽。至少，以一种检验和model selection的形式出现好不好，显得多少严格一点嘛。

后面是支持向量机，然后居然还简单的涉及了sna。不过当我看到gephi的时候....好吧。这作者真心喜欢可视化啊。

说到机器学习，可能我没什么评头论足的资格。不过仗着最近看了一下「数学之美」（虽然只是06年的google黑板报版），还是觉得对这个领域的大致思路有所了解的。关于learning，个人认为除了各种回归等常规prediction之外就是bayesian规则下的模拟了。后者的话，个人倾向于＂按需定制＂，模拟还是好好的从头开始写代码比较稳妥。搞不懂这本书的思路，不知道target group是哪群。

有的时候各个学科还真是殊途同归的。我所接触的很多学科的方法，无非的指向只有一个：如何从信息中提取信息，或者更简单的，如何降维。从这个角度看，经济学也没有落后太多嘛，只是出发点和原始信息集不一样。其实，平心而论，经济学的思维方式基本是数学分析（演绎法）+统计学（归纳法）的结合，虽然到个人层面上各有所侧重，但还是很大程度上相辅相成的，没法一条腿走路。所以，有志于挑战自己智力和创造力的同志们，可以偶尔学学经济学哦~嘻嘻。绝对是系统的对思维方式和分析能力的训练。

Tags 数据挖掘, 机器学习, 算法

我的生活状态

最近落园无人打理...

抱歉又让大家看到这张图片...落园最近将沉寂20天左右,还请见谅.

出去玩耍咯,对于一个离开学校的人来说,唯一的暑假就是自己给自己放假,在开始新工作之前,先延迟一下入职时间.嗯,出去玩咯.这次,就不用网络约束自己了,哈哈.要玩个爽快.

各位,落园关门谢客,email也可能不回,回见哦.

Vacation mode进行中...

Tags 休假, 出游, 沉寂, 落园

事儿关经济

把结论假设出来？——记郁彬讲座

一如前篇日志所述，这次帝都之行最大的收获就是有幸聆听了郁彬大神（Berkeley统计系主任）的讲座——还是自由交流式的，让人受益匪浅啊。走出来第一感觉：我要去读Ph.D。

或许以前也说过，最佩服的人就是能 show the beauty of what he/she is doing 的人。我是个极度喜欢美丽的事物的人，不论是那个领域。只要让我看到事物的美丽，那么热情就随之而来，拦也拦不住。幸运或者不幸，昨天郁彬教授恰恰向我展示了这一点。5555，顿时热血沸腾，各种激动。强心针不能长打啊，我脆弱的小心脏真不一定承受的了啊。

郁彬有些很经典的话，摘录于此：

1. “我一直努力的目标，就是不跟我不喜欢的人在一起”。多么的洒脱！是啊，你永远不可能让每个人都喜欢你，你也没必要去喜欢所有人，更没必要讨好什么。做自己喜欢的事情、让自己活得开心，这样就很好了。

2. “经济学者要负责任”。无可避免的，提到了经济学（后面紧接着还提到了social network，连中两枪的我表示格外happy）。确实，一个经济学的研究应该更负责任一些，不要制定了一个经济政策之后，无论好或者不好，都没法评价。那么，这样的事情做下去没有任何的事后风险，确实是不甚公允的。对此，我表示深深的赞同，我也希望有朝一日的经济学研究可以更贴近社会民生、更好的服务于经济发展而不仅仅是某些IQ超高人群的brain game。而且，不仅仅是更好的应用，从theory的角度也应该给出更好的应用指导。

3. “最好的证明，就是假设和结论离得比较远，让人眼前一亮。要不，你干脆把结论假设出来好了！”。确实是，很多时候我们写paper，假设一大堆，尤其是理论经济学那边。是啊，你只要承认我的假设，后面的结论肯定没有问题。关键是，这假设有没有道理呢？如果假设完全是空中花园，结论再美好又有什么意义呢？另外，如果假设和结论就差那么一两步，这样的文章又有多大的价值呢？好的theoretical的文章确实应该是，假设和结论乍看不相干，然后通过巧妙的逻辑推导严密的证明出来。这才是有用的嘛。（话说，数学家们喜欢争执的是definitions，更严格咯）

4. “相关和漂亮，我可能会选择相关”。爱美之心人皆有之，郁教授也一直在强调 enjoy the process not the results，但是很多时候 beautiful researches 并不是那么容易就可以达到的。诚然，我最喜欢的research就是， simple and elegant，但是这样的研究从来都不会是天上掉下来的，一定是不断的努力最后得到的。因此，我这里姑且理解为不能“好高骛远”，很多时候还是要静下心来慢慢沉淀，一点点突破，聚沙成塔。研究考验的不仅仅是人的聪明程度，还有耐心和毅力。一切的美好都是值得等待的。

5. 交叉学科。关于交叉学科，郁教授说了很多。她给我们分享她自己的辛酸历程，这才是今天可以站在聚光灯下的源泉。Title不是决定性因素，但是有的时候为了达到自己的科研目标不得不曲线救国。否则，空有一身本事但是科研资源不会自己找上门来的。郁教授在美国数十载，一步一步都走得那么艰辛，果然通往成功的道路从来都不会是一帆风顺的。失之东隅，收之桑榆，谁也不知道今日的失去明天会如何的pay back，但也不必因为一时的得失过于欣喜或悲伤。这大概就是，不以物喜，不以己悲吧。人生是一场马拉松，每个时刻，大家都在不停的努力，都需要一直去努力。另外，领域的选择，确实没有任何“随大流”的必要。只有自己喜欢的，才能做的卓越。还是，

做自己喜欢的事。

超级喜欢郁教授的坦率、直接和真诚。对我们这些还在、或者刚刚迈出校门的孩子们来说，这样的交流确实弥足珍贵。从来没有一个环境会是完美的，只是不同的环境会在人生不同的阶段提供不同的营养。我多少觉得，自己离开学校来到industry一段时间，是非常值得的（无法判定对错），而一开始选择一份与人打交道更多而不是天天面对数据的工作，也是让我受益匪浅的。很多事情，都要一点点的慢慢积累，路还长着呢，何必心急。只要时间不曾被浪费，就好。保持一颗看风景的心情，无论身在何方。

Thank you so much, Prof. Yu. I will go back to school and continue my research dreams one day, and hopefully, that day is not far away.

Tags Berkeley, 交叉学科, 假设, 应用, 数据, 洒脱, 科研, 经济政策, 统计, 统计学, 美丽, 美好, 证明, 负责任, 郁彬, 风景, 马拉松

读书有感

略读「数学之美」

继前段时间匆匆瞄过「浪潮之巅」后，注意到最近作者又出了另一本书，「数学之美」，便寻思着一定要有时间读一下。搜了一下才发现原来早在06-07年，这些就在google黑板报上连载了。唉，当年是有多么的孤陋寡闻，才会浑然不知--说不定那年要是看到了，就会直接投奔CS去了，自此和econ无缘了。哈哈，时间不能倒流，玩笑而已。

google黑板报上的版本不长，昨天从杭州回来的高铁上匆匆便略读完了。从自然语言处理，到输入法，到语音识别，到排名算法，到anti-spam；从隐性马尔科夫模型，到贝叶斯网络，到pagerank，到＂简单而有效＂的必杀刃...算法的魅力在作者笔下翩然而现，不禁勾起了我心底的贪婪。看到优雅的条件概率公式，恩，世界被数学描述的真的是挺美好的。

不知道为什么，接触了很多CS出身的出色的工程师们，一边惊叹于他们卓越的coding能力和创造、组合工具的能力，另一边却又不知为什么总隐约觉得他们的统计学背景并不是那么的solid-换言之，统计分析的sense远远比不上熟练应用算法的能力。虽说术业有专攻，可是算法这么迷人的东西...好吧，我总是对于美好的事物，不由自主的表现出贪婪和心向往之。

看看接下来的一段时间，如果确实无聊，可以考虑静下心来学一段时间的算法，很多算法模型都是知道个大概却没有那么确切，心里也难免惶惶不可终日。有的时候确实是眼高手低了，好多东西都没有深深地挖掘过。浅尝辄止不是一件好事恩，还是自己推导出来的东西更能铭记于心。

话说，明天的R会议，我会发挥娱乐大众的功用，讲一些统计分析好玩的应用。基本是上次给松鼠会讲的「别让数字吓到你」的升级版，加入了一些稍稍高级的分析方法，然后案例也有增有减。为了吸引观众，我只能无情的拿cos开刀，有一些关于cos的内幕会被无情的曝光，还有依照惯例现场观众会被调戏--嘻嘻，不调戏你们一番你们怎么能记得住呢？这才不枉我又花钱又花时间跑到北京来一趟嘛。希望明天我的状态会比较好吧，喵~

Tags R会议, 数学, 数学之美, 概率, 算法, 计算机, 贝叶斯网络

互联网产业观察经济、IT观察与思考

[RAAT]第二话：如果，定格初见~

有句很煽情很酸的文字，叫做“人生若只如初见”，然后再随意的填上几个星星点点的省略号就可以了。初见，嗯，那么多人事匆匆，初见也显得格外珍贵了。有的时候，是不是一别，就不知道何时才能再相见？

如果，如果，你是一个软件的开发者或者网店店主，那么，你和每一位顾客的初见，又是什么样子呢？这个时候第一印象——第一次使用体验或者第一次购买体验，往往是决定了这到底是个回头客还是一去不复返。顾客都是懒的，他不会那么主动的给你提供那么多反馈，那么，你可以怎么了解到他的更多信息呢？如果你自己开发一个软件，那么恭喜，每一次和用户数据交互的时候，你都可以记录一些信息。然后这些信息累加起来，就成为了你们之间的来往信息。可问题是，就算打电话我也不能把她说的每句话都记住啊，更何况来来往往那么多数据。应该保留哪些呢？

好吧，不效仿什么“甄嬛体”了，还是“说人话”吧。继RAAT第一话说了说微博数据与network effect玩法之后，现在的问题是：

如果你是一个app的开发者，你应该记录哪些用户反馈/交互的信息呢？

这个问题是一位创业青年过年的时候问我的，到现在我也只能理出来一个简单的回复，真的是有些抱歉。同样的类似的问题，或者更general一点用学术化的语言来表达，那就是，

在设计一个社会实验/survey的时候，你会问哪些问题、记录那些反馈呢？

或者说，当你面对一个回归分析问题的时候，

你会把那些变量放入回归方程呢？你关心的是哪些纬度呢？

这个问题可能是一个非常ad hoc的，往往需要根据一个具体的产品、业务或者目标来因地制宜的选择。比如，我想提高落园用户的粘性——好不容易来一次，多看几个网页呗，那么除了版式设计什么好看一点之外，我还得多观察一下博文之间的关联性——读过XX的，还倾向于点击XXX。这样，“相关博文”那里就可以优化一下，而不仅仅是现在这样基于tags的关联了——嗯，根据已有用户的阅读行为，来建立collective intelligence记录，然后向新的访客推荐。挺好的不是么？那显而易见的，为了达到这个目标，我需要记录每个访客（比如ip或者cookie识别），landing的网页及其来源、停留的时间、接下来点击的动作等等，大多数指标都可以在google analytics里面看到。

那么对于一个app，用户识别首先不是大的问题——需要购买嘛。这样的话，就不用劳神记录cookie什么的了。然后，从用户体验的角度，往往需要经历一个新手->热衷体验->维持一个稳定的访问/使用频率。依旧以我的这位朋友的产品为例，他们的产品叫做“我有啦”，是一个在线分享自己所拥有的物品的社交平台，类似于一个“物品签到”的概念。现在有个很具体的问题，怎么充分调用network effect来增加新用户、减少流失用户呢？这个过程中，需要什么样的数据呢？

所有基于SNS的产品推广的时期最重要的怕就是利用社会网络自身的network effect扩散特性，最成功的例子大概就是开心网当年利用病毒营销异军突起，利用虚拟游戏当中的奖励刺激用户去邀请自己的亲朋好友加入。然后，开心网的社交游戏特性，又进一步加强了这种朋友联系对于用户使用粘性的正作用（network effect在社交游戏中成功的例子还可见于最近很火的猜词游戏Draw Something）。从直觉来说，用户最乐意向他的朋友们推广一个应用的时候，应该是他使用热度最高的时候--尤其是这种以“炫富”+“拼爹”为卖点的app，不赶紧向自己周围的朋友们炫耀怎么可以呢？

为了识别一个用户的成长轨迹、以便于在他热度很高的时候给予一些奖励（尤其是虚拟地位勋章等等），来刺激他拉自己的朋友进来攀比，必要的数据记录自然是用户每天登陆的时间、地点，然后一连串的点击行为来判断他到底是在摸索这个软件怎么使用还是已经成为了一个熟络的高手（包括错误操作的提示和记录），这样就可以完成初期对于用户成长周期阶段的识别（被用滥了的CRM-customer relation management-系统基本概念之一）。一种理想的情况是，如果根据已有用户的成长记录，发现用户的每日使用时长或者每日点击量呈现S型曲线增长，区别只是增长基数、斜率不同，那么一个简单的函数拟合预测便可以得知用户使用高峰时点的来临，然后采取相应的激励措施。另外一个需要强调的是，在采取了任何策略之后，务必须要关注的就是用户的反馈，这样会知道上一期时点的选择是不是最优的——一种事后的反馈和假设参数的更新。

除了激励用户推荐给自己的亲朋好友之外，network effect另外的应用便是在用户呈现流失倾向的时候，利用朋友的力量来提醒他回来看看。这里有意思的是，根据最近一个基于facebook的研究显示，并不是“来邀请加入的朋友的数量”而是“这些朋友分属的圈子”对邀请成功率有更决定性的影响，因此提醒的时候需要发送的内容也应该是该用户最感兴趣的商品类别以及他最关心的朋友。这样，需要记录的就是他每次访问、评论物品等展现出来的行为，以及他朋友们的互动记录。

到此，直接的一种利用社交圈子的营销机制已经建立，后面进一步利用"用户-物品"双重联系的网路模型还可以进一步优化。暂时直觉只到这里。于我看来，一切所谓的营销都是一个营销资源最优化的投放问题：在最优的时间、对最合适人、采取最优的策略。如是来看，其实什么基于网络与否也只是对资源投放效果的一个预估，和其他一般的营销总体思路并无二致（p.s. 有意思的是，最近还被问到诸如电商 coupon 券应该怎么发放…一样的道理嘛，为了最大化ROI自然是在已有数据的基础上，分析并预测式选择反馈最大的人群，促成其关键购买行为成长环节的转化）。

上述局限：只能知道使用自己开发的产品的用户信息，无法得到并利用其他业务的使用信息，从而偏好数据来源受到极大局限，进而影响全方位对用户的偏好识别、把握以及差异化新产品的推广。换言之，交叉推荐等不可行。

这一话更多的是一些具体的问题和可能的对策，暂时不涉及技术实现策略。在最后一话，针对前两话涉及到的数据搜集及分析，将会尽量给出相应的解决策略，还请稍待片刻。

Tags app, CRM, Facebook, RAAT, ROI, 互动, 交互信息, 分析维度, 初见, 反馈, 定格, 实验设计, 技术实现, 推荐, 数据分析, 数据搜集, 激励, 炫耀, 用户模型, 营销, 营销机制, 集体智慧, 顾客, 预测