落园 – Page 48 – 来者皆客

2012的收获

前一篇偏流水账，就不浪费大家的时间了。

2012的收获大致有：
1. 更多的交流，结识更多新朋友。收益于第一份咨询工作，我学会了如何更好地沟通、让事情更平滑的move on。换位思考是最最宝贵的经验，business最重要的就是和人打交道。受益于新的在eBay的工作，我学会了如何更坚实的结合一个business idea和model，也体会到分析结果对于真实商业行为的影响。每次看到managers的summary sides都让我由衷感慨一下。受益于各种会议沙龙活动，结识了很多不同领域的朋友（就不一一列出了，埋藏感激于心底）。真的，Life is better when shared! 好享受这种互通有无的过程，真诚的沟通一直让人感动。人生何处不相逢，希望有更多的机会可以和这些好朋友们学习。

2. 知识的增长。skill层面，在诸多大牛的熏陶下下，耳濡目染的用R鼓捣起来文本分析，很有趣；从老板和同事那里学了很多SQL技巧；连续七天攻克了SAS。课程方面，跟下来了coursera的model thinking和复旦的elements of statistical learning。另参观了若干博物馆，文化知识稍稍增长。

3. 读书。抄一下豆瓣的list，几本印象深刻的书：elements of statistical learning（cos论坛大牛推荐），rework（yihui推荐）, presentation zen（impress.js推荐）, 什么是数学+高观点下的初等数学（周涛推荐），浪潮之巅+数学之美（一位做sales的朋友推荐），the little sas book, 怪诞行为经济学（一位老友推荐），中国哲学史（大学存货），另附若干R书籍。小说方面有印象的就是三体了，三个不眠不休的整日搞定（辞职之后进藏之前），再就是暑假恶补了王家卫的电影（邻居推荐）。

没了...2012还算丰盛，希望2013节奏再快再舒适一点，和大家一起成长！

-------------------

去年的总结在这里：time-to-change/，硕士毕业时候的总结在这里： a-brief-summary-of-my-master-year/。今年的主题依旧是：chasing my dream。

Tags 交流, 咨询, 成长, 收获, 数据分析, 沟通, 读书

事儿关经济

从激励相容说起市场营销

Post author By Liyun
Post date December 29, 2012

以下为某天早晨打车来上班的十几分钟路上乱想到的，海涵。
---------------------------
有的时候我都觉得自己被microeconomics毒害太深...整个思维体系全是架构在其之上的，不管是最简单的供求和弹性之类，还是更强调互动的game theory...相比而言，我的macroeconomics直觉就差了很多了，除了能偶尔侃侃税制、社保和房市，我实在是不知道还有什么好关注的宏观经济动向。

大家都在一窝蜂的挤入金融市场，各种各样纷杂缭乱的手段都有，真是集各学科智慧于大成。所有人都在预测、预测。其实预测和信息这东西，只有在“你先于市场知道”的时候才有价值，你知道别人也知道，这信息就已经富含在预期里面了，价格就已经包含了这部分预期。前两天看到新华社一常驻纽约和纳斯达克证交所记者说，美股其实比较好预测——是的，几乎有什么新闻就有什么相应的反应。这也就是说对于大家都知道的信息，价格的反应是很有规律可循的。

看了那么多模型，我还是觉得金融的本质是博弈——你需要比别人先知先觉，不管是以什么方式。更有资本的，就是去找体制的漏洞，所以有索罗斯搅乱英国和香港汇率市场（商务印书馆的索罗斯三部曲不妨一读：金融炼金术、开放社会: 改革全球资本主义、索罗斯论全球化）；或者引领市场，比如巴菲特对于投资的带动（我印象最深的就是比亚迪的案例了）。神话之所以成为神话，就是他们是领先而且不可复制的。机不可失，失不再来。

说了这么多金融市场，只是想多少建立一点概念：这个「机制」是一个多么神奇而好玩的东西。玩过魔兽或者三国杀的朋友们或许都对游戏平衡设计印象颇深，这是多么活生生的机制设计案例呀。扯回到市场营销嗯...

营销其实无非就是一个「投入、产出」的过程。你有一堆起始营销资源，然后投放到各个渠道，然后衡量一下各个渠道的投入产出比（ROI），然后根据产出决定下一期怎么优化后继续投入...这说起来和其他投资并无二致之处。对于不同层次的营销人员来说，区别可能是营销资源的量不同、资源的形式不同（钱，时间，精力，实体物质等），再就是可选的营销渠道不同、对于每个渠道的掌控能力和信息不同、ROI的衡量方式不同。这么再去看各种形式的营销，大致也就是在这个框架之内，没什么太神秘的。只是这个环节比较多分工比较细，大家在不同环节上努力罢了。

说个最常见的营销资源投放案例吧：我有一堆优惠券，怎么发放？（瞬间想起小时候去KFC门口，然后一个和蔼可亲的肯德基爷爷塞到我手中一把KFC优惠券的场景了...拿到券的瞬间就不会在KFC还是麦当劳这个问题上犹豫了）优惠券是个很神奇的东西，其实就是变相的价格歧视——有路子找到优惠券的可以享受更低廉的价格，而没有路子的就只能原价付款了。所以我们要找出来的目标群体无非就是：价格敏感的、在买与不买之间徘徊不绝的。这样才能发挥优惠券的最大功效嘛——你给那些一天三顿非KFC不吃的人发券有什么意义？他们本来也要来吃的。找到这样的合适群体，就是建立＂参与约束＂；而使得合适群体做出你想要的行为，就是＂激励相容＂了。一个机制设计的成功，无非就是满足如上两点。

所以我现在在看到手里经过的分析任务之时，总会不自觉的去开一分钟小差考量一下，这东西满足＂激励相容＂么？然后默默的继续工作...同样的，经常会在收到各种促销短信邮件的时候，考察一下店家是不是足够聪明...如果有明显的套利机会（过度相容了），就会立马实行：比如某品牌的药妆，我每次都是在其淘宝旗舰店打5折的时候买一年的量囤着，然后等明年打折的时候再去买。类似的例子还有一些，基本就是在我的时间耐心与价格敏感之间寻的一个平衡点，然后就可以优化一下消费流。所以我一直觉得我是一个很符合＂贴现效用最大化＂的理性消费者...

还是说一个更让大家熟悉一点的参与约束和激励相容例子吧。我们一直期冀＂我劝天公重抖擞，不拘一格降人才＂，但是又在求职和招人的时候不自觉的考量人家的学历。学历到底有多少含金量？学历不等于能力？

一方面，学历是你受教育的体现，也就是在取得学历的过程中完成了一定程度的知识积累。当然一定程度的学校录取证实了你一定程度的才智，但是也不是只有天才没有汗水就可以毕业的。更有意思的是，知识的积累往往是厚积而薄发，或者说是个非线性的...这也是为什么在衡量劳动者劳动价值的时候会放入受教育年限和其二次方的一个缘故（至少我是这么理解那个著名的xx公式中的二次方项的）。

另一方面，这也是一个信号：如果你是能力低下的人，那么完成学位需要付出的痛苦会有很多，这样就使得只有能力强一点的人才会选择更高的学历。因此，学历成为了能力的一个信号。

但问题也来了：这个信号区分度如何？显然是比较粗的。再者，这个机制的顺畅运行显然不仅仅是录取阶段的公平考核及没有经济负担能力等现实约束，而且更多是学习过程的努力付出。我隐约觉得中国的研究生扩招就是把两个重要环节的标准都放低了，所以这个信号的作用越来越差，噪音越来越多。研究生找工作难不单单是一个经济大形势和供给增加导致失衡的问题。

医保体制可以研究的就更多了，比如挂号费到底应该怎么设置才合理，医生的劳动价值怎么可以被体现出来...这都是微观经济学基础上的机制设计研究的问题。当然经济学也在脚踏实地的解决更多现实的问题。我一直觉得经济学给出的是抽茧剥丝分析问题的框架，而不像某些经济学家一天到晚只会在媒体上骇人听闻。我现在看到某些人的微博夸夸其谈的言论真是一阵胃里泛酸。

Tags 价格, 价格歧视, 医保, 博弈论, 参与约束, 学历, 市场营销, 微观经济学, 机制设计, 激励相容, 社保, 索罗斯, 金融市场, 预期

日常应用

无知的比较：R和Teradata SQL(附赠TD经验几枚)

Post author By Liyun
Post date December 23, 2012
21 Comments on 无知的比较：R和Teradata SQL(附赠TD经验几枚)

今年夏天的时候，刚刚开始被SQL虐，写了一篇很无知且更多是吐槽意味的blog post: 关于R的若干SQL等价问题。当时被若干朋友批评，我还浑然不觉个中精要。现在用Teradata也有半年多的时间了，越来越习惯了SQL的表述方式，也越来越体会到Teradata作为一个强大的数据仓库系统，是有多么的伟大...这感觉，就是只玩过几个G数据的乡下人进城，猛然看到各路英雄都是动辄几个T的数据，只能暂时以原来落后的思维方式、勉强挥舞着新型工具...好在个性不是特别愚钝，终究还是可以慢慢地领悟到T级数据的奥妙之处，终究用着新武器也越来越顺手了。

这一段时间，也充分证明了我是master in economics而绝对不是 in cs。数据库系统的原理终究学的不深——我哪儿知道MySQL的SQL和Teradata的SQL差了那么多呀...后来慢慢的去听同事传授TD使用经验，慢慢的去看老板传过来的代码，慢慢的一次次处理掉 no more spool space的错误和一次次接到SQL语句效率低强制退出的警告信之后，才逐渐地越来越了解TD的原理和脾气。工欲善其事，必先利其器，这些都是沉重的学费。

所以各位如果没有看过那篇「无知者无畏」状post的，就不要看了。直接接受我诚挚的道歉然后看下文吧。Teradata下简称TD。绝非专业知识，只是个人有限的了解，不对之处请及时批评。

有次跟同事聊，问他们为什么不在本机上装个TD测试用...然后被狠狠鄙视了一番——TD没有单机版！天生就是架在云上的。这东西还真是个原生的分布式数据仓库。

TD和oracle的关系也比较简单：一个是数据仓库，一个是数据库，功能设计什么的压根就不一样。这么说吧，oracle支撑的是ebay的网站运行，所以必然涉及大量的查询、插入、删除等请求。更麻烦的是，以ebay的访问量，这些请求都是同时过来的，这就要求系统并发性要好一点（专业人士可以绕道了，我只是浅薄的知道一点东西...）。体验过12306买火车票排队的大家，想必都知道这个系统并发起来的厉害。ebay若是也来个排队，消费者还不疯掉...

为了应对这样的任务，oracle的数据库设计自然是要按那「三大范式」来。这个就不多说了，再说就暴露了...

TD则是把oracle的数据定期地导出来存着，所以除了简单的复制数据之外，还要对数据进行一定程度的清理和整理，并不完全是最最原始的数据。然后到了食物链上端数据分析师手里，面对的数据很多都是已经弄的很整齐的了。说是食物链上端，只是因为这大概是分工中需要用到原始数据的最后一拨人，且这拨人用到的最多的就是查询（甚至是整表查询）和计算，所以我们写SQL的时候更多是考虑到这些需求，利用TD在这方面的性能优势——我已经很少在SAS或者R里面进行数据整理的工作了，性能跟TD完全不是一个量级的。

下面是TD使用的若干经验，不过这东西只有自己碰壁了才知道个中真滋味，我就是缩短一下解决问题的进程，不用太折腾到处搜来搜去。

No more spool space。当你的SQL没有语法错误，那么最常见的运行不下去的情况就是 no more spool space了，这大概是每个用TD的不管新鸟老鸟都会经历的痛苦历程。这个错误就像R里面报"cannot allocate a vector of size ***"，或者你玩游戏正high的时候系统告诉你内存不足。解决的思路就是＂空间换时间＂，就是看你具体怎么换了。

1. 多表join查询的时候，就要看这些表是怎么merge的——TD会去算是一大一小join，还是两个大表join。前者TD会复制小表到每个大表的＂节点＂上（大表肯定要分块存起来嘛），所以可以事先加collect statistics on *** column ***。后者就要费点脑子了，争取两个表的排序（PI）一致，这样TD join的时候就不需要对两个表都重新排列了是不是（merge join）？每一次重排都会占掉大量的临时空间呢。再者，查询结果储存到另外的永久或者临时表里面，就要注意primary index（简称PI）的选择，不要让TD再把查询结果重排...

2. 除了看primary index，有时候还要去注意partition by。有些已经建好的超级长的表需要去看是怎么真正＂分块＂存储的。对于partition by 的字段设定一个where条件，会让TD很快的知道你要查询和join的是哪些部分，大大缩短范围。一般说来，最常见的partition by就是时间了，缩短一个时间范围也不失为良策嘛。

3. 擅用cast()可以避免很多跟数据类型有关的错误，这个就不赘述了。

4. No space on ***说明没有永久表的存储空间了，这个就得去删过于古老的表和去要新的空间了。

5. 每段SQL不要太长，join不宜太多。熟悉TD的脾气之后，就张弛有度了，擅用临时表。

6. 多用group by少用distinct。

7. 最后终极野蛮办法，如果实在是没法两个大表join又没有partition by的话...手动按PI拆其中某个表吧。

----例行碎碎念----
那些在LinkedIn上endorse我R的朋友们，我真心感觉承受不起呀！至今依旧觉得我的R很烂，代码只停留在＂可运行＂的水平，效率大都很糟糕，基本就是折磨CPU的...哎，非科班出身终究是有莫大的差距呀。

Tags Mysql, Oracle, R, SQL, TD, teradata, 分布式, 并发, 数据仓库, 数据清理, 连接查询

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十一）

Post author By Liyun
Post date December 21, 2012
2 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十一）

上海的冬天越来越冷了，这门课也越来越临近这学期结束了。这节课公式推导不多，有也是那种烂熟于胸无数次的，所以可以稍稍歪楼，不时掺杂一点八卦什么的。

BootStrap

1. 定义

BootStrap的基本思想就仨字：重抽样。先开始八卦~

跟高斯窥探天机猜出来正态分布的密度函数表达式相似，Efron搞出来BootStrap的时候，大概也在偷偷的抿嘴而笑吧。“上帝到底掷不掷骰子呢？”，每次我们都在揣测天意，也是现在越来越有点理解为什么牛顿老先生晚年致力于神学了。每当我们猜中一次，就会有一个新的突破到来。BootStrap思想简单到如斯，以至于我的一位朋友在当高中老师的时候（可惜是美国不是中国），就尝试着跟 teenagers 介绍BootStrap思想了（貌似用的还是Econometrica上的一篇文章，我瞬间声讨“你们这群高中老师真凶残-_-||）——结果显然是我多虑了，那群熊孩子居然表示理解毫无压力！可见BootStrap这个东西是有多么的平易近人。什么测度论什么高等代数都不需要，会摸球就可以了！

顺便抄一下杨灿童鞋《那些年，我们一起追的EB》上的一段八卦：

五十多年前，Efron为 Stanford 的一本幽默杂志 Chapparal 做主编。那年，他们恶搞 (parody) 了著名杂志Playboy。估计是恶搞得太给力了，还受到当时三藩的大主教的批评。幽默的力量使 Efron 在“错误”的道路上越走越远，差点就不回Stanford 读 PhD 了。借用前段时间冰岛外长的语录：“Efron 从事娱乐时尚界的工作，是科学界的一大损失！”在关键时刻，Efron在周围朋友的关心和支持下，终于回到 Stanford，开始把他的犀利与机智用在 statistics 上。告别了娱乐时尚界的 EB，从此研究成果犹如滔滔江水，连绵不绝，citation又如黄河泛滥，一发不可收拾...

所以说嘛，天才之人做什么都是能闪光的，Efron从事科学界的工作，怕也是美国几亿人民周末娱乐的损失吧。好了，满足了你们这群越来越挑剔的读者八卦的胃口了，开始正儿八经的说BootStrap。

我们有观测数据集，然后对这N个样本，进行有放回的重抽样。每轮我们还是抽N个，然后一共抽B轮（比如几百轮，话说前几天weibo上有人问“如果给你一万个人，你要做什么”，放在这里我就要他们不停的抽小球抽小球抽小球，哈哈！）。这样就得到了新的观测样本。

2. 应用

BootStrap几乎可以用来干各种合法的不合法的事儿，只要是跟数据估计有关的...这就如同你问一个画家，“什么最好画？”“上帝和魔鬼，因为大家都没有见过。”大家都没有那么明确的知道BootStrap的界限在哪里，所以BootStrap就被应用在各种跟估计有关的地方了。

在统计学习中，我们最常用的可能就是估计精度：对于每一个，我们都可以得到一个预测函数，然后就对于给定的，有B个预测值，这样就可以做直方图什么的，还可以排排序算出来的置信区间。

最大似然估计（MLE）

我们有一族密度函数，其中为参数集，可不止一个参数。按照概率的定义，我们有，而且。

数据方面，我们有一组数据，为\emph{i.i.d}（独立同分布）。

这样就可以写出来似然函数：，从而可以写出来对数似然函数：。接下来驾轻就熟的，我们就有最大似然估计量：。

最大似然估计之所以这么受欢迎，主要是他有一个非常好的性质：一致性，即当，估计值收敛于真值。

仅仅渐进一致还不够，我们当然更喜欢的是MLE的附加优良性质：渐进正态，即，其中称为信息矩阵，定义为。实际中，如果我们不知道真值，则会用估计值来代替正态分布中的参数。（没想到事隔这么多年，我居然又手动推导了一遍MLE...真的是，我跟统计的缘分怎么这么纠缠不断呀）。

MLE大都要求数值解的，少数情况下可以求解解析解。比如正态分布。

正态分布的密度函数为：，所以我们有对数似然函数：

还有一个特例是正态线性回归模型（Gauss-Markov），即，其中，这个就和OLS的BLUE性质蛮像了，MLE和OLS对于此种情形估计值是完全一样的。所以说高斯王子在搞出OLS的时候，也是各种深思熟虑过的...揣测上帝的“旨意”也不是件信手拈来的事儿的。

简单情形下，我们可以直接求得估计量的置信区间，但是在复杂的情形下，就只能用BootStrap了。人们的思路就从传统的数学推倒，越来越多的转换到计算能力了。有的时候稍稍感觉这更符合统计学的思维——归纳嘛，这也是统计学在computer

area和数学渐行渐远的表现之一么？

吴老师总结了一句话：BootStrap类方法，就是思想简单、实际有效，虽然不知道为什么...

模型平均

模型平均也是有点延续上面的BootStrap思想，就是我有很多重抽样出来的模型之后，要怎么平均这些结果来找出最优模型的。

1. Bagging方法。这个就有点直截了当了。利用BootStrap，我可以，然后自然收集了一堆，所以简单一点就平均一下：

2. Stacking方法。这个就稍稍动了一点心思，直接平均看起来好简单粗暴呀，还是加权平均一下比较细致一点。所以：，其中权重。实际操作中，的选取也是一个蛮tricky的事儿。可以利用validation集来优化...

3. Bumpping (优选)方法。，即在所有的中，选择最好的那个，使得一定标准下的损失最小。

话说，Machine learning或者统计学习，无非就是四件事儿：数据(D)、函数族()、准则()、算法(A)。说来说去，每一样改进都是在这四个的某一方面或者某几方面进行提升的。

Tags bootstrap, Efron, OLS, validation, 密度函数, 对数似然函数, 损失函数, 最大似然估计, 模型平均, 正态分布, 正态线性回归模型, 统计学习, 统计学习精要, 置信区间, 重抽样, 高斯

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十）

Post author By Liyun
Post date December 17, 2012
4 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十）

一个东西写到10，总会多少有点成就感...只是不知道已经磨掉了多少人的耐心了呢？

此外这节公式密集，大家看着办吧...

-----------笔记开始------------

继续上一讲，先说说EM算法。

MM、EM和GMM

1. MM（混合模型）

(1) 定义：，其中，，构成一个离散分布。同时有，且，。

(2) 隐变量

我们有数据，同时依据条件概率分布，有。记，则，其中。

则有为x的边际分布。

(3) GMM（正态混合模型）

当，，我们有，且，。

(4) 对数似然函数和最大似然估计

对数似然函数写为。则我们要求的就是，其中。

2. EM算法 (expectation maximum，期望最大方法)

(1) 迭代方法：给定起始值，迭代出。那么问题就是，如何在已知的情况下，求？

(2) E1步：求。函数形式已知，故可以求各种条件概率什么的。所以有：

。

E2步：计算，由于函数形式已知，我们可以计算并将移出来，所以换成线性形式。

(3) M步：求，这样就完成了迭代。需要证明的性质是：随着迭代，越来越大，且收敛。

(4) 定理：。

证明：

其中，且，定义为两分布的KL距离。

所以，且。而由M步，，故有。

在GMM的情况下，应用EM算法，则有：

(1) E1步：，可以直接计算。

(2) E2步：。

(3) M步：注意有约束条件，所以使用拉格朗日乘子法：

，故有一阶条件：。从而，其中。

还有一阶条件：，得到。

最后，，有。

对GMM而言，E步和M步在k=2的时候，求解过程可参见书上。

第七章：模型评估与选择

1. 概念：我们有数据集，函数族和损失函数，这样得到最优的，然后求得

（有监督的学习）。之后就是对模型进行评估：的精度如何（使用测试集）？模型的选择就是的选择，使得测试误差比较小。

2. 方法：

(1) 数据充分：分成三块，1/2用来训练(train)，1/4用来检验(validation)，1/4用来测试(test)。其中validation

的概念是，在中，加入J函数来考虑函数族的复杂度，以避免过拟合。而validation就是来调正和选择这里的，再用train和validation重新训练模型。

最后，用test数据集，测试并且评估测试误差。

(2) 数据不充分：一种是cross-validation，分成k（比如5-10）份，极端的就是K=N，ave-win-out；另一种是bootstrap，后续章节详述。

Tags bootstrap, EM算法, GMM, test, train, validation, 对数似然函数, 损失函数, 最大似然估计, 有监督学习, 期望最大方法, 模型评估, 模型选择, 正态混合模型, 混合模型, 统计学习精要