落园 – Page 49 – 来者皆客

新媒体营销中随机分组实验的失败

Post author By Liyun
Post date December 13, 2012

这个话题可以很深，我这里只是随便写写。当然我也不去定义什么是“新媒体”了...基本上下面可以视之为社交网络媒体。此文纯属若干无知的随便念叨，内行请无视。

记得原来在做社会实验的时候，最头疼的就是网络效应——这东西会让你的随机分组失效。如果网络扩散是均匀的也就罢了，这东西还不均匀，搞得随机分组基本上被破坏殆尽。今天和做社会网络营销这块儿同事聊起，发现他们在新媒体营销上也是遇到了类似的问题——传统的A/B test基本失效，因为control组会被极大程度的“污染”。和电视营销的地理隔离还不一样，社交网络是无孔不入的...

但是偏偏，我们还是希望可以利用这样的网络效应的——主动的传播岂不是更好？于是问题就变成了如何去精准衡量网络效应。

从我们以前的做法（可以参见我的硕士论文,in English），基本上是需要动用IV的...哎，然后这个IV还其难找无比。有些幸运的情况，IV是可以找到的，但是也需要一些外在的shock强行的打破现有的网络连接。

如果说要找一种比较简单的做法，那可能就是类似于spatial econometrics他们做的那样，对各个个体在空间中的位置进行加权。比如你要衡量微博营销的ROI，肯定要跟踪到实际覆盖的个体，然后在构造了网络结构的基础上，对个体的位置进行加权。但是讨厌的是，位置或者连接这些东西都是内生的...所以需要去找自然实验，然后去找工具变量...

总而言之，在我读过的为数不多的paper里面，可以很好的衡量网络效应的很少，而那些极少的还是控制了可控的资源的（比如实际的物品发放而不是新闻式传播）。感觉受新媒体的影响和冲击，很多传统的营销方式都在面临着极大的变化，做的好的往往不是分析人员算出来的而更多的是营销人员一步步摸索出来的...

所以，其实我想说的是，可能需要增加一些更好使用的指标来衡量新媒体营销的力量，而不是期待更好的分析方法的改进来支撑营销。后者还需时间来打磨（如果不是case by case的找IV的话）...

Tags 互联网产业观察, 内生性, 地理隔离, 工具变量, 微博营销, 新媒体, 污染, 社交网络, 社会事业, 社会实验, 空间计量经济学, 网络效应, 自然实验, 营销

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（九）

Post author By Liyun
Post date December 11, 2012
2 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（九）

眼瞅着这学期也快接近尾声了，也在讲我越来越不熟悉的东西了...

核平滑与局部方法

1. 核平滑器

(1) K-NN（K近邻）

KNN的思想已经说过很多遍了，大致就是找点x的k个近邻，然后取其平均值作为x点y的预测值。不过这里我们就在想了，可不可以加权呀~于是从最简单的，我们给他按距离算个加权平均：,其中代表权重，离x点越近越大，越远越小。这样听起来更make sense一点嘛~近朱者赤，近墨者黑。

(2) 单峰函数

顾名思义，就是长得像一个山峰的函数，比如我们最经典的正态钟型函数，或者翻过来的二次抛物线函数等等。

(3) 权重（按距离）

我们定义权重，再进一步归一化：。

多维的情况下，写成矩阵形式就是，其中A为正定对角阵，然后我们就可以加权了。

2. 局部方法

(1) 一般概念

我们有数据集，然后定义函数族。再定义损失函数, 我们的目标就是最小化。

相应的引入了加权的概念之后，我们就可以定义加权损失函数：，然后对于每个x做优化，寻找使其最小化的。

(2) 具体例子

(i) 局部回归：，则损失函数为，其中代表已经归一化的权重。

在线性的情况下，我们有，有点类似于我们常见的加权最小二乘法。这里的思想也是，在x点附近的点权重会比较大，离x远的权重则比较小，整体感觉就是在x点附近做了一个回归分析。

(ii) 局部似然：和局部回归蛮像的，只是把损失函数换成（对数）似然函数，即从最大化到现在的最大化加权似然函数。

3. 密度估计与分类

(1) 密度与分类: 我们有x和观测结果G的联合分布：，其中为先验的结果分布，在有K类结果的情况下，写成。这样，也可以写开为其中。

反过来，后验概率，所以我们有贝叶斯分类器。

(2) 密度估计

为了使用贝叶斯分类器，我们需要先对密度进行估计。

(i) 直方图：最简单的就是根据直方图来估计密度，这个没什么好说的...

(ii) 核估计方法（Parzen）：Parzen提出的核密度估计为，该估计当且在减小的时候，收敛于。

4. 核作为基函数

密度函数，然后定义函数族，则其中我iyigexianxingde参数，为指定的函数类，亦为函数参数。这样的话我们有三个函数的参数，指定某一个便可以简化函数形式。不过这里的问题是，没有很好的算法来求解优化问题。比如对于正态分布，我们以写出来，然后的求解就比较复杂了。

上面的两个是非参数方法，下面说一些参数方法。

(iii) 混合模型（GMM, Gauss Mixed Model）

，其中参数有，然后可以利用最大似然准则，最大化，具体算法可用EM，下节课详述。

-----稍稍跑题------

GMM，我印象中它怎么是 Generalized Moment Method, 广义矩估计呢？果然是被计量经济学祸害太深了...

Tags EM算法, GMM, KNN, K近邻, 加权似然函数, 加权平均, 加权最小二乘法, 单峰函数, 基函数, 密度估计, 局部似然, 局部回归, 核估计方法, 核平滑, 混合模型, 统计学习精要, 范数, 贝叶斯分类器

事儿关经济

读书越多，被“剩女”的可能性越大？

今天例行的刷Marginal Revolution，果然发现一篇比较好玩的paper：

Housewife, “Gold Miss,” and Equal: The Evolution of Educated Women’s Role in Asia and the U.S.

简而言之呢，就是作者在好奇，为什么亚洲国家高学历的黄金剩女越来越多？嘻嘻，这也是作者Tyler Cowen 的Job Market Paper。虽然数据不涉及中国，但是眼瞅着韩国和日本现在的景象大概就是中国几十年后的必经之路，所以看看也是挺赏心悦目尤其是有借鉴意义的。

图片与正文几乎无关...

我就勤劳的翻译一下摘要吧：

自上世纪70年代中期以来，美国拥有大学学历的女士结婚或曾经结婚的比例、较之于教育程度稍逊的女士，在逐渐升高。然而有趣的是，与此同时亚洲的发达国家该比例却在降低——也就是说出现来越来越多的“黄金剩女”。本文认为，亚洲近几十年的快速发展和两代人之间的择偶观念传递共同造就了该现象。
经济发展带来了更多拥有大学学历的女性，从而增加了高学历女性供给；然而与此同时，男性对其妻子家务劳动的需求减少的却比较缓慢，尤其是受到他们母亲在家中角色的影响。（换成人话就是，现代女性在进步，而男性的择偶观依旧停留在找保姆阶段，尤其是在婆婆的观念中...）。本文中，我发现一个正向的工资刺激、较之于缓慢的工资增长，会造成婚姻市场中受教育女性和男性更大的不匹配（换成人话就是，女性工资涨得快结果择偶越来越难）。我使用了如下三个数据集来检验这样的结论：the Japanese General Social Survey, the American Time Use Survey, and the U.S. Census and American Community Survey.日本的数据显示，母亲的教育和工作程度会影响到他儿子的择偶观；在美国，亚洲女性家务劳动的时间和其丈夫母国的女性劳动参与率呈负相关；最后，日韩裔的大学毕业女生在美国婚姻市场有着更多的选择——她们更可能嫁给美国人，而与此同时日韩男生则没有此优势，并且这样的性别间差异在出生于外国的人群中更为明显（较之于出生于美国）

Abstract: The fraction of U.S. college graduate women who ever marry has increased relative to less educated women since the mid-1970s. In contrast, college graduate women in developed Asian countries have had decreased rates of marriage, so much so that the term “Gold Misses” has been coined to describe them. This paper argues that the interaction of rapid economic growth in Asia combined with the intergenerational transmission of gender attitudes causes the “Gold Miss” phenomenon. Economic growth has increased the supply of college graduate women, but men’s preference for their wives’ household services has diminished less rapidly and is slowed by women’s role in their mothers’ generation. Using a dynamic model, I show that a large positive wage shock produces a greater mismatch between educated women and men in the marriage market than would gradual wage growth. I test the implications of the model using three data sets: the Japanese General Social Survey, the American Time Use Survey, and the U.S. Census and American Community Survey. Using the Japanese data, I find a positive relationship between a mother’s education (and employment) and her son’s gender attitudes. In the U.S., time spent on household chores among Asian women is inversely related to the female labor force participation rate in husband’s country of origin. Lastly, college graduate Korean and Japanese women in the U.S. have greater options in the marriage market. They are more likely to marry Americans than Korean and Japanese men do, and this gender gap is larger among the foreign born than the U.S. born.

总而言之这个逻辑就是：

随着经济的快速增长，高学历女性越来越多，而与此同时高学历男性的择偶观依旧停留在他们上一辈的观念（要求老婆在家更多做家务），就算移民到美国了依旧如此，所以造成了高端女性“被剩女”；
此外如果亚裔女性到了美国，她们更容易嫁“美国佬”，而亚裔男性则很少娶西方女性。
不过那些出生长大在美国的就没有这么明显的现象...

还是蛮好玩的是不是？我看完了之后觉得优秀的女孩子们唯一的出路就是——好好读书，跑到美国，嫁美国人...不要对本国的男士抱太高期望...汗。或者，谁来向男同胞们呼吁一下——你们是娶老婆，不是娶保姆！哈哈...

另外扫了一眼下面的评论，给出了一些蛮好玩的统计数字:

“The marriage competition is fierce, and statistically, women hold the cards. Given the nation’s gender imbalance, an outgrowth of a cultural preference for boys and China’s stringent family-planning policies, as many as 24 million men could be perpetual bachelors by 2020, according to the report.”

预计到2020年中国大约有2400万单身汉...（重男轻女+一胎政策的恶果）

Tags Marginal Revolution, 一胎政策, 剩女, 劳动力市场, 劳动参与率, 劳动经济学, 受教育, 婚姻市场, 择偶观, 经济发展, 重男轻女, 高学历

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（八）

Post author By Liyun
Post date December 6, 2012
1 Comment on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（八）

平滑splines

有数据集，然后定义目标函数，记为(1)

式。然后我们有如下结论：使（1）最小化的解一定是分段三次多项式。

证明如下。

记为函数族上的分段三次多项式（splines），且在首尾两段和上是一次多项式，那么他一定有的自由度。

若，则当时，有。

(2) 我们设也是(1)式的解，则下面证明一定能找到使得目标函数比小，则,

(3)记，则

(4) 下面我们证明，（两者内积为0），即。

且

所以得到。

(5)有了上述结论后，我们有，然后有，所以对于所有的g，我们都有其二阶导数的范数小于f的二阶导数的范数，故在(1)式中代入g总比代入f大（或者相等）。这样我们就把一个无限维的最优化问题变为了有限维。

子波分析

1. 函数的平移与缩放

平移：

缩放：

组合起来就是。由此，对于每个，我们可以定义一个函数族，写成矩阵形式就是

2. Hoar函数

(1)定义：。

(2)Hoar函数的平滑与缩放。定义Hoar函数族为,

。这样我们每个为一组（胖瘦一样）。

定理1（正交）：是平方可积函数的一个正交基，即对于任意的，有。

定理2（增长）：随着d的增加，张成的闭子空间逐渐增大，且。这样，d比较小的函数一定能用d比较大的函数（正交基）来表示，比如。直观的理解就是，d越大，分辨率越高。

定理3（完备）：

(3)定义，使，或者。

(4)定义，然后。

定理4：函数族,，则亦为完备基，且，如果。也就是说，和之间的空间随着d的增加，彼此正交，且所有的叠起来之后亦为完备空间。

如此，我们称为子波（mother）而为father函数。注意，这里Hoar函数非连续。

在更一般的场合，我们寻找为father函数，然后定义，满足（正交），且（增长），（完备）。

再寻找mother函数满足（同层次内正交）、(相邻层次正交补）和完备。

这样的和到底存不存在呢？实证结论是存在，而且很多，不过坏消息是他们的形式都不算简单。

spline和子波分析

spline和子波分析都提供了一组线性基底，其线性组合可以定义函数类。由此，我们可以定义广义线性模型的函数族，为统计学习模型的函数族做约束。

Wordpress 我的生活状态

WordPress懒人模式开启——自动翻页

Post author By Liyun
Post date November 27, 2012

最近发现那种自动翻页的懒人模式挺好的，减少一次点击呢...所以打算给落园动动手术。

先搜了一下，找到了一篇jQuery Ajax 分页 WordPress 版，但是发现在我已然千疮百孔的落园上，显然不怎么适用。发现几年没折腾，WP已经强大到很多功能我都不认识了...比如加载个jQuery库居然可以这么简单了...

function my_init() { if (!is_admin()) { wp_enqueue_script('jquery'); } } add_action('init', 'my_init');

只是鼓捣了半天毫无反应，开始搜其他的东西（我果然是太久没有写过JavaScript和Ajax了，完全不记得这东西语法是什么了，读起来jQuery的源代码表示一片的茫然，还是另寻捷径吧）...果然有现成的WP插件——Infinite-Scroll。不知道为什么WP官网的版本比较旧，那么就用直接github上面找新的东西吧：https://github.com/paulirish/infinite-scroll/tree/master/wordpress-plugin

安装完了之后要仔细的配置一下：

https://github.com/benbalter/Infinite-Scroll/raw/develop/screenshot-1.png

然后就可以了...不过鉴于我在这里浪费了许多时间，还是简单的翻译一下这些配置选项吧。

1. 你放置所有文章内容的div，经典的twenty ** 系列都直接是#content，去找WP主题里面的循环开始之前的div就好了~
2. 导航链接所在的div，比如我这里保留了pagenavi的翻页，是因为另外加了一个层，只有一个链接指向后一页。
3. 导航链接所在的a标签——注意这个first是指第一个a标签，我傻乎乎的以为是a标签的名字，汗...没仔细看jQuery CSS 选择器指南哇..
4. 每篇文章的div，就是会自动加载进来的新的层内容，直接去找WP主题里面的循环开始之后的div就好了~

然后就可以正常的使用啦。话说，我这里顺便把首页文章篇数调到了2篇，可以加快一下加载速度嗯。

Tags ajax, css, infinite scroll, jQuery, wordpress插件, 自动翻页