落园 » 统计学|专注经济视角下的互联网

一些观察

随便写写,随便看看。

1. 关于研究方向。

读的paper多了,发现大多数人的研究路数无非两种:

  • 一种是锚定一个问题,然后用尽各种办法来看哪种可解。换个通俗的就是,车坏了,找出一堆工具来看看怎么可以修好。
  • 另一种则是,沿袭一套方法论的路数,试图解决越来越多的问题。通俗的讲,就是木工不满足于打打家具,还要去试试电工水工装修工。

你说孰优孰劣?没有高下之分。谁也说不好一篇好的研究到底是问题导向的还是方法论导向的。不过鉴于一般来讲方法论比较容易训练出来,所以有的时候看似包装的很漂亮的paper可能正是这个方法灵了然后倒回头来包装问题本身。

本以为这个只是看paper时候的[......]

Read more


说说我所认识的“最小二乘君”(配图版)

由于近些年常常跟搞数据分析的人混迹在一起,所以很多时候说话方式有点偏向机器学习了...顺便心里暗暗的忧伤一下当年的心路历程(不知道我的基本轨迹的可以先去看看CV..)。这里聊作一二记录,讲讲我所认识的“最小二乘法”(下称最小二乘君)。那个,语言稍显浮夸,大家随便看看哈,别较真。

<锲子>

是写小说的时候大家都兴先来个“锲子”么。7年前,我还是一个年幼无知的大学新生儿。当时我们系开了两门传说中各挂50%的数学课:微积分和线性代数。同学们大都学的死去活来,我也学的死去活来,一度开始怀疑自己的智商...其实现在想想,我也不知道当年为什么学的那么痛苦,现在随手用个微积分貌似都很水到渠成的样子。嗯,可能是老师授课方式不够好吧。那年直到期末考试,我也不知道我学了一年的微积分有什么用处,除了背下来少数的几个证明推导和学会了一堆算微积分的“技巧”之外。

从前有棵树,叫高树,树上挂了很多人……挂了很多人的高树...

线性代数也是一样的。当年翻看某本计算机类入门书(可能是算法与数据结构),前言一开始就是一行金字,大意是“矩阵论是当代计算机基础×××”。然后翻翻后面的果然看不懂,于是默默的去图书馆把这本书还了,然后借了一本黄皮的泛着金光《矩阵论》回来。同样悲催的,啥也没看懂,然后默默的放弃了我在这个领域深修的打算,乖乖的回去上必修课了。(所以我当年学习高级计算机知识的一腔热情就被这么无情的浇灭了哇!果断考完当时的计算机等级考试——C语言和数据库就扔掉编程了...)

线性代数一直学到最后,我还是以为这东西就是来替代“高斯消元法”解联立方程式的...什么特征根啊,奇异值分解啊,格拉姆-施密特正交化啊,直到最后我也没明白是干嘛用的,除了会算几个数之外...没想到,那日一别,重逢已是花落花开好几轮之后...当真是良辰美景虚设!只是万万没有想到,他乡遇旧友,而这厮竟和日后的最小二乘君紧密相连,难分难舍。

138112_091242423086_2良辰美景虚设

[......]

Read more


我(对于统计方法)的一些偏见

Yihui写篇文章居然链到了我那篇吐槽文,瞬间亚历山大...我就是随便说说而已,一定要文责自负么?

其实我经常会有些自我的偏见在那里,而且有时候明明知道这些偏见的存在不好,还是很难说服自己改变它们。

比如,最深的偏见就是我对于计量经济学,我实在无法从根本上接受计量经济学属于经济学的这个事实...我对于它从统计观点出发搞的“因果推断”始终加上一个引号。

再比如,计量经济学内,我偏见最深的就是时间序列分析,我实在无法从根本上接受时间序列分析居然可以做因果推断,这东西更多的是预测的意味嘛,和机器学习的观点很像...

再再比如,机器学习各种模型中,我最不能接受的就是那些完全没有[......]

Read more


「别让数字吓到你」续:神奇的字母

这个是我这次在R会议讲的《统计辟谣训练营》的一部分,也算是上次在松鼠会讲的《别让数字吓到你》的续篇。好吧,其实前者本身就是后者的续篇..不纠结这些关系了,重点是内容~

magic letters

--------------分割线,正文开始咯-------------

前段时间在微博上,有个段子很火:

5月20号快要到了 如果你在乎的那个人,名字里有W,H,Y,L,X,M,T,C,S,Z 的字母就默默转发。

然后就看到各种转发,还有好朋友感叹道“全中!”。呃,这些字母真的就这么神奇么?

当时我的第一反应是,taiyun、yihui和我自己的名字不都是全中么?那么看看cos到底有多少人会全中呢?从cos后台提取了一下驻站作者、编辑及管理员的数据,大致有这些人:

然后,百无聊赖,自然要算一下每个人名字中被这些字母默默击中的概率,结果如下:

也就是说,一共有15+4+1=20位全中?好吧,我样本中一共才41+8+4=53人,接近40%全中呀。这可不是一个小的比例了呢!好奇的看了一眼到底是谁全中,作者太多了就不列了,看看管理员和编辑,“幸运儿”名单如下:

默默中枪,果然被我一下子就想到仨,一点都不差...

然后呢,居然有四个全身而退的,到底是谁呢?

嗯啊,fan兄,哈哈...作为唯一的一个管理员,傲视群雄~牛。接下来,如果COS的其他人像我一样看到这条微博,会有啥反应呢?假设一下,COS的编辑管理员都相互认识,然后每个编辑/管理员都随机认识5位作者,作者之间也是随机相互认识3位。然后会出现什么景象呢?先看一下这样的朋友圈:

author_links
红色:管理员; 灰色:作者; 绿色:名字中"全中"的(不论管理员还是作者)

呃,发现什么了吗?没有任何一个人不与绿色的点相连!也就是说,随便一个人,基本上都认识COS里面“全中”的人这个是存在一定概率的,模拟结果显示,在现在的假设下,这样情况出现的概率约为33%,且该概率随着“随机认识人数”的增加而增加。呜啊。也就是说,大家都直接被瞄中了。这是为什么呢?

有人可能会说,词频不一样嘛,你看新华字典,每个字母对应的厚度都不一样滴~可是也不是所有字都会被用于名字啊,还有些在名字中出现的概率会远远高于其他,比如思喆大哥的“喆”。于是,需要一个现成的有大量名字的样本,恰好R会议有300名报名者,这个可是随机的样本了吧,于是先借用咯。让我选,我会选,Y、L、Z、H、X、C、W这7个,预计覆盖现场90%的听众。为啥呢?统计一下嘛,现场观众中,

看吧看吧,到了W之后,覆盖的名字就很少了。不过看到这个结果的瞬间,我就郁闷了。为啥捏,因为还有另外一个段子:

名字中带L或Y这个字母的人一生都会很顺利,因为这两个字母两头相遇后就再也没有分开过,如果你生命中遇到一个名字里面带L或Y的人那么就转发吧…

要知道我第一次看到的时候那个心领神会的笑开了花啊,L和Y啊,分别是我的名字嘛,还有落园也是LY啊(其实落园的名字就是这么来的)。但是,原来这俩一点都没有特殊性啊,大众名而已。哎,好伤心呢!

---------------分割线,源代码现身--------------
[......]

Read more


把结论假设出来?——记郁彬讲座

一如前篇日志所述,这次帝都之行最大的收获就是有幸聆听了郁彬大神(Berkeley统计系主任)的讲座——还是自由交流式的,让人受益匪浅啊。走出来第一感觉:我要去读Ph.D。

或许以前也说过,最佩服的人就是能 show the beauty of what he/she is doing 的人。我是个极度喜欢美丽的事物的人,不论是那个领域。只要让我看到事物的美丽,那么热情就随之而来,拦也拦不住。幸运或者不幸,昨天郁彬教授恰恰向我展示了这一点。5555,顿时热血沸腾,各种激动。强心针不能长打啊,我脆弱的小心脏真不一定承受的了啊。

郁彬有些很经典的话,摘录于此:

1. “我一直努力的目标,就是不[......]

Read more