落园 » COS|专注经济视角下的互联网

「别让数字吓到你」续:神奇的字母

这个是我这次在R会议讲的《统计辟谣训练营》的一部分,也算是上次在松鼠会讲的《别让数字吓到你》的续篇。好吧,其实前者本身就是后者的续篇..不纠结这些关系了,重点是内容~

magic letters

--------------分割线,正文开始咯-------------

前段时间在微博上,有个段子很火:

5月20号快要到了 如果你在乎的那个人,名字里有W,H,Y,L,X,M,T,C,S,Z 的字母就默默转发。

然后就看到各种转发,还有好朋友感叹道“全中!”。呃,这些字母真的就这么神奇么?

当时我的第一反应是,taiyun、yihui和我自己的名字不都是全中么?那么看看cos到底有多少人会全中呢?从cos后台提取了一下驻站作者、编辑及管理员的数据,大致有这些人:

然后,百无聊赖,自然要算一下每个人名字中被这些字母默默击中的概率,结果如下:

也就是说,一共有15+4+1=20位全中?好吧,我样本中一共才41+8+4=53人,接近40%全中呀。这可不是一个小的比例了呢!好奇的看了一眼到底是谁全中,作者太多了就不列了,看看管理员和编辑,“幸运儿”名单如下:

默默中枪,果然被我一下子就想到仨,一点都不差...

然后呢,居然有四个全身而退的,到底是谁呢?

嗯啊,fan兄,哈哈...作为唯一的一个管理员,傲视群雄~牛。接下来,如果COS的其他人像我一样看到这条微博,会有啥反应呢?假设一下,COS的编辑管理员都相互认识,然后每个编辑/管理员都随机认识5位作者,作者之间也是随机相互认识3位。然后会出现什么景象呢?先看一下这样的朋友圈:

author_links
红色:管理员; 灰色:作者; 绿色:名字中"全中"的(不论管理员还是作者)

呃,发现什么了吗?没有任何一个人不与绿色的点相连!也就是说,随便一个人,基本上都认识COS里面“全中”的人这个是存在一定概率的,模拟结果显示,在现在的假设下,这样情况出现的概率约为33%,且该概率随着“随机认识人数”的增加而增加。呜啊。也就是说,大家都直接被瞄中了。这是为什么呢?

有人可能会说,词频不一样嘛,你看新华字典,每个字母对应的厚度都不一样滴~可是也不是所有字都会被用于名字啊,还有些在名字中出现的概率会远远高于其他,比如思喆大哥的“喆”。于是,需要一个现成的有大量名字的样本,恰好R会议有300名报名者,这个可是随机的样本了吧,于是先借用咯。让我选,我会选,Y、L、Z、H、X、C、W这7个,预计覆盖现场90%的听众。为啥呢?统计一下嘛,现场观众中,

看吧看吧,到了W之后,覆盖的名字就很少了。不过看到这个结果的瞬间,我就郁闷了。为啥捏,因为还有另外一个段子:

名字中带L或Y这个字母的人一生都会很顺利,因为这两个字母两头相遇后就再也没有分开过,如果你生命中遇到一个名字里面带L或Y的人那么就转发吧…

要知道我第一次看到的时候那个心领神会的笑开了花啊,L和Y啊,分别是我的名字嘛,还有落园也是LY啊(其实落园的名字就是这么来的)。但是,原来这俩一点都没有特殊性啊,大众名而已。哎,好伤心呢!

---------------分割线,源代码现身--------------
[......]

Read more


满载而归——记第五届R会议(北京)

今天在回来的高铁上,在已经不知道多少次从虹桥站踏出火车的时候,突然有种时空错乱的感觉。照理说,我这么一个整天游荡在各个城市的人,应该习惯了不同地方才是。可是,不知道为什么,这次在北京呆了两天,却好像两个月那么久。太多美好,太多记忆,让人割舍的时候才体验到心痛的味道。

R会议开到第五届,COS长到6岁,一切居然都这么快。上次去北京虽说只是两个月前的事儿,但是上次在北京开R会、一下子见到这么多好朋友,还是不得不追溯到2009年了。岁月如梭?一下子,大家都长大了许多。长江后浪推前浪,总在被年轻学子的朝气蓬勃所影响着、激励着。心态,一下子就变得好年轻。

先说一下最俗的、物质上的斩获。真的是满载而归[......]

Read more


土山湾拔草与古文

终于把心里这根草拔掉了~在moore童鞋提及那么久之后,我终于把念想转变为了行动力,遵循王守仁同志“知行合一”的思想,辗转了几趟地铁。在一个周日的下午,在工作人员即将关闭大门谢客的时候,我就堂而皇之的闯了进去。

第一份惊喜是一本护照。原来除了世博护照之外,还有这么多,上海这么喜欢搞这套东西啊。然后长长的一串名单,对我这种人最有效了,逐个的拔草吧拔草吧。

2011122711145442ba

土山湾特殊之处在于它是中西文化碰撞、融合的历史痕迹。在上海,在徐家汇,当中西方文明交织在一起的时候,土山湾忠实的记录了这一切。绘画、雕刻、建筑艺术等等,都有着东方文化的烙印和西方风格的痕迹。再念及其民国时期的大历史背景,一曲婉转而悠扬的[......]

Read more


充实的一周、R会议小报

刚刚结束的一周大概是最近最充实的一周了,几乎每天都在外面跑——去杭州就不用说了,周五更是一天之内横穿了上海两次+,各种高铁地铁磁悬浮、公(交)车私(家)车出租车……真的是为上海的经济发展和碳排放量增加做出了杰出贡献啊!同样的,肯定睡眠不足,终于知道每天都是最终脑子不转了躺在床上立马入睡的感觉,居然被看出来面色憔悴……嗯,我还是喜欢解释为一种挑战极限的充实感。前一周,我被养的太舒服了,果然,这周就必然的加倍还回去。

忙碌的最主要原因就是今天刚刚落下帷幕的第四届中国R语言会议(上海会场)。正如前几日发出来的[cref %e7%ac%ac%e5%9b%9b%e5%b1%8ar%e8%af%ad%e[......]

Read more


中国问题,小世界,数据挖掘邀请赛

嗯我发现现在我起题目已经固定化到一定的程式了……毫无新意哎~见谅见谅。考试期间经常思路短路,所以怎么快怎么来了。

前几天去和Thijs闲谈的时候说到一个有趣的事儿,“中国问题”。起因大致是说到在development economics课上我面对某个国际贸易模型毫无知觉,就算它拿中国和香港做例子我也没有任何的亲切感。Thijs其实是有鼓励我去研究“中国问题”的,这东西貌似好像挺热似的。但是他当时那么一说,我一下子就想起来某年某月某人跟我打趣儿的聊“中国问题”这个词儿的时候了。传说中很多“著名”的中国经济学家的名片上都会印有“研究领域:中国问题”,嗯,至于中国问题到底是什么问题,我想大概个人有[......]

Read more


12