落园 » 「别让数字吓到你」续:神奇的字母|专注经济视角下的互联网

「别让数字吓到你」续:神奇的字母

这个是我这次在R会议讲的《统计辟谣训练营》的一部分,也算是上次在松鼠会讲的《别让数字吓到你》的续篇。好吧,其实前者本身就是后者的续篇..不纠结这些关系了,重点是内容~

magic letters

--------------分割线,正文开始咯-------------

前段时间在微博上,有个段子很火:

5月20号快要到了 如果你在乎的那个人,名字里有W,H,Y,L,X,M,T,C,S,Z 的字母就默默转发。

然后就看到各种转发,还有好朋友感叹道“全中!”。呃,这些字母真的就这么神奇么?

当时我的第一反应是,taiyun、yihui和我自己的名字不都是全中么?那么看看cos到底有多少人会全中呢?从cos后台提取了一下驻站作者、编辑及管理员的数据,大致有这些人:

然后,百无聊赖,自然要算一下每个人名字中被这些字母默默击中的概率,结果如下:

也就是说,一共有15+4+1=20位全中?好吧,我样本中一共才41+8+4=53人,接近40%全中呀。这可不是一个小的比例了呢!好奇的看了一眼到底是谁全中,作者太多了就不列了,看看管理员和编辑,“幸运儿”名单如下:

默默中枪,果然被我一下子就想到仨,一点都不差...

然后呢,居然有四个全身而退的,到底是谁呢?

嗯啊,fan兄,哈哈...作为唯一的一个管理员,傲视群雄~牛。接下来,如果COS的其他人像我一样看到这条微博,会有啥反应呢?假设一下,COS的编辑管理员都相互认识,然后每个编辑/管理员都随机认识5位作者,作者之间也是随机相互认识3位。然后会出现什么景象呢?先看一下这样的朋友圈:

author_links
红色:管理员; 灰色:作者; 绿色:名字中"全中"的(不论管理员还是作者)

呃,发现什么了吗?没有任何一个人不与绿色的点相连!也就是说,随便一个人,基本上都认识COS里面“全中”的人这个是存在一定概率的,模拟结果显示,在现在的假设下,这样情况出现的概率约为33%,且该概率随着“随机认识人数”的增加而增加。呜啊。也就是说,大家都直接被瞄中了。这是为什么呢?

有人可能会说,词频不一样嘛,你看新华字典,每个字母对应的厚度都不一样滴~可是也不是所有字都会被用于名字啊,还有些在名字中出现的概率会远远高于其他,比如思喆大哥的“喆”。于是,需要一个现成的有大量名字的样本,恰好R会议有300名报名者,这个可是随机的样本了吧,于是先借用咯。让我选,我会选,Y、L、Z、H、X、C、W这7个,预计覆盖现场90%的听众。为啥呢?统计一下嘛,现场观众中,

看吧看吧,到了W之后,覆盖的名字就很少了。不过看到这个结果的瞬间,我就郁闷了。为啥捏,因为还有另外一个段子:

名字中带L或Y这个字母的人一生都会很顺利,因为这两个字母两头相遇后就再也没有分开过,如果你生命中遇到一个名字里面带L或Y的人那么就转发吧…

要知道我第一次看到的时候那个心领神会的笑开了花啊,L和Y啊,分别是我的名字嘛,还有落园也是LY啊(其实落园的名字就是这么来的)。但是,原来这俩一点都没有特殊性啊,大众名而已。哎,好伤心呢!

---------------分割线,源代码现身--------------

第一部分(截至网络图那里),R中代码附上~

 


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *