落园 » R会议|专注经济视角下的互联网

第七届R会议

大概是一个多月没有更新落园,连自己都觉得有点不可思议。其实这一个月还是发生了蛮多事情的,再不记录一下就有点时间匆匆流过白白浪费的感觉了。

最重要的大概就是5月24-25跑到北京去开R会议吧。作为一枚脑残粉,蹭到了和偶像Hadley的合影自然很开心。然后被一千多人的场地惊呆了,心想这阵势到秋天上海怎么搞...在这一切烟花绚烂中,R反而有点成为了配角,你看,你看,大家都是奔着余凯那些大牛去的,一下来就被人们团团围住了呢。

还见了某些反正每年都会固定见两回的人...还有之前的周末在香港,见了一位很久没见的朋友。泪奔,三年未见,世界根本没有我们想象的那么小...

有的时候会觉得这个世[......]

Read more


R会议小记

今年的R会又热热闹闹的开了两天,一切进行的还算顺利,没有大的波折。大家玩的很开心,各种旧友重逢相见恨晚按下不表。只说几点我的体会:

1. 数据挖掘越来越热,却越来越觉得泡沫。今年R会议创纪录的收到了接近500人报名,实际到场领取材料350人。会场一直有人需要站着听,这是以前没有的。R这两年越来越热,说明业界的需求上来了,用R的人越来越多毕业了,进入企业了。然而听了很多演讲,却没有感觉有让人“惊喜”。大家在重复的炒有限的东西。不见新意。

2. 工具越来越热,只能说明用的人越来越多,而不见得是用法越来越聪明。大数据热的一塌糊涂,大家关注的却只是怎么能实现计算,而少有从根本思想的角度提出[......]

Read more


中文文本聚类小尝试(Text Clustering in R)

众所周知的,我会经常百无聊赖的玩一些比较好玩的东西。比如画画旅行地图啦,恶搞一下COS的版猪啦,抓抓新浪围脖啦。这不R大会又要开始了么,有一点点小数据也要玩玩啦。比如,呃,君不见周六上午三场演讲都是文本挖掘的,那我不研究一下文本挖掘怎么去混演讲听啊~自己动手先。

A nearby galaxy cluster about 65 million light years from Earth.
文本挖掘自然也有有个情景嘛。这不正好会议要排日程表嘛,那得把我们16个讲座分成四个半天,每天大约4场。这个应该怎么分呢?从直觉上来说,听众肯定是希望相关的话题放在相邻的时间,这样他们就可以选择自己感兴趣的时间段去听啦,不用在那里一坐两天。同时也便于之后的集中讨论嘛。于是这个目的就是:根据演讲的题目、摘要和关键字,进行聚类。这[......]

Read more


「别让数字吓到你」续:神奇的字母

这个是我这次在R会议讲的《统计辟谣训练营》的一部分,也算是上次在松鼠会讲的《别让数字吓到你》的续篇。好吧,其实前者本身就是后者的续篇..不纠结这些关系了,重点是内容~

magic letters

--------------分割线,正文开始咯-------------

前段时间在微博上,有个段子很火:

5月20号快要到了 如果你在乎的那个人,名字里有W,H,Y,L,X,M,T,C,S,Z 的字母就默默转发。

然后就看到各种转发,还有好朋友感叹道“全中!”。呃,这些字母真的就这么神奇么?

当时我的第一反应是,taiyun、yihui和我自己的名字不都是全中么?那么看看cos到底有多少人会全中呢?从cos后台提取了一下驻站作者、编辑及管理员的数据,大致有这些人:

然后,百无聊赖,自然要算一下每个人名字中被这些字母默默击中的概率,结果如下:

也就是说,一共有15+4+1=20位全中?好吧,我样本中一共才41+8+4=53人,接近40%全中呀。这可不是一个小的比例了呢!好奇的看了一眼到底是谁全中,作者太多了就不列了,看看管理员和编辑,“幸运儿”名单如下:

默默中枪,果然被我一下子就想到仨,一点都不差...

然后呢,居然有四个全身而退的,到底是谁呢?

嗯啊,fan兄,哈哈...作为唯一的一个管理员,傲视群雄~牛。接下来,如果COS的其他人像我一样看到这条微博,会有啥反应呢?假设一下,COS的编辑管理员都相互认识,然后每个编辑/管理员都随机认识5位作者,作者之间也是随机相互认识3位。然后会出现什么景象呢?先看一下这样的朋友圈:

author_links
红色:管理员; 灰色:作者; 绿色:名字中"全中"的(不论管理员还是作者)

呃,发现什么了吗?没有任何一个人不与绿色的点相连!也就是说,随便一个人,基本上都认识COS里面“全中”的人这个是存在一定概率的,模拟结果显示,在现在的假设下,这样情况出现的概率约为33%,且该概率随着“随机认识人数”的增加而增加。呜啊。也就是说,大家都直接被瞄中了。这是为什么呢?

有人可能会说,词频不一样嘛,你看新华字典,每个字母对应的厚度都不一样滴~可是也不是所有字都会被用于名字啊,还有些在名字中出现的概率会远远高于其他,比如思喆大哥的“喆”。于是,需要一个现成的有大量名字的样本,恰好R会议有300名报名者,这个可是随机的样本了吧,于是先借用咯。让我选,我会选,Y、L、Z、H、X、C、W这7个,预计覆盖现场90%的听众。为啥呢?统计一下嘛,现场观众中,

看吧看吧,到了W之后,覆盖的名字就很少了。不过看到这个结果的瞬间,我就郁闷了。为啥捏,因为还有另外一个段子:

名字中带L或Y这个字母的人一生都会很顺利,因为这两个字母两头相遇后就再也没有分开过,如果你生命中遇到一个名字里面带L或Y的人那么就转发吧…

要知道我第一次看到的时候那个心领神会的笑开了花啊,L和Y啊,分别是我的名字嘛,还有落园也是LY啊(其实落园的名字就是这么来的)。但是,原来这俩一点都没有特殊性啊,大众名而已。哎,好伤心呢!

---------------分割线,源代码现身--------------
[......]

Read more


满载而归——记第五届R会议(北京)

今天在回来的高铁上,在已经不知道多少次从虹桥站踏出火车的时候,突然有种时空错乱的感觉。照理说,我这么一个整天游荡在各个城市的人,应该习惯了不同地方才是。可是,不知道为什么,这次在北京呆了两天,却好像两个月那么久。太多美好,太多记忆,让人割舍的时候才体验到心痛的味道。

R会议开到第五届,COS长到6岁,一切居然都这么快。上次去北京虽说只是两个月前的事儿,但是上次在北京开R会、一下子见到这么多好朋友,还是不得不追溯到2009年了。岁月如梭?一下子,大家都长大了许多。长江后浪推前浪,总在被年轻学子的朝气蓬勃所影响着、激励着。心态,一下子就变得好年轻。

先说一下最俗的、物质上的斩获。真的是满载而归[......]

Read more