引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。 新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢? links类数据 微博有两大类links: 粉丝关系 评论与转发关系 然后呢然后呢? 首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。 嗯,这样一个基...
今天在想一个问题,我们设计了那么多数据挖掘的算法,各种各样的、借鉴各个学科方法的,最终到底是想做什么?预测,从我的理解来说。那么这些算法都是想干什么呢?以我的角度,他们是在“准确信息未知”的情况下,通过一些其他的方法模拟一个可能的路径,然后给出相应的结果。这里,尤以“推荐算法”为甚。最简单的,“购买过此商品的顾客xx%还购买过”,就是一种基于群体行为来预测个体行为的思路,虽然不知道主导一个确定的个体选择的究竟是什么。这类思路下的算法还有一个好处,放诸四海而皆准,不用过度关心每个个体的特性,只知道一个群体的路径就好了。鲁迅先生说过,“世界上本没有路,走的人多了,便成了路”。 这里不禁引出来一个经典的问题:上帝到底掷不掷骰子呢?简单的说,就是一定有什么东西是最核心的、确定的在一件事物背后么?还是所有事情都是随机的?这个问题一下子就牵扯到科学的定义和渊源:uncertainty到底是当前情况下的未知还是必然的存在,牛顿晚年怕也是纠结于这个问题投奔神学。从两三年前彭实戈老师演讲中扔出这个问题的幻灯片开始,它就深深刻在我的脑海里了。很多时候,真的,面对这个问题,觉得人类真的很渺小…… 说到身段,今天听闻一位和我“...
最新的R会议通知,刚刚出炉哦。演讲者列表初步确定了,大牛云集,嗯嗯~ 会议时间 2011年中国R语言会议(上海会场)即将于两周后(2011年11月12日~13日)召开。 会议地址 华东师范大学,中山北路校区,学术交流中心(逸夫楼)一楼报告厅。地址:中山北路3663号(地铁3,4号线金沙江路站)。 开车方式:内环金沙江路出口下来(以逆时针方向为例,顺时针方向下高架后需要在前方调头),靠右行驶数百米,留意路的右边有一个蓝色标牌,上书“进华师大车辆”,右转即可进入校门。进门后会收停车费10元。一直向前,到先锋路(进校后第一个路口)左转,即可看到停车场的标志。逸夫楼就在停车场旁边。如果使用GARMIN的GPS,可以直接定位“华东师范大学停车场”。 会议报告 云计算在统计及Data Mining研究中的应用及前沿综述(谢邦昌,辅仁大学教授,中华资料采矿协会理事长) R工作环境简介(汤银才,华东师范大学金融与统计学院教授,博士生导师) 信息挖掘:预测、排序和过滤(周涛,电子科技大学互联网科学中心主任,教授) An overview of the VGAM package (Thomas W. Yee, Department of Statistics, University of Auckland) 淘宝网购数据和建模(李强,淘宝网产品经理) 利用R构造分析师权重以提高每股收益预测准确率(卢凌坚,...
最近两天在成都,参加电子科技大学主办的《第七届全国复杂网络学术会议》。其实本来这会议跟我关系不大的,人家都是专门研究物理啊、计算机啊等复杂性科学的科学家们,而我就是简单的做做社会网络中的几个比较小的经济学问题,所以基本上是联系不大的。可是谁让我脸皮那么厚,非要缠着主办者说,给我个机会讲讲呗,哪怕丢人也讲讲呗,所以在我百般烦扰之下终于有机会浪费听众们的半个小时、听我稀里哗啦闲扯了半天社会实验。嘿嘿。 嗯,是的,这次的题目就是:社会网络中的实验(Experiments in Social Networks)。说的主要是实验方法在网络中的应用和价值。这里是依惯例放在网上供大家批判的slides,直接放在这上面的东西不多,我说的比较多(然后严重的超时被鄙视了 =_=!)。 slides_network_experiments_sunday.pdf 里面有很多经典的研究成果,也有我自己以前做过的一些东西,主要是继承于上半年硕士论文里面的一些东西。反正可谓是班门弄斧呗,纯属来献丑学习的。借机听了两天的报告,觉得其实主要的方法论、尤其是数理工具层面,经济学和复杂性科学的距离越来越近了,但是最大的区别、如果让我感慨一下“隔行如隔山”的话,那就是关心的问题的不同。大概没有任何一个学科像经济学这么过分的关注...