今天在想一个问题,我们设计了那么多数据挖掘的算法,各种各样的、借鉴各个学科方法的,最终到底是想做什么?预测,从我的理解来说。那么这些算法都是想干什么呢?以我的角度,他们是在“准确信息未知”的情况下,通过一些其他的方法模拟一个可能的路径,然后给出相应的结果。这里,尤以“推荐算法”为甚。最简单的,“购买过此商品的顾客xx%还购买过”,就是一种基于群体行为来预测个体行为的思路,虽然不知道主导一个确定的个体选择的究竟是什么。这类思路下的算法还有一个好处,放诸四海而皆准,不用过度关心每个个体的特性,只知道一个群体的路径就好了。鲁迅先生说过,“世界上本没有路,走的人多了,便成了路”。 这里不禁引出来一个经典的问题:上帝到底掷不掷骰子呢?简单的说,就是一定有什么东西是最核心的、确定的在一件事物背后么?还是所有事情都是随机的?这个问题一下子就牵扯到科学的定义和渊源:uncertainty到底是当前情况下的未知还是必然的存在,牛顿晚年怕也是纠结于这个问题投奔神学。从两三年前彭实戈老师演讲中扔出这个问题的幻灯片开始,它就深深刻在我的脑海里了。很多时候,真的,面对这个问题,觉得人类真的很渺小…… 说到身段,今天听闻一位和我“...
最新的R会议通知,刚刚出炉哦。演讲者列表初步确定了,大牛云集,嗯嗯~ 会议时间 2011年中国R语言会议(上海会场)即将于两周后(2011年11月12日~13日)召开。 会议地址 华东师范大学,中山北路校区,学术交流中心(逸夫楼)一楼报告厅。地址:中山北路3663号(地铁3,4号线金沙江路站)。 开车方式:内环金沙江路出口下来(以逆时针方向为例,顺时针方向下高架后需要在前方调头),靠右行驶数百米,留意路的右边有一个蓝色标牌,上书“进华师大车辆”,右转即可进入校门。进门后会收停车费10元。一直向前,到先锋路(进校后第一个路口)左转,即可看到停车场的标志。逸夫楼就在停车场旁边。如果使用GARMIN的GPS,可以直接定位“华东师范大学停车场”。 会议报告 云计算在统计及Data Mining研究中的应用及前沿综述(谢邦昌,辅仁大学教授,中华资料采矿协会理事长) R工作环境简介(汤银才,华东师范大学金融与统计学院教授,博士生导师) 信息挖掘:预测、排序和过滤(周涛,电子科技大学互联网科学中心主任,教授) An overview of the VGAM package (Thomas W. Yee, Department of Statistics, University of Auckland) 淘宝网购数据和建模(李强,淘宝网产品经理) 利用R构造分析师权重以提高每股收益预测准确率(卢凌坚,...
最近两天在成都,参加电子科技大学主办的《第七届全国复杂网络学术会议》。其实本来这会议跟我关系不大的,人家都是专门研究物理啊、计算机啊等复杂性科学的科学家们,而我就是简单的做做社会网络中的几个比较小的经济学问题,所以基本上是联系不大的。可是谁让我脸皮那么厚,非要缠着主办者说,给我个机会讲讲呗,哪怕丢人也讲讲呗,所以在我百般烦扰之下终于有机会浪费听众们的半个小时、听我稀里哗啦闲扯了半天社会实验。嘿嘿。 嗯,是的,这次的题目就是:社会网络中的实验(Experiments in Social Networks)。说的主要是实验方法在网络中的应用和价值。这里是依惯例放在网上供大家批判的slides,直接放在这上面的东西不多,我说的比较多(然后严重的超时被鄙视了 =_=!)。 slides_network_experiments_sunday.pdf 里面有很多经典的研究成果,也有我自己以前做过的一些东西,主要是继承于上半年硕士论文里面的一些东西。反正可谓是班门弄斧呗,纯属来献丑学习的。借机听了两天的报告,觉得其实主要的方法论、尤其是数理工具层面,经济学和复杂性科学的距离越来越近了,但是最大的区别、如果让我感慨一下“隔行如隔山”的话,那就是关心的问题的不同。大概没有任何一个学科像经济学这么过分的关注...
昨天从杭州回来,顿时感到如释重负,事情做完了,自然心里舒畅一些。 然后,今天列了列这周需要做的事情,终于没有什么说是要几点几点必须做完的了。然后长吁一口气,想起来需要改的paper。其实论文这东西,写不写纯属一种对于学术偏执的热情。我还是很喜欢看到一点点contribution to existing literature的,先不管这个contribution有多大。于是写起来,也便多了几分感觉。顿时感慨,大多是时候做事情的热情真的只是单纯的来源于喜欢和责任感啊——尤其是后者,若不是责任感在那里,真的感觉很多事情都没有必要做。与此同时,发觉自己的完美主义倾向越来越严重,不喜欢把一个不负责任的东西交给别人,那样怎么对得起放在第二行的自己的名字呢?虽然很多时候也没有放自己的名字在那里了…… 今天,除了接接电话之外,定位于一个academic day,更多的是指让自己的思维回归学术化一点,用经济的角度重新审视过去几周的事情,再就是准备一下接下来的两个conference。 话说,这次R会议要讲的题目终于定下来了, Experiments in Social Networks and Analysis in R,有点绕口是不是?中文更绕口,我都不知道怎么翻译好了。田野实验的方法在实证研究中的应用越来越广,而随机实验的方法尤其对社会网络这种本来内生性问题很严...