落园 » 社会网络|专注经济视角下的互联网

社会网络中的社群识别(Community Discovery)概述

最近一直在看Community Discovery这一块儿的论文,深深的感觉现在就是一个矿工,不断的想方设法挖出来更有价值的信息。而且不是一个点一个点的突破,而是需要寻找出一种脉络,串联起所有的信息来。头痛。

最近的情况是,有一个well-connected的网络,然后我想把它稀疏化、打散成一个个独立的community的感觉。这样就可以分别识别每个community的特征什么的。所以厚着脸皮找施老师讨了几篇papers。而主要的问题是,数据太大了...11M nodes, 20 M edges,还是directed weighted network...我直接放弃了把这些数据从SQL[......]

Read more


[RAAT]第一话:微博的数据该怎么玩呢?

引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。

新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢?

links类数据

微博有两大类links:

  • 粉[......]

Read more


放不下的身段

今天在想一个问题,我们设计了那么多数据挖掘的算法,各种各样的、借鉴各个学科方法的,最终到底是想做什么?预测,从我的理解来说。那么这些算法都是想干什么呢?以我的角度,他们是在“准确信息未知”的情况下,通过一些其他的方法模拟一个可能的路径,然后给出相应的结果。这里,尤以“推荐算法”为甚。最简单的,“购买过此商品的顾客xx%还购买过”,就是一种基于群体行为来预测个体行为的思路,虽然不知道主导一个确定的个体选择的究竟是什么。这类思路下的算法还有一个好处,放诸四海而皆准,不用过度关心每个个体的特性,只知道一个群体的路径就好了。鲁迅先生说过,“世界上本没有路,走的人多了,便成了路”。

这里不禁引出来一个[......]

Read more


第四届R语言会议上海会场通知(附演讲列表)

最新的R会议通知,刚刚出炉哦。演讲者列表初步确定了,大牛云集,嗯嗯~

会议时间

2011年中国R语言会议(上海会场)即将于两周后(2011年11月12日~13日)召开。

会议地址

华东师范大学,中山北路校区,学术交流中心(逸夫楼)一楼报告厅。地址:中山北路3663号(地铁3,4号线金沙江路站)。

开车方式:内环金沙江路出口下来(以逆时针方向为例,顺时针方向下高架后需要在前方调头),靠右行驶数百米,留意路的右边有一个蓝色标牌,上书“进华师大车辆”,右转即可进入校门。进门后会收停车费10元。一直向前,到先锋路(进校后第一个路口)左转,即可看到停车场的标志。逸夫楼就在停车场旁边。如果使用GAR[......]

Read more


社会网络中的实验[会议幻灯片共享]

最近两天在成都,参加电子科技大学主办的《第七届全国复杂网络学术会议》。其实本来这会议跟我关系不大的,人家都是专门研究物理啊、计算机啊等复杂性科学的科学家们,而我就是简单的做做社会网络中的几个比较小的经济学问题,所以基本上是联系不大的。可是谁让我脸皮那么厚,非要缠着主办者说,给我个机会讲讲呗,哪怕丢人也讲讲呗,所以在我百般烦扰之下终于有机会浪费听众们的半个小时、听我稀里哗啦闲扯了半天社会实验。嘿嘿。

嗯,是的,这次的题目就是:社会网络中的实验(Experiments in Social Networks)。说的主要是实验方法在网络中的应用和价值。这里是依惯例放在网上供大家批判的slides[......]

Read more