Tag: 文本挖掘

中文文本聚类小尝试（Text Clustering in R）

Post author By Liyun
Post date October 31, 2012
7 Comments on 中文文本聚类小尝试（Text Clustering in R）

众所周知的，我会经常百无聊赖的玩一些比较好玩的东西。比如画画旅行地图啦，恶搞一下COS的版猪啦，抓抓新浪围脖啦。这不R大会又要开始了么，有一点点小数据也要玩玩啦。比如，呃，君不见周六上午三场演讲都是文本挖掘的，那我不研究一下文本挖掘怎么去混演讲听啊~自己动手先。

文本挖掘自然也有有个情景嘛。这不正好会议要排日程表嘛，那得把我们16个讲座分成四个半天，每天大约4场。这个应该怎么分呢？从直觉上来说，听众肯定是希望相关的话题放在相邻的时间，这样他们就可以选择自己感兴趣的时间段去听啦，不用在那里一坐两天。同时也便于之后的集中讨论嘛。于是这个目的就是：根据演讲的题目、摘要和关键字，进行聚类。这显然是一个无监督的学习嘛，我又没有一个特定的结果变量。

那么首先，自然是要对中文文本进行分词啦。这个嘛就可以偷个懒，直接用现成的R包rmmseg4j。（中间鼓捣若干编码问题，不赘述...）

然后就是聚类。这里继续偷懒，调用现成的文本处理包tm，可以直接生成文本词对应的矩阵。比如，一个编号为1的句子是 “我在中国”，编号为2的句子是“我爱中国” 那么生成的矩阵就是：

句子我在中国爱

1 1 1 1 0

2 1 0 1 1

就是说，把每个词都作为一个变量，然后统计它在每个句子出现的次数作为变量值。这样一来，如果总共有10个句子，有不重复的100个词，那么就会给出一个10×100的矩阵了。

有了这个矩阵之后，我们就相当于知道了每个个体的观测特征，那么就可以聚类了。比较简单的，可以直接算余弦相似度（比如google识别相似新闻的做法）；也可以调用kmeans聚类。这里我们的摘要直接不会有特别多的相似，所以余弦相似度的区分度可能会不好。那么就先试试kmeans吧。

到这里，代码如下：

#读数据
library(xlsx)

presentations <- read.xlsx("r-presentations.xlsx", sheetName="Sheet1") #读excel数据

summary(presentations)

presentations$Title <- as.character(presentations$Title) #转文本

Encoding(presentations$Title) <- "UTF-8" #转换编码

presentations$Title

presentations$Abstract <- as.character(presentations$Abstract)

Encoding(presentations$Abstract) <- "UTF-8"

presentations$Abstract

presentations$KeyWords <- as.character(presentations$KeyWords)

Encoding(presentations$KeyWords) <- "UTF-8"

#分词

library("rmmseg4j")

presentations$raw_word <-with(presentations,paste0(KeyWords,Abstract, sep=";")) #连接所有标题、摘要、关键字

presentations$raw_word <- with(presentations, str_replace_all(raw_word, "R","")) #去掉r

presentations$seg <- mmseg4j(presentations$raw_word) #分词

#kmeans聚类

library("tm")

presebtation_seg <- Corpus(DataframeSource(presentations[,c("Title","seg")])) #转换到tm专用格式

presebtation_term <- TermDocumentMatrix(presebtation_seg, control = list(stopwords = TRUE)) #生成词频矩阵

presebtation_term <- t(as.matrix(presebtation_term)) #转换为matrix并转置

summary(presebtation_term)

presebtation_kmeans <- kmeans(presebtation_term, 7) #kmeans聚为7类

为什么我会在kmeans里面聚成7类呢？理论上只是要聚4类嘛。可是直接聚四类的话，区分度没那么好，一半多的演讲都聚到一类去了，没法安排嘛～所以只能增加聚类的个数，看看到时候再把小类合并。

聚成7类的结果如下：

Title	cluster_result
R语言在eBay搜索引擎反馈与测试中的应用	1
营销分析模型及其在广告界的应用	2
系统生物学和转换医学中的R语言 + R in Systems Biology and Translational Medicine	3
R/Bioconductor在生物多维组学数据整合中的应用	3

R Case Study from EBAY APD	4
网络用户浏览路径分析	4
啤酒与尿布的当代版--商品分析在电子商务中的应用	4
基于RHadoop的关联规则挖掘	5
模型预测的利器——随机森林	5

基于R的地理信息系统（R-based GIS）	6
R语言和其他计算机语言的混合编程	6
ggplot和knitr包简介	6
R与面向对象统计分析	6
twitteR包入门和应用	6
短文本分类器与电商品类数据挖掘	7
R语言环境下的文本挖掘	7

比较理想的是，聚类之后识别出来了两个文本挖掘的演讲...还有一堆R包的演讲。但是还是没法安排演讲嘛。看到这里，大家有没有发现，这样做最大的问题就是，聚类的时候把一些没有实际意义的虚词也聚类进来了，比如“的”；还有一些几乎所有演讲都会涉及的词，比如“R”和“分析”。这些词在其中是没有意义的，也会影响我们算dissimilarity的结果——这到底是按内容聚类啊，还是按作者的行文风格聚类啊？此外，虽然我们规定演讲摘要大都在100-200字，但还是有长有短，到目前我还没有对文本的出现频率用语句长度来加权...这也是不科学的嘛。那些原来在Google搜搜里面排名作弊的，不就是同样的内容复制10几次，来提高关键词出现频数（而不是频率）嘛。

为了解决这些问题，首先就是要去掉没有意义的虚词。这个不算太麻烦，把一些常用的虚词和转折词连接词之类去掉就可以了。其次，要去掉每个演讲都有的词。这里虽然可以一个个去看，不过简单一点，我们先统计一下词频嘛：

#高频词统计

presentations$seg2 <- unique((strsplit(presentations$seg,split=" "))) #断词

all_key_words <- iconv(unlist(presentations$seg2), from="UTF-8", to="GBK") #转换到GBK编码

all_key_words_fre <- as.data.frame(table(all_key_words)) #统计词频

names(all_key_words_fre)

all_key_words_fre <- arrange(all_key_words_fre,desc(Freq)) #按词频排序

all_key_words_fre[1:20,]$all_key_words #100个高频词

然后看一下TOP 20高频词：

1 的 105

2 数据 27

3 分析 24

4 和 21

5 图 18

6 在 17

7 挖掘 15

8 用户 15

9 应用 14

10 分类 13

11 了 13

12 语言 13

13 介绍 11

14 是 11

15 文本 11

16 试验 10

17 平台 9

18 ebay 9

19 案例 8

20 模型 8

所以看来，“挖掘”，“用户”，“文本”，“试验”，“平台”，“ebay”，“案例”，“模型”等等还是比较有区分度的词。按照这个思路，选择有限的几十个词重新分类，效果可能会有所改善。

此外，鉴于样本量不大（16个），所以可以人工的去看每个简介，手动标注tag作为聚类的变量。事实上，最后我还是这么做了一下，来在上述原始聚类结果上进行了一下重新的分组处理，形成了4大类。但是这个东西也不完全是可以直接用的，总要考虑时间之类的其他因素。最终的结果更多是人工思考的排序，估计李舰哥在确定顺序的时候更多的是按照经验和以往R会议的风俗。算法虽然好玩，但毕竟捕捉的还是人的思维模式，暂时没办法完美的取代吧。不过其实也差的不远呢。

最终人工结果：

冯兴东：R语言和其他计算机语言的混合编程

刘思喆：R语言环境下的文本挖掘

张翔：短文本分类器与电商品类数据挖掘

沈羽、周春英：R语言在eBay搜索引擎反馈与测试中的应用

周扬：基于R的地理信息系统

肖凯：twitteR包入门和应用

陈钢：系统生物学和转换医学中的R语言

杭兴宜：R / Bioconductor在生物多维组学数据整合中的应用

陈逸波：基于RHadoop的关联规则挖掘

李忠：R Case Study from EBAY APD

洪健飞：啤酒与尿布的当代版——商品分析在电子商务中的应用

廖明：营销分析模型及其在广告界的应用

肖嘉敏：网络用户浏览路径分析

刘成昊：模型预测的利器——随机森林

王雨晨：R与面向对象统计分析

魏太云：R基础作图与可重复研究

纯属好玩而已~不过R会议也举行了整整五届了，每次15个演讲的话也有15*9=135个演讲了。在这个样本量下，如果我们要出个论文集什么的，倒是可以直接用聚类的办法划分chapter了...嘻嘻。

Tags kmeans, R, rmmseg4j包, R会议, 中文文本处理, 事儿关经济, 余弦相似度, 数据挖掘, 文本挖掘, 文本聚类, 无监督学习, 机器学习

互联网产业观察经济、IT观察与思考

[RAAT]第一话：微博的数据该怎么玩呢?

引言(即废话)：每当要准备presentation的时候，就会开始想一些问题。去年写的是【社会实验的特殊性】，然后有一系列的文字和最终的slides。现在，想多少从自己这大半年的工作经历出发，写一系列文章，就叫做 R as an analytical tool吧，简称RAAT。第一话，从微博入手好了；第二话，将由Joke童鞋过年时候问的一个问题引出；第三话，会是更偏向流程和实践的东西。这些我会一点点写，也可能有所改变，看到时候具体的想法了。

新浪微博也火了这么久了，但是对于吾等数据源控来说，这等数据简直不能被暴殄天物啊。怎么用来分析为好呢？

links类数据

微博有两大类links:

粉丝关系
评论与转发关系

然后呢然后呢？

首先很多人感兴趣的是信息传递吧？那么决定信息传递的就是，第一呢，每个用户的信息源（主要来自于他关注的其他微博用户）；第二呢，他关注的人的发布及转发行为。用粉丝关系来计算影响力（influential rank）自然是没有问题，但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是？所以，一个简单可行的思路是，这里不妨用其转发行为来加权，判断每个他关注的用户对于他的影响程度的不同～如是，则每个有向的link上就附加了一个权重，成为了一个加权的有向图。

嗯，这样一个基本的网络模型就构建好了。然后呢？链路预测？等等，我们关注并分析微博数据是为了什么呢？到底构建什么样的指标是合理的呢？

如果你想扩大自己的影响力...

好吧，在下作为一个老字号（落园居然被我坚持写到第6个年头了，这是一种什么精神啊~）blogger，自然可能希望多少扩大一下影响力。落园是落园，blog对我来说有它自己特殊的意义（比如发泄，呃），但是我的新浪微博就沦落为一个落园的notifier了（这个特别的理由就不在这里公开说了，私底下聊）。如是，那么应该怎么办呢？

正常的话，经营一个微博，怎么判断自己是不是越来越受欢迎了呢？显然，简简单单一个“粉丝数”还是不够的，用“转发数”为每个粉丝关系加权也还是不够的，我还得关注一下我的“粉丝”们都是一些什么样的人。比如，他们有几千+的粉丝，还会转发我的东西，那么我的影响力就～哈哈。简单的说，一个衡量指标可以是：我的微博可能会被多少人看到呢？那么，我只要算一下我的粉丝和他们转发的可能性，然后再算他们的粉丝转发他们微博的可能性，以此类推，我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言，这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然，类似的指标还可以构建很多，比如对response进行加权。看具体目的了。我的微博算个特例，因为它有一个特殊性：不转发任何其他微博（机器人自然要符合自己的身份嘛），所以我关注的指标相对单一——我是比较关注“信息能传递到的人”，而不是特别关心他们的response程度（话说最近关评论了，直接刺激大家转发啊，故需要另当别论了）。如果是商业经营一个微博，那么在内容的选择上或许就要更加迎合各自群体的口味，具体的是否可以用Bayesian规则来算算被转发概率呢（不断的update概率）？

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道（沟通成本低嘛），所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家，可以通过找寻自己会员的微博号，来得知他们最近的偏好，然后推荐相应的产品。电商也可以进一步的做一些销售活动，比如我的京东帐号和微博帐号绑定之后，是不是就可以直接留言给京东下单了呢？就像我打个电话似的那么方便。要是他搞什么团购之类的，我也可以直接在微博上买而不是跳转到京东复杂的页面上去，那该多好啊。

对于这样的目的，首要的任务就是找寻自己的用户群，然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外，初期还可以利用社交网络的力量，比如洲际和喜达屋集团都在做一些转发抽奖的活动，让已经关注他们的微博用户来扩散到他们的朋友（所谓物以类聚嘛，自然更有可能也是酒店常客），这样一来就已经实现了用户的识别。然后，怎么引诱这群会员是这些商家的长项，各种美图诱惑之下，让人经常在屋子里面各种坐不住（比如我...）。如果这些用户发一些信息，比如“下周飞北京”，那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户（先发制人啊）……反正至少我认识的玩酒店常客计划的人，都没有只专心的玩一家的。

跟R啥关系？

说了这么多，我们有了一些基本的建模思路。比如希望借助微博扩大影响力，那么最直接的办法：去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格，如果你相信市场是无摩擦的、处于均衡的，自然可以认为价格反映了其影响范围的大小。但是，首先市场就不是一个静态的，难免在动态潮流的波动下偏离均衡；再说怎么可能无摩擦呢，信息不对称总是到处存在的。因此，为了实现现有资金（或其他资源）的集约化投入，往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话，“物以类聚，人以群分”，很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面，如科学松鼠会往往会发布科普类知识，主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之，不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子，我们可以先利用微博的粉丝关系，建立起来一个网络图（更可利用转发情况来建立加权的有向网络）。这在R中可以利用SNA等package完成，或者Gephi之类的更专一的network analysis software。然后在此基础上，分析若干帐户发布的微博关键词（会用到一些text mining技术，其R中的实现可以参见思喆大哥的这篇指导：http://www.bjt.name/2012/03/text-mining-in-r/），然后找到一个或者若干个符合目标群体特征的微博帐户，在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题（think about real analysis...），而加权网络中计算这些并不困难（也可以加入随机的扰动项进行多次模拟得出结果）。最后，自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算，更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题，在R中无论是模拟还是求解都不是难事。最后结论会告知，哪些微博是应该去争取转发的（无论是通过金钱还是内容本身的意义去说服）。

类似的思路，能做的事情还有很多。譬如，哪怕是作为一个个体用户，我只关心某些事情发展的潮流（比如那些会影响股市的情绪），利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源（可能不是全部，或者出于实时性要求无法做到全量检测），即排除噪音，然后这些信息源所提供的信息便有可能给我一些方向上的指导，而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了，背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具，其已经提供的众多packages可以迅速的帮分析人员实现相应的想法，而不是把大量的时间用于无休止的编程以开发相应工具。这样，R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后，很多时候还需要评估效果（这里可以参见去年写的关于社会实验的东西：一、二、三、演讲幻灯片），这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告（简单的分析模型和结果重复可以利用已有的脚本，偏正式的报告可以借助当年的Sweave和进化版如knitr）。

总而言之，我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累，以及一些对于数据的敏锐直觉，而不是编程能力。若有想法便有其他人可以帮忙实现自然好，但是有时候一味的借助他人往往存在着时滞，一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作，只是找到这么一个完美团队的成本实在是太高，更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低，分工模式也会更加的偏向项目执行流程（比如分析->成熟模型->自动化系统），而不是在分析阶段就完全的实现了各展所长（那样对每个成员的要求可能都太高了~）。在效率和效果兼顾的现实情况中，R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然，有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力，而network的数据往往又是一个N*N维的（N为个体数量），更加大了对于空间计算量的需求。这方面，解决思路一方面是把线性的计算分块化、分批跑；对于非线性的计算，更多的则可能是先抽取一个小样本，然后确定一个或几个模型，最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

事儿关经济经济、IT观察与思考

社会实验的特殊性（三）

在上一篇[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7%ef%bc%88%e4%ba%8c%ef%bc%89]里面回顾了费歇尔的实验设计三原则之后，那么归根结底，我们为什么要做实验？

从一个纯经济学的角度来看，社会实验的目的之一就是在我们面对现有的数据受到各种局限、从而无法完美的回答我们关心的问题的时候（说到底还是各种内生性问题），采取的一种主动出击寻求答案的方式。故而，实验之前我们一般是有一个基本的思路和方向的，然后更多的想去看一下这个东西到底是不是在现实中就是这个样子。从这个角度而言，社会实验是在很明确的我们知道想得到什么信息的方向上去设计的。

说一下从我个人的感觉上的最大的在业界和在学术界的不同，可能就是data上。在学术界，难得会有非常好的data，所以很多的时候我们都是在有限的数据资源的基础上、去力求用最完美的方法估计我们感兴趣的值。数据源有限的原因有些是历史上的，比如我们研究几十年前的事情，自然当时没有电脑等东西可以完善的记录所有的事情；有些是数据本身的性质决定的，比如宏观里面常用的gdp等东西，中国的数据是1978年之后才有的，而且一般都是年度数据，更受限于国民统计汇总的层级汇报，自然会有一些测量偏差；有些是业界有数据，但是没法得到，这里就牵扯到一些隐私等法律权益、或者数据接口API等开放的幅度的问题；还有些是知道数据在哪里、也可以得到，但是成本太高，比如个人层面的数据，除了全民普查外很难有全覆盖的数据，一般只是小规模样本；最后的就是信息并不是直接以数字的方式记录的，比如twitter上面的用户微博记录，因此需要借助文本挖掘等手段进一步深究。

业界主要提供的就是第三类，大量的个人用户的数据，比如淘宝上各种买卖双方交易的数据。现在淘宝的交易量真的是非常大，而且每笔交易都是真实的现金往来的（我们不考虑非法的洗钱状况），其实背后对应的就是一个真实的微观交易的集合。但是这个交易数据怎么用？最简单的，我们可以看价格，对于同质品之间竞争已然白热化的，已然相差无几，那么价格几乎就等同于scanner price，可以用来衡量物价的波动。当然，网络交易有不同于实体交易的地方，比如受限于运输成本和采购的规模效应，肯定会和超市里的价格有所区别。另一方面，网络上的价格信息流动非常充分，越来越接近于理想中的完全竞争市场对于信息的要求，所以多少也让人兴奋。

另外一个有趣的数据可能就是微博，因为其实质上是一种“短平快”的信息传播渠道，会把信息通过简单的几个信息源极快的扩散到整个网络中去（所谓的influencer model）。所以现在很多人炒得很热的微博营销也是背后有着深刻的渊源的。但是同样的，信息传输成本降低的背后就是噪音的增加，因此对于微博的信息分析起来除了文本挖掘技术实现之外，就是怎么去在大量的噪音数据中寻找到有用的信息。从这个角度而言，就是在进行任何文本挖掘或者信息提取之前，是不是有一个主导的思路去明确的知道需要挖掘的信息。业界很多时候不是数据太少了，而是太多了，以至于大家根本不知道这些数据可以怎么用，所以data mining成为了救命稻草，一窝蜂的上去看看能不能挖到金矿。从我的角度看，每一个data mining算法背后必然是有一种主导的思想来支撑的，比如决策树，不过是分类统计最优化路径的感觉，这样的直觉还是蛮强的。所有数据分析的任务无外乎两个字：降维，怎么在一个多维的好烦的数据海中找到自己最感兴趣的数据，可能是几个变量之间的关系，可能是一个综合指标的创建。最简单的，GDP就是对于国民生产消费活动的降维衡量指标，所以他既然降维了自然有损失，能够多么真切的反应经济活动的现实就必然要打个折扣。

经济学里面常用的“降维”的方法就是回归，无论回归在统计学或者其他学科里面被批判的多么体无完肤，但是回归最大的好处在我看来就是最容易融入经济学直觉。在[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]里面我曾经提到一些最新的高维数据降维的算法，然而算法本身必然是有直觉甚至是（经济）理论来支撑的。当数据挖掘方法被应用在一个经济活动或者经济问题的时候，如果完全脱离了经济直觉和经济思维衍生的分析方法，我觉得未免有点太过于高傲了。有的时候，如果分析思路足够敏锐，那么基于这样思路的各种算法的出来的结果可能是殊途同归。正所谓“万变不离其宗”，这也是我觉得很多data mining的方法应该和经济学、商科的思维更好的融合在一起的缘故。就像挖矿，我们除了要有先进的挖掘机以外，事前的各种勘探和经验思路还是有非常大的价值的，至少可以降低找到金矿位置的成本、尤其是时间成本。这也是我觉得经济学在业界的应用天地断然不仅仅限于和金融相关的那些而已的缘故。

另外，如果“降维”说的广义一点，就是科学的目标。可能不同的人对科学有不同的定义，我除了喜欢一种“概率”角度的定义之外，刚看到一种定义也是蛮受启发的，

The object of science is the discovery of relations.., of which the complex may be deduced from the simple. John Pringle Nichol, 1840

然而，说到底，经济直觉总要来源于实践经验，只要经济学还是定位于“研究人类行为活动的科学”。实践中信息不足的时候，信息是制约的瓶颈，因此我们要借助更多的数学建模工具来力求完美精细的刻画现有的数据构成的轮廓。反之，如果数据是可选择的，那么更多的精力就应该放在如何去“选择”数据上。我认为，实验最大的好处就是数据完全是由实验设计阶段决定的，实验设计的好数据自然会更好的告诉我们所关心的答案。

忘了是哪位大牛在Handbook of Econometrics里面写的了，大意是“与其寻求更好的估计方法，不如寻找更高质量的数据”，言下之意就是在数据可以被“设计”而获得的情况下，我们可以把精力更多的放在实验设计而不是估计模型的选择上。我并不是一个纯粹的reduced form鼓吹者，相反，我是更欣赏structural model后面的经济学思维的。因此，在实验的方法被付诸实践之前，我更希望更多的按照一种经济学model的模式去考量这些问题，去更精巧的让实验告诉我们想知道的答案。除了社会实验的特殊性考量之外，必然的，我们没有任何理由抛弃现有的经济理论、尤其是微观经济理论去完全随意的“检查”几个变量之间的实验上的因果关系。且不论efficiency，社会实验的对象为参与经济活动的人、这一特质决定了我们在设计实验的时候便要充分利用现有对于人类行为的认识成果，更好的一步步设计实验的流程——可能不只是一次实验的流程，更多的是一环扣一环的一个个实验如何按部就班进行下去。一个动态的实验设计会更好的考量实验设计者对于经济学的理解，也是社会实验较之于费歇尔三原则下的自然科学实验、要求更高的方面之一。