来者皆客

统计学习精要(The Elements of Statistical Learning)课堂笔记（二十四）：聚类

Post author By Liyun
Post date May 31, 2013
11 Comments on 统计学习精要(The Elements of Statistical Learning)课堂笔记（二十四）：聚类

聚类讲的比较简单...怎么感觉老师不怎么待见unsupervised learning捏？...

---------------笔记开始---------------------

1. 一般概念

1)分类与聚类（分类标识）

评测纯度。我们有测试集，这样定义纯度为.

2) 输入

特征向量的表示：。
相似矩阵的表示：，其中相似度的计算可以是的内积。显然，向量表示很容易可以计算相似度表示。
距离矩阵的表示（不相似度）：，其中距离可以用二阶范数定义，比如。

3) 输出：，对应K个聚类。这里还分为：

非层次的
层次的（类似于树结构）

2. K-means方法（非层次聚类）

（注意不要和KNN搞混了，都是K开头的...）

1) K-means方法（特征表示）

输入：，K——聚类的个数。

算法：

初始化，随机选定类中心.

(i)根据分配到距离最近的类。
(ii)修改，使得。重复上面两步。

2) K-medoids方法（相似度表示）

输入：s,k

初始化。然后根据分配，再按照确定新的中心。

3) 模糊的K-means方法

输入：，K

初始化。

(i) ,计算，然后根据这个距离的比重来“软”分配(需要归一化分配权重）。
(ii) ，利用中的进行加权平均。

重复上述两步。

4) 谱聚类（向量表示）

输入：，K

然后对原始数据做转换，形成新的数据集，然后再做K-means聚类。

其中转换的步骤如下：

(i) 计算相似矩阵S
(ii) 计算L=D-S，其中，。
(iii)计算L最小的K个特征值对应的特征向量
(iv)让U=，则是U的第i行，这样就从p维降到了K维。
(v)对Z进行K-means聚类。

3. 层次聚类

1) 自底向上的方法（聚合）

初始：每个都为一类

而后对于最相似的两类，合并到一类。对于类的最相似，可以定义为距离最近的类。而对于距离，则可以定义为三者之一：

(i) ，称之为单连。
(ii) ，称之为全连。
(iii) .

2) 自顶向下的方法（分裂）

初始：所有的x作为一类。选用一种非层次的方法进行聚类，递归使用。

例子：二分法。

初始：，。而后选择离G最远的一个点g。

修改，。重复步骤，选择离H近的离G远的逐渐加入H。

直到分不动了，彻底分为两类。

---------------------

下节课讲的是降维方法。

Tags K-means聚类, K-medoids方法, 层次聚类, 无监督学习, 模糊的k-means, 特征向量, 相似矩阵, 统计学习, 统计学习精要, 聚类, 谱聚类, 距离矩阵, 非层次聚类

11 replies on “统计学习精要(The Elements of Statistical Learning)课堂笔记（二十四）：聚类”

"老师不怎么待见unsupervised learning捏?" 好像这里面没有什么定理可以证明，所以也就没法发好杂志，做的人就少了。可能是因为对结果好坏的衡量很少有好的方法。几十年了，就是大名鼎鼎的k-means的性质也就一两篇理论文章而已。我费劲的做的也很痛苦。

我好奇且无知的问一句，unsupervised learning到底用处多大呢...我似乎还没在实践中用过。

翻出来我前面问的这个问题顿时觉得当年好无知...要不是那么无知今天也不会那么痛苦了...

当年？

当月...就是一种夸张的说法嘛。

2013年你们就在整这些。。。那让5年以后的我们情何以堪つ﹏⊂捂脸

Lol, 这五年应该有不少进展吧，很多工具好用很多了....

问我吗？如果你做过工程，就发现聚类在编码和数据压缩中起很核心作用，基本上以点带面的思想。数据降维也是这样的思想，到最近的sparse coding 都在走这些路。你做evaluation的，不用太做exploration,所以不太需要。经济学家关心因果关系，更不关心底层数据处理这些了。

原来是这些地儿!我怎么感觉都是cs的人在鼓捣的呢，哈哈。话说我在这边唯一见过的就是麦肯锡卖给我们好贵的一个用户聚类，聚出来六七类的样子...第一反应就是聚类好值钱...

怎么也搜不到二十三，统计精要页面的二十三链接到二十四T-T

楼主可私聊？向您请教

Comments are closed.