k均值聚类excel(K均值聚类算法)

1. K均值聚类算法

K-Mean（K-均值聚类）算法用于将数据集分成 K 个簇，K 值是由用户给定的，优点：容易实现缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢

kmeans clustering不属于聚合cluster算法，属于分类classification算法。

K-均值聚类（K-means）算法是指将数据集分成k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。

K-均值算法

1）首先，用户确定簇个数k（计划将数据划分为k个类）；

2）随机确定k个初始点作为质心（在数据边界范围之内随机选取）；

3）对每个数据实例依次计算到k个质心的距离，选择最小距离的质心，并将其分配给该质心所对应的簇，直到数据集中的所有数据全都分配给k个簇，更新k个簇的质心为该簇所有点的平均值；

4）循环上述步骤3），重新分配每个数据实例到新的质心，直到所有数据的分配结果不再发生改变为止。

适用条件：系统聚类法适于二维有序样品聚类的样品个数比较均匀。K均值聚类法适用于快速高效，特别是大量数据时使用。

两者区别如下：

一、指代不同

1、K均值聚类法：是一种迭代求解的聚类分析算法。

2、系统聚类法：又叫分层聚类法，聚类分析的一种方法。

二、步骤不同

1、K均值聚类法：步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

2、系统聚类法：开始时把每个样品作为一类，然后把最靠近的样品（即距离最小的群品）首先聚为小类，再将已聚合的小类按其类间距离再合并，不断继续下去，最后把一切子类都聚合到一个大类。

三、目的不同

1、K均值聚类法：终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

2、系统聚类法：是以距离为相似统计量时，确定新类与其他各类之间距离的方法，如最短距离法、最长距离法、中间距离法、重心法、群平均法、离差平方和法、欧氏距离等。

k-means的优点有：

原理简单，实现方便，收敛速度快；

聚类效果较优；

模型的可解释性较强；

调参只需要簇数k；

k-means的缺点有：

k的选取不好把握；

对于不是凸的数据集比较难以收敛；

如果数据的类型不平衡，比如数据量严重失衡或者类别的方差不同，则聚类效果不佳；

顶一下

(0)

踩一下

(0)