Exce表格网

k均值聚类算法excel(K均值聚类算法不保证能收敛到全局最优的聚类结果)

来源:www.0djx.com  时间:2023-01-17 05:10   点击:211  编辑:表格网  手机版

1. K均值聚类算法不保证能收敛到全局最优的聚类结果

K-均值算法(K-Mean)是指中心的距离的平方和最小。K-均值法的基本思想是,通过迭代逐次移动各类别的中心,直至得到最好的聚类结果为止。

聚类算法性能度量的文章提到若簇类相似度好簇间的相似度差,则聚类算法的性能较好。我们基于此定义k-means聚类算法的目标函数:

其中rk表示当样本x1划分为簇类k时为1,否则为0。

uk表示簇类k的均值向量。目标函数(1.1)在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度,J值越小则簇内样本相似度越高。最小化目标函数是一个NP难题,k-means聚类运用EM算法思想实现模型的最优化。

2. k均值聚类算法优化

1. 初始化聚类中心

      (1)凭经验选择。根据具体问题,凭经验从样本集中选出个 K 比较合适的样本作为初始聚类中心。

      (2)用前 K 个样本作为初始聚类中心。

      (3)将全部样本随机地分成 K 类,计算每类的样本均值,将样本均值作为初始聚类中心。

      (4)密度法。以每个样本为球心,用某个正数为半径作一个球形邻域,落在邻域内的样本数为该点密度,选密度最大点为第一初  始聚类中心。在离开第一点规定距离范围外确定次大密度点,以避免初始聚类中心聚集。

      (5)从 K-1个聚类划分的解中产生 K 个聚类划分的初始聚类中心。先把全部样本看作一个聚类,其聚类中心为样本的总均值;然后确定两聚类问题的聚类中心是一聚类问题的总均值和离它最远的点

3. k均值聚类算法考试例题

k 均值聚类法 快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量 系统聚类法则是系统自己根据数据之间的距离来自动列出类别,所以通过系统聚类法 得出一个树状图,至于聚类的类别 需要自己根据树状图以及经验来确定

4. k均值聚类算法的缺点

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。

5. k均值聚类算法复杂度

K-均值聚类法相对于层次聚类法来说运算速度快很多,所以又称为快速聚类法。

1、选择需要分析的数据

2、选择菜单【分析】-【分类】-【K-均值】,在跳出的对话框中进行如下操作,将标准化后的5个变量选入变量框中,聚类数填写5,其它保持默认状态

3、分别点击【迭代】、【保存】和【选项】按钮,然后依据实际需要选中项目。下图是聚类分析最基本的几个结果选项。

4、点击确定,输出结果初始聚类中心和最终聚类中心

5、迭代历史

6、方差分析结果

7、每个类别的个案数

8、五类客户的行为因素特征描述

6. 简述K均值聚类算法的优缺点

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。

这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
用户名: 验证码:点击我更换图片