Exce表格网

k均值聚类excel(K均值聚类算法)

来源:www.0djx.com  时间:2023-03-14 12:25   点击:84  编辑:表格网  手机版

1. K均值聚类算法

K-Mean(K-均值聚类)算法用于将数据集分成 K 个簇,K 值是由用户给定的,优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢

2. K均值聚类算法的输入包括

kmeans clustering不属于聚合cluster算法,属于分类classification算法。

3. 简述基本k均值聚类算法

K-均值聚类(K-means)算法是指将数据集分成k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。

K-均值算法

       1)首先,用户确定簇个数k(计划将数据划分为k个类);

       2)随机确定k个初始点作为质心(在数据边界范围之内随机选取);

       3)对每个数据实例依次计算到k个质心的距离,选择最小距离的质心,并将其分配给该质心所对应的簇,直到数据集中的所有数据全都分配给k个簇,更新k个簇的质心为该簇所有点的平均值;

       4)循环上述步骤3),重新分配每个数据实例到新的质心,直到所有数据的分配结果不再发生改变为止。

4. k均值聚类算法应用

适用条件:系统聚类法适于二维有序样品聚类的样品个数比较均匀。K均值聚类法适用于快速高效,特别是大量数据时使用。

两者区别如下:

一、指代不同

1、K均值聚类法:是一种迭代求解的聚类分析算法。

2、系统聚类法:又叫分层聚类法,聚类分析的一种方法。

二、步骤不同

1、K均值聚类法:步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。

2、系统聚类法:开始时把每个样品作为一类,然后把最靠近的样品(即距离最小的群品)首先聚为小类,再将已聚合的小类按其类间距离再合并,不断继续下去,最后把一切子类都聚合到一个大类。

三、目的不同

1、K均值聚类法:终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

2、系统聚类法:是以距离为相似统计量时,确定新类与其他各类之间距离的方法,如最短距离法、最长距离法、中间距离法、重心法、群平均法、离差平方和法、欧氏距离等。

5. k均值聚类算法例题

k-means的优点有:

原理简单,实现方便,收敛速度快;

聚类效果较优;

模型的可解释性较强;

调参只需要簇数k;

k-means的缺点有:

k的选取不好把握;

对于不是凸的数据集比较难以收敛;

如果数据的类型不平衡,比如数据量严重失衡或者类别的方差不同,则聚类效果不佳;

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
用户名: 验证码:点击我更换图片