大家好,欢迎来到IT知识分享网。
K均值聚类的定义及相关基础知识大家自行百度查询,这里不做赘述;本文主要从实操角度介绍K均值聚类的spss操作方法及一直困扰大家的K值选择问题。
本文中的案例数据,如有需要的可以评论留言获取,支持邮箱或百度网盘!
一、SPSS K均值聚类的基本步骤
1、数据读取,并检查数据质量(图一)
通过描述统计可以看出数据波动较大,且维度间的量纲差距也较大,因此在K均值分析前需要将数据进行标准化,去除量纲影响。
在分析——描述性统计中对话框中勾选将标准化值另存为变量即可完成数据的标准化。
二、K均值分析
选择分析-分类-K均值分类
变量选择标准化后的数据,个案选择客户ID,初始聚类数选择K=5,最大清代次数选择99
同时保存聚类成员与中心距离
勾选选项中的相关菜单
三、结果解读
1、初始聚类中心与经过迭代计算后的聚类中心,一共经过18次迭代实现收敛
2、ANOVA 表记录了假设检验的结果,结果显著表明聚类有效
3、根据积累结果绘制三维散点图,根据实际业务场景进行应用
上面的步骤简要介绍了K均值聚类的方法步骤,但是大家肯定好奇为什么选择初始K值为5,而不选的别的数字,下面就介绍一下关于K值选择的方法。
1、根据业务场景明确需要的聚类数目,一般RMF聚类选择则3;
2、根据不同K值的误差均方和变化,选择合适的K值(肘线法)
选择考K=5,或者K=6时,达到误差下降的拐点。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/62416.html