分类分析 之 K均值聚类

分类分析 之 K均值聚类序曲摊破浣溪沙·揉破黄金万点轻【宋】李清照揉破黄金万点轻。剪成碧玉叶层层。风度精神如彦辅,大鲜明。梅蕊重重何俗甚,丁香千结苦粗生。熏透愁人千里梦

大家好,欢迎来到IT知识分享网。

序曲

摊破浣溪沙·揉破黄金万点轻

【宋】李清照

揉破黄金万点轻。剪成碧玉叶层层。风度精神如彦辅,大鲜明。

梅蕊重重何俗甚,丁香千结苦粗生。熏透愁人千里梦,却无情。

【赏析】

这是一首咏花词。咏花而志不在花,只是借花形、花态、花性以挥发开去,抒引出词人胸中的万千感慨。

结尾句“熏透愁人千里梦,却无情”,终于点出个“愁”字来。这两句语意自然十分明了,其未点透处却是词人含嗔带斥地指责的对象,不外桂花与梅花和丁香之间,虽皆可诠释得通,如以作者的明贬暗誉的手法来看,这里指的该是金花玉叶的桂花。这个结尾,似是词人谓桂子:我是如此执着地倾心于你质地高雅、不媚不俗,而你却竟以沁人的馥香惊扰了我的千里梦,却也太无情了。

该词写作特点上片侧重正面描写桂花质地之美,从形到神、由表及里,表现出贵而不俗、月朗风清的神韵,重在精神气质;下片则运用对比手法,进一步衬托桂花的高雅,重在随感,带有较为浓郁的主观感受。上下合璧,借花抒情,便成了一篇回味无穷的小调。

【注】来源于 古诗文网

聚类分析简介

聚类分析是从事物数量上的特征出发对事物进行分类,是数值分类学和多元统计技术结合的结果,其使用简便,分类效果较好,是常用的数据探索性分析工具。从统计技术上,聚类分析并不是一种纯粹的统计技术,其方法基本上与分布理论和显著性检验无关,一般不用于从样本推断总体的研究。

聚类分析(Cluster Analysis),基本思想是依据事物的数值特征,来观察各样本之间的亲疏关系。而样本之间的亲疏关系则由样本是直接的距离来衡量,一旦样本之间的距离定义之后,则把距离近的样本归为同一类。也就是通过分类,使得同一个组内的数据对象具有较高的相似度,而不同组内的数据对象是不相似的。

从机器学习上看,聚类分析属于无监督的学习方法,不依靠事先已知的数据分类,也不依靠标有数据类别的训练样本集合。如此,聚类分析是一种通过观察的学习方法(Learning by observation),而不是通过示例去学习规则(Learning by Example)。

依据样本分类还是变了分类,聚类分析可分为:

  • Q型聚类:按样本进行分类,把性质相近的样本分在同一个类,性质差异较大的样本分在不同的类。
  • R性聚类:以变量作为分类对象,主要用于变量数目比较多、且相关性比较强的情形,目的是将性质相近聚为同一个类,并从中找出代表变量,从而减少变量个数以达到降维的效果。

在SPSS中,提供以下三种分析方法:

  • K-均值聚类法:使用较大样本的样品聚类,聚类变量通常为数值变量
  • 两步聚类法 Two-Step:适用于特大样本的样品聚类,聚类变量中可同时包含数值变量和分类变量。
  • 系统聚类法:适用于小样本的样本聚类或变量聚类,聚类变量可以是数值变量,也可以是分类变量,但最好不是二者的混合。

K-均值聚类简介

K均值是使用最广泛的算法。在给定一个数据集和需要划分的数目K后,该算法可以根据某个距离函数反复把数据集分为k个簇,直到收敛为止。

  • 局限性:K-Means算法对噪音和异常值非常敏感。但具有简洁、高效的特点,时间复杂度为O(t);
  • 劣势:需要事先给定k

对于k均值聚类,聚类个数需大于等于2,但不能大于样本数;并且所有的指标必须为连续性变量,且只适用于样本聚类,即Q型聚类。

K均值具体实施步骤:

  • 指定聚类数目K
  • 确定K个初始类中心点。常用方法:经验选择法、随机选择法、最小最大法
  • 根据最近原则进行聚类。依次计算每个样本点到 K 个类中心点的欧式距离,并按照与k个类中心点聚类最近的原则,将所有样本点分派到最近类,形成k个类
  • 重新确定k各类中心点。重新计算k个类的中心点,中心点确定原则:依次计算各类中国内所有数据点变量的均值,并以均值的作为K个类的中心点
  • 判断是否已经满足终止聚类的条件。
分类分析 之 K均值聚类

SPSS实现k-均值聚类

示例:某医院康复专科门诊为修复耳缺损,测量300个病人正常侧耳朵的5项指标:耳长(EC)、耳宽(EK) 、耳外展距(EZ) 、耳型(EX) 、耳垂型(ECX) 。根据EC/EK/EZ计算两个指数:耳指数 EI = 耳宽/耳长 * 100%;外展指数(AI) = 耳外展距/耳宽*100%。

分类分析 之 K均值聚类

1.打开 分析—分类—k-均值

分类分析 之 K均值聚类

2. 参数选择与说明

(1)主页面

分类分析 之 K均值聚类

  • 变量:选择需分析的数值型变量
  • 个案标注依据:选择标签变量,在结果中标识观测记录
  • 聚类数:指定聚类的格式,默认为2,本例中选择4
  • 方法:

—- 迭代与分类:先指定初始类别中心,然后按k均值算法迭代分类

—- 仅分类:选定初始类别中心点后,只做分类而不再对中心点做任何更改

结合上述两个方法,可提高大型数据的分析效率:

  • 首先从所有数据中抽取较小样本,用“迭代与分类”进行聚类,并保持聚类中心
  • 然后针对所有数据用“仅分类”再次聚类,并读入前面保存的聚类中心
  • 聚类中心:设置与聚类中心有关的参数

a.读取初始距离中心:可指定初始类中心

— 打开数据集:选中后在下拉列表中指定一个当前打开的数据集

— 外部数据文件:选择存有初始类中心的文件

b. 写入最终聚类中心:选择如何保存聚类结果的中心

— 新数据集:建立一个新数据集,选择后,指定数据集的名称

— 数据文件:将结果写入一个外部文件

(2)迭代 页面

分类分析 之 K均值聚类

  • 最大迭代次数:范围1-999,默认为10
  • 收敛性标准:范围为0-1,默认为0
  • 使用运行平均值:若选择,表示每个样本被分配到一类后,即计算新的中心;不选择,表示完成了对所有样本的分配后,再计算新的类中心;不选择,则节省运行时间

(3)保存 页面

分类分析 之 K均值聚类

  • 聚类成员:表示用一个新变量(默认为QCL_1)保存各观测量最终被分配到哪一类,取值方位从1到聚类个数
  • 与聚类中心的距离:表示用一个新变量(默认为QCL_2)保存各观测量到最终所属的类中心的欧式距离

(4)选项 页面

分类分析 之 K均值聚类

  • 初始聚类中心:输出初始的类中心,默认选项
  • Anova表:输出方差分析表,包括对每个聚类的变量的F检验,若所有观测最终被归为一个类别,则不输出任何方差分析表
  • 每个个案的聚类信息:输出每个样本的详细分类信息,包括它的所属类别、到所属类中心的距离等
  • 缺失值:指定处理缺失值的方式。

3.结果输出与解释

(1)初始聚类中心

  • 一般看生存分析比例与期末累计生存分析比例,以时间间隔1为例,生存分析比例为0.93,其为进入时间间隔人数294减去终端事件数20再除以294的结果,反映的是1期的生存概率;
分类分析 之 K均值聚类

(2)迭代历史记录

  • 到第11次,聚类结果收敛
分类分析 之 K均值聚类

(3)最终聚类中心

分类分析 之 K均值聚类

(4)方差分析

  • 从方差分析表看,五个聚类变量在各类间的均数差异都有统计学意义,表明对聚类分析均有作用。
分类分析 之 K均值聚类

(5)样本分布

  • 从下表可看出每个类别的样本数。
分类分析 之 K均值聚类

(6)结果展示

分类分析 之 K均值聚类

4.语法

******************** k-均值聚类 ******************.
QUICK CLUSTER EC EK EZ EI AI
/MISSING=LISTWISE
/CRITERIA=CLUSTER(4) MXITER(20) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER DISTANCE
/PRINT INITIAL ANOVA.

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/62354.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信