机器学习聚类算法-K-means 聚类

机器学习聚类算法-K-means 聚类K-means 聚类最常用的机器学习聚类算法,且为典型的基于距离的聚类算法1.Kmeans算法的原理kmeans算法又名k均值算法。

大家好,欢迎来到IT知识分享网。

K-means 聚类

最常用的机器学习聚类算法,且为典型的基于距离的聚类算法

1.Kmeans算法的原理

kmeans算法又名k均值算法。其算法思想大致为:先从样本集中随机选取 k 个样本作为簇中心,并计算所有样本与这 k 个“簇中心”的距离,

对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。

K均值:基于原型的,划分的距离技术,它试图发现用户指定个数K的簇

以欧式距离作为相似度检测

K均值算法实现逻辑

K均值算法需要输入待聚类的数据和欲聚类的簇数K,主要的聚类过程:

1,初始化:选择K个初始簇中心。这些通常是从数据集中随机选择的数据点,随机生成K个初始点作为质心

2,分配数据点:对于数据集中的每个点,根据它到每个簇中心的距离,将它分配给最近的簇中心。

3,更新簇中心:对于每个簇,计算所有属于该簇的数据点的平均值,并将该平均值设置为新的簇中心。

4,重复:将各个簇中的数据求平均值,做为新的质心,重复步骤2和3,直到簇中心不再显著变化,或者达到预设的迭代次数。

K均值聚类的注意事项

簇数量需要先给定,再进行聚类

不适用与非线性边界

数据量较大,计算较慢

举例:

# 创建数据
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
#make_blobs 聚类数据生成器

x, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.5, random_state=0)
# n_samples = 300  生成300条数据,待生成的样本的总数。
# n_features   每个样本的特征数。
# centers = 4   4类数据。 类别数
# cluster_std = 0.5   方差一致。 每个类别的方差,如多类数据不同方差,可设置为【1.0, 3.0】 (这里针对2类数据)
# random_state   随机数种子
# x —— 生成数据值, y —— 生成数据对应的类别标签

print(x[:5])
print(y_true[:5])

plt.scatter(x[:,0], x[:,1], s=10, alpha=0.8)
plt.grid()
机器学习聚类算法-K-means 聚类

# 创建K-means数学模型from sklearn.cluster import KMeanskmeans = KMeans(n_clusters=4)   # 填写簇的个数kmeans.fit(x)y_kmeans = kmeans.predict(x)centroids = kmeans.cluster_centers_print(centroids)# 画图plt.scatter(x[:,0], x[:,1], c=y_kmeans, cmap='Dark2', s=50, alpha=0.5, marker='x')plt.scatter(centroids[:,0], centroids[:,1], c=[0,1,2,3], cmap='Dark2', s=70, marker='o')plt.title('K-means 300 points\n')plt.xlabel('Value1')plt.ylabel('Value2')plt.grid()
机器学习聚类算法-K-means 聚类

机器学习聚类算法-K-means 聚类

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/62387.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信