机器学习聚类算法-K-means 聚类

大家好，欢迎来到IT知识分享网。

K-means 聚类

最常用的机器学习聚类算法，且为典型的基于距离的聚类算法

1.Kmeans算法的原理

kmeans算法又名k均值算法。其算法思想大致为：先从样本集中随机选取 k 个样本作为簇中心，并计算所有样本与这 k 个“簇中心”的距离，

对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的“簇中心”。

K均值：基于原型的，划分的距离技术，它试图发现用户指定个数K的簇

以欧式距离作为相似度检测

K均值算法实现逻辑

K均值算法需要输入待聚类的数据和欲聚类的簇数K，主要的聚类过程：

1，初始化：选择K个初始簇中心。这些通常是从数据集中随机选择的数据点，随机生成K个初始点作为质心

2，分配数据点：对于数据集中的每个点，根据它到每个簇中心的距离，将它分配给最近的簇中心。

3，更新簇中心：对于每个簇，计算所有属于该簇的数据点的平均值，并将该平均值设置为新的簇中心。

4，重复：将各个簇中的数据求平均值，做为新的质心，重复步骤2和3，直到簇中心不再显著变化，或者达到预设的迭代次数。

K均值聚类的注意事项

簇数量需要先给定，再进行聚类

不适用与非线性边界

数据量较大，计算较慢

举例：

# 创建数据
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
#make_blobs 聚类数据生成器

x, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.5, random_state=0)
# n_samples = 300  生成300条数据,待生成的样本的总数。
# n_features   每个样本的特征数。
# centers = 4   4类数据。 类别数
# cluster_std = 0.5   方差一致。 每个类别的方差，如多类数据不同方差，可设置为【1.0， 3.0】 （这里针对2类数据）
# random_state   随机数种子
# x —— 生成数据值， y —— 生成数据对应的类别标签

print(x[:5])
print(y_true[:5])

plt.scatter(x[:,0], x[:,1], s=10, alpha=0.8)
plt.grid()

# 创建K-means数学模型from sklearn.cluster import KMeanskmeans = KMeans(n_clusters=4)   # 填写簇的个数kmeans.fit(x)y_kmeans = kmeans.predict(x)centroids = kmeans.cluster_centers_print(centroids)# 画图plt.scatter(x[:,0], x[:,1], c=y_kmeans, cmap='Dark2', s=50, alpha=0.5, marker='x')plt.scatter(centroids[:,0], centroids[:,1], c=[0,1,2,3], cmap='Dark2', s=70, marker='o')plt.title('K-means 300 points\n')plt.xlabel('Value1')plt.ylabel('Value2')plt.grid()

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/62387.html

机器学习聚类算法-K-means 聚类

相关推荐

发表回复