K近邻算法,其英文全称:K-Nearest Neighbor Classification,一般简称为KNN。该算法是一种经典的分类算法,在包括气象、化妆品、4s店套餐用户分类等等领域有非常成熟的应用。接下来我们花几分钟来快速了解一下该算法的原理及实践应用。
首先,其基本原理:
在K近邻分类算法中,对于预测的新样本数据(未有分类标签),将其与训练样本一一进行比较,找到最为相似的K个训练样本,并以这K个训练样本中出现最多的分类标签作为最终新样本数据的预测标签。
其思想与“近朱者赤,近墨者黑”有异曲同工之妙!
其次,对原理进行提炼:
一、K值的定义(通俗理解即选择多少个和自己比较相似的小伙伴)
二、距离(相似度)定义(衡量自己与小伙伴是否相似的度量标准/公式)
三、邻居类别的统计(采用少数服从多数的原则,给未分类标签数据进行赋值)
接着,以实际案例出发,进行计算:
如上图所示,我们有学生1,2,3,4,5(新学生)的相关属性数据(体重、身高),其中学生1,2,3,4在具备相关属性基础上,还有目标属性标签(是否健康)。
我们的问题是通过对学生1,2,3,4的相关属性、目标属性数据进行学习,然后对学生5(即新学生)是否健康做出预测??
那么结合该问题,我们应用KNN算法对其进行求解,那在实际计算之前给出KNN算法的计算流程步骤:
(1)、未分类标签数据与已知数据一一计算距离;
(2)、在(1)基础上,找到最为相近的k个邻居;
(3)、k个邻居的类别统计,将最多类别的标签赋值给未分类标签数据。
接下来,我们仍旧以上述学生1,2,3,4,5(新学生)为例,假设自定义k值为3,距离采用欧式距离计算,用x代表体重,y代表身高。
那么结合算计步骤:
以上即为KNN算法实例计算全部过程,由于算法的K值可自定义,所以k可以取2,3,4,5,6,7……。其计算过程仍旧可以参考上述计算过程。
那到此为止,KNN算法的数据流计算过程就结束了,Put这么多,你Get到了么???
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/84409.html