概述
在数据X的K的近邻中,按出现最多的样本类别来作为X的类别。
步骤:
-
存储一些标记好的样本集(样本都分好了类);
-
一个未知类的样本(要对其分类);
-
逐一取出样本集中的样本,与未知类样本比较,找到K-个与之相近的样本,就用这K-个样本的多数的类(或类分布)为未知样本定类;
-
在样本集为连续值时,就用K-个样本的平均值为未知样本定类。
优点:
-
易于编程,且不需要优化和训练;
-
当样本增大到一定容量,K也增大到合适的程度,k-近邻的误差可与贝叶斯方法相比;
缺点:
-
当训练样本很大时,计算时间也很大;
-
需要存储全部的训练样本;
-
当样本大小不平衡时,表现不好,可通过设置权值来调节。
改进:
分组快速搜索近邻法:将样本集按近邻关系分解成组,给出每组质心的位置,以质心作为代表点,和未知样本计算距离,选出距离最近的一个或若干个组,再在组的范围内应用一般的knn算法。由于并不是将未知样本与所有样本计算距离,故该改进算法可以减少计算量,但并不能减少存储量。
