K近邻

ChenJM

K近邻

01 Jan 2015

概述

在数据X的K的近邻中，按出现最多的样本类别来作为X的类别。

步骤：

存储一些标记好的样本集（样本都分好了类）；
一个未知类的样本（要对其分类）；
逐一取出样本集中的样本，与未知类样本比较，找到K-个与之相近的样本，就用这K-个样本的多数的类（或类分布）为未知样本定类；
在样本集为连续值时，就用K-个样本的平均值为未知样本定类。

优点：

易于编程，且不需要优化和训练；
当样本增大到一定容量，K也增大到合适的程度，k-近邻的误差可与贝叶斯方法相比；

缺点：

当训练样本很大时，计算时间也很大；
需要存储全部的训练样本；
当样本大小不平衡时，表现不好，可通过设置权值来调节。

改进：

分组快速搜索近邻法：将样本集按近邻关系分解成组，给出每组质心的位置，以质心作为代表点，和未知样本计算距离，选出距离最近的一个或若干个组，再在组的范围内应用一般的knn算法。由于并不是将未知样本与所有样本计算距离，故该改进算法可以减少计算量，但并不能减少存储量。