K近邻

  01 Jan 2015


概述

在数据X的K的近邻中,按出现最多的样本类别来作为X的类别。

步骤:

  1. 存储一些标记好的样本集(样本都分好了类);

  2. 一个未知类的样本(要对其分类);

  3. 逐一取出样本集中的样本,与未知类样本比较,找到K-个与之相近的样本,就用这K-个样本的多数的类(或类分布)为未知样本定类;

  4. 在样本集为连续值时,就用K-个样本的平均值为未知样本定类。


优点:

  1. 易于编程,且不需要优化和训练;

  2. 当样本增大到一定容量,K也增大到合适的程度,k-近邻的误差可与贝叶斯方法相比;


缺点:

  1. 当训练样本很大时,计算时间也很大;

  2. 需要存储全部的训练样本;

  3. 当样本大小不平衡时,表现不好,可通过设置权值来调节。


改进:

分组快速搜索近邻法:将样本集按近邻关系分解成组,给出每组质心的位置,以质心作为代表点,和未知样本计算距离,选出距离最近的一个或若干个组,再在组的范围内应用一般的knn算法。由于并不是将未知样本与所有样本计算距离,故该改进算法可以减少计算量,但并不能减少存储量。