随机森林

概念

简单地说，随机森林就是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行以下判断，看看这个样本应该属于哪个类（对于分类算法），然后看看哪一类被选择最多。该方法是局域决策树的分类器集成算法。其中基元分类器是用CART算法构建的没有剪枝的分类回归树。

随机森林算法主要包括决策树的生长和投票过程：（树生长参考的CART，形成每棵树的训练集和最后的投票参考介绍的Bagging）

随机选取训练样本集，使用Bagging方法形成每棵树的训练集。
每个自助训练样本机生长为单棵树，该自助样本机是单棵分类树的全部训练数据。设有M个输入特征，则在树的每个节点出从M个特征中随机挑选mtry个特征，按照节点不纯度最小的原则从这mtry个特征中选出一个特征进行分支生长，然后再分别递归调用上述过程构造各个分支，直到这棵树能够准确地分类训练集或所有属性都已被使用过。（mtry保持不变。）
分类树为了达到低偏差和高差异而充分生长，使每个节点的不纯度达到最小，不进行通常的剪枝操作。

cjmcv

计算机视觉算法学习笔记

概念