概念
简单地说,随机森林就是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行以下判断,看看这个样本应该属于哪个类(对于分类算法),然后看看哪一类被选择最多。该方法是局域决策树的分类器集成算法。其中基元分类器是用CART算法构建的没有剪枝的分类回归树。
随机森林算法主要包括决策树的生长和投票过程:(树生长参考的CART,形成每棵树的训练集和最后的投票参考介绍的Bagging)
-
随机选取训练样本集,使用Bagging方法形成每棵树的训练集。
-
每个自助训练样本机生长为单棵树,该自助样本机是单棵分类树的全部训练数据。设有M个输入特征,则在树的每个节点出从M个特征中随机挑选mtry个特征,按照节点不纯度最小的原则从这mtry个特征中选出一个特征进行分支生长,然后再分别递归调用上述过程构造各个分支,直到这棵树能够准确地分类训练集或所有属性都已被使用过。(mtry保持不变。)
-
分类树为了达到低偏差和高差异而充分生长,使每个节点的不纯度达到最小,不进行通常的剪枝操作。
