ID3

  01 Jan 2015


概念

ID3算法是一种贪心算法,用来构造决策树。

该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。决策树叶子为类别名。其他结点由实体的属性组成,每个属性的不同取值对应一分支。ID3算法能得出结点最少的决策树。


建树算法的操作步骤:

  1. 对当前例子集合,计算各属性的互信息。

  2. 选择互信息最大的属性Ak;

  3. 把在Ak处取值相同的例子归同一子集,取几个值就得几个子集。

  4. 对既含正例又含反例的子集,递归调用建树算法。

  5. 若子集仅含正例或反例,对应分支标上P或N,返回调用处。


优点

  • 算法简单,易于理解。

缺点

1.倾向于选择取值较多的属性;

2、抗噪性差,训练例子中正例和反例的比例较难控制;

3.只适合属性值为离散的;

4、无法对未知分割属性进行处理;

5.决策树层次较多时,决策质量低;


备注