概念
ID3算法是一种贪心算法,用来构造决策树。
该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。决策树叶子为类别名。其他结点由实体的属性组成,每个属性的不同取值对应一分支。ID3算法能得出结点最少的决策树。
建树算法的操作步骤:
-
对当前例子集合,计算各属性的互信息。
-
选择互信息最大的属性Ak;
-
把在Ak处取值相同的例子归同一子集,取几个值就得几个子集。
-
对既含正例又含反例的子集,递归调用建树算法。
-
若子集仅含正例或反例,对应分支标上P或N,返回调用处。
优点
- 算法简单,易于理解。
缺点
1.倾向于选择取值较多的属性;
2、抗噪性差,训练例子中正例和反例的比例较难控制;
3.只适合属性值为离散的;
4、无法对未知分割属性进行处理;
5.决策树层次较多时,决策质量低;