ARFF(Weka)中缺少值

| 在学习阶段,Weka中的分类器(例如决策树)如何解释\'?\'(代表ARFF文件中的缺失值)? Weka是将其替换为一些预定义的值(例如\'0 \'或\'false \'),还是会以某种方式影响训练过程?     
已邀请:
除了将缺失值本身视为属性值之外,在J48分类器中,对具有缺失值的属性进行的任何拆分都将使用与观察到的非缺失值的频率成比例的权重进行。这在Witten和Frank的教科书《数据挖掘实用机器学习工具和技术》(2005年第2版,第63页和第191页)中有记录,然后他报告说:   最终,实例的各个部分将各自到达一个叶节点,并且必须使用渗透到叶的权重来重新组合这些叶节点处的决策。 有关处理决策树中缺失值的更多信息,例如CART中的代理拆分(与C4.5或其后继者J48相反),可以在分类树的Wiki部分上找到;更多信息请参见分类树。在几篇文章中也讨论了归因的使用。处理树中缺失的数据:替代分割或统计插补。     

要回复问题请先登录注册