【正确答案】已经存在一些处理空值问题的方法:
(1)最简单的方法是从训练集中移去含未知值的实例,或用某个最可能的值进行替换。
(2)基于样本中其他属性的取值和分类信息,构造规则来预测丢失的数据,并用预测结果“填补”丢失值。
(3)应用概率论的贝叶斯公式确定未知值的概率分布,选择一个最可能的值填补空值或根据概率分布用不同值填补空值形成多个对象。
(4)将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的,但每个属性值均已知的数据集,方法是将某个属性的未知值用该属性的所有可能值替换形成多个数据集,然后归纳出确定的或可能的规则。
(5)基于对象相似的空值估算方法
它的基本原理为:具有相似特征a的两个相容对象可以互相补偿缺失值。若对象x的a属性值是空的,则可用与x相容的对象的非空a属性值来替换,
其中SB(.)是对象集上关于a属性的相似关系。
这样,就可获得数据集的一个完全集且最大限度地保持了对象的相容性。若某个空值a(x)有多个值可供选择(这时相容的对象常常不只一个),算法采用投票策略,即取某个出现次数最多的值。
【答案解析】