【正确答案】在样本数据集中,空值(Null)也称缺失值。空值被看做与其他任何值包括其他空值都不相同的符号。空值不仅意味着该属性值未知,而且意味着该值不可用。导致空值出现的主要原因有:
①在信息收集时,忽略了一些被认为是不重要的数据,而这些数据对以后的信息处理可能是有用的。
②某些属性未知。
③数据模型的限制:在信息收集时,最常用的是关系数据模型,由于关系模型要求同一关系中的每个对象必须有相同数目的属性,因此即使某些属性对某一对象不适用,但该对象必须有此属性。如在描述计算机配置表中,属性“声卡类型”对于没有配置声卡的计算机而言是不可用的,故此时“声卡类型”的属性值必为空值。
④在跨平台数据迁移过程中,比如MIS系统迁移到ERP系统,有些数据也不可避免地残缺不全、不存在或未使用,从而产生信息空缺。
空值处理是预处理任务之一。
【答案解析】