摘要
在自动化信息处理中,由于大量信息是基于文字表达的,使得文本分类成为其核心任务之一。其中,相比较其他分类算法,基于类中心的文档分类方法凭借其极高的效率和较好的性能得到了更广泛的应用。然而,该分类方法的性能很大程度上取决于文本的特征空间表示。在此将4种较大差异的特征选择方法作为预处理方法,构造适合类中心点分类的特征空间,对它们的性能进行分析。实验表明,基于支持向量机的特征选择方法不仅有较好的最低错误率,并且对选择的特征数目不敏感,因此我们推荐在实际应用中使用基于支持向量机的特征选择方法作为基于类中心的文档分类算法的预处理。
Document classification plays an important role in today's automated information processing, since most of accessible information through internet is presented in text. In document classification ,a centroid-based classification method is shown to be very efficient and effective in a recent study. Howev- er,performance of the centroid-based classification method largely depends on the quality of the feature space. This paper studies four feature selection methods with different principles. Empirical study shows that the SVM-based feature selection method is the most stable and effective one among the four,and is recommended to be preferred in applications.
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2008年第3期181-184,共4页
Journal of Guangxi Normal University:Natural Science Edition
基金
国家863高科技项目基金资助(2006AA01Z143
2006AA01Z139)
国家自然科学基金资助项目(60673043)
国家社科基金资助项目(07BYY051)