期刊文献+

一种基于词频信息的改进CHI文本特征选择 被引量:24

Improved CHI text feature selection based on word frequency information
下载PDF
导出
摘要 CHI是一种常用的文本特征选择方法。针对该模型的不足之处,以特征项的频数为依据,分别从特征项的类内分布、类间分布以及类内不同文本之间分布等角度,对CHI模型进行逐步优化,使得特征项频数信息得到了有效利用。提出了一种基于词频信息的改进CHI模型。随后的文本分类试验证明了提出优化CHI模型的有效性。 CHI is a commonly used text feature selection method. Aiming at the shortcomings of the model, according to the fre- quency characteristic, the CHI model is gradually optimized from the feature distribution within class, distribution between class and the distribution between different text in the same category. This approach makes the characteristic frequency information has been used effectively. An improved CHI model based on word frequency information is proposed..The text categorization ex- periment subsequently proves the validity of the new optimized CHI model.
出处 《计算机工程与应用》 CSCD 2013年第22期110-114,共5页 Computer Engineering and Applications
基金 国家自然科学基金(No.71071161 No.61273209) 江苏省自然科学基金(No.BK2012511)
关键词 文本分类 特征选择 χ2统计 类内分布 类间分布 text categorization feature selection Chi-square distribution within class distribution between class
  • 相关文献

参考文献14

二级参考文献65

共引文献599

同被引文献200

引证文献24

二级引证文献135

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部