期刊文献+

基于相对词频的文本特征抽取方法 被引量:9

Method of Text Feature Extraction Based on Relative Word frequency
下载PDF
导出
摘要 评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性,并且取得了较好的分类效果。 Brings forward an improved model of evaluation function based on relative word frequency,which is promised to resolve above problem.This model is combined with the modern Chinese language word frequency statistic achievements,extract feature words based on relative frequency,which results to better!distinction degree between the defined classes and undefined classes.At last,the experiment has proved the feasibility and effect of this method.
出处 《计算机应用研究》 CSCD 北大核心 2005年第4期23-26,共4页 Application Research of Computers
基金 国家"863"计划资助项目(2001AA114210 14)
关键词 特征抽取 特征向量 评估函数 相对词频 Text Feature Extraction Feature Vector Evaluation Function Relative Word frequency
  • 相关文献

参考文献5

  • 1Lewis DD, Feature Selection and Feature Extraction for Text Categorization [ A ]. Proceedings of Speech and Natural Language Workshop[ C]. San Francsico: Morgan Kaufmann,1992. 212-217.
  • 2Mladenic D, Grobelnik M, Feature Selection for Unbalanced Class Distribution and Native Bayes [ EB/OL ]. http://www-2, cs. cmu.edu/afs/cs/ project/theo- 4/text -learning/www/, 2000-03/2004-04.
  • 3Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization [ EB/OL ]. http://citeseer, nj. nec. com/yang97comparative, html, 1997/2004-04.
  • 4秦兵 郑实福 刘挺.基于改进的贝叶斯模型的中文网页分类器,自然语言理解与机器翻译[M].北京:清华大学出版社,2000.373-378.
  • 5钟义信.全信息自然语言理解方法论—中文信息处理若干重要问题[M].北京:科学出版社,2003.56-67.

同被引文献43

引证文献9

二级引证文献46

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部