期刊文献+

文本分类相似度模型和概率模型的实现与比较 被引量:5

Implementation and Comparisoo of Similarity and Probabilistic Mode in Text Categorization
下载PDF
导出
摘要 设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统,系统引入小类校正和兼类判断的算法,完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比,实验证明,在约3万篇测试集上(共15个大类,244个小类),基于向量空间模型的大类分类高25.2个百分点,层级小类分类高26.3个百分点。 This paper has implemented a text categorization system based on Vector Space Model(VSM) and Naive-Bayes(NB). When estimating the category, the authors enhance the veracity of parent-category by emendation of sub-category, and judge whether document has multi-classification and multi-label by estimating the similar difference of classifier' s final values. The experiment proves that VSM is better than NB in text representation : MicroFl increases of 25.2 percent of parent-category, and MicroF1 increases of 26.3 percent of sub-category,
作者 刘华
出处 《现代图书情报技术》 CSSCI 北大核心 2006年第4期53-55,共3页 New Technology of Library and Information Service
基金 教育部"国家语言资源监测"项目(项目编号:L2004-01-01-04)的研究成果之一
关键词 文本分类 向量空间模型 简单贝叶斯 Text categorization Vector space model Naive-Bayes
  • 相关文献

参考文献6

二级参考文献18

  • 1黄萱青 吴立德.独立于语种的文本分类方法[M].,2000.37-43.
  • 2鲁松 白硕 等.文本中词语权重计算方法的改进[M].,2000.31-36.
  • 3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用:博士论文[M].,2000..
  • 4VladimirN.Vapnik(著) 张学工(译).统计学习理论的本质[M]:第一版[M].北京:清华大学出版社,2000.85-155.
  • 5黄萱菁,2000 International Conference on Multilingual Information Processing,2000年,37页
  • 6鲁松,2000 International Conference on Multilingual Information Processing,2000年,31页
  • 7卜东波,博士学位论文,2000年
  • 8Yang Yiming,Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR),1999年,42页
  • 9Yang Yiming,J Information Retrieval,1999年,1卷,1/2期,67页
  • 10Dell Zhang and Wee Sun Lee. Question Classification using Support Vector Machines[ C]. Annual ACM Conference on Research and Development in Infomation Retrieval archive Proceedings of the 26th annual international ACM SIGIR confference, USA, 2002.

共引文献348

同被引文献30

引证文献5

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部