摘要
本文借助中文维基百科知识库,提出基于ESA算法的文本分类算法.并选取2015年3月5日在中文维基百科网站下载的主题文章,对其进行适当处理,将处理结果作为该算法使用的语义概念知识库.在复旦大学中文文本分类语料上显示的实验结果表明,该方法比纯粹的词袋模型方法效果要好.
On the basis of the Chinese Wikipedia, text categorization based on ESA is studied in this paper. We used Chinese Wikipedia snapshot as of March 5, 2015, and processed Wikipedia XML dump as the semantic knowledge base of concept. Experimental results on the corpus of Chinese text categorization of Fudan University show that, this method is better than BOW-based methods.
出处
《洛阳师范学院学报》
2016年第2期68-71,共4页
Journal of Luoyang Normal University
基金
太原工业学院科学基金项目(2015LQ17)
关键词
ESA
文本分类
特征生成
ESA
text categorization
feature generation