基于ESA的文本分类算法研究

Text Categorization Research Based on ESA

下载PDF

导出

摘要本文借助中文维基百科知识库,提出基于ESA算法的文本分类算法.并选取2015年3月5日在中文维基百科网站下载的主题文章,对其进行适当处理,将处理结果作为该算法使用的语义概念知识库.在复旦大学中文文本分类语料上显示的实验结果表明,该方法比纯粹的词袋模型方法效果要好. On the basis of the Chinese Wikipedia, text categorization based on ESA is studied in this paper. We used Chinese Wikipedia snapshot as of March 5, 2015, and processed Wikipedia XML dump as the semantic knowledge base of concept. Experimental results on the corpus of Chinese text categorization of Fudan University show that, this method is better than BOW-based methods.

作者刘海静

机构地区太原工业学院计算机工程系

出处《洛阳师范学院学报》 2016年第2期68-71,共4页 Journal of Luoyang Normal University

基金太原工业学院科学基金项目(2015LQ17)

关键词 ESA 文本分类特征生成 ESA text categorization feature generation

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1王细薇,沈云琴.中文短文本分类方法研究[J].现代计算机,2010,16(7):28-31. 被引量：5
2Chang M,Ratinov L,Roth D,et al.Importance of semantic representation:Dataless classification.In Proceedings of the 23rd AAAI Conference on Artificial Intelligence[Z],2008.
3Evgeniy G,Ahanl M.Wikipedia-based Semantic Interpretation for Natural Language Processing[J].Journal of Artificial Intelligence Research,2009(34):443-498.
4张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811. 被引量：26
5汪祥,贾焰,周斌,丁兆云,梁政.基于中文维基百科链接结构与分类体系的语义相关度计算[J].小型微型计算机系统,2011,32(11):2237-2242. 被引量：18
6盛志超,陶晓鹏.基于维基百科的语义相似度计算方法[J].计算机工程,2011,37(7):193-195. 被引量：15

二级参考文献27

1王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
22008年第二次手机短信息状况调查报告[EB/OL].http://www.12321.cn/viewnews.php?id=10753.
3Healy,M Delany,S,Zamolotskikh,A.An Assessment of Case Base Reasoning for Short Text Message Classification[C].In:Norman Creaney (ed.) Proceedings of the 16th Irish Conference on Artificial Intelligence & Cognitive Science (AICS'05),257-266,2005.
4Zelikovitz,S,Marquez,F.Transductive Learning for Short-Text Classification Problems using Latent Semantic Indexing[J].International Journal of Pattern Recognition and Artificial Intelligence,Vol.19(2),143-163,2005.
5Zelikovitz,S.Transductive LSI for Short Text Classification Problems[C].In:Proceedings of the 17th International Flairs Conference,556-561,2004.
6Han Jia-wei,Pei Jian,Yin Yi-wen.Minning Frequent Patterns Without Candidate Generation[C].In:Chen Wei-dong,Jeffrey F M,Philip A B.Proceedings of the 2000 ACM Sigmod Internal Conference on Management of Data.Dallas,Texas:ACM Press,2000.1-12.
7中文停用词表[EB/OL].http://download.csdn.net/source.
8Leacock C,Chodorow M.Combining Local Context and WordNet Similarity for Word Sense Identification[EB/OL].(1998-05-18).http://www.bibsonomy.org/bibtex/2087c974c471792ddlfa536aa6a 75eobc/asalber.
9Resnik P Using Information Content to Evaluate Semantic Similarity in a Taxonomy[C]//Proc.of the 14th International Joint Conference on Artificial Intelligence.[S.l.]:Springer,1995:448-453.
10Struve M,Ponzetto S P.WikiRelate!Computing Semantic Relatedness Using Wikipedia[C]//Proc.of Association for the Advancement of Artificial Intelligence.Boston,USA:IEEE Press,2006:1419-1424.

共引文献54

1李德毅,张海粟,王树良,伍爵博.维基百科统计分析研究[J].武汉大学学报（信息科学版）,2012,37(2):127-131. 被引量：1
2范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
3王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
4宋培彦,路青,赵星.网络百科知识组织方法研究[J].情报资料工作,2012,33(5):73-77. 被引量：11
5王静,何婷婷,衣马木艾山.阿布都力克木.协同过滤在中文维基百科类别推荐上的应用[J].计算机应用,2013,33(3):838-840.
6刘兴林.词汇知识获取及语义计算平台的构建[J].计算机与现代化,2013(3):85-88.
7张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
8明均仁,何超.基于语义关联挖掘的数字图书馆跨媒体检索方法研究[J].图书情报工作,2013,57(7):101-105. 被引量：14
9徐健.基于多种测度的术语相似度集成计算研究[J].情报学报,2013,32(6):618-628. 被引量：3
10赵辉,刘怀亮.一种基于维基百科的中文短文本分类算法[J].图书情报工作,2013,57(11):120-124. 被引量：16

1杜婧君,陆蓓,谌志群.基于中文维基百科的命名实体消歧方法[J].杭州电子科技大学学报（自然科学版）,2012,32(6):57-60. 被引量：3
2王静,何婷婷,衣马木艾山.阿布都力克木.协同过滤在中文维基百科类别推荐上的应用[J].计算机应用,2013,33(3):838-840.
3涂新辉,张红春,周琨峰,何婷婷.中文维基百科的结构化信息抽取及词语相关度计算方法[J].中文信息学报,2012,26(3):109-115. 被引量：24
4汪祥,贾焰,周斌,丁兆云,梁政.基于中文维基百科链接结构与分类体系的语义相关度计算[J].小型微型计算机系统,2011,32(11):2237-2242. 被引量：18
5万富强,吴云芳.基于中文维基百科的词语语义相关度计算[J].中文信息学报,2013,27(6):31-37. 被引量：9
6淦文燕,刘常昱,李德毅.基于拓扑势的网络热点话题发现研究[J].军事运筹与系统工程,2010,24(3):41-44. 被引量：7
7百科全书TOP5[J].电脑爱好者,2009(9):60-61.
8徐志浩,惠浩添,钱龙华,朱巧明.中文维基百科的实体分类研究[J].中文信息学报,2015,29(5):91-97. 被引量：1
9宁博,张菲菲.基于异构知识库的命名实体消歧[J].西安邮电大学学报,2014,19(4):70-76. 被引量：9
10毛二松,王波,唐永旺,梁丹.基于词向量的中文微博实体链接方法[J].计算机应用与软件,2017,34(4):11-15. 被引量：6

洛阳师范学院学报

2016年第2期

浏览历史

内容加载中请稍等...

基于ESA的文本分类算法研究

参考文献6

二级参考文献27

共引文献54

相关作者

相关机构

相关主题

浏览历史