基于词语上下文的文本分类研究被引量：4

Study of Text Classification Using Context

下载PDF

导出

摘要文本自动分类系统无法直接理解其语义并进行分类,需要对文本进行预处理,提取能表达文本主题内容的关键词,将这些关键词用结构化的形式保存起来,形成文本的表示。针对文本数据中存在大量词语共现的特点,提出了一种基于上下文的文本分类方法。该方法利用词语的上下文关系定义了词语相似度和词语权值,更科学地表达了词语在该类别中的语义表示,从而更能提高文本分类的质量。实验结果表明,该方法的分类效果比传统的简单向量距离分类法有明显的改善。 Automatic text categorization system cannot directly understand its semantic and classification,need text pretreatment,extraction can express text topics content keywords,,these keywords using structured stored together to form the text representation.According to the common characteristics presented by a large number of words,a context-based text classification method is put forward.This method defines the similarity and weights of words using the context relations between them,which expressed more scientific terms in this category in the semantic representation,thus improve the quality of text categorization better.Experimental results show that the method of classification context-based performance has significantly improved compared with the traditional simple vector distance classification.

作者杨金柱刘金岭

机构地区江南大学物联网工程学院淮阴工学院计算机工程学院

出处《计算机技术与发展》 2011年第8期145-148,152,共5页 Computer Technology and Development

基金江苏省淮安市科技计划项目(HAG09061) 淮阴工学院重点基金项目(HGA0907)

关键词词语共现上下文词语相似度文本分类 word co-occurrence context word similarity text classification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
3刘金岭.基于降维的短信文本语义分类及主题提取[J].计算机工程与应用,2010,46(23):159-161. 被引量：18
4刘金岭.基于查询词扩展的中文垃圾短信检索[J].计算机工程,2011,37(8):52-54. 被引量：6
5刘金岭.基于语义的高质量中文短信文本聚类算法[J].计算机工程,2009,35(10):201-202. 被引量：30
6郭少友.一种基于词上下文向量的文本自动分类方法[J].情报科学,2008,26(7):1030-1034. 被引量：5
7李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
8刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,2010,36(4):30-32. 被引量：14

二级参考文献75

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2王建会,王雷,胡运发.词语间依存关系的定量识别[J].中文信息学报,2005,19(4):31-38. 被引量：3
3张燕,傅建明.垃圾短信的识别与追踪研究[J].计算机应用研究,2006,23(3):245-247. 被引量：21
4沈建人.查准率和查全率之间的关系[J].情报探索,2006(4):32-34. 被引量：10
5刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
6丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：44
7尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
8唐歆瑜,乐文忠,李志成,李军义.基于知网语义相似度计算的特征降维方法研究[J].科学技术与工程,2006,6(21):3442-3446. 被引量：16
9索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
10Liu Qun, Li Sujian. Word Similarity Computing Based on How-net Computational[J]. Linguistics and Chinese Language Processing, 2002, 7(2): 59-76.

共引文献178

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
3叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
4陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
5陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
6修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
7王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
8付雪峰,刘邱云,王明文.基于互信息的粗糙集信息检索模型[J].山东大学学报（理学版）,2006,41(3):17-19. 被引量：2
9钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387

同被引文献41

1张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12
2于达仁,胡清华,鲍文.融合粗糙集和模糊聚类的连续数据知识发现[J].中国电机工程学报,2004,24(6):205-210. 被引量：70
3张涛,杨尔弘.基于上下文词语同现向量的词语相似度计算[J].电脑开发与应用,2005,18(3):41-43. 被引量：8
4张文东,易轶虎.基于兴趣相似性的Web用户聚类[J].山东大学学报（理学版）,2006,41(3):45-47. 被引量：11
5何峰.一种基于粗糙集理论的文本分类方法[J].自动化与信息工程,2006,27(3):1-3. 被引量：4
6宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
7孙秋野,张化光,戴璟.基于改进粗糙集约简算法的配电系统在线故障诊断[J].中国电机工程学报,2007,27(7):58-64. 被引量：12
8刘群,李素建.基于知网的词汇语义相似度计算[C]//第三届汉语词汇语义学研讨会.台北,2002.
9ICTCLAS汉语分词系统[EB/OL].http://ictclas.org/ict-clasjntroduction.html,2011-09-30.
10中国互联网络发展状况统计报告[R].2012(1).

引证文献4

1张培颖,王雷全.基于语义距离的文本分类方法[J].计算机技术与发展,2013,23(1):128-130. 被引量：4
2胡柳,周立前,黄丽君.一种基于文本信息的三层过滤系统的设计[J].计算机技术与发展,2013,23(4):135-138. 被引量：1
3唐启涛,张燕,彭利红.基于粗糙集约简算法的配置文本聚类方法研究[J].计算机技术与发展,2015,25(11):105-109. 被引量：2
4刘城霞,吴菲滢.基于关键词相似度的Web用户挖掘研究与实现[J].计算机科学与应用,2013,3(4):232-238. 被引量：1

二级引证文献8

1张艳敏,庞帮艳.基于粗糙集的传感网络节点故障诊断方法研究[J].科学技术与工程,2016,16(27):231-235. 被引量：5
2刘建宇.关于计算机实时互联网信息过滤系统设计探讨[J].电脑知识与技术,2016,12(9X):27-29. 被引量：1
3柳媛慧,陈林书,马庆.大学生就业影响因素中基于粗糙集的智能数据分析方法[J].当代教育理论与实践,2019,11(3):83-87. 被引量：3
4崔莹.深度学习在文本表示及分类中的应用研究[J].电脑知识与技术,2019,15(6):174-177. 被引量：6
5刘鑫,王皓晨,黄宇煦.基于朴素贝叶斯分类的电信诈骗信息的识别[J].计算机时代,2023(4):29-32. 被引量：4
6王九九,狄秋燕,马永亮.基于流式计算的垃圾短信治理关键技术研究[J].邮电设计技术,2024(5):56-61.
7靳义林,胡峰.基于三支决策的中文文本分类算法研究[J].南京大学学报（自然科学版）,2018,54(4):794-803. 被引量：4
8刘城霞.基于柔性逻辑的词语相似度计算方法的改进[J].计算机科学与应用,2016,6(11):755-760.

1裴厚伟,丁冲冲.基于词语共现的改进的本体构建方法研究[J].电脑知识与技术（过刊）,2014,20(11X):7562-7566.
2刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,2011,37(10):41-43. 被引量：13
3吴海燕.基于互信息与词语共现的领域术语自动抽取方法研究[J].重庆邮电大学学报（自然科学版）,2013,25(5):690-693. 被引量：6
4王治和,杨延娇.对简单向量距离文本分类算法的改进[J].计算机科学,2009,36(1):236-238. 被引量：4
5王桂华,秦湘清,陈黎,王亚强,于中华.一种面向专业搜索引擎的查询推荐算法[J].计算机工程与应用,2013,49(9):144-149. 被引量：4
6李慧.词语相似度算法研究综述[J].现代情报,2015,35(4):172-177. 被引量：17
7王潇.基于简单向量距离法的文本分类反馈学习技术的研究[J].仲恺农业技术学院学报,2008,21(1):46-49.
8何元娇,张国英.基于本体语义的简单向量距离分类方法[J].北京石油化工学院学报,2007,15(3):13-17. 被引量：2
9李树青,孙颖.基于加权关键词共现时间元的个性化学术研究时序路径发现及其可视化呈现方法[J].情报学报,2014,33(1):55-67. 被引量：12
10简增强.“动作捕捉系统”在动画教学中的应用与研究[J].美术大观,2013(3):160-160. 被引量：2

计算机技术与发展

2011年第8期

浏览历史

内容加载中请稍等...

基于词语上下文的文本分类研究被引量：4

参考文献8

二级参考文献75

共引文献178

同被引文献41

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于词语上下文的文本分类研究 被引量：4

参考文献8

二级参考文献75

共引文献178

同被引文献41

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于词语上下文的文本分类研究被引量：4