文本分类中词语权重计算方法的改进与应用被引量：28

Improvement and application to weighting terms based on text classification

下载PDF

导出

摘要文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector SpaceModel)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一。但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高的权重。用改进的TFIDF选择特征词条、用KNN分类算法和遗传算法训练分类器来验证其有效性,实验表明改进的策略是可行的。 Text representation has been the fundamental problem in Information Retrieval.tf.idf （term frequency,inverse document frequency） as one of term weighting schemes in Vector Space Model is a good text representation,Which is popular and make good results in the field of Information Retrieval.The difference of the proportion of distribution of terms in text collection is one of the most important factors of expressing the content of text.But the calculation of IDF,don＇t consider the information of distribution about terms among classes,and don＇t consider the more term weighting for the terms of the relative distributed balance inner classes.The improved TFIDF are used to select feature,KNN algorithm and genetic algorithm are used to train the classifier.and proves that the improved TFIDF method is feasible.

作者熊忠阳黎刚陈小莉陈伟

机构地区重庆大学计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2008年第5期187-189,共3页 Computer Engineering and Applications

基金重庆市自然科学基金(the Natural Science Foundation of Chongqing City of China under Grant No.CSTC2006BB2021)

关键词文本表示向量空间模型特征选择 TFIDF text representation Vector Space Model feature selection TFIDF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
4张文进.文本信息检索中的概率模型[J].情报杂志,2005,24(3):107-110. 被引量：7
5张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
6宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6

二级参考文献45

1盛骤谢式千.概率论与数理统计[M].北京:高等教育出版社,1989.189-194.
2黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
3James Auen.Natural Language Understandin[M].The Benjamin/Cummings Publishing Company, 1991-05.
4Apte C,Damerau F J,Weiss S M.Automated Learning of Decision Rules for Text Categorization[J].ACM Trans On Inform Syst,12(3): 233-251.
5Salton G,Buckley B.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management, 1998 ; 24(5 ) :513 -523.
6Larkey L S.A Patent Search and Classification System[C].In:proceedings of DL-99,4th ACM Conference on Digital Libraries Berkeley,CA,1999:179-187.
7Salton G,Lesk M E.Computer Evaluation of Indexing and Text Processing[J].Association for Computing Machinery, 1968 ; 15 ( 1 ) : 8-36.
8Yang Yiming，ProceedingsoftheSeventeenthInternationalACMSIGIRConferenceonResearchandDevelopme，1994年，12页
9Michelle Keim, David D. Lewis, David Madigan. Bayesian Information Retrieval: Preliminary Evaluation. In Preliminary Papers of the Sixth International Workshop on Artificial Intelligence and Statistics,1997.
10C. J. van Rijsbergen B. Se. Information Retrieval. Butterworths. London:United Kingdom. 1979.

共引文献503

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
3骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
4李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：5
5张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
6周延泉,张传福,张瑞华,李蕾,何华灿.移动个性化信息服务中的用户兴趣模型[J].北京邮电大学学报,2006,29(z2):144-147. 被引量：1
7张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
10许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2

同被引文献218

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
3邢红兵.现代汉语词类使用情况统计[J].浙江师范大学学报（社会科学版）,1999,25(3):27-30. 被引量：5
4杨继本.认知心理学在《汉字教学字典》研编中的应用[J].心理科学,1995,18(1):43-47. 被引量：3
5中华人民共和国财政部令第18号——政府采购货物和服务招标投标管理办法[J].中国政府采购,2004(9):6-14. 被引量：4
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
8王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
9夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
10费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68

引证文献28

1姚兴山.基于词频的中文文本分类研究[J].现代情报,2009,29(2):179-181. 被引量：4
2施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
3晋幼丽,周明全,王学松.SVM和K-means结合的文本分类方法研究[J].计算机技术与发展,2009,19(11):35-37. 被引量：5
4陶秋香,喻金科,涂继亮.基于向量空间模型的公文分类系统研究与实现[J].南昌航空大学学报（自然科学版）,2009,23(4):66-70. 被引量：2
5徐建民,刘清江,付婷婷,戴旭.基于量化同义词关系的改进特征词提取方法[J].河北大学学报（自然科学版）,2010,30(1):97-101. 被引量：5
6任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383. 被引量：20
7李中原,杨守文.基于向量空间模型的网页特征权重计算改进[J].计算机与现代化,2010(6):137-139. 被引量：4
8范小丽,刘晓霞.文本分类中互信息特征选择方法的研究[J].计算机工程与应用,2010,46(34):123-125. 被引量：30
9徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29
10刘霁,周亚东,高峰,赵俊舟,薛峰.一种基于文本语义的网络敏感话题识别方法[J].深圳信息职业技术学院学报,2011,9(3):33-37. 被引量：3

二级引证文献497

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3甄沐华,陈鹏,王坤,范子杨,王者.基于关键词挖掘的热线文本数据犯罪线索筛查方法研究[J].知识管理论坛,2022(5):539-548. 被引量：1
4田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
5夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
6孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：3
7赵蓉英,陈必坤.知识地图与知识图谱研究进展[J].情报学进展,2014(1):350-387. 被引量：1
8吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
9王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：4
10陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2

1张青,熊前兴.文本分类中词语权重计算的改进[J].电脑知识与技术,2011,7(1):204-206. 被引量：2
2段荣伟,付立冬,夏广锋.语义分析在水环境领域的应用研究[J].电子技术与软件工程,2015(22):263-264.
3高蕾娜,史延枫,李艳丹.基于特定领域的加权语义相似度算法研究[J].成都大学学报（自然科学版）,2015,34(3):259-261. 被引量：1
4陈国松,黄大荣.基于信息熵的TFIDF文本分类特征选择算法研究[J].湖北民族学院学报（自然科学版）,2008,26(4):401-404. 被引量：5
5张东礼,汪东升,郑纬民.基于VSM的中文文本分类系统的设计与实现[J].清华大学学报（自然科学版）,2003,43(9):1288-1291. 被引量：16
6连远锋,侯锟,张沛露,许建潮.演化计算在特征词条优化中的应用[J].长春工业大学学报,2004,25(1):32-35.
7鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000,14(6):8-13. 被引量：120
8刘玉琴,刘嵩,于波.面向审查任务的中文专利检索模型与实验[J].计算机应用研究,2008,25(5):1483-1484.
9许高建,路遥,胡学钢,涂立静.一种改进的文本特征选择方法的研究与设计[J].苏州大学学报（工科版）,2008,28(2):18-22. 被引量：4
10许高建,胡学钢,路遥,涂立静.一种改进的文本特征选择方法的研究与设计[J].微型电脑应用,2008,24(5):21-23. 被引量：1

计算机工程与应用

2008年第5期

浏览历史

内容加载中请稍等...

文本分类中词语权重计算方法的改进与应用被引量：28

参考文献6

二级参考文献45

共引文献503

同被引文献218

引证文献28

二级引证文献497

相关作者

相关机构

相关主题

浏览历史

文本分类中词语权重计算方法的改进与应用 被引量：28

参考文献6

二级参考文献45

共引文献503

同被引文献218

引证文献28

二级引证文献497

相关作者

相关机构

相关主题

浏览历史

文本分类中词语权重计算方法的改进与应用被引量：28