一种基于多重因子加权的文本特征项权值计算方法被引量：10

A Method for Computing Weight of Text Characteristic Item Based on Multiple Factors Weighting

下载PDF

导出

摘要根据中文文本的特点,不仅考虑文本中词汇概率信息,还结合文本语义等多方面信息来计算文本特征项的权值,从而提出一种基于多重因子加权的特征项权值计算方法,并给出具体算法。通过与基于词频及基于TF-IDF的特征项权值计算方法的比较试验,证明文中提出的特征项权值计算方法能有效提高文本聚类的正确率。 According to the characteristics of Chinese texts, the article proposes a method for computing weight of text characteristic items based on multiple factors weighting. The weight of a characteristic item is computed according to many aspects, It dose not only consider the appearance rate of word, but also unifies the semantic information in the text, And, the algorithm of computing the weight of characteristic item is provided in this paper. Finally, this paper presents the results of the experiments by comparing with traditional computing the weight of characteristic item based on word rate and TF- IDF, which illustrates that the method proposed in this paper improves the correct rate of text clustering,

作者龚静周经野

机构地区湖南环境生物职业技术学院信息技术系湘潭大学信息工程学院

出处《计算技术与自动化》 2007年第1期81-83,86,共4页 Computing Technology and Automation

关键词特征项文本聚类中文文本自然语言处理 characteristic item text clustering chinese text natural language procession

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1J Thorsten.A probabilistic analysis of the Rocchio algorithm with TF-IDF for text categorization.In:Proc of the 14th Int'1 Conf on Machine Learning (ICML'97).1997,pages:143-151.
2邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
3马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003,40(6):874-878. 被引量：48

二级参考文献13

1杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
2李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
3董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
4布达格夫.语言学概论(中译本)[C].时代出版社,1956..
5Zhen dong Dong,Bigger Context and Better Understanding-Expectation on Future MT Technology [ A] ,In: Proc. of the International Conference on Machine Translation & Computer Language Information Processing[ C] ,1999/6,pp.17- 25.
6Patrick Perrin,Frederiek E. Perry, Extraction and representation of contextual information for knowledge discovery in texts[J] .Information Sciences, Volume 151, May 2003, Pages 125- 152.
7中国社会科学院语言研究所词典编辑室.现代汉语词典[c].北京:商务印书馆,2003,9..
8麻志毅,姚天顺.基于情境的文本主题求解[J].计算机研究与发展,1998,35(4):344-348. 被引量：7
9王永成,顾晓明,王丽霞.中文文献主题的自动标引[J].情报学报,1998,17(3):219-225. 被引量：24
10谢宜辰.网络智能文本分类系统的研究与实现[J].湘潭大学自然科学学报,2000,22(1):12-15. 被引量：3

共引文献54

1陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
2余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
3唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
4姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
5赛场“搏”客活力绽放——浙报集团第三届职工健身运动会掠影[J].新闻实践,2006(12).
6王璐,朱东华,任智军.科技术语属性抽取方法研究[J].现代图书情报技术,2007(5):69-72. 被引量：8
7李钝,曹元大,万月亮.信息安全中的变形关键词的识别[J].计算机工程,2007,33(21):155-156. 被引量：9
8章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：39
9龚静,田小梅.基于文本表示的特征项权值计算方法[J].电脑开发与应用,2008,21(2):46-48. 被引量：4
10梁莹.论“字本位”思想的理论和应用[J].现代语文（下旬．语言研究）,2008(2):8-9.

同被引文献125

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4冯长远,普杰信.Web文本特征选择算法的研究[J].计算机应用研究,2005,22(7):36-38. 被引量：8
5寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
6刘革平,黄智兴,李立新,邱玉辉.基于文本挖掘的e-Learning学习评价研究[J].计算机科学,2005,32(5):170-171. 被引量：3
7谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
8姜灵敏.基于改进遗传算法的动态聚类方法及其应用[J].科技管理研究,2005,25(11):217-219. 被引量：3
9骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
10谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006,25(3):95-100. 被引量：115

引证文献10

1林明才,康耀红,钟声,张诚.文本聚类技术在科研立项管理中的应用[J].科技管理研究,2009,29(10):95-96. 被引量：2
2李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
3高飞,周学广,孙艳.基于关联规则和粗糙集的话题特征提取方法[J].计算机工程,2012,38(10):63-66. 被引量：2
4郝晓玲.网络舆情研判技术的研究进展[J].情报科学,2012,30(12):1901-1906. 被引量：8
5刘海峰,于利军,刘守生.一种基于类别分布信息的文本特征选择模型[J].图书情报工作,2013,57(15):137-141. 被引量：5
6王小林,肖慧,邰伟鹏.基于Hadoop平台的文本相似度检测系统的研究[J].计算机技术与发展,2015,25(8):90-93. 被引量：5
7赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：9
8高军,黄献策.基于Hadoop平台的相关性权重算法设计与实现[J].计算机工程,2019,45(3):26-31. 被引量：8
9白凤波,常林,王世凡,李彬,王颖洁,周红,刘耀.裁判文书关键词提取的改进方法研究[J].计算机工程与应用,2020,56(23):153-160. 被引量：4
10雷明,陈涛,韩乾凤,程木伟,高庚,沙雪梅,张亚军.一种基于常规测井资料计算碳酸盐岩储层裂缝孔隙度新方法[J].地球科学,2023,48(7):2678-2689. 被引量：2

二级引证文献92

1杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
2葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
3林明才,康耀红,张诚一.基于科研立项管理应用的模糊C均值算法研究[J].计算机工程与设计,2010,31(7):1570-1572. 被引量：4
4郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
5郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：23
6路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
7路永和,李焰锋.多因素影响的特征选择方法[J].现代图书情报技术,2013(5):34-39. 被引量：3
8刘海峰,于利军,刘守生.一种基于类别分布信息的文本特征选择模型[J].图书情报工作,2013,57(15):137-141. 被引量：5
9姚明海,赵连朋,刘维学.基于特征选择的Bagging分类算法研究[J].计算机技术与发展,2014,24(4):103-106. 被引量：8
10黄磊,伍雁鹏,朱群峰.关键词自动提取方法的研究与改进[J].计算机科学,2014,41(6):204-207. 被引量：22

1龚静,田小梅.基于文本表示的特征项权值计算方法[J].电脑开发与应用,2008,21(2):46-48. 被引量：4
2身份识别事关重大[J].网络运维与管理,2013(16):37-39.
3龚静,胡平霞,李春媚.一种用于文本分类的特征项权值计算方法的研究[J].惠州学院学报,2013,33(6):78-81.
4桑书娟,周晏.一种基于词长的TFIDF特征项权值计算方法[J].电脑知识与技术（过刊）,2011,17(11X):7996-7997.
5梁坤,古丽拉·阿东别克.基于SVM的中文新闻评论的情感自动分类研究[J].电脑知识与技术,2009,5(5):3496-3498. 被引量：4
6林满山,韩雪娇,宋威.基于多线程多重因子加权的关键词提取算法[J].计算机工程与设计,2013,34(7):2398-2402. 被引量：5
7卢亦娟,倪志伟,胡彩平.基于相似粗糙集的范例推理技术[J].计算机工程,2003,29(19):50-51. 被引量：7
8孙翎,张金隆,迟嘉昱.基于粗糙集的CBR系统案例特征项权值确定[J].计算机工程与应用,2003,39(30):44-46. 被引量：22
9吴玮.基于空间向量模型的垃圾文本过滤方法[J].湖南科技大学学报（自然科学版）,2014,29(1):78-83. 被引量：4
10赵建邦.基于云端、桌面登录和门禁的安全身份识别解决方案[J].中国公共安全,2013(20):195-196. 被引量：1

计算技术与自动化

2007年第1期

浏览历史

内容加载中请稍等...

一种基于多重因子加权的文本特征项权值计算方法被引量：10

参考文献3

二级参考文献13

共引文献54

同被引文献125

引证文献10

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

一种基于多重因子加权的文本特征项权值计算方法 被引量：10

参考文献3

二级参考文献13

共引文献54

同被引文献125

引证文献10

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

一种基于多重因子加权的文本特征项权值计算方法被引量：10