基于词同现频率的文本特征描述被引量：8

Text feature description based on word co-occurrence

下载PDF

导出

摘要文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 The description of text feature is one of the fundamental works of natural language. Some scholar often use the VSM in descriptionoftextfeatureatpresent, The model adopts term weighting algorithm based on statistical or experiential, It makes the computer can compare text similarity more easily, but the model don＇t think about the relation between word and word in the text. A term weighting algorithm on word co-occurrence is discussed to make the text feature contain some relative information between word and word, Finally, some experiment results are given to show the validity of algorithm and compare them with results obtained using other algorithm.

作者余刚陈华月朱征宇高原

机构地区重庆大学计算机学院

出处《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页 Computer Engineering and Design

关键词向量空间模型文本挖掘词同现频率权重计算匹配 VSM （vector space model） text mining word co-occurrence term-weighing matching

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1杨尔弘,张国清,张永奎.基于义原同现频率的汉语词义排歧方法[J].计算机研究与发展,2001,38(7):833-838. 被引量：26
2马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003,40(6):874-878. 被引量：48
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4Belkin N J, Croft W B. Information filtering and information retrieval: two sides of the same coin[J]. Communications of ACM,1994,35(12):29-38.
5Lam W, Ruiz M, Srinivasan P. Automatic text categorization and its application to text retrieval[J]. IEEE Trans on Knowledge and Data Engineering, 1999,11 (6): 865-879.

二级参考文献16

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
3黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
4鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
5卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
6李涓子，清华大学学报，1999年，39卷，7期，229页
7董振东，语言文字应用，1998年，27卷，3期，76页
8董振东，http://wwwhownetcom
9黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
10鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页

共引文献362

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献86

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2曾利沙.英语线性段落结构模式研究[J].外语教学与研究,1994,26(1):20-26. 被引量：42
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
6陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
7谢彩霞,梁立明,王文辉.我国纳米科技论文关键词共现分析[J].情报杂志,2005,24(3):69-73. 被引量：83
8张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
9罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
10陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154. 被引量：823

引证文献8

1罗海飞,吴刚,杨金生.基于贝叶斯的文本分类方法[J].计算机工程与设计,2006,27(24):4746-4748. 被引量：14
2廖玲,文敦伟.基于改进向量空间模型的邮件分类[J].计算机与数字工程,2007,35(4):190-193. 被引量：3
3王继曾,罗恒,刘宽,任浩征.应用条件随机场进行汉语词法分析研究[J].计算机工程与设计,2007,28(2):486-488. 被引量：2
4肖红,刘淑华.一种文本多级分类方法研究[J].长江大学学报（自科版）（上旬）,2008,5(2):92-95.
5徐建民,崔琰,刘清江.基于同义词关系改进的局部共现查询扩展[J].情报杂志,2010,29(9):145-147. 被引量：3
6袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11
7王夙娟.特定主题词库建立的相关技术的研究[J].科技信息,2012(14):115-116. 被引量：1
8王旭东,潘东华.基于德温特手工代码的技术分析方法研究[J].情报理论与实践,2017,40(10):96-99. 被引量：6

二级引证文献40

1代磊,马卫东,王凌楠,马建国.基于权重的朴素贝叶斯分类器设计与实现[J].情报理论与实践,2008,31(3):440-442. 被引量：9
2叶忠杰,陈庆章.基于Q/A与文档库的智能课程答疑系统[J].计算机工程与设计,2008,29(10):2692-2694. 被引量：3
3罗军,况夯.基于Boosting算法集成遗传模糊分类器的文本分类[J].计算机应用,2008,28(9):2386-2388. 被引量：1
4王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
5林令娟,刘希玉.基于微粒群优化的快速K-近邻分类算法[J].山东科学,2009,22(1):13-16. 被引量：2
6熊忠阳,李智星,张玉芳,江帆.基于正交分解的文本分类模型[J].计算机工程,2009,35(14):227-229. 被引量：3
7陈朝平,冯汉中,陈静.基于贝叶斯方法的四川暴雨集合概率预报产品释用[J].气象,2010,36(5):32-39. 被引量：57
8袁文生,王晓峰.基于朴素贝叶斯的中文海事文本多分类器研究[J].计算机与现代化,2011(5):150-153.
9任剑锋,梁雪,李淑红.基于非线性流形学习和支持向量机的文本分类算法[J].计算机科学,2012,39(1):261-263. 被引量：10
10杨艺,周元.基于用户查询意图识别的Web搜索优化模型[J].计算机科学,2012,39(1):264-267. 被引量：16

1马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003,40(6):874-878. 被引量：48
2欧有远,张海粟,孟晖,李德毅.基于复杂网络社团划分的Web services聚类[J].计算机应用研究,2009,26(6):2299-2302. 被引量：1
3陈炯,张永奎.一种基于词聚类的文本特征描述方法[J].计算机系统应用,2011,20(2):211-215. 被引量：4
4吴鹏飞,刘俊晓,马凤娟.如何巧用VC实现中文快速分词[J].电脑编程技巧与维护,2006(10):89-91.
5沈亚田,沈夏炯,马庆华.无尺度图k-中心点聚类算法在文本挖掘中的应用[J].计算机工程与科学,2009,31(12):65-66. 被引量：3
6何中市,刘里.基于上下文关系的文本分类特征描述方法[J].计算机科学,2007,34(5):183-186. 被引量：6
7廖浩,李志蜀,王秋野,张意.基于词语关联的文本特征词提取方法[J].计算机应用,2007,27(12):3009-3012. 被引量：10
8耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
9都云程,周伟,韩艳铧,吕学强.基于字同现频率的关键词自动抽取[J].北京信息科技大学学报（自然科学版）,2011,26(6):35-38. 被引量：4
10王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2006,20(6):31-37. 被引量：14

计算机工程与设计

2005年第8期

浏览历史

内容加载中请稍等...

基于词同现频率的文本特征描述被引量：8

参考文献5

二级参考文献16

共引文献362

同被引文献86

引证文献8

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于词同现频率的文本特征描述 被引量：8

参考文献5

二级参考文献16

共引文献362

同被引文献86

引证文献8

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于词同现频率的文本特征描述被引量：8