基于复杂网络理论的中文文本聚类算法

Clustering algorithm for Chinese text based on complex network theory

下载PDF

导出

摘要网络的普及以及互联网技术的发展,使得各类网络应用迅速地发展,同时,由于这些应用产生了大量可以由计算机存储和处理的文本信息。在各类信息处理领域,都需要对文本进行组织处理,其中文本聚类应用非常广泛,我们针对中文文本信息的特点,提出了一种加入《知网》语义相似度计算,利用复杂网络中小世界网络模型提取关键字表示文本并利用复杂网络中图聚类的思想的中文文本聚类算法。 By the development of network and the popularity of Internet technology,the network application is developing rapidly,at the same time,because of these applications produces a large number of text information can be storied and processed by computer.All kinds of information processing need the text processing,in which text clustering widely used is.For characters of Chinese text information,we put forward a kind of algorithm based on HowNet to calculated semantic similarity,and using small world network model to extract keyword to indicate a Chinese text,finally using graph clustering based on complex networks to clustering Chinese text.

作者李培

机构地区西安邮电大学

出处《电子测试》 2014年第2期21-23,共3页 Electronic Test

基金国家自然科学基金项目:(Grant No.61105064) 国家自然科学基金项目:(Grant No.61203311) 陕西省自然科学基础研究计划项目:(No.2011JM8007) 西安邮电大学校青年教师科研基金ZL2013-24

关键词复杂网络中文文本文本聚类 Complex network Chinese text Clustering algorithm for text

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] O157.5 [理学—基础数学]

引文网络
相关文献

参考文献3

1周雅夫,马力,董洛兵.基于SWN理论提取复合关键字系统的设计与实现[J].西安邮电学院学报,2007,12(5):82-86. 被引量：4
2Watts, D.J. and S.H. Strogatz, Collective dynamics of 'small-world' networks. Nature. 1998 Jun 4, 1998. VOL 393: p. 440-442.
3刘群李素建.基于《知网》的词汇语义相似度计算[A]..Computational Linguistics and Language Processing[C].,2002.7.2:59-76.

二级参考文献5

1Watts,D.J.and S.H.Strogatz,Collective dynamics of 'small-world' networks.Nature.1998 Jun 4,1998.VOL 393:p.440-442.
2Watts,D.J.,The Dynamics of Networks between Order and Randomness.Princeton Studies in Complexity,ed.S.A.Levin and S.H.Strogatz.1999,Princeton:Princeton University Press.264.
3Ramon Ferrer i Canchol,Ricard V.Sole.The small world of human language.
4Zhu Mengxiao,Cai Zhi,Cai Qingsheng.Automatic keywords extraction of Chinese document using small world structure.
5董洛兵著.SWN理论的文本复合关键字提取算法的研究[M].西安:西安电子科技大学,2006.

共引文献13

1吴云芳.并列成分中心语语义相似性考察[J].当代语言学,2005,7(4):305-315. 被引量：15
2荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
3周俏丽,蔡东风,吕德新,朱江涛,吴英泽.基于语义相似度的句法歧义结构消解[J].沈阳航空工业学院学报,2006,23(1):47-50. 被引量：1
4徐德智,王庆涛,王斌.基于本体的Web信息采集[J].现代图书情报技术,2007(2):53-55. 被引量：2
5曾一,刘元勇,郭永林.一种基于XML的统一构件匹配技术[J].计算机科学,2007,34(3):279-282. 被引量：2
6裘江南,姚永祥,仲秋雁.XTM的主题相关度的量化机制研究[J].情报学报,2007,26(3):332-338. 被引量：5
7易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
8宗裕朋,吴刚.一种基于上下文的语义相似度算法[J].微计算机信息,2008,24(30):211-212. 被引量：4
9陈桂鸿,曹树金,陈忆金.网络舆情信息提取与预处理研究[J].图书情报知识,2011,28(6):50-54. 被引量：2
10游彬,严岳松,孙英阁,刘靖.基于HowNet的信息量计算语义相似度算法[J].计算机系统应用,2013,22(1):129-133. 被引量：16

1任明仑.基于码表和变移哈夫曼编码的中文文本信息压缩方法[J].中文信息,1996,13(1):50-53.
2柴世红,康正军.基于模糊聚类的网站用户分类[J].甘肃科技,2008,24(3):20-22. 被引量：5
3秦福高.一种基于遗传算法改进的蚁群聚类算法[J].福建电脑,2014,30(6):96-98.
4顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
5赵立江.聚类分析在个性化学习中的研究与应用[J].福建电脑,2006(12):13-13. 被引量：2
6战玉彩,刘希玉.基于层次聚类的分类挖掘[J].网络安全技术与应用,2013(1):54-55. 被引量：1
7徐静,蔡琼,喻俊杰.基于模糊聚类的Web日志挖掘的应用研究[J].电脑知识与技术,2006(7):53-54. 被引量：1
8刘斌.网络信息资源的组织方法[J].东莞理工学院学报,2002,9(2):12-16. 被引量：3
9刘岩,张蕾.基于概念图的中文信息自动转化技术研究[J].计算机工程与应用,2008,44(15):151-154. 被引量：3
10徐绍琼,王昆仑.维哈柯汉英多媒体触摸咨询应用系统的研制[J].新疆师范大学学报（自然科学版）,1996,15(2):11-16.

电子测试

2014年第2期

浏览历史

内容加载中请稍等...

基于复杂网络理论的中文文本聚类算法

参考文献3

二级参考文献5

共引文献13

相关作者

相关机构

相关主题

浏览历史