基于领域本体的文本资料聚类算法改进研究被引量：3

Improvement of Texts Clustering Algorithm Based on the Domain-Ontology

导出

摘要针对由领域本体匹配产生的文本特征矩阵,描述了一种基于改进相似度计算公式的文本资料聚类算法。实验证明,当我们以生物医药领域的文本作为实验样本时,不管是从熵值还是从纯度来考虑,基于领域本体改进的聚类算法都要优于K-means算法和凝聚层次聚类算法。 This paper describes a new clustering method for texts based on an improved similarity calcula tion formula for text feature matrix which is generated by domain ontology matching.The experiment shows that： when they use texts in the field of bio-medicine as the experimental samples,the new cluster ing method for texts based on an improved similarity calculation formula is better than the K-means clus tering method and agglomerative hierarchical clustering method from entropy and purity considerations.

作者龚光明王薇蒋艳辉周双文

机构地区湖南大学工商管理学院

出处《情报科学》 CSSCI 北大核心 2013年第6期129-134,共6页 Information Science

基金国家自然科学基金(71201052) 湖南大学青年教师基金项目

关键词文本挖掘相似度聚类语义 text mining similarity clustering semantics

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献21

1Feldman R, Dagan. Knowledge discovery in textual da- tabases[C].Proceedings of the First International Con- ference on Knowledge Discovery and Data Mining. Montreal Canada,1995:112-117.
2刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
3苏中,马少平,杨强,张宏江.基于Web-Log Mining的Web文档聚类[J].软件学报,2002,13(1):99-104. 被引量：29
4Andreas H, Steffen S, Gerd S. Wordnet improves text document clustering[C]. Proceedings of the SiGIR 2003 Semantic Web Workshop. New York: ACM Press, 2003:541-544.
5Christian Borgeh, Andreas Nflmberger. Experiments in Document Clustering using Cluster Specific Term Weights [C].27th German Conference on Artificial In- telligence.Ulm, Germany,2004.
6孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18
7Luo N, Zuo W L, Yuan F Y, Zhang J B, Zhang H J. Us- ing ontology semantics to improve text documents clus- tering [J]. Journal of Southeast University, 2006, (6): 370-374.
8彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
9冯少荣,肖文俊.基于语义距离的高效文本聚类算法[J].华南理工大学学报（自然科学版）,2008,36(5):30-37. 被引量：15
10Dino I, Kallimani V P, Lee L H. Using the self organizing map for clustering of text documents[J]. Expert Systems with Applications, 2009, (6):9584-9591.

二级参考文献154

1袁方,杨柳,张红霞.基于k-近邻方法的渐进式中文文本分类技术[J].华南理工大学学报（自然科学版）,2004,32(z1):88-91. 被引量：7
2董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
3孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
4李向阳,张亚非.基于语义标注的信息抽取[J].解放军理工大学学报（自然科学版）,2004,5(4):39-43. 被引量：12
5徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
6姜吉发.一种跨语句汉语事件信息抽取方法[J].计算机工程,2005,31(2):27-29. 被引量：12
7王崇文.慢性胃炎的分类、诊断及治疗现状[J].现代消化及介入诊疗,2003,8(3):164-167. 被引量：3
8车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
9陈宁昱,周雅倩,黄萱菁,吴立德.利用未标注语料改进实体名识别性能[J].中文信息学报,2005,19(2):7-11. 被引量：3
10吕农华.规范慢性胃炎的诊断与治疗[J].中华消化杂志,2005,25(2):65-66. 被引量：54

共引文献242

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2沙龙.中西医结合治疗慢性胃炎48例临床观察[J].医学信息（医学与计算机应用）,2014,0(7):137-137.
3李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
4庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
5高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
6朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
7张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
8杜威,邹先霞,魏长华.基于OLAP的Web日志挖掘的研究与探讨[J].计算机与现代化,2004(12):106-109. 被引量：3
9郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
10王勇,吕扬生.DICOM医学图像扩展模型的研究[J].中国生物医学工程学报,2005,24(1):89-92. 被引量：3

同被引文献82

1巩献田.浅谈钱学森的中医观——钱老关于中医部分论述之刍议[J].首都师范大学学报（社会科学版）,2008(S1):49-76. 被引量：11
2曾召,王小平.UMLS与中医药一体化语言系统的建立[J].中华医学图书情报杂志,2006,15(3):1-3. 被引量：18
3罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
4王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
5曲朝阳.基于知识聚合的智能电网知识可视化引擎研究[J].电网技术,2012,(10):31-38.
6于洁,王磊,夏安邦.基于本体的知识库构建研究[J].计算机应用研究,2013,(12):35-40.
7Shadboh,Milton N. From Knowledge Engineering to Knowledge Management[J].British Journal of Man- age 1 merit, 2013, (4) : 309-322.
8Chandrasekaran B, Josephson, JR, Richard BV. Ontolo- gy of Tasks and Methods. In Workshop on Knowledge Acquisition[J]. Modeling and Management,2013, (2): 336-340.
9李佳.基于本体的大数据处理模型研究[J].软件学报,2013,(5):33-36.
10谢红薇,颜小林,余雪丽.基于本体的Web页面聚类研究[J].计算机科学,2008,35(9):153-155. 被引量：10

引证文献3

1洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
2王敬东,李佳.基于知识协同的大数据知识处理模型的设计[J].情报科学,2015,33(10):140-142. 被引量：4
3黄炜,程钰,李岳峰.智慧中医的研究进展述评[J].知识管理论坛,2018(2):49-60. 被引量：1

二级引证文献14

1许鑫,郭金龙.基于领域本体的专题库构建——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):2-9. 被引量：18
2郭金龙,洪韵佳,许鑫.中华烹饪文化领域本体构建及其应用[J].现代图书情报技术,2013(12):10-18. 被引量：7
3金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
4许鑫,洪韵佳.专题知识库中文本聚类结果的可视化研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2014(10):25-32. 被引量：3
5赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：7
6张紫玄,王雪颖,王昊.题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域[J].情报科学,2017,35(10):88-93. 被引量：13
7陈果,吴微,肖璐.知识共聚:领域分析视角下的知识聚合模式[J].图书情报工作,2018,62(8):115-122. 被引量：8
8沈美英.基于免疫网络学习机制的中文网络短文本聚类算法[J].自动化与仪器仪表,2018,0(10):185-186.
9于梦月,申静.大数据时代知识融合的支撑理论架构[J].信息资源管理学报,2020,10(3):18-26. 被引量：9
10高海翔,苗璐,刘嘉宁,林湘宁,董锴,何祥针.知识图谱及其在电力系统中的应用研究综述[J].广东电力,2020,33(9):66-76. 被引量：31

1曹玉环.社区档案管理工作的难点与办法探究[J].卷宗,2015,5(7):27-27.
2李文娟.《论衡》引《论语》情况考述[J].清远职业技术学院学报,2013,6(5):76-79.
3崔克俭,范俊娥.信息检索在科技档案中的应用[J].山西档案,1993,0(4):23-24.
4刘耀文,魏霞,李美英.中国评述性期刊发展现状分析[J].中华医学图书情报杂志,2013,22(9):1-7. 被引量：3
5廖华.谢应祥：民间文化的守护者[J].当代老年,2014(5):9-9.
6肖妍.数字图书馆的资源信息描述系统分析研究[J].河南图书馆学刊,2014,34(11):120-122.
7王姝,宋峥嵘,吴丽.江苏省生物医药领域科技报告计量分析[J].天津科技,2016,43(12):52-55. 被引量：1
8张宝元.串查找　串匹配　全文检索──谈检索系统的实现和选择[J].中国信息导报,1995(12):26-26.
9付立宏.基于知识管理的图书馆技术整合策略[J].图书馆杂志,2006,25(3):22-25. 被引量：10
10张学良,杨志杰,朱文祥.数字图像检索技术的研究[J].青年时代,2015,0(18):135-136.

情报科学

2013年第6期

浏览历史

内容加载中请稍等...

基于领域本体的文本资料聚类算法改进研究被引量：3

参考文献21

二级参考文献154

共引文献242

同被引文献82

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于领域本体的文本资料聚类算法改进研究 被引量：3

参考文献21

二级参考文献154

共引文献242

同被引文献82

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于领域本体的文本资料聚类算法改进研究被引量：3