基于Wikipedia的短文本语义相关度计算方法被引量：15

SHORT TEXTS SEMANTIC RELEVANCE COMPUTATION METHOD BASED ON WIKIPEDIA

下载PDF

导出

摘要语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出2个以Wikipedia作为外部知识库的短文本相关度计算算法:最大词语关联法和动态组块法。在一个网络短文本测试集上对算法进行测评。实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了20%以上。 Semantic relevance computation is the research focus in natural language processing field. Existing approach has the deficiency, which replaces the texts relevance computation with texts similarity computation. In this paper, we present to measure the semantic relevance between short texts comprehensively from two aspects of morphological similarity and group elements relevance, and present two computation algorithms for short texts relevance using Wikipedia as the external knowledge base： the maximum words correlation （MWC） algorithm and the dynamic chunking （DC） algorithm. The algorithm has been texted and assessed on a network short texts test set. Experimental results show that compared with typical similarity computation algorithm, this algorithm improves the accuracy rate up to 20% and higher.

作者王荣波谌志群周建政李治高飞

机构地区杭州电子科技大学认知与智能计算研究所天格科技(杭州)有限公司

出处《计算机应用与软件》 CSCD 2015年第1期82-85,92,共5页 Computer Applications and Software

基金教育部人文社会科学研究青年基金项目(12YJCZH201) 杭州市科技发展计划重大科技创新专项(20122511A18)

关键词短文本 WIKIPEDIA 相关度计算自然语言处理 Short texts Wikipedia Relevance computation Natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1Martins A,Figueiredo M,Aguiar P.Kernels and similarity measures for text classification[C]//Proceedings of Conf Tele’2007,New York,USA,2007:1-4.
2闫瑞,曹先彬,李凯.面向短文本的动态组合分类算法[J].电子学报,2009,37(5):1019-1024. 被引量：32
3刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：99
4Yize Li,Jiazhong Nie,Yi Zhang,et al.Contextual recommendation based on text mining[C]//Proceedings of the 23rd International Conference on Computational Linguistics,Beijing,August 2010:692-700.
5Waltinger U,Mehler A.Social Semantics and Its Evaluation by Means of Semantic Relatedness and Open Topic Models[C]//Proceedings of International Joint Conferences on Web Intelligence and Intelligent Agent Technologies,Milan,Italy,15-18 Sept.2009:42-49.
6胡佳妮,郭军,邓伟洪,徐蔚然.基于短文本的独立语义特征抽取算法[J].通信学报,2007,28(12):121-124. 被引量：4
7何海江.一种适应短文本的相关测度及其应用[J].计算机工程,2009,35(6):88-90. 被引量：7
8贾西平,彭宏,郑启伦,石时需.一种基于主题的概率文档相关模型[J].计算机科学,2008,35(10):178-180. 被引量：3
9赵玉茗,徐志明,王晓龙,朱鲲鹏.基于词汇集聚的文档相关性计算[J].电子与信息学报,2008,30(10):2512-2515. 被引量：3
10朱鲲鹏,魏芳.基于文档相关度计算的网页预测模型[J].计算机应用与软件,2012,29(2):109-112. 被引量：3

二级参考文献137

1朱靖波,王宝库,姚天顺.一种规则描述语言NPRDL语言[J].东北大学学报（自然科学版）,1996,17(6):651-655. 被引量：1
2Salton G, McGill M J. Introduction to modem information retrieval. New York: McGraw-Hill, 1983
3Baeza Yates R, Ribeiro-Neto B. Modern information retrieval. New York: ACM Press and Addison Wesley, 1999
4van Rijsbergen C J . Information retrieval. London : Butterw - orths, 1979
5Becker J, Kuropka D. Topic-based vector space model//Proceedings of Sixth International Conference on Business Information System. Colorado Springs, 2003 : 7-12
6Wan Xiao-jun, Peng Yu xin. A new retrieval model based on TextTiling for document similarity search. Journal of Computer Science and Technology, 2005,20(4) : 552-558
7Hearst M A. Multi paragraph segmentation of expository text// Proceedings of 32nd Meeting of the Association for Computa tional Linguistics. Los Cruces, 1994 : 9-16
8Lovasz L, Plummer M D. Matching Theory. Amsterdam: Elsevier Science Publishers B V, 1986
9Blei D M,Ng A Y,Jordan M I. Latent dirichlet allocation. Journal of Machine Learning Research, 2003,3 : 993-1022
10Griffiths T L, Steyvers M. Finding Scientific Topics//Proceedings of the National Academy of Sciences. 2004:5228-5235

共引文献283

1裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
2柴晓丽,张丽伟,管玉玲.基于HowNet自动文摘的研究[J].电脑编程技巧与维护,2009(S1):164-165. 被引量：1
3陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
4王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110. 被引量：5
5王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
6干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
7余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
8余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类[J].华南理工大学学报（自然科学版）,2005,33(9):25-29. 被引量：20
9冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
10林鸿飞,丁洪文,杨志豪,赵晶.基于概念和统计的问答系统实现机制[J].大连理工大学学报,2006,46(2):280-285. 被引量：4

同被引文献102

1周爱武,汪贤惠,刘慧婷.基于HowNet词汇相关性的文本聚类[J].微电子学与计算机,2015,32(4):90-93. 被引量：4
2韦洛霞,李勇,李伟,邵明珠,罗诗裕.汉字网络的3度分隔与小世界效应[J].科学通报,2004,49(24):2615-2616. 被引量：16
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：40
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
6颜端武,丁晟春,李岳蒙,顾德访.基于语义Web和Jena插件的语义检索系统实验研究[J].情报理论与实践,2006,29(3):349-352. 被引量：13
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
8霍颖瑜,王晓峰.一种新的SVM多类分类算法[J].佳木斯大学学报（自然科学版）,2006,24(4):476-478. 被引量：4
9刘秀松.带有云化核函数的SVM文本分类方法[J].科技情报开发与经济,2007,17(30):13-15. 被引量：1
10赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44

引证文献15

1秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
2张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40
3孙晓,彭晓琪,胡敏,任福继.基于多维扩展特征与深度学习的微博短文本情感分析[J].电子与信息学报,2017,39(9):2048-2055. 被引量：23
4汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215. 被引量：38
5丁连红,孙斌,张宏伟.基于知识图谱扩展的短文本分类方法[J].情报工程,2018,4(5):38-46. 被引量：5
6肖宝,李璞,蒋运承.混合词汇特征和LDA的语义相关度计算方法[J].计算机工程与应用,2017,53(12):152-157. 被引量：5
7帕丽旦.木合塔尔,买买提阿依甫,杨文忠,吾守尔.斯拉木.基于BiRNN的维吾尔语情感韵律短语注意力模型[J].电子科技大学学报,2019,48(1):88-95. 被引量：6
8郑腾,吴雨川.LDA特征扩展的多类SVM短文本分类方法研究[J].武汉纺织大学学报,2019,32(2):72-76. 被引量：5
9范海林,梁明,李佳,段平,王姗姗,王彤.顾及地理语境的旅游轨迹停留点语义标注[J].测绘通报,2019(6):66-70. 被引量：1
10索俊锋,郑海晨.基于地名本体的加权语义相关度算法研究[J].西北民族大学学报（自然科学版）,2019,40(3):1-8. 被引量：2

二级引证文献150

1热孜瓦姑丽·吾斯曼,艾孜尔古丽·玉素甫.论现代的维吾尔语情感分析方法进展[J].电脑知识与技术,2020,0(4):178-179.
2李蕾,谢旸,蒋亚飞,刘咏彬.一种用于图卷积网络的社交关系方向门控算法[J].北京邮电大学学报,2020(5):77-83. 被引量：1
3许霖庆.高新技术在园艺上的应用（二）[J].花卉,2000(3):10-20.
4李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
5秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
6闫海磊,施水才.一种面向时政新闻的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):23-26. 被引量：3
7王正成,李丹丹.基于词向量和情感本体的短文本情感分类[J].浙江理工大学学报（社会科学版）,2018,40(1):33-38. 被引量：3
8邬明强,张奎.结合TFIDF方法与Skip-gram模型的文本分类方法研究[J].电子技术与软件工程,2018(6):162-163. 被引量：1
9李慧,王丽婷.基于词项热度的微博热点话题发现研究[J].情报科学,2018,36(4):45-50. 被引量：16
10贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现,2018,2(2):86-95. 被引量：20

1陈文宇,张忠全,向涛,桑楠.基于相似度的语义Web服务发现技术研究[J].电子科技大学学报,2010,39(6):896-899. 被引量：8
2杨杰明,刘元宁,曲朝阳,刘志颖.文本分类中基于综合度量的特征选择方法[J].吉林大学学报（理学版）,2013,51(5):887-893. 被引量：7
3陈裕国.类比法、关联法在微机原理教学中的运用[J].科技信息,2008(23):167-167. 被引量：3
4陆晶,赛英.基于综合度量的关联规则挖掘算法[J].计算机工程,2004,30(22):89-90. 被引量：4
5谢树云,全晓松,申云成.大数据环境下网络舆情评估模型的构建[J].贵阳学院学报（自然科学版）,2016,11(1):54-57. 被引量：3
6欧阳桃红,任彧.一种基于遗传算法的关联规则改进算法[J].杭州电子科技大学学报（自然科学版）,2015,35(5):79-83. 被引量：3
7崔学理,刘仰川,夏威,高欣.一种新的构建序列影像与呼吸信号对应关系的方法[J].江苏大学学报（自然科学版）,2015,36(2):187-190.
8王文格.现代汉语形谓句的认知语义功能[J].南都学坛（南阳师范学院人文社会科学学报）,2010,30(3):135-136.
9刘云生.聚焦言语形式学习言语智慧——《杨氏之子》课堂教学实录[J].小学教学（语文版）,2008(10):24-27.
10确定动词非谓语形式的方法[J].中学英语之友（新教材初二版）,2012(6):10-11.

计算机应用与软件

2015年第1期

浏览历史

内容加载中请稍等...

基于Wikipedia的短文本语义相关度计算方法被引量：15

参考文献20

二级参考文献137

共引文献283

同被引文献102

引证文献15

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

基于Wikipedia的短文本语义相关度计算方法 被引量：15

参考文献20

二级参考文献137

共引文献283

同被引文献102

引证文献15

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

基于Wikipedia的短文本语义相关度计算方法被引量：15