基于公共词块及N-gram模型的问句相似度算法被引量：7

Question Similarity Algorithm Based on Common Chunks and N-Gram Model

下载PDF

导出

摘要问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分解成一元模型和二元模型,然后再分析问句之间的公共词块并考虑其顺序结构。实验结果表明:新算法在Top-N条数据集的平均相似度和不同相似度阈值下的准确率均优于常用的问句相似度算法。 Question similarity algorithm is the key problem of QA,which directly affects the accuracy of QA. Aiming at the non applicability of the common chunks similarity algorithm（ CCS） to Chinese text,an improved question similarity algorithm（ CNS） is proposed,which combines the N-gram model and the common chunks to compute the similarity of the question vectors. The main idea is to break the question into unigram model and bigram model,then to analyze the common chunks between the questions and consider their sequential structure. Experimental results show that the new algorithm is better than the commonly used question similarity algorithms in the average similarity of Top-N data sets and the accuracy of different similarity threshold.

作者黄贤英谢晋龙姝言

机构地区重庆理工大学计算机科学与工程学院

出处《重庆理工大学学报（自然科学）》 CAS 2017年第10期175-179,197,共6页 Journal of Chongqing University of Technology：Natural Science

基金教育部人文社科青年项目(16YJC860010) 重庆市社会科学规划博士项目(2015BS059)

关键词问句相似度 N-GRAM模型一元模型公共词块 question similarity N-gram model unigram model common chunks

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1丁菲菲,杨思春,刘仁金.基于平均信息熵的中文问句关键词提取[J].皖西学院学报,2014,30(5):46-49. 被引量：1
2黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7
3于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17

二级参考文献27

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2Yuhua H, David McI~an, Zuhair A. Bandar, et al. Sen- tence Similarity Based on Semantic Nets and Corpus Sta- tistics [ J ]. Knowledge and Data Engineering, 2006, 18 (8) :1138 - 1150.
3IslamA, Inkpen D. Semantic Text Similarity Using Cor- put-based Word Similarity and String Similarity[ J]. ACM Transactions on Knowledge Discovery from Data, 2008 (2) :1o.
4Quirk C, Brockett C, Dolan W B. Monolingual Machine Translation for Paraphrase Generation [ C ]//EMNLP. USA : [ s. n. ] ,2004 : 142 - 149.
5Dolan B, Quirk C, Brockett C. Unsupervised construction of large paraphrase corpora: Exploiting massively parallel news sources [ C ]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics ,2004:350.
6Irvine V C, Samir Khuller. Design and Analysis of Algo- rithms Lecture Notes [ R ]. Maryland, USA : Dept of Com- puter Science University of Maryland ,2003.
7Win Thuzar Kyaw, Khin Mar Soe, Hla Hla Htay, et al. Information Extraction from Myanmar Text Using Condi tion Random Fields[A]. Planetary Scientific Research Cen ter [C]. 2014,51:62 -66.
8DUMAIS S T. Improving the Retrieval Information from External Sources[J]. Behaviour Research Methods, In- struments and Computers, 1991,23 (2) : 229-236.
9彭月娥.面向中文问题分类的大规模高质量问句集自动获取[D].马鞍山:安徽工业大学:硕士学位论文),2013.
10张晓孪,王西锋,李乃乾.中文问答系统中问题理解的研究与实现[J].西华大学学报（自然科学版）,2008,27(2):4-7. 被引量：7

共引文献22

1刘世兴.基于多尺度的n-grams特征选择加权及匹配算法[J].智能计算机与应用,2020,0(1):61-66. 被引量：1
2庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
3赵阳,顾磊.基于中文信息处理的古籍整理研究评述[J].图书情报工作,2010,54(3):116-119. 被引量：8
4林伟,柳荣其,徐熙.一种基于N-Gram的垃圾邮件过滤方法研究[J].计算机应用与软件,2010,27(2):121-123. 被引量：5
5金光赫,王兴伟,蒋定德.朝鲜语信息检索索引方法研究[J].计算机科学,2011,38(5):169-174.
6吴夙慧,成颖,郑彦宁,潘云涛.基于N元语法的英文学术文献聚类标签抽取算法[J].现代图书情报技术,2011(7):68-75. 被引量：3
7余小军,刘峰,张春.基于N-Gram文本特征提取的改进算法[J].现代计算机,2012,18(23):3-7. 被引量：9
8王兰成,徐震.基于情感本体的主题网络舆情倾向性分析[J].信息与控制,2013,42(1):46-52. 被引量：15
9李妍坊,许歆艺,刘功申.面向情感倾向性识别的特征分析研究[J].计算机技术与发展,2014,24(9):33-36. 被引量：3
10邱云飞,刘世兴,魏海超,邵良杉.W-POS语言模型及其选择与匹配算法[J].计算机应用,2015,35(8):2210-2214. 被引量：3

同被引文献68

1胡媛敏,张寿明.基于信息论的TF-IDF算法在文本分类中的应用研究[J].中国水运（下半月）,2021,21(12):31-33. 被引量：6
2徐祖友.王云五与四角号码检字法[J].辞书研究,1990(6):128-134. 被引量：10
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
4张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
5马立东.Soundex语音匹配算法综述[J].现代计算机,2010,16(5):17-20. 被引量：3
6李文,洪亲,滕忠坚,石兆英,胡小丹,刘海博.基于n-gram的字符串分割技术的算法实现[J].计算机与现代化,2010(9):85-87. 被引量：6
7马立东.Metaphone语音匹配算法及其应用研究[J].计算机时代,2010(10):39-43. 被引量：2
8孙华,张航.汉字识别方法综述[J].计算机工程,2010,36(20):194-197. 被引量：28
9姚飞,纪磊,张成昱,陈武.实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J].现代图书情报技术,2011(4):77-81. 被引量：104
10孙翌,李鲍,曲建峰.图书馆智能化IM咨询机器人的设计与实现[J].现代图书情报技术,2011(5):88-92. 被引量：37

引证文献7

1陈鸣,杜庆治,邵玉斌,龙华.基于音形码的汉字相似度比对算法[J].信息技术,2018,42(11):73-75. 被引量：7
2周昊,沈庆宏.基于改进音形码的中文敏感词检测算法[J].南京大学学报（自然科学版）,2020,56(2):270-277. 被引量：11
3王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2
4刘泽,徐潇洁,邵波.基于多策略混合问答系统模型的图书馆咨询机器人的设计与应用[J].新世纪图书馆,2022(5):43-49. 被引量：13
5鲍治国,王海安,胡士伟,马西锋.基于内容相似度的相关性评分算法对比分析研究[J].电子测试,2022,36(19):52-55. 被引量：1
6李伊仝,王红斌,程良.融入新闻标题信息的新闻文本与评论的语义相似度计算方法[J].吉林大学学报（理学版）,2022,60(6):1399-1406. 被引量：1
7王红斌,张卓,赖华.结合对比学习的新闻文本与评论相似度计算[J].小型微型计算机系统,2023,44(12):2671-2677.

二级引证文献32

1周昊,沈庆宏.基于改进音形码的中文敏感词检测算法[J].南京大学学报（自然科学版）,2020,56(2):270-277. 被引量：11
2徐思尧,周刚,杨强,谢善益,杨冬海,李兆坤.基于改进音型法的多系统电能质量数据整合[J].广东电力,2021,34(2):61-67. 被引量：2
3宋振,徐雅斌.社交网络中意见领袖的敏感舆论倾向识别[J].计算机工程与设计,2021,42(11):3293-3300. 被引量：1
4刘莹,杨超宇.融合有向图的文本敏感词过滤模型[J].绥化学院学报,2022,42(2):143-148. 被引量：2
5孟卓鹏,吴继冰,刘丽华,王懋,邓苏,黄宏斌.基于混合相似度度量的跨语言舰船实体匹配算法[J].郑州大学学报（理学版）,2022,54(4):12-19.
6徐扬,张嘉宝,杨满玉,李晶,聂云丽.MFCCs和DTW在拼音相似度中的研究[J].电脑知识与技术,2022,18(14):1-4.
7谭天,邵洚宇,司峥鸣.论基于人工智能的网络语言治理[J].媒体融合新观察,2022(3):15-21. 被引量：5
8王华敏,黄梦醒,冯文龙,冯思玲.基于改进音形码与HowNet的中文词相似度检测算法[J].计算机仿真,2022,39(8):460-465. 被引量：5
9徐翀,魏冠元,王冠群,刘紫熹,王其清,张炎.基于知识图谱的电网科技评审专家推荐方法研究[J].青海电力,2022,41(3):67-72.
10沈东义,姬银秀,毛火明,郭林,袁秋霞.基于Word2vec和K-Means算法的勘探开发成果文档聚类研究[J].湖北大学学报（自然科学版）,2023,45(1):113-119.

1刘钊.高中英语教学中学生自主学习能力的培养[J].校园英语,2017,0(33):210-210. 被引量：1
2姜秀珍.刍议低段问句教学的几个问题——与田星老师商榷[J].教学月刊（小学版）（语文）,2017(3):58-59.
3赵胜辉,李吉月,徐碧,孙博研.基于TFIDF的社区问答系统问句相似度改进算法[J].北京理工大学学报,2017,37(9):982-985. 被引量：11
4朱雪梅,李石荣,李泽彬.基于RSSI分布重叠的WKNN室内定位方法[J].徐州工程学院学报（自然科学版）,2017,32(3):48-52. 被引量：5
5周博通,孙承杰,林磊,刘秉权.InsunKBQA:一个基于知识库的问答系统[J].智能计算机与应用,2017,7(5):150-154. 被引量：4
6王芳,王继荣,杨晓东,李军.基于中文文本的编辑距离算法的改进[J].青岛大学学报（自然科学版）,2017,30(3):60-63. 被引量：7
7顾玉梅.借助思维导图,学习观察、表达——《莫泊桑拜师》一课的教学[J].语文教学通讯（小学）（C）,2017(10):30-31.
8贾良.雕塑艺术在现代包装容器设计中的应用与发展[J].包装工程,2017,38(20):269-271. 被引量：2
9王金池,邓华锋,黄国胜,王雪军,张璐.天然云杉相容性生物量估算模型[J].应用生态学报,2017,28(10):3189-3196. 被引量：7
10孙启云,张思福.厄瓜多尔CCS项目施工机械现场应急处置[J].四川水力发电,2017,36(5):33-35.

重庆理工大学学报（自然科学）

2017年第10期

浏览历史

内容加载中请稍等...

基于公共词块及N-gram模型的问句相似度算法被引量：7

参考文献3

二级参考文献27

共引文献22

同被引文献68

引证文献7

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于公共词块及N-gram模型的问句相似度算法 被引量：7

参考文献3

二级参考文献27

共引文献22

同被引文献68

引证文献7

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于公共词块及N-gram模型的问句相似度算法被引量：7