基于潜在语义分析的汉语问答系统答案提取被引量：44

Answer Extracting for Chinese Question-Answering System Based on Latent Semantic Analysis

下载PDF

导出

摘要为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词-句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果. When extracting answers in Chinese question-answering system, synonymy will cause to lose several correct answers, and polysemy will cause to extract wrong answers. In order to solve these problems, this paper proposes a method to calculate similarity between question and sentence based on Latent Semantic Analysis （LSA）. This method represents the question and sentence with space vector model, statistically analyzes the abundant question-answering sentence pair corpus with the help of latent semantic analysis theory, and constructs a latent word-sentence semantic space, which gets rids of the correlativity between word. And then similarity calculation between question and sentence is implemented in this semantic space. So the question of synonymy and polysemy is solved effectively. Finally, combining question type and similarity between question and sentence, the experiment on extracting sentence as answer for Chinese factoid question is done. The MRR value with LSA is 0.47, which is better than VSM obviously. The results show that this method makes a very better effect.

作者余正涛樊孝忠郭剑毅耿增民

机构地区昆明理工大学信息工程与自动化学院北京理工大学计算机科学工程系

出处《计算机学报》 EI CSCD 北大核心 2006年第10期1889-1893,共5页 Chinese Journal of Computers

基金教育部博士点基金(20050007023) 国家自然科学基金(60663004) 云南省信息技术基金(2002IT03)资助.

关键词问答系统答案提取相似度向量空间模型潜在语义分析 question-answering system answer extracting similarity Vector Space Model （VSM） Latent Semantic Analysis （LSA）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1郑实福,刘挺,秦兵,李生.自动问答综述[J].中文信息学报,2002,16(6):46-52. 被引量：165
2Voorhees E.,Tice D..The TREC-8 question answering track evaluation.In:Proceedings of the 8th Text REtrieval Conference (TREC-8),NIST,Maryland,USA,1999,83～105
3张永奎,赵辄谦,白丽君,陈鑫卿.基于互联网的中文问答系统[J].计算机工程,2003,29(15):84-85. 被引量：9
4崔桓,蔡东风,苗雪雷.基于网络的中文问答系统及信息抽取算法研究[J].中文信息学报,2004,18(3):24-31. 被引量：46
5Landauer T.K.,Foltz P.W.,Laham D..Introduction to latent semantic analysis.Discourse Processes,1998,27(25):259～284
6Deerwester S.,Dumais S.T.A..Indexing by latent semantic analysis.Journal of the Society for Information Science,1990,41(6):391～407
7盖杰,王怡,武港山.基于潜在语义分析的信息检索[J].计算机工程,2004,30(2):58-60. 被引量：29
8刘昌钰,唐常杰,于中华,杜永萍,郭颖.基于潜在语义分析的BBS文档Bayes鉴别器[J].计算机学报,2004,27(4):566-572. 被引量：17
9林鸿飞.基于示例的文本标题分类机制[J].计算机研究与发展,2001,38(9):1132-1136. 被引量：17
10林鸿飞,高仁璟.基于潜在语义索引的文本摘要方法[J].大连理工大学学报,2001,41(6):744-748. 被引量：17

二级参考文献50

1梅家驹.同义词词林[M].上海:上海辞书出版社,1989..
2陈磊.基于HNC语义分析的中文标题分类方法.计算语言学文集[M].北京:清华大学出版社,1999.371-375.
3战学钢姚天顺.基于汉语分析的中文标题分类方法.中文信息处理国际会议论文集[M].北京:清华大学出版社,1998.321-324.
4－.中国分类主题词表，分类号－主题词对应表，第一卷[M].北京:华艺出版社,1994..
5－.中国分类主题词表，主题词－分类号对应表，第二卷[M].北京:华艺出版社,1994..
6[8]Ulf Hermjakob. Parsing and Question Classification for Question Answering. Proceeding of the workshop on Open-Domain Question Answering at ACL-2001
7[9]Eugene Agichtein, Steve Lawrence, Luis Gravano. Learning Search Engine Specific Query Transformations for Question Answering. ACM 2001,169- 178
8[10]Soo-Min Kim, ae-Ho Baek, Sang-Beom Kim, Hae-Chang Rim Question Answering Considering Semantic Categories and Co-occurrence Density. Proceedings of the night Text Retrieval Conference (TREC-9)
9[11]Marius Pasca, Sanda Harabagiu. High-Performance Question/Answering. 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval ( Sigir-01 ). New Orleans, LA. September 9 - 13,2001
10[1]Ittycheriah,M. Franz,W-J Zhu,A. Ratnaparkhi. IBM's Statistical Question Answering System. Proceedings of the night Text Retrieval Conference (TREC-9)

共引文献269

1罗洋.自动文摘抽取的研究[J].科技信息,2009(1). 被引量：1
2张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
3郑佳谦,徐隽,姚静,牛军钰.论坛社区用户时空特征建模与挖掘[J].计算机研究与发展,2007,44(z3):7-12. 被引量：1
4邹疆,白明亮,张玉华,陈玲,孙亚萍,丁怀东.中国书画文物修复装裱知识系统构筑及实现[J].云南大学学报（自然科学版）,2009,31(S1):27-30.
5王婧.基于自动问答技术的智能文本机器人[J].科技创业家,2013(8):11-11. 被引量：1
6王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
7陈康,武港山.基于Ontology的信息检索技术研究[J].中文信息学报,2005,19(2):51-57. 被引量：29
8盛秋艳.基于Internet的自动问答系统研究[J].现代情报,2005,25(4):81-82. 被引量：2
9郭庆琳,樊孝忠,柳长安.文本聚类在自动文摘中的应用研究[J].计算机应用,2005,25(5):1036-1038. 被引量：4
10吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48

同被引文献439

1张兆滨,王素格,陈鑫,赵琳玲,王典.阅读理解中观点类问题的扩展研究[J].中文信息学报,2020(6):89-96. 被引量：2
2刘辉,江千军,桂前进,张祺,王梓豫,王磊,王京景.实体关系抽取技术研究进展综述[J].计算机应用研究,2020,37(S02):1-5. 被引量：25
3冯硕.TikTok被禁中的数据博弈与法律回应[J].东方法学,2021(1):74-89. 被引量：38
4叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
6刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
7曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
8王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
9赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
10余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6

引证文献44

1陈明晶.潜在语义分析方法在主观题评判中的应用[J].浙江科技学院学报,2007,19(2):93-96. 被引量：2
2孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
3刘建强.“机设基础”精品课程智能答疑系统研究与设计[J].西安航空技术高等专科学校学报,2008,26(3):77-80. 被引量：1
4魏保子,王儒敬.隐含语义索引在农业技术问答系统中的应用[J].微电子学与计算机,2008,25(7):48-51. 被引量：1
5张孝国,黄广君,曹利红,郭洪涛.基于潜在语义分析的Web服务筛选技术[J].计算机工程,2008,34(15):39-41. 被引量：1
6乌庆敏,杨思春.基于潜在语义分析的智能答疑系统研究与实现[J].计算机技术与发展,2008,18(9):251-252. 被引量：2
7吴飞,吴兵,申志斌.新一代网络教学平台特征和技术难点的分析与探讨[J].开放教育研究,2009,15(1):10-20. 被引量：23
8王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
9蔡月红,朱倩,程显毅,杨天明.基于句义三维模型的汉语句子相似度计算[J].广西师范大学学报（自然科学版）,2009,27(1):153-156.
10曾广平.贝叶斯概率LSA模型权重更新算法[J].计算机工程与应用,2009,45(21):88-90. 被引量：1

二级引证文献223

1陈田,黄泓毓,杨东升,董淑婷.基于相互学习和SoftLexicon的中文命名实体识别模型[J].计算机应用,2023,43(S01):61-66.
2晏丽.线上线下混合教学模式在电大教学中的实践[J].吉林广播电视大学学报,2020(12):64-65. 被引量：3
3闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：3
4彭义春,张捷,覃左仕.基于随机森林算法的职位薪资预测[J].智能计算机与应用,2021,11(10):67-72. 被引量：3
5关丽红.基于特定数学模型的语义抽取研究[J].白城师范学院学报,2012,26(3):11-13.
6吴振慧,缪勇.基于频繁项集的资源推荐技术在网络教学平台中的应用研究[J].扬州职业大学学报,2014,18(1):52-55.
7李佳瑾,欧伟杰,曾承,刘波,马景燕,袁睿智,彭智勇.个性化按需服务管理系统[J].计算机研究与发展,2011,48(S3):425-429.
8韩小强.浅议网络教育平台存在的问题及改进策略[J].科技经济市场,2009(7):151-152. 被引量：7
9张伟,陈琳.面向教师专业发展的网络教研支持服务探讨[J].继续教育研究,2010(3):94-96. 被引量：16
10戴德宝.三合一模式教学平台分析与实现[J].电脑知识与技术,2010,6(1):135-136.

1大江东去.巧替换,选择题答案快速提取[J].电脑迷,2014(3):86-86.
2余正涛,樊孝忠,宋丽哲,高盛祥.汉语问答系统答案提取方法研究[J].计算机工程,2006,32(3):183-185. 被引量：8
3付弦.基于问题库的自动问答智能控制系统研究[J].信息通信,2016,29(2):4-5. 被引量：1
4乌庆敏,杨思春.基于潜在语义分析的智能答疑系统研究与实现[J].计算机技术与发展,2008,18(9):251-252. 被引量：2
5李欢,刘倩,张英.基于元搜索的信息检索模块的研究和实现[J].计算机系统应用,2011,20(5):167-169.
6吴友政,赵军,徐波.基于主题语言模型的句子检索算法[J].计算机研究与发展,2007,44(2):288-295. 被引量：8
7受限域汉语问答系统普适性理论与方法研究[J].中国科技奖励,2016,0(7):60-60.
8邢雪峰,艾丽蓉.中文阅读理解系统的研究与实现[J].科学技术与工程,2008,8(3):672-675.
9张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
10毛存礼,余正涛,韩露,郭剑毅,李丽娜,雷雄丽.领域问答系统答案提取方法研究[J].烟台大学学报（自然科学与工程版）,2009,22(3):212-216.

计算机学报

2006年第10期

浏览历史

内容加载中请稍等...

基于潜在语义分析的汉语问答系统答案提取被引量：44

参考文献10

二级参考文献50

共引文献269

同被引文献439

引证文献44

二级引证文献223

相关作者

相关机构

相关主题

浏览历史

基于潜在语义分析的汉语问答系统答案提取 被引量：44

参考文献10

二级参考文献50

共引文献269

同被引文献439

引证文献44

二级引证文献223

相关作者

相关机构

相关主题

浏览历史

基于潜在语义分析的汉语问答系统答案提取被引量：44