基于隐主题马尔科夫模型的多特征自动文摘被引量：4

Summarization Based on Hidden Topic Markov Model with Multi-features

下载PDF

导出

摘要基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。 Based on hidden topic Markov model （HTMM）, the authors eliminate assumption limitation in LDA （latent dirichlet allocation） to exploit the structure information during generating summary, and use multi-features based on document content to improve the summary quality. Furthermore, a method for developing single-document summarization to multi-document summarization without breaking document structure is proposed, to achieve the perfect automatic summarization system. Meanwhile, experiment results on the standard dataset DUC2007 show the advantage of HTMM and multi-feature. Compared with the performace of LDA, ROUGE values are improved based on HTMM with multi-features.

作者刘江鸣徐金安张玉洁

机构地区北京交通大学计算机与信息技术学院

出处《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2014年第1期187-193,共7页 Acta Scientiarum Naturalium Universitatis Pekinensis

基金国家自然科学基金(61370130) 科技部国际科技合作计划(K11F100010) 中央高校基本科研业务费专项资金(2010JBZ2007) 中国科学院计算技术研究所智能信息处理重点实验室开放课题(IIP2010-4) 北京交通大学人才基金(2011RC034)资助

关键词隐主题马尔科夫模型多特征多文档自动文摘 hidden topic Markov model multi-features multi-document summarization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1刘挺,王开铸.自动文摘的四种主要方法[J].情报学报,1999,18(1):10-19. 被引量：55
2Arora R,Ravindran B. Latent dirichlet allocation based multi-document summarization[A].New York:ACM,2008.91-97.
3Gong Y,Liu X. Generic text summarization using relevance measure and latent semantic analysis[A].New orleans:ACM,2001.19-25.
4Bhandari H,Shimbo M,Ito T. Generic text summarization using probabilistic latent semantic indexing[A].Hyderabad,2008.133-140.
5Shen D,Sun J T,Li H. Document summarization using conditional random fields[A].Hyderabad,2007.2862-2867.
6王红玲,张明慧,周国栋.主题信息的中文多文档自动文摘系统[J].计算机工程与应用,2012,48(25):132-136. 被引量：5
7Titov I,McDonald R. A joint model of text and aspect ratings for sentiment summarization[A].Columbus,2008.308-316.
8Blei D M,Ng A Y,Jordan M I. Latent dirichlet allocation[J].{H}JOURNAL OF MACHINE LEARNING RESEARCH,2003.993-1022.
9徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236
10Boyd-Graber J,Blei D M. Syntactic topic models[A].Bangkok,2009.1-8.

二级参考文献146

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
3莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
4秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
5李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
6王萌,李春贵,唐培和,王晓荣.一种主题句发现的中文自动文摘研究[J].计算机工程,2007,33(8):180-181. 被引量：8
7HP Luhn. The Automatic Creation of Literature Abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
8D.R. Radev, E. Hovy and K. McKeown. Introduction to the Special Issue on Summarization[J]. Computational Linguistics, 2002, 28(4): 399-408.
9Xiaofeng Wu, Chengqing Zong. A New Approach to Automatic Document Summarization[C]//International Joint Conference of Natural Language Processing, 2008: 126-132.
10J.Y. Yeh, H.R. Ke, W.P. Yang, andI. H. Meng. Text summarization using trainable summarizer and latent semantic analysis[J]. IPM, 2005, 41(1): 75-95.

共引文献361

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
3郭庆琳,樊孝忠.基于文本聚类和NLU的自动文摘系统的研究与实现[J].现代电力,2004,21(4):76-80. 被引量：1
4金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
5王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
6郭庆琳,樊孝忠,柳长安.文本聚类在自动文摘中的应用研究[J].计算机应用,2005,25(5):1036-1038. 被引量：4
7郭庆琳,樊孝忠,柳长安.基于文本聚类和NLU的自动文摘研究[J].北京理工大学学报,2005,25(8):705-709. 被引量：1
8尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13
9董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应用[J].情报科学,2006,24(2):267-269. 被引量：2
10郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8

同被引文献82

1SHI Hui,WANG Tiexin.A Hybrid Method of Extractive Text Summarization Based on Deep Learning and Graph Ranking Algorithms[J].Transactions of Nanjing University of Aeronautics and Astronautics,2022,39(S01):158-165. 被引量：1
2Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
3Mani I, Maybury M T. Advances in automatic text summarization[M]. Cambridge: MIT Press, 1999.
4Mani I, Bloedorn E. Machine learning of generic and user-focused summarization[C]//Proceedings of the Fifteenth National Conference on Artificial Intelligence.Reston VA:AAAI Press, 1998: 821-826.
5Mitchell T M. Machine learning[M]. Burr Ridge: McGraw Hill, 1997:45.
6Jones K S. Automatic summarizing:Factors and directions[C]//Advances in Automatic Text Summarization. Cambridge: MIT Press,1999:1-12.
7Hovy E, Marcu D. Automated text summarization[C]//The Oxford Handbook of Computational Linguistics. USA: Oxford University Press,2005:583-598.
8Baxendale P B. Machine-made index for technical literature:An experiment[J]. IBM Journal of Research and Development, 1958, 2(4): 354-361.
9Edmundson H P. New methods in automatic extracting[J]. Journal of the ACM (JACM), 1969, 16(2): 264-285.
10Ramezania M, Feizi-Derakhshi M. Automated text summarization:An overview[J]. Applied Artificial Intelligence:An International Journal,2014, 28(2):178-215.

引证文献4

1曹洋,成颖,裴雷.基于机器学习的自动文摘研究综述[J].图书情报工作,2014,58(18):122-130. 被引量：16
2谭红叶,赵红红,李茹.面向阅读理解复杂问题的句子融合[J].中文信息学报,2017,31(1):8-16. 被引量：3
3刘海静.机器阅读理解软件中答案相关句的抽取算法研究[J].软件工程,2017,20(10):14-16.
4李珍辉,贾任远,扈菲宇,孙嘉琦.基于BART模型的风电技术文献摘要生成算法[J].湖南工程学院学报（自然科学版）,2023,33(4):48-53.

二级引证文献19

1王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
2卢玲,杨武,曹琼.基于多重映射的自动短文摘方法[J].计算机应用,2016,36(2):432-436.
3朱明峰,叶施仁,叶仁明.基于Lex-PageRank的微博摘要优化方法[J].计算机科学,2016,43(9):261-265. 被引量：1
4刘一波.基于多重映射的自动中文短文摘提取方法[J].电子技术与软件工程,2016(20):177-178.
5赖清楠,陈诗洋,马皓,张蓓.基于机器学习的批量网页篡改检测方法[J].华中科技大学学报（自然科学版）,2016,44(11):16-20. 被引量：3
6白淑霞,鲍玉来,张晖.基于词向量包的自动文摘方法[J].现代情报,2017,37(2):8-13. 被引量：5
7张晗,赵玉虹.基于语义图的医学多文档摘要提取模型构建[J].图书情报工作,2017,61(8):112-119. 被引量：11
8王琦,余胜泉.作业社会化批阅工具的设计、开发与评估[J].开放教育研究,2017,23(3):96-104. 被引量：1
9赵美玲,刘胜全,刘艳,郭竹为,符贤哲.基于改进K-means聚类与图模型相结合的多文本自动文摘研究[J].现代计算机（中旬刊）,2017(6):26-30. 被引量：3
10郭正斌,张仰森,蒋玉茹.一种面向文本分类的特征向量优化方法[J].计算机应用研究,2017,34(8):2299-2302. 被引量：13

1胡琪,邹细勇.基于MapReduce的多文档自动文摘的设计与实现[J].计算机工程与应用,2011,47(35):67-70.
2龚万红.快速提取文章结构[J].考试（高考英语）,2010(2):19-21.
3任纪生,张弛,王作英.一种基于词序信息的自动文摘方法[J].计算机工程与设计,2007,28(1):178-181. 被引量：3
4郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
5郭庆琳,樊孝忠.基于文本聚类和NLU的自动文摘系统的研究与实现[J].现代电力,2004,21(4):76-80. 被引量：1
6王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
7胡舜耕,刘晓宇,钟义信,王克宏.面向自动文摘的多Agent系统中的协调算法研究[J].计算机研究与发展,2001,38(11):1302-1309. 被引量：3
8格式要求[J].铁路计算机应用,2012,21(12):67-67.
9胡舜耕,刘晓宇,钟义信.基于多Agent技术的自动文摘系统的研究和设计[J].电子学报,2001,29(2):247-249. 被引量：4
10吴东花.巧打骨架婀娜无瑕——结构出新的方法[J].现代中学生（阅读与写作）,2009(9):19-21.

北京大学学报（自然科学版）

2014年第1期

浏览历史

内容加载中请稍等...

基于隐主题马尔科夫模型的多特征自动文摘被引量：4

参考文献20

二级参考文献146

共引文献361

同被引文献82

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于隐主题马尔科夫模型的多特征自动文摘 被引量：4

参考文献20

二级参考文献146

共引文献361

同被引文献82

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于隐主题马尔科夫模型的多特征自动文摘被引量：4