基于MapReduce的多文档自动文摘的设计与实现

Design and implementation of multi-document automatic summarization using MapReduce

下载PDF

导出

摘要多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。 Multi-document summarization is a technology of natural languages processing, which extracts important information from multiple texts about same topic according to ratio of compression.It can execute data mining of Intemet information from the global perspective.In the face of rapid growth of network resources, how to process automatic text summarization accurately and efficiently from mass data source is a main challenge in multi-document summarization.MapReduce is a distributed and parallel computing method recommend by Google which can be deployed in cluster of any ordinary commercial computers.It can coordinate compute tasks of each computer in cluster, take full advantage of the processing power of computer cluster and analyze mass data efficiently.This paper presents an effective experimental model, which implements multi-document automatic summarization technology with MapReduce,which is a distributed and parallel framework.The re- suits show that MapReduce can effectively improve the performance in the processing of extracting abstracts in the premise of the quality of summarization.

作者胡琪邹细勇

机构地区中国计量学院光学与电子科技学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第35期67-70,共4页 Computer Engineering and Applications

基金国家自然科学基金(No.50905170 No.61007012)~~

关键词多文档自动文摘 MAPREDUCE 并行计算 multi-document automatic summarization MapReduce parallel computing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1索红光,梁玉环,刘玉树.基于时间戳的多文档自动文摘[J].计算机工程,2007,33(16):164-165. 被引量：3
2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
3Luhn H EThe automatic creation of literature abstracts[J].IBM Journal of Research and Development, 1958,2(2) : 159-165.
4Dean J, Ghemawat S.MapReduce: simplified data processing on large clusters[C]//Proc of the 6th Symposium on Operating Systems Design and Implementation.San Francisco:Google Inc,2004.
5Ghemawat S,Gobioff H,Leung S T.The Google file system[C]// Proceedings of the 19th ACM Symposium on Operating Systems Principles, Bolton Landing, ACM, 2003 : 29-43.
6Chang F, Dean J, Ghemawat S, et al.Bigtable: a distributed structured data storage system[C]//7th OSDI,2006:305-314.
7刘挺,王开铸.自动文摘的四种主要方法[J].情报学报,1999,18(1):10-19. 被引量：55
8Hori Carla E, Permana Haryani, Simon K Y, et al. Thermal stability of oxygen storage properties in a mixed CeO2-ZrO2 system [J]. Applied Catalysis B: Environ, 1999, 16: 105.
9哈罗德.博科,查尔斯.L.贝尼埃.文摘的概念与方法[M].北京:书目文献出版社,1991.
10Radev D R, Jing Hongyan, Stys M, et al.Centroid-based sm-camrizafien of multiple doeuments[J].Informafion Processing and Management, 2004,40: 919-938.

二级参考文献49

1苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
2莫燕,王永成.中文文献摘要的自动编制[J].现代图书情报技术,1993(3):10-12. 被引量：15
3秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
4李明.从字频统计出发的中文文摘自动编写[J].现代图书情报技术,1996(3):42-45. 被引量：20
5Salton,G.& Buckley,C. Term-weighting approach es in automatic text retrieval.Information Processing & Management, 1988,24(5):513-523.
6Jeffrey Dean,Sanjay Ghemawat. MapReduce:Sim plified Data Processing on Large Clusters.OSDI, 2004.
7Jimmy Lin,Chris Dyer.Data-Intensive Text Proces sing with MapReduce.2009.
8穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议论文集(ICCIP''98)[C].北京:清华大学出版社,1998.458-465.
9杨晓兰，全国第四届计算语言学联合学术会议论文集，1997年，313页
10刘挺，情报学报，1997年，16卷，增刊，24页

共引文献104

1刘茂福,李淑君,金可佳,张晓龙.多文档自动文摘中的特征组合优化[J].计算机系统应用,2008,17(8):59-63. 被引量：3
2郭庆琳,樊孝忠.基于文本聚类和NLU的自动文摘系统的研究与实现[J].现代电力,2004,21(4):76-80. 被引量：1
3金旭,杨炳儒,菅志刚.自动文摘方法分析[J].计算机应用研究,2004,21(9):5-6. 被引量：8
4王志琪,王永成,刘传汉.论自动文摘及其分类[J].情报学报,2005,24(2):214-221. 被引量：2
5郭庆琳,樊孝忠,柳长安.文本聚类在自动文摘中的应用研究[J].计算机应用,2005,25(5):1036-1038. 被引量：4
6郭庆琳,樊孝忠,柳长安.基于文本聚类和NLU的自动文摘研究[J].北京理工大学学报,2005,25(8):705-709. 被引量：1
7尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13
8董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应用[J].情报科学,2006,24(2):267-269. 被引量：2
9郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8
10于海滨,秦兵,刘挺,郎君.命名实体识别和指代消解在文摘系统中的应用[J].计算机应用研究,2006,23(4):180-182. 被引量：7

1刘江鸣,徐金安,张玉洁.基于隐主题马尔科夫模型的多特征自动文摘[J].北京大学学报（自然科学版）,2014,50(1):187-193. 被引量：4
2任纪生,张弛,王作英.一种基于词序信息的自动文摘方法[J].计算机工程与设计,2007,28(1):178-181. 被引量：3
3郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
4郭庆琳,樊孝忠.基于文本聚类和NLU的自动文摘系统的研究与实现[J].现代电力,2004,21(4):76-80. 被引量：1
5王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
6胡舜耕,刘晓宇,钟义信,王克宏.面向自动文摘的多Agent系统中的协调算法研究[J].计算机研究与发展,2001,38(11):1302-1309. 被引量：3
7胡舜耕,刘晓宇,钟义信.基于多Agent技术的自动文摘系统的研究和设计[J].电子学报,2001,29(2):247-249. 被引量：4
8龚书,瞿有利,田盛丰.基于维基语义的多文档文摘研究[J].南京大学学报（自然科学版）,2011,47(4):398-406. 被引量：2
9陈戈,段建勇,陆汝占.基于潜在语义索引和句子聚类的中文自动文摘[J].计算机仿真,2008,25(7):82-85. 被引量：5
10管鹏玲,刘贵全.基于词汇链分析的英文自动文摘[J].计算机系统应用,2007,16(9):68-72. 被引量：3

计算机工程与应用

2011年第35期

浏览历史

内容加载中请稍等...

基于MapReduce的多文档自动文摘的设计与实现

参考文献14

二级参考文献49

共引文献104

相关作者

相关机构

相关主题

浏览历史