基于句群的自动文摘方法被引量：2

Automatic abstract method based on Chinese sentence grouping

下载PDF

导出

摘要针对目前多数基于句子或段落作为处理单元的自动文摘方法,提出一种基于句群的自动文摘方法。该方法引用了一种基于多元判别分析(MDA)的汉语句群自动划分理论,通过获得句间语义更好的句群作为自动文摘的处理粒度,在此基础上使用潜在狄利克雷分配(LDA)主题模型将文本表示成向量矩阵,再使用k-means算法对向量进行聚类,然后按照一定比例从聚类后的类别中抽取生成文摘,最后采用Kappa检验和肯德尔相关系数评价摘要的质量。实验结果表明该方法得到的整体Kappa值达到了0.7、肯德尔相关系大于0.8,两个评价指标结果都高于各自较好等级的评价值,因此以句群作为处理粒度的自动文摘方法较传统的以句子作为处理粒度的方法能生成质量更好的文摘。 At present,sentence or paragraph is considered as a processing unit in most automatic abstracting models.In this paper,an automatic abstracting method was proposed based on sentence grouping.This method adopted an automatic Chinese sentence grouping theory based on MDA（ Multiple discriminant Analysis）.The obtained sentences groups contained better semantic information which was more suitable as a processing unit in automatic abstracting.At the same time,one text was represented as a vector matrix by using the LDA（ Latent dirichlet Allocation） topic model and clustering operation was processed using k-means algorithm.Then the candidate abstract was generated from clustered results according to some proportions.Finally the obtained abstract was evaluated by Kappa statistics and Kendall related coefficient.The experimental results show that the overall Kappa value reaches 0.7 and the Kendall related coefficient is more than 0.8,which are all higher than those of the respective good grades.So the automatic abstracting based on sentence grouping can generate better results compared with the traditional methods which consider sentence as processing granularity.

作者王荣波张璐瑶李杰黄孝喜周昌乐

机构地区杭州电子科技大学认知与智能计算研究所厦门大学智能科学与技术系

出处《计算机应用》 CSCD 北大核心 2016年第A01期58-62,71,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61202281 61103101) 教育部人文社会科学研究项目青年基金资助项目(10YJCZH052 12YJCZH201)

关键词自动文摘句群主题模型聚类 automatic abstracting sentence grouping topic model clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1GONG Y, LIU X. Generic text summarization using relevance measure and latent semantic analysis[ C]// Proceedings of the 24th Annual In- ternational ACM SIGIR Conference on Research and Development in In- formation Retrieval. New York: ACM Press, 2001:19-25.
2杨晓兰,钟义信.基于文本理解的自动文摘系统研究与实现[J].电子学报,1998,26(7):155-158. 被引量：17
3王荣波,李杰,黄孝喜,周昌乐,谌志群,王小华.基于多元判别分析的汉语句群自动划分方法[J].计算机应用,2015,35(5):1314-1319. 被引量：4
4MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [ C]// Neural Information Processing Systems 26. Cambridge: MIT Press, 2013:3111 -3119.
5MIKOLOV T, SUTSKEVER I, CHEN K, et al. Efficient estimation of word representations in vector space[ J]. Eprint Arxiv, 2013, 26: 3111 -3119.
6LUHN H P. The automatic creation of literature abstracts[ J]. IBM Journal of Research Development, 1958, 2(2) : 159 -165.
7MATHIS B A, RUSH J E. Abstracting encyclopedia of computer and technology[M]. New York: Marcel Dekker Inc., 1975,1: 102-142.
8刘德荣 ,王永成 ,刘传汉 .基于主题概念的多文档自动摘要研究[J].情报学报,2005,24(1):69-74. 被引量：7
9RAU L F, JACOBS P S, ZERNIK U. Information extraction and text summarization using linguistic knowledge acquisition [ J]. Information Processing & Management, 1989, 25(4):419 -428.
10WU L, WEI X. Fudan abstract system of Chinese text[J]. Communications of COLIPS, 1996, 6(1) : 35 -39.

二级参考文献99

1王跃洪.英语句群分析[J].上海理工大学学报（社会科学版）,2004,26(2):30-32. 被引量：6
2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
3傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
4李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
5罗天妮.论以句群为汉英翻译的有效基本单位[J].东南大学学报（哲学社会科学版）,2006,8(3):110-113. 被引量：3
6朱靖波,叶娜,罗海涛.基于多元判别分析的文本分割模型[J].软件学报,2007,18(3):555-564. 被引量：15
7吴晨,张全.自然语言处理中句群划分及其判定规则研究[J].计算机工程,2007,33(4):157-159. 被引量：7
8HP Luhn. The Automatic Creation of Literature Abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
9D.R. Radev, E. Hovy and K. McKeown. Introduction to the Special Issue on Summarization[J]. Computational Linguistics, 2002, 28(4): 399-408.
10Xiaofeng Wu, Chengqing Zong. A New Approach to Automatic Document Summarization[C]//International Joint Conference of Natural Language Processing, 2008: 126-132.

共引文献1146

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献16

1徐永东,徐志明,王晓龙.基于信息融合的多文档自动文摘技术[J].计算机学报,2007,30(11):2048-2054. 被引量：27
2蒋效宇,樊孝忠,陈康.用于多文档文摘句排序的改进MO算法[J].华南理工大学学报（自然科学版）,2008,36(9):43-47. 被引量：2
3彭星源,柯登峰,赵知,陈振标,徐波.基于词汇评分的汉语作文自动评分[J].中文信息学报,2012,26(2):102-108. 被引量：8
4姚双云,胡金柱,舒江波,沈威.篇章连贯语义关系的自动标注方法[J].计算机工程,2012,38(7):131-133. 被引量：5
5李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：47
6孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
7万常选,江腾蛟,钟敏娟,边海容.基于词性标注和依存句法的Web金融信息情感计算[J].计算机研究与发展,2013,50(12):2554-2569. 被引量：17
8汤皖宁,王明文,万剑怡.基于文档团的Markov网络检索模型[J].计算机研究与发展,2014,51(10):2248-2254. 被引量：3
9石佼,李茹,王智强.汉语核心框架语义分析[J].中文信息学报,2014,28(6):48-55. 被引量：6
10黄贤英,张金鹏,刘英涛,赵明军.基于词项语义映射的短文本相似度算法[J].计算机工程与设计,2015,36(6):1514-1518. 被引量：11

引证文献2

1王景中,杨彬彬,何云华.基于多谓词语义框架的长短语文本相似度计算[J].计算机工程与设计,2018,39(4):1022-1028. 被引量：3
2杨正祥,刘杰,袁克柔,周建设.作文段落句间逻辑合理性等级评测[J].计算机应用与软件,2019,36(9):175-180. 被引量：2

二级引证文献5

1徐智威.基于《知网》的词语相似度计算算法研究[J].包装世界,2018,0(4):101-102.
2翟社平,李兆兆,段宏宇,李婧,董迪迪.多特征融合的句子语义相似度计算方法[J].计算机工程与设计,2019,40(10):2867-2873. 被引量：14
3曹春萍,武婷.多主题下基于LSTM语义关联的长文本过滤研究[J].计算机技术与发展,2019,29(11):1-6. 被引量：3
4宋超,任鸽,宋银忠,柳骏杰,杨勇.基于标签嵌入的作文自动评分方法[J].信息技术,2024,48(4):28-35.
5袁航,杨勇,任鸽,帕力旦·吐尔逊.基于语义特征融合的作文自动评分方法[J].计算机与现代化,2024(6):8-13.

1陈鹏.并行遗传算法初始种群划分建模与设计[J].计算机工程与应用,2004,40(7):78-79. 被引量：1
2王荣波,李杰,黄孝喜,周昌乐,谌志群,王小华.基于多元判别分析的汉语句群自动划分方法[J].计算机应用,2015,35(5):1314-1319. 被引量：4
3薛树辉,车路,陈挺.企业IMS解决方案分析[J].科技创新与应用,2014,4(27):75-75. 被引量：1
4孙伟艳,黄金杰.一种基于相关分析的特征选择方法[J].哈尔滨理工大学学报,2009,14(A01):18-20.
5杨希,刘晓升,杨璐,严建峰.基于共享内存的并行LDA算法[J].计算机应用与软件,2016,33(3):252-254.
6李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
7黄伟.基于连续肯德尔相关系数学习相似度函数的图像检索方法[J].江西师范大学学报（自然科学版）,2013,37(3):263-267. 被引量：3
8赵辉,王振夺.基于OpenMP的任务调度与负载均衡技术的分析与研究[J].福建电脑,2013,29(4):16-17.
9高阳,严建峰,刘晓升.朴素并行LDA[J].计算机科学,2015,42(6):243-246. 被引量：8
10何甜,解建军.基于LDA主题模型的评价对象抽取[J].电脑与信息技术,2017,25(2):11-13.

计算机应用

2016年第A01期

浏览历史

内容加载中请稍等...

基于句群的自动文摘方法被引量：2

参考文献22

二级参考文献99

共引文献1146

同被引文献16

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于句群的自动文摘方法 被引量：2

参考文献22

二级参考文献99

共引文献1146

同被引文献16

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于句群的自动文摘方法被引量：2