融合句义结构模型的微博话题摘要算法被引量：5

Microblog topics summarization algorithm merging sentential semantic structure model

下载PDF

导出

摘要为了更快地从海量微博中获取话题的核心内容,提出融合句义结构模型的微博话题摘要方法.该方法利用句义结构模型抽取句子的语义格得到句子的语义特征,并基于LDA主题模型使用句义结构计算句子两两之间的语义相似度构建相似度矩阵,划分子主题类,得到句子的关联特征.融合句子的语义特征和关联特征,选取子主题内信息量最大的句子作为摘要结果.当压缩比为0.5%、1.0%和1.5%时,ROUGE值均明显优于对比系统.当压缩比为1.5%时,ROUGE-1值达到51.30%,ROUGE-SU*达到25.27%.实验结果表明:融合句义结构模型的分析方法能够深化句子的语义分析层次,提取的句义特征增强了语义信息的表达能力.综合考虑句子语义特征和关联特征的句子权重计算方法能够丰富句子的特征表示,减少语义信息丢失,使同类数据的语义相关性增强,有效降低了噪声的影响,从而提升摘要与话题的相关度.此外,所提出的方法处理不同话题的泛化能力较好,适用范围较广. A new microblog summarization framework based on sentential semantic structure model was proposed in order to provide concise summarization to help users quickly grasp the essence of topics. Sentential semantic features were extracted by sentential semantic structure model. I.atent Dirichlet allocation （LDA） topic model was used to calculate the pairwise sentence similarities and construct the similarity matrix based on sentential semantic structure. Sentences were clustered into several subtopics and the sentential relationship features were obtained. The most informative sentences were extracted from each subtopic through combining both sentential semantic features and relationship features. As a result, the value of ROUGE outperforms the contrast algorithms when the the compress ratio was 0.5 %, 1.0 and 1. 5%. The value of ROUGE-1 was 51. 30%, while that of ROUGE-SU＊ was 25. 27% when the compress ratio was 1.5%. Results indicate that the method that introduces sentential semantic structure model can better understand sentential semantic, and the extracted semantic features can highlight the description power of sentential semantic. Meanwhile, using both sentential semantic features and relationship features can enrich the features representation and reduce information loss, increasing the semantic relevance of similar data. Moreover, the impact of noise can he reduced. Besides, the proposed method has excellent generalization ability and can be applied to various topics.

作者林萌罗森林贾丛飞韩磊原玉娇潘丽敏

机构地区北京理工大学信息与电子学院

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2015年第12期2316-2325,共10页 Journal of Zhejiang University：Engineering Science

基金国家"242"信息安全计划资助项目(2005C48) 北京理工大学科技创新计划重大项目培育专项资助项目(2011CX01015)

关键词微博话题摘要句义结构模型自然语言处理 microblog topic summarization sentential semantic structure model natural languageprocessing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献28

1Wikipedia. Sina Weibo [EB/OL]. (2014- 11- 10)[2015- 10-20]. https ://en. wikipedia, org/wiki/Sina Weibo.
2HE Y, SU W, TIAN Y, et al. Summarizing microblogs on network hot topics [C] // Proceedings of the 2011 In- ternational Conference on lnternet Technology and Appli- cations (iTAP 2011). New York: Piscataway, 2011: 1-4.
3LONG R, WANG H F, CHEN Y Q, et al. Towards effective event detection, tracking and summarization on rnicroblog data [M] // Web-Age Information Manage- ment. Berlin: Springer, 2011:652-663.
4WII.LIAN H, ZHANG Y. Threshold and associative based classification for social spam profile detection on Twitter [C] // 2013 9th International Conference on Semantics, Knowledge and Grids (SKG). New York: Piscataway, 2013: 113-120.
5VANDERWENDE L, SUZUKI H, BROCKETT C, et al. Beyond SumBasic: task focused summarization with sentence simplification and lexical expansion [J]. Infor- mation Processing and Management, 2007, 43 ( 6 ): 1606 - 1618.
6RADEV D R, JINC- H, STYS M, et al. Centroid--based summarization of multiple documents [J]. Information Processing and Management, 2004, 40(6) : 919 - 938.
7SINGH M, KHAN F U. Effect of incremental EM on document summarization using probabilistic latent se mantic analysis [C] // Proceedings of the World Congress on Engineering (WCE 2012). Hong Kong: Newswood I.imited, 2012: 2198.
8GAO D, LI W, OUYANG Y, et al. l.DA-based topic formation and topic-sentence reinforcement for graph- based multi-document summarization [ M] // Informa- tion Retrieval Technology. Berlin: Springer, 2012: 376 -385.
9ARORA R, RAVINDRAN B. Latent dirichlet allocation based multi-document summarization [C] // Proceedings of the 2nd Workshop on Analytics for Noisy Unstructured Text Data. Singapore: ACM, 2008:91-97.
10BINTI ZAHRI N A H, FUKUMOTO F, MATSUY OSHI S. Link analysis based on rhetorical relations for multi document summarization [J]. IEICE Transactions on Information and Systems, 2013, 96(5) :1182 - 1191.

二级参考文献16

1陈立民.汉语的时态和时态成分[J].语言研究,2002,22(3):14-31. 被引量：50
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
3刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
4周强.汉语基本块描述体系[J].中文信息学报,2007,21(3):21-27. 被引量：25
5周强.汉语语料库的短语自动划分和标注研究[D].北京:北京大学,2002.
6刘开瑛,由丽萍.汉语框架语义知识库构建工程[C].中国中文信息学会成立二十五周年学术会议论文集,2006,11:64-71.
7贾彦德.汉语语义学[M].北京:北京大学出版社,2005:117-130.
8Palmer M, Gildea D, Kingsbury P. The proposition bank: an annotated corpus of semantic roles[J]. Com- putational Linguistics, 2005,31 ( 1 ) : 71 - 105.
9龚千言.汉语的时相时制时态[M].北京:商务印书馆,1995.
10Gildea D, Jurafsky D. Automatic labeling of semantic roles[J]. Compute Linguist, 2002,28 (3): 245 - 288.

共引文献15

1罗森林,王倩,刘莉莉,韩磊.融合C4.5与SVM算法的汉语句义类型识别方法[J].北京理工大学学报,2012,32(10):1036-1041. 被引量：1
2罗森林,韩磊,潘丽敏,冯扬,刘盈盈.汉语句义结构模型及其验证[J].北京理工大学学报,2013,33(2):166-171. 被引量：10
3周建政,谌志群,李治,王荣波,冯凯.问答系统中问题模式分类与相似度计算方法[J].计算机工程与应用,2014,50(1):116-120. 被引量：4
4熊李艳,陈建军,钟茂生.基于E-A-V结构的概念图匹配算法[J].计算机应用研究,2014,31(8):2290-2293. 被引量：5
5韩磊,罗森林,潘丽敏,魏超.融合词法和句法特征的汉语谓词高精度识别方法[J].浙江大学学报（工学版）,2014,48(12):2107-2114. 被引量：5
6张晗,罗森林,邹丽丽,石秀民.融合句义分析的跨文本人名消歧[J].浙江大学学报（工学版）,2015,49(4):717-723. 被引量：1
7罗森林,韩磊,潘丽敏,魏超.Construction method of Chinese sentential semantic structure[J].Journal of Beijing Institute of Technology,2015,24(1):110-117. 被引量：2
8韩磊,罗森林,陈倩柔,潘丽敏.Fast Chinese syntactic parsing method based on conditional random fields[J].Journal of Beijing Institute of Technology,2015,24(4):519-525.
9尚海,罗森林,韩磊,张笈.基于句义成分的短文本表示方法研究[J].信息网络安全,2016(5):64-70. 被引量：6
10蒋宗礼,赵洁.关联首尾段落与首尾语句的多特征融合段落相似度计算[J].计算机与现代化,2016(9):10-14.

同被引文献31

1尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13
2叶正,林鸿飞,杨志豪.基于问句相似度的中文FAQ问答系统[J].计算机工程与应用,2007,43(9):161-163. 被引量：14
3SHEN Yang,YUAN Zhongshang,LIU Lu,DONG Hui.Research of Anti-Plagiarism Monitoring System Model[J].Wuhan University Journal of Natural Sciences,2007,12(5):937-940. 被引量：2
4裴婧,包宏.汉语句子相似度计算在FAQ中的应用[J].计算机工程,2009,35(17):46-48. 被引量：24
5柳位平,朱艳辉,栗春亮,向华政,文志强.中文基础情感词词典构建方法研究[J].计算机应用,2009,29(10):2875-2877. 被引量：86
6章芝青.基于语义的单文档自动摘要算法[J].计算机应用,2010,30(6):1673-1675. 被引量：7
7徐桂臣,叶枫.基于语义加权距离的语义相似度改进算法[J].情报杂志,2012,31(2):119-123. 被引量：5
8毛先领,李晓明.问答系统研究综述[J].计算机科学与探索,2012,6(3):193-207. 被引量：59
9张琼.加强图书网络营销的途径[J].科技与出版,2012(6):78-79. 被引量：5
10罗森林,韩磊,潘丽敏,冯扬,刘盈盈.汉语句义结构模型及其验证[J].北京理工大学学报,2013,33(2):166-171. 被引量：10

引证文献5

1蒋宗礼,赵洁.关联首尾段落与首尾语句的多特征融合段落相似度计算[J].计算机与现代化,2016(9):10-14.
2刘志明,于波,欧阳纯萍,余颖,阳小华,翟云.基于主题的SE-TextRank情感摘要方法[J].情报工程,2017,3(3):97-104. 被引量：8
3张聪,裴家欢,黄锴宇,黄德根,殷章志.基于语义图优化算法的中文微博观点摘要研究[J].山东大学学报（理学版）,2017,52(7):59-65. 被引量：2
4胡天磊,王皓波,尹文栋.基于深度双向分类器链的多标签新闻分类算法[J].浙江大学学报（工学版）,2019,53(11):2110-2117. 被引量：5
5李岱峰,林凯欣,李栩婷.基于提示学习与T5 PEGASUS的图书宣传自动摘要生成器[J].数据分析与知识发现,2023,7(3):121-130. 被引量：6

二级引证文献21

1荀静,杨玉珍.基于TextRank的文本情感摘要提取方法[J].计算机应用与软件,2018,35(10):80-84. 被引量：8
2吴世鑫,黄德根,张云霞.基于多特征融合模型的自动摘要[J].计算机工程与设计,2020,41(3):650-655. 被引量：3
3唐晓波,顾娜,谭明亮.基于句子主题发现的中文多文档自动摘要研究[J].情报科学,2020,38(3):11-16. 被引量：8
4王敏蕊,高曙,袁自勇,袁蕾.基于动态路由序列生成模型的多标签文本分类方法[J].计算机应用,2020,40(7):1884-1890. 被引量：7
5汪旭祥,韩斌,高瑞,陈鹏.基于改进TextRank的文本摘要自动提取[J].计算机应用与软件,2021,38(6):155-160. 被引量：12
6刘娜.档案数据加密信息安全系统设计与实现[J].微型电脑应用,2021,37(6):136-138. 被引量：7
7皮赛奇,刘干.改进RAkEL分类算法的多功能酶分类预测[J].软件导刊,2021,20(7):34-37.
8赖德迪,罗智徽,马应龙.基于共现分析的分类器链标签序列优化方法[J].系统工程与电子技术,2021,43(9):2526-2534. 被引量：3
9郑宇,贾如,沈军,李茹.融合用户需求和商品特点的评论标签生成算法研究[J].计算机与数字工程,2021,49(12):2496-2500.
10徐飞,彭佳佳,刘军,杨博.基于多特征融合的TextRank新闻自动摘要模型[J].计算机系统应用,2023,32(2):242-249.

1原玉娇,罗森林,林萌,潘丽敏.融合句义结构模型的短文本推荐算法研究[J].信息安全研究,2015,1(1):67-73. 被引量：1
2罗森林,韩磊,潘丽敏,冯扬,刘盈盈.汉语句义结构模型及其验证[J].北京理工大学学报,2013,33(2):166-171. 被引量：10
3蔡月红,朱倩,程显毅,杨天明.基于句义三维模型的汉语句子相似度计算[J].广西师范大学学报（自然科学版）,2009,27(1):153-156.
4罗森林,王倩,刘莉莉,韩磊.融合C4.5与SVM算法的汉语句义类型识别方法[J].北京理工大学学报,2012,32(10):1036-1041. 被引量：1
5王倩,罗森林,韩磊,潘丽敏.基于谓词及句义类型块的汉语句义类型识别[J].中文信息学报,2014,28(2):8-16. 被引量：3
6熊李艳,赵毅,黄卫春,钟茂生,黄晓辉.基于句义结构分析的中文人名消歧[J].计算机应用研究,2016,33(10):2898-2901. 被引量：3
7罗森林,白建敏,潘丽敏,韩磊,孟强.融合句义特征的多文档自动摘要算法研究[J].北京理工大学学报,2016,36(10):1059-1064. 被引量：3
8周继鹏.基于概念图的自然语言语义解释[J].微电子学与计算机,1993,10(11):7-10.
9刘盈盈,罗森林,冯扬,韩磊,陈功,王倩.BFS-CTC汉语句义结构标注语料库[J].中文信息学报,2013,27(1):72-80. 被引量：5
10周继鹏.基于概念图的自然语言语义解释[J].计算机科学,1993,20(5):67-70. 被引量：3

浙江大学学报（工学版）

2015年第12期

浏览历史

内容加载中请稍等...

融合句义结构模型的微博话题摘要算法被引量：5

参考文献28

二级参考文献16

共引文献15

同被引文献31

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

融合句义结构模型的微博话题摘要算法 被引量：5

参考文献28

二级参考文献16

共引文献15

同被引文献31

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

融合句义结构模型的微博话题摘要算法被引量：5