基于LDA2Vec联合训练的热点主题识别方法被引量：3

Joint training hot topic recognition method based on LDA2Vec

下载PDF

导出

摘要针对传统的主题模型算法没有充分利用词间语义关系和上下文语境而导致主题语义一致性、可解释性差的问题,给出一种基于LDA2Vec主题模型联合训练的热点主题识别方法——NS-LDA2Vec方法。该方法通过扩展Skip-gram模型,将初始化后的文档向量和枢轴词向量联合训练,以获得上下文向量,然后利用该向量来预测中枢词的上下文单词,从而将主题信息嵌入到词表示和文档表示中,使得预测过程中负采样损失和Dirichlet似然项总和最小化,产生可解释性更好的文本表示。结果表明:所提方法取得的F1值最高可达到0.898,在热点主题分类任务上,相比传统的LDA主题模型,主题相关度提升了约9%,能够有效提升主题识别任务的效果。 The traditional topic model algorithm does not make full use of the semantic relationship between words and the context,which leads to the inconsistency of topic semantics and poor interpretability.A hot topic recognition method based on the joint training of the LDA2Vec topic model(NS-LDA2Vec)was thus proposed.This method expanded the Skip-gram model to jointly train the initialized document vector and pivoted word vector to obtain the context vector,and then used the vector to predict the context word of the pivot word,thereby embedding topic information into the word representation and document in the representation;the sum of the negative sampling loss and the Dirichlet likelihood term in the prediction process was minimized,which resulted in a better interpretable text representation.The results show that the F1 value obtained by the proposed method can reach up to 0.898.Compared with the traditional LDA topic model,the topic relevance is improved by about 9%on the hot topic classification task,which can effectively improve the effect of the topic recognition task.

作者薛涛郭莹胡伟华 XUE Tao;GUO Ying;HU Weihua(School of Computer Science, Xi’an Polytechnic University, Xi’an 710048, China;School of Humanities and Social Science, Xi’an Polytechnic University, Xi’an 710048, China)

机构地区西安工程大学计算机科学学院西安工程大学人文社会科学学院

出处《西安工程大学学报》 CAS 2021年第4期95-101,共7页 Journal of Xi’an Polytechnic University

基金国家社会科学基金(18XYY010)。

关键词 LDA2Vec 文档向量词向量主题模型热点主题识别 LDA2Vec document vector word vector topic model hot topic recognition

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1黄佳佳,李鹏伟,彭敏,谢倩倩,徐超.基于深度学习的主题模型研究[J].计算机学报,2020,43(5):827-855. 被引量：46
2刘芳.基于LDA模型的图书馆文献分类系统设计与开发[J].电子设计工程,2018,26(16):156-159. 被引量：1
3周炜翔,张仰森,张良.面向微博热点事件的话题检测及表述方法研究[J].计算机应用研究,2019,36(12):3565-3569. 被引量：15
4孙艳,周学广,付伟.基于主题情感混合模型的无监督文本情感分析[J].北京大学学报（自然科学版）,2013,49(1):102-108. 被引量：54
5曹中华,夏家莉,彭文忠,张志斌.多原型词向量与文本主题联合学习模型[J].中文信息学报,2020,34(3):64-71. 被引量：4
6许银洁,孙春华,刘业政.考虑用户特征的主题情感联合模型[J].计算机应用,2018,38(5):1261-1266. 被引量：10
7裘惠麟,邵波.多源数据环境下科研热点识别方法研究[J].图书情报工作,2020,64(5):78-88. 被引量：23
8郁可人,傅云斌,董启文.基于神经网络语言模型的分布式词向量研究进展[J].华东师范大学学报（自然科学版）,2017(5):52-65. 被引量：16

二级参考文献74

1陈玉霞.基于诺兰模型的图书馆文献信息资源共享系统建设的分析[J].图书馆学研究,2005(5):61-63. 被引量：3
2Liu B, Zhang L. A survey on opinion mining and sentiment analysis // Mining text data. New York: Springer, 2012:415-463.
3Taboada M, Brooke J, Tofiloski M, et al. Lexicon-based methods for sentiment analysis. Computational Linguistics, 2011, 37(2): 267-307.
4Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. Journal of Machine Leanming Research, 2003(3): 993-1022.
5Titov I, McDonald R. Modeling online reviews with multi-grain topic models // Proceeding of WWW'08. New York: ACM, 2008:111-120.
6Titov I, McDonald R. A joint model of text and aspect ratings for sentiment summarization//Proceedings of ACL-08: HLT. Stroudsburg: ACL, 2008:308-316.
7Zhao X, Jiang J, Yan H F, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Strouds- burg: ACL, 2010:56-65.
8Brody S, Elhadad N. An unsupervised aspect- sentiment model for online reviews//Proceedings of the 2010 Annual Conference of the North American Chapter of the ACL. Stroudsburg: ACL, 2010: 804-812.
9Jo Y, Oh A. Aspect and sentiment unification mode for online review analysis // Proceedings of the 4th ACM International conference on Web search and data mining. New York: ACM, 2011 : 815-824.
10Lin C H, He Y L. Joint sentiment/topic model for sentiment analysis // Proceeding of the 18th ACM conference on Information and knowledge mana- gement. New York: ACM, 2009:375-384.

共引文献158

1张季,康乐乐,李博.移动应用评论挖掘研究综述[J].知识管理论坛,2021(6):339-350. 被引量：2
2张新香,赵彩霞.影响电影微博互动效果的隐藏主题探究方法及应用[J].知识管理论坛,2020(5):283-291. 被引量：1
3李玉强,黄瑜,孙念,李琳,刘爱华.基于性格情绪特征的改进主题情感模型[J].中文信息学报,2020(7):96-104. 被引量：1
4刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
5史伟,付月.突发事件中网络评论的情感-主题随时间的演变研究[J].计算机科学,2022,49(S02):195-200.
6赵显基,张云,楼佳玲,徐浩楠.近5年WoS中在线评论研究主题分析[J].产业与科技论坛,2020,19(7):93-94.
7王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
8党宏社,郭楚佳,张娜.信息融合技术在情绪识别领域的研究展望[J].计算机应用研究,2013,30(12):3536-3539. 被引量：6
9黄卫东,陈凌云,吴美蓉.网络舆情话题情感演化研究[J].情报杂志,2014,33(1):102-107. 被引量：35
10王磊,苗夺谦,张志飞,余鹰.基于主题的文本句情感分析[J].计算机科学,2014,41(3):32-35. 被引量：8

同被引文献27

1常晓丛,李天龙,周德开,张广玉,李隆球.多物理场驱动微纳马达的运动机理及应用[J].科学通报,2017,62(2):122-135. 被引量：5
2刘聪慧,黄金荣,宋永超,许太林,张学记.微纳米马达的运动控制及其在精准医疗中的应用[J].中国科学：化学,2017,47(1):29-39. 被引量：5
3冯佳,张云秋.基于LDA和本体的科学前沿识别与分析方法研究[J].情报理论与实践,2017,40(8):49-54. 被引量：26
4范少萍,安新颖,晏归来,李勇.医学领域前沿主题识别方法研究[J].情报学报,2018,37(7):686-694. 被引量：13
5周楠,杜攀,靳小龙,刘悦,程学旗.面向舆情事件的子话题标签生成模型ET-TAG[J].计算机学报,2018,41(7):1490-1503. 被引量：19
6黄建一,李建江,王铮,方明哲.基于上下文相似度矩阵的Single -Pass短文本聚类[J].计算机科学,2019,46(4):50-56. 被引量：6
7张阳,刘楚,毛先辉,何婧琳,龙姝,梅婷婷,唐玲,曹忠.DNA纳米机器及其核酸传感应用[J].化学传感器,2018,38(4):12-19. 被引量：1
8张帆,潘亚雄,胡勇.基于改进Single-Pass的新闻话题检测与追踪技术研究[J].信息安全研究,2020,6(5):396-403. 被引量：4
9理姗姗,杨文忠,王婷,王丽花.基于网络社交媒体的子话题检测技术综述[J].计算机应用,2020,40(6):1565-1573. 被引量：2
10余传明,原赛,朱星宇,林虹君,张普亮,安璐.基于深度学习的热点事件主题表示研究[J].数据分析与知识发现,2020,4(4):1-14. 被引量：2

引证文献3

1郭润平,陈保国,熊桂芳.基于大数据的科研热点分析系统研究[J].自动化与仪器仪表,2022(5):136-141.
2郭莹,薛涛,胡伟华.面向热点话题检测的增量文本聚类算法[J].计算机系统应用,2022,31(9):280-286. 被引量：3
3石磊,李君,吴婷.基于深度学习和LDA的学科研究前沿主题识别探究[J].江苏科技信息,2022,39(33):33-36. 被引量：2

二级引证文献5

1于诗睿,李爱花,林紫洛,陈逸菲,唐小利.基于主题模型的科技文献主题演化及优化方法研究综述[J].医学信息学杂志,2023,44(8):31-36.
2欧阳文涛,朱家明,戴定华.基于LDA-SVM算法模型对唐宋诗词分词及特征的计量分析[J].黑龙江大学自然科学学报,2023,40(4):394-400. 被引量：2
3李砚,崔凯.基于聚类算法的网络信息安全检测与跟踪[J].自动化与仪器仪表,2023(11):77-81. 被引量：6
4张国宏,焦雄.大规模通信网络涉密信息安全动态预警方法[J].计算机仿真,2024,41(4):387-390. 被引量：1
5吴希娟.基于K-means聚类算法的行政单位预算内部控制研究[J].人工智能科学与工程,2024(3):67-74.

1杨艺明,潘一嘉.青年的党史情感表达与媒介实践方式——基于B站“长征始末”系列视频弹幕情感分析[J].新媒体研究,2021,7(13):79-82.
2吴德双,古承浩.新闻动态[J].航空模型,2021(8):76-77.
3田沛霖,符海滕,马力禹,罗琳.融合对抗训练和CNN-BiGRU神经网络的新闻文本分类模型[J].图书情报导刊,2021,6(8):38-45. 被引量：3
4张万杰.引入标签语义信息的多标签文本分类[J].信息技术与信息化,2021(8):8-11. 被引量：2
5陈俊芬,张明,赵佳成,谢博鋆,李艳.结合降噪和自注意力的深度聚类算法[J].计算机科学与探索,2021,15(9):1717-1727. 被引量：2
6李黎明,古平,王巍,朱常安.基于IDEF5陆军部队级装备维修保障业务流程建模研究[J].科技创新与应用,2021,11(21):80-82. 被引量：3
7王晶,赵彩.基于平行语料库的神经机器英语翻译方法研究[J].自动化与仪器仪表,2021(8):5-8. 被引量：1
8贾宏伟,邓琼英,刘鹏,周丽宁,龚继春,陈兴才,黄丽仟,龚健古,徐林.身体质量指数评价广西苗族成人肥胖的准确性[J].公共卫生与预防医学,2021,32(5):11-14. 被引量：1
9田媛,郝文宁,靳大尉,陈刚,邹傲.基于多示例学习的长文档检索[J].无线电工程,2021,51(9):886-892. 被引量：2
10马宾,侯金程,王春鹏,李健,施云庆.基于码分复用的音频文件大容量可逆信息隐藏算法[J].计算机科学,2021,48(9):298-305. 被引量：1

西安工程大学学报

2021年第4期

浏览历史

内容加载中请稍等...

基于LDA2Vec联合训练的热点主题识别方法被引量：3

参考文献8

二级参考文献74

共引文献158

同被引文献27

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于LDA2Vec联合训练的热点主题识别方法 被引量：3

参考文献8

二级参考文献74

共引文献158

同被引文献27

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于LDA2Vec联合训练的热点主题识别方法被引量：3