基于主题模型的通用文本匹配方法

GENERAL TEXT MATCHING BASED ON TOPIC MODEL

下载PDF

导出

摘要检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹配问题。基于这个问题,提出一种新的基于文本聚类主题模型的轻量方法,不需要利用额外的背景知识来匹配通用文本相似性。在两个经典测试样本数据集上的实验结果表明,该方法的文本相似性检测效率非常高。 The similarity measurement between a long text and a short text relatively has more and more application scenarios,and the consistency judgment on these text pairs can be abstracte as a comparison problem of text similarity.The challenge is that the short text is sparse,it is difficult to determine which domain it belongs to and it is also difficult to introduce word embedding to solve the specific text matching problem in general scenarios.Aiming at this problem,this paper proposes a lightweight approach based on topic model with text clustering which can match generalized longshort texts without using extra related background knowledge.The experimental results on two typical test sample datasets show the text similarity detection efficiency of the proposed method is very high.

作者黄振业莫淦清余可曼 Huang Zhenye;Mo Ganqing;Yu Keman(School of Information Technology,Zhejiang Financial College,Hangzhou 310018,Zhejiang,China;Hangzhou Pingzhi Information Technology Co.,Ltd.,Hangzhou 310030,Zhejiang,China)

机构地区浙江金融职业学院信息技术学院杭州平治信息技术股份有限公司

出处《计算机应用与软件》北大核心 2024年第5期310-318,349,共10页 Computer Applications and Software

关键词自然语言处理文本匹配主题模型吉布斯采样 Natural language processing Text matching Topic model Gibbs sampling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：50
2胡朝举,梁宁.基于深层注意力的LSTM的特定主题情感分析[J].计算机应用研究,2019,36(4):1075-1079. 被引量：30
3赵乐,张兴旺.面向LDA主题模型的文本分类研究进展与趋势[J].计算机系统应用,2018,27(8):10-18. 被引量：8

二级参考文献63

1侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：15
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
3尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
4Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis [J]. Journal of the Association of Information Sience, 1990, 41(6) : 391-407.
5Song Y, Wang H, Wang Z, et al. Short text conceptualization using a probabilistic knowledgebase [C]// Proc of the 22nd Int Joint Conf on Artificial Intelligence (IJCAI). Palo Alto, CA: AAAI, 2011:2330-2336.
6Wang Z, Zhao K, Wang H, et al. Query understanding through knowledge-based conceptualization [C]//Proc of the 24th Int Joint Conf on Artificial Intelligence (IJCAI). Palo Alto, CA: AAAI, 2015:3264-3270.
7Lund K, Burgess C. Producing high-dimensional semantic spaces from lexical co-occurrence[J]. Behavior Research Methods, Instruments,& Computers, 1996, 28(2): 203- 2O8.
8Turney P D, Pantel P. From frequency to meaning: Vector space models of semantics [J]. Journal of Artificial Intelligence Research, 2010, 37(1): 141-188.
9Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003, 3(2): 1137-1155.
10Mikolov T, Karafiat M, Burget L, et al. Recurrent neural network based language model [C] //Proc of the llth Annual Conf of the Int Speech Communication Association. New York: ACM, 2010: 1045-1048.

共引文献85

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
3马超群,杨竟澜,任奕帅,谢志斌.基于H-LSTM模型的沪深300指数价格预测研究[J].计量经济学报,2021(2):437-451. 被引量：5
4文莎.基于神经网络的文本分类[J].信息通信,2019,0(12):173-174.
5张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40
6黄华军,谭骏珊,秦姣华.基于主题模型的微博话题检测算法[J].网络与信息安全学报,2016,2(5):30-38.
7张欣,陆颖隽,李立睿,邓仲华.古典诗词语句的标签模型研究[J].信息资源管理学报,2017,7(2):76-80.
8梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：139
9郑德俊,朱婷婷,沈军威.基于改进K均值算法的移动图书馆用户评论需求聚类研究[J].数字图书馆论坛,2017(10):26-31. 被引量：2
10刘泽锦,王洁.同主题词短文本分类算法中BTM的应用与改进[J].计算机系统应用,2017,26(11):213-219. 被引量：4

1周志宇,郭朝阳,余志斌,张士举,杨丰玉.一种面向故障短文本的改进聚类方法研究[J].科学技术创新,2024(10):70-73.
2王承先.基于深度学习的彝文分词系统设计与实现[J].中国信息界,2024(2):228-233.
3宋宏标.基于的文献文本聚类分析[J].贵图学苑,2021(2):61-63.
4王冠群,黄海宁,张舒然,迟骋,高善国,曾腾,张武.基于吉布斯采样的方位自聚焦阵形校正方法[J].网络新媒体技术,2024,13(2):45-52.
5尹声声.基于深度学习的医院海量档案特征快速查询算法研究[J].自动化技术与应用,2024,43(5):114-117.
6王红林,李忠伟.大数据场景下用户评论聚类文本挖掘算法[J].计算机仿真,2024,41(3):352-358.
7佟文涛,葛威,贾亦真,张嘉恒.基于吉布斯采样的稀疏水声信道估计方法[J].哈尔滨工程大学学报（英文版）,2024,23(2):434-442.
8王世昌,陈瑾.双重共现潜在语义向量空间模型研究[J].中文科技期刊数据库（文摘版）图书情报,2024(5):0163-0168.
9郭凌.广播电视及新媒体中轻量级多源信号分析方法探讨[J].现代电视技术,2024(3):79-82.
10刘妍,刘驰.基于K-means与Word2vec的哺乳文胸评论主题挖掘研究[J].人类工效学,2024,30(2):40-45.

计算机应用与软件

2024年第5期

浏览历史

内容加载中请稍等...

基于主题模型的通用文本匹配方法

参考文献3

二级参考文献63

共引文献85

相关作者

相关机构

相关主题

浏览历史