基于主题相似性聚类的自适应文本分类被引量：7

Adaptive Text Classification Based on Topic Similarity Clustering

下载PDF

导出

摘要传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果。在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升。 Traditional text classification method only uses one model for classification,so it is easy to ignore the overlapping of different categories of feature words,which affects the classification performance.To improve accuracy of text classification,this paper proposes a text classification algorithm based on topic similarity clustering.The algorithm combines CHI with WordCount to extract category feature words.Then it performs clustering using the K-means algorithm and extracts cluster feature words to constructs a cluster feature word library.On this basis,the Adaptive Strategy algorithm is used to adaptively choose fasttext,TextCNN or RCNN model for classification to obtain the final classification result.Experimental results on the AG News dataset show that the proposed algorithm can better solve overlapping of different categories of feature words,and significantly improves text classification performance compared with fasttext,TextCNN and RCNN models used alone.

作者康雁杨其越李浩梁文韬李晋源崔国荣王沛尧 KANG Yan;YANG Qiyue;LI Hao;LIANG Wentao;LI Jinyuan;CUI Guorong;WANG Peiyao(School of Software,Yunnan University,Kunming 650500,China)

机构地区云南大学软件学院

出处《计算机工程》 CAS CSCD 北大核心 2020年第3期93-98,共6页 Computer Engineering

基金国家自然科学基金(61762092,61762089) 云南省软件工程重点实验室开放基金(2017SE204)。

关键词文本分类 CHI方法特征提取 K-MEANS算法自适应算法 text classification CHI method feature extraction K-means algorithm adaptive algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1周庆平,谭长庚,王宏君,湛淼湘.基于聚类改进的KNN文本分类算法[J].计算机应用研究,2016,33(11):3374-3377. 被引量：69
2梁军,柴玉梅,原慧斌,高明磊,昝红英.基于极性转移和LSTM递归网络的情感分析[J].中文信息学报,2015,29(5):152-159. 被引量：91
3谢金宝,侯永进,康守强,李佰蔚,张霄.基于语义理解注意力神经网络的多元特征融合中文文本分类[J].电子与信息学报,2018,40(5):1258-1265. 被引量：29
4李婷婷,吕佳.基于加权K最近邻改进朴素贝叶斯自训练算法[J].武汉大学学报（理学版）,2019,65(5):465-471. 被引量：6
5陈亮,郭佳雯,武建功,王占全,史令.基于法计算学理论的人工智能辅助决策算法研究[J].华东师范大学学报（自然科学版）,2019(5):85-99. 被引量：10

二级参考文献48

1何勤华.计量法律学[J].法学,1985(10):38-38. 被引量：7
2韩伟,沈霄凤,王云.信息系统的属性重要性度量及知识约简算法比较[J].华东师范大学学报（自然科学版）,2004(3):131-134. 被引量：2
3周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
4董乐红,耿国华,周明全.基于Boosting算法的文本自动分类器设计[J].计算机应用,2007,27(2):384-386. 被引量：13
5Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. The Journal of Ma- chine Learning Research, 2003, 3; 1137-1155.
6Mikolov T, Karaficit M, Burget L, et al. Recurrent neural network based language model[C]//Proceed- ings of the llth Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010. 2010. 1045-1048.
7Socher R, Pennington J, Huang E H, et al. Semi-su- pervised recursive autoencoders for predicting senti- ment distributions[C]//Proeeedings of the Conference on Empirical Methods in Natural Language Process- ing. Association for Computational Linguistics, 2011:151-161.
8Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow in recurrent nets: the difficulty of learning long- term dependencies M. Wiley-IEEE Press, 2001: 237-243.
9Hochreiter S, Schmidhuber J. Long short-term memo- ry. Neural computation, 1997, 9(8): 1735-1780.
10Socher R, Lin C C, Manning C, et al. Parsing natural scenes and natural language with recursive neural net- works[C//Proceedings of the 28th international con- ference on machine learning (ICML-11). 2011 : 129- 136.

共引文献200

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
3章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：3
4孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
5孙瑞安,张云华.结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法[J].智能计算机与应用,2021,11(4):9-13. 被引量：4
6刘筱,阎小培.九十年代广东省不同经济地域差异分析[J].热带地理,2000,20(1):1-7. 被引量：25
7王鹤琴,王杨.基于贝叶斯决策的网格社区案卷分发模型[J].山东大学学报（理学版）,2018,53(11):85-94. 被引量：1
8裴韬,郭思慧,袁烨城,张雪英,袁文,高昂,赵志远,薛存金.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报,2019,21(1):2-13. 被引量：16
9李猛,刘元宁.一种基于信息增益的新垃圾邮件特征选择算法[J].吉林大学学报（理学版）,2017,55(2):379-382. 被引量：2
10刘小明,张英,郑秋生.基于卷积神经网络模型的互联网短文本情感分类[J].计算机与现代化,2017(4):73-77. 被引量：9

同被引文献96

1郁荣,陈剑波,李欣烨,刘敬喜.基于Python语言的ABAQUS前处理程序在内凹蜂窝的应用[J].船舶工程,2020,42(S01):153-156. 被引量：10
2傅立伟,武森.基于属性值集中度的分类数据聚类有效性内部评价指标[J].工程科学学报,2019,41(5):682-693. 被引量：14
3郑恒毅,廖城霖,李天柱.一种面向网络长文本的话题检测方法[J].工程科学学报,2019,41(9):1208-1214. 被引量：7
4裴可锋,陈永洲,马静.基于DTPM模型的话题热度预测方法[J].情报杂志,2016,35(12):52-57. 被引量：12
5陈福集,史蕊.基于残差修正的多因素灰色模型的网络舆情预测研究[J].情报科学,2017,35(9):131-135. 被引量：16
6张翼鹏,葛丽娜,王红,王丽颖,张静.基于改进细菌觅食算法的舆情热点话题发现[J].计算机工程与设计,2017,38(10):2832-2837. 被引量：4
7朱命冬,徐立新,申德荣,寇月,聂铁铮.面向不确定文本数据的余弦相似性查询方法[J].计算机科学与探索,2018,12(1):49-64. 被引量：12
8张月,邹焕新,邵宁远,秦先祥,周石琳,计科峰.基于相似度网络融合的极化SAR图像地物分类[J].系统工程与电子技术,2018,40(2):295-302. 被引量：4
9刘嘉敏,张丽梅,石光耀,黄鸿.联合稀疏特性和邻域相似度量的高光谱图像分类[J].光子学报,2018,47(6):209-218. 被引量：6
10丁晟春,王小英,刘梦露.基于本体和加权朴素贝叶斯的网络舆情主题分类[J].现代情报,2018,38(8):12-17. 被引量：7

引证文献7

1唐红涛,余佳鹏,陈捷.文本分析视角下数字乡村政策量化研究——基于FastText和文本挖掘方法[J].知识管理论坛,2024(3):237-252.
2邵文倩.基于卷积神经网络的电视频道推荐算法[J].软件,2020,41(10):153-156. 被引量：1
3傅丽芳,赵菲菲.基于注意力机制LSTM模型的农业舆情预测与分析[J].数学的实践与认识,2021,51(17):64-76. 被引量：3
4高晶,曹福凯,闫明,Muhd Khaizer Omar.信息相似性下网络对抗文本重复数据分级索引[J].计算机仿真,2021,38(10):462-465.
5彭文良,虞燕花.基于Python语言的文本数据流自适应分类方法[J].宁夏师范学院学报,2022,43(1):106-112.
6温湛靓,邓丽君.基于信息熵模型的英汉翻译机器人控制方法[J].自动化与仪器仪表,2022(5):84-87. 被引量：3
7管雨翔,王娟,兰月新,张鹏.基于LDA和TextCNN的跨平台网络舆情风险预警研究[J].情报探索,2024(10):109-115.

二级引证文献7

1王子豪.基于冬奥会新闻的命名实体识别及可视化[J].电脑知识与技术,2022,18(7):85-88.
2危枫,胡飞,王晨子,王丽平,杨佳佳,杨正益.基于轻量图卷积神经网络的IPTV推荐系统[J].软件,2022,43(6):6-8. 被引量：1
3范玥.基于移动图像检测算法的景观照明系统优化改进研究[J].自动化与仪器仪表,2023(9):124-128. 被引量：1
4李若晨,肖人彬.基于改进狼群算法优化LSTM网络的舆情演化预测[J].复杂系统与复杂性科学,2024,21(1):1-11. 被引量：1
5付曼.基于语音信号的跨语种交互翻译机器人语义纠错方法[J].信息与电脑,2024,36(5):31-33.
6杨维,秦波涛.基于智能语音的翻译机器人自动化控制系统设计[J].计算机测量与控制,2024,32(5):102-108. 被引量：2
7孙田,邹斌,龙潜,孟然,谢启伟.基于端到端的图像清晰化处理的深度学习算法[J].数学的实践与认识,2024,54(8):154-167.

1黄林,常健,杨帆,李忆,牛新征.基于改进k-means的电力信息系统异常检测方法[J].深圳大学学报（理工版）,2020,37(2):214-220. 被引量：23
2陈月红.浅尝思维导图在不同语篇中的具体运用[J].山海经,2020(1):0123-0123.
3刘岩,张艳荣,赵志杰,闫晓彤,张佳琳.基于情感分析的酒店顾客满意度评估[J].计算机应用与软件,2020,37(2):54-60. 被引量：21
4张曼,夏战国,刘兵,周勇.全卷积神经网络的字符级文本分类方法[J].计算机工程与应用,2020,56(5):166-172. 被引量：11
5李进京,刘颖,李祥付,刘好真,徐鹏,孙元,焦海峰,王一农,尤仲杰.韭山列岛海洋生态自然保护区及其附近海域底拖网生物资源的分布及群落结构分析[J].海洋与湖沼,2020,51(1):176-185. 被引量：7
6徐金容.基于网络文本分析的重庆旅游目的地形象感知研究[J].无锡商业职业技术学院学报,2020,20(1):75-80. 被引量：2
7张科,苏雨,王靖宇,王霰宇,张彦华.基于融合特征以及卷积神经网络的环境声音分类系统研究[J].西北工业大学学报,2020,38(1):162-169. 被引量：21
8王舒漫,李爱萍,段利国,付佳,陈永乐.基于BTM的物联网服务发现方法[J].计算机应用,2020,40(2):459-464. 被引量：2
9拓凯渊.基于文本挖掘的线上旅游评论分析[J].西部皮革,2020,42(2):121-123. 被引量：2
10岳岭,刘方,刘辉,曹利强.基于人工神经网络的大直径盾构隧道施工地层变形预测分析[J].铁道标准设计,2020,64(1):122-126. 被引量：21

计算机工程

2020年第3期

浏览历史

内容加载中请稍等...

基于主题相似性聚类的自适应文本分类被引量：7

参考文献5

二级参考文献48

共引文献200

同被引文献96

引证文献7

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于主题相似性聚类的自适应文本分类 被引量：7

参考文献5

二级参考文献48

共引文献200

同被引文献96

引证文献7

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于主题相似性聚类的自适应文本分类被引量：7