主题不平衡新闻文本数据集的主题识别方法研究被引量：5

Topic Recognition of News Reports with Imbalanced Contents

导出

摘要【目的】针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不同的特征检测方法来识别文本的主题。【结果】在10000篇新闻文本规模的数据集上实验验证,该方法相比传统的LDA主题识别方法,查全率提高了0.2121、查准率提高了0.0407,F1值提高了0.1520。【局限】由于新闻文本中新词较多,实验中使用的分词工具的分词准确率会降低,新闻文本主题识别的效果因对分词准确率的依赖而受到影响。【结论】实验证明,所提方法能够在一定程度上解决LDA对新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题。 [Objective] This paper proposes a topic recognition method for news dataset with imbalanced number of reports on different topics, aiming to address the issue of inaccurate topic recognition by traditional LDA model. [Methods] First, we modified the LDA model with three feature detection methods: independence detection, variance detection and information entropy detection. Then, we identified news topics with the proposed model. [Results] We examined our model with the dataset of 10,000 news reports. Compared with the traditional LDA topic recognition method, the recall, precision and F1 values of the proposed method were improved by 0.2121, 0.0407 and 0.1520. [Limitations] Due to the large number of new words, the word segmentation accuracy was not very satisfactory, which affected the performance of news topic recognition.[Conclusions] The proposed method could effectively identify news topics from reports with imbalanced contents.

作者王红斌王健雄张亚飞杨恒 Wang Hongbin;Wang Jianxiong;Zhang Yafei;Yang Heng(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming 650500,China;Yun Nan Wei Heng Ji Ye Co.,Ltd.,Kunming 650000,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学云南省人工智能重点实验室云南唯恒基业科技有限公司

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第3期109-120,共12页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目(项目编号:61966020,61762056) 云南省重大科技专项项目(项目编号:2018ZF019)的研究成果之一。

关键词主题不平衡新闻文本数据集主题识别潜在狄利克雷分布 Topic Imbalanced News Text Data Set Topic Recognition Latent Dirichlet Allocation(LDA)

分类号 TP393 [自动化与计算机技术—计算机应用技术] G250 [文化科学—图书馆学]

引文网络
相关文献

参考文献7

1刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍.不平衡分类的数据采样方法综述[J].重庆理工大学学报（自然科学）,2019,33(7):102-112. 被引量：29
2王光,邱云飞,史庆伟.一种用于中文主题分类的CSVM算法[J].计算机工程,2012,38(8):131-133. 被引量：1
3吴雨茜,王俊丽,杨丽,余淼淼.代价敏感深度学习方法研究综述[J].计算机科学,2019,46(5):1-12. 被引量：20
4李红莲,王春花,袁保宗.一种改进的支持向量机NN-SVM[J].计算机学报,2003,26(8):1015-1020. 被引量：71
5居亚亚,杨璐,严建峰.基于动态权重的LDA算法[J].计算机科学,2019,46(8):260-265. 被引量：8
6廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. 被引量：43
7刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,35(2):16-21. 被引量：41

二级参考文献58

1马勇,丁晓青.Real-Time Multi-View Face Detection and Pose Estimation Based on Cost-Sensitive AdaBoost[J].Tsinghua Science and Technology,2005,10(2):152-157. 被引量：4
2郭炜强,戴天,文贵华.基于领域知识的专利自动分类[J].计算机工程,2005,31(23):52-54. 被引量：17
3郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
4李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
5Lee Yong-Bae,Hyon M.Text Genre Classification with Genre-revealing and Subject-revealing Features[C]//Proc.of the 25th Annual Int’l Conf.on Research and Development in Information Retrieval.Tampere,Finland:[s.n.],2002:327-331.
6Aidan F,Nicholas K.Learning to Classify Documents According to Genre[J].Journal of the American Society for Information Science and Technology,2006,57(11):1506-1518.
7Huang Chang,Ai Haizhou,Li Yuan,et al.High-performance Rotation Invariant Multi-view Face Detection[J].IEEE Trans.on Pattern Analysis and Machine Intelligence,2007,29(4):671-686.
8Li Ling.Data Complexity in Machine Learning and Novel Classification Algorithms[D].Pasadena,California,USA:California Institute of Technology,2006.
9Hearst M A, Dumais S T, Osman E, Platt J, Scholkopf B.Support Vector Machines. IEEE Intelligent Systems, 1998, 13(4) : 18-28.
10Ke Hai-Xin,Zhang Xue-Gong. Editing support vector machines.In: Proceedings of International Joint Conference on Neural Networks, Washington, USA, 2001, 2:1464-1467.

共引文献202

1吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
2高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64.
3李红莲,王春花,袁保宗,朱占辉.针对大规模训练集的支持向量机的学习策略[J].计算机学报,2004,27(5):715-719. 被引量：53
4黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
5胡正平,张晔.基于类间最近邻支持向量信息测度排序的快速分类算法研究[J].中国图象图形学报,2005,10(6):758-761.
6张国云,章兢.一种新的分裂层次聚类SVM多值分类器[J].控制与决策,2005,20(8):931-934. 被引量：9
7胡正平,张晔.基于支持向量信息测度排序的快速分类算法[J].系统工程与电子技术,2005,27(8):1467-1470.
8闭乐鹏,郑志蕴,宋瀚涛,陆玉昌.改进的邻域支持向量解算法[J].北京理工大学学报,2005,25(11):967-970.
9琚旭,王浩,姚宏亮.支持向量机的一个边界样本修剪方法[J].合肥工业大学学报（自然科学版）,2006,29(7):830-833. 被引量：3
10李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23

同被引文献110

1胡勇军,韦婷婷,窦子欣,黄芸茵,梁锐成,常会友.广东刀剪产业转型升级技术发展路径研究——基于专利TRIZ分析[J].数据分析与知识发现,2020,4(2):101-109. 被引量：5
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：44
3WANGShouyang,YULean,K.K.LAI.CRUDE OIL PRICE FORECASTING WITH TEI@I METHODOLOGY[J].Journal of Systems Science & Complexity,2005,18(2):145-166. 被引量：73
4张黎.现场促销员的会话策略分析[J].语言文字应用,2007(3):87-93. 被引量：6
5肖明,栗文超,夏秋菊.基于Prefuse和层次聚类的信息检索主题知识图谱研究[J].现代图书情报技术,2012(4):35-40. 被引量：10
6胡文芝,廖美珍.中国心理治疗话语“解述”现象的会话分析研究[J].重庆大学学报（社会科学版）,2013,19(4):92-100. 被引量：7
7张宁熙.大数据在突发公共事件网络舆情信息工作中的应用[J].现代情报,2015,35(6):38-42. 被引量：27
8祝娜,王效岳,杨京,白如江.基于LDA的科技创新主题语义识别研究[J].图书情报工作,2015,59(14):126-134. 被引量：18
9王燕鹏.国内基于主题模型的科技文献主题发现及演化研究进展[J].图书情报工作,2016,60(3):130-137. 被引量：23
10杨慧,杨建林.融合LDA模型的政策文本量化分析——基于国际气候领域的实证[J].现代情报,2016,36(5):71-81. 被引量：64

引证文献5

1翟姗姗,王左戎,陈欢,潘港辉.会话分析视角下的突发公共事件主题演化研究——以"新冠肺炎疫情"为例[J].图书情报工作,2022,66(11):87-99. 被引量：4
2张东鑫,张敏.图情领域LDA主题模型应用研究进展述评[J].图书情报知识,2022,39(6):143-157. 被引量：24
3牛飞,钟少波,刘楠,钟伟齐,杨德威,叶欣澜,梅新.一种改进的灾害新闻3要素提取方法研究[J].中国安全生产科学技术,2023,19(2):13-19.
4张辉,串丽敏,郑怀国,赵静娟,齐世杰.基于LDA和语步标注的主题识别与分析方法研究[J].数据与计算发展前沿,2023,5(5):107-118.
5张大斌,黄均杰,凌立文,胡焕玲.融合新闻影响力衰减的碳价格多元分解集成预测[J].河南科技大学学报（自然科学版）,2024,45(1):51-61.

二级引证文献28

1葛世龙,方子涵,徐国娴.国家审计会影响地方政府社会服务能力吗?——基于2011—2020年省级面板数据的实证研究[J].中国审计评论,2024(1):55-70.
2富子元,朱学芳,李川.突发公共卫生事件下健康信息需求的主题与用户情感实证研究[J].晋图学刊,2023(2):1-12. 被引量：1
3曾子明,李青青,孙守强,李婷婷.面向突发公共卫生事件网络舆情的事理图谱构建及演化分析[J].情报理论与实践,2023,46(8):147-155. 被引量：7
4马玥,唐承秀,王伟.高校书记/校长眼中的高校图书馆:基于LDA主题模型的分析[J].大学图书馆学报,2023,41(5):12-17.
5李星楠,邵鹏,陈恒.突发公共卫生事件下城市政务微博主题挖掘与演化特征研究[J].现代计算机,2023,29(15):29-34.
6杜若鹏,张洁,寇远涛.基于共现词分析的专业科技信息平台用户画像主题标注方法改进[J].数字图书馆论坛,2023,19(9):58-63.
7杨益兴,吴刚,陈兰芳,郭茜.基于LDA主题模型的多阶段生鲜消费者需求研究——以京东为例[J].管理案例研究与评论,2024,17(1):105-122. 被引量：1
8郑德俊,程为.基于三维主题特征测度的新兴主题识别研究[J].情报学报,2024,43(2):167-180.
9逯万辉.科学文献主题建模方法及其效果评估研究[J].现代情报,2024,44(4):22-31. 被引量：6
10何西远,张岳,张秉文.基于分布式爬虫的微博舆情监督与情感分析系统设计[J].现代信息科技,2024,8(5):111-114. 被引量：3

1张庆,苏丽,虞浩然.基于甲状腺肿瘤研究热点的双聚类分析[J].济宁医学院学报,2019,42(6):445-448.
2范广腾,李献斌,王建,庹洲慧.基于检测器性能实时评估的欺骗检测融合算法[J].哈尔滨工业大学学报,2020,52(5):165-170. 被引量：2
3魏亮亮.浅谈档案管理面临的难点问题及解决措施[J].市场周刊·理论版,2020(65):121-121.
4张苏楠,田建艳,菅垄,姬政雄.基于帧间差分法-单点多框检测器的圈养生猪打斗行为识别方法[J].江苏农业学报,2021,37(2):397-404. 被引量：6
5田素端.基于改进Canny算子的纺织印染图像边缘特征相似度检索[J].黑龙江纺织,2021(1):8-11. 被引量：1
6张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏.面向多领域先秦典籍的分词词性一体化自动标注模型构建[J].数据分析与知识发现,2021,5(3):2-11. 被引量：22
7吴锦池,余维杰.融合知识库语义的文本聚类研究[J].情报杂志,2021,40(5):156-164. 被引量：7
8苏卓,柯司博,王若梅,周凡.深度多模态融合服装风格检索[J].中国图象图形学报,2021,26(4):857-871. 被引量：3

数据分析与知识发现

2021年第3期

浏览历史

内容加载中请稍等...

主题不平衡新闻文本数据集的主题识别方法研究被引量：5

参考文献7

二级参考文献58

共引文献202

同被引文献110

引证文献5

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

主题不平衡新闻文本数据集的主题识别方法研究 被引量：5

参考文献7

二级参考文献58

共引文献202

同被引文献110

引证文献5

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

主题不平衡新闻文本数据集的主题识别方法研究被引量：5