文本分类中基于概率主题模型的噪声处理方法被引量：9

A Probabilistic Topic Model Based Noise Processing Method for Text Classification

下载PDF

导出

摘要训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍能保持较好的分类结果。 The performance of text classification depends directly on the quality of training corpus.In practical applications,noise samples are unavoidable in the training corpus and thus influence the effect of the text classification approach.To this end,a novel probabilistic topic model based noise processing method is proposed for text classification.In our method,the noise samples are filtered according to the class entropy.Then the data is smoothed using the generative process of the topic model to further weaken the influence of noise samples,meanwhile the original size of the training corpus is kept.The experimental results of the real world data show that the method proposed is robust to the distribution of noise samples,and has a relative good performance on the data sets with a high noise ratio.

作者林洋港陈恩红

机构地区中国科学技术大学计算机科学与技术学院

出处《计算机工程与科学》 CSCD 北大核心 2010年第7期89-92,119,共5页 Computer Engineering & Science

基金国家自然科学基金资助项目(60775037) 国家863计划资助项目(2009AA01Z123)

关键词噪声数据文本分类概率主题模型类别熵 noisy data text classification probabilistic topic model class entropy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Li Yunlei, Wessels L F A, de Ridder D, et al. Classification in the Presence of Class Noise Using a Probabilistic Kernel Fisher Method[J]. Pattern Recognition, 2007,40 (12) : 3349- 3357.
2Zhu Xingquan, Wu Xingdong, Chen Qijun. Eliminating Class Noise in Large Datasets[C]//Proc of ICML'03, 2003: 920-927.
3Knorr E M, Ng R T. Algorithms for Mining Distance-Based Outliers in Large Datasets[C]//Proc of the 24th VLDB Conf, 1998:392-403.
4Brodley C E, Friedl M A. Identifying and Eliminating Mislabeled Training Instances[C]//Proc of AAAI/IAAI, 1996,1: 799-805.
5Gamberger D, Lavrac N, Dzeroski S. Noise Detection and Elimination in Data Preprocessing: Experiments in Medical Domains[J]. Applied Artificial Intelligence, 2000,14(2) : 205- 223.
6Ramaswamy S, Rastogi R, Shim K. Efficient Algorithms for Mining Outliers from Large Data Sets[C]//Proc of SIGMOD Conf, 2000 : 427-438.
7Griffiths T L, Steyvers M. Finding Scientific Topics[C]// Proc of the National Academy of Sciences,2004:5228-5235.
8Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993- 1022 .
9Landauer T K, McNamara D S, Dennis S, et al. Latent Semantic Analysis: A Road to Meaning [M]. Oxford, UK:Routtedge, 2006.
10Chang Chih-Chung, Lin Chih-Jen. LIBSVM= A Library for Support Vector Machines[EB/OL]. [2008-12-15]. http:// www. csie. ntu. edu. tw/-cjlin/libsvm.

同被引文献150

1陈云端.“互联网+创客教育”视域下智慧课堂的构建及案例研究[J].视界观,2019,0(11):0153-0153. 被引量：1
2张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
3吴慧.海南省降水量的正态分布特征及正态化变换[J].广东气象,2005,27(2):12-13. 被引量：17
4肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究[J].计算机应用,2006,26(5):1125-1126. 被引量：12
5黄波,李蓉蓉.泰森多边形及其在等深面生物量计算中的应用[J].遥感技术与应用,1996,11(3):35-39. 被引量：18
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
7秦莉,高茹英,尹莉,李国学,孙昊.生活垃圾焚烧的评价指标及程序[J].中国环境科学,2006,26(4):505-508. 被引量：1
8宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
9何琳,侯汉清,白振田,张雪英.基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729. 被引量：19
10程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1):61-64. 被引量：13

引证文献9

1阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
2李湘东,何海红,曹环,黄莉.针对训练集分布偏斜问题的数字资源文本分类方法[J].现代图书情报技术,2014(7):24-33. 被引量：2
3李湘东,巴志超,黄莉.文本分类中基于类别数据分布特性的噪声处理方法[J].现代图书情报技术,2014(11):66-72. 被引量：2
4李湘东,曹环,黄莉.基于分布偏斜训练集的特征选择方法研究[J].情报理论与实践,2015,38(4):139-144. 被引量：2
5宋磊磊.类标噪声研究综述[J].现代计算机,2016,22(2):20-23.
6南楠,杨昌尧.“大数据+创客教育”在高职职业教育中的应用研究[J].信息与电脑,2021,33(6):254-256. 被引量：3
7邵德奇,关培培,石聪.基于BERT+A-Softmax的多分类模型构建与应用研究[J].情报工程,2022,8(2):51-61.
8杨静,汪峰,赵婧,刘海东,赵芳.基于大数据的“邻避”设施环境社会风险评估方法研究[J].中国环境管理,2023,15(3):118-125. 被引量：2
9杨静,刘会东,刘海东,赵芳,李娜,李琳.我国县级地区生活垃圾焚烧设施环境社会风险分析及应对策略研究——基于31省份设施负荷率与网络舆情的分析[J].中国环境管理,2023,15(6):25-31. 被引量：2

二级引证文献14

1宋磊磊.类标噪声研究综述[J].现代计算机,2016,22(2):20-23.
2曾铖淋,王智,张瑾,林永君.上下文信息对移动视频推送的影响分析[J].计算机科学,2016,43(7):57-61. 被引量：1
3黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140. 被引量：13
4秦恺.不完全语义认知过程中信息特征正确识别仿真[J].计算机仿真,2017,34(2):242-245. 被引量：6
5刘述昌,张忠林.基于中心向量的多级分类KNN算法研究[J].计算机工程与科学,2017,39(9):1758-1764. 被引量：10
6王宇,刘斌.基于中心向量法与万有引力模型相结合的文本分类[J].微电子学与计算机,2017,34(11):119-123. 被引量：1
7张晶.互联网大数据下职业教育的发展模式[J].中国新通信,2021,23(15):167-168. 被引量：1
8黄金源,孙若莹.大宗商品交易领域词典构建[J].北京信息科技大学学报（自然科学版）,2022,37(1):71-75.
9曾小玲,张建平,唐祖苗.创客教育融入高职专业教育的路径探索[J].科技与创新,2022(14):1-3.
10瞿小宁.浅谈大数据在高职教育学科教学中的应用模式[J].学周刊,2023(1):33-35. 被引量：1

1靳从.规则文档图像噪声处理方法[J].仪器仪表学报,2003,24(z2):393-394. 被引量：2
2李芬华,张丽.基于小波域彩色交通图像的噪声处理方法[J].电脑知识与技术,2006,1(5):135-136.
3李湘东,巴志超,黄莉.文本分类中基于类别数据分布特性的噪声处理方法[J].现代图书情报技术,2014(11):66-72. 被引量：2
4王学良,黄廉卿.HRIS中基于噪声特征的自适应迭代处理方法[J].光学精密工程,1999,7(3):52-57.
5王金水,薛醒思,唐郑熠.一种基于命名实体识别的需求跟踪方法[J].计算机应用研究,2016,33(1):132-135. 被引量：1
6郭艳萍,周海彬.数字图像处理技术在条码识别中的应用[J].河海大学常州分校学报,2002,16(3):15-18. 被引量：2
7卢小雷.【无拘无束】 Canon imageCLASS MF4420w激光多功能一体机[J].个人电脑,2012,18(5):24-24.
8邵桂芳,李刚,李铁军,张倩.基因芯片图像高亮噪声处理算法研究[J].厦门大学学报（自然科学版）,2009,48(3):330-333. 被引量：2
9王文英,周伟,袁春,刘顺喜,周连芳,杨红磊.CBERS-02影像条带噪声处理方法探讨[J].安徽农业科学,2010,38(8):4350-4352.
10王文英,周伟,袁春,刘顺喜,周连芳,杨红磊.Study on Method of Removing Stripe Noise in CBERS-02 Image[J].Meteorological and Environmental Research,2010,1(1):42-45.

计算机工程与科学

2010年第7期

浏览历史

内容加载中请稍等...

文本分类中基于概率主题模型的噪声处理方法被引量：9

参考文献11

同被引文献150

引证文献9

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

文本分类中基于概率主题模型的噪声处理方法 被引量：9

参考文献11

同被引文献150

引证文献9

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

文本分类中基于概率主题模型的噪声处理方法被引量：9