一种基于聚类的PU主动文本分类方法被引量：24

Clustering-Based PU Active Text Classification Method

下载PDF

导出

摘要文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. Text classification is a key technology in information retrieval. Collecting more reliable negative examples, and building effective and efficient classifiers are two important problems for automatic text classification. However, the existing methods mostly collect a small number of reliable negative examples, keeping the classifiers from reaching high accuracy. In this paper, a clustering-based method for automatic PU （positive and unlabeled） text classification enhanced by SVM active learning is proposed. In contrast to traditional methods, this approach is based on the clustering technique which employs the characteristic that positive and negative examples should share as few words as possible. It finds more reliable negative examples by removing as many probable positive examples from unlabeled set as possible. In the process of building classifier, a term weighting scheme TFIPNDF （term frequency inverse positive-negative document frequency, improved TFIDF） is adopted. An additional improved Rocchio, in conjunction with SVMs active learning, significantly improves the performance of classifying. Experimental results on three different datasets （RCV1, Reuters-21578, 20 Newsgroups） show that the proposed clustering- based method extracts more reliable negative examples than the baseline algorithms with very low error rates and implementing SVM active learning also improves the accuracy of classification significantly.

作者刘露彭涛左万利戴耀康

机构地区吉林大学计算机科学与技术学院 Department of Computer Science 符号计算与知识工程教育部重点实验室(吉林大学)

出处《软件学报》 EI CSCD 北大核心 2013年第11期2571-2583,共13页 Journal of Software

基金国家自然科学基金(60903098,60973040)

关键词 PU(FIositive and unlabeled)文本分类聚类 TFIPNDF(term FREQUENCY inverse positive negative document frequency) 主动学习可信反例改进的Rocchio positive and unlabeled （PU） text classification clustering TFIPNDF （term frequency inverse positive-negative documentfrequency） active learning reliable negative example improved Rocchio

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献41

1Liu W, Wang T. Online active multi-field learning for efficient email spam filtering. Knowledge and Information Systems, 2012, 33(1):117-136. [doi: 10.1007/s 10115-011-0461-x].
2Fumera G, Pillai I, Roli F. Spam filtering based on the analysis of text information embedded into images. Journal of Machine Learning Research, 2006,7:2699-2720.
3Qi XG, Davison BD. Web page classification: Feature and algorithms. ACM Computing Surveys, 2009,41(2):Article 12. [doi: 10. 1145/1459352.1459357].
4Anotonellis I, Bouras C, Poulopoulos V. Personalized news categorization through scalable text classification. Frontiers of WWW Research and Development-APWEB, Lecture Notes in Computer Science, 2006,3841:391-401. [doi: 10.1007/11610113 35].
5Hu M, Liu B. Mining and summarizing customer review. In: Proc. of the ACM SIGKDD Int’l Conf. on Knowledge Discovery and Data Mining. New York: ACM, 2004. 168-177. [doi: 10.1145/1014052.1014073].
6Kim S, Hovy E. Determining the sentiment of opinions. In: Proc. of the Int’l Conf. on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2004. [doi: 10. 3115/1220355.1220555].
7Schohn G, Cohn D. Less is more: Active learning with support vector machines. In: Proc. of the 17th Int’l Conf. on Machine Learning. San Francisco: Morgan Kaufmann Publishers, Inc., 2000. 839-846.
8Liu B, Lee WS, Yu PS, Li XL. Partially supervised classification of text documents. In: Sammut C, Hoffmann AG, eds. Proc. of the 19th Int’l Conf. on Machine Learning. San Francisco: Morgan Kaufmann Publishers, Inc., 2002. 387-394.
9Yu H, Han JW, Chang KCC. PEBL: Positive example based learning for Web page classification using SVM. In: Proc. of the Knowledge Discovery and Data Mining. New York: ACM, 2002. 239-248. [doi: 10.1145/775047.775083].
10Li XL, Liu B. Learning to classify texts using positive and unlabeled data. In: Proc. of the Int’l Joint Conf. on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers, Inc., 2003. 587-592.

同被引文献181

1张海荣,朱信忠,赵建民,徐慧英.一种优化的基于用户聚类的过滤推荐策略[J].计算机系统应用,2008,17(11):95-97. 被引量：6
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
4樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
5廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
8张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
9张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
10刘秀松.基于改进的SVM文本分类建模[J].情报理论与实践,2007,30(6):841-843. 被引量：7

引证文献24

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2王海荣.基于加权频繁子图挖掘的图模型在文本分类中的应用[J].科学技术与工程,2014,22(22):80-85. 被引量：3
3刘建粉,史永昌.基于用户兴趣分类优化的聚类模型仿真[J].微电子学与计算机,2014,31(5):171-174. 被引量：2
4翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2
5赵丽,齐兴斌,李雪梅,田涛.基于PTM潜在Dirichlet分配的少量标记样本文本分类[J].计算机应用研究,2015,32(5):1428-1432. 被引量：2
6王宗尧,刘金岭.基于支持向量机的PU中文文本分类器构建[J].南京邮电大学学报（自然科学版）,2015,35(6):100-105. 被引量：6
7刘颖莹,刘培玉,王智昊,李情情,朱振方.一种基于密度峰值发现的文本聚类算法[J].山东大学学报（理学版）,2016,51(1):65-70. 被引量：10
8如先姑力.阿布都热西提,贺一峰,亚森.艾则孜.基于文本分类的维吾尔文数字取证研究[J].现代电子技术,2016,39(10):9-13. 被引量：1
9郑诚,吴文岫,代宁.融合BTM主题特征的短文本分类方法[J].计算机工程与应用,2016,52(13):95-100. 被引量：11
10徐云恒.融合通信不良信息个性化管控方法研究[J].移动通信,2016,40(12):33-38.

二级引证文献73

1黄解放.拓展思维空间提高训练效率──第八册《基础训练6》教学设计[J].小学语文教学,2000(6):52-53.
2董跃华,刘力.基于权衡因子的决策树优化算法[J].江西理工大学学报,2015,36(5):90-97.
3赵夫群.基于半监督学习的Web页面内容分类技术研究[J].现代电子技术,2016,39(1):108-112. 被引量：1
4何兆怡.一种基于模拟退火算法的密度聚类方法[J].福建电脑,2016,32(4):130-131.
5梁娟,王崇科,海本斋.模糊优化结合智能干扰区域划分的微装配控制[J].控制工程,2017,24(2):452-457.
6李凯凯,宋礼鹏.基于社交网络的用户行为记忆性研究[J].微电子学与计算机,2017,34(3):133-135. 被引量：4
7刘莹,王宁,李保华,罗强.模糊语法方法在犯罪文本分类中的应用[J].计算机工程与设计,2017,38(7):1965-1971. 被引量：2
8杨洁,王国胤,庞紫玲.密度峰值聚类相关问题的研究[J].南京大学学报（自然科学版）,2017,53(4):791-801. 被引量：12
9刘平,王晓,刘春.小差异化图像数据库中的特定特征挖掘方法设计[J].沈阳工业大学学报,2017,39(5):562-566. 被引量：4
10龚静,黄欣阳.基于改进模糊语法增量式算法的文本分类方法[J].计算机应用研究,2017,34(11):3355-3358. 被引量：3

1路金泉,徐开勇,戴乐育.基于文本过滤的贝叶斯分类算法的改进[J].计算机与现代化,2016(9):100-103. 被引量：3
2刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：124
3陈朔鹰,金镇晟.基于改进的TF-IDF算法的微博话题检测[J].科技导报,2016,34(2):282-286. 被引量：15
4蛋炒番茄,牛唱（图）.春季新款靓本第一波三款个性化超便携电脑集中测试[J].微型计算机,2009,29(12):27-32.
5迅驰2没有秘密：首批上市迅驰2新机集中测试[J].微型计算机,2008,28(24):42-48.
6孙玉强,巢碧霞.基于双重并行计算模型的TFIDF算法[J].计算机工程与设计,2016,37(11):3016-3021. 被引量：2
7李盛瑜,何文.一种对聊天文本进行特征选取的方法研究[J].计算机科学,2007,34(5):202-204.
8代宽,赵辉,韩冬,宋天勇.基于向量空间模型的中文网页主题特征项抽取[J].吉林大学学报（信息科学版）,2014,32(1):88-94. 被引量：10
9许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
10田世全,陈钊.基于SVM的林产品贸易信息分类[J].电子世界,2014(9):188-189. 被引量：1

软件学报

2013年第11期

浏览历史

内容加载中请稍等...

一种基于聚类的PU主动文本分类方法被引量：24

参考文献41

同被引文献181

引证文献24

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

一种基于聚类的PU主动文本分类方法 被引量：24

参考文献41

同被引文献181

引证文献24

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

一种基于聚类的PU主动文本分类方法被引量：24