训练集类别分布对文本分类的影响被引量：27

Effects of category distribution in a training set on text categorization

导出

摘要为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇。在复旦大学语料库上使用类别均衡法,分别用N a ve B ayes和R occh io方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%。实验结果显示,类别均衡法显著提高了分类性能。 A category homogenizing method was developed to lower the effects of uneven distribution of different resources in a training set on text categorization. Categories in the original training set are reassembled to form a new training set in which the category distribution is more uniform, and therefore, training and classification are implemented to change unfair treatment for small categories in the training process. The method was applied to the Fudan University classification corpus with the macro-average...

作者张启蕊张凌董守斌谭景华

机构地区华南理工大学广东省计算机网络重点实验室中国电信集团广州研发中心

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第S1期1802-1805,共4页 Journal of Tsinghua University(Science and Technology)

基金高等学校优秀青年教师教学科研奖励计划资助项目

关键词文本分类训练集类别均衡法 text categorization training set category homogenizing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Hull D A.Improving text retrieval for the routing problem using latent semantic indexing[].Proceedings of the th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1994
2Sebastiani F.Machine learning in automated text categorization[].ACM Computing Surveys.2002

同被引文献272

1宁彬.基于数据挖掘的入侵检测系统研究[J].微计算机信息,2008,24(6):97-98. 被引量：10
2叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
5栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：115
6沈红斌,王士同,吴小俊.离群模糊核聚类算法[J].软件学报,2004,15(7):1021-1029. 被引量：37
7孙晋文,肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927-930. 被引量：16
8罗景,赵伟,秦涛,姜人宽,张路,孙家骕.基于有向带权图迭代的面向对象系统分解方法[J].软件学报,2004,15(9):1292-1300. 被引量：13
9黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
10陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43

引证文献27

1赵小明,孙晓璇,李攀,胡绍波.基于决策树分类算法的平行志愿填报及研究[J].思想战线,2010,36(S1):348-351. 被引量：2
2周荃,王崇骏,王王君,陈世福.PC4.5:用于不均衡数据集的C4.5改进算法[J].计算机辅助工程,2006,15(3):23-26. 被引量：2
3周立兵,柳景超.贝叶斯理论在垃圾邮件过滤中的应用分析[J].网络安全技术与应用,2006(11):68-69. 被引量：1
4岳训,迟忠先,葛平俱,莫宏伟,郝艳友.基于网络社区结构的训练集非均衡程度度量方法[J].小型微型计算机系统,2007,28(8):1427-1433.
5赵凤英,王崇骏,陈世福.用于不均衡数据集的挖掘方法[J].计算机科学,2007,34(9):139-141. 被引量：5
6李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
7李艳玲,戴冠中,余梅.基于反馈信息的特征权重调整方法[J].计算机工程,2009,35(2):206-207. 被引量：3
8李建更,高志坤.随机森林针对小样本数据类权重设置[J].计算机工程与应用,2009,45(26):131-134. 被引量：19
9欧阳勇,马忠宝.一种动态调整训练集的中文文本分类系统[J].湖北工业大学学报,2009,24(5):57-60.
10白凤凤.基于不平衡数据集的文本分类技术研究[J].电脑编程技巧与维护,2010(6):21-22. 被引量：1

二级引证文献174

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：3
2王朝飞,王凯.主题模型在数字图书馆Web服务中的应用[J].情报理论与实践,2010,33(2):118-120. 被引量：4
3张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8
4唐颖军,须德,解文杰,薄一航.一种基于类主题空间的图像场景分类方法[J].中国图象图形学报,2010,15(7):1067-1073. 被引量：14
5吴飞,韩亚洪,庄越挺,邵健.图像-文本相关性挖掘的Web图像聚类方法[J].软件学报,2010,21(7):1561-1575. 被引量：10
6尹军梅,杨明,万建武.一种面向不平衡数据集的核Fisher线性判别分析方法[J].模式识别与人工智能,2010,23(3):414-420. 被引量：5
7肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
8石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
9王红军,李志蜀,戚建淮,成飏,周鹏,周维.基于贝叶斯网络的半监督聚类集成模型[J].软件学报,2010,21(11):2814-2825. 被引量：9
10廖晓锋,刘春年,龚花萍.基于主题模型的图片检索结果语义聚类[J].电脑知识与技术,2010(12):9819-9821. 被引量：1

1本刊编辑部.2010,让我们的声音更加响亮[J].记者观察（上）,2010(1):1-1.
2陈雪云,卢伟胜.GSwMKnn:基于类别基尼系数子空间的加权互K近邻算法[J].计算机系统应用,2014,23(2):137-141. 被引量：1
3冯磊.被劫持的网络[J].信息方略,2008(17):42-44.
4史岳鹏,朱颢东.基于类别相关性和优化的ID3特征选择[J].数据采集与处理,2011,26(2):230-234. 被引量：3
5王加龙,朱颢东.结合类别相关性和辨识集的特征选择方法[J].微型机与应用,2009,28(23):65-68.
6李静.VRML技术在高校教学中的应用研究[J].池州学院学报,2009,23(3):18-22.
7兰明敬,胡建伟.结构化P2P网络上基于类别树的索引机制[J].计算机工程与设计,2013,34(8):2908-2912.
8王建杰.生产线均衡法——适于多项目批产计划管理的方法[J].航天工业管理,2008(6):20-25.
9李艳玲,戴冠中,余梅.基于反馈信息的特征权重调整方法[J].计算机工程,2009,35(2):206-207. 被引量：3
10詹艳梅,孙进才.一种新的连续特征量化方法[J].系统仿真学报,2004,16(4):856-858.

清华大学学报（自然科学版）

2005年第S1期

浏览历史

内容加载中请稍等...

训练集类别分布对文本分类的影响被引量：27

参考文献2

同被引文献272

引证文献27

二级引证文献174

相关作者

相关机构

相关主题

浏览历史

训练集类别分布对文本分类的影响 被引量：27

参考文献2

同被引文献272

引证文献27

二级引证文献174

相关作者

相关机构

相关主题

浏览历史

训练集类别分布对文本分类的影响被引量：27