规则加权的文本关联分类被引量：4

Association Rules Text Categorization Based on Weighted Rules

下载PDF

导出

摘要近年来,基于关联规则的文本分类方法受到普遍关注。虽然在一般情况下这种方法可获得较好的分类效果。但当样本特征词分布明显不均时,分类规则在各类别的分布也出现不均,从而导致分类准确率下降。本文设计和实现的基于规则权重调整的关联规则文本分类算法可有效地解决这一问题。该算法根据误分类训练样本的数量定义规则强度。对强规则通过乘以小于1的调整因子降低其权重,而弱规则乘以大于1的调整因子提高其权重。实验结果表明经过规则权重的调整,分类质量显著提高。 Recently, categorization methods based on association rules have been given much attention. In general, association classification has the higher accuracy and the better performance. However, the classification accuracy drops rapidly when the distribution of feature words in training set is uneven. Therefore, text categorization algorithm Weighted Association Rules Categorization (WARC) is proposed in this paper. In this method,rule intensity is defined according to the number of misclassified training samples. Each strong rule is multiplied by factor less than 1 to reduce its weight while each weak rule is multiplied by factor more than 1 to increase its weight. The result of research shows that this method can remarkably improve the accuracy of association classification algorithms by regulation of rules weights.

作者陈晓云胡运发

机构地区复旦大学计算机与信息技术系

出处《中文信息学报》 CSCD 北大核心 2005年第4期52-59,共8页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(69933010) 福建省教委科技基金资助项目(JB02069)

关键词计算机应用中文信息处理关联分类规则强度权重 computer application Chinese information processing association classification rule intensity weight

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1W Li, J Hart, J pei.. CMAR: Accurate and efficient classification based on multiple classification rules. In: IEEE International Conference on Data Mining(ICDM'01)[C], San Jose, California, November 29-December 2001.
2B.Liu,W. Hsu and Y. Ma. Integrating classification and association rule rnining[C] In: ACM Int. Conf. on Knowledge Discovery and Data Mining (SIG KDD'98), pages 80-86, NewYork City, NY, August 1998.
3O.R.Za? ane and M.L.Antonie. Classifying text documents by associating terms with text categories[C]. In: Thirteenth Australasian Database Conference(ADC'02), pages 215-222, Melbourne, Australia, January 2002.
4Yoav Freund Robert E. Schapire,Experiments with a New Boosting Algorithm[C]. In: Machine Learning:Proceedings of the Thirteenth International Conference,pages 148-157, Bari, Italy 1996.
5R. Agrawal and R. Srikant , Fast algorithms for mining association rules. In: Proceeding of the 1994 International Conference on Vary Large Data Bases,Santiago[C]. Chile, 1994.487-499.
6周水庚,关佶红,俞红奇,胡运发.基于Ngram信息的中文文档分类研究[J].中文信息学报,2001,15(1):34-39. 被引量：23
7金凌,吴文虎,郑方,吴根清.距离加权统计语言模型及其应用[J].中文信息学报,2001,15(6):47-52. 被引量：8
8Y. Yang and X Lin, A Re-Examination of Text Categorization Methods. In Proceedings of SIGIR 99[C], Berkeley,CA, 1999.
9Y. Yang, Jan P. Pedersen, Acomparative study on feature selection in text categorization, In: Proceedings of the Fourteenth International Conference on Machine Leaming(ICML'97)[C], Jr. Doughals H. Fisher, Ed., Nashville, TN,July 8-12 1997.
10Tom M.Michell, Machine Learning, China Machine Press[Z], 2003, 1.

二级参考文献7

1Jin Ling，Int Symposium on Chinese Spoken Language Processing，2000年，247页
2Zheng Fang，J Comput Sci Technol，2000年，5卷，461页
3Zhang Shuwu，Euro Speech'97 Proceedings.5，1997年，2699页
4Chen S F，Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics，1996年，310页
5黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
6邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45
7战学刚,林鸿飞,姚天顺.中文文献的层次分类方法[J].中文信息学报,1999,13(6):20-25. 被引量：22

共引文献28

1张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
2姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
3杜长海,吉根林.模糊聚类在中文文本分类中的应用研究[J].计算机工程与应用,2006,42(8):170-172. 被引量：5
4党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
5毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
6蔡代纯.基于统计模型的逐步求精标引策略[J].现代图书情报技术,2006(6):39-42.
7刘金红,陆余良.基于Ontology改进的N-Gram文本分类模型研究[J].计算机工程与设计,2007,28(13):3213-3215. 被引量：3
8牛强,王志晓,陈岱,夏士雄.基于KNN的Web文本分类方法的研究[J].计算机应用与软件,2007,24(10):210-211. 被引量：8
9桂海霞,孟祥瑞.基于粗糙集与KNN的Web文本分类的研究[J].安徽理工大学学报（自然科学版）,2008,28(4):89-92.
10韩鹏,郭敦陶.Web文本分类系统研究[J].民营科技,2009(2):18-18.

同被引文献77

1苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
2钱铁云,王元珍,冯小年.结合类频率的关联中文文本分类[J].中文信息学报,2004,18(6):30-36. 被引量：12
3侯敏,孙建军.汉语中的零形回指及其在汉英机器翻译中的处理对策[J].中文信息学报,2005,19(1):14-20. 被引量：23
4陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
5梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
6高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
7刘蓓,杜利民.汉语口语对话系统中语义分析的消歧策略[J].中文信息学报,2005,19(1):76-83. 被引量：3
8苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
9张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
10孙建军,成颖.基于信息检索交互模型的相关性研究[J].中国图书馆学报,2005,31(1):41-45. 被引量：16

引证文献4

1罗进军.当前计算语言学研究的发展态势[J].湖南工业职业技术学院学报,2006,6(4):105-107.
2陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
3李艳玲,郭文普,徐东辉.一种不平衡数据的分类方法[J].中国电子科学研究院学报,2012,7(3):246-251. 被引量：5
4李钝,曹元大,万月亮.基于关联规则的安全特色关键词提取研究[J].计算机工程与应用,2006,42(A01):105-107. 被引量：5

二级引证文献11

1周学广,张焕国.抗中文主动干扰的柔性中文串匹配算法[J].武汉大学学报（理学版）,2009,55(1):101-104. 被引量：4
2袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11
3周丽红,刘勘.基于关联规则的科技文献分类研究[J].图书情报工作,2012,56(4):12-16. 被引量：9
4郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：23
5吕美香.《中国分类主题词表》的自动扩充研究——从元数据中提取关键词并定位[J].情报科学,2012,30(8):1160-1166. 被引量：3
6王丹,杨晓蓉.自动标引中的歧义词消除方法研究[J].图书情报工作,2014,58(5):93-97. 被引量：5
7王礼云,朱振伸,董瑞瑞.基于主曲线的空气悬浮颗粒物质PM10的预测[J].平顶山学院学报,2017,32(2):21-25.
8杨杰明,乔媛媛,王林,曲朝阳,刘海洋.基于流形排序的动态过抽样方法研究[J].计算机应用研究,2017,34(6):1659-1662. 被引量：2
9王礼云,朱振伸,董瑞瑞.基于主曲线的空气悬浮颗粒物质PM10的预测[J].南阳理工学院学报,2017,9(2):19-22.
10刘杰,苏慧哲,李艳翠.非平衡数据集中的特征选择方法和三支分类算法研究[J].河南科技学院学报（自然科学版）,2018,46(5):66-72. 被引量：2

1李如强,陈进,伍星.基于模糊C均值聚类和粗糙集理论的旋转机械故障诊断[J].信息与控制,2004,33(3):355-360. 被引量：7
2陈晓云,胡运发.基于自适应加权的文本关联分类[J].小型微型计算机系统,2007,28(1):116-121. 被引量：6
3黄再祥,周忠眉,何田中.基于相关规则的不平衡数据的关联分类[J].计算机科学,2014,41(2):111-113. 被引量：3
4路艳丽,雷英杰,李兆渊.一种D-S证据推理的BPA获取方法[J].空军工程大学学报（自然科学版）,2007,8(3):39-42. 被引量：7
5黄再祥,周忠眉,何田中,郑艺峰.改进的多类不平衡数据关联分类算法[J].模式识别与人工智能,2015,28(10):922-929. 被引量：11
6梁正峰,王磊.一种基于多规则加权的群控电梯模糊控制算法[J].电气传动自动化,2005,27(4):14-17. 被引量：4
7王卫平,周忠眉,郑艺峰.基于支持度和增比率的改进关联分类算法[J].计算机工程与科学,2016,38(2):370-375. 被引量：4
8赵昂,王磊,梁正峰.基于多传感器的电梯群控系统研究[J].测控技术,2006,25(7):37-39. 被引量：3
9赵青杉,王建国.基于GDT和粗糙集的数据挖掘[J].太原师范学院学报（自然科学版）,2006,5(1):37-40.
10付敏,韩猛.基于多规则加权电梯群控系统仿真[J].计算机与数字工程,2015,43(7):1249-1251. 被引量：2

中文信息学报

2005年第4期

浏览历史

内容加载中请稍等...

规则加权的文本关联分类被引量：4

参考文献10

二级参考文献7

共引文献28

同被引文献77

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

规则加权的文本关联分类 被引量：4

参考文献10

二级参考文献7

共引文献28

同被引文献77

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

规则加权的文本关联分类被引量：4