基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统被引量：16

A Chinese Text Classifier Based on n-gram Language Model and Chain Augmented Na?ve Bayesian Classifier

下载PDF

导出

摘要本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 An automatic Chinese text categorization method based on n-gram language model and chain augmented naYve Bayesian classifier is proposed. The paper introduces the representation of a text through n-gram language model, argues the advantage of Combining n-gram language model and chain augmented naive Bayesian classifier, analyzes how to choose the parameters of n-gram language model, and discusses some crucial problems of the categorization system. The effect of quantity and quality of training corpus on classifier pedormance is also studied experimentally. The categorization system is tested on the 863-project data set for Chinese text categorization. The experimental result shows that the system performs well.

作者毛伟徐蔚然郭军

机构地区北京邮电大学模式识别与智能系统实验室

出处《中文信息学报》 CSCD 北大核心 2006年第3期29-35,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60475007)

关键词计算机应用中文信息处理中文文本分类 N-GRAM语言模型链状朴素贝叶斯分类器 computer application Chinese information processing Chinese text categorization n-gram language model chain augmented naYve Bayesian classifier

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Ricardo Baeza-Yates,Berthier Ribeiro-Neto,Modern Information Retrieval.[M] China Machine Press,2003.
2Fuchun Peng,Dale Schuurmans,Shaojun Wang,Augmenting Naive Bayes Classiers with Statistical Language Models[M].School of Computer Science at University of Waterloo,2004.
3http://www.863data.org.cn/[OL].
4D.Hiemstra,Using Language Models for Information Retrieval[D].Centre for Telematics and Information Technology,University of Twente,2001.
5A.McCallum,K.Nigam,A Comparison of Event Models for Naive Bayes Text Classification[R].In:proceedings of AAAI-98 Workshop on "Learning for Text Categorization",1998.
6D.Holmes,R.Forsyth,The Federalist Revisited:New Directions in Authorship Attribution[J].Literary and linguistic Computing,1995 (10):111-127.
7J.Ponte,W.Croft,A Language Modeling Approach to Information Retrieval[A].In:proceeding of ACM Research and Development in Information Retrieval(SIGIR)[C],1998.
8刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48
9刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,22(7):84-86. 被引量：7
10周水庚,关佶红,俞红奇,胡运发.基于Ngram信息的中文文档分类研究[J].中文信息学报,2001,15(1):34-39. 被引量：23

二级参考文献48

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2王还常宝儒.现代汉语频率词典[M].北京:北京语言学院出版社,1986..
3卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
4David Maxwell. Learning equivalence classes of Bayesian - network structures[ J ]. Machine Learning, 2002 (2) :445 - 498.
5Nir Friedman. Bayesian network classifiers[ J ]. Machine Learming, 1997,29:131-163.
6Marco Ramcni. Robust Bayes clasifiers[J]. Artificial Intelligence,2001,125(1,2) :209- 226.
7David Heckerman. Learning Bayesian networks: the combination of knowledge and statistical data[J ]. Machine Learning, 1995,20:197- 243.
8Cheng Jie. Learning Bayesian networks from data: an information - theory based approach[J]. Artificial Intelligence,2002,137(1,2) :43-90.
9Wong M L. Using evolutionary programming and mininum description length prindple for data mining of Bayesian networks[ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999,21 ( 2 ) : 174-178.
10Witten I H, Frank E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations[M].Seattle: Morgan Kaufmann Publishers,2000. 265 - 314.

共引文献314

1秦春影,刘小伟,徐新爱,卢昕.考虑属性间关系的诊断测验分类:贝叶斯网模型与DINA模型的比较[J].统计与决策,2021(8):40-45. 被引量：1
2丛树学,马英超.舰艇近程防空武器的优化分配算法[J].舰船电子工程,2008,28(9):138-141.
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
5陶建斌,舒宁.约束型贝叶斯网络在遥感图像解译中的应用方法研究[J].国土资源遥感,2009,21(2):91-96. 被引量：2
6黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
7雷小锋,夏征义,谢昆青.SROC:一种面向结构鲁棒性的迭代聚类方法[J].计算机研究与发展,2007,44(z3):263-267.
8尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
9王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
10戴波,徐云,田小平,盛沙,马杰.基于SVM多分类器的管道内检测信号处理研究[J].杭州电子科技大学学报（自然科学版）,2010,30(4):65-71. 被引量：3

同被引文献132

1姜卯生,王浩,姚宏亮.朴素贝叶斯分类器增量学习序列算法研究[J].计算机工程与应用,2004,40(14):57-59. 被引量：10
2钱铁云,王元珍,冯小年.结合类频率的关联中文文本分类[J].中文信息学报,2004,18(6):30-36. 被引量：12
3胡于进,周小玲,凌玲,王学林.基于向量空间模型的贝叶斯文本分类方法[J].计算机与数字工程,2004,32(6):28-30. 被引量：7
4周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
5陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
6张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
7王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
8费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
9卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
10陈文亮,朱慕华,朱靖波,姚天顺.基于Bootstrapping的文本分类模型[J].中文信息学报,2005,19(2):86-92. 被引量：6

引证文献16

1陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
2王小冷,王斌.一种抗噪音的中文网页分类方法[J].中文信息学报,2007,21(4):48-54. 被引量：1
3裴亚辉,熊盛武.朴素贝叶斯及其扩展模型[J].网络安全技术与应用,2007(8):49-51. 被引量：3
4吴建源.基于BP神经网络的中文分词算法研究[J].广东培正学院学报,2011,11(4):73-76. 被引量：1
5吴建源.基于BP神经网络的中文分词算法研究[J].佛山科学技术学院学报（自然科学版）,2012,30(2):33-37. 被引量：2
6王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：9
7施询之,孙宁远,李骋罡.基于微博信息库和文本分词的人机对话模型设计[J].计算机与现代化,2013(11):207-209. 被引量：1
8屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报（工学版）,2018,48(6):37-43. 被引量：10
9买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于N元模型的维吾尔文文本分类技术研究[J].计算机应用研究,2015,32(7):1986-1988. 被引量：6
10郑津,景彦昊.中文网页分类技术解析[J].福建电脑,2015,31(2):73-74.

二级引证文献48

1牛华勇,窦一轩,夏晓雪.国内外财经文本分析研究综述[J].语料库语言学,2022,9(2):81-95.
2徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
3石红艳,戴勃,刘畅,黄绪勇.一种基于ART-2改进后的网格入侵检测模型[J].辽宁工业大学学报（自然科学版）,2010,30(1):11-15.
4郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
5周丽红,刘勘.基于关联规则的科技文献分类研究[J].图书情报工作,2012,56(4):12-16. 被引量：9
6施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(8):229-232. 被引量：7
7李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5
8王贤明,谷琼,胡智文.基于R-Grams的文本聚类方法[J].计算机应用,2015,35(11):3130-3134. 被引量：1
9葛文镇,刘柏嵩,王洋洋,赵福青.基于层级类别信息的标题自动分类研究[J].计算机应用研究,2016,33(7):2030-2033. 被引量：6
10阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8

1卢先宁,高泽华,高峰.Web日志挖掘中的会话识别技术研究[J].数据通信,2012(4):19-21.
2陶志荣.N—gram语言模型的Katz平滑技术[J].电子计算机,2002(2):32-35. 被引量：1
3江铭虎,朱小燕,袁保宗.一种适应域的汉语N-gram语言模型平滑算法[J].清华大学学报（自然科学版）,1999,39(9):99-102. 被引量：9
4汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163-166. 被引量：4
5林伟,柳荣其,徐熙.一种基于N-Gram的垃圾邮件过滤方法研究[J].计算机应用与软件,2010,27(2):121-123. 被引量：5
6宁雪静.浅析多媒体教学与传统教学的优化整合[J].科技视界,2012(31):155-155. 被引量：2
7韦向峰,张全,熊亮.一种基于语义分析的汉语语音识别纠错方法[J].计算机科学,2006,33(10):152-155. 被引量：2
8孙兴东,李爱平,李树栋.一种基于聚类的微博关键词提取方法的研究与实现[J].信息网络安全,2014(12):27-31. 被引量：9
9冯鲸华,古丽拉.阿东别克,玛依来.哈帕尔.基于N-gram语言模型的哈萨克文机构名识别[J].计算机工程与应用,2010,46(31):135-138. 被引量：2
10黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5

中文信息学报

2006年第3期

浏览历史

内容加载中请稍等...

基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统被引量：16

参考文献16

二级参考文献48

共引文献314

同被引文献132

引证文献16

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 被引量：16

参考文献16

二级参考文献48

共引文献314

同被引文献132

引证文献16

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统被引量：16