基于最大熵模型的不良文本识别

Illegitimate Contents Recognition based on Maximun Entropy Model

下载PDF

导出

摘要构建了一个基于最大熵原理的不良文本识别模型,该模型分为训练和测试两个模块,先从训练语料中抽取特征,利用最大熵方法对特征进行训练,然后使用经过训练的特征,对测试集中的不良文本进行识别,达到了比较满意的识别效果,最后对实验结果进行了分析。 To constructs a model for illegitimate contents recognition, which is based on the maximum entropy principle. The model consists of a training module and a testing module. At first, features are extracted from the training corpus. The maximum entropy principle is employed to train the features. Then the trained features are used to recognize illegitimate contents in the testing set. The experimental results are satisfying and have been analyzed at the end of th is paper.

作者高峰张永奎

机构地区山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室

出处《电脑开发与应用》 2009年第1期6-8,共3页 Computer Development & Applications

基金国家自然科学基金资助项目(60475022)

关键词最大熵模型特征选择特征函数不良文本识别 maximum entropy model, feature selection, feature function, illegitimate contents recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1李强,李建华.基于向量空间模型的过滤不良文本方法[J].计算机工程,2006,32(10):4-5. 被引量：14
2Yang Y M, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization [M]. US : In: Proceedings of the 14th International Conference on Machine Learning(ICML97), 1997.
3Yang Y M. An Evaluation of Statistical Approaches to Text Categorization [J].Journal of Information Retrieval, 1999,1 ( 1 ) : 67-88.
4徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
5李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
6最大熵工具包.http://homepages.inf-ed.ac.uk/s0450736/maxem_toolkit.html,2007-12-25.

二级参考文献28

1赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
3D. D. Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998, 4-15.
4Y. Yang, X. Lin. A re-examination of text categorization methods. In: The 22nd Annual Int'l ACM SIGIR Conf. onResearch and Development in the Information Retrieval. NewYork: ACM Press, 1999.
5Y. Yang, C. G. Chute. An example based mapping method for text categorization and retrieval. ACM Trans. on Information Systems, 1994, 12(3): 252 -277.
6E. Wiener. A neural network approach to topic spotting. The 4th Annual Syrup. on Document Analysis and Information Retrieval,Las Vegas, NV, 1995.
7R. E. Schapire, Y. Singer. Improved boosting algorithms using confidence-rated predications. In: Proc. of the 11th Annual Conf.on Computational Learning Theory. New York: ACM Press,1998. 80--91.
8T. Joachims. Text categorization with support vector machines:Learning with many relevant features. In: Proc. of the 10th European Conf. on Machine Learning. New York: Springer,1998. 137-142.
9Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1 ( 1 ) : 76-- 88.
10R. Adwait. Maximum entropy models for natural language ambiguity resolution: [ Ph. D. dissertation ] . Pennsylvania:University of Pennsylvania, 1998.

共引文献186

1彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
2陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
3修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
4钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
6尚文倩,瞿有利,黄厚宽,朱海滨,林永民,董红斌.基于基尼的模糊kNN分类器(英文)[J].广西师范大学学报（自然科学版）,2006,24(4):87-90.
7周琳.摄影,靠的就是眼力[J].军事记者,2006(10):52-52.
8尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
9崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
10司广涛,李培峰,朱巧明,李军辉.基于最大熵模型的邮件过滤系统研究[J].计算机工程与应用,2006,42(32):119-121.

1张永奎,高峰.一种不良文本识别特征选择方法[J].计算机工程与应用,2010,46(2):129-131.
2仁青诺布,苏亚超,孙亚东.基于最大熵模型的藏文不良文本识别系统的设计和实现[J].西藏科技,2014(3):77-78.
3吕洪艳,杜鹃.基于SVM的不良文本信息识别[J].计算机系统应用,2015,24(6):183-187. 被引量：5
4孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
5龙珑,邓伟.绿网摘要提取系统算法研究[J].微型机与应用,2013,32(12):14-16.
6熊静娴,李生红.面向不良文本信息监控的概念网技术研究[J].计算机工程与应用,2006,42(3):183-186. 被引量：3
7黄家裕,刘连芳.基于多质心的不良文本快速过滤方法[J].广西科学院学报,2010,26(4):436-438.
8彭昱忠,元昌安,覃晓,蔡宏果.基于内容的网络不良文本信息动态过滤技术探析[J].广西师范学院学报（自然科学版）,2008,25(4):89-93. 被引量：3
9吴慧玲,沈建京,贺广生.基于不良文本信息过滤预处理方法的研究[J].网络安全技术与应用,2006(11):61-63. 被引量：2
10崔鸿达,蒋朝惠.基于语义倾向性分析的不良文本检测模型研究[J].贵州大学学报（自然科学版）,2013,30(3):104-108. 被引量：1

电脑开发与应用

2009年第1期

浏览历史

内容加载中请稍等...

基于最大熵模型的不良文本识别

参考文献6

二级参考文献28

共引文献186

相关作者

相关机构

相关主题

浏览历史