基于N元模型的维吾尔文文本分类技术研究被引量：6

Research N-gram based Uyghur text classification technique

下载PDF

导出

摘要考虑到维吾尔文词干提取、词性标注等工具不够成熟和相关的开源资源很少的实际情况,提出了基于N元模型的维吾尔文文本分类技术。其特点是不需要任何自然语言处理工具,拼写错误率对分类结果的影响很低。在训练阶段分别提取字符级别的三元和四元模型构造不同规模的N元词典,在分类测试阶段分别用曼哈顿距离计算和骰子测量对文本进行分类。实验结果表明,当四元模型词典的规模为500时,使用骰子测量分类时性能最佳,平准准确率达到86.56%。 Considering Uyghur stemming, POS tagging and other tools are not mature enough and there are a few open resources, this paper proposed N-gram based Uyghur text classification technique. The advantages were don＇ t needs any natural language processing tools and misspelling had low impact on text classification. In the process of learning phase extracted respectively character level tri-grams and quad-grams and constructed different scale N-gram profile, in the classification process respectively used Manhattan distance and Dice measure to classified text. The experimental results show that when quad gram profile size 500 and use Dice measure has best classification performance. The average accuracy rate reaches 86. 56%.

作者买买提依明.哈斯木吾守尔.斯拉木维尼拉.木沙江努尔麦麦提.尤鲁瓦斯

机构地区新疆大学信息科学与工程学院新疆多语种重点实验室和田师范专科学校计算机科学系

出处《计算机应用研究》 CSCD 北大核心 2015年第7期1986-1988,2004,共4页 Application Research of Computers

基金国家"973"重点基础研究计划基金资助项目(2014CB340506) 国家自然科学基金资助项目(61262063 61363063)

关键词 N元文本分类维吾尔文 N元词典相似度曼哈顿距离骰子测量 N-gram text classification Uyghur text N-gram profile similarity Manhattan distance dice measure

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Laila K. Arabic text classification using N-gram frequency statistics a comparative study [ C ]//Proc of International Conference on Data Mining. 2006.
2Sebastiani F. Machine learning in automated text categorization [ J ]. ACM Computing Surveys, 2002, 34 ( 1 ) : 1-47.
3毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
4Cavnar W B, Trenkle J M, N-gram based text categorization [ C ]// Proc of the 3rd Annum Symposium on Document Analysis and Infor- mation Retrieval. 1994 : 161-175.
5周水庚,关佶红,俞红奇,胡运发.基于Ngram信息的中文文档分类研究[J].中文信息学报,2001,15(1):34-39. 被引量：23
6王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
7周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
8何浩,杨海棠.一种基于N-Gram技术的中文文献自动分类方法[J].情报学报,2002,21(4):421-427. 被引量：18
9阿力木江·艾沙,吐尔根·依布拉音,艾山·吾买尔,马尔哈巴·艾力.基于机器学习的维吾尔文文本分类研究[J].计算机工程与应用,2012,48(5):110-112. 被引量：20
10王昊,李思舒,邓三鸿.基于N-Gram的文本语种识别研究[J].现代图书情报技术,2013(4):54-61. 被引量：6

二级参考文献84

1刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4
2张璠.多种策略改进朴素贝叶斯分类器[J].微机发展,2005,15(4):35-36. 被引量：11
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
4刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,22(7):84-86. 被引量：7
5周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
6冯冲,黄河燕,陈肇雄,张亮.基于字符层马尔科夫模型的多语种识别[J].计算机科学,2006,33(1):226-228. 被引量：5
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
8黄友平,史忠植.基于信息几何构建朴素贝叶斯分类器[J].通讯和计算机（中英文版）,2005,2(2):1-6. 被引量：1
9Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM, 1975,18( 11 ) : 613-620.
10Salton G, Buckley C.Term-weighting approaches in automated text retrieval[J].Inform Process Man, 1988,24(5) :513-523.

共引文献88

1于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3杨晔.网上教学资源挖掘与文本自动分类系统[J].广东工业大学学报,2005,22(2):79-82.
4陈晓云,胡运发.规则加权的文本关联分类[J].中文信息学报,2005,19(4):52-59. 被引量：4
5王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
6郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
7姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
8杜长海,吉根林.模糊聚类在中文文本分类中的应用研究[J].计算机工程与应用,2006,42(8):170-172. 被引量：5
9党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
10毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16

同被引文献36

1胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
2田生伟,吐尔根.依布拉音,禹龙,买合木提.木合买提,艾山.吾买尔.一种维吾尔语句子相似度算法的研究[J].计算机工程与应用,2009,45(26):144-146. 被引量：10
3阿力木江·艾沙,吐尔根·依布拉音,库尔班·吾布力,李哲.基于短语的维吾尔文文本分类[J].计算机应用,2012,32(10):2923-2926. 被引量：5
4李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
5麦热哈巴·艾力,姜文斌,王志洋,吐尔根·依布拉音,刘群.维吾尔语词法分析的有向图模型[J].软件学报,2012,23(12):3115-3129. 被引量：22
6艾海麦提江.阿布来提,吐尔地.托合提,艾斯卡尔.艾木都拉.基于Naive Bayes的维吾尔文文本分类算法及其性能分析[J].计算机应用与软件,2012,29(12):27-29. 被引量：7
7阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
8吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.基于互信息的维吾尔文自适应组词算法[J].计算机应用研究,2013,30(2):429-431. 被引量：6
9吐尔地.托合提,艾海麦提江.阿布来提,米也塞.艾尼玩,艾斯卡尔.艾木都拉.一种结合GAAC和K-means的维吾尔文文本聚类算法[J].计算机工程与科学,2013,35(7):149-155. 被引量：5
10白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7

引证文献6

1阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
2如先姑力.阿布都热西提,亚森.艾则孜,年梅.基于广泛相似度的维吾尔语文档分类方案[J].计算机工程与设计,2017,38(6):1686-1691.
3亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙.基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法[J].计算机应用研究,2019,36(6):1731-1736.
4李高鹏,艾山·吾买尔.融合词性的维吾尔语文本分类研究[J].现代计算机,2019,25(17):21-25.
5张莹,亚森·艾则孜,吴顺祥.利用N-gram和语义分析的维吾尔语文本相似性检测方法[J].计算机应用研究,2019,36(9):2722-2725. 被引量：1
6如先姑力·阿布都热西提,亚森·艾则孜,郭文强.维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法[J].计算机应用研究,2019,36(11):3410-3414. 被引量：5

二级引证文献14

1徐智威.基于《知网》的词语相似度计算算法研究[J].包装世界,2018,0(4):101-102.
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3关浩华.基于语音分析的智能质检关键词提取方法设计[J].自动化与仪器仪表,2017(7):106-108. 被引量：5
4艾比布拉.阿不拉,马振,哈力旦.阿布都热依木,吴冰冰.基于Hadoop的维吾尔文文本分类[J].计算机工程与设计,2018,39(8):2500-2504. 被引量：1
5王涛,李明.改进的关键词提取算法研究[J].重庆师范大学学报（自然科学版）,2019,36(3):98-104. 被引量：8
6李高鹏,艾山·吾买尔.融合词性的维吾尔语文本分类研究[J].现代计算机,2019,25(17):21-25.
7付强,裴佩,丁永刚.基于因子分解机的灰色产业服务网页过滤方法[J].软件导刊,2019,18(9):150-153. 被引量：1
8沙尔旦尔·帕尔哈提,米吉提·阿不里米提,艾斯卡尔·艾木都拉.基于词干单元的维-哈语文本关键词提取研究[J].计算机工程与科学,2020,42(1):131-137. 被引量：4
9孟庆春.基于N-gram特征的网络恶意代码分析方法[J].数字技术与应用,2020,38(3):49-50. 被引量：3
10白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1

1曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
2贾迪,孟祥福,孟琭,董娜.RGB空间下结合高斯曼哈顿距离图的彩色图像边缘检测[J].电子学报,2014,42(2):257-263. 被引量：18
3黄怡然,胡晓勤.基于击键动力学的中文自由文本持续认证方法[J].计算机工程,2016,42(1):138-144. 被引量：3
4阿丽亚·艾尔肯,哈力旦·阿布都热依木.KNN和SVM分类器对维吾尔文文本分类性能的比较研究[J].新疆大学学报（自然科学维文版）,2015,36(2):59-65. 被引量：1
5杜璞.中文信息处理的主流技术[J].科技创新导报,2009,6(24):172-172. 被引量：1
6曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
7常恒.数字信息检测方法的探究[J].黑龙江科技信息,2014(27):93-93.
8常恒.数字信息检测方法的探究[J].黑龙江科技信息,2014(26):191-191.
9阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
10康铁钢,戴汝为.一种基于大规模标注语料库的词语聚类方法[J].系统仿真学报,2003,15(10):1439-1442. 被引量：3

计算机应用研究

2015年第7期

浏览历史

内容加载中请稍等...

基于N元模型的维吾尔文文本分类技术研究被引量：6

参考文献10

二级参考文献84

共引文献88

同被引文献36

引证文献6

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于N元模型的维吾尔文文本分类技术研究 被引量：6

参考文献10

二级参考文献84

共引文献88

同被引文献36

引证文献6

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于N元模型的维吾尔文文本分类技术研究被引量：6