基于Weka平台的文本分类实验研究被引量：1

Experimental Research on Text Classification Based on Weka Platform

下载PDF

导出

摘要文本分类的分类算法常用J48算法、Naive Bayes Multinomia算法和SMO算法,利用Weka平台选择路透社的数据集进行分类实验,根据查准率、查全率和F-Measure综合指标结合其他文本分类评价指标分析六次实验得到的结果,得出SMO算法优于其他两个算法。针对选择的Naive Bayes Multinomia算法,调整了numToSelect值,对其结果进行了优化。以此实验为文本分类研究工作提供参考。 On the basis of introducing the commonly used J48 algorithm,Naive Bayes Multinomia algorithm and SMO algorithm to the classification algorithm selection of text categorization,we use Weka platform to select data sets for classification experiments.According to the precision,recall and index combined with other text classification evaluation indexes,we analyze the results obtained from the six experiments,and conclude that SMO algorithm is better than the other two algorithms.For the selected Naive Bayes Multinomia algorithm,the numToSelect value is adjusted and its results optimized.This experiment provides some references for the research of text categorization.

作者李梅 LI Mei(School of Information Engineering,Huainan Union University,Huainan,Anhui Province 232001)

机构地区淮南联合大学信息工程学院

出处《楚雄师范学院学报》 2020年第3期115-119,共5页 Journal of Chuxiong Normal University

基金安徽省高等学校省级自然科学研究项目(NO:KJ2019A0456) 安徽省高等学校省级自然科学研究项目(NO:KJ2019A0664) 安徽省高等学校省级自然科学研究项目(NO:KJ2017A585)。

关键词文本分类 J48算法 Naive Bayes Multinomia算法 SMO算法 WEKA text classification J48 algorithm Naive Bayes Multinomia algorithm SMO algorithm Weka

分类号 TP311.131 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1Qiuxue Xu,Na Niu,Yongmin Quan,Zhezhi Jin.Research on the Development of Text Mining Technology based on Bibliometrics and Knowledge Map Visualization[J].信息工程期刊（中英文版）,2017,7(1):15-26. 被引量：5
2汪岿,刘柏嵩.文本分类研究综述[J].数据通信,2019,0(3):37-47. 被引量：21
3刘月,翟东海,任庆宁.基于注意力CNLSTM模型的新闻文本分类[J].计算机工程,2019,45(7):303-308. 被引量：20
4朱卫星,徐伟光,何红悦,李雯.文本数据主题挖掘与关联搜索研究[J].计算机科学,2017,44(B11):411-413. 被引量：6

二级参考文献36

1YE Qiang LI Yijun ZHANG Yiwen.Semantic-Oriented Sentiment Classification for Chinese Product Reviews: An Experimental Study of Book and Cell Phone Reviews[J].Tsinghua Science and Technology,2005,10(z1):797-802. 被引量：7
2翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
3陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
4尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
5李荣艳,金鑫,王春辉,郑宁,别荣芳.一种新的中文文本分类算法[J].北京师范大学学报（自然科学版）,2006,42(5):501-505. 被引量：6
6张凌,周春雷,寇广增.基于共词分析的国内知识服务研究[J].图书情报工作,2009,53(24):64-68. 被引量：20
7黄维,陈勇.中国教育经济学发展轨迹的知识图谱研究——基于《教育与经济》所载论文的关键词共词分析[J].教育与经济,2010,26(3):68-72. 被引量：23
8钟伟金.共词分析法应用的规范化研究——主题词和关键词的聚类效果对比分析[J].图书情报工作,2011,55(6):114-118. 被引量：58
9邹权,林琛,刘晓燕,郭茂祖.生物信息学中的文本挖掘方法[J].计算机工程与设计,2011,32(12):4075-4078. 被引量：2
10郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：23

共引文献47

1李泽,古超,龙政.基于文本挖掘的国外移动图书馆研究热点分析[J].内蒙古科技与经济,2018(19):122-123.
2谢莉莉,翟志刚.高校精准资助应用大数据的现实困境和技术诉求[J].中国教育信息化,2019,25(7):1-5. 被引量：3
3谭章禄,彭胜男,王兆刚.基于聚类分析的国内文本挖掘热点与趋势研究[J].情报学报,2019,38(6):578-585. 被引量：34
4朱弘扬,马海斌,葛天祎.基于卷积神经网络的高精度文本分类方法[J].电脑知识与技术,2019,15(7X):204-207.
5胡博文.基于深度学习的情感分类研究[J].科学技术创新,2019(32):71-72.
6张云翔,饶竹一.基于LSTM神经网络的电网文本分类方法[J].现代计算机,2020,26(2):8-11. 被引量：4
7石凤贵.基于TF-IDF中文文本分类实现[J].现代计算机,2020,26(6):51-54. 被引量：8
8龚凯丽,张科伟.基于文本挖掘的网易云音乐评论分析[J].内蒙古科技与经济,2020,0(7):79-80. 被引量：1
9杨锋.基于线性支持向量机的文本分类应用研究[J].信息技术与信息化,2020(3):146-148. 被引量：6
10邢红梅,陈欣,王慧.基于LightGBM模型的文本分类研究[J].内蒙古工业大学学报（自然科学版）,2020,39(1):52-59. 被引量：6

同被引文献12

1陆海霞,刘勇,张寅丹,刘巨峰,王苗苗,何江.集成机器学习与面向地理对象影像分类的大区域林地信息提取及其泛化能力探讨[J].兰州大学学报（自然科学版）,2020(3):363-370. 被引量：6
2赵丹平,顾海燕,贾莹.机器学习法在面向对象影像分类中的对比分析[J].测绘科学,2016,41(10):181-186. 被引量：20
3孙宇翼,赵军利,王苗苗,刘勇.基于J48决策树的面向对象方法的土地覆被信息提取[J].国土资源遥感,2016,28(4):156-163. 被引量：9
4高海宾.基于Weka平台的决策树J48算法实验研究[J].湖南理工学院学报（自然科学版）,2017,30(1):21-25. 被引量：12
5朱素霞,祖宏亮,孙广路.一种基于空间信息的FSICM图像分割算法[J].哈尔滨理工大学学报,2020,25(4):101-108. 被引量：4
6王成武,晏峻峰.早期糖尿病风险预测模型的比较研究[J].智能计算机与应用,2021,11(1):64-68. 被引量：6
7王姝,关展旭,王晶,孙晓辉.基于迁移学习的贝叶斯网络参数学习方法[J].东北大学学报（自然科学版）,2021,42(4):509-515. 被引量：5
8张殿岱,王雪梅.基于高分辨率遥感影像的植被分类方法比较[J].林业资源管理,2021(3):108-113. 被引量：13
9高灵宝,杜银学,陆江波,马永军,杜海平,虎鑫.浅谈机器学习[J].铸造设备与工艺,2021(6):41-43. 被引量：3
10郑金萍,刘赵发,胡珍珍,李泽南,黎姿,刘汉明,汪廷华,胡声洲.基于mBagging的随机森林[J].赣南师范大学学报,2022,43(3):113-115. 被引量：2

引证文献1

1刘怡.基于WEKA平台的三种面向对象土地覆被分类方法研究[J].现代信息科技,2022,6(24):141-144.

1吴迅,杨亚能,王晓东,薛明,杨柳.数据挖掘技术在快递品牌选择上的应用[J].物流技术,2020,39(2):119-121.
2秦梦宇,赵赫.高分辨率影像建筑物提取方法对比[J].科技创新与应用,2020,0(10):129-130. 被引量：2
3夏春梅.贝叶斯网络分类模型在银行客户信用评估中的应用[J].电子技术与软件工程,2020(4):182-183. 被引量：1
4赵宁杰,李雪飞.基于Weka平台的分类算法比较分析[J].信息与电脑,2020,32(6):73-75. 被引量：3
5资讯[J].全球商业经典,2020(5):8-9.
6张卫国,马静瑞.基于局部和全局特征融合的显著性检测[J].计算机工程与设计,2020,41(6):1714-1718. 被引量：1
7萧河.全球碳减排陷入困境[J].中国石化,2020(6):86-86.
8数字[J].中国石化,2020(6):5-5.
9郭伟,洪倩.基于边界和中心关系的显著性检测方法[J].计算机工程,2020,46(6):241-247.

楚雄师范学院学报

2020年第3期

浏览历史

内容加载中请稍等...

基于Weka平台的文本分类实验研究被引量：1

参考文献4

二级参考文献36

共引文献47

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Weka平台的文本分类实验研究 被引量：1

参考文献4

二级参考文献36

共引文献47

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Weka平台的文本分类实验研究被引量：1