不同特征粒度在微博短文本分类中作用的比较研究被引量：10

A Comparative Study on the Effects of Different Feature Granularity on Microblog Short Text Classification

导出

摘要【目的/意义】随着互联网产业的快速发展,各种社会化媒体应用应运而生,伴随着这些应用的发展,口语化短文本形式的信息也急速膨胀。如何从这些信息资源中挖掘出关键内容并实现自动分类已经成为文本挖掘领域的重要课题之一。【方法/过程】本文以微博为例,设置词和字两种特征粒度,选择信息增益、信息增益率、Word2vec和特征频度降低特征维度,重点探讨两种特征在口语化短文本分类中的特点和作用。【结果/结论】实验结果表明,对词特征进行筛选和提取之后的分类效果仍然不如字特征在微博文本分类中的表现。因此,在口语化短文本分类中选择字特征或许是一个较实用的、效果较好的方法。 [Purpose/significance]With the rapid development of the Internet industry,various social media applications have emerged.Along with the development of these applications,the information in the form of colloquial short texts has also expanded rapidly.How to mine the key content from these information resources and achieve automatic classification has become one of the important topics in the field of text mining.[Method/process]This paper takes Microblog as an example, sets the granularity of Word and character features and selects Information Gain,Information Gain Ratio,Word2vee and Feature Frequency to reduce the feature dimension,focusing on the characteristics and effects of the two features in colloquial short text classification.[Result/conclusion]The experimental results show that the classification effect after screening and extracting word features is still inferior to the performance of character features in the Microblog text classification.Therefore,choosing character features in colloquial text classification may be a more practical and effective method.

作者刘小敏王昊李心蕾邓三鸿 LIU Xiao-min;WANG Hao;LI Xin-lei;DENG San-hong(School of Information Management,Nanjing University,Nanjing 210023,China;Jiangsu Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023,China)

机构地区南京大学信息管理学院南京大学江苏省数据工程与知识服务重点实验室

出处《情报科学》 CSSCI 北大核心 2018年第12期126-133,共8页 Information Science

基金国家自然科学基金项目(71503121) 南京大学"仲英青年学者"项目等的资助

关键词特征粒度短文本口语化文本特征降维 feature granularity short text colloquial text feature reduction

分类号 G250.2 [文化科学—图书馆学]

引文网络
相关文献

参考文献11

1李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计,2009,30(17):4127-4129. 被引量：16
2曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量：18
3赵小谦,郑彦,储海庆.概念树在短文本语义相似度上的应用[J].计算机技术与发展,2012,22(6):159-162. 被引量：4
4代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
5胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
6刘海峰,陈琦,张以皓.一种基于互信息的改进文本特征选择[J].计算机工程与应用,2012,48(25):1-4. 被引量：15
7许勐璠,李兴华,刘海,钟成,马建峰.基于半监督学习和信息增益率的入侵检测方案[J].计算机研究与发展,2017,54(10):2255-2267. 被引量：26
8孔雪娜,孙红.中文微博文本采集与预处理综述[J].软件导刊,2017,16(2):186-189. 被引量：7
9郭正斌,张仰森,蒋玉茹.一种面向文本分类的特征向量优化方法[J].计算机应用研究,2017,34(8):2299-2302. 被引量：13
10王贵新,郑孝宗,张浩然,张小川.基于Word2vec的短信向量化算法[J].电子科技,2016,29(4):49-52. 被引量：4

二级参考文献119

1张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
6侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
7徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
8费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
9张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
10胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47

共引文献367

1赵静,李俊,龙春,杜冠瑶,万巍,魏金侠.基于集成SVM和Bagging的未知恶意流量检测[J].计算机系统应用,2022,31(10):51-59. 被引量：3
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
3骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
4包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
5王义,戴月明.基于混合互信息算法的文本情感分析[J].计算机应用研究,2020,37(2):337-341.
6李楚贞,余育文.中文微博数据预处理常用方法研究[J].科技经济导刊,2019,0(33):23-23. 被引量：4
7张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
8张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
9丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
10贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1

同被引文献123

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
4马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171. 被引量：515
5宋英姿,李庆武,王晓玲,倪雪.球坐标系下小波收缩去噪方法的改进[J].河海大学常州分校学报,2007,21(1):1-3. 被引量：14
6徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：386
7孙胜.基于核的自适应聚类及其在文本分类中的应用[J].黄石理工学院学报,2008,24(6):12-14. 被引量：1
8施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
9贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量：18
10庞素琳,巩吉璋.C5.0分类算法及在银行个人信用评级中的应用[J].系统工程理论与实践,2009,29(12):94-104. 被引量：55

引证文献10

1王昊,虞为,孟镇,张卫.民生话题下政务微博评论Emotion-Cause Pair抽取方法研究[J].情报科学,2023,41(12):136-146.
2牛雪莹,赵恩莹.基于Word2Vec的微博文本分类研究[J].计算机系统应用,2019,28(8):256-261. 被引量：19
3曲琦,张正凯,许胜之.基于LSTM-ICNN的网络情报信息技术研究[J].电子测量技术,2019,42(18):144-148. 被引量：7
4吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学,2019,37(12):47-51. 被引量：8
5于晓彤,潘雪莲,华薇娜.基于内容分析法的开源软件使用与引用研究——以Word2vec为例[J].图书情报研究,2020,13(1):101-107. 被引量：4
6梁晓贺,田儒雅,吴蕾,张学福.基于超网络的微博相似度及其在微博舆情主题发现中的应用[J].图书情报工作,2020,64(11):77-86. 被引量：12
7段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：77
8邵辉.基于BERT-TextCNN的中文短文本情感分析[J].信息与电脑,2022,34(1):77-80. 被引量：4
9潘苏楠,邓三鸿,王蔚萍.融合母评论文本信息的评论短文本情感分析研究--以短视频评论文本为例[J].情报探索,2023(4):1-7. 被引量：2
10程心怡,周琳娜,袁军鹏.基于K-Means和CHAID算法的种质资源数据库与论文关联研究[J].计算机科学与应用,2019,9(7):1441-1452.

二级引证文献133

1章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：3
2郭子晨,李昆阳,娄嘉鹏.基于深度学习的多通道多任务学习判决预测模型[J].北京电子科技学院学报,2022,30(4):105-114.
3熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
4魏姮清.基于机器学习的政务微博评论情感分类研究[J].现代商贸工业,2020,41(11):161-162.
5武越,刘向东,周晓俊,石兆军,李可.涉密环境下的非密办公网敏感信息监控系统设计[J].网络安全技术与应用,2020(7):28-31. 被引量：4
6卢俊宇,周翔翔.基于词嵌入的短文本扩展分类方法[J].指挥信息系统与技术,2020,11(4):70-73. 被引量：3
7尹延鑫,李传富.基于深度学习的用户健康词表构建方法研究[J].医学信息学杂志,2020,41(8):29-33.
8周贤来.基于语义分割的异构多核平台大数据挖掘算法[J].计算机与现代化,2020(10):40-43. 被引量：1
9段辉.基于云计算平台的大型图书馆馆藏书籍快速检索研究[J].电子测量技术,2020,43(14):45-49. 被引量：5
10邱程程.航空航天大学图书馆微博信息服务特征调查分析[J].图书馆学研究,2020(24):51-58. 被引量：2

1刘丹.基于语文教学内涵的阅读教学探析[J].新作文（教研）,2018,0(9):0125-0125.
2张莉.互联网并非法外之地努力营造良好法治生态[J].中国对外贸易,2018,0(12):40-41.
3李春峰.移动通信技术在物联网中的应用[J].通讯世界,2019,26(1):94-95. 被引量：10
4熊云龙.基于改进遗传算法的网络疑似入侵最优数据选取[J].现代电子技术,2018,41(22):163-165. 被引量：5
5韦海宇,王勇,柯文龙,俸皓.基于改进极端随机树的异常网络流量分类[J].计算机工程,2018,44(11):33-39. 被引量：28
6成凌飞,贺扬,张培玲,李艳.压缩深层神经网络隐藏层维度对其分类性能的影响[J].电子科技,2019,32(1):72-75. 被引量：8
7名家临名贴——何绍基、李瑞清临《张玄墓志》(十二)[J].书法,2011,0(9):62-63.
8李梁,丛培强,陈亚茹.应用Tsallis算法和关键度度量的决策树构建[J].重庆理工大学学报（自然科学）,2018,32(10):143-148. 被引量：1
9周甲琦.移动互联网时代市场营销策略的转变[J].现代经济信息,2018,0(22):126-126. 被引量：3
10崔亚仲,苏发,史建革,肖渊.大数据在神东煤炭集团的应用探析[J].内蒙古煤炭经济,2018(22):81-84. 被引量：1

情报科学

2018年第12期

浏览历史

内容加载中请稍等...

不同特征粒度在微博短文本分类中作用的比较研究被引量：10

参考文献11

二级参考文献119

共引文献367

同被引文献123

引证文献10

二级引证文献133

相关作者

相关机构

相关主题

浏览历史

不同特征粒度在微博短文本分类中作用的比较研究 被引量：10

参考文献11

二级参考文献119

共引文献367

同被引文献123

引证文献10

二级引证文献133

相关作者

相关机构

相关主题

浏览历史

不同特征粒度在微博短文本分类中作用的比较研究被引量：10