结合语义扩展和卷积神经网络的中文短文本分类方法被引量：19

Chinese short text classification method by combining semantic expansion and convolutional neural network

下载PDF

导出

摘要中文新闻标题通常包含一个或几十个词,由于字符数少、特征稀疏,在分类问题中难以提升正确率。为解决此问题,提出了基于Word Embedding的文本语义扩展方法。首先,将新闻标题扩展为(标题、副标题、主题词)构成的三元组,用标题的同义词结合词性过滤方法构造副标题,对多尺度滑动窗口内的词进行语义组合,提取主题词;然后,针对扩展文本构造卷积神经网络(CNN)分类模型,该模型通过max pooling及随机dropout进行特征过滤及防止过拟合;最后,将标题、副标题拼接为双词表示,与多主题词集分别作为模型的输入。在2017自然语言处理与中文计算评测(NLP&CC2017)的新闻标题分类数据集上进行实验。实验结果表明,用三元组扩展结合相应的CNN模型在18个类别新闻标题上分类的正确率为79.42%,比未经扩展的CNN模型提高了9.5%,且主题词扩展加快了模型的收敛速度,验证了三元组扩展方法及所构建CNN分类模型的有效性。 Chinese news title usually consists of a single word to dozens of words. It is difficult to improve the accuracy of news title classification due to the problems such as few characters and sparse features. In order to solve the problems, a new method for text semantic expansion based on word embedding was proposed. Firstly, the news title was expanded into triples consisting of title, subtitle and keywords. The subtitle was constructed by combining the synonym of title and the part of speech filtering method, and the keywords were extracted from the semantic composition of words in multi-scale sliding windows. Then, the Convolutional Neural Network （CNN） model was constructed for categorizing the expanded text. Max pooling and random dropout were used for feature filtering and avoidance of overfitting. Finally, the double-word spliced by title and subtitle, and the muhi-keyword set were fed into the model respectively. Experiments were conducted on the news title classification dataset of the Natural Language Processing ＆ Chinese Computing in 2017 （NLP＆CC2017）. The experimental results show that, the classification precision of the combination model of expanding news title to triples and CNN is 79.42% in 18 categories of news titles, which is 9.5% higher than the original CNN model without expanding, and the convergence rate of model is improved by keywords expansion. The proposed expansion method of triples and the constructed CNN model are verified to be effective.

作者卢玲杨武杨有俊陈梦晗

机构地区重庆理工大学计算机科学与工程学院

出处《计算机应用》 CSCD 北大核心 2017年第12期3498-3503,共6页 journal of Computer Applications

基金国家社会科学基金西部项目(17XXW005) 重庆市教委科学技术研究项目(KJ1500903)~~

关键词新闻标题分类语义扩展卷积神经网络同义词语义组合 news title classification semantic expansion Convolutional Neural Network （CNN） synonym semanticcomposition

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1郑诚,吴文岫,代宁.融合BTM主题特征的短文本分类方法[J].计算机工程与应用,2016,52(13):95-100. 被引量：11
2高元,刘柏嵩.基于集成学习的标题分类算法研究[J].计算机应用研究,2017,34(4):1004-1007. 被引量：10
3张海涛,王斌君,王靖亚.基于背景重构与边缘相关短文本特征选择方法[J].武汉大学学报（工学版）,2016,49(3):469-475. 被引量：1
4马成龙,姜亚松,李艳玲,张艳,颜永红.基于词矢量相似度的短文本分类[J].山东大学学报（理学版）,2014,49(12):18-22. 被引量：6

二级参考文献32

1JOACHIMS T. Text categorization with support vector ma- chines: learning with many relevant features [ J ]. Lecture Notes in Computer Science, 1998, 1398: 137-142.
2KWON O W, LEE J H. Text categorization based on < i > k </i > -nearest neighbor approach for Web site classifica- tion [ J ]. Information Processing & Management, 2003, 39 ( 1 ) :25-44.
3NIGAM K, LAFFERTY J, MCCALLUM A. Using max- imum entropy for text classification [ C ]//Proceedings of the IJCAI-99 Workshop on Machine Learning for Informa- tion Filtering. [ S. 1. ] : [ s. n. ], 1999 : 61-67.
4SEBASTIANI F. Machine learning in automated text cate- gorization [ J]. ACM Computing Surveys (CSUR), 2002, 34 ( 1 ) : 1-47.
5ZELIKOVITZ S, HIRSH H. Improving short text classifi- cation using unlabeled background knowledge to assess document similarity [ C]//Proceedings of the 17th Inter- national Conference on Machine Learning. [ S. 1. ] : [ s. n. ], 2000: 1183-1190.
6BOLLEGALA D, MATSUO Y, ISHIZUKA M, Measur- ing semantic similarity between words using web search engines [ C ]//Proceedings of World Wide Web Confer- ence Committee ( IW3C2 ). Banff, Alberta, Canada, 2007:757-766.
7GABRILOVICH E, MARKOVITCH S. Computing se- mantic relatedness using wikipedia-based explicit semantic analysis [ C]//Proceedings of the 20th International Joint Conference On Artificial Intelligence (LICAI). Freiburg, Germany: IJCAI-INT, 2007 : 1606-1611.
8BANERJEE S, RAMANATHAN K, GUPTA A. Cluste- ring short texts using wikipedia [C ]//Proceedings of the 30th Annual International ACM SIGIR Conference on Re- search and Developrnent in Information Retrieval. New York: ACM, 2007: 787-788.
9PHAN X H, NGUYEN L M, HORIGUCHI S. Learning to classify short and sparse text & web with hidden topics from large-scale data collections [ C]//Proceedings of the 17th International Conference on World Wide Web. New York: ACM, 2008: 91-100.
10TURIAN J, RATINOV L, BENGIO Y. Word represen- tations: a simple and general method for semi-supervised learning [ C ]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Phila- delphia, PA, USA: Association for Computational Lin- guistics, 2010: 384-394.

共引文献24

1何宇虹,黄沛杰,杜泽峰,刘威,朱建恺,章锦川.结合特殊领域实体识别的远监督话语领域分类[J].中文信息学报,2020(5):10-18. 被引量：1
2朱全银,潘禄,刘文儒,李翔,张永军,刘金岭.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24. 被引量：3
3巴志超,杨子江,朱世伟,王蕾.基于关键词语义网络的领域主题演化分析方法研究[J].情报理论与实践,2016,39(3):67-72. 被引量：35
4杨彬,韩庆文,雷敏,张亚鹏,刘向国,杨亚强,马雪峰.基于改进的TF-IDF权重的短文本分类算法[J].重庆理工大学学报（自然科学）,2016,30(12):108-113. 被引量：15
5黄沛杰,王俊东,柯子烜,林丕源.限定领域口语对话系统中超出领域话语的对话行为识别[J].中文信息学报,2016,30(6):182-189. 被引量：3
6张昊,黄蔚,胡国超.基于改进随机森林的洗钱交易角色识别应用[J].计算机与现代化,2018(2):101-106.
7宋艳,白治江.基于扩展近邻SMOTE过采样的SVM分类器[J].现代计算机,2018,24(10):34-38. 被引量：3
8程天翼.基于集成学习的电子商务站点搜索结果准确性预测[J].通讯世界,2018,25(8):294-296.
9李思宇,谢珺,邹雪君,续欣莹,冀小平.基于双词语义扩展的Biterm主题模型[J].计算机工程,2019,45(1):210-216. 被引量：3
10刘一然,骆力明.基于SVM的学科试题自动分类研究[J].计算机应用与软件,2019,36(1):197-203. 被引量：8

同被引文献151

1魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：9
2王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4相鹏,段友祥.企业服务总线(ESB)-企业集成关键技术初探[J].信息技术与信息化,2005(6):88-91. 被引量：7
5文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
7武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
8索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
9姚全珠,刘波.一种高效的基于刻面分类的构件检索算法研究[J].计算机工程与应用,2010,46(2):118-120. 被引量：6
10年洪东,陈小荷,王东波.现当代文学作品的作者身份识别研究[J].计算机工程与应用,2010,46(4):226-229. 被引量：21

引证文献19

1孙昭颖,刘功申.面向短文本的神经网络聚类算法研究[J].计算机科学,2018,45(B06):392-395. 被引量：14
2杨春妮,冯朝胜.结合句法特征和卷积神经网络的多意图识别模型[J].计算机应用,2018,38(7):1839-1845. 被引量：11
3张富为,杨秋翔,宋超峰.基于卷积神经网络的构件分类策略的研究[J].计算机工程与应用,2019,55(8):201-207. 被引量：4
4曹湘,李誉坤,钱叶,闫晨阳,杨忠光.基于混合神经网络的电力短文本分类方法研究[J].计算机与数字工程,2019,47(5):1145-1150. 被引量：6
5余本功,陈杨楠,杨颖.基于nBD-SVM模型的投诉短文本分类[J].数据分析与知识发现,2019,3(5):77-85. 被引量：13
6曲琦,张正凯,许胜之.基于LSTM-ICNN的网络情报信息技术研究[J].电子测量技术,2019,42(18):144-148. 被引量：7
7周庆华,李晓丽.基于MCNN的铁路信号设备故障短文本分类方法研究[J].铁道科学与工程学报,2019,16(11):2859-2865. 被引量：15
8杨锐,陈伟,何涛,张敏,李蕊伶,岳芳.融合主题信息的卷积神经网络文本分类方法研究[J].现代情报,2020,40(4):42-49. 被引量：19
9罗文华,李孟林.面向法庭科学的多属性中文短文本作者归属[J].中国刑警学院学报,2020(2):119-123.
10李孟林,罗文华,李绍鸣.基于神经网络中文短文本作者识别研究[J].中国人民公安大学学报（自然科学版）,2020,26(2):61-67.

二级引证文献98

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2赵法森,刘飞翔,李泽荃,李靖.基于BiLSTM+Attention模型的煤矿事故隐患自动分类研究[J].煤炭科学技术,2022,50(S02):210-217. 被引量：1
3李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
4林海香,赵正祥,陆人杰,卢冉,白万胜,胡娜娜.基于字词融合的高铁道岔多级故障诊断组合模型[J].电子测量与仪器学报,2022,36(10):217-226. 被引量：2
5熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
6和志强,杨建,罗长玲.基于BiLSTM神经网络的特征融合短文本分类算法[J].智能计算机与应用,2019,9(2):21-27. 被引量：20
7刘娇,李艳玲,林民.人机对话系统中意图识别方法综述[J].计算机工程与应用,2019,55(12):1-7. 被引量：27
8曹辉,翁理国,张德正.基于密集连接空洞卷积神经网络的青藏地区云雪图像分类[J].计算机测量与控制,2019,27(9):169-173. 被引量：6
9高昌盛.基于人工智能的鉴黄系统开发[J].数码世界,2019,0(11):54-54.
10卢献华,王洪俊.基于大数据计算框架的分布式新闻聚类系统设计[J].计算机科学,2019,46(S11):220-223. 被引量：9

1侯光敏.人工智能在电视人机交互中的应用[J].有线电视技术,2017,24(11):30-32. 被引量：2
2吴培良,何犇,孔令富.一种基于部件功用性语义组合的家庭日常工具分类方法[J].机器人,2017,39(6):786-794.
3李凡.NLP教练技术在高职大学生心理咨询中的应用分析[J].湖北函授大学学报,2017,30(5):51-52. 被引量：4
4《应用数学》征稿简则[J].应用数学,2017,30(4).
5孙琳.NLP模仿策略在小学数学思维导图教学中的应用[J].小学科学,2016(9):105-105. 被引量：1
6李公明.谁是大师[J].中国画画刊,2017,0(5):35-37.
7罗胜.从保险科技看保险业“一体两翼”式发展[J].当代金融家,2017,0(11):35-38.
8刘泽锦,王洁.同主题词短文本分类算法中BTM的应用与改进[J].计算机系统应用,2017,26(11):213-219. 被引量：4
9于重重,周兰,王鑫,吴静珠,刘倩.基于CNN神经网络的小麦不完善粒高光谱检测[J].食品科学,2017,38(24):283-287. 被引量：24
10王忠民,王希,宋辉.基于随机Dropout深度信念网络的移动用户行为识别方法[J].计算机应用研究,2017,34(12):3797-3800. 被引量：11

计算机应用

2017年第12期

浏览历史

内容加载中请稍等...

结合语义扩展和卷积神经网络的中文短文本分类方法被引量：19

参考文献4

二级参考文献32

共引文献24

同被引文献151

引证文献19

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

结合语义扩展和卷积神经网络的中文短文本分类方法 被引量：19

参考文献4

二级参考文献32

共引文献24

同被引文献151

引证文献19

二级引证文献98

相关作者

相关机构

相关主题

浏览历史

结合语义扩展和卷积神经网络的中文短文本分类方法被引量：19