中文科技政策文本分类:增强的TextCNN视角被引量：5

Text Classification of Chinese S&T Policies: Enhanced TextCNN Perspective

下载PDF

导出

摘要近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神经网络(TextCNN)的NEWT新型计算框架;实证部分,基于中国地方政府发布的科技政策文本进行算法校验。实验结果显示,在取词长度分别为500、750和1000词的情况下,应用NEWT算法对中文科技政策文本进行分类的效果优于RCNN、Bi-LSTM和CapsNet等传统深度学习模型,F1值的平均提升比例超过13%;同时,NEWT在较短取词长度下能够实现全文输入的近似效果,可以部分改善传统深度学习模型在中文长文本自动分类任务中的计算效率。 In recent years,although there are many research outputs on the classification of Chinese text,there are still very few publications involving automatic classification of Chinese policy texts based on deep learning.Based on the current studies,a new computing framework-NEWT is proposed,which integrates NEPD(New Era People’s Daily Segmented Corpus),EDA(Easy Data Augmentation),Word2Vec and TextCNN.In the empirical analysis,the text of science and technology policy of Chinese local government is extracted,and the classification experiment is conducted.The experimental results show that the NEWT algorithm is better than the traditional deep learning models such as RCNN,Bi-LSTM and CapsNet when the length of words is 500,750 and 1000,respectively,the average increase ratio of F1 value is more than 13%.At the same time,NEWT can achieve the approximate effect of full-text input under a relatively short word length,which can partially improve the computational efficiency of the traditional deep learning model in the task of automatic classification of Chinese long text.

作者李牧南王良赖华鹏 Li Munan;Wang Liang;Lai Huapeng(School of Business Administration,South China University of Technology,Guangzhou 510641,China;Guangdong Key Laboratory on Innovation Methods&Decision Management Systems,Guangzhou 510641,China)

机构地区华南理工大学工商管理学院广东省创新方法与决策管理系统重点实验室

出处《科技管理研究》 CSSCI 北大核心 2023年第2期160-166,共7页 Science and Technology Management Research

基金国家自然科学基金面上项目“基于多源数据融合与机器学习的新兴技术风险挖掘研究”(72074081) 广东省自然科学基金面上项目“关键共性技术识别及其演化趋势研究:多源数据融合与知识图谱视角”(2020A151501438)

关键词 NEWT 深度学习数据增强卷积神经网络政策文本分类中文长文本 NEWT deep learning data augmentation convolutional neural networks policy-text classification long-length text in Chinese

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] D035-01 [政治法律—政治学] G301 [文化科学]

引文网络
相关文献

参考文献18

1魏明珠,郑荣,杨竞雄.基于深度学习的图像检索研究进展[J].情报科学,2021,39(5):184-192. 被引量：12
2刘颖,雷研博,范九伦,王富平,公衍超,田奇.基于小样本学习的图像分类技术综述[J].自动化学报,2021,47(2):297-315. 被引量：90
3杨锐,陈伟,何涛,张敏,李蕊伶,岳芳.融合主题信息的卷积神经网络文本分类方法研究[J].现代情报,2020,40(4):42-49. 被引量：19
4杨光,贾焱鑫,陈翔,许舒源.基于深度学习的Stack Overflow问题帖分类方法[J].吉林大学学报（理学版）,2021,59(4):922-928. 被引量：2
5蒋芸,张海,陈莉,陶生鑫.基于卷积神经网络的图像数据增强算法[J].计算机工程与科学,2019,41(11):2007-2016. 被引量：17
6孔芳,王红玲,周国栋.汉语篇章理解研究综述[J].软件学报,2019,30(7):2052-2072. 被引量：5
7黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12. 被引量：15
8谷莹,李贺,李叶叶,刘嘉宇.基于在线评论的企业竞争情报需求挖掘研究[J].现代情报,2021,41(1):24-31. 被引量：21
9明建华,胡创,周建政,姚金良.针对直播弹幕的TextCNN过滤模型[J].计算机工程与应用,2021,57(3):162-167. 被引量：7
10张宝建,李鹏利,陈劲,郭琦,吴延瑞.国家科技创新政策的主题分析与演化过程——基于文本挖掘的视角[J].科学学与科学技术管理,2019,40(11):15-31. 被引量：85

二级参考文献173

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3肖士恩,雷家骕,刘文艳.北京市科技创新政策评价及改进建议[J].中国科技论坛,2004(5):53-55. 被引量：27
4王厚峰,梅铮.鲁棒性的汉语人称代词消解[J].软件学报,2005,16(5):700-707. 被引量：36
5李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30. 被引量：33
6徐冠华.新时期我国科技发展战略与对策[J].中国软科学,2005(10):1-7. 被引量：32
7胡志坚,冯楚健.国外促进科技进步与创新的有关政策[J].科技进步与对策,2006,23(1):22-28. 被引量：50
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
9李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
10周俊生,黄书剑,陈家骏,曲维光.一种基于图划分的无监督汉语指代消解算法[J].中文信息学报,2007,21(2):77-82. 被引量：19

共引文献336

1程翔,刘娅瑄,张玲娜.金融产业数字化升级的制度供给特征——基于政策文本挖掘[J].中国软科学,2021(S01):87-98. 被引量：3
2黎源.网络议程设置视阈下新冠疫情期间公共政策发布研究——以我国不同风险地区官方微信为例[J].新闻传播,2022(20):12-14.
3陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
4梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
5刘勘,赵帅,彭虎锋,黄漫宇.营商环境政策的主题演化研究[J].知识管理论坛,2022(3):314-331. 被引量：1
6赵梓博,王昊,刘友华,张卫,孟镇.多任务环境下融合迁移学习的新冠疫情新闻要素识别研究[J].知识管理论坛,2021(1):2-13. 被引量：1
7吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
8华连连,李林林,王建国,刘艳秋,彭佳.内蒙古精准扶贫政策演化及其对乡村振兴的启示[J].前沿,2021(4):128-136.
9冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
10徐惠灵,尚政国,董胜波,苏琪雅.面向深度神经网络应用的小样本学习技术研究[J].南京航空航天大学学报,2022,54(S01):80-86.

同被引文献83

1王超.深度学习在行业指数技术分析中的应用研究[J].管理评论,2021,33(3):75-83. 被引量：3
2黄鲁成,成雨,吴菲菲,苗红,李欣.关于颠覆性技术识别框架的探索[J].科学学研究,2015,33(5):654-664. 被引量：106
3冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
4张永安,耿喆,王燕妮.区域科技创新政策分类与政策工具挖掘——基于中关村数据的研究[J].科技进步与对策,2015,32(17):116-122. 被引量：63
5贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：70
6裴雷,孙建军,周兆韬.政策文本计算:一种新的政策文本解读方式[J].图书与情报,2016(6):47-55. 被引量：85
7王晶金,刘立,王斐.高校与国立科研机构科技成果转移转化政策文本量化研究[J].科学管理研究,2017,35(4):24-27. 被引量：13
8俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：126
9张一珂,张鹏远,颜永红.基于对抗训练策略的语言模型数据增强技术[J].自动化学报,2018,44(5):891-900. 被引量：19
10吴鹏,应杨,沈思.基于双向长短期记忆模型的网民负面情感分类研究[J].情报学报,2018,37(8):845-853. 被引量：36

引证文献5

1马群凯,王齐,冯立胜,李颖,赵碧君.语义分析在进出口商品申报信息智能判别场景中的应用[J].中国口岸科学技术,2023,5(S01):55-59.
2沈思,陈猛,冯暑阳,许乾坤,刘江峰,王飞,王东波.ChpoBERT:面向中文政策文本的预训练模型[J].情报学报,2023,42(12):1487-1497.
3李牧南,王良,赖华鹏.基于深度学习的我国科技政策属性识别[J].科研管理,2024,45(2):1-11. 被引量：1
4王良,李牧南.基于融合新闻影响力和图注意力网络聚类方法的颠覆性技术识别[J].图书情报工作,2024,68(15):27-43.
5易云恒,张超群,武家辉,汤卫东.基于PycModel高效深度学习模型的心理咨询问题分类探究[J].深圳信息职业技术学院学报,2024,22(4):56-64.

二级引证文献1

1向小伟,申艳光,胡明昊,闫天伟,罗威,罗准辰.大模型驱动的科技政策法规问答系统研究[J].计算机科学与探索,2024,18(9):2349-2360.

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2余诗媛,郭淑明,黄瑞阳,张建朋,胡楠.分层区域穷举的中文嵌套命名实体识别方法[J].计算机技术与发展,2022,32(9):161-166.
3吉宇,王笑月,李茹,郭少茹,关勇.多模块联合的阅读理解候选句抽取[J].中文信息学报,2022,36(6):109-116.
4李湘东,孙倩茹,石健.结合短文本扩展和BERT的商品评论文本自动分类[J].信息资源管理学报,2023,13(1):129-139. 被引量：4
5徐涯昕,何泽恩,徐绪堪.基于CNN-BiLSTM网络的数控机床故障文本自动分类[J].计算机与现代化,2023(4):7-14. 被引量：1
6蓝天,霍利微,王冀,邓汗青,王易,柳春,张茜.2011年夏季西南极端干旱事件及其成因[J].大气科学学报,2021,44(6):927-937. 被引量：7
7胡昊天,邓三鸿,张逸勤,张琪,孔嘉,王东波.数字人文视角下的非物质文化遗产文本自动分词及应用研究[J].图书馆杂志,2022,41(8):76-83. 被引量：9
8孙淑青,王建华,崔娟,秦德春.ICU病人血糖管理最佳证据总结[J].循证护理,2023,9(9):1538-1544. 被引量：2
9Zhitong LYU,Shuo QI,Siyu ZHANG,Keyuan DAI,Yingyong WANG.Two New Species of Fire-Bellied Newts (Caudata, Salamandridae, Cynops) from Southeastern China[J].Asian Herpetological Research,2023,14(1):41-53.
10贺晓琳.基于文本语义分类的广播电视自动化分类系统设计[J].电视技术,2023,47(1):27-29.

科技管理研究

2023年第2期

浏览历史

内容加载中请稍等...

中文科技政策文本分类:增强的TextCNN视角被引量：5

参考文献18

二级参考文献173

共引文献336

同被引文献83

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

中文科技政策文本分类:增强的TextCNN视角 被引量：5

参考文献18

二级参考文献173

共引文献336

同被引文献83

引证文献5

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

中文科技政策文本分类:增强的TextCNN视角被引量：5