基于双向编码表示预训练模型的舆情文本解析分类

下载PDF

导出

摘要随着人工智能和大数据的不断发展,网络数据呈现爆炸式的增长,日益增长的庞大数据量给网络舆情监测分析带来了挑战,急需一种应对海量数据的文本分类算法来自动识别和分类舆情信息。提出一种基于双向编码表示(BERT,Bidirectional Encoder Representations from Transformers)预训练模型的舆情文本解析分类方法。首先将文本输入到词典编码器中;随后通过多层转换器编码将输入特征映射成为一个上下文关联的特征向量;最后为了捕获局部信息,使用卷积神经网络进一步编码并将编码后的信息输入到分类器预测舆情文本属性。

作者金昊王亚珅李阳阳

机构地区中国电子科技集团公司电子科学研究院

出处《科技与创新》 2021年第13期118-120,123,共4页 Science and Technology & Innovation

基金中国电科新一代人工智能专项行动计划项目(编号:AI20191125008)资助。

关键词舆情文本解析舆情文本分类自然语言处理机器学习

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李武军,周志华.大数据哈希学习:现状与趋势[J].科学通报,2015,60(5):485-490. 被引量：46

二级参考文献52

1Mayer-Sch?nberger V, Cukier K. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Boston: Eamon Dolan/Houghton Mifflin Harcourt, 2013.
2Hey T, Tansley S, Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: Microsoft Research, 2009.
3Bryant R E. Data-intensive scalable computing for scientific applications. Comput Sci Engin, 2011, 13: 25-33.
4周志华. 机器学习与数据挖掘. 中国计算机学会通讯, 2007, 3: 35-44.
5Zhou Z H, Chawla N V, Jin Y, et al. Big data opportunities and challenges: Discussions from data analytics perspectives. IEEE Comput Intell Mag, 2014, 9: 62-74.
6Jordan M. Message from the president: The era of big data. ISBA Bull, 2011, 18: 1-3.
7Kleiner A, Talwalkar A, Sarkar P, et al. The big data bootstrap. In: Proceedings of the 29th International Conference on Machine Learning (ICML), Edinburgh, 2012, 1759-1766.
8Shalev-Shwartz S, Zhang T. Accelerated proximal stochastic dual coordinate ascent for regularized loss minimization. In: Proceedings of the 31st International Conference on Machine Learning (ICML), Beijing, 2014, 64-72.
9Gonzalez J E, Low Y, Gu H, et al. PowerGraph: Distributed graph-parallel computation on natural graphs. In: Proceedings of the 10th USENIX Symposium on Operating Systems Design and Implementation (OSDI), Hollywood, 2012, 17-30.
10Gao W, Jin R, Zhu S, et al. One-pass AUC optimization. In: Proceedings of the 30th International Conference on Machine Learning (ICML), Atlanta, 2013, 906-914.

共引文献45

1谭喆.多模态数据哈希检索方法综述[J].信息通信,2016,29(3):179-180.
2聂秀山,王舒婷,尹义龙.基于特征融合和曼哈顿量化的视频哈希学习方法[J].南京大学学报（自然科学版）,2016,52(4):705-713.
3刘宁,赵建华,冯骜骜.基于主动学习的有监督在线多核学习算法[J].河南科学,2016,34(9):1423-1427. 被引量：2
4王欢,屠长河.基于哈希学习的动作捕捉数据的编码与检索[J].计算机辅助设计与图形学学报,2016,28(12):2151-2158. 被引量：3
5翟俊海,王婷婷,张明阳,王耀达,刘明明.2种加速K-近邻方法的实验比较[J].河北大学学报（自然科学版）,2016,36(6):650-656. 被引量：3
6王丹,赵文兵,丁治明.大数据安全保障关键技术分析综述[J].北京工业大学学报,2017,43(3):335-349. 被引量：44
7翟俊海,张明阳,王婷婷,郝璞.基于哈希技术和MapReduce的大数据集K-近邻算法[J].计算机科学,2017,44(7):210-214. 被引量：7
8曾宪华,袁知洪,王国胤,杨洁.基于多特征多核哈希学习的大规模图像检索[J].中国科学：信息科学,2017,47(8):1109-1126. 被引量：8
9曹路,杨文强.基于离散监督哈希的相似性检索算法[J].科学技术与工程,2017,17(26):245-250. 被引量：4
10翟俊海,郝璞,王婷婷,张明阳.MapReduce并行化压缩近邻算法[J].小型微型计算机系统,2017,38(12):2678-2682. 被引量：1

1徐凌翔,陈佳玮,丁国辉,卢伟,丁艳锋,朱艳,周济.室内植物表型平台及性状鉴定研究进展和展望[J].智慧农业（中英文）,2020,2(1):23-42. 被引量：20
2潘爱玲,孙磊.分类组织冗余与文化企业并购:基于文化传媒类上市公司的经验证据[J].深圳大学学报（人文社会科学版）,2021,38(2):49-60. 被引量：4
3陈庆文,谢宏文,查浩,奚瑜,张雪.深度聚类注意力机制下的显著对象检测[J].中国图象图形学报,2021,26(5):1017-1029. 被引量：5
4涂艳,刘蕊.基于舆情分析视角的网络借贷问题平台甄别模型研究[J].北京邮电大学学报（社会科学版）,2021,23(3):1-12.
5Adrien Peyrache,Adrian J.Duszkiewicz.A spatial map out of place[J].Cell Research,2021,31(6):605-606.
6Xiaoyang Long,Sheng-Jia Zhang.A novel somatosensory spatial navigation system outside the hippocampal formation[J].Cell Research,2021,31(6):649-663. 被引量：5

科技与创新

2021年第13期

浏览历史

内容加载中请稍等...

基于双向编码表示预训练模型的舆情文本解析分类

参考文献1

二级参考文献52

共引文献45

相关作者

相关机构

相关主题

浏览历史