一种基于预训练模型掩码Aspect术语的数据增强方法

下载PDF

导出

摘要数据增强是解决低资源场景下数据稀缺问题的有效方案。然而,当应用于诸如方面术语提取(ATE)之类的词级别任务时,数据增强方法通常会遭受词标签不对齐的问题,从而导致效果不理想。对此提出了掩码方面语言建模(MALM)作为ATE的新型数据增强框架。为了缓解标记、标签错位问题,将ATE标签显式注入到句子上下文中,由此经过微调的MALM能够显式地调整标签信息来预测掩码的方面标记。因此,MALM可帮助生成具有新方面的高质量增强数据,提供丰富的层面方面知识。此外,提出了一个两阶段的训练策略来整合这些合成数据。通过实验,证明了MALM在两个ATE数据集上的有效性,相比基线方法,所提出的MALM有显著的性能改进。

作者石晓瑞 SHI Xiaorui

机构地区北京安融汇达科技有限公司

出处《信息技术与信息化》 2024年第2期103-108,共6页 Information Technology and Informatization

关键词数据增强 Aspect术语提取预训练模型掩码方面语言建模 MALM方法

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张雪,孙宏宇,辛东兴,李翠平,陈红.自动术语抽取研究综述[J].软件学报,2020,31(7):2062-2094. 被引量：23

二级参考文献14

1周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
2章成志.基于多层术语度的一体化术语抽取研究[J].情报学报,2011,30(3):275-285. 被引量：19
3游宏梁,张巍,沈钧毅,刘挺.一种基于加权投票的术语自动识别方法[J].中文信息学报,2011,25(3):9-16. 被引量：16
4何琳.基于多策略的领域本体术语抽取研究[J].情报学报,2012,31(8):798-804. 被引量：16
5闫兴龙,刘奕群,方奇,张敏,马少平,茹立云.基于网络资源与用户行为信息的领域术语提取[J].软件学报,2013,24(9):2089-2100. 被引量：8
6孙茂松,李莉,刘知远.面向中英平行专利的双语术语自动抽取[J].清华大学学报（自然科学版）,2014,54(10):1339-1343. 被引量：8
7李丽双,王意文,黄德根.基于信息熵和词频分布变化的术语抽取研究[J].中文信息学报,2015,29(1):82-87. 被引量：20
8袁劲松,张小明,李舟军.术语自动抽取方法研究综述[J].计算机科学,2015,42(8):7-12. 被引量：19
9王昊,王密平,苏新宁.面向本体学习的中文专利术语抽取研究[J].情报学报,2016,35(6):573-585. 被引量：18
10董洋溢,李伟华,于会.文本特征和复合统计量的领域术语抽取方法[J].西北工业大学学报,2017,35(4):729-735. 被引量：7

共引文献22

1鲍阳,杨志斌,杨永强,谢健,周勇,岳涛,黄志球,郭鹏.基于限定中文自然语言需求的SysML模型自动生成方法[J].计算机研究与发展,2021,58(4):706-730. 被引量：2
2曹思源,马海云.领域知识组织理论基础及方法分类简述[J].情报资料工作,2021,42(5):14-22. 被引量：4
3杨鹤,于红,孙哲涛,刘巨升,杨惠宁,张思佳,孙华,姜鑫,于英囡.基于双重注意力机制的渔业标准实体关系抽取[J].农业工程学报,2021,37(14):204-212. 被引量：14
4向露,周玉,宗成庆.基于中英文单语术语库的双语术语对齐方法[J].中国科技术语,2022,24(1):14-25. 被引量：3
5夏榕璟,张克亮.英语网络非正规语言表达的自动识别与术语库构建[J].中国科技术语,2022,24(1):36-44. 被引量：1
6李贞贞,钟永恒,王辉,刘佳,孙源.基于深度学习与统计信息的领域术语抽取方法研究[J].数据与计算发展前沿,2022,4(2):87-98. 被引量：3
7杨玲萍,李海峰,蔡东华.指挥信息系统软件缺陷模式分析方法及其智能化应用[J].指挥信息系统与技术,2022,13(2):95-100. 被引量：3
8马昂,于艳华,杨胜利,石川,李劼,蔡修秀.基于强化学习的知识图谱综述[J].计算机研究与发展,2022,59(8):1694-1722. 被引量：24
9刘波.基于全局指针的中文自动术语抽取研究[J].电子技术与软件工程,2022(18):226-229.
10张晓明,郑理欣,王会勇.基于图排序和最大信息增益的领域实体抽取方法[J].计算机工程,2022,48(12):140-149. 被引量：5

1展览[J].财富生活,2022(3):10-11.
2高博,何辰月.文化科技融合视域下福建传承中华优秀传统文化路径探析[J].湖南包装,2024,39(1):73-76. 被引量：1
3党伟超,吴非凡,高改梅,刘春霞,白尚旺.基于局部-邻域图信息与注意力机制的会话推荐[J].计算机工程与设计,2024,45(3):925-931.
4魏沣,韩效愈,张曦萌.3D打印新型吸唾管在口腔科的临床应用分析[J].继续医学教育,2024,38(2):171-175.
5尚爱国,朱欣娟.基于多任务学习的意图检测和槽位填充联合方法[J].计算机应用,2024,44(3):690-695.
6张充,张伟,李泽亚,赵挺生,张耀庭.基于SI-SB系统安全模型的多层级边缘智能管控模式[J].中国安全科学学报,2024,34(1):17-26. 被引量：1

信息技术与信息化

2024年第2期

浏览历史

内容加载中请稍等...

一种基于预训练模型掩码Aspect术语的数据增强方法

参考文献1

二级参考文献14

共引文献22

相关作者

相关机构

相关主题

浏览历史