基于预训练语言模型的维吾尔语事件抽取被引量：4

Uyghur event extraction based on pre-trained language model

下载PDF

导出

摘要以往的维吾尔语事件抽取研究多采用静态词向量加长短时记忆神经网络的分析方式,无法有效处理一词多义和上下文语义表示问题。针对目标语言,训练两种维吾尔语预训练语言模型,提出一种结合BiGRU的联合问答模型事件抽取方法。利用预训练语言模型获取文本的动态语义向量,融合类别表征信息,运用BiGRU进一步提取文本特征。实验结果表明,在事件识别任务上F1值达到77.96%,在事件主体抽取任务上F1值达到74.89%。相比基线模型NER方法,所提方法的F1值提高了14.08%。 Previous studies on Uyghur event extraction mostly use static word vectors and short-term memory neural network analysis methods,which can not effectively deal with the problem of polysemy and contextual semantic representation of a word.For the target language,two Uyghur pre-training language models were trained,and a joint question answering model event extraction method combined with BiGRU was proposed.The pre-trained language model was used to obtain the dynamic semantic vector of the text,and the category representation information was merged,and BiGRU(bidirectional gated recurrent units)was used to further extract the text features.Experimental results show that the F1 value reaches 77.96%on the event recognition task,and 74.89%on the event subject extraction task.Compared with the baseline model NER method,the F1 value of the method can be increased by 14.08%.

作者张朋捷王磊马博杨雅婷董瑞艾孜麦提·艾瓦尼尔 ZHANG Peng-jie;WANG Lei;MA Bo;YANG Ya-ting;DONG Rui;Azmat·Anwar(Multilingual Information Technology Lab,The Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences,Urumqi 830011,China;University of Chinese Academy of Sciences,Beijing 100049,China;Xinjiang Laboratory of Minority Speech and Language Information Processing,The Xinjiang Technical Institute of Physics and Chemistry,Chinese Academy of Sciences,Urumqi 830011,China)

机构地区中国科学院新疆理化技术研究所中国科学院大学中国科学院新疆理化技术研究所

出处《计算机工程与设计》北大核心 2023年第5期1487-1494,共8页 Computer Engineering and Design

基金中国科学院青年创新促进会基金项目(科发人函字[2019]26号) 国家自然科学基金项目(U2003303) 新疆天山创新团队基金项目(2020D14045) 国家重点研发计划基金项目(2017YFC0822505-4)。

关键词预训练语言模型维吾尔语事件抽取联合问答模型双向门控循环单元类型识别主体抽取 pre-trained language model Uyghur language event extraction joint question answering model BiGRU type recognition subject extraction

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1冀相冰,朱艳辉,詹飞,梁文桐,张旭.基于门控多层次注意机制的事件主体抽取[J].计算机应用与软件,2021,38(9):173-179. 被引量：4
2仲伟峰,杨航,陈玉博,刘康,赵军.基于联合标注和全局推理的篇章级事件抽取[J].中文信息学报,2019,33(9):88-95. 被引量：21
3黎红,禹龙,田生伟,吐尔根.依布拉音,赵建国.基于DCNNs-LSTM模型的维吾尔语突发事件识别研究[J].中文信息学报,2018,32(6):52-61. 被引量：3
4QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：156
5哈里旦木.阿布都克里木,刘洋,孙茂松.神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J].清华大学学报（自然科学版）,2017,57(8):878-883. 被引量：25
6朱顺乐.基于深度学习的维吾尔语命名实体识别模型[J].计算机工程与设计,2019,40(10):2874-2878. 被引量：6

二级参考文献8

1米成刚,杨雅婷,周喜,李晓,杨明忠.基于字符串相似度的维吾尔语中汉语借词识别[J].中文信息学报,2013,27(5):173-178. 被引量：6
2加日拉·买买提热衣木,吐尔根·依布拉音,艾山·吾买尔.基于统计和规则混合策略的维吾尔人名识别研究[J].新疆大学学报（自然科学版）,2014,31(3):319-324. 被引量：8
3哈里旦木·阿布都克里木,程勇,刘洋,孙茂松.基于双向门限递归单元神经网络的维吾尔语形态切分[J].清华大学学报（自然科学版）,2017,57(1):1-6. 被引量：16
4孙晓,何家劲,任福继.基于多特征融合的混合神经网络模型讽刺语用判别[J].中文信息学报,2016,30(6):215-223. 被引量：14
5塔什甫拉提.尼扎木丁,汪昆,艾斯卡尔.艾木都拉,帕力旦.吐尔逊.统计与规则相结合的维吾尔语人名识别方法[J].自动化学报,2017,43(4):653-664. 被引量：9
6孙晓,高飞,任福继.基于深度模型的社会新闻对用户情感影响挖掘[J].中文信息学报,2017,31(3):184-190. 被引量：4
7李冬白,田生伟,禹龙,吐尔根.依布拉音,冯冠军.基于深度学习的维吾尔语人称代词指代消解[J].中文信息学报,2017,31(4):80-88. 被引量：6
8买买提阿依甫,吾守尔.斯拉木,帕丽旦.木合塔尔,杨文忠.基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J].计算机工程,2018,44(8):230-236. 被引量：23

共引文献209

1王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
2邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
3哈里旦木·阿布都克里木,孙茂松,刘洋,阿布都克力木·阿布力孜.THUUyMorph：维吾尔语形态切分语料库[J].中文信息学报,2018,32(2):81-86. 被引量：5
4张金超,艾山.吾买尔,买合木提.买买提,刘群.基于多编码器多解码器的大规模维汉神经网络机器翻译模型[J].中文信息学报,2018,32(9):20-27. 被引量：7
5张文,冯洋,刘群.基于简单循环单元的深层神经网络机器翻译模型[J].中文信息学报,2018,32(10):36-44. 被引量：17
6古丽尼尕尔.买合木提,帕力旦.吐尔逊,艾斯卡尔.艾木都拉.基于词形分析的汉-维机器翻译性能分析[J].电脑知识与技术,2018,14(4Z):172-174.
7张胜刚,艾山.吾买尔,吐尔根.依布拉音,买合木提.买买提,米尔夏提.力提甫.基于神经网络的维汉翻译系统实现[J].现代电子技术,2018,41(24):157-161. 被引量：6
8李毓,杨雅婷,李晓,米成刚,董瑞.面向汉维机器翻译的神经网络语言模型[J].厦门大学学报（自然科学版）,2019,58(2):189-194. 被引量：3
9陆雯洁,谭儒昕,刘功申,孙环荣.基于半监督学习的小语种机器翻译算法[J].厦门大学学报（自然科学版）,2019,58(2):200-208. 被引量：8
10张胜刚,艾山·吾买尔,吐尔根·依布拉音,买合木提·买买提.亚词及单词深度维汉机器翻译模型对比[J].计算机工程与设计,2019,40(8):2326-2330. 被引量：6

同被引文献37

1蔡坤钊,曾碧卿,陈鹏飞.GAT:用于自然语言理解的基于全局的对抗训练[J].中文信息学报,2023,37(3):27-35. 被引量：2
2桑塔,达哇彭措.信息处理用藏文字丁统计[J].科技信息,2010(29):14-14. 被引量：2
3华却才让,姜文斌,赵海兴,刘群.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176. 被引量：27
4洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219. 被引量：17
5Guo-Bing Zhou,Jianxin Wu,Chen-Lin Zhang,Zhi-Hua Zhou.Minimal Gated Unit for Recurrent Neural Networks[J].International Journal of Automation and computing,2016,13(3):226-234. 被引量：38
6沈兰奔,武志昊,纪宇泽,林友芳,万怀宇.结合注意力机制与双向LSTM的中文事件检测方法[J].中文信息学报,2019,33(9):79-87. 被引量：11
7头旦才让,仁青东主,尼玛扎西.基于CRF的藏文地名识别技术研究[J].计算机工程与应用,2019,55(18):111-115. 被引量：11
8黄培馨,赵翔,方阳,朱慧明,肖卫东.融合对抗训练的端到端知识三元组联合抽取[J].计算机研究与发展,2019,56(12):2536-2548. 被引量：14
9肖宇晗,林慧苹,汪权彬,谭营.基于双特征嵌套注意力的方面词情感分析算法[J].智能系统学报,2021,16(1):142-151. 被引量：6
10程思伟,葛唯益,王羽,徐建.BGCN:基于BERT和图卷积网络的触发词检测[J].计算机科学,2021,48(7):292-298. 被引量：7

引证文献4

1廖涛,沈文龙,张顺香,马文祥.基于对抗训练的事件要素识别方法[J].计算机工程与设计,2024,45(2):540-545.
2马宇航,宋宝燕,丁琳琳,鲁闻一,纪婉婷.融合实体信息和时序特征的问答式事件检测方法[J].计算机工程与设计,2024,45(4):1218-1224.
3张菊玲.AI人工智能翻译中结合模糊算法与改进注意力机制的分析[J].自动化与仪器仪表,2024(8):223-227.
4洛桑嘎登,尼玛扎西.基于藏文字符感知的文本预训练模型方法研究[J].计算机工程与应用,2024,60(21):127-133.

1徐子路,朱睿莎,余敦辉,邢赛楠.面向图注意力网络的突发热点事件联合抽取[J].小型微型计算机系统,2023,44(5):902-909. 被引量：3
2李云想,王汝凉,李嘉敏.基于RoBERTa-WWM-BiGRU-CRF的中文命名实体识别[J].南宁师范大学学报（自然科学版）,2023,40(1):72-78.
3曹燕.延续性护理对冠心病伴高血压患者的影响[J].中文科技期刊数据库（全文版）医药卫生,2021(9):61-62.
4郝秦霞,荣政,谢林江,杭菲璐.基于Bi-LSTM的在线物联网设备识别方法[J].西安科技大学学报,2023,43(2):422-430. 被引量：5
5对医学名词规范使用的注意事项[J].中国社区医师,2023,39(11):136-136.
6医学名词规范使用的注意事项[J].内科急危重症杂志,2023,29(2):128-128.
7对医学名词规范使用的注意事项[J].中国社区医师,2023,39(12):10-10.
8孙晨瑜,王振琦,张宝宇,张卫山,侯召祥,陈涛.基于RoBERTa-ND的中文实词辨析[J].计算机系统应用,2023,32(5):157-163.
9本刊编辑部.医学名词术语使用规范[J].军事医学,2023,47(3):168-168.
10杨樱.基于多源数据的交通事件识别主动管控系统研究[J].江苏科技信息,2023,40(9):62-68. 被引量：1

计算机工程与设计

2023年第5期

浏览历史

内容加载中请稍等...

基于预训练语言模型的维吾尔语事件抽取被引量：4

参考文献6

二级参考文献8

共引文献209

同被引文献37

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的维吾尔语事件抽取 被引量：4

参考文献6

二级参考文献8

共引文献209

同被引文献37

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于预训练语言模型的维吾尔语事件抽取被引量：4