基于注意力头数和词性融合的藏文预训练模型

Tibetan Pre-training Model Based on Attention Heads and Part-of-Speech Fusion

下载PDF

导出

摘要为了更好地学习藏文语言特征以及探究藏文预训练语言模型的最佳注意力机制头数,将词性与藏文预训练模型相结合,并进行了对比实验确定最佳的注意力头数,旨在提高语言模型对藏文语言特征的理解以及下游任务的性能。实验结果表明,在多个分类任务中,注意力头数为12的预训练模型皆表现了良好的性能。此外,将词性融入预训练模型后,文本、标题和情感分类任务的模型F_(1)值分别提高了0.57%、0.92%和1.01%。实验结果证明融入词性特征后,模型可以更准确地理解藏文语言结构和语法规则,从而提高分类任务的准确率。 In order to acquire superior Tibetan characteristics and enhance the model’s understanding of Tibetan features,part-of-speech was combined with the Tibetan pre-trained language model.Meanwhile,improving the performance of downstream tasks,the optimal attention mechanism head number of Tibetan pre-trained language model were explored by comparative experiments.The results show that pre-trained language models with 12 attention heads perform well in multiple classification tasks.Furthermore,after incorporating part-of-speech into the pre-trained language models,the macroF1 values of text,title and sentiment classification tasks increase by 0.57%,0.92%and 1.01%respectively.It is conclued that after incorporating part-of-speech features,the language structure and grammar rules of Tibetan can be better understanded.

作者张英拥措斯曲卓嘎拉毛杰扎西永珍尼玛扎西 ZHANG Ying;YONG Tso;SI Qu-zhuo-ga;LA Mao-jie;ZHA Xi-yong-zhen;NI Ma-zha-xi(Information Science and Technology Academy,Tibet University,Lhasa 850000,China;Key Laboratory of Tibetan Information Technology and Artificial Intelligence of Tibet Autonomous Region,Lhasa 850000,China;Engineering Research Center of the Ministry of Education of Tibetan Information Technology,Lhasa 850000,China)

机构地区西藏大学信息科学技术学院西藏自治区藏文信息技术人工智能重点实验室藏文信息技术教育部工程研究中心

出处《科学技术与工程》北大核心 2024年第23期9957-9964,共8页 Science Technology and Engineering

基金科技创新2030——“新一代人工智能”重大项目(2022ZD0116100) 西藏自治区科技厅项目(XZ202401JD0010)。

关键词注意力机制词性预训练语言模型文本分类情感分类 attention mechanism part-of-speech pre-train language models text classification sentiment classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1李超凡,马凯.基于注意力机制结合CNN-BiLSTM模型的电子病历文本分类[J].科学技术与工程,2022,22(6):2363-2370. 被引量：20
2杨秀璋,郭明镇,候红涛,袁杰,李晓峰,李坤琪,汪威,何世群,罗子江.融合情感词典的改进BiLSTM-CNN+Attention情感分类算法[J].科学技术与工程,2022,22(20):8761-8770. 被引量：17
3张杨帆,丁锰.改进的基于Transformer的双向编码器的对话文本识别[J].科学技术与工程,2022,22(29):12945-12953. 被引量：5
4哈里旦木·阿布都克里木,侯钰涛,姚登峰,阿布都克力木·阿布力孜,陈吉尚.维吾尔语机器翻译研究综述[J].计算机工程,2024,50(1):1-16. 被引量：1
5王腾阳,赵小丹,胡林.基于词性标注规则的马铃薯文献信息抽取方法[J].科学技术与工程,2023,23(27):11562-11569. 被引量：2
6陈钰佳,郑更生,肖伟.基于RoBERTa与句法信息的中文影评情感分析[J].科学技术与工程,2023,23(18):7844-7851. 被引量：3
7宋宇婷,余本功.融合多粒度特征和标签语义共现的多标签分类[J].科学技术与工程,2023,23(16):6959-6966. 被引量：3
8扎西加,多拉.藏语依存树库构建的理论与方法探析[J].西藏大学学报（社会科学版）,2015,30(5):76-83. 被引量：13
9才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：7
10安波,龙从军.基于预训练语言模型的藏文文本分类[J].中文信息学报,2022,36(12):85-93. 被引量：7

二级参考文献163

1陈海艳.新中国成立以来的维吾尔语研究概述[J].民族翻译,2021(1):88-96. 被引量：1
2肖桐,朱靖波.《机器翻译:基础与模型》[J].中文信息学报,2021,35(12):167-167. 被引量：1
3王光,李鸿宇,邱云飞,郁博文,柳厅文.基于图卷积记忆网络的方面级情感分类[J].中文信息学报,2021,35(8):98-106. 被引量：17
4刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
5周国光.汉语配价语法论略[J].南京师大学报（社会科学版）,1994(4):103-106. 被引量：30
6维尼拉.木沙江,木合塔尔.日——维机器翻译中粘着性特点的应用[J].新疆大学学报（社会科学版）,2005,33(1):129-134. 被引量：3
7宋金兰.汉藏语形态变体的分化[J].民族语文,2002(1):29-33. 被引量：5
8周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：40
9才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J].中文信息学报,2005,19(6):7-12. 被引量：10
10维尼拉.木沙江,米尔夏提.力提甫,木合塔尔.日-维机器翻译系统中词典的研究[J].新疆大学学报（哲学社会科学版）,2006,34(1):149-153. 被引量：1

共引文献92

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
2德吉措,安见才让.基于双向GRU神经网络的藏文人物关系抽取方法[J].信息化研究,2023,49(4):43-47.
3郭小萍,钟道金,李元.基于AMSDAE-BLSTM的工业过程质量预测[J].电子测量技术,2023,46(4):19-24.
4余长春,拥措.基于HTTP协议面向藏文文本的实时监测技术研究[J].网络空间安全,2016,7(9):45-48.
5头旦才让,尼玛扎西,完么扎西.藏语依存树库的构建技术研究[J].高原科学研究,2018,2(3):97-103. 被引量：8
6孙丽萍,戴玉刚.面向公共信息服务的藏文问题分类方法研究[J].无线互联科技,2018,15(17):105-107. 被引量：1
7桑杰端珠,才让加.神经网络藏文分词方法研究[J].青海科技,2018,25(6):15-21. 被引量：7
8拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法[J].计算机应用研究,2019,36(4):1080-1083. 被引量：6
9陆雯洁,谭儒昕,刘功申,孙环荣.基于半监督学习的小语种机器翻译算法[J].厦门大学学报（自然科学版）,2019,58(2):200-208. 被引量：8
10Lili Wang,Ziyan Chen,Hongwu Yang.TPOS Tagging Method Based on BiLSTM_CRF Model[J].国际计算机前沿大会会议论文集,2019(1):501-503.

科学技术与工程

2024年第23期

浏览历史

内容加载中请稍等...

基于注意力头数和词性融合的藏文预训练模型

参考文献13

二级参考文献163

共引文献92

相关作者

相关机构

相关主题

浏览历史