期刊文献+
共找到292篇文章
< 1 2 15 >
每页显示 20 50 100
基于微调原型网络的小样本敏感信息识别方法
1
作者 余正涛 关昕 +2 位作者 黄于欣 张思琦 赵庆珏 《中文信息学报》 CSCD 北大核心 2024年第1期115-123,共9页
敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方... 敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。 展开更多
关键词 敏感信息识别 小样本学习 微调策略 原型网络
下载PDF
多模态特征的越南语语音识别文本标点恢复
2
作者 赖华 孙童 +3 位作者 王文君 余正涛 高盛祥 董凌 《计算机应用》 CSCD 北大核心 2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南... 越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。 展开更多
关键词 语音识别 标点恢复 越南语 BERT 多模态
下载PDF
基于多维度注意力机制和复数Conformer的单通道语音增强方法
3
作者 高盛祥 莫尚斌 +2 位作者 余正涛 董凌 王文君 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期393-403,共11页
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-... 为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。 展开更多
关键词 深度复数网络 声学特征 关联信息 多维度注意力机制 语音增强
下载PDF
基于类型矩阵转移的汉越事件因果关系识别
4
作者 高盛祥 熊琨 +2 位作者 余正涛 张磊 黄于欣 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第1期118-127,共10页
针对汉越跨语言新闻事件因果关系识别中,汉越跨语言的文本语义空间难以统一、新闻之间的因果关联特征捕获困难的问题,提出了基于类型矩阵转移的汉越跨语言新闻事件因果关系识别方法。通过跨语言预训练统一汉越跨语言的文本语义空间,使... 针对汉越跨语言新闻事件因果关系识别中,汉越跨语言的文本语义空间难以统一、新闻之间的因果关联特征捕获困难的问题,提出了基于类型矩阵转移的汉越跨语言新闻事件因果关系识别方法。通过跨语言预训练统一汉越跨语言的文本语义空间,使用树形长短期记忆循环神经网络提取汉越文本中的句法结构化特征,融入汉越句法特征并结合基于事件类型转移的注意力机制,对汉越事件句对的因果关系进行识别。实验结果表明,该方法在汉越跨语言新闻事件因果关系的识别上较基线模型准确率有所提升。 展开更多
关键词 汉越跨语言 事件类型 语言对抗 句法信息 因果关系
下载PDF
基于局部Transformer的泰语分词和词性标注联合模型
5
作者 朱叶芬 线岩团 +1 位作者 余正涛 相艳 《智能系统学报》 CSCD 北大核心 2024年第2期401-410,共10页
泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采... 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。 展开更多
关键词 泰语分词 词性标注 联合学习 局部Transformer 构词特点 音节特征 线性条件随机场 联合模型
下载PDF
自编码器动态主导融合的多模态情感分析
6
作者 杨溪 郭军军 +3 位作者 严海宁 谭凯文 相艳 余正涛 《计算机工程与应用》 CSCD 北大核心 2024年第6期180-187,共8页
多模态情感分析过程中,对情感判定起主导作用的模态常常是动态变化的。传统多模态情感分析方法中通常仅以文本为主导模态,而忽略了由于模态之间的差异性造成不同时刻主导模态的变化。针对如何在各个时刻动态选取主导模态的问题,提出一... 多模态情感分析过程中,对情感判定起主导作用的模态常常是动态变化的。传统多模态情感分析方法中通常仅以文本为主导模态,而忽略了由于模态之间的差异性造成不同时刻主导模态的变化。针对如何在各个时刻动态选取主导模态的问题,提出一种自编码器动态主导融合的多模态情感分析方法。该方法首先对单模态编码并获得多模态融合特征,再利用自编码器将其表征到共享空间内;在此空间内衡量单模态特征与融合模态特征的相关程度,在各个时刻动态地选取相关程度最大的模态作为该时刻的主导模态;最后,利用主导模态引导多模态信息融合,得到多模态鲁棒性表征。在多模态情感分析基准数据集CMU-MOSI上进行广泛实验,实验结果表明提出方法的有效性,并且优于大多数现有最先进的多模态情感分析方法。 展开更多
关键词 多模态情感分析 动态互补 主导模态 自编码器
下载PDF
融合词性语义扩展信息的事件检测模型
7
作者 严海宁 余正涛 +2 位作者 黄于欣 宋燃 杨溪 《计算机工程》 CAS CSCD 北大核心 2024年第3期89-97,共9页
事件检测是事件抽取中的关键步骤,依赖于触发词进行事件类型分类。现有主流事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,在稀疏标记的触发词或者未见过的触发词上容易失效。改进方法通常通过扩充更多训练实例... 事件检测是事件抽取中的关键步骤,依赖于触发词进行事件类型分类。现有主流事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,在稀疏标记的触发词或者未见过的触发词上容易失效。改进方法通常通过扩充更多训练实例来缓解这一问题,但扩充后的数据分布不平衡,存在内置偏差,仍然表现不佳。为此,建立一种融合词性语义扩展信息的事件检测模型。对词粒度扩展信息进行分析,在不增加训练实例的条件下缩小候选触发词的范围,并对候选触发词进行语义扩展,挖掘候选触发词的上下文中蕴含的丰富语义,缓解了标记数据稀疏造成模型训练不充分的情况。通过词性筛选模块寻找候选触发词并对其进行语义扩展挖掘词粒度语义信息,融合句子粒度语义信息提升语义表征的鲁棒性,最终利用Softmax分类器进行分类完成事件检测任务。实验结果表明,该模型在ACE2005和KBP2015数据集上的事件检测任务中的F1值分别达到79.5%和67.5%,有效提升了事件检测性能,并且在稀疏标记数据实验中的F1值达到78.5%,明显改善了标记数据稀疏带来的不良影响。 展开更多
关键词 事件检测 稀疏标记 词性筛选 语义扩展 语义融合 动态多池化
下载PDF
一种Mask交互融合预训练知识的低资源神经机器翻译方法
8
作者 朱志国 郭军军 余正涛 《小型微型计算机系统》 CSCD 北大核心 2024年第3期591-597,共7页
融合预训练语言知识是提升低资源神经机器翻译性能的有效手段.现有融合预训练语言知识的方法都比较复杂,计算资源消耗较大.针对以上问题,本文提出了一种简单有效的Mask交互融合预训练知识的低资源神经机器翻译方法,首先利用BERT的句子... 融合预训练语言知识是提升低资源神经机器翻译性能的有效手段.现有融合预训练语言知识的方法都比较复杂,计算资源消耗较大.针对以上问题,本文提出了一种简单有效的Mask交互融合预训练知识的低资源神经机器翻译方法,首先利用BERT的句子表征与源语言表征的自注意力交互计算两种表征的相似度,根据相似度值构造Mask知识矩阵,然后将Mask知识矩阵作用于源语言表征,自适应地将BERT表征中对低资源神经机器翻译任务有益的语言知识融入翻译模型,提升翻译模型对语言知识的表征能力.在IWSLT标准低资源翻译任务上的实验结果表明,与Transformer基线模型相比,所提方法获得了0.9~3.39的BLEU值提升,证明了所提方法能够有效利用预训练语言知识增强神经机器翻译性能. 展开更多
关键词 低资源神经机器翻译 知识融合 BERT Mask交互融合
下载PDF
基于要素关联图的汉越跨语言事件检索方法
9
作者 赵周颖 余正涛 +2 位作者 黄于欣 陈瑞清 朱恩昌 《现代电子技术》 北大核心 2024年第7期127-132,共6页
汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪... 汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪声文本,现有的模型不能很好地捕获事件匹配特征,匹配效果欠佳。基于此,文中提出基于要素关联图的汉越跨语言事件检索方法。首先,预训练一个汉越双语词嵌入来解决跨语言问题;然后,抽取查询文档中的关键信息(关键词和实体)以构建要素关联图;最后,通过引入一个图编码器对构建的要素图进行编码,生成结构化的事件信息来增强传统的事件检索模型。实验结果表明文中提出的方法优于传统的基线方法。 展开更多
关键词 跨语言事件检索 跨语言词嵌入 要素关联图 图神经网络 文本匹配 事件检索
下载PDF
基于梯度权重变化训练策略的低资源机器翻译
10
作者 王家琪 朱俊国 余正涛 《计算机科学与探索》 CSCD 北大核心 2024年第3期731-739,共9页
近年来Transformer等神经网络模型在机器翻译上取得了显著的成功,但训练这些模型需要依靠丰富的有标签数据,而低资源机器翻译因受限于平行语料库的规模,导致训练得到的模型表现不佳,同时很容易针对高频词汇过度拟合,从而降低模型在测试... 近年来Transformer等神经网络模型在机器翻译上取得了显著的成功,但训练这些模型需要依靠丰富的有标签数据,而低资源机器翻译因受限于平行语料库的规模,导致训练得到的模型表现不佳,同时很容易针对高频词汇过度拟合,从而降低模型在测试集上的泛化能力。为了缓解这一现象,提出了一种梯度权重变化的策略,即在Adam算法基础上为每一个新批次所产生的梯度乘以一个系数。该系数递增变化,旨在在训练早期削弱对高频特征的依赖,而在训练后期保持算法的快速收敛优势。介绍了模型改进后的训练流程,其中包括系数的调整和衰减,以实现在不同训练阶段的不同侧重。这种策略的目标是增加对低频词汇的关注度,防止模型对高频词汇的过拟合。在三个低资源的双语数据集上进行了翻译任务实验,该方法在测试集上相对于基线模型分别提升了0.72、1.37和1.04个BLEU得分。 展开更多
关键词 神经机器翻译 过拟合 动态梯度权重
下载PDF
基于生成对抗网络的越南语新闻事件共指关系识别方法
11
作者 汪翠 余正涛 梁晨 《中文信息学报》 CSCD 北大核心 2024年第2期79-86,共8页
事件共指关系识别旨在分析事件描述之间是否从不同的角度对同一件真实事件展开论述。但是,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的噪声情况,其会对共指关系识别模型造成干扰。为解决以上问题,该文... 事件共指关系识别旨在分析事件描述之间是否从不同的角度对同一件真实事件展开论述。但是,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的噪声情况,其会对共指关系识别模型造成干扰。为解决以上问题,该文提出了基于生成对抗网络的越南语新闻事件共指关系识别方法,采用触发词的上下文信息作为事件句的最小特征表示,在生成对抗网络的基础上构建噪声数据过滤机制进行信息实例与噪声实例的区分。在越南语事件数据集和公开数据集上的实验表明,该神经网络模型能有效进行噪声数据过滤,相对于传统的事件共指关系识别方法有明显的优势。 展开更多
关键词 越南语新闻 事件共指关系识别 生成对抗网络
下载PDF
利用双主题表征的涉案微博评价对象识别方法
12
作者 相艳 余正涛 +2 位作者 郭军军 黄于欣 线岩团 《软件学报》 EI CSCD 北大核心 2023年第4期1811-1823,共13页
微博评价对象识别是涉案网络舆情分析的基础.目前基于主题表征的评价对象识别方法需要预设固定的主题数目,且最终评价对象识别依赖人工推断.针对此问题,提出一种弱监督涉案微博评价对象识别方法,仅采用少量标签评论即可实现对评价对象... 微博评价对象识别是涉案网络舆情分析的基础.目前基于主题表征的评价对象识别方法需要预设固定的主题数目,且最终评价对象识别依赖人工推断.针对此问题,提出一种弱监督涉案微博评价对象识别方法,仅采用少量标签评论即可实现对评价对象的自动识别.具体实现思路为:首先基于变分双主题表征网络对评论进行两次编码和重构,获得丰富的主题特征;然后,利用少量标签评论,引导主题表征网络自动判别评价对象类别;最后采用联合训练策略,对双主题表征的重构损失与评价对象分类损失进行联合调优,最终实现对评价对象的自动分类和评价对象词项的挖掘.在涉案舆情的两个数据集上进行了实验,结果表明,所提出的模型在评价对象分类、评价对象词项的主题连贯性和多样性等方面均优于几个基线模型. 展开更多
关键词 评价对象识别 变分编码 主题模型 弱监督学习 涉案舆情
下载PDF
基于BiLSTM的低资源老挝语文本正则化任务
13
作者 王剑 姜林 +3 位作者 王琳钦 余正涛 张松 高盛祥 《计算机工程与科学》 CSCD 北大核心 2023年第7期1292-1299,共8页
文本正则化TN是语音合成文本前端分析任务中必不可少的工作,老挝语的文本正则化是将老挝语文本中不可读的词NSW转化为可以口头表达的词SFW。目前文本正则化任务尚未在老挝语中开展,主要面临训练数据难获取、部分不可读词存在歧义的问题... 文本正则化TN是语音合成文本前端分析任务中必不可少的工作,老挝语的文本正则化是将老挝语文本中不可读的词NSW转化为可以口头表达的词SFW。目前文本正则化任务尚未在老挝语中开展,主要面临训练数据难获取、部分不可读词存在歧义的问题。针对以上问题,构建了老挝语文本正则化任务的语料,并将老挝语文本正则化任务当作序列标注任务,使用神经网络结合上下文语境预测存在歧义的不可读的老挝语文本,增加自注意力机制加深序列字符间的关系,探究了不同策略引入预训练语言模型的效果,融合各自注意力机制的BiLSTM模型在测试集上达到67.59%的准确率。 展开更多
关键词 老挝语 文本正则化 神经网络 自注意力机制
下载PDF
融合多粒度特征的低资源语言词性标注和依存分析联合模型 被引量:1
14
作者 陆杉 毛存礼 +3 位作者 余正涛 高盛祥 黄于欣 王振晗 《中文信息学报》 CSCD 北大核心 2023年第7期13-22,共10页
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表... 研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 展开更多
关键词 低资源语言 词性标注 依存分析 多粒度特征 联合模型
下载PDF
融入依存句法信息的事件时序关系识别 被引量:1
15
作者 李良毅 张亚飞 +2 位作者 郭军军 高盛祥 余正涛 《计算机工程与应用》 CSCD 北大核心 2023年第7期110-117,共8页
事件时序关系识别有助于读者理清文章脉络,把握全局发展趋势,是重要的自然语言理解任务之一。现有的事件时序关系识别方法专注于提取事件触发词前后的局部信息,然而事件句中的事件信息分布较为分散,导致模型在编码过程中丢失部分事件信... 事件时序关系识别有助于读者理清文章脉络,把握全局发展趋势,是重要的自然语言理解任务之一。现有的事件时序关系识别方法专注于提取事件触发词前后的局部信息,然而事件句中的事件信息分布较为分散,导致模型在编码过程中丢失部分事件信息。针对上述问题,针对文本特征提出一种双路依存注意力机制来聚合事件句信息,通过单词的父子节点信息构建出双路依存矩阵,将句法信息融入到词嵌入中。将该机制与双向长短期记忆网络(bidirectional long short term memory,Bi-LSTM)结合,可以使事件时序关系模型的性能得到显著提高。该文在越南语数据集与英语数据集上进行对比实验,结果表明所提方法优于主流的神经网络方法。 展开更多
关键词 事件时序关系 注意力机制 事件关系识别 对抗训练 依存句法
下载PDF
融合事实文本的问句分解式语义解析方法 被引量:1
16
作者 杨玉倩 高盛祥 +1 位作者 余正涛 宋燃 《小型微型计算机系统》 CSCD 北大核心 2023年第9期1932-1939,共8页
目前知识库问答(Knowledge base question answering,KBQA)技术无法有效地处理复杂问题,难以理解其中的复杂语义.将一个复杂问题先分解再整合,是解析复杂语义的有效方法.但是,在问题分解的过程中往往会出现实体判断错误或主题实体缺失... 目前知识库问答(Knowledge base question answering,KBQA)技术无法有效地处理复杂问题,难以理解其中的复杂语义.将一个复杂问题先分解再整合,是解析复杂语义的有效方法.但是,在问题分解的过程中往往会出现实体判断错误或主题实体缺失的情况,导致分解得到的子问题与原始复杂问题并不匹配.针对上述问题,提出了一种融合事实文本的问解分解式语义解析方法.对复杂问题的处理分为分解-抽取-解析3个阶段,首先把复杂问题分解成简单子问题,然后抽取问句中的关键信息,最后生成结构化查询语句.同时,本文又构造了事实文本库,将三元组转化成用自然语言描述的句子,采用注意力机制获取更丰富的知识.在ComplexWebQuestions数据集上的实验表明,本文提出的模型在性能上优于其他基线模型. 展开更多
关键词 知识库问答 复杂问题 语义解析 事实文本
下载PDF
融入法律知识的问句匹配
17
作者 刘权 余正涛 +2 位作者 何世柱 刘康 高盛祥 《软件学报》 EI CSCD 北大核心 2023年第4期1824-1836,共13页
问句匹配是问答系统的重要任务,当前方法通常采用神经网络建模两个句子的语义匹配程度.但是,在法律领域中,问句常存在文本表征稀疏、法律词的专业性较强、句子蕴含法律知识不足等问题.因此,通用领域的深度学习文本匹配模型在法律问句匹... 问句匹配是问答系统的重要任务,当前方法通常采用神经网络建模两个句子的语义匹配程度.但是,在法律领域中,问句常存在文本表征稀疏、法律词的专业性较强、句子蕴含法律知识不足等问题.因此,通用领域的深度学习文本匹配模型在法律问句匹配任务上效果并不好.为了让模型更好的理解法律问句的含义、建模法律领域知识,首先构建一个法律领域知识库,在此基础上提出一种融合法律领域知识(如法律词汇和法律法条)的问句匹配模型.具体地,构建了合同纠纷、离婚、交通事故、劳动工伤、债务债权等5种法律纠纷类别下的法律词典,并且收集了相关法律法条,构建法律领域知识库.在问句匹配中,首先查询法律知识库检索问句对所对应的法律词汇和法律法条,进而通过交叉关注模型同时建模问句、法律词汇、法律法条三者之间的关联,最终实现更精准的问句匹配,在多个法律类别下的实验表明提出的方法能有效提升问句匹配性能. 展开更多
关键词 法律问句匹配 法律词典 法律法条 法律领域知识库
下载PDF
基于多策略原型生成的低资源神经机器翻译
18
作者 于志强 余正涛 +2 位作者 黄于欣 郭军军 线岩团 《软件学报》 EI CSCD 北大核心 2023年第11期5113-5125,共13页
资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合... 资源丰富场景下,利用相似性翻译作为目标端原型序列,能够有效提升神经机器翻译的性能.然而在低资源场景下,由于平行语料资源匮乏,导致不能匹配得到原型序列或序列质量不佳.针对此问题,提出一种基于多种策略进行原型生成的方法.首先结合利用关键词匹配和分布式表示匹配检索原型序列,如未能获得匹配,则利用伪原型生成方法产生可用的伪原型序列.其次,为有效地利用原型序列,对传统的编码器-解码器框架进行改进.编码端使用额外的编码器接收原型序列输入;解码端在利用门控机制控制信息流动的同时,使用改进的损失函数减少低质量原型序列对模型的影响.多个数据集上的实验结果表明,相比基线模型,所提出的方法能够有效提升低资源场景下的机器翻译性能. 展开更多
关键词 神经机器翻译 低资源 多策略 原型
下载PDF
基于中文触发词指导的越南语新闻事件检测
19
作者 寇梦珂 高盛祥 +2 位作者 余正涛 毛存礼 朱恩昌 《中文信息学报》 CSCD 北大核心 2023年第4期45-51,共7页
触发词的识别在事件检测任务中起着至关重要的作用。目前没有越南语触发词标记语料,而中文触发词标记语料较为丰富,根据表达相同观点但语言不同的句子通常有相同或相似的语义成分这一特征,该文提出一种基于中文触发词指导的越南语新闻... 触发词的识别在事件检测任务中起着至关重要的作用。目前没有越南语触发词标记语料,而中文触发词标记语料较为丰富,根据表达相同观点但语言不同的句子通常有相同或相似的语义成分这一特征,该文提出一种基于中文触发词指导的越南语新闻事件检测方法。首先采用对抗学习的方法将两种语言映射到同一语义空间下,然后将映射后的中文触发词嵌入指导模型识别越南语新闻中的触发词信息,最后进行事件类型的分类。通过在越南语新闻事件检测的实验结果表明,在中文触发词指导下的越南语新闻事件检测取得了较好的效果。 展开更多
关键词 越南语新闻 事件检测 触发词 对抗学习
下载PDF
基于情感语义对抗的跨语言情感分类模型
20
作者 赵亚丽 余正涛 +2 位作者 郭军军 高盛祥 相艳 《计算机工程与科学》 CSCD 北大核心 2023年第2期338-345,共8页
传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感... 传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感词进行拼接,用卷积神经网络对拼接后的句子分别进行特征抽取,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标签数据的情感语义表征进行对齐;最后,将句子与情感词最显著的表征进行拼接,得到情感分类结果。基于汉英公共数据集和自主构建的汉越数据集的实验结果表明,所提模型相比跨语言情感分类主流模型,实现了双语情感语义对齐,可以有效提升越南语情感分类的准确率,且在差异性不同的语言对上也具有明显优势。 展开更多
关键词 情感语义表征 双语词嵌入 低资源语言 跨语言情感分类
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部