期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于图像分割的古彝文字识别系统研究 被引量:10
1
作者 王嘉梅 文永华 +1 位作者 李燕青 高雅莉 《云南民族大学学报(自然科学版)》 CAS 2008年第1期76-79,共4页
介绍了一个古彝文字识别系统实现方案,并重点讨论了图像分割和字符识别,包括图像细化、大小归一化、模板匹配等关键技术.应用MATLAB和C++语言编程实现了上述过程的仿真,仿真结果对古彝文字识别研究具有一定意义.
关键词 古彝文字 图像分割 字符识别 模板匹配
下载PDF
用于文本分类的均值原型网络 被引量:2
2
作者 线岩团 相艳 +3 位作者 余正涛 文永华 王红斌 张亚飞 《中文信息学报》 CSCD 北大核心 2020年第6期73-80,88,共9页
文本分类是自然语言处理的基本任务之一。该文在原型网络基础上,提出了按时序移动平均方式集成历史原型向量的均值原型网络,并将均值原型网络与循环神经网络相结合,提出了一种新的文本分类模型。该模型利用单层循环神经网络学习文本的... 文本分类是自然语言处理的基本任务之一。该文在原型网络基础上,提出了按时序移动平均方式集成历史原型向量的均值原型网络,并将均值原型网络与循环神经网络相结合,提出了一种新的文本分类模型。该模型利用单层循环神经网络学习文本的向量表示,通过均值原型网络学习文本类别的向量表示,并利用文本向量与原型向量的距离训练模型并预测文本类别。与己有的神经网络文本分类方法相比,模型在训练和预测过程中有效利用了样本间的特征相似关系,并具有网络深度浅、参数少的特点。该方法在多个公开的文本分类数据集上取得了最好的分类准确率。 展开更多
关键词 文本分类 均值原型网络 自集成学习
下载PDF
基于Siamese循环神经网络的泰文句子切分方法
3
作者 线岩团 张志菊 +1 位作者 王红斌 文永华 《计算机工程与科学》 CSCD 北大核心 2021年第12期2238-2242,共5页
泰文很少运用标点符号,句子间没有明显的分隔符,需要根据语义进行断句,为泰文词法分析、句法分析和机器翻译等自然语言处理任务带来了额外的困难。针对泰文断句问题提出一种基于Siamese循环神经网络的句子自动切分方法。相比传统泰文断... 泰文很少运用标点符号,句子间没有明显的分隔符,需要根据语义进行断句,为泰文词法分析、句法分析和机器翻译等自然语言处理任务带来了额外的困难。针对泰文断句问题提出一种基于Siamese循环神经网络的句子自动切分方法。相比传统泰文断句方法,该方法无需人工定义特征,而是采用统一的循环神经网络分别对候选断句点前后的词序列进行编码;然后,通过综合前后词序列的编码向量作为特征来构建泰文句子切分模型。在ORCHID泰文语料上的实验结果表明,所提出的方法优于传统泰文句子切分方法。 展开更多
关键词 泰文 句子切分 循环神经网络
下载PDF
基于灰色关联分析的中文新闻事件关联性识别 被引量:5
4
作者 刘盼盼 洪旭东 +3 位作者 郭剑毅 余正涛 文永华 陈玮 《计算机应用》 CSCD 北大核心 2016年第2期408-413,共6页
针对中文新闻事件关联性识别准确率较低的问题,提出一种基于灰色关联分析(GRA)的中文新闻事件关联性识别算法,该算法是一种多因素分析法。首先,通过分析中文新闻事件的特性,提出三个影响事件关联性的因素,分别为触发词的共现性、事件的... 针对中文新闻事件关联性识别准确率较低的问题,提出一种基于灰色关联分析(GRA)的中文新闻事件关联性识别算法,该算法是一种多因素分析法。首先,通过分析中文新闻事件的特性,提出三个影响事件关联性的因素,分别为触发词的共现性、事件的共享名词以及事件句的相似度;其次,对多个影响因素进行量化处理,计算每个影响因素的影响权值;最后,运用GRA将多个影响因素结合在一起,建立事件之间的灰色关联性分析模型,实现事件关联性识别。通过实验验证了三个影响因素对事件关联性识别的有效性,而且相对于只考虑单一影响因素的关联性识别算法,所提算法提高了事件关联性识别的准确率。 展开更多
关键词 事件关联性识别 灰色关联分析 多因素分析法 共现性 共享名词 相似度
下载PDF
融合上下文语义信息的汉越平行短语对抽取方法
5
作者 杨舰 高盛祥 +2 位作者 余正涛 朱浩东 文永华 《云南民族大学学报(自然科学版)》 CAS 2021年第3期264-271,共8页
越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取... 越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取高质量的双语短语对有重要支撑.提出了融合上下文语义信息的汉越平行短语对抽取方法.首先使用汉、越单语语料训练汉、越向量矩阵;然后预训练编码器,通过注意力机制将句子编码信息和短语编码信息进行结合,生成含有上下文语义信息的单语短语向量,同时将平行短语对作为约束,使汉越短语向量在语义空间中距离最小化,非平行短语对的距离最大化,得到汉越双语短语向量表示;最后利用预训练好的编码器来对平行短语对分类器进行训练.实验结果证明,所训练的分类器的准确度达到75.62%,同时,为了检测抽取出来的平行短语对质量,将其添加到SMT的训练语料中,与基线系统相比,提升了0.93Bleu. 展开更多
关键词 上下文语义信息 半监督自编码器 平行短语对抽取 汉-越 可比语料
下载PDF
基于动态词嵌入对齐的无监督泰语依存句法分析 被引量:1
6
作者 张弘弢 文永华 王剑 《信息技术》 2023年第4期1-7,共7页
泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中... 泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中,分析无监督泰语依存句法。实验结果表明,该方法能有效地从无标注泰语数据中提取到依存句法知识。此外该方法还支持多语言联合训练迁移到泰语来提升泰语依存句法分析的性能。 展开更多
关键词 依存句法分析 泰语 无监督 动态词嵌入对齐 迁移学习
下载PDF
生活化教学在小学语文作文教学中的应用
7
作者 文永华 《少年写作》 2021年第5期26-26,共1页
小学阶段的学生在语文作文教学中处于启蒙阶段,学生的思维能力活跃,模仿能力较强,因此,在这一阶段,教师要充分发挥“领导者”的作用,引领学生了解认识到语文作文课程的重要性,运用创新教学观念和教学方式进行语文作文教学,将生活化的教... 小学阶段的学生在语文作文教学中处于启蒙阶段,学生的思维能力活跃,模仿能力较强,因此,在这一阶段,教师要充分发挥“领导者”的作用,引领学生了解认识到语文作文课程的重要性,运用创新教学观念和教学方式进行语文作文教学,将生活化的教学方式融入到小学语文作文课程中来。 展开更多
下载PDF
一种基于小字典不对等语料的跨语言词嵌入方法 被引量:1
8
作者 王红斌 冯银汉 +1 位作者 余正涛 文永华 《中文信息学报》 CSCD 北大核心 2019年第8期46-52,共7页
双语词嵌入通常采用从源语言空间到目标语言空间映射,通过源语言映射嵌入到目标语言空间的最小距离线性变换实现跨语言词嵌入。然而大型的平行语料难以获得,词嵌入的准确率难以提高。针对语料数量不对等、双语语料稀缺情况下的跨语言词... 双语词嵌入通常采用从源语言空间到目标语言空间映射,通过源语言映射嵌入到目标语言空间的最小距离线性变换实现跨语言词嵌入。然而大型的平行语料难以获得,词嵌入的准确率难以提高。针对语料数量不对等、双语语料稀缺情况下的跨语言词嵌入问题,该文提出一种基于小字典不对等语料的跨语言词嵌入方法,首先对单语词向量进行归一化,对小字典词对正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。在英语-意大利语、德语和芬兰语上进行了实验验证,实验结果证明该文方法可以在跨语言词嵌入中减少梯度下降迭代次数,减少训练时间,同时在跨语言词嵌入上表现出较好的正确率。 展开更多
关键词 小字典 不对等语料 词嵌入 k-means聚类 梯度下降
下载PDF
民族院校信号类课程开放式、立体化教学体系探索与实践
9
作者 王嘉梅 高雅莉 +1 位作者 文永华 吴庆畅 《中国校外教育》 2009年第S5期49-50,共2页
针对民族院校、少数民族学生学习"DSP原理与技术"、"数字信号处理"、"信号与系统"信号类课程教学现状与存在的问题,本成果针对我们在教学改革与实践中的一些经验和做法,结合多年的建设与教学实践,对如何... 针对民族院校、少数民族学生学习"DSP原理与技术"、"数字信号处理"、"信号与系统"信号类课程教学现状与存在的问题,本成果针对我们在教学改革与实践中的一些经验和做法,结合多年的建设与教学实践,对如何充分整合该类课程的资源,如何用精品课程的理念,探索该类课程先进的教学理念和教学方法、在优质多媒体课件设计、开放式(差异的、动态的、开放的学习,从广义上理解,学习不仅是在课堂上,也可以通过包括网上学习来进行)、立体化(包括纸质图书、电子书籍、音像等形式,内容不是简单的重复,而是充分发挥各种媒体自身应有的优势而各有侧重,尤其是充分利用网络的优势,提供一些开放式的教学平台)建设精品教材和可视化网络教学环境的建立方面进行全面总结。 展开更多
关键词 民族院校 精品课程理念 开放式立体化 可视化网络教学环境
下载PDF
一种结合词向量和图模型的特定领域实体消歧方法 被引量:6
10
作者 汪沛 线岩团 +3 位作者 郭剑毅 文永华 陈玮 王红斌 《智能系统学报》 CSCD 北大核心 2016年第3期366-375,共10页
针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例,首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库,然后用知识库中的文本和从各大旅游网站爬取到的旅游文本,通过词向量计算工具Word... 针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例,首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库,然后用知识库中的文本和从各大旅游网站爬取到的旅游文本,通过词向量计算工具Word2Vec构建词向量模型,结合人工标注的实体关系图谱,采用一种基于图的随机游走算法辅助计算相似度,使其能够较准确地计算旅游领域词与词之间的相似度。最后,提取待消歧实体的背景文本的若干关键词和知识库中候选实体文本的若干关键词,利用训练好的词向量模型结合图模型分别进行交叉相似度计算,把相似度均值最高的候选实体作为最终的目标实体。实验结果表明,这种新的相似度计算方法能够有效获取实体指称项与目标实体之间的相似度,从而能够较为准确地实现特定领域的实体消歧。 展开更多
关键词 实体消歧 实体链接 Word2Vec 图模型 随机游走 维基百科
下载PDF
基于枢轴语言的汉越神经机器翻译伪平行语料生成 被引量:6
11
作者 贾承勋 赖华 +2 位作者 余正涛 文永华 于志强 《计算机工程与科学》 CSCD 北大核心 2021年第3期542-550,共9页
低资源型的汉越神经机器翻译中,数据稀疏问题是影响翻译性能的主要原因,目前缓解该问题的途径之一是通过语料扩充方法生成伪平行数据,并用于机器翻译模型的训练,伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译3种。目... 低资源型的汉越神经机器翻译中,数据稀疏问题是影响翻译性能的主要原因,目前缓解该问题的途径之一是通过语料扩充方法生成伪平行数据,并用于机器翻译模型的训练,伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译3种。目前的研究集中于3种方法的单独使用,缺少方法间融合利用方面的研究工作,针对此问题,提出了融入双语词典的正反向枢轴方法,利用英语作为枢轴语言,在汉到英到越正向枢轴的基础上,融入利用稀有词构建的汉-英和英-越双语词典,将汉语单语数据通过模型翻译成英语数据,再利用英-越模型将其翻译成越南语数据,其次进行越到英到汉反向枢轴翻译将越南语单语数据翻译为汉语,以此在2个方向上生成汉越伪平行数据,并利用语言模型对生成的伪平行数据进行筛选。汉-越翻译任务上的实验结果表明,提出的融入双语词典的正反向枢轴方法,能够产生更优的伪平行语料,进而显著提升汉越神经机器翻译任务的性能。 展开更多
关键词 汉-越神经机器翻译 伪平行数据生成 词替换 回译 枢轴
下载PDF
融合句法解析树的汉-越卷积神经机器翻译 被引量:9
12
作者 王振晗 何建雅琳 +3 位作者 余正涛 文永华 郭军军 高盛祥 《软件学报》 EI CSCD 北大核心 2020年第12期3797-3807,共11页
神经机器翻译是目前应用最广泛的机器翻译方法,在语料资源丰富的语种上取得了良好的效果.但是在汉语-越南语这类缺乏双语数据的语种上表现不佳.考虑汉语和越南语在语法结构上的差异性,提出一种融合源语言句法解析树的汉越神经机器翻译方... 神经机器翻译是目前应用最广泛的机器翻译方法,在语料资源丰富的语种上取得了良好的效果.但是在汉语-越南语这类缺乏双语数据的语种上表现不佳.考虑汉语和越南语在语法结构上的差异性,提出一种融合源语言句法解析树的汉越神经机器翻译方法,利用深度优先遍历得到源语言的句法解析树的向量化表示,将句法向量与源语言词嵌入相加作为输入,训练翻译模型.在汉-越语言对上进行了实验,相较于基准系统,获得了0.6个BLUE值的提高.实验结果表明,融合句法解析树可以有效提高在资源稀缺情况下机器翻译模型的性能. 展开更多
关键词 神经机器翻译 资源稀缺 句法解析树
下载PDF
融合双向依存自注意力机制的神经机器翻译 被引量:6
13
作者 李治瑾 赖华 +1 位作者 文永华 高盛祥 《计算机应用》 CSCD 北大核心 2022年第12期3679-3685,共7页
针对神经机器翻译中资源稀缺的问题,提出了一种基于双向依存自注意力机制(Bi-Dependency)的依存句法知识融合方法。首先,利用外部解析器对源句子解析得到依存解析数据;然后,将依存解析数据转化为父词位置向量和子词权重矩阵;最后,将依... 针对神经机器翻译中资源稀缺的问题,提出了一种基于双向依存自注意力机制(Bi-Dependency)的依存句法知识融合方法。首先,利用外部解析器对源句子解析得到依存解析数据;然后,将依存解析数据转化为父词位置向量和子词权重矩阵;最后,将依存知识融合到Transformer编码器的多头注意力机制上。利用Bi-Dependency,翻译模型可以同时对父词到子词、子词到父词两个方向的依存信息进行关注。双向翻译的实验结果表明,与Transformer模型相比,在富资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了1.07和0.86,在汉-英翻译上的BLEU值分别提升了0.79和0.68;在低资源情况下,所提方法在汉-泰翻译上的BLEU值分别提升了0.51和1.06,在汉-英翻译上的BLEU值分别提升了1.04和0.40。可见Bi-Dependency为模型提供了更丰富的依存信息,能够有效提升翻译性能。 展开更多
关键词 神经机器翻译 双向依存注意力 多头注意力 父词 子词
下载PDF
融合EMD最小化双语词典的汉—越无监督神经机器翻译 被引量:4
14
作者 薛明亚 余正涛 +1 位作者 文永华 于志强 《中文信息学报》 CSCD 北大核心 2021年第3期43-50,共8页
神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳。汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料... 神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳。汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD(Earth Mover’s Distance)最小化双语词典的汉—越无监督神经机器翻译方法,首先分别训练汉语和越南语的单语词嵌入,通过最小化它们的EMD训练得到汉越双语词典,然后再将该词典作为种子词典训练汉越双语词嵌入,最后利用共享编码器的无监督机器翻译模型构建汉—越无监督神经机器翻译方法。实验表明,该方法能有效提升汉越无监督神经机器翻译的性能。 展开更多
关键词 无监督学习 EMD 汉语—越南语 神经机器翻译
下载PDF
基于深度可分离卷积的汉越神经机器翻译 被引量:2
15
作者 徐毓 赖华 +2 位作者 余正涛 高盛祥 文永华 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期220-224,共5页
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,... 在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能. 展开更多
关键词 汉越神经机器翻译 数据稀疏 粒度 深度可分离卷积
下载PDF
融合单语语言模型的汉越伪平行语料生成 被引量:2
16
作者 贾承勋 赖华 +2 位作者 余正涛 文永华 于志强 《计算机应用》 CSCD 北大核心 2021年第6期1652-1658,共7页
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上... 神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料中训练最终翻译模型。在汉越翻译任务上的实验结果表明,与普通的回译方法相比,通过融合语言模型生成的伪平行数据使汉越神经机器翻译的BLEU值提升了1.41个百分点。 展开更多
关键词 汉越神经机器翻译 数据增强 伪平行数据 单语数据 语言模型
下载PDF
基于语义差异的汉-缅平行句对生成方法
17
作者 于志强 文永华 +1 位作者 高明虎 杨曼 《云南民族大学学报(自然科学版)》 CAS 2023年第1期118-123,共6页
神经机器翻译是数据驱动式翻译方法,其性能依赖于平行句对的规模和质量,构建海量高质量的平行句对是提升机器翻译性能的基础工作之一.然而,人工标注高质量平行句对需要较高的成本,因此,探究如何从既有语料资源中生成新语料,对提升低资... 神经机器翻译是数据驱动式翻译方法,其性能依赖于平行句对的规模和质量,构建海量高质量的平行句对是提升机器翻译性能的基础工作之一.然而,人工标注高质量平行句对需要较高的成本,因此,探究如何从既有语料资源中生成新语料,对提升低资源机器翻译性能具有重要的意义.提出了基于语义差异的汉-缅平行句对生成方法.一方面,利用基于词表征的近义词检索技术获取关键词的近义词列表,随后基于近义词替换生成新句对;另一方面,利用预训练模型度量新生成句对间的语义差异,筛选语义差异较小的句对作为训练语料.实验表明,所提方法可作为有效的数据增强手段,能够提升汉-缅语言对的数据规模并改善翻译质量. 展开更多
关键词 语义差异 预训练模型 句对生成 汉-缅机器翻译
下载PDF
^(18)F-FDG PET/CT及增强CT诊断原发性肝癌及肝癌术后复发的价值
18
作者 文永华 《中国卫生产业》 2011年第5期78-78,80,共2页
目的探讨采用~(18)F-FDG PET/CT和增强CT联合用于诊断原发性肝癌和肝癌术后复发患者的临床应用价值。方法选取肝癌患者共40例,其中原发性肝癌患者24例(通过穿刺活检确证),肝癌术后复发患者16例(通过随访检查确证),对该40例患者均进行~... 目的探讨采用~(18)F-FDG PET/CT和增强CT联合用于诊断原发性肝癌和肝癌术后复发患者的临床应用价值。方法选取肝癌患者共40例,其中原发性肝癌患者24例(通过穿刺活检确证),肝癌术后复发患者16例(通过随访检查确证),对该40例患者均进行~(18)F-FDG PET/CT和增强CT检查,收集好2种诊断方式的的诊断结果,对结果进行分析。结果 2种诊断方法对肝癌患者的诊断各有优劣,增强CT对原发性肝癌患者的诊断准确率高,~(18)F-FDG PET/CT对肝癌术后复发诊断准率高。结论~(18)F-FDG PET/CT和增强CT两者联用,在临床上对原发性肝癌患者及肝癌术后复方的诊断效果比较好,值得临床推广。 展开更多
关键词 ^(18)F-FDG PET/CT 增强CT 原发性肝癌 肝癌术后复发 诊断
下载PDF
基于迁移学习的汉越神经机器翻译 被引量:5
19
作者 黄继豪 余正涛 +1 位作者 于志强 文永华 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第1期104-108,I0002,共6页
针对汉语-越南语(简称汉越)平行语料受限的问题,提出了一种基于迁移学习的汉越神经机器翻译(TLNMT-CV)模型.在训练汉语-英语、英语-越南语的翻译模型的基础上,通过迁移学习方法,利用训练得到的汉语端编码器和越南语端解码器,分别对汉越... 针对汉语-越南语(简称汉越)平行语料受限的问题,提出了一种基于迁移学习的汉越神经机器翻译(TLNMT-CV)模型.在训练汉语-英语、英语-越南语的翻译模型的基础上,通过迁移学习方法,利用训练得到的汉语端编码器和越南语端解码器,分别对汉越翻译模型的编码器与解码器参数进行初始化,并使用小规模汉越语料进行微调优化,得到TLNMT-CV模型.实验表明,TLNMT-CV模型能够快速地实现新模型的初始化,提高模型的参数质量,从而提高翻译性能.相比Transformer,TLNMT-CV模型的双语互译评估(BLEU)值提升了1.16个百分点. 展开更多
关键词 神经机器翻译 迁移学习 注意力机制 汉语-越南语
下载PDF
基于短语替换的汉越伪平行句对生成 被引量:2
20
作者 贾承勋 赖华 +2 位作者 余正涛 文永华 于志强 《中文信息学报》 CSCD 北大核心 2021年第8期47-55,共9页
神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该... 神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。 展开更多
关键词 汉-越神经机器翻译 数据增强 伪平行句对 短语对齐表 短语替换
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部