期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
可重构信息通信基础网络端到端模型的研究与探索 被引量:4
1
作者 马丁 庄雷 兰巨龙 《计算机科学》 CSCD 北大核心 2017年第6期114-120,共7页
作为一种革命式的未来互联网体系结构,可重构信息通信基础网络通过构建并存的虚拟网支持不同的业务类型,通过多态路由机制支持按需配置的寻址方式。为了适应多样性的端系统以及持续变化的底层网络环境,需要以柔性、可扩展的方式有效地... 作为一种革命式的未来互联网体系结构,可重构信息通信基础网络通过构建并存的虚拟网支持不同的业务类型,通过多态路由机制支持按需配置的寻址方式。为了适应多样性的端系统以及持续变化的底层网络环境,需要以柔性、可扩展的方式有效地管理资源,提供端到端服务。针对这一需求,提出了一种数据面水平分层、管理面垂直分层的二维端到端模型。该模型利用agent的环境感知、自主决策和交互协作能力,实现域内和域间资源、服务、虚拟网、服务路径的自治管理。为了将端系统纳入自治管理框架,设计了新型的端系统体系结构,并提出了端系统到虚拟网的接入机制,实现了自动的通信连接和服务提供。 展开更多
关键词 可重构网络 端到端模型 多AGENT系统 自治管理 接入机制
下载PDF
一种基于端到端模型的中文句法分析方法 被引量:2
2
作者 杨颢 徐清 +2 位作者 邵帮丽 奚雪峰 付保川 《苏州科技大学学报(自然科学版)》 CAS 2021年第2期77-84,共8页
句法分析作为自然语言处理领域的一项基础工作,是机器翻译、自动问答等自然语言处理上游任务的核心支撑,因此,具有非常重要的研究价值。基于端到端(Seq2Seq)模型提出了一种将中文文本自然语句转换为标准句法树结构的自动分析方法。该方... 句法分析作为自然语言处理领域的一项基础工作,是机器翻译、自动问答等自然语言处理上游任务的核心支撑,因此,具有非常重要的研究价值。基于端到端(Seq2Seq)模型提出了一种将中文文本自然语句转换为标准句法树结构的自动分析方法。该方法结合Liu等人提出的深层解码结构并针对宾州中文树库(CTB)的标注体系,首先对树结构序列中的Syntactic Brackets、POS tags、分词分别进行解码预测,然后将得到的各部分预测结果以插入的方式形成最终的预测序列。区别于多数现有的中文句法结构分析方法,该方法可以忽略中文分词和词性标注操作,减小分词和词性标注结果对句法结构分析的准确性影响,也在一定程度上降低研究人员对句法分析理论的要求。经过与现有中文句法分析模型实验对比,该方法具有一定可行性和较好的识别率,在CTB9上实验得到的F1值为82.6%。 展开更多
关键词 端到端模型 句法分析 宾州中文树库 长短期记忆神经网络 注意力机制
下载PDF
基于车载视觉的端到端驾驶员疲劳检测模型
3
作者 高珍 陈超 +2 位作者 许靖宁 余荣杰 宗佳琪 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期284-292,共9页
营运驾驶员长时间疲劳驾驶是导致事故发生的重要原因,为此,企业在营运车辆上安装相机采集驾驶员面部视频,基于模型和算法自动识别驾驶员的疲劳状态,通过语音提醒甚至启用远程护航进行疲劳干预,以此提高驾驶安全。现有的疲劳检测研究大... 营运驾驶员长时间疲劳驾驶是导致事故发生的重要原因,为此,企业在营运车辆上安装相机采集驾驶员面部视频,基于模型和算法自动识别驾驶员的疲劳状态,通过语音提醒甚至启用远程护航进行疲劳干预,以此提高驾驶安全。现有的疲劳检测研究大多数都是基于面部关键点检测的算法,该类算法对面部视频的质量要求严格。在真实的营运行车环境中,夜晚光线过差,相机位置安装不理想,驾驶员面部遮挡等均会造成关键点检测失效,从而影响模型的准确性。基于卷积神经网络(CNN)和长短时记忆神经网络(LSTM)设计了一种端到端营运驾驶员疲劳检测模型,该模型以相机采集的驾驶员面部视频作为输入,使用CNN网络提取视频单帧特征,在此基础上将时序单帧特征作为LSTM网络的输入来最终识别驾驶员的疲劳状态,实验表明,模型的接收者操作特征曲线下面积(AUC)为0.9,远优于现有的面部关键点模型。此外,为了提高该模型在实际行车环境中的鲁棒性,基于光线变化及相机变化的模拟操作在训练数据上进行了数据增强,通过模型重训练进一步提高了模型的精度及鲁棒性。实验结果表明,改进前,营运车辆行车环境下模型的AUC相比实验室模型下降37.3%,而改进后AUC仅下降9.7%,模型的鲁棒性得到改善,能够更好地适应复杂的营运车辆自然驾驶环境。 展开更多
关键词 车载视觉 疲劳检测 端到端模型 鲁棒性
下载PDF
跨模态信息融合的端到端语音翻译
4
作者 刘宇宸 宗成庆 《软件学报》 EI CSCD 北大核心 2023年第4期1837-1849,共13页
语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较... 语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本.相比于级联式翻译系统,端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势,因此越来越多地受到研究者们的关注.但是,端到端的语音翻译方法不仅需要处理较长的语音序列,提取其中的声学信息,而且需要学习源语言语音和目标语言文本之间的对齐关系,从而导致建模困难,且性能欠佳.提出一种跨模态信息融合的端到端的语音翻译方法,该方法将文本机器翻译与语音翻译模型深度结合,针对语音序列长度与文本序列长度不一致的问题,通过过滤声学表示中的冗余信息,使过滤后的声学状态序列长度与对应的文本序列尽可能一致;针对对齐关系难学习的问题,采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中,并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系.在公开的语音翻译数据集上进行的实验表明,所提方法可以显著提升语音翻译的性能. 展开更多
关键词 语音翻译 神经机器翻译 端到端模型 多模态学习
下载PDF
基于角度间隔嵌入特征的端到端声纹识别模型 被引量:5
5
作者 王康 董元菲 《计算机应用》 CSCD 北大核心 2019年第10期2937-2941,共5页
针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型。该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话... 针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型。该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话人嵌入;选择基于角度改进的A-Softmax作为损失函数,在角度空间中使模型学习到的不同类别特征始终存在角度间隔并且同类特征间聚集更紧密。在公开数据集VoxCeleb2上进行的测试表明,与i-vector结合PLDA的方法相比,该模型在说话人辨认中的Top-1和Top-5上准确率分别提高了58.9%和30%;而在说话人确认中的最小检测代价和等错误率上分别减小了47.9%和45.3%。实验结果验证了所设计的端到端模型更适合在多信道、大规模的语音数据集上学习到有类别区分性的特征。 展开更多
关键词 声纹识别 端到端模型 损失函数 卷积神经网络 深度说话人嵌入
下载PDF
智能语音技术端到端框架模型分析和趋势研究 被引量:3
6
作者 李荪 曹峰 《计算机科学》 CSCD 北大核心 2022年第S01期331-336,共6页
端到端(End-to-End)框架是一种基于深度神经网络可直接预测语音信号和目标语言字符的概率模型,从原始的数据输入到结果输出,中间的处理过程和神经网络成一体化,可脱离人类主观偏见,直接提取特征,从而充分挖掘数据信息,简化任务处理步骤... 端到端(End-to-End)框架是一种基于深度神经网络可直接预测语音信号和目标语言字符的概率模型,从原始的数据输入到结果输出,中间的处理过程和神经网络成一体化,可脱离人类主观偏见,直接提取特征,从而充分挖掘数据信息,简化任务处理步骤。近几年,注意力机制的引入,辅助端到端架构实现了多模态间的相互映射,进一步提高了技术的整体性能。通过对近几年端到端技术在智能语音领域技术和应用的调研,端到端架构为语音模型算法提供了新的思想和方法,但也存在混合框架无法有效地平衡和兼顾单一技术特点,模型内部逻辑复杂使得人工介入调试困难、定制可扩展性减弱等问题。未来端到端一体化模型在语音领域应用方面还将有进一步的发展,一方面是前端到后端的模块端到端,忽略前端语音增强和后端语音识别中涉及多项输入的假设,将语音增强和声学建模一体化,另一方面是交互信息载体的端到端,聚焦于语音信号数据本身的信息提取和处理,使得人机交互更贴近真实人类语言的沟通方式。 展开更多
关键词 端到端模型 智能语音 混合框架 人机交互
下载PDF
一种RNN-T与BERT相结合的端到端语音识别模型 被引量:2
7
作者 郭家兴 韩纪庆 《智能计算机与应用》 2021年第2期169-173,共5页
端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型。然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能。而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用... 端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型。然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能。而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用。本文提出一种将RNN-T(Recurrent Neural Network Transducer,RNN-T)模型与BERT(Bidirectional Encoder Representations from Transformers,BERT)模型进行结合的方法来解决上述问题,其通过用BERT模型替换RNN-T中的预测网络部分,并对整个网络进行微调,从而使RNN-T模型能有效利用BERT模型中的语言学知识,进而提高模型的识别性能。在中文普通话数据集AISHELL-1上的实验结果表明,采用所提出的方法训练后的模型与基线模型相比能获得更好的识别结果。 展开更多
关键词 语音识别 端到端模型 BERT模型
下载PDF
基于IP的端到端安全传输模型的设计与实现 被引量:1
8
作者 牛纪桢 孙校里 元新华 《计算机工程与应用》 CSCD 北大核心 2002年第3期175-178,共4页
该文针对TCP/IP协议的特点,提出了一种基于IP的端到端加密传输机制。通过修改操作系统的IP协议软件,应用对称密码技术对IP数据报进行加密/解密处理,使得网络中传输的IP数据报只有通信双方能够识别,可以为互联网络上两台主机之间提供加... 该文针对TCP/IP协议的特点,提出了一种基于IP的端到端加密传输机制。通过修改操作系统的IP协议软件,应用对称密码技术对IP数据报进行加密/解密处理,使得网络中传输的IP数据报只有通信双方能够识别,可以为互联网络上两台主机之间提供加密的安全通信。安全管理工作由独立的安全服务器完成,采用公钥密码技术向安全客户端传输安全通信所使用的对称密钥。与现有的安全通信技术相比,这种机制具有思想简单、易于实现,对IP以上层协议软件和应用程序完全透明等优点。 展开更多
关键词 对称密码机制 公钥密码机制 密钥管理 身份认证 端到安全传输模型 ICP/IP协议 网络通信 互联网
下载PDF
基于端到端句子级别的中文唇语识别研究 被引量:5
9
作者 张晓冰 龚海刚 +1 位作者 杨帆 戴锡笠 《软件学报》 EI CSCD 北大核心 2020年第6期1747-1760,共14页
近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段—... 近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同子网络针对不同的识别过程,当两个子网络训练好后,再把它们放在一起进行端到端的整体架构优化.由于目前没有可用的中文唇语数据集,因此采用半自动化的方法从CCTV官网上收集了6个月20.95GB的中文唇语数据集CCTVDS,共包含14975个样本.此外,额外采集了269558条拼音汉字样本数据对拼音到汉字识别模块进行预训练.在CCTVDS数据集上的实验结果表明,所提出的ChLipNet可分别达到45.7%的句子识别准确率和58.5%的拼音序列识别准确率.此外,ChLipNet不仅可以加速训练、减少过拟合,并且能够克服汉语识别中的歧义模糊性. 展开更多
关键词 中文唇语识别 深度学习 中文汉语言的特征 数据集采集及处理 端到端模型
下载PDF
端到端闽南语合成系统的设计与实现 被引量:3
10
作者 颜世江 陈越 +3 位作者 颜婉玲 许彬彬 李琳 洪青阳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期988-994,共7页
为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特色的闽南语词库和音素体系;模型框架方面,在Tacotron和Tacotron2以及结合了两者不同模块的融合框架上进行... 为了更好地研究语音合成在闽南语上的应用,建立了闽南语数据库,并验证了Tacotron2为有效的语音合成模型.数据库方面,建立起地方特色的闽南语词库和音素体系;模型框架方面,在Tacotron和Tacotron2以及结合了两者不同模块的融合框架上进行实验对比.在厦门大学自主采集的厦门口音闽南语数据集的基础上,使用闽南语识别模型对语音数据进行解码得到对应的带有标点符号的音素序列,通过专业定制的词典建立音素标注体系,进行多组实验,比较采样率、建模方式和模型结构对合成音质以及稳定性的影响,通过梅尔谱和编码解码对齐图等评测标准,得到了三者的最佳搭配方案. 展开更多
关键词 语音合成 端到端模型 深度学习 闽南语
下载PDF
混合CTC/attention架构端到端带口音普通话识别 被引量:10
11
作者 杨威 胡燕 《计算机应用研究》 CSCD 北大核心 2021年第3期755-759,共5页
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中... 针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。 展开更多
关键词 口音 混合CTC/attention的端到端模型 多头注意力 链接时序主义 语音识别
下载PDF
基于差分Causal LSTM模型的气象图像短时预测研究
12
作者 张晓晖 白文奇 +1 位作者 杨松楠 王晓娟 《西安理工大学学报》 北大核心 2023年第4期529-535,共7页
为解决气象图像序列在短时预测时预测精度低的问题,利用一种具有级联记忆单元的Causal LSTM,将图像梯度差分惩罚因子引入训练过程,来提高预测模型对短时序列动态和突变的建模能力,提出了差分Causal LSTM模型。研究首先通过循环神经网络... 为解决气象图像序列在短时预测时预测精度低的问题,利用一种具有级联记忆单元的Causal LSTM,将图像梯度差分惩罚因子引入训练过程,来提高预测模型对短时序列动态和突变的建模能力,提出了差分Causal LSTM模型。研究首先通过循环神经网络建立气象图像短时预测模型,然后分析了ConvLSTM模型对气象雷达回波图与卫星云图序列的预测效果,对于ConvLSTM模型预测气象图像存在严重模糊的问题,使用差分Causal LSTM模型进行优化,结果表明改进的模型能够有效改善模糊,提升预测结果的准确性。改进后的差分Causal LSTM模型在HKO-7数据集的测试样本中,关键成功指数(CSI)提高了0.019,在气象云图数据集中提高了0.078,模糊程度有所减弱。 展开更多
关键词 ConvLSTM Causal LSTM 端到端模型 图像梯度差分损失
下载PDF
基于HOPE-CTC的端到端语音识别 被引量:2
13
作者 徐冬冬 蒋志翔 《计算机工程与设计》 北大核心 2021年第2期462-467,共6页
为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型。通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖... 为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型。通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖,在解码输出部分添加注意力机制,实现两种不同的端到端模型的融合。在中文数据集AISHELL-1上的实验结果表明,与传统识别模型相比,该改进端到端模型更适用于带噪语音的识别任务。 展开更多
关键词 联合优化正交投影和估计 连接时序分类 注意力机制 端到端模型 瓶颈特征
下载PDF
一种基于LSTM的端到端多任务老挝语分词方法
14
作者 郝永彬 周兰江 刘畅 《中文信息学报》 CSCD 北大核心 2021年第9期75-81,共7页
老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语... 老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明,端到端的老挝语分词模型准确率达到89.02%,较以往分词模型有所提升。 展开更多
关键词 老挝语分词 音节切分 多任务学习 端到端模型
下载PDF
基于深层声学特征的端到端语音分离 被引量:1
15
作者 李娟娟 王丹 李子晋 《计算机系统应用》 2019年第10期1-7,共7页
提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模... 提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模型来学习语音信号的更深层次的声学特征,实现端到端的语音分离.客观评价实验说明,本文提出的分离算法不仅有效地提升了语音分离的性能,也减少了语音分离算法的时间延迟. 展开更多
关键词 语音分离 声学特征 深度神经网络 语音原始波形 端到端模型
下载PDF
基于频域卷积和三元组损失的端到端声纹识别 被引量:1
16
作者 董元菲 王康 《电子设计工程》 2020年第13期154-159,共6页
针对传统i-vector声纹识别模型在背景噪声急剧增加时泛化弱的问题,设计一种能学习丰富频域信息的卷积神经网络,并结合三元组损失构成端到端模型--Triplet-FD-CNN。该模型通过三元组损失约束含有频域卷积的CNN,直接训练特征空间上嵌入间... 针对传统i-vector声纹识别模型在背景噪声急剧增加时泛化弱的问题,设计一种能学习丰富频域信息的卷积神经网络,并结合三元组损失构成端到端模型--Triplet-FD-CNN。该模型通过三元组损失约束含有频域卷积的CNN,直接训练特征空间上嵌入间的欧氏距离,使异类距离增大且同类距离缩小;同时拼接相同标签下的不同短语音,以缩小单条语音特征与说话人总体的差异。实验表明,Triplet-FD-CNN模型相对i-vector方法在辨认中的Top-1和Top-5准确率分别提高了45%和28.9%;在确认中的最小检测代价和等错误率分别减少了14%和25.5%。实验验证了Triplet-FD-CNN模型的鲁棒性强,能得到的嵌入类别区分性好。 展开更多
关键词 声纹识别 端到端模型 深度说话人嵌入 三元组损失 卷积神经网络
下载PDF
基于事件最大边界的密集视频描述方法
17
作者 陈劭武 胡慧君 刘茂福 《中国科技论文》 CAS 2024年第2期169-177,共9页
针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal m... 针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal margin,EMM-DVC)方法。事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分。EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近。另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件。在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平。 展开更多
关键词 密集视频描述 多任务学习 端到端模型 集合预测
下载PDF
基于双向GRU和注意力机制模型的人体动作预测 被引量:8
18
作者 桑海峰 陈紫珍 何大阔 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第7期1166-1174,共9页
针对人体动作预测中由于受到运动速度、运动幅度等不确定因素的影响,导致预测的第1 帧动作不连续且准确预测时间较短的问题,提出一种基于双向门控循环单元(GRU)和注意力机制的端到端模型——BiAGRU-seq2seq.该模型的编码器部分采用双向G... 针对人体动作预测中由于受到运动速度、运动幅度等不确定因素的影响,导致预测的第1 帧动作不连续且准确预测时间较短的问题,提出一种基于双向门控循环单元(GRU)和注意力机制的端到端模型——BiAGRU-seq2seq.该模型的编码器部分采用双向GRU 结构,使数据从正反2 个方向同时输入;解码器部分采用单向GRU 结构并加入了注意力机制,使编码器输出编码成一个包含多个子集的向量序列;然后将解码器的输入和输出数据同时送入残差架构中,用来模拟人体运动速度,使预测值更接近真实值.在TensorFlow 框架下,利用目前动作捕捉数据最大的公开数据集human3.6m 进行人体动作预测实验的结果表明,文中模型不仅能极大地降低短期动作预测的误差,也能较为准确地预测出多帧动作. 展开更多
关键词 人体动作预测 深度学习 端到端模型 循环神经网络
下载PDF
基于U-net模型的全自动鼻咽肿瘤MR图像分割 被引量:14
19
作者 潘沛克 王艳 +1 位作者 罗勇 周激流 《计算机应用》 CSCD 北大核心 2019年第4期1183-1188,共6页
鼻咽肿瘤生长方向不确定,解剖结构复杂,当前主要依靠医生手动分割,该方法耗时久同时严重依赖于医生的经验。针对这一问题,基于深度学习理论,提出一种基于U-net模型的全自动鼻咽肿瘤MR图像分割算法,利用卷积操作替换原始U-net模型中的最... 鼻咽肿瘤生长方向不确定,解剖结构复杂,当前主要依靠医生手动分割,该方法耗时久同时严重依赖于医生的经验。针对这一问题,基于深度学习理论,提出一种基于U-net模型的全自动鼻咽肿瘤MR图像分割算法,利用卷积操作替换原始U-net模型中的最大池化操作以减少特征信息的损失。首先,从所有患者的肿瘤切片中提取大小为128×128的区域作为数据样本;然后,将患者样本分为训练样本集和测试样本集,并对训练样本集进行数据扩充;最后,选择训练样本集中所有数据用于训练网络模型。为了验证所提模型的有效性,选取测试样本集中患者的所有肿瘤切片进行分割,最终平均分割精度可达到:DSC(Dice Similarity Coefficient)为80.05%,PM系数为85.7%,CR系数为71.26%,ASSD(Average Symmetric Surface Distance)指标为1.156 8。与基于图像块的卷积神经网络(CNN)相比,所提算法DSC,PM(Prevent Match)、CR(Correspondence Ratio)系数分别提高了9.86个百分点、19.61个百分点、16.02个百分点,ASSD指标下降了0.436 4;与全卷积神经网络(FCN)模型及基于最大池化的U-net网络相比,所提算法的DSC、CR系数均取得了最优结果,PM系数较两种对比模型中的最大值低2.55个百分点,ASSD指标较两种对比模型中的最小值略高出0.004 6。实验结果表明,所提算法针对鼻咽肿瘤图像可以实现较好的自动化分割效果以辅助医生进行诊断。 展开更多
关键词 鼻咽肿瘤 医学图像分割 深度学习模型 端到端模型 U-net模型
下载PDF
基于注意力机制的大同方言语音翻译模型研究 被引量:9
20
作者 刘晓峰 宋文爱 +3 位作者 余本国 郇晋侠 陈小东 李志媛 《中北大学学报(自然科学版)》 CAS 2020年第3期238-243,248,共7页
大同方言与普通话在语法、发音等方面有着较大的差异,且语料资源较少,制定一套系统的大同方言语言标准异常困难.另外,从保护地方方言和增进语言交流的角度出发,以大同方言的语音翻译研究为例,旨在进一步研究方言十分丰富的山西地方方言... 大同方言与普通话在语法、发音等方面有着较大的差异,且语料资源较少,制定一套系统的大同方言语言标准异常困难.另外,从保护地方方言和增进语言交流的角度出发,以大同方言的语音翻译研究为例,旨在进一步研究方言十分丰富的山西地方方言的语音翻译,为保护山西方言这一非物质文化遗产,增进山西与全国乃至全世界的无障碍语言交流,提供一定的模型与技术支撑.针对这些问题,提出了一个类似于基于注意力机制的端到端语音识别的语音翻译模型,用于将大同方言语音翻译为普通话文本,并省去了制定语言标准的麻烦.实验表明,相对于传统的级联模型,在基于同样的实验数据的情况下,端到端模型的输出结果的双语评估替换分数有了一定的提高. 展开更多
关键词 语音翻译 注意力机制 端到端模型 大同方言 语言交流
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部