期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
面向自定义语音唤醒的关键词相关的单通道语音增强 被引量:5
1
作者 刘作桢 吴愁 +1 位作者 黎塔 赵庆卫 《声学学报》 EI CAS CSCD 北大核心 2023年第2期415-424,共10页
提出一种面向自定义语音唤醒的单通道语音增强方法。该方法预先将关键词音素信息存入文本编码矩阵,并在常规语音增强模型基础上添加一个基于注意力机制的音素偏置模块。该模块利用语音增强模型中间特征从文本编码矩阵中获取当前帧的音... 提出一种面向自定义语音唤醒的单通道语音增强方法。该方法预先将关键词音素信息存入文本编码矩阵,并在常规语音增强模型基础上添加一个基于注意力机制的音素偏置模块。该模块利用语音增强模型中间特征从文本编码矩阵中获取当前帧的音素信息,并将其融入语音增强模型的后续计算中,从而提升语音增强模型对关键词相关音素的增强效果。在不同噪声环境下的实验结果表明,该方法可以更有效地抑制关键词部分噪声。同时所提出方法对比常规语音增强方法与其他文本相关语音增强方法,在自定义语音唤醒性能上可以分别获得14.3%和7.6%的相对提升。 展开更多
关键词 语音增强 语音唤醒 关键词相关 深度学习
原文传递
多声学场景下端到端语音识别声学编码器的自适应 被引量:1
2
作者 刘育坤 郑霖 +1 位作者 黎塔 张鹏远 《声学学报》 EI CAS CSCD 北大核心 2023年第6期1260-1268,共9页
提出了一种面向多样化声学场景自适应设计声学编码器的方法(SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的... 提出了一种面向多样化声学场景自适应设计声学编码器的方法(SAE)。该方法通过学习不同声学场景下语音中包含的声学特征的差异,适应性地为端到端语音识别任务设计出合适的声学编码器。通过引入神经网络结构搜索技术,提高了编码器设计的有效性,从而改善了下游识别任务的性能。在Aishell-1、HKUST和SWBD三个常用的中英文数据集上的实验表明,通过所提场景自适应设计方法得到的声学编码器相比已有的声学编码器可以获得平均5%以上的错误率改善。所提方法是一种深入分析特定场景下语音特征、针对性设计高性能声学编码器的有效方法。 展开更多
关键词 自动语音识别 声学编码器 自适应 神经网络结构搜索
原文传递
基于加权有限状态机的动态匹配词图生成算法 被引量:4
3
作者 郭宇弘 黎塔 +2 位作者 肖业鸣 潘接林 颜永红 《电子与信息学报》 EI CSCD 北大核心 2014年第1期140-146,共7页
由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论... 由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。 展开更多
关键词 自动语音识别 加权有限状态机 词图生成 关键词检索
下载PDF
嵌入式语音识别中一种高效的图搜索算法
4
作者 黎塔 蔡尚 +2 位作者 赵庆卫 潘接林 颜永红 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期215-218,共4页
为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可... 为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.在对比实验中,传统的基于前缀合并的状态树搜索算法的大词表嵌入式单词拼读系统作为基线系统.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.通过使用所提出的双层图搜索算法,大大提高了大词表嵌入式单词拼读系统的效率,使其更适用于大多数嵌入式平台. 展开更多
关键词 嵌入式语音识别 双层图搜索 单词拼读系统
下载PDF
电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究 被引量:8
5
作者 左玲云 张晴晴 +2 位作者 黎塔 梁宏 颜永红 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2016年第2期180-186,193,共8页
近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于长短期记忆(long short-term memory,LSTM)结构的深度神经网络(LSTM-deep neural network,LSTM-DNN)语言模型成为当前的研究热点。在电话交谈语音识别系统中,语料本身具... 近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于长短期记忆(long short-term memory,LSTM)结构的深度神经网络(LSTM-deep neural network,LSTM-DNN)语言模型成为当前的研究热点。在电话交谈语音识别系统中,语料本身具有一定的上下文相关性,而传统的语言模型对历史信息记忆能力有限,无法充分学习语料的相关性。针对这一问题,基于LSTM-DNN语言模型在充分学习电话交谈语料相关性的基础上,将其应用于语音识别系统的重评估过程,并将这一方法与基于高元语言模型、前向神经网络(feed forward neural network,FFNN)以及递归神经网络(recurrent neural network,RNN)语言模型的重评估方法进行对比。实验结果表明,LSTMDNN语言模型在重评估方法中具有最优性能,与一遍解码结果相比,在中文测试集上字错误率平均下降4.1%。 展开更多
关键词 长短期记忆 神经网络语言模型 语音识别 重评估
下载PDF
文本无关说话人识别的一种多尺度特征提取方法 被引量:4
6
作者 陈志高 李鹏 +2 位作者 肖润秋 黎塔 王文超 《电子与信息学报》 EI CSCD 北大核心 2021年第11期3266-3271,共6页
近些年来,多种基于卷积神经网络(CNNs)的模型结构表现出越来越强的多尺度特征表达能力,在说话人识别的各项任务中取得了持续的性能提升。然而,目前大多数方法只能利用更深更宽的网络结构来提升性能。该文引入一种更高效的多尺度说话人... 近些年来,多种基于卷积神经网络(CNNs)的模型结构表现出越来越强的多尺度特征表达能力,在说话人识别的各项任务中取得了持续的性能提升。然而,目前大多数方法只能利用更深更宽的网络结构来提升性能。该文引入一种更高效的多尺度说话人特征提取框架Res2Net,并对它的模块结构进行了改进。它以一种更细粒化的工作方式,获得多种感受野的组合,从而获得多种不同尺度组合的特征表达。实验表明,该方法在参数量几乎不变的情况下,等错误率(EER)相较ResNet有20%的下降,并且在VoxCeleb,SITW等多种不同录制环境和识别任务中都有稳定的性能提升,证明了该方法的高效性和鲁棒性。改进后的全连接模块结构能更充分利用训练信息,在数据充足和任务复杂时性能提升明显。具体代码可以在https://github.com/czg0326/Res2Net-Speaker-Recognition获得。 展开更多
关键词 说话人识别 多尺度特征 鲁棒性 高效性
下载PDF
基于对抗训练的端到端语音翻译研究 被引量:3
7
作者 何文龙 高长丰 +1 位作者 黎塔 刘建 《信号处理》 CSCD 北大核心 2021年第5期893-901,共9页
为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法。通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更... 为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法。通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更加逼近文本特征序列的分布。引入了Wasserstein GAN(WGAN)来计算语音特征序列和文本特征序列通过判别器的标量似然值的Earth-Mover(EM)距离,来解决语音特征序列和文本特征序列存在长度不一致的问题。整个模型遵从多任务学习和对抗学习的训练准则,本文在How2数据集上和MuST-C英中数据集上验证了本文提出算法的有效性,该方法可以显著提升翻译质量。 展开更多
关键词 语音翻译 文本翻译 Wasserstein生成对抗网络 多任务学习
下载PDF
基于wav2vec预训练的样例关键词识别 被引量:5
8
作者 李昭奇 黎塔 《计算机科学》 CSCD 北大核心 2022年第1期59-64,共6页
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标... 样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。 展开更多
关键词 声学词嵌入 孤立词识别 wav2vec预训练 样例查询 语音片段查询
下载PDF
利用二重打分方法的激活词语音识别
9
作者 邢安昊 黎塔 颜永红 《声学技术》 CSCD 2013年第S1期211-212,共2页
0引言语音被认为是人与人之间交流最自然的方式之一,自动语音识别(ASR)也是一种重要的人机交互方式。几十年来,众多学者做了大量与语音识别相关的工作,其中的一个方向就是激活词语音识别,也可以称为激活词检测:向机器发出某条语音命令,... 0引言语音被认为是人与人之间交流最自然的方式之一,自动语音识别(ASR)也是一种重要的人机交互方式。几十年来,众多学者做了大量与语音识别相关的工作,其中的一个方向就是激活词语音识别,也可以称为激活词检测:向机器发出某条语音命令,让机器执行某项任务。现如今,这项技术在智能家居领域有着广泛的应用前景。 展开更多
关键词 语音识别 人机交互方式 二重 智能家居 特征提取 误识率 DPCA 均值聚类 特征矩阵 检测任务
下载PDF
基于多时间尺度的深层说话人特征提取研究 被引量:2
10
作者 王文超 黎塔 《网络新媒体技术》 2019年第5期21-26,共6页
在说话人识别领域中,通过深度神经网络学习深层说话人特征的方法成为了研究热点。然而,针对人类听觉系统是如何处理声音信息的研究,却没有得到说话人识别研究人员足够的重视。这些生物学的研究表明,人类大脑是通过一种利用了多维时间尺... 在说话人识别领域中,通过深度神经网络学习深层说话人特征的方法成为了研究热点。然而,针对人类听觉系统是如何处理声音信息的研究,却没有得到说话人识别研究人员足够的重视。这些生物学的研究表明,人类大脑是通过一种利用了多维时间尺度的处理模式对声音信息进行解析的。基于这些研究,本文提出了一种双通道神经网络模型,其中一条通道处理短时间尺度(即局部)特征,另一条处理长时间尺度(即全局)特征。两种局部特征融合形成可用于说话人识别的声纹特征,称之为t-vector。在RSR2015 Part3文本相关数据集上进行的检测说话人识别系统性能的实验结果表明,不同时间尺度的特征可以互补,并且融合的t-vector特征也优于i-vector和d-vector特征。 展开更多
关键词 说话人识别 深层说话人特征 不同时间尺度 t-vector
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部