期刊文献+
共找到20,596篇文章
< 1 2 250 >
每页显示 20 50 100
多说话人分离与目标说话人提取的研究现状与展望
1
作者 鲍长春 杨雪 《数据采集与处理》 CSCD 北大核心 2024年第5期1044-1061,共18页
语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起... 语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。 展开更多
关键词 语音分离 鸡尾酒会问题 说话人分离 目标说话人提取 深度学习
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
2
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
说话人感知的交叉注意力说话人提取网络
3
作者 李卓璋 许柏炎 +1 位作者 蔡瑞初 郝志峰 《广东工业大学学报》 CAS 2024年第3期91-101,共11页
目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音... 目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制。以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题。为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-aware Cross Attention Speaker Extraction Network,SACAN)。SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入。进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力。实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.013 3、1.069 5 d B,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性。 展开更多
关键词 语音分离 目标说话人提取 说话人嵌入 交叉注意力 多任务学习
下载PDF
基于深度学习的说话人确认方法研究现状及展望
4
作者 李建琛 韩纪庆 《数据采集与处理》 CSCD 北大核心 2024年第5期1062-1084,共23页
随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综... 随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。 展开更多
关键词 说话人识别 说话人确认 深度学习 领域不匹配 自监督学习
下载PDF
基于多尺度卷积编码器的说话人验证网络
5
作者 刘小湖 陈德富 +3 位作者 李俊 周旭文 胡姗 周浩 《计算机科学》 CSCD 北大核心 2024年第S01期75-80,共6页
说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱... 说话人验证是一种有效的生物身份验证方法,说话人嵌入特征的质量在很大程度上影响着说话人验证系统的性能。最近,Transformer模型在自动语音识别领域展现出了巨大的潜力,但由于Transformer中传统的自注意力机制对局部特征的提取能力较弱,难以提取有效的说话人嵌入特征,因此Transformer模型在说话人验证领域的性能难以超越以往的基于卷积网络的模型。为了提高Transformer对局部特征的提取能力,文中提出了一种新的自注意力机制用于Transformer编码器,称为多尺度卷积自注意力编码器(Multi-scale Convolutional Self-Attention Encoder,MCAE)。利用不同尺度的卷积操作来提取多时间尺度信息,并通过融合时域和频域的特征,使模型获得更丰富的局部特征表示,这样的编码器设计对于说话人验证是更有效的。通过实验表明,在3个公开的测试集上,所提方法的综合性能表现更佳。与传统的Transformer编码器相比,MCAE也是更轻量级的,这更有利于模型的应用部署。 展开更多
关键词 说话人验证 说话人嵌入 自注意力机制 Transformer编码器 多尺度卷积
下载PDF
说话人音频攻击与对抗技术研究综述
6
作者 孙知信 赵杰 +3 位作者 王恩良 刘晨磊 范连成 刘畅 《南京邮电大学学报(自然科学版)》 北大核心 2024年第4期17-29,共13页
文中概括了说话人音频攻击与对抗技术的最新进展。由于说话人音频攻击已经成为语音应用安全的严重威胁,以WaveNet、Transformer和GAN三种模型在音频攻击技术中的应用作为节点,分别介绍以其为基础的音频攻击技术。音频对抗技术则以涵盖... 文中概括了说话人音频攻击与对抗技术的最新进展。由于说话人音频攻击已经成为语音应用安全的严重威胁,以WaveNet、Transformer和GAN三种模型在音频攻击技术中的应用作为节点,分别介绍以其为基础的音频攻击技术。音频对抗技术则以涵盖的攻击技术分为3类,分别是基础音频攻击、重放攻击和深度伪造攻击。系统地阐述了音频攻击与对抗技术的最新研究成果,并分析比较了各算法在不同条件下的优劣,同时还介绍了音频技术常用的数据集。最后结合该领域目前的研究现状,提出了说话人音频攻防对抗技术研究中亟待关注与研究的问题。 展开更多
关键词 说话人音频 音频伪造 音频鉴伪 音频数据集 深度学习
下载PDF
采用表示分离自编码器的任意说话人语音转换
7
作者 简志华 章子旭 《通信学报》 EI CSCD 北大核心 2024年第2期162-172,共11页
针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将... 针对非平行语料库下任意说话人之间的语音转换存在语言内容信息和说话人个性特征难以分离,从而导致语音转换的性能不佳的问题,提出了一种采用表示分离自编码器的语音转换方法RSAE-VC。该方法将语音信号的说话人个性特征视为时不变,而将内容信息视为时变,利用编码器中的实例归一化和激活引导层将两者进行分离,再由解码器将源语音的内容信息与目标语音的个性特征进行合成,从而生成转换后的语音。实验结果表明,RSAE-VC在梅尔倒谱距离上比现有的AGAIN-VC转换方法平均降低了3.11%,在基音频率均方根误差上降低了2.41%,MOS分和ABX值分别提升了5.22%和8.45%。RSAE-VC方法通过自内容损失进行约束使语音更好地保留内容信息,通过自说话人损失将说话人个性特征更好地从语音中分离,可以确保说话人个性特征尽少地遗留在内容信息中,从而提高语音转换性能。 展开更多
关键词 语音转换 表示分离 自适应实例归一化 自内容损失 说话人损失
下载PDF
基于概率球面判别分析的说话人识别信道补偿算法
8
作者 景维鹏 肖庆欣 罗辉 《计算机应用》 CSCD 北大核心 2024年第2期556-562,共7页
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能... 在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。 展开更多
关键词 说话人识别 i-vector 概率球面判别分析 信道补偿 冯·米塞斯-费希尔分布 长度归一化
下载PDF
基于分布式自适应UKF的说话人跟踪方法
9
作者 陈阳 蔡翔宇 王睿 《声学技术》 CSCD 北大核心 2024年第5期734-742,共9页
针布式无迹卡尔曼滤波(distributed unscented Kalman filter, DUKF)方法进行说话人跟踪时,因状态转移噪声协方差矩阵和测量噪声协方差矩阵偏离真实值而导致跟踪误差增大。文章采用塞琪-胡萨(Sage-Husa)自适应策略,在DUKF测量更新后迭... 针布式无迹卡尔曼滤波(distributed unscented Kalman filter, DUKF)方法进行说话人跟踪时,因状态转移噪声协方差矩阵和测量噪声协方差矩阵偏离真实值而导致跟踪误差增大。文章采用塞琪-胡萨(Sage-Husa)自适应策略,在DUKF测量更新后迭代估计局部状态转移噪声协方差矩阵和测量噪声协方差矩阵,然后利用一致性滤波融合得到全局的状态转移噪声协方差矩阵,随着卡尔曼滤波器的迭代,逐渐逼近状态转移噪声协方差矩阵和测量噪声协方差矩阵的真实值,从而提高DUKF说话人跟踪精度。实验结果表明,即使在较差的噪声和混响条件下,分布式自适应无迹卡尔曼滤波方法相较于常规的DUKF方法仍具有更好的跟踪性能,在节点损坏条件下的鲁棒性更强,能够获得更准确的说话人位置信息。 展开更多
关键词 分布式无迹卡尔曼滤波(DUKF) 说话人跟踪 分布式麦克风网络 自适应策略
下载PDF
多模型融合的VoxSRC22说话人日志系统
10
作者 杜雨轩 周若华 《计算机工程与应用》 CSCD 北大核心 2024年第10期164-172,共9页
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)... 为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。 展开更多
关键词 说话人日志 语音活动检测 声纹嵌入 说话人聚类 结果融合
下载PDF
基于语音驱动的说话人脸视频生成综述
11
作者 韩家伟 游锦 《电脑知识与技术》 2024年第24期123-126,共4页
随着人工智能的快速发展,语音驱动的说话人脸生成技术因其在公共安全、医疗、电影娱乐、虚拟数字人等领域的广泛应用而受到越来越多的关注。该技术旨在根据给定的目标人脸和音频,生成自然的说话人脸视频。在过去五年中,研究人员提出了... 随着人工智能的快速发展,语音驱动的说话人脸生成技术因其在公共安全、医疗、电影娱乐、虚拟数字人等领域的广泛应用而受到越来越多的关注。该技术旨在根据给定的目标人脸和音频,生成自然的说话人脸视频。在过去五年中,研究人员提出了许多创新方法,以解决该领域中的不同问题,推动了这一领域的发展。本文对当前说话人脸生成领域的发展进行了系统梳理和总结,以期为学术界提供有价值的资源。此外,详细介绍了常用的数据集及多项用于评估模型性能的评价指标,为该领域的研究提供了更全面的理解和认识。最后,我们总结了该领域未来的发展趋势,并鼓励更多研究者在这一领域进行持续创新,为技术进步贡献力量。 展开更多
关键词 计算机视觉 深度学习 说话人脸生成 音频驱动 数字人
下载PDF
基于迁移学习和基频特征融合的文本相关说话人识别框架
12
作者 马皓天 洪峰 +5 位作者 毛海全 徐楚林 胡梦璐 牟宏宇 陈友元 许伟杰 《声学技术》 CSCD 北大核心 2024年第5期677-685,共9页
目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景... 目前,面向我国金融支付的说话人识别技术在社会层面上没有大范围的推广,其原因在于数据集的缺乏以及识别技术未能满足安全性要求。针对上述问题,文章录制了用于中文数字串文本相关说话人识别的SHALCAS-WXSD22B数据集,用于金融支付场景中的数字串声纹识别研究,并提出一种基于迁移学习和基频特征融合的文本相关说话人识别框架,提高了文本相关说话人识别技术的可靠性。在数字串SHALCAS-WXSD22B-d006和SHALCAS-WXSD22B-d007语料实验中,所提框架实现的最佳等错误率分别为0.88%和1.05%,与ECAPA-TDNN基线模型相比等错误率相对降低了17和20个百分点,且达到了支付场景下的声纹识别安全性指标。实验结果表明,文中所提框架不仅具有更好的识别准确率和安全性能,而且同样能提高框架中包括ResNet34在内的其他log-Mel识别模型的性能。 展开更多
关键词 文本相关说话人识别 迁移学习 基频特征 嵌入级融合 决策级融合
下载PDF
基于深度声纹特征转换网络的说话人识别攻击方法
13
作者 陶子钰 苏兆品 +2 位作者 廉晨思 王年松 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第5期782-794,共13页
目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别... 目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别攻击方法,生成具有目标说话人音色的攻击语音。首先分析了SID系统的攻击流程,确定了攻击语音生成的过程;然后基于二维卷积神经网络设计攻击音频生成器,以有效融合源说话人的语音内容和目标说话人的声纹特征,并基于对抗学习设计了攻击音频的判别器,以提高语音攻击音频的质量。最后分别在基于广义端到端损失和基于AMSoftmax损失的两个自动说话人识别系统上进行对比实验。实验结果表明,所提方法不但提高了攻击效果的稳定性,提升了攻击音频的人耳感受质量,而且适用于短时长数据,满足了实际攻击场景的需求。 展开更多
关键词 说话人识别 攻击语音 声纹特征转换 卷积神经网络
下载PDF
面向中文短语音的文本无关说话人确认新框架
14
作者 毛海全 冯海泓 +3 位作者 洪峰 马皓天 徐楚林 郑立通 《声学技术》 CSCD 北大核心 2024年第4期503-510,共8页
相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,... 相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,通过长、短语音说话人分类损失增强网络对不同时长语音段的说话人分类识别能力;同时,在嵌入码空间中增大同一说话人的短语音和长语音之间的相似度,减小不同说话人的短语音之间的相似度,增强网络对短语音的特征提取能力。此外,还提出了一种基于注意力机制的验证词选择方法,选择具有高注意力权重的中文词作为系统验证提示词。实验结果表明,文章提出的改进的端到端模型结合softmax预训练使得模型在短测试语音上的等错误率相对降低29%,基于注意力机制的验证词选择方法也能筛选出具有更好识别结果的验证词,二者结合能够有效提升说话人确认系统对于短中文语音的识别性能。 展开更多
关键词 说话人确认 短语音 注意力机制 验证词选择
下载PDF
基于Group-Res2Block的智能合成语音说话人确认方法
15
作者 李菲 苏兆品 +2 位作者 王年松 杨波 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第4期709-722,共14页
针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的... 针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。 展开更多
关键词 说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
下载PDF
基于密集连接时延神经网络的说话人识别算法
16
作者 和椿皓 常铁原 +1 位作者 潘立冬 王珺 《应用声学》 CSCD 北大核心 2024年第2期378-384,共7页
说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说... 说话人识别技术是一项重要的生物特征识别技术。近年来,使用时延神经网络提取发声特征的说话人识别算法取得了突出成果。为进一步增强时延神经网络对说话人特征的提取能力,在不过多消耗计算资源的前提下提升识别准确率,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率和0.15的最小检测代价标准,证明了在说话人识别任务上的有效性。 展开更多
关键词 说话人识别 深度学习 神经网络 密集连接 注意力机制
下载PDF
用于说话人识别的密集多分支时延神经网络
17
作者 和椿皓 常铁原 潘立冬 《应用声学》 CSCD 北大核心 2024年第5期949-955,共7页
时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进... 时延神经网络是较早应用于说话人识别领域的一类神经网络。为实现更好的识别性能,近年来一些改进工作围绕加深或拓宽其网络结构进行。在对密集连接卷积网络以及多分支网络结构进行研究的基础上,提出一种密集多分支时延神经网络,用以进一步提升小体积模型对说话人特征的提取能力。在使用密集连接实现特征重用的基础上,并行多分支结构能同时对同一输入在不同分辨率下进行特征提取。在VoxCeleb1测试集、VoxCeleb1-H、VoxCeleb1-E上进行测试表明,该网络能在模型参数量较小的前提下实现准确的说话人识别,以便应用在一些存储空间受限的本地说话人识别场景中。 展开更多
关键词 说话人识别 时延神经网络 多分支神经网络 密集连接 深度学习
下载PDF
基于时间分段和重组聚类的说话人日志方法
18
作者 朱必松 毛启容 +1 位作者 高利剑 沈雅馨 《计算机应用研究》 CSCD 北大核心 2024年第9期2649-2654,共6页
当前的说话人日志方法大多采用标准的全局聚类的方式来区分不同说话人的语音片段,没有考虑到同一个人的声音在不同的噪声条件下具有不同的特征分布,而这会增大类内距离,从而降低聚类精度。鉴于相邻的语音片段往往包含相同的背景噪声,提... 当前的说话人日志方法大多采用标准的全局聚类的方式来区分不同说话人的语音片段,没有考虑到同一个人的声音在不同的噪声条件下具有不同的特征分布,而这会增大类内距离,从而降低聚类精度。鉴于相邻的语音片段往往包含相同的背景噪声,提出一种新的基于时间分段和重组聚类的说话人日志方法以解决上述问题。首先,将所有语音片段按时间连续性划分成多个独立的时间段,并在段内进行局部聚类;然后,将不同时间段中属于同一个说话人的语音片段重新合并。此外,在聚类时利用语音片段的邻域信息来校准它们之间的相似度。通过这种方式降低了直接在不同噪声条件下进行聚类的概率,提高了聚类精度。在公开数据集AMI SDM和VoxConverse上的实验结果表明,与基线方法相比,所提方法的日志错误率分别相对降低了34%和16%,充分证明了该方法的有效性。 展开更多
关键词 说话人日志 聚类 噪声 邻域
下载PDF
融合多情感的语音驱动虚拟说话人生成方法
19
作者 李帅帅 何向真 +1 位作者 张跃洲 王嘉欣 《计算机应用研究》 CSCD 北大核心 2024年第8期2546-2553,共8页
虚拟说话人生成是人工智能领域的一个重要研究方向,旨在通过计算机生成具有逼真语音的虚拟说话人。然而,现有方法往往忽视情绪表达、生成的人脸图像面部细节缺乏真实感,限制了虚拟说话人的表现能力和交互性。为解决这一问题,提出一种基... 虚拟说话人生成是人工智能领域的一个重要研究方向,旨在通过计算机生成具有逼真语音的虚拟说话人。然而,现有方法往往忽视情绪表达、生成的人脸图像面部细节缺乏真实感,限制了虚拟说话人的表现能力和交互性。为解决这一问题,提出一种基于Transformer的生成对抗网络(generative adversarial network,GAN)方法,用于生成具有不同情绪的虚拟说话人(GANLTB)。该方法基于GAN架构,生成器采用Transformer模型处理语音和图像特征,结合情绪条件信息和潜在空间向量,生成带有指定情绪的语音和图像。判别器用于评估生成结果的真实性,并提供梯度信号指导生成器训练。通过引入双三次插值法,进一步提升了虚拟说话人生成的图像质量,使得虚拟说话人的面部细节更加清晰可见,表情更加自然和生动。使用情感多样性数据集(CREMA-D)验证了该方法,通过主观评估和客观指标,评估了生成的语音和图像的情绪表达能力和质量。实验结果表明,该方法能够生成具有多样化和逼真情绪表达的虚拟说话人。相比目前其他先进方法,所提方法在流畅度和逼真度等细节上都更加清晰,带来了更好的真实感。 展开更多
关键词 虚拟说话人 生成对抗网络 TRANSFORMER 多情感表达 语音驱动
下载PDF
构音障碍说话人自适应研究进展及展望
20
作者 康新晨 董雪燕 +1 位作者 姚登峰 钟经华 《计算机科学》 CSCD 北大核心 2024年第8期11-19,共9页
自动化语音识别工具让构音障碍者和正常人的沟通变得顺畅,因此,近年来构音障碍语音识别成为了一项热门研究。构音障碍语音识别的研究包括:收集构音障碍者和正常人的发音数据,对构音障碍者和正常人的语音进行声学特征表示,利用机器学习... 自动化语音识别工具让构音障碍者和正常人的沟通变得顺畅,因此,近年来构音障碍语音识别成为了一项热门研究。构音障碍语音识别的研究包括:收集构音障碍者和正常人的发音数据,对构音障碍者和正常人的语音进行声学特征表示,利用机器学习模型比较和识别发音的内容并定位出差异性,以帮助构音障碍者改善发音。然而,由于收集构音障碍者的大量语音数据非常困难,且构音障碍者存在发音的强变异性,导致通用语音识别模型的效果往往不佳。为了解决这一问题,许多研究提出将说话人自适应方法引入构音障碍语音识别。对大量相关文献进行调研发现,当前此类研究主要围绕特征域和模型域对构音障碍语音进行分析。文中重点分析特征变换和辅助特征如何解决语音特征的差异性表示,以及声学模型的线性变换、微调声学模型参数和基于数据选择的域自适应方法如何提高模型识别的准确率。最后总结出构音障碍说话人自适应研究当前遇到的问题,并指出未来的研究可以从语音变异性的分析、多特征多模态数据的融合以及基于小数量的自适应方法的角度,提升构音障碍语音识别模型的有效性。 展开更多
关键词 构音障碍 说话人自适应 辅助特征 变换 微调 域自适应
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部