期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于注意力和挤压-激励Inception的双分支合成语音检测
1
作者 王晗 赵腊生 +2 位作者 张强 程银清 邱泽鹏 《计算机应用》 CSCD 北大核心 2024年第10期3217-3222,共6页
合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception(SE-Inc)的双分支(Dual-ABIB)合成语音检测... 合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception(SE-Inc)的双分支(Dual-ABIB)合成语音检测模型。首先,基于SincNet(Sinc-based convolutional neural Network)提取的初始特征图训练注意力分支合成语音检测模型,并输出注意力图;其次,将注意力图和初始特征图相乘后再叠加,并将结果作为SE-Inc分支的输入进行训练;最后,通过决策级加权融合处理2个分支获得的分类分数,从而实现合成语音检测。实验结果表明,所提模型在参数量为539×10^(3)的情况下,在ASVspoof2019数据集上获得了0.0332的最小串联检测代价函数(mint-DCF)和1.15%的等错误率(EER);与SE-ResABNet(Squeeze-Excitation ResNet Attention Branch Network)相比,所提模型在参数量仅为它的56%的情况下,min t-DCF和EER分别下降了34.5%和39.2%;同时,在ASVspoof2015和ASVspoof2021数据集上所提模型表现了更好的泛化能力。以上结果验证了所提模型能够在参数量较小的情况下,获得更低的min t-DCF和EER。 展开更多
关键词 注意力机制 挤压-激励模块 双分支 合成语音检测 决策级融合
下载PDF
采用局部相位量化的合成语音检测方法
2
作者 徐嘉 简志华 +1 位作者 金宏辉 杨曼 《电信科学》 北大核心 2024年第2期63-71,共9页
由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首... 由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首先,将语谱图分为若干子块,然后对每个子块进行局部相位量化,经直方图统计分析后获得局部相位量化特征向量并将该特征向量作为随机森林分类器的输入特征,实现合成语音检测。实验结果表明,该方法进一步降低了合成语音检测系统的串联检测代价数值,并且具有更强的泛化能力。 展开更多
关键词 说话人认证 伪装攻击 合成语音检测 局部相位量化
下载PDF
采用圆周局部三值模式纹理特征的合成语音检测方法
3
作者 金宏辉 简志华 +1 位作者 杨曼 吴超 《电信科学》 2023年第6期85-95,共11页
为了进一步提高合成语音检测的准确率,提出了一种采用圆周局部三值模式(CLTP)纹理特征的合成语音检测方法。该方法利用圆周局部三值模式提取语谱图中的纹理信息并作为语音的特征表示,采用深度残差网络作为后端分类器来判决语音真伪。实... 为了进一步提高合成语音检测的准确率,提出了一种采用圆周局部三值模式(CLTP)纹理特征的合成语音检测方法。该方法利用圆周局部三值模式提取语谱图中的纹理信息并作为语音的特征表示,采用深度残差网络作为后端分类器来判决语音真伪。实验结果表明,在ASVspoof 2019数据集上,与传统的常量Q倒谱系数(CQCC)和线性预测倒谱系数(LPCC)两种特征相比,该方法在等错误率(EER)上分别降低了54.29%和2.15%,与局部三值模式(LTP)纹理特征相比,该方法在等错误率上也降低了17.14%。圆周局部三值模式由于综合考虑了邻域内中心像素与周边像素之间以及各周边像素之间的差异,更加全面地获取了语谱图的纹理信息,提高了合成语音检测的准确率。 展开更多
关键词 说话人验证 合成语音检测 圆周局部三值模式 深度残差网络
下载PDF
基于辅助学习的改进端到端合成语音检测方法
4
作者 袁甜甜 李志华 邱阳 《计算机与现代化》 2023年第5期52-57,67,共7页
随着深度伪造技术的发展,合成语音检测面临越来越多的挑战。本文提出一种将辅助学习融入端到端模型的合成语音检测方法。将音频数据进行数据对齐后在不加提取任何手工特征的情况下直接输入到改进端到端模型,主任务进行真实语音与合成语... 随着深度伪造技术的发展,合成语音检测面临越来越多的挑战。本文提出一种将辅助学习融入端到端模型的合成语音检测方法。将音频数据进行数据对齐后在不加提取任何手工特征的情况下直接输入到改进端到端模型,主任务进行真实语音与合成语音的二分类,同时选用不同合成语音类型判别作为辅助任务,为主任务的合成语音检测提供先验假设,并且对主辅任务的权重叠加进行了优化。通过在公开数据集ASVspoof2019及ASVspoof2015上进行的实验结果表明,本文改进的模型与使用手工特征的模型相比能有效降低等错率,且优于改进前的端到端模型,并且在面对未知攻击类型时拥有更好的泛化能力。 展开更多
关键词 深度伪造 合成语音检测 辅助学习 权重优化 端到端系统
下载PDF
基于Involution算子和交叉注意力机制的合成语音检测方法
5
作者 邓泗波 芦天亮 +2 位作者 彭舒凡 刘晓文 于子健 《中国人民公安大学学报(自然科学版)》 2023年第3期65-72,共8页
随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。... 随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定Q变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用ResNet18作为主干网络先进行浅层的特征学习,并将Involution算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入cross-attention交叉注意力机制,使LFCC特征和CQT谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在ASVspoof 2019 LA测试集上取得了0.84%的等错误率和0.026的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。 展开更多
关键词 合成语音检测 特征融合 Involution算子 注意力机制
下载PDF
基于TMS320C6678的合成语音检测系统的设计与实现 被引量:1
6
作者 况鹏 黄海 +1 位作者 毛少帅 王康利 《电子设计工程》 2016年第19期98-101,共4页
针对合成语音检测系统在大规模电信网应用中的实时性需求,在分析合成语音检测原理和多核DSP任务并行的基础上,提出了一种基于TMS320C6678的合成语音检测算法并行实现方法,该方法实现了任务级并行流水和核间高效通信。实验结果表明,该方... 针对合成语音检测系统在大规模电信网应用中的实时性需求,在分析合成语音检测原理和多核DSP任务并行的基础上,提出了一种基于TMS320C6678的合成语音检测算法并行实现方法,该方法实现了任务级并行流水和核间高效通信。实验结果表明,该方法是可行、有效的,并且基于TMS320C6678的合成语音检测系统的实时处理能力有很大提升。 展开更多
关键词 合成语音检测 多核DSP TMS320C6678 实时处理
下载PDF
一种利用SE-Res2Net的合成语音检测系统 被引量:3
7
作者 梁超 高勇 《无线电工程》 北大核心 2022年第9期1560-1565,共6页
传统的说话人识别(Automatic Speaker Verfication, ASV)系统难以分辨合成语音,构建一个说话人保护系统刻不容缓。针对合成语音侵扰说话人识别系统问题,从特征层面提出了一种基于经验模式分解(Empirical Mode Decomposition, EMD)的梅... 传统的说话人识别(Automatic Speaker Verfication, ASV)系统难以分辨合成语音,构建一个说话人保护系统刻不容缓。针对合成语音侵扰说话人识别系统问题,从特征层面提出了一种基于经验模式分解(Empirical Mode Decomposition, EMD)的梅尔倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)+逆梅尔倒谱系数(Inverse Mel Frequency Cepstral Coefficients, IMFCC)的双通道语音特征作为合成语音检测的前端特征,在后端分类器上串联Res2Net网络和SENet网络组合成SE-Res2Net网络来提升模型的泛化能力。将不同特征与模型的打分结果融合,进一步提高实验性能。在ASVspoof2019数据集上的实验结果表明,该设计的合成语音检测系统能有效检测合成语音,与ASVspoof2019比赛的基线系统相比,融合模型的等错误概率(Equal Error Rate, EER)与串联成本检测函数(tandem Detection Cost Function, t-DCF)分别降低了49%和64%。 展开更多
关键词 合成语音检测 Res2Net 经验模式分解 SENet 等错误概率 串联成本检测函数
下载PDF
基于注意力机制的端到端合成语音检测 被引量:2
8
作者 王锦阳 华光 黄双 《信号处理》 CSCD 北大核心 2022年第9期1975-1987,共13页
近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别... 近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。 展开更多
关键词 合成语音检测 端到端 通道注意力机制 一维空间注意力机制
下载PDF
合成语音检测方法的研究现状及展望 被引量:3
9
作者 魏为民 刘畅 +1 位作者 才智 孟繁星 《上海电力大学学报》 CAS 2022年第1期75-81,共7页
随着语音诈骗事件的发生,自动说话人验证系统已被广泛应用。传统的检测合成语音的方法包括利用频谱信息、倒谱系数特征以及动态声学特征等。随着机器学习的发展,深度学习算法也被应用于合成语音检测且取得了不错的成果。介绍了几种检测... 随着语音诈骗事件的发生,自动说话人验证系统已被广泛应用。传统的检测合成语音的方法包括利用频谱信息、倒谱系数特征以及动态声学特征等。随着机器学习的发展,深度学习算法也被应用于合成语音检测且取得了不错的成果。介绍了几种检测方法的基本原理及部分研究成果,并对以后的发展方向进行了展望。 展开更多
关键词 合成语音检测 频谱信息 神经网络
下载PDF
基于倒谱特征数据增强的真实场景合成语音检测
10
作者 万伊 李春国 +1 位作者 杨飞然 杨军 《高技术通讯》 CAS 2024年第10期1013-1023,共11页
现有合成语音检测系统在真实场景下性能损失严重。本文提出了一种基于频域掩蔽的倒谱特征数据增强方法。该方法对输入信号的线性滤波器组特征(LFBs)进行频域掩蔽,以引入符合真实场景的语音失真;计算掩蔽特征的线性频率倒谱系数(LFCC),... 现有合成语音检测系统在真实场景下性能损失严重。本文提出了一种基于频域掩蔽的倒谱特征数据增强方法。该方法对输入信号的线性滤波器组特征(LFBs)进行频域掩蔽,以引入符合真实场景的语音失真;计算掩蔽特征的线性频率倒谱系数(LFCC),以降低特征维度,提升检测性能。本文利用轻量级卷积神经网络(LCNN)、深度残差网络(ResNet)和一维卷积Transformer模型(OCT)建立了3种检测系统,用于验证所提方法的有效性。真实场景数据集上的实验结果表明,所提方法可使不同合成语音检测系统的等错误率(EER)相较无增强的基线降低6.39%~25.95%。将所提方法与基于音频编解码的增强技术相结合时,不同系统的EER比基线降低31.71%~42.47%,进一步提升了系统对真实场景的泛化能力,且性能优于现有数据增强方法。 展开更多
关键词 合成语音检测 数据增强 真实场景 频域掩蔽 泛化能力
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部