-
题名一种利用SE-Res2Net的合成语音检测系统
被引量:3
- 1
-
-
作者
梁超
高勇
-
机构
四川大学电子信息学院
-
出处
《无线电工程》
北大核心
2022年第9期1560-1565,共6页
-
文摘
传统的说话人识别(Automatic Speaker Verfication, ASV)系统难以分辨合成语音,构建一个说话人保护系统刻不容缓。针对合成语音侵扰说话人识别系统问题,从特征层面提出了一种基于经验模式分解(Empirical Mode Decomposition, EMD)的梅尔倒谱系数(Mel Frequency Cepstral Coefficients, MFCC)+逆梅尔倒谱系数(Inverse Mel Frequency Cepstral Coefficients, IMFCC)的双通道语音特征作为合成语音检测的前端特征,在后端分类器上串联Res2Net网络和SENet网络组合成SE-Res2Net网络来提升模型的泛化能力。将不同特征与模型的打分结果融合,进一步提高实验性能。在ASVspoof2019数据集上的实验结果表明,该设计的合成语音检测系统能有效检测合成语音,与ASVspoof2019比赛的基线系统相比,融合模型的等错误概率(Equal Error Rate, EER)与串联成本检测函数(tandem Detection Cost Function, t-DCF)分别降低了49%和64%。
-
关键词
合成语音检测
Res2Net
经验模式分解
SENet
等错误概率
串联成本检测函数
-
Keywords
synthetic speech detection
Res2Net
EMD decomposition
SENet
EER
t-DCF
-
分类号
TN912.3
[电子电信—通信与信息系统]
-