基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统被引量：4

Speaker recognition system based on fusion of cochlear filter cepstral coefficients and Teager energy operator phase

下载PDF

导出

摘要为了提高说话人识别系统的性能,该文在传统特征的基础上提出利用相位特征对听觉倒谱特征进行补偿的方法。该方法利用Teager能量算子(Teager energy operator,TEO)能够真实反映气流在通过声道系统呈现的涡流非线性作用的模型,再利用希尔伯特变换从TEO导出分析信号的瞬时相位信息,结合耳蜗倒谱系数(Cochlear filter cepstral coefficients,CFCC)得到融合特征参数。实现了对特征参数的补偿,提高了说话人识别系统的识别率。使用NIST-2002说话者识别评估(Speakers recognition evaluation,SRE)数据库,在高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)的说话人识别系统上进行实验。实验结果表明TEO相位与CFCC的结合比单独CFCC更好,其识别精度比现有的CFCC特征和线性预测梅尔频率倒谱系数(Linear prediction Meyer frequency cepstral coefficient,LPMFCC)分别提高了8.32%和3.15%。这表明TEO相位包含与CFCC特征互补的信息,且具有较高的识别率。 In order to improve the performance of speaker recognition system,this paper proposes a method of compensating auditory cepstrum features by using phase features based on traditional fea-tures. In this method,Teager energy operator（ TEO） can truly reflect the model of the eddy current nonlinearity caused by the airflow in the channel system. The Hilbert transform is used to derive the instantaneous phase information of the analyzing signal from TEO. The fusion characteristic parameters are obtained by combining with cochlear filter cepstral coefficients（ CFCC）. It realizes the compensation of characteristic parameters and improves the recognition rate of speaker recognition system. The NIST-2002 speakers recognition evaluation（ SRE） database is used to experiment with the Gaussian mixture model-universal background model（ GMM-UBM） speaker recognition system.The experimental results show that the combination of the TEO phase and CFCC is better than the CFCC alone,and its recognition accuracy is improved by 8.32% and 3.15%,respectively,compared with the existing CFCC characteristics and linear prediction Meyer frequency cepstral coefficient（LPMFCC）. This indicates that the TEO phase contains the information that is complementary to the CFCC feature and has a high recognition rate.

作者茅正冲王俊俊

机构地区江南大学轻工过程先进控制教育部重点实验室

出处《南京理工大学学报》 EI CAS CSCD 北大核心 2018年第1期82-88,共7页 Journal of Nanjing University of Science and Technology

基金国家自然科学基金(60973095) 江苏省自然科学基金(BK20131107)

关键词能量算子耳蜗倒谱系数高斯混合模型-通用背景模型说话人识别 energy operator cochlear filter cepstral coefficient Gaussian mixture model-universal background model speaker recognition

分类号 TN912 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1李燕萍,唐振民,丁辉,张燕.一种适于说话人辨认的自适应频率尺度变换[J].南京理工大学学报,2010,34(2):182-186. 被引量：2
2陈丽萍,王尔玉,戴礼荣,宋彦.基于深层置信网络的说话人信息提取方法[J].模式识别与人工智能,2013,26(12):1089-1095. 被引量：5
3秦楚雄,张连海.基于DNN的低资源语音识别特征提取技术[J].自动化学报,2017,43(7):1208-1219. 被引量：25
4张涛涛,陈丽萍,蒋兵,戴礼荣.采用深度神经网络的说话人特征提取方法[J].小型微型计算机系统,2017,38(1):142-146. 被引量：8
5李壮辉.基音特征融合高斯混合模型的说话人识别研究[J].测控技术,2014,33(6):28-31. 被引量：2
6毛燕湖,曾以成,陈雨莺,谢小娟.说话人识别的特征组合方法[J].计算机应用,2015,35(A02):242-244. 被引量：2
7高慧,苏广川,陈善广.基于Teager能量算子(TEO)非线性特征的语音情绪识别[J].航天医学与医学工程,2005,18(6):427-431. 被引量：8
8刘庆华.基于声门闭合瞬间检测的时延算法研究[J].电声技术,2006,30(9):45-49. 被引量：1

二级参考文献57

1谢迎春,于湘珍,刘建平,张卫华.基于多特征有效组合的说话人识别[J].现代电子技术,2005,28(9):68-70. 被引量：5
2董志荣.三点等间隔线列阵目标定位存在唯一解的充要条件[J].情报指挥控制系统与仿真技术,2005,27(6):4-7. 被引量：5
3高慧,苏广川,陈善广.基于Teager能量算子(TEO)非线性特征的语音情绪识别[J].航天医学与医学工程,2005,18(6):427-431. 被引量：8
4王书诏,邱天爽.说话人识别研究综述[J].电声技术,2007,31(1):51-55. 被引量：9
5赵力.语音信号处理[M].北京:机械工业出版社,2008.
6Campbell J P.Speaker recognition:a tutorial[J].Proceedings of the IEEE,1997,85(9):1437-1462.
7Hayakawa S,Itakura F.Text dependent speaker recognition using the information in the higher frequency band[A].Proceedings of the Conference on Acoustic,Speech and Signal Processing[C].Adelaide,SA,Australia,IEEE,1994:19-22.
8Miyajima C,Watanable H,Tokuda K,et al.A new approach to designing a feature extractor in speaker identification based on discriminative feature extraction[J].Speech Communication,2001,35(3):203-218.
9Lu Xugang,Dang Jianwu.An investigation of dependencies between frequency components and speaker characteristics for text independent speaker identification[J].Speech Communication,2008,50:312-322.
10Reynolds D A,Rose R C.Robust text independent speaker identification using Gaussian mixture speaker models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.

共引文献44

1张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
2高慧,苏广川,陈善广.基于Teager能量算子(TEO)非线性特征的语音情绪识别[J].航天医学与医学工程,2005,18(6):427-431. 被引量：8
3贾秀芳,陈清,赵成勇,马维青,张勇.电压闪变检测算法的比较[J].高电压技术,2009,35(9):2126-2132. 被引量：21
4叶吉祥,张密霞,龚希龄.基于MF-DFA的语音情感识别[J].长沙理工大学学报（自然科学版）,2011,8(2):67-71. 被引量：2
5袁松范.中国进入世贸组织的前景[J].中国医药情报,2000,6(1):34-37. 被引量：3
6梁慧,曾水平.应用小波多分辨率理论提取个性特征的研究[J].计算机工程与应用,2013,49(9):120-122. 被引量：1
7刘敏,赵治栋.基于Teager-Huang边界谱的心音身份确认[J].杭州电子科技大学学报（自然科学版）,2013,33(5):86-89. 被引量：1
8赵彩光,张树群,雷兆宜.基于改进对比散度的GRBM语音识别[J].计算机工程,2015,41(5):213-218. 被引量：4
9李战明,张晓东.基于Teager边界谱心音身份识别的特征提取算法[J].工业仪表与自动化装置,2015(5):3-6. 被引量：2
10酆勇,熊庆宇,石为人,曹俊华.一种基于受限玻尔兹曼机的说话人特征提取算法[J].仪器仪表学报,2016,37(2):256-262. 被引量：19

同被引文献54

1刘红星,戴蓓蒨,陆伟.基于共振峰谐波能量的语音端点检测[J].清华大学学报（自然科学版）,2008,48(S1):754-759. 被引量：11
2章熙春,曹燕,张军,韦岗.语音MFCC特征计算的改进算法[J].数据采集与处理,2005,20(2):161-165. 被引量：6
3张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22):54-55. 被引量：29
4魏丹芳,李应.基于MFCC和加权动态特征组合的环境音分类[J].计算机与数字工程,2010,38(2):7-10. 被引量：4
5吕霄云,王宏霞.基于MFCC和短时能量混合的异常声音识别算法[J].计算机应用,2010,30(3):796-798. 被引量：29
6赵力,邹采荣,吴镇扬.基于3维空间Viterbi算法的汉语连续语音识别方法[J].电子学报,2000,28(7):67-69. 被引量：5
7鲜晓东,樊宇星.基于Fisher比的梅尔倒谱系数混合特征提取方法[J].计算机应用,2014,34(2):558-561. 被引量：16
8袁俊.HMM连续语音识别中Viterbi算法的优化及应用[J].电子技术（上海）,2001,28(2):48-51. 被引量：11
9杜晓青,于凤芹.基于HHT倒谱系数的说话人识别算法[J].计算机工程与应用,2014,50(3):198-202. 被引量：4
10张琳,王珊,秦晓瑜,陈海霞,王连明.基于听觉仿生模型的乐器识别[J].东北师大学报（自然科学版）,2014,46(1):75-79. 被引量：5

引证文献4

1贾艳洁,陈曦,于洁琼,王连明.基于特征语谱图和自适应聚类SOM的快速说话人识别[J].科学技术与工程,2019,19(15):211-218. 被引量：6
2朱祥.基于隐马尔可夫模型和聚类的英语语音识别混合算法[J].计算机测量与控制,2020,28(5):175-179. 被引量：15
3王家盛,郭其威,吴松,马建敏.基于特征相对贡献度对加权Mel倒谱的改进[J].声学技术,2021,40(3):408-414. 被引量：4
4冯晓静,白静,薛珮芸,戎如意.基于双模态融合特征的模糊语音识别研究[J].电子设计工程,2022,30(2):43-48. 被引量：3

二级引证文献28

1韩鹏飞,陈晓.基于MFCC-IMFCC和GA-SVM的鸟声识别[J].计算机系统应用,2022,31(11):393-399. 被引量：8
2张明键,张悦.基于语谱图HOG特征的两步法长沙话说话人识别[J].信息技术与信息化,2020(8):188-192. 被引量：1
3张明键,张悦.基于语谱图和深度置信网络的方言自动辨识与说话人识别[J].电子技术与软件工程,2020(14):151-154. 被引量：1
4乐妍.基于人工神经网络无监督聚类方法的青少年体质综合评价模型研究[J].江苏科技信息,2020,37(33):76-79.
5潘丽鹏.嵌入式英语语音识别控制系统研究[J].微型电脑应用,2021,37(6):73-75. 被引量：1
6宋晓焕,梁金伟,刘晓连.基于改进GLR算法的英语翻译智能识别模型设计[J].电子设计工程,2021,29(19):64-68. 被引量：3
7陈晓红,滕华.基于深度机器学习的英语语音识别研究[J].贵阳学院学报（自然科学版）,2021,16(3):1-4. 被引量：3
8邬友朋,赵金龙,贾中营.一种基于KNN/CNN的供热客服音频分类方法[J].电力大数据,2021,24(7):56-66. 被引量：1
9李娅,马琳.基于机器翻译的日语识别方法研究[J].自动化与仪器仪表,2021(10):178-182. 被引量：2
10唐风扬,覃仁超,熊健.基于局部密度信息熵均值的密度峰值聚类算法[J].计算机测量与控制,2022,30(3):192-197. 被引量：5

1程小伟,王健,曾庆宁,谢先明,龙超.噪声环境下稳健的说话人识别特征研究[J].声学技术,2017,36(5):479-483. 被引量：7
2刘俊坤,李燕萍,凌云志.基于AutoEncoder DBN-VQ的说话人识别系统[J].计算机技术与发展,2018,28(2):45-49. 被引量：2
3樊晓鹤,赵鹤鸣,陈雪勤,周燕.倒谱参数稀疏分解下的汉语音谎言检测[J].声学学报,2018,43(1):121-128. 被引量：4
4梁敏,朱虹.基于倒谱分析的混合模糊退化模型参数估计[J].广西大学学报（自然科学版）,2017,42(6):2175-2182. 被引量：2
5齐咏生,张二宁,高胜利,高学金,王普.基于EEMD和能量算子的风机轴承故障诊断[J].控制工程,2017,24(12):2450-2455. 被引量：11
6邓蕾,高勇.弯折滤波器在说话人识别的鲁棒特征提取中的应用[J].计算机系统应用,2017,26(12):227-232. 被引量：1
7刘建春,胡俊锋,熊国良,唐晓红,张龙.基于谱峭度和Teager能量算子的轴承故障特征增强[J].噪声与振动控制,2018,38(1):182-187. 被引量：14
8Dong Gu Hur,Arwa Kurabi,Allen F.Ryan.Screening antioxidants for the protection of cochlear sensory cells[J].Neural Regeneration Research,2018,13(1):62-64.
92017中国-东盟汽车房车露营旅游产业发展高峰论坛在桂林举行[J].旅游论坛,2017,10(6).
10刘晓东.电力企业内部审计环境识别与评估研究[J].神州,2017,0(23):224-225.

南京理工大学学报

2018年第1期

浏览历史

内容加载中请稍等...

基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统被引量：4

参考文献8

二级参考文献57

共引文献44

同被引文献54

引证文献4

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统 被引量：4

参考文献8

二级参考文献57

共引文献44

同被引文献54

引证文献4

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统被引量：4