基于DNN与基音周期的说话人识别被引量：5

Speaker Recognition Based on DNN and Pitch Period

下载PDF

导出

摘要传统说话人识别框架大多建立在高斯混合模型(GMM)上的,然而这种浅层学习模型不能有效地表征数据特征之间的高阶相关性,识别效果较差。本文提出一种基于深度神经网络(Deep Neural Network,DNN)与基音周期(Pitch Period,PP)相结合的说话人识别方法,模型主线识别以对数梅尔滤波器组特征参数作为DNN的输入,通过训练DNN模型提取说话人的声纹特征;针对DNN模型阈值设定人的主观性影响,利用动态时间规整技术匹配说话人基音周期进行辅助识别。实验结果表明,这种双重识别方法等错误率可以达到1. 6%,较DNN系统与EM-GMM系统等错误率分别降低了1. 2%和2. 4%,并且在噪声环境中仍具有较好的鲁棒性。 Traditional speaker recognition frameworks are mostly based on the Gauss mixture model( GMM),but this shallow learning model can not effectively represent the high-order correlation between data features,thus the recognition effect is poor. In this paper,a speaker recognition method based on Deep Neural Network( DNN) and Pitch Period( PP) is proposed. The logarithmic Meier filter bank feature parameters are used as the input of DNN for mainline identification,and the voiceprint characteristics of the speaker are extracted through training DNN model. To eliminate the subjective influence of threshold setting in DNN model,dynamic time warping technology is used to match pitch period of the speaker for assistant recognition. The experimental results show that equal error rate( EER) of this dual recognition method reaches 1. 6%,which decreases respectively by 1. 2% and 2. 4% compared with DNN system and EM-GMM system,and this method still has good robustness in noise environment.

作者张学祥雷菊阳 ZHANG Xue-xiang;LEI Ju-yang(School of Mechanical and Automobile Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区上海工程技术大学机械与汽车工程学院

出处《计算机与现代化》 2020年第1期122-126,共5页 Computer and Modernization

关键词深度神经网络基音周期说话人识别动态时间规整双重识别 deep neural network pitch period speaker recognition dynamic time warping dual recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1关健,王敏.基于深度神经网络和多元损失的说话人识别[J].电子测量技术,2019,42(5):39-43. 被引量：6
2陈爱月,徐波,申子健.基于高斯混合模型及TIMIT语音库的说话人身份识别[J].信息通信,2017,30(7):51-52. 被引量：3
3周炳良,邓立新,洪民江.一种新的基于DTW的孤立词语音识别算法[J].计算机技术与发展,2018,28(4):119-123. 被引量：7
4邵妍,霍春宝,金曦.基于改进的高斯混合模型算法的说话人识别[J].辽宁工业大学学报（自然科学版）,2010,30(1):8-10. 被引量：4
5孙婷婷,章小兵.一种基于小波包变换加权自相关的基音检测算法[J].计算机工程与科学,2017,39(8):1525-1529. 被引量：3
6李浩,鲍鸿,张晶.基于深度神经网络的说话人识别模型研究[J].电脑与信息技术,2018,26(5):1-3. 被引量：3
7张景扩,彭龑.一种基于倒谱法的基音周期检测改进算法[J].电声技术,2017,41(7):113-116. 被引量：3
8马英,陈超,陈善继.一种基音周期检测中减小中值平滑误差的方法[J].新疆师范大学学报（自然科学版）,2016,35(2):75-79. 被引量：3
9王应晨,段修生.深度学习及其在装备故障诊断中的研究进展[J].战术导弹技术,2018(5):25-30. 被引量：9
10王昕,张洪冉.基于DNN处理的鲁棒性I-Vector说话人识别算法[J].计算机工程与应用,2018,54(22):167-172. 被引量：11

二级参考文献81

1马永,贾俊芳.遗传算法研究综述[J].山西大同大学学报（自然科学版）,2007,23(6):11-13. 被引量：8
2樊桂花,唐斌.基于小波变换的语音基音周期鲁棒性检测[J].信号处理,2004,20(4):365-368. 被引量：8
3封伶刚,王秀萍.一种新的基于LBG和DTW的模板训练算法[J].计算机工程与应用,2005,41(26):85-88. 被引量：3
4陈立万.基于语音识别系统中DTW算法改进技术研究[J].微计算机信息,2006,22(02Z):267-269. 被引量：28
5王文延,曾庆宁,李琴,赵中华.一种噪声环境下的语音端点检测方法[J].声学技术,2007,26(3):435-441. 被引量：5
6肖健华.智能模式识别[M].广州:华南理工大学出版社,2006.
7卓群,欧贵文.基于模糊高斯混合模型的说话人识别算法的一些改进[C].第六届全国人机语音通讯学术会议论文集,2002.
8Reynolds D A. An overview of automatic speaker rec ognition technology[J]. IEEE Trans on ipeech and Aud io Processing, 2002, 10(4): 472-475.
9高西全,丁玉美.数字信号处理[M].西安:西安电子科技大学出版社.2008.
10易克初田斌付强.语音信号处理[M].北京:国防工业出版社,2003..

共引文献51

1邢月晗,郑岩.语音转录后文本的中文拼写纠错模型[J].电子测量技术,2023,46(6):57-61.
2向晶,周绍光,陈超.基于改进高斯混合模型的遥感影像道路提取[J].测绘工程,2014,23(3):42-45. 被引量：9
3谭萍,邢玉娟.基于GMM超向量和Fisher-稀疏表示分类的说话人确认[J].青海大学学报（自然科学版）,2016,34(1):51-57. 被引量：2
4邢玉娟,谭萍.基于稀疏表示分类的说话人识别算法及其在智能考勤系统中的应用[J].工业仪表与自动化装置,2016(2):84-87. 被引量：1
5李哲军,周萍,景新幸.基于改进噪声估计的谱减法应用于说话人识别[J].计算机测量与控制,2016,24(4):155-158.
6卞毓伟,郭玲.基于权值分配的音符识别研究[J].计算机与现代化,2017(3):122-126. 被引量：2
7詹武平,郑永煌,王金霞.基于深度神经网络模型的雷达目标识别[J].现代雷达,2018,40(1):16-19. 被引量：12
8李娟,张雪英,黄丽霞,孙慧霞,陈建玲.基于Hilbert-Huang变换的语音合成基音标注搜索新算法[J].现代电子技术,2018,41(12):153-156. 被引量：4
9甄倩倩,张庭亮.说话人识别综述[J].科技资讯,2017,15(25):241-243. 被引量：1
10程磊,高茂庭.基于深度神经网络的推荐算法[J].现代计算机,2018,24(15):3-7. 被引量：4

同被引文献61

1万源,李欢欢,吴克风,童恒庆.LBP和HOG的分层特征融合的人脸识别[J].计算机辅助设计与图形学学报,2015,27(4):640-650. 被引量：71
2陈海伦.方音系统的相似关系计算[J].语言科学,2006,5(1):23-31. 被引量：6
3朱海涛.基于神经网络的语音识别鲁棒性研究[J].中国科技信息,2008(5):276-277. 被引量：1
4钱盛友,许慧燕.基于动态时间规整和神经网络的方言辨识研究[J].计算机工程与应用,2008,44(10):211-213. 被引量：9
5孙梁.余数周期表和辗转相除法[J].凯里学院学报,2008,26(3):125-128. 被引量：5
6吕霄云,王宏霞.基于MFCC和短时能量混合的异常声音识别算法[J].计算机应用,2010,30(3):796-798. 被引量：29
7谢福鼎,王赫楠,张永.一种新的时间序列线性拟合方法[J].计算机工程,2011,37(22):250-251. 被引量：4
8刘波霞,陈建峰.基于特征分析的环境声音事件识别算法[J].计算机工程,2011,37(22):261-263. 被引量：15
9金银燕,于凤芹,何艳.基于时频分布与MFCC的说话人识别[J].计算机系统应用,2012,21(4):189-192. 被引量：4
10叶浩欢,柳征,姜文利.基于自适应步长选择的周期格型线搜索估计[J].航空学报,2012,33(8):1498-1507. 被引量：2

引证文献5

1张明键,张悦.基于语谱图HOG特征的两步法长沙话说话人识别[J].信息技术与信息化,2020(8):188-192. 被引量：1
2张明键,张悦.基于语谱图和深度置信网络的方言自动辨识与说话人识别[J].电子技术与软件工程,2020(14):151-154. 被引量：1
3许文杰,杨淇善.基于特征参数LPCC与AMDF的异常声音检测[J].长江信息通信,2021,34(10):110-113. 被引量：2
4王家宁.基于频率特征的共享钢琴自动调音系统设计[J].自动化与仪器仪表,2023(1):172-177. 被引量：1
5吕文超,张顼,徐晶,张蔚.基于线性拟合与余数度量的脉冲序列周期精测方法[J].电子信息对抗技术,2024,39(5):35-43.

二级引证文献5

1梁小林,沈湘菲,梁曌,邱海琳.基于CTC-GRU模型的长沙方言识别[J].吉首大学学报（自然科学版）,2022,43(2):45-52.
2汪兰兰,蔡昌新.基于改进线性预测基音频率的语音情感识别系统[J].科学技术与工程,2022,22(26):11524-11532. 被引量：4
3袁瑛,周洲.侦查语言学的发展与展望[J].贵州警察学院学报,2022,34(5):77-84.
4蔡书琛,杨晶东,翁雯浩,齐晨浩,尧明慧,燕海霞.基于频域特征图的高血压靶器官损伤脉搏波预测模型[J].数据采集与处理,2023,38(4):898-914.
5林少华.钢琴结构和调音技术与音准稳定性的关系[J].戏剧之家,2024(16):92-94.

1张辰,张华,高宁化,陈豪.基于仿射传播聚类的说话人识别算法[J].传感器与微系统,2020,39(2):120-123. 被引量：2
2张昂,黄立勤.基于机器视觉的导盲杖辅助识别系统设计[J].贵州大学学报（自然科学版）,2019,36(6):63-67. 被引量：9
3乔钢柱,朱良泽,丁智慧,程谭.基于多项式最小二乘滤波的时间序列相似性度量[J].测试技术学报,2020,34(1):28-33. 被引量：3
4杨子元,许晓斌,李欣,赵一萌.基于智能感知技术的用电事件识别方法研究[J].物联网学报,2019,3(4):109-115. 被引量：3
5林浩文,张正道,张明馨,高超宏.一种婴儿哭声识别优化算法的研究[J].测控技术,2019,38(12):46-51. 被引量：2
6冀常鹏,程琳,李锋.基于改进BP-Adaboost和HMM混合模型的方言情感识别[J].成都信息工程大学学报,2019,34(5):495-500. 被引量：1
7彼得·洛弗西,张修竹.顺路去邮局[J].译林,2020,0(1):47-52.
8胡金炎,裴运通,马阳光,王海洋,刘乐乐,郭跃信.加速器机载影像系统图像质量量化评价及质量保证阈值设定研究[J].中华放射肿瘤学杂志,2019,28(12):919-923. 被引量：5
9李建勋,张锐军,SAFONOV Paul,佟瑞.基于Copula函数和M-K检验的时空数据异常识别方法[J].系统工程理论与实践,2019,39(12):3229-3236. 被引量：2
10李晓理,张山,王康.基于图像质量分析的PM2.5空气质量预测[J].北京工业大学学报,2020,46(2):191-198. 被引量：3

计算机与现代化

2020年第1期

浏览历史

内容加载中请稍等...

基于DNN与基音周期的说话人识别被引量：5

参考文献13

二级参考文献81

共引文献51

同被引文献61

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于DNN与基音周期的说话人识别 被引量：5

参考文献13

二级参考文献81

共引文献51

同被引文献61

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于DNN与基音周期的说话人识别被引量：5