基于特征语谱图和自适应聚类SOM的快速说话人识别被引量：6

Fast Speaker Recognition Based on Characteristic Spectrogram and an Adaptive Clustering Self-organizing Feature Map

下载PDF

导出

摘要为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性叠加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自组织映射(self-organizing feature map,SOM)神经网络提出了一种自适应聚类SOM (adaptive clustering-SOM,ACSOM)算法,随着待识别说话人数的增加,自动调节增加竞争层神经元个数,直至聚类数达到说话人个数。采用该AC-SOM模型对100人的自建特征语谱图样本库进行聚类识别,最大训练时间只需304 s,最大单张识别时间小于28 ms;在识别人数相同时,相对于所对比的其他识别方法,该方法大大提升了网络训练速度和识别速度,满足了边缘智能(edge intelligence)系统中对数据处理与执行的实时性的要求。 To obtain a speaker’s pronunciation characteristics,a spectrogram statistics method based on bionics idea was proposed. This method used a linear superposition of short-time spectrograms to achieve a characteristic spectrogram,giving a stable representation of the speaker’s pronunciation. To deal with the issue of slow network training and recognition speeds for speaker recognition systems on resource-constrained devices,an adaptive clustering self-organizing feature map SOM( AC-SOM) algorithm based on a traditional SOM neural network was proposed. As the number of speakers to be recognized increases,the number of neurons in the competition layer was automatically adjusted until the number of clusters reaches the number of speakers. A 100-speaker database of characteristic spectrogram samples was built and applied AC-SOM model to it,yielding a maximum training time of only 304 s,with a maximum sample recognition time of less than 28 ms. Compared with applying other approaches to the same number of people,the method offers greatly improved training and recognition speeds. This means it can potentially satisfy the real-time data processing and execution requirements of edge intelligence systems more easily than previous speaker recognition methods.

作者贾艳洁陈曦于洁琼王连明 JIA Yan-jie;CHEN Xi;YU Jie-qiong;WANG Lian-ming(Institute of Computational Intelligence,School of Physics,Northeast Normal University,Changchun 130024,China)

机构地区东北师范大学物理学院计算智能研究所

出处《科学技术与工程》北大核心 2019年第15期211-218,共8页 Science Technology and Engineering

基金国家自然科学基金(21227008) 吉林省科技发展计划项目(20170204035GX)资助

关键词说话人识别特征语谱图自适应聚类神经网络统计深度学习 speaker recognition characteristic spectrogram adaptive clustering neural network statistics deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1史小元,景新幸,曾敏,杨海燕.基于改进PNCC和i-vector的说话人识别鲁棒性[J].计算机工程与设计,2017,38(4):1071-1075. 被引量：3
2王伟,韩纪庆,郑铁然,郑贵滨,陶耀.基于Fisher判别字典学习的说话人识别[J].电子与信息学报,2016,38(2):367-372. 被引量：6
3胡青,刘本永.基于卷积神经网络的说话人识别算法[J].计算机应用,2016,36(A01):79-81. 被引量：12
4李浩,鲍鸿,张晶.基于深度神经网络的说话人识别模型研究[J].电脑与信息技术,2018,26(5):1-3. 被引量：3
5楚俊生,张博山,林兆骥.边缘计算在物联网领域的应用及展望[J].信息通信技术,2018,12(5):31-39. 被引量：30
6崔宏禹.数据及平台驱动的AI创新微软智能云和智能边缘[J].软件和集成电路,2018(8):60-61. 被引量：1
7程小伟,王健,曾庆宁,谢先明,龙超.基于调制域谱减法的鲁棒性说话人识别[J].科学技术与工程,2017,17(3):252-257. 被引量：5
8张怡然,白静,王力.基于多窗频谱估计和平滑幅度谱包络的Mel频率倒谱系数(MFCC)改进算法[J].科学技术与工程,2014,22(19):253-256. 被引量：6
9白燕燕,胡晓霞,郑三婷.基于听觉特性的声纹识别系统的研究[J].电子设计工程,2015,23(4):85-87. 被引量：4
10胡政权,曾毓敏,宗原,李梦超.说话人识别中MFCC参数提取的改进[J].计算机工程与应用,2014,50(7):217-220. 被引量：29

二级参考文献135

1鲍焕军,郑方.GMM-UBM和SVM说话人辨认系统及融合的分析[J].清华大学学报（自然科学版）,2008,48(S1):693-698. 被引量：9
2马义德,袁敏,齐春亮,刘悦,刘映杰.基于PCNN的语谱图特征提取在说话人识别中的应用[J].计算机工程与应用,2005,41(20):81-84. 被引量：23
3潘凌云,孙达传,吴美朝.语音识别中基于语谱图的语音音素分割方法[J].杭州大学学报（自然科学版）,1995,22(1):42-46. 被引量：7
4沈绪榜,张发存,冯国臣,车得亮,王光.计算机体系结构的分类模型[J].计算机学报,2005,28(11):1759-1766. 被引量：10
5高慧,苏广川,陈善广.基于Teager能量算子(TEO)非线性特征的语音情绪识别[J].航天医学与医学工程,2005,18(6):427-431. 被引量：8
6刘庆华.基于声门闭合瞬间检测的时延算法研究[J].电声技术,2006,30(9):45-49. 被引量：1
7荣薇,陶智,顾济华,赵鹤鸣.基于改进LPCC和MFCC的汉语耳语音识别[J].计算机工程与应用,2007,43(30):213-216. 被引量：17
8ERONEN A.Comparison of features for musical instrument recognition[J].Workshop on Signal Processing(or Audio andAcoustics(WASPAA),2001:19-22.
9SUMIT KUMAR BANCHHOR,ARIF KHAN.Musical instrument recognition using spectrogram and autocorrelation.International Journal of Soft Computing and Engineering[J].2012,2(1):1-4.
10林玉志.基于声学特征的乐器识别研究[D].广州:华南理工大学,,2012.

共引文献162

1陈晓武,刘国华,雷尚平.机器视觉平台在钢铁制造业的实现与应用[J].冶金自动化,2020,44(S01):197-201. 被引量：4
2刘冬兰,孔德秋,常英贤,刘新,马雷,王睿.基于受限玻尔兹曼机的电力信息系统多源日志综合特征提取[J].计算机系统应用,2020,29(11):210-217. 被引量：1
3洪媛,黄亮,谢长君,张锐明.基于边缘计算的虚拟电厂架构及光伏出力预测算法研究[J].湖北电力,2020(1):26-34. 被引量：6
4黄光磊,李喆,许永鹏,钱勇,盛戈皞,江秀臣.基于改进深度信念网络的直流XLPE电缆局部放电模式识别[J].高电压技术,2020,46(1):327-334. 被引量：12
5姜占才,孙燕,王得芳.基于复合能量和自适应阈值的语音端点检测[J].计算机工程与科学,2010,32(4):136-138. 被引量：1
6顾亚强,赵晖,吴波.一种语音信号端点检测的改进方法[J].计算机仿真,2010,27(5):340-343. 被引量：13
7张华,李忠海,王文龙,赵义.基于Hilbert-Huang算法的缺时检测问题的研究[J].沈阳师范大学学报（自然科学版）,2013,31(1):95-99. 被引量：1
8宫朝辉,刁麓弘.改进共振峰提取的语音端点检测[J].计算机辅助设计与图形学学报,2013,25(8):1230-1236. 被引量：4
9李正友,李天伟,黄谦,隋振庚.一种新的VDR浊语音检测方法[J].计算机应用研究,2013,30(8):2461-2463.
10李正友,李天伟,黄谦,隋振庚.噪声环境中的汉语浊语音检测[J].声学学报,2014,39(4):517-522. 被引量：1

同被引文献56

1朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
2万源,李欢欢,吴克风,童恒庆.LBP和HOG的分层特征融合的人脸识别[J].计算机辅助设计与图形学学报,2015,27(4):640-650. 被引量：71
3陈海伦.方音系统的相似关系计算[J].语言科学,2006,5(1):23-31. 被引量：6
4钱盛友,许慧燕.基于动态时间规整和神经网络的方言辨识研究[J].计算机工程与应用,2008,44(10):211-213. 被引量：9
5余建潮,张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1189-1191. 被引量：47
6陆伟,戴蓓蒨,李辉,刘青松.MFCC中的基音频率信息对说话人识别系统性能的影响[J].中国科学技术大学学报,2009,39(8):859-863. 被引量：11
7王玥,钱志鸿,王雪,程光明.基于伽马通滤波器组的听觉特征提取算法研究[J].电子学报,2010,38(3):525-528. 被引量：28
8金银燕,于凤芹,何艳.基于时频分布与MFCC的说话人识别[J].计算机系统应用,2012,21(4):189-192. 被引量：4
9沈瑜,党建武,王阳萍,雷涛.加权短时自相关函数的基音周期估计算法[J].计算机工程与应用,2012,48(35):1-6. 被引量：9
10陈孟元.基于改进型DTW算法和MFCC的语音识别[J].安徽工程大学学报,2014,29(1):53-57. 被引量：9

引证文献6

1张明键,张悦.基于语谱图HOG特征的两步法长沙话说话人识别[J].信息技术与信息化,2020(8):188-192. 被引量：1
2张明键,张悦.基于语谱图和深度置信网络的方言自动辨识与说话人识别[J].电子技术与软件工程,2020(14):151-154. 被引量：1
3乐妍.基于人工神经网络无监督聚类方法的青少年体质综合评价模型研究[J].江苏科技信息,2020,37(33):76-79.
4汪兰兰,蔡昌新.基于改进线性预测基音频率的语音情感识别系统[J].科学技术与工程,2022,22(26):11524-11532. 被引量：4
5马志举,杜庆治,龙华,邵玉斌.基于改进语谱图的深度学习说话人识别[J].现代电子技术,2023,46(21):32-38. 被引量：1
6万玫汐,王华朋,闫道申,刘鹏展,许铭洋.基于改进ECAPA-TDNN的法庭自动说话人识别[J].科学技术与工程,2024,24(27):11763-11773.

二级引证文献7

1梁小林,沈湘菲,梁曌,邱海琳.基于CTC-GRU模型的长沙方言识别[J].吉首大学学报（自然科学版）,2022,43(2):45-52.
2袁瑛,周洲.侦查语言学的发展与展望[J].贵州警察学院学报,2022,34(5):77-84.
3房小绵.基于语音识别的英语智能对话机器人人机交互系统设计[J].自动化与仪器仪表,2023(4):225-228. 被引量：6
4毕忠勤,李欢峰,张伟娜,董真.基于域泛化的工业设备无监督异常声音检测算法[J].科学技术与工程,2024,24(3):1091-1099.
5韩西,梁凯,岳宇.基于音频匹配的藏语驱动视觉语音合成算法研究[J].吉林大学学报（信息科学版）,2024,42(3):509-515.
6钱兴维,张祥.基于深度学习的声纹识别语音唤醒技术优化研究[J].电声技术,2024,48(6):53-55.
7王嘉文,高定国,索朗曲珍,尼琼.基于特征提示的跨语种语音识别模型[J].科学技术与工程,2024,24(24):10348-10355.

1张扬,陈磊,刘钦,韩春雷.一种基于证据推理的自适应聚类算法[J].现代导航,2019,10(2):119-124.
2赵文艳.到央视网享体育“大餐”[J].声屏世界（广告人）,2009(11):133-135.
3张亚明,王丹丹,苏妍嫄.创新生态系统视域下河北特色小镇培育研究[J].经济与管理,2018,32(6):39-44. 被引量：7
4彭志强.年终展望:2018新经济圈的那6个关键词[J].商业观察,2018,0(1):38-41.
5闫河,董莺艳,王鹏,罗成,李焕.基于CNN-LSTM网络的声纹识别研究[J].计算机应用与软件,2019,36(4):166-170. 被引量：19
6缪裕青,邹巍,刘同来,周明,蔡国永.基于参数迁移和卷积循环神经网络的语音情感识别[J].计算机工程与应用,2019,55(10):135-140. 被引量：31
7朱树明,王凤随,程海鹰.HEVC压缩域的视频摘要关键帧提取方法[J].信号处理,2019,35(3):481-489. 被引量：9
8张天赫,彭绍雄,邹强,王栋.无监督神经网络的潜艇对空战术意图识别[J].现代防御技术,2018,46(2):122-129. 被引量：6
9岳有军,李媛媛,王红君,赵辉.温室下无线传感器网络簇首选择算法[J].江苏农业科学,2017,45(22):233-235.
10唐霞,张晨曦,李江峰.基于深度学习的音乐情感识别[J].电脑知识与技术,2019,15(4Z):232-237. 被引量：8

科学技术与工程

2019年第15期

浏览历史

内容加载中请稍等...

基于特征语谱图和自适应聚类SOM的快速说话人识别被引量：6

参考文献24

二级参考文献135

共引文献162

同被引文献56

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于特征语谱图和自适应聚类SOM的快速说话人识别 被引量：6

参考文献24

二级参考文献135

共引文献162

同被引文献56

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于特征语谱图和自适应聚类SOM的快速说话人识别被引量：6