混响环境中的视-听语音识别被引量：3

Audio-Visual Speech Recognition in Reverberant Environments

下载PDF

导出

摘要针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法。通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列。首先对ROI图像进行离散余弦变换,提取反映说话人唇动的视觉特征。音频特征的提取,则采用较为成熟的Mel频率倒谱系数(MF-CC)方法。对所获取的视、音特征采用隐马尔可夫模型作为训练识别算法。测试实验结果证明,采用视、听特征相结合的方法,有效地提高了混响环境中的语音识别率。 The speech recognition rate in reverberant environments declines sharply compared with that in quiet environ- ments. This paper proposed a method which combines visual features with audio features. The ROI image sequence is ob- tained by rapidly detection and location of the region of interest （R01） which contains speaker＇ s mouth area. Firstly, the extraction of visual features is performed by discrete cosine transform which is calculated from image of ROI. The MFCCs are extracted as the audio features. The HMM is used for training and recognition. The experimental results have shown that the method can effectively improve the recognition rate in reverberation conditions.

作者万书婷曾向阳王强

机构地区西北工业大学

出处《电声技术》 2012年第12期42-45,共4页 Audio Engineering

基金陕西省自然科学基金(2012JM1010) 西北工业大学研究生创业种子基金(Z2012008)

关键词语音识别混响视-听特征融合隐马尔可夫模型 speech recognition reverberation audio-visual integration Hidden Markov Model（ HMM ）

分类号 TN912 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1吴佳栋,陈光冶.语音信号去混响原理与技术[J].电声技术,2006,30(5):63-67. 被引量：9
2POTAMIANOS G, NETI C. Recent advances in the automatic recognition of audio-visual speech [ J ]. Proc of the IEEE, 2003,91 (9) :1306 - 1326.
3CHALOUPKA J ,NOUZA J ,ZDANSKY J. Audio-visual voice command recognition in noisy conditions[ C ]//AVSP. Moreton Island, Australia: [ s. n. ] ,2008.
4MATI'HEW I. Features for audio-visual speech recognition [D]. England: University of East Anglia, 1998.
5HECKMANN M, KROSCHEL K. DCT-based video features for audio-visual speech recognition [ C ]//Proc. of Inter. Conf. on Spoken Language Processing, ICSLP. Denver Colorado: [ s. n. ],2002 : 1925 - 1928.
6何俊,张华.一种唇读嘴唇的实时检测方法[C]//第26届中国控制会议.张家界:[出版者不详],2007:516-520.
7CHEN Q. Multimodel biometric personal identification based on data fusion[ D]. Hangzhou :Zhejiang University,2007.
8丁世飞,靳奉祥,王健,王孝莹.一种新的基于信息论的PCA特征压缩算法[J].小型微型计算机系统,2004,25(4):694-697. 被引量：7

二级参考文献25

1姜旦.信息论[M].合肥：中国科技大学出版社,1987.14-96.
2COLE D,MOODY M,SRIDHARAN S.Intelligibility of reverberant speech enhanced by inversion of room response[C].International Symposium on Speech,Image Processing and Neural Networks,1994:13-16.
3MIYOSHI M,KANEDA Y.Inverse filtering of room acoustics[J].IEEE Trans.ASSP,1988,36(2):145-152.
4WALSH J P.On limitations of minimum mean-square error deconvolution in deriving impulse response of rooms[J].J.Acoust.Soc.Amer.,1985,77(2):547-556.
5OPPENHEIM A V,SCHAFER R W.Digital signal proeessing[M].Prentice Hall Inc.,1975.
6BEES D,BLOSTEIN M,KABAL P.Reverberant speech enhancement using cepstral processing[C].IEEE ICASSP-91,1991:977-980.
7WU M.A One-microphone algorithm for reverberant speech enhancement[J].Proc.of ICASSP,2003,1:92-95.
8NAKATANI T.Blind dereverberation of single channel speech signal based on harmonic structure[J].Proc.of ICASSP,2003,1:892-895.
9LANAGAN J L F,JOHNSTON J D,ZAHN R.Computer-steered microphone arrays for sound transduction in large room[J].J.Acoust.Soc.Amer.,1985,78(5):1 508-1518.
10ALLEN J B.Short term spectral analysis,synthesis,and modification by discrete Fourier transform[J].IEEE Trans.Acoust.Speech Signal Process.,1977,25:235-238.

共引文献14

1刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
2张德会,陈光冶.复倒谱域语音信号去混响研究[J].声学技术,2009,28(1):39-44. 被引量：11
3刘海峰,王元元,姚泽清,张述祖.文本分类中基于散度差的线性特征抽取方法[J].计算机工程与设计,2009,30(7):1749-1752.
4邹华彬.双指标信息显著相似序列聚类分析桂附地黄丸、金匮肾气丸无水乙醇提取物红外指纹图谱[J].中国中药杂志,2009,34(18):2325-2330. 被引量：14
5沈希忠,孟光.单通道的语音盲去混响[J].上海交通大学学报,2010,44(2):229-233. 被引量：7
6廖启鹏,孔荣,沈圆圆,顾济华,赵鹤鸣,陶智.基于最小相位分解的语音去混响[J].通信技术,2011,44(6):78-82. 被引量：4
7贾伟宽,丁世飞,许新征,苏春阳,史忠植.基于Shannon熵的因子特征提取算法[J].模式识别与人工智能,2011,24(3):327-331. 被引量：9
8李云红,李子琳.基于DSP的语音识别系统设计[J].纺织高校基础科学学报,2012,25(1):107-110. 被引量：3
9张军丽.基于散度分析的模拟图像信号特征选择[J].计算机仿真,2015,32(1):434-437.
10钟林波,吉建华,文小军,王艳芬,伍守豪.基于角度预估计的声源定位MUSIC算法实验研究[J].计算机工程与应用,2015,51(2):205-208. 被引量：3

同被引文献22

1梁刘红,富亮,薛向阳.电视节目自动分割算法[J].计算机研究与发展,2004,41(9):1514-1520. 被引量：1
2樊星,顾伟康,叶秀清.多媒体会议中的快速实时自适应混音方案研究[J].软件学报,2005,16(1):108-115. 被引量：18
3蔡必强.视频会议中混音技术研究[J].现代电子技术,2006,29(20):85-87. 被引量：7
4田破荒,李弼程,彭天强.一种有效的视频文字提取方法[J].电视技术,2007,31(10):87-89. 被引量：1
5RASHEED Z,SHEIKH Y,SHAH M. On the use of computable features for fihn classification[ J ]. IEEE Transactions on Circuits and Systems for Video Technology ,2005,15 ( 1 ) :52~34.
6LIU Zhu, HUANG Jincheng, WANG Yao. Classification of "IV programs based on audio information using hidden Markov model[ C]//Proc. IEEE Signal Processing Society Workshop on Multimedia Signal Processing. [ S. I. ] :IEEE Press,1998:27-32.
7WANG Jinqiao, DUAN Lingyu, LIU Qingshan, et al. A muhimodal scheme for program segmentation and representation in broadcast video stream[ J ]. IEEE Trmlsactions on Multimedia,2008,10( 3 ) :393-408.
8LIU Z,HUANG Q. Adaptive anchor detection using on-line trained audi- o/visual model[ C ]//Proc. SPIE. San Jose,CA : [ s. n. ] ,2000:156-167.
9博客园.KinectforWindowsSDK开发人门(六):骨骼追踪基础上[EB/OL].[2013-05-10].http://www.cnblogs.com/yangecnu/archive/2012/04/06/KinectSDK-Skeleton-Tracking_Partl.html.
10博客园.KinectforWindowsSDK开发入门(十二):语音识别上[EB/OL].[2013-05-10].http://www.cnborgs.com/yangecnu/archive/2012,05,03,KinectSDKSpeechRecognition-partl.html.

引证文献3

1张大宝,彭天强.基于音视频模板匹配的新闻视频识别方法[J].电视技术,2013,37(23):238-240. 被引量：1
2殷晓虎,周娟,张静.基于会议系统混音算法的研究与应用[J].电声技术,2014,38(3):53-55. 被引量：2
3曾云,陈盈盈,张岳.基于人体识别的在线虚拟试衣系统[J].电视技术,2014,38(11):206-210. 被引量：10

二级引证文献13

1泮雯雯,郭佳囡,赵秀积,杨晓东.基于Web的网络试衣间系统[J].计算机时代,2015(5):35-37. 被引量：1
2韩芳,李英琳.日趋实用化的三维虚拟服装设计与试衣系统[J].山东纺织经济,2015,32(5):35-37. 被引量：8
3孙超,许圆圆.新媒体背景下在线试衣的现实应用[J].科技创新与应用,2016,6(27):51-52. 被引量：1
4罗达明,刘威.自动虚拟试衣系统的设计与实现[J].信息技术,2017,41(5):38-41. 被引量：2
5吴丽.基于民间元素的个性化服装软件设计[J].自动化与仪器仪表,2017(6):152-154. 被引量：1
6赵文杰,陈磊,郑全普,刘镇瑜,霍烁烁.虚拟语音会议系统设计与实现[J].软件导刊,2018,17(1):132-134. 被引量：1
7苏卓,喻春阳.基于2D图像变换的虚拟试衣算法[J].计算机技术与发展,2018,28(2):24-26. 被引量：4
8柯芝锦,何源丰,郑浩航,吕思成.基于Kinect的动态虚拟试衣系统构建[J].电子技术与软件工程,2015(11):98-100. 被引量：1
9李天峰.基于多媒体技术的三维人物图像动态重构[J].现代电子技术,2018,41(9):68-71. 被引量：3
10葛名立.基于FPGA的语音数据交换控制处理及应用[J].电子设计工程,2019,27(12):189-193. 被引量：2

1王晓芳,杨荣荣.整数小波变换和EZW编码在基于ROI图像渐进传输中应用研究[J].计算机应用与软件,2007,24(1):137-139. 被引量：1
2一言.SONYMDR-1RNC[J].现代音响技术,2013(7):78-78.
3樊巧云,何博.基于灰度值分割的感兴趣区域图像压缩算法[J].现代电子技术,2013,36(2):13-15.
4陶子正,戴逸民.基于TMS320c55x电子耳蜗语音增强的实现[J].电子产品世界,2001,8(10):39-40.
5Zhang Ying.Face and Lip Tracking For Person Identification[J].China Communications,2010,7(6):141-144. 被引量：1
6刘号,董育宁.基于SPIHT的ROI图像压缩编码新算法[J].南京邮电大学学报（自然科学版）,2011,31(1):70-75. 被引量：4
7邓海涛,邓家先,邓小梅.一种基于EZW的ROI图像联合压缩加密算法[J].电视技术,2013,37(9):45-51. 被引量：4
8刘建通.基于Kinect的听障人士语言能力康复辅助系统[J].现代计算机,2016,22(5):92-95. 被引量：1
9孙宝印,周强,朱俊杰,倪赛华,陶智,顾济华.基于改进增益函数的电子耳蜗语音增强[J].计算机工程,2014,40(8):237-241. 被引量：1
10沈美玲.基于人眼视觉特性的ROI渐进编码算法[J].信息技术,2012(4):113-116.

电声技术

2012年第12期

浏览历史

内容加载中请稍等...

混响环境中的视-听语音识别被引量：3

参考文献8

二级参考文献25

共引文献14

同被引文献22

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

混响环境中的视-听语音识别 被引量：3

参考文献8

二级参考文献25

共引文献14

同被引文献22

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

混响环境中的视-听语音识别被引量：3