多模式语音端点检测被引量：6

Multimodal voice activity detection

导出

摘要在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。 In speech recognition systems, the frame energy based voice activity detection （VAD） method may be affected by interterance trom background noise and non-stationary characteristics of the frame energy in the voice segment. This paper presents a model to improve the performance and robustness of VAD by introducing visual intormation, Data driven linear transtormations are used for visual teature extraction with a general statistical VAD model and a two stage fusion strategy in a muhimodal VAD system. Experiments show a 55.0% reduction in the trame error rate and a 98.5%. reduction in sentence breaking error rate with the multimodal VAD as compared to the frame energy-based audio VAD. The results show thai muhimodal method eliminates most sentence breaking errors, and improves trame detection pertormance.

作者刘鹏王作英

机构地区清华大学电子工程系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2005年第7期896-899,共4页 Journal of Tsinghua University(Science and Technology)

基金国家"八六三"高技术项目(2001AA114071)

关键词语音识别语音端点检测多模式 speech recognition voice activity detection multimodal

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1Lamel L F,Rabiner L R,Rosenberg A E,et al.An improved endpoint detector for isolated word recognition [J].IEEE Trans Acoust,Voice,Signal Processing,1981,29(8):777-785.
2Shen J L,Hung J W,Lee L S.Robust entropy based endpoint detection for voice recognition in noisy environments [A].Proc 4th Int Conf on Spoken Language Processing (ICSLP'96) [C].Philadelphia:IEEE,1996.881-884.
3CHEN Tsuhan.Audiovisual speech processing [J].IEEE Signal Processing Magazine,2001,18(1):921.
4Kirby M,Sirovich L.Application of the Karhunen-Loeve procedure for the characterization of human faces [J].IEEE Trans Pattern Analysis and Machine Intelligence,1990,12(1):103-108.
5Nelder J A,Mead R.A simplex method for function optimization [J].Comput J,1965,7(4):308-313.
6Tanyer S G,Ozer H.Voice activity detection in nonstationary noise [J].IEEE Trans Acoust,Voice,Signal Processing,2000,8(7):478-482.
7TIAN Ye,WU Ji,WANG Zuoying,et al.Fuzzy clustering and Bayesian information criterion based threshold estimation for robust voice activity detection [A].Proc 2003 IEEE Int Conf on Acoustic,Speech,and Signal Processing (ICASSP'03) [C].Hong Kong:IEEE,2003.444-447.

同被引文献142

1刘红星,戴蓓蒨,陆伟.基于共振峰谐波能量的语音端点检测[J].清华大学学报（自然科学版）,2008,48(S1):754-759. 被引量：11
2肖述才,王作英.端点检测中的一种新的对数能量特征[J].电声技术,2004,28(6):37-41. 被引量：12
3于迎霞,史家茂.一种改进的基于倒谱特征的带噪端点检测方法[J].计算机工程,2004,30(19):85-87. 被引量：13
4栗学丽,丁慧,徐柏龄.基于熵函数的耳语音声韵分割法[J].声学学报,2005,30(1):69-75. 被引量：34
5丁琦,徐望,王炳锡.基于模糊分类器的能量可变噪声环境下的词边界检测[J].电声技术,2003,27(5):45-49. 被引量：1
6邝航宇,张军,韦岗.一种基于检测元音的孤立词端点检测算法[J].电声技术,2005,29(3):40-43. 被引量：5
7朱淑琴,裘雪红.一种精确检测语音端点的方法[J].计算机仿真,2005,22(3):214-216. 被引量：15
8陈振标,徐波.基于子带能量特征的最优化语音端点检测算法研究[J].声学学报,2005,30(2):171-176. 被引量：22
9李明远,李建东.基于相关性的语音激活检测器[J].电声技术,1995,19(11):6-9. 被引量：2
10胡瑞敏,薛东辉,姚天任,黄铁侠.神经网络方法及其在语音识别中的应用[J].高技术通讯,1995,5(6):11-15. 被引量：5

引证文献6

1刘华平,李昕,徐柏龄,姜宁.语音信号端点检测方法综述及展望[J].计算机应用研究,2008,25(8):2278-2283. 被引量：40
2姜占才,孙燕,王得芳.基于复合能量和自适应阈值的语音端点检测[J].计算机工程与科学,2010,32(4):136-138. 被引量：1
3韩立华,王博,段淑凤.语音端点检测技术研究进展[J].计算机应用研究,2010,27(4):1220-1226. 被引量：39
4顾亚强,赵晖,吴波.一种语音信号端点检测的改进方法[J].计算机仿真,2010,27(5):340-343. 被引量：13
5李皓,唐朝京.基于循环自相关函数的浊音端点检测[J].计算机工程,2011,37(22):5-7. 被引量：1
6王洋,冯瑶,丁喜波,陈德运.基于时频结合的带噪语音端点检测算法[J].黑龙江大学自然科学学报,2016,33(3):410-415. 被引量：2

二级引证文献87

1张昊.基于matlab的连续DTMF信号检测的程序实现[J].福建电脑,2009,25(4):160-161. 被引量：3
2姜干新,陈伟.嵌入式语音识别系统中的DTW在线并行算法[J].计算机应用研究,2010,27(3):977-980. 被引量：5
3程洪炳,雷鸣,李学仁,冀捐灶,李果.飞机舱音信息鲁棒语音端点检测[J].数据采集与处理,2010,25(2):223-227. 被引量：1
4张亚歌,张太镒,夏川.噪声评估在端点检测中的应用[J].计算机技术与发展,2010,20(9):177-180. 被引量：3
5谈雪丹,顾济华,赵鹤鸣,陶智,韩韬,吴俊.基于HHT瞬时能频值的耳语音端点检测[J].计算机工程与应用,2010,46(29):147-150. 被引量：2
6林雪梅.强噪声环境下自适应语音端点检测算法[J].计算机工程与科学,2011,33(1):94-96. 被引量：1
7周夕良.基于不同背景噪声的联合检测技术[J].计算机与现代化,2011(3):153-155.
8王钟斐,王彪,李建文.基于小波包的语音谱熵端点检测方法研究[J].计算机与数字工程,2011,39(4):1-4. 被引量：1
9李灵光.一种时频结合的抗噪性端点检测算法[J].计算机与现代化,2011(8):29-31. 被引量：5
10孙玉,郭宝增.基于SoPC的孤立词语音识别系统的设计[J].微型机与应用,2012,31(2):74-76.

1葛珏.高阶开关电容滤波器设计[J].电子器件,1997,20(1):559-561.
2Parham Aarabi（著）,平利川.基于相位的语音信号处理[J].国外科技新书评介,2006(12):12-13. 被引量：1
3俞斌,贾雅琼.基于DSP的语音信号处理系统中的抗干扰技术[J].国外电子元器件,2006(10):30-32. 被引量：11
4Li Yu Chen Jianming Tan Hongzhou.VOICE ACTIVITY DETECTION UNDER RAYLEIGH DISTRIBUTION[J].Journal of Electronics(China),2009,26(4):552-556. 被引量：1
5张承云,蔡阳生,吴锦铭.现场录音的噪声消除及其DSP实现[J].太原理工大学学报,2010,41(6):700-704.
6何昊青,张雪英.基于谱减法的语音增强方法及其在ARM中的应用[J].电脑开发与应用,2011,24(6):63-64.
7闫盛楠.基于两步式融合重构的压缩频谱检测方法[J].电信科学,2015,31(3):83-88. 被引量：1
8熊莉英,宁宁,吴霜毅,刘源.改进的低功耗两步式ADC结构[J].微计算机信息,2006(05Z):246-247. 被引量：2
9王宏,朱安珏.基于TMS320C50的通用语音信号处理系统[J].电子技术应用,2001,27(3):58-60. 被引量：5
10LI Jie,YOU Datao.Enhanced Speech Based Jointly Statistical Probability Distribution Function for Voice Activity Detection[J].Chinese Journal of Electronics,2017,26(2):325-330. 被引量：1

清华大学学报（自然科学版）

2005年第7期

浏览历史

内容加载中请稍等...

多模式语音端点检测被引量：6

参考文献7

同被引文献142

引证文献6

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

多模式语音端点检测 被引量：6

参考文献7

同被引文献142

引证文献6

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

多模式语音端点检测被引量：6