高性能汉语数码串语音识别被引量：9

High Performance Mandarin Digit String Speech Recognition

下载PDF

导出

摘要本文给出了一个高性能汉语数码串非特定人连续语音识别系统 ,其声学模型基于Mel倒谱系数和连续HMM ,识别时采用多候选帧同步搜索算法 ,并采用了MCE算法进行训练以提高系统的区分能力 ,实验证明该系统的识别率为 94 8% (不定长数字串 )和 96 8% (定长数字串 ) .为增强系统的实用性 ,本文还研究了基于MAP算法的说话人自适应算法和基于置信度的拒识算法 .在进行自适应后 ,误识率可相对下降 40 %以上 ,在拒绝掉 5 %的正确语音时 ,系统识别率可以上升到 96 9% (不定长数字串 )和 98 7% (定长数字串 ) . A high performance mandarin digit string speaker-independent speech recognition system is given. The acoustic model is based on the Mel Frequency Cepstrum Coefficient and the continuous hidden Markov model (HMM). The multi-candidate frame synchronous search algorithm is adopted in the recognition stage with the MCE algorithm as the training approach. Experiments demonstrate that the correct recognition rate of the system is 94.8% (unknown length) and 96.8% (known length). In order to enhance the flexibility of the system, this paper also conduct research on the maximum a posteriori (MAP) based speaker adaptation and confidence measure based rejection. More than 40% recognition errors can be removed after adaptation and the recognition rate can be improved to 96.9% (unknown length) and 98.7% (known length) when 5% of the correct results are rejected.

作者李虎生刘加刘润生

机构地区清华大学电子工程系

出处《电子学报》 EI CAS CSCD 北大核心 2001年第5期595-599,共5页 Acta Electronica Sinica

基金国家自然科学基金! (No .699750 0 7) 国家 863项目! (No .863 30 6ZD1 3 0 4 6)

关键词汉语数码串语音识别语音信号处理 Acoustic signal processing Algorithms Mathematical models

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1李虎生,刘加,刘润生.高性能汉语数码语音识别算法[J].清华大学学报（自然科学版）,2000,40(1):32-34. 被引量：20
2李虎生,杨明杰,刘润生.汉语数码语音识别自适应算法[J].电路与系统学报,1999,4(2):1-6. 被引量：4
3赵庆卫,肖熙,王作英.段长信息在连续语音识别中的应用研究[J].声学学报,2000,25(2):175-181. 被引量：5

二级参考文献14

1齐士钤张家禄.汉语普通话辅音音长分析[J].声学学报,1982,(1):8-13.
2王作英曹洪.语音识别的改进隐含马尔可夫模型.863智能计算机系统主题学术会议[M].北京,1988..
3计天颖.一种汉语连续语音识别的算法及其实现.博士学位论文[M].清华大学,1995..
4Anastasakos A，ICASSP95，1995年，628页
5计天颖，博士学位论文，1995年
6Gu H，IEEE Trans On Signal Processing，1991年，39卷，8期，1743页
7王作英，863智能计算机系统主题学术会议，1988年
8齐士钤，声学学报，1982年，7卷，1期，8页
9Hung W，EuroSpeech97，1997年，1519页
10赵庆卫，清华大学学报，1997年，37卷，12期，87页

共引文献26

1刘海滨,吴镇扬,赵力,曾毓敏.噪声环境下基于最大后验非线性变换的隐马尔可夫模型自适应算法[J].声学学报,2004,29(5):467-471. 被引量：4
2徐国庆,杨丹,王彬洁,文俊浩.乐音识别方法及应用[J].计算机应用,2005,25(4):968-970. 被引量：9
3张静亚.基于CHMM的高性能连续数字语音识别算法[J].常熟理工学院学报,2005,19(2):93-96. 被引量：4
4徐国庆,杨丹,王彬洁,文俊浩.FRED和DWT在乐音音符识别中的应用研究[J].计算机工程与应用,2005,41(18):191-193. 被引量：5
5丰洪才,卢正鼎.基于置信度的无监督说话人自适应语音识别[J].计算机工程与科学,2005,27(9):93-96. 被引量：1
6王守觉,潘晓霞,徐春燕,陈旭,安冬,曹文明.一种基于高维空间覆盖动态搜索方法的非特定人连续数字语音识别的研究[J].电子学报,2005,33(10):1790-1793. 被引量：7
7王守觉,徐春燕,潘晓霞,安冬,陈旭,曹文明.为连续语音识别用的单词音节神经网络建模的研究[J].电子学报,2005,33(10):1883-1885. 被引量：4
8刘振安,孙捷,王晋军.小词汇量非特定人语音识别在嵌入式系统中的应用[J].计算机工程,2006,32(11):213-215. 被引量：5
9赵蕤,王作英.语音识别中信道和噪音的联合补偿[J].声学学报,2006,31(5):466-470. 被引量：11
10王欢良,韩纪庆,李海峰,郑铁然.基于HMM/SVM两级结构的汉语易混淆语音识别[J].模式识别与人工智能,2006,19(5):578-584. 被引量：4

同被引文献43

1关存太,陈永彬,吴伯修.HMM语音识别模型与一种修正训练算法[J].东南大学学报（自然科学版）,1994,24(1):17-24. 被引量：2
2姚天任.数字语音处理[M].武汉:华中理工大学出版社,1994.27-47.
3俞铁城周健来宋岩涛.基于神经网络/隐马尔可夫模型的混合语音识别方法的研究现状[A]..第5届全国人机语音通讯学术会议论文集[C].哈尔滨,1998.18～21.
4RabinerL JuangBH.Fundamentals of speech recognition[M].北京：清华大学出版社,1999.200-240.
5LEVINSON S E, RABINER L R, SONDHI M M. An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition [J]. The Bell System Technical Journal, 1983, 62 (4): 1 035 - 1 074.
6Y Nonnandin et al.High-performance connected digit recognition using maximum mutual information estimation[J].lEEE Trans Speech and Audio Processing, 1994 ; 2 (2) : 299-311.
7Katagiri S, Lee C H. A new HMM/LVQ hybrid algorithm for speech recognition [A]. Proc IEEE Globecom'90[C]. San Diego, CA, 1990. 1032-1036.
8Ramesh P, Katagiri S, Lee C H. A new connected word recognition algorithm based on HMM/LVQ segmentation and LVQ classification[A]. Proc IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP'91) [C].Toronto, Ontario, Canada, 1991. 113-116.
9Bahl L R, Brown P F, deSouza P V, et al. Maximum mutual information estimation[ A]. In:IEEE Proc ICASSP'86. Tokyo.
10Nphraim Y, Demho A. Rabiner L. A minimum discrimination approach for Hidden Markov Modeling[A]. In : IEEE Proc ICASSP' 88. New York.

引证文献9

1丁昊,姚天任.基于mel标度频谱和音素分割的汉语语音单词端点检测方法[J].计算机与数字工程,2005,33(3):57-59. 被引量：3
2毕文军,高健.语音人机界面标引系统的实现[J].微计算机信息,2005,21(4):232-233. 被引量：9
3唐赟,刘文举,徐波.基于后验概率解码段模型的汉语语音数字串识别[J].计算机学报,2006,29(4):635-641. 被引量：12
4张培玲,王福忠,刘群坡.连续数码串语音识别系统的MATLAB实现[J].河南理工大学学报（自然科学版）,2009,28(2):211-216.
5汤霖,蔡莲红.基于层级策略的连续数字串识别的研究[J].计算机工程与应用,2003,39(21):83-86.
6邓伟,赵翊兰.一种基于HMM的动态语音模式时间归一化方法[J].数据采集与处理,2003,18(3):277-281. 被引量：2
7汤霖,蔡莲红.训练方法对汉语数字串识别率影响的研究[J].湘潭大学自然科学学报,2003,25(3):16-20.
8张翼燕,刘文举,徐波.分段模型在解码假设检验中的应用[J].中文信息学报,2004,18(1):70-77.
9黄秋安,姜波,汪秉文.基于有限状态机的汉语数字语音端点检测[J].湖北大学学报（自然科学版）,2004,26(1):35-38. 被引量：4

二级引证文献30

1茹海峰,殷业.基于与图像相结合的语音端点检测方法研究[J].仪器仪表学报,2005,26(z1):600-603. 被引量：1
2朱玉颖,程强.一种语音信号端点检测法的FPGA实现[J].软件导刊,2010,9(5):194-195.
3魏晨.透过澳洲电信看电信投资管理[J].信息网络,2005(12):5-6. 被引量：1
4曾武,舒万能.网上阅卷平台中的VLAN技术研究与应用[J].微计算机信息,2005,21(12X):113-115. 被引量：3
5宋健,王直杰,张珏.基于Windows CE.NET下的GPRS模块的研究与开发[J].微计算机信息,2006,22(02Z):86-88. 被引量：3
6危水根,陈震,杨声云.基于SPCE061A的发酵罐内温度控制[J].微计算机信息,2006(03Z):39-40. 被引量：2
7毛建东.基于LabVIEW的单片机数据采集系统的设计[J].微计算机信息,2006(03Z):41-42. 被引量：24
8朱志伟,周志光,刘定良.设计基于TMS320LF2407的低功耗中文人机界面[J].微计算机信息,2006(04Z):124-126. 被引量：1
9王兴斌,王炳锡.一种有效的N-Best算法及其在中文语音识别中的应用[J].微计算机信息,2006,22(06X):301-303.
10李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1

1钟明辉,曹乃文,黄汉明,郑建华,陈芽玲.基于连续HMM的汉语数码语音识别系统[J].广西物理,2007,28(4):24-26. 被引量：4
2刘媛,方景林,翁松怡,曹继华.基于DSP技术的汉语数码语音识别系统[J].仪器仪表学报,2003,24(z1):537-539.
3赵力,邹采荣,吴镇扬.基于FVQ/HMM的无教师说话人自适应[J].电子学报,2002,30(7):967-969. 被引量：1
4朱璇,李虎生,刘加,刘润生.高性能汉语数码串快速识别算法的研究[J].计算机研究与发展,2001,38(7):845-850. 被引量：5
5赵力,刘怡龙,邹采荣,高西奇,吴镇扬.基于VQ-HMM的无教师说话人自适应方法[J].东南大学学报（自然科学版）,2001,31(2):23-26. 被引量：1
6杨鸿武,赵涛涛.一种基于加权Mel倒谱的语音信号共振峰提取算法[J].西北师范大学学报（自然科学版）,2014,50(1):53-57. 被引量：6
7模式识别[J].电子科技文摘,2001,0(9):118-119.
8朴兴哲.语音合成库的建立与汉语数码语音识别途径[J].石油化工高等学校学报,1997,10(1):45-48.
9徐文盛,戴蓓倩,方绍武,陆伟.特定人汉语数码语音抗噪识别方法[J].电路与系统学报,2000,5(2):58-61. 被引量：1
10赵丽华,王鹏宇.基于Matlab的非时域端点检测算法的实现与分析[J].科学技术与工程,2010,10(35):8822-8825.

电子学报

2001年第5期

浏览历史

内容加载中请稍等...

高性能汉语数码串语音识别被引量：9

参考文献3

二级参考文献14

共引文献26

同被引文献43

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

高性能汉语数码串语音识别 被引量：9

参考文献3

二级参考文献14

共引文献26

同被引文献43

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

高性能汉语数码串语音识别被引量：9