摘要
计算机自动语音识别中的热门话题之一就是怎样利用语音学的知识来提高识别的正确率。在早期的数字语音识别中,2与8经常容易混淆,曾经被视为一个难题。该文试图通过对这个具体案例的分析,探讨语音学特征知识在识别中的应用问题。采用声学和生理实验以及感知实验相结合的方法,探讨了2与8的区别性语音学特征及其在二者识别中的作用。结果表明:2与8的最大差异是声调,在缺乏声调信息的情况下,第3共振峰(F3)的差异是决定性的区别特征,而它们的第1(F1)和第2共振峰(F2)非常近似,在识别上没有太大作用。早期的自动识别恰恰忽略了声调这个最最显著的区别特征;而在自然语流中、尤其是非正式的语体中,有些2发音时舌尖运动不够到位,因而导致它与8的第3共振峰差异不十分明显,这些是识别中二者常常混淆的主要原因。由此可见,在自动语音识别中,加强对语音学特征知识的了解是个迫在眉睫的任务,在系统中充分地综合利用这些区别性特征信息,是提高识别率的有效途径。
One key topic in automatic speech recognition(ASR) systems is how to enhance the recognition accuracy by utilizing phonetic knowledge.Early Chinese number speech recognition system had difficulty discriminating 2 and 8.This paper discusses the application of phonetic knowledge in ASR through an analysis of this specific case.This study uses acoustical and physiological experiments combined with a set of perception tests to investigate the distinctive phonetic features for distinguishing 2 and 8.The results ...
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期748-753,共6页
Journal of Tsinghua University(Science and Technology)
基金
中国社会科学院语音与自然话语处理重点学科项目
关键词
计算机
自动语音识别
语音学知识
感知
声调
基频
声谱图
共振峰
computer
automatic speech recognition(ASR)
phonetic knowledge
perception
tone
fundamental frequency(F0)
spectrogram
formant