结构推理人耳的听觉感知特性有哪些?感知音频编码的基本思想是什么?

【正确答案】人耳能听到的声音频率在20Hz～20kHz范围之内，但是其灵敏度与频率有关，也就是说人耳听到的声音的响度与声音的频率有关。当声音强度减弱到人耳刚刚可以听见时，此时的声压级称为最小可听阈值，简称为“听阈”。一般以1kHz纯音为基准进行测量，人耳刚能听到的声压级为0dB(通常大于0.3dB即有感受)。而当声音增强到使人耳感到疼痛时，这个听觉阈值称为“痛阈”。仍以1kHz纯音为基准来进行测量，使人耳感到疼痛时的声压级为140dB左右。实验表明，人耳对不同频率的声音听阈和痛阈不一样，灵敏度也不一样。人耳的痛阈受频率的影响不大，而听阈随频率变化相当剧烈。人耳对3～4kHz声音最敏感，幅度很小的声音信号都能被人耳听到。而在低频区(如小于800Hz)和高频区(如大于5kHz)，人耳对声音的灵敏度要低得多。
人耳的听觉掩蔽效应是指一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象，主要表现为频率域掩蔽效应和时间域掩蔽效应。所谓频率域掩蔽是指掩蔽音与被掩蔽音同时作用时发生掩蔽效应，又称同时掩蔽。通常，频率域中的一个强音会掩蔽与之同时发声的频率相近的弱音，弱音的频率与强音的频率越接近，一般越容易被掩蔽。除了同时发出的声音之间有掩蔽效应之外，在时间上相邻的声音之间也有掩蔽效应。即在一个强音信号之前或之后的弱音信号，也会被掩蔽掉。这种掩蔽效应称为时间域掩蔽，也称异时掩蔽。时间域掩蔽又分为前掩蔽和后掩蔽。在时间域内，听到强音之前的短暂时间内，已存在的弱音可以被掩蔽而听不到，这种现象称为前掩蔽；当强音消失后，经过较长的持续时间，才能重新听到弱音信号，这种现象称为后掩蔽。
心理声学模型中一个基本的概念就是听觉系统中存在一个最小可听觉阈值(听阈)，强度低于这个听阈的音频信号就听不到，因此就可以把这部分信号忽略掉，不对它进行编码，也不影响听觉效果。心理声学模型中的另一个概念是听觉掩蔽效应。听觉主要是基于对音频信号的短暂频谱分析，在相邻频谱中，人的听觉系统无法感受邻近频谱上一个较强信号所掩蔽的失真，即存在所谓的掩蔽效应。在理想状态下，掩蔽阈值以下的失真是听不见的。于是人们从两方面着手研究音频编码：一是如何精确地计算出掩蔽阈值(即获得“心理声学模型”)；二是如何从音频信号中仅仅提取可听信息而加以处理，将人耳不能感知的声音成分去掉，只保留人耳能感知的声音成分，在量化时也不一味追求最小的量化噪声，只要量化噪声不被人耳感知即可。理想情况下，经一个音频编码器压缩后，引入的失真恰好在掩蔽阈值之下。这样，既实现了音频数据压缩的目的，又不影响解码端重建音频信号的主观听觉质量。

【答案解析】