摘要
为了解决目前说话人时间定位的跟踪方法中只采用音频特征的缺陷,本文提出了一种联合音视频的方法:首先采用视频信息,确定要跟踪的说话人的潜在目标,然后使用音频信息对潜在目标进行进一步的判决,最后完成说话人跟踪。实验结果表明,该方法避免了只使用音频信息需要为每个说话人进行改变检测和判决的缺点,联合音视频信息比单独使用视频信息在说话人正确跟踪率方面提高了33.65%,在说话人漏跟踪率方面二者是一样的。
出处
《网络安全技术与应用》
2015年第4期80-80,82,共2页
Network Security Technology & Application