针对现有中文句子级唇语识别技术存在的视觉歧义、特征提取不充分导致识别准确率偏低的问题,提出了一种基于时域卷积网络,采用三维时空卷积的中文句子级唇语识别算法——3DT-CHLipNet(Chinese LipNet based on 3DCNN,TCN)。首先,针对特...针对现有中文句子级唇语识别技术存在的视觉歧义、特征提取不充分导致识别准确率偏低的问题,提出了一种基于时域卷积网络,采用三维时空卷积的中文句子级唇语识别算法——3DT-CHLipNet(Chinese LipNet based on 3DCNN,TCN)。首先,针对特征提取不充分的问题,所提算法采用了比长短期记忆网络(LSTM)感受野更大的时域卷积网络(temporal convolutional network,TCN)来提取长时依赖信息;其次,针对中文唇语识别中存在的“同型异义”视觉歧义问题,将自注意力机制应用于中文句子级唇语识别,以更好地捕获上下文信息,提升了句子预测准确率;最后,在数据预处理方面引入了时间掩蔽数据增强策略,进一步降低了算法模型的错误率。在最大的开源汉语普通话句子级数据集CMLR上的实验测试表明,与现有中文句子级唇语识别代表性算法相比,所提算法的识别准确率提高了2.17%至23.99%。展开更多
现有的M ean Sh ift跟踪方法使用单一半径参数来描述目标大小变化,每个目标仅有位置和尺寸两个自由度,因而不能适应复杂的目标运动情况。文中提出新的M ean Sh ift跟踪方法,该方法引入带宽矩阵来描述目标尺寸,能够在水平和垂直两个方向...现有的M ean Sh ift跟踪方法使用单一半径参数来描述目标大小变化,每个目标仅有位置和尺寸两个自由度,因而不能适应复杂的目标运动情况。文中提出新的M ean Sh ift跟踪方法,该方法引入带宽矩阵来描述目标尺寸,能够在水平和垂直两个方向上独立描述目标大小变化,并加入目标倾角,使得目标旋转运动得以很好描述。实验表明,该算法能够准确跟踪序列图像中的任意复杂运动,尤其对目标的缩放、旋转运动有良好的适应性。展开更多
鉴于现有的M ean Sh ift跟踪方法都是使用单一半径参数来描述目标大小变化,且每个目标仅有位置和尺寸两个自由度,因而不能适应复杂的目标运动情况。针对该问题,首先提出了一种新的M ean Sh ift跟踪方法,由于该方法是通过引入带宽矩阵来...鉴于现有的M ean Sh ift跟踪方法都是使用单一半径参数来描述目标大小变化,且每个目标仅有位置和尺寸两个自由度,因而不能适应复杂的目标运动情况。针对该问题,首先提出了一种新的M ean Sh ift跟踪方法,由于该方法是通过引入带宽矩阵来描述目标尺寸,因此能够在水平和垂直两个方向上独立描述目标的大小变化,并通过加入目标倾角,使得目标旋转运动得以很好描述;然后借鉴了三步搜索的思想,提出了一种快速搜索策略,以解决目标遮挡问题。实验表明,该算法能够准确跟踪序列图像中的任意复杂运动,尤其对目标的缩放、旋转运动以及遮挡有良好的适应性。展开更多
文摘针对现有中文句子级唇语识别技术存在的视觉歧义、特征提取不充分导致识别准确率偏低的问题,提出了一种基于时域卷积网络,采用三维时空卷积的中文句子级唇语识别算法——3DT-CHLipNet(Chinese LipNet based on 3DCNN,TCN)。首先,针对特征提取不充分的问题,所提算法采用了比长短期记忆网络(LSTM)感受野更大的时域卷积网络(temporal convolutional network,TCN)来提取长时依赖信息;其次,针对中文唇语识别中存在的“同型异义”视觉歧义问题,将自注意力机制应用于中文句子级唇语识别,以更好地捕获上下文信息,提升了句子预测准确率;最后,在数据预处理方面引入了时间掩蔽数据增强策略,进一步降低了算法模型的错误率。在最大的开源汉语普通话句子级数据集CMLR上的实验测试表明,与现有中文句子级唇语识别代表性算法相比,所提算法的识别准确率提高了2.17%至23.99%。
文摘现有的M ean Sh ift跟踪方法使用单一半径参数来描述目标大小变化,每个目标仅有位置和尺寸两个自由度,因而不能适应复杂的目标运动情况。文中提出新的M ean Sh ift跟踪方法,该方法引入带宽矩阵来描述目标尺寸,能够在水平和垂直两个方向上独立描述目标大小变化,并加入目标倾角,使得目标旋转运动得以很好描述。实验表明,该算法能够准确跟踪序列图像中的任意复杂运动,尤其对目标的缩放、旋转运动有良好的适应性。
文摘鉴于现有的M ean Sh ift跟踪方法都是使用单一半径参数来描述目标大小变化,且每个目标仅有位置和尺寸两个自由度,因而不能适应复杂的目标运动情况。针对该问题,首先提出了一种新的M ean Sh ift跟踪方法,由于该方法是通过引入带宽矩阵来描述目标尺寸,因此能够在水平和垂直两个方向上独立描述目标的大小变化,并通过加入目标倾角,使得目标旋转运动得以很好描述;然后借鉴了三步搜索的思想,提出了一种快速搜索策略,以解决目标遮挡问题。实验表明,该算法能够准确跟踪序列图像中的任意复杂运动,尤其对目标的缩放、旋转运动以及遮挡有良好的适应性。