基于混合注意力机制的视频人体动作识别

Video Human Action Recognition Based on Hybrid Attention Mechanism

下载PDF

导出

摘要 C3D作为一种典型的三维卷积神经网络被应用于视频动作识别任务。针对其存在的特征提取不足、易出现过拟合以及识别准确率较低等问题,提出一种融合混合注意力机制的C3D三维卷积网络模型。在原C3D网络插入由GCNet通道注意力模块和3D-Crisscross空间注意力模块构建的混合注意力模块,这两种注意力网络具有全局上下文建模操作,能够对三维特征建立远程依赖关系,加强网络对视频特征在通道和空间上的特征提取能力,提高模型的分类性能。将所提方法在UCF-101和HMDB-51两个大型视频数据集上进行测试,并与深度学习的其他模型进行比较,结果表明,该方法相对于其他深度学习模型具有相对更高的准确率,在UCF-101和HMDB-51数据集上的识别准确率可以达到96.7%和63.3%,而且与原C3D方法相比在效果上有明显提升。 As a typical three-dimensional convolutional neural network,C3D has been used in video action recognition tasks widely.To address the issues coming with existing C3D based action recognition methods,such as insufficient feature extraction,prone to over fitting,low recognition accuracy,etc.,a new C3D based network model with the introducing of hybrid attention mechanism fusion is proposed.A hybrid attention module constructed by GCNet channel attention module and 3D-Crisscross spatial attention module is inserted into the original C3D network.These two attention networks have global context modeling operations,can establish remote dependencies on 3D features,strengthen the network’s ability to extract video features in channel and space,and improve the classification performance of the model.The performance of proposed method has been tested on two large video datasets,i.e.UCF-101 and HMDB-51,with the comparison to other deep learning models.Experimental results show the proposed method has a higher recognition accuracy than that of other deep learning models.The recognition accuracy of UCF-101 and HMDB-51 data sets can reach 96.7%and 63.3%,with a significant improvement in vision effect compare to original C3D method.

作者朱联祥牛文煜仝文东邵浩杰 ZHU Lian-xiang;NIU Wen-yu;TONG Wen-dong;SHAO Hao-jie(School of Computer Science,Xi’an Shiyou University,Xi’an 710065,China)

机构地区西安石油大学计算机学院

出处《计算机技术与发展》 2023年第9期105-112,共8页 Computer Technology and Development

基金移动通信教育部工程研究中心开放研究项目(cqupt-mct-202006)。

关键词人体动作识别三维卷积神经网络全局上下文建模远程依赖注意力机制 human action recognition three-dimensional convolutional neural network global context modeling long-range dependence attention mechanism

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1钱慧芳,易剑平,付云虎.基于深度学习的人体动作识别综述[J].计算机科学与探索,2021,15(3):438-455. 被引量：34
2杨刚,张宇姝,宋震.人体动作识别与评价——区别、联系及研究进展[J].计算机科学与探索,2022,16(5):991-1007. 被引量：2
3田元,李方迪.基于深度信息的人体姿态识别研究综述[J].计算机工程与应用,2020,56(4):1-8. 被引量：18
4吕淑平,黄毅,王莹莹.基于C3D卷积神经网络人体动作识别方法改进[J].实验技术与管理,2021,38(10):168-171. 被引量：8
5王飞,胡荣林,金鹰.基于3D-CBAM注意力机制的人体动作识别[J].南京师范大学学报（工程技术版）,2021,21(1):49-56. 被引量：6

二级参考文献36

1徐光祐,曹媛媛.动作识别与行为理解综述[J].中国图象图形学报,2009,14(2):189-195. 被引量：50
2梅雪,胡石,许松松,张继法.基于多尺度特征的双层隐马尔可夫模型及其在行为识别中的应用[J].智能系统学报,2012,7(6):512-517. 被引量：6
3黄国范,李亚.人体动作姿态识别综述[J].电脑知识与技术,2013(1):133-135. 被引量：16
4胡琼,秦磊,黄庆明.基于视觉的人体动作识别综述[J].计算机学报,2013,36(12):2512-2524. 被引量：123
5樊景超,周国民.基于Kinect骨骼跟踪技术的手势识别研究[J].安徽农业科学,2014,42(11):3444-3446. 被引量：7
6余亚玲,张华,刘桂华,史晋芳.基于不确定度评价的Kinect深度图预处理[J].计算机应用,2016,36(2):541-545. 被引量：7
7李昕迪,王云龙,何艳,朱国强.基于Kinect的人体单关节点修复算法研究[J].自动化技术与应用,2016,35(4):96-98. 被引量：5
8陈平平,赵阳洋,陈丽兰.大数据在基于Kinect的中风康复训练中的应用[J].软件导刊,2017,16(6):124-126. 被引量：4
9张晓莹,刘莉,赵轩立.竞技健美操难度动作C289不同技术特征的运动学分析[J].北京体育大学学报,2017,40(10):99-105. 被引量：8
10高大鹏,朱建刚.多维度自适应3D卷积神经网络原子行为识别[J].计算机工程与应用,2018,54(4):174-178. 被引量：4

共引文献60

1马双双,王佳,曹少中,杨树林,赵伟,张寒.基于深度学习的二维人体姿态估计算法综述[J].计算机系统应用,2022,31(10):36-43. 被引量：10
2方婷红,董建设,杨正昊,王志凌.基于视频关键帧提取和三维卷积的行为识别[J].天津职业技术师范大学学报,2022,32(4):51-56.
3金聪.基于遗传神经网络的癌症死亡率预测[J].系统工程理论与实践,2000,20(2):141-144. 被引量：4
4常振云,赵琳,屈志文.一种基于压力传感矩阵的AI人体卧姿识别系统的研究[J].数字技术与应用,2020,38(10):144-146.
5陈艳杰,舒大伟,杨吉江,王欢,王青,雷毅.儿童运动协调障碍AI诊断系统研究综述[J].计算机工程与应用,2021,57(2):28-36. 被引量：1
6李震,颜少华,洪添胜,吕石磊.基于深度相机的山地果园运输车避障系统设计[J].中国农机化学报,2021,42(2):115-120. 被引量：4
7周燕,刘紫琴,曾凡智,周月霞,陈嘉文,罗粤.深度学习的二维人体姿态估计综述[J].计算机科学与探索,2021,15(4):641-657. 被引量：22
8龙涛.基于移动机器人和单目视觉的姿态测量方法[J].光学技术,2021,47(2):203-208. 被引量：2
9陈圣楠,范新民.基于多视图半监督集成学习的人体动作识别算法[J].网络与信息安全学报,2021,7(3):141-148. 被引量：1
10万益.基于多模态瑜伽动作姿态检测的设计研究[J].体育研究与教育,2021,36(4):90-96. 被引量：1

1熊新炎,张童.基于Kinect的双流时空卷积人体行为识别技术[J].哈尔滨商业大学学报（自然科学版）,2023,39(4):403-407. 被引量：1
2姜海燕,韩军.基于改进时空异构双流网络的行为识别[J].计算机工程与设计,2023,44(7):2163-2168.
3贾征,陈嘉焌,崔英爱.浅谈发展心理学课程知识模块构建及课程思政实现路径[J].大众文摘,2023(27):117-119.
4贾永乐,周李涌,刘月峰,弓彦章.基于改进双流ResNet网络的人体行为识别算法研究[J].内蒙古科技大学学报,2023,42(2):145-148. 被引量：2
5黄真莉.主流媒体短视频新闻传播探究[J].西部广播电视,2023,44(12):99-101. 被引量：5
6尚媛媛,张琳,曹喆,黄颖.科研人员研究领域变动的三维特征:基于NSFC项目负责人的实证研究[J].图书情报工作,2023,67(16):64-75.
7张润秀,许志伟,云静.多视角边缘设备下的人体行为对比识别方法[J].软件导刊,2023,22(9):79-85.
8张浩霖,张旭,梁昆,金作林,高洁.儿童腺样体肥大的诊断与筛查技术进展现状[J].中华口腔医学研究杂志（电子版）,2023,17(2):123-127. 被引量：2
9王鑫.基于OBE理念的应用型本科设计学类专业人才培养体系研究[J].湖南包装,2023,38(4):181-184. 被引量：3
10阳治民,宋威.结合金字塔和长短期记忆网络的细粒度图像分类[J].小型微型计算机系统,2023,44(8):1771-1776.

计算机技术与发展

2023年第9期

浏览历史

内容加载中请稍等...

基于混合注意力机制的视频人体动作识别

参考文献5

二级参考文献36

共引文献60

相关作者

相关机构

相关主题

浏览历史