多模态特征融合与多任务学习的特种视频分类被引量：5

Special video classification based on multitask learning and multimodal feature fusion

下载PDF

导出

摘要特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题,本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先,提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征;然后,构建具有语义保持的共享特征子空间,以实现音视频多种模态特征的融合;最后,提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架,设计了对应的损失函数,实现了端到端的特种视频智能识别。实验结果表明,本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%,优于已有研究。结果证明了该算法的有效性,有助于提升特种视频监控的智能化水平。 Classification of special videos is significant for intelligent surveillance of internet content.Existing algorithms that fuse multimodal features forclassification of special videoscannot measure multimodal audio-visual semantic correspondence.An algorithm for recognizing special videos based on multimodal audio-visual feature fusion was proposed herein over the framework of multitask learning.First,audio semantic features and spatial-temporal visual semantic cues,including appearance and motion,were extracted.A latent subspace to fuse audio and visual features whilst preserving their semantic information was learned and developed through jointly learning audio-visual semantic correspondence and special video classification.Subsequently,a multitask learning loss function was presented viacombination of the correspondence loss,obtained based on the measured audio-visual semantic information,and the cross-entropy loss of special video classification.Finally,an end-to-end intelligent system for special video recognition was implemented.Experimental results demonstrate that the accuracy of the proposed algorithm is 97.97%with respect to the Violent Flow dataset,and the average accuracy is 39.76%with respect to the Media Eval VSD 2015 dataset,where by the algorithm outperforms the other existing methods.These results show that the proposed algorithm is effective for improving the intelligence of network content surveillance.

作者吴晓雨顾超男王生进 WU Xiao-yu;GU Chao-nan;WANG Sheng-jin(School of Information and Communication,University of China,Beijing 100024,China;Department of Electronic Engineer,Tsiinghua University,Beijing 100084,China)

机构地区中国传媒大学信息与通信工程学院清华大学电子工程系

出处《光学精密工程》 EI CAS CSCD 北大核心 2020年第5期1177-1186,共10页 Optics and Precision Engineering

基金国家自然科学基金资助项目(No.61801441) 北京信息科学与技术国家研究中心跨媒体智能专项资助(No.BNR2019TD01022) “北京市高精尖”学科建设项目(中国传媒大学互联网信息学科) 中国传媒大学中央高校基本科研业务费专项资金资助项目(No.CUC2019B066,No.CUC18A002-2)。

关键词特种视频识别特征提取多模态特征融合语义一致性度量多任务学习 special video recognition feature extraction multimodal feature fusion semantic correspondence measurement multitask learning

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1马晓晨,韦世奎,蒋翔,李晓飞.基于相机溯源的潜在不良视频通话预警[J].光学精密工程,2018,26(11):2785-2794. 被引量：2
2崔鑫,彭宗举,陈芬.联合多特征的未来视频快速编码[J].光学精密工程,2019,27(4):990-999. 被引量：2
3潘仙张,张石清,郭文平.多模深度卷积神经网络应用于视频表情识别[J].光学精密工程,2019,27(4):963-970. 被引量：19

二级参考文献12

1蒋刚毅,杨小祥,彭宗举,郁梅,邵枫,陈芬.高效视频编码的快速编码单元深度遍历选择和早期编码单元裁剪[J].光学精密工程,2014,22(5):1322-1330. 被引量：10
2王晓涛,王绪安,康宁.CCD摄像机新型光控技术研究[J].红外与激光工程,2016,45(1):189-194. 被引量：14
3潘卫军,贺强民,刘涛,肖龙.CCD信号自适应采样方法的研究和实现[J].红外与激光工程,2016,45(5):283-287. 被引量：4
4张晨,孙世磊,石文轩,王峰,邓德祥.工业线阵CCD相机系统测试与噪声评估[J].光学精密工程,2016,24(10):2532-2539. 被引量：18
5周同雪,朱明.视频图像中的运动目标检测[J].液晶与显示,2017,32(1):40-47. 被引量：26
6孙宏海,何舒文,吴培,王延杰.高动态科学级CMOS相机设计与成像分析[J].液晶与显示,2017,32(3):240-248. 被引量：15
7熊昌镇,单艳梅,郭芬红.结合主体检测的图像检索方法[J].光学精密工程,2017,25(3):792-798. 被引量：17
8刘智,黄江涛,冯欣.构建多尺度深度卷积神经网络行为识别模型[J].光学精密工程,2017,25(3):799-805. 被引量：31
9陆牧,朱明,高扬,张刘.基于元胞自动机的动态背景运动目标检测[J].光学精密工程,2017,25(7):1934-1940. 被引量：6
10李宇,刘雪莹,张洪群,李湘眷,孙晓瑶.基于卷积神经网络的光学遥感图像检索[J].光学精密工程,2018,26(1):200-207. 被引量：39

共引文献20

1刘媛媛,张硕,于海业,王跃勇,王佳木.基于语义分割的复杂场景下的秸秆检测[J].光学精密工程,2020,28(1):200-211. 被引量：18
2王中宇,倪显扬,尚振东.利用卷积神经网络的自动驾驶场景语义分割[J].光学精密工程,2019,27(11):2429-2438. 被引量：33
3何翔,杨爱军,黎健生,罗海燕,陈彩云.光伏用电致发光缺陷检测仪空间分辨率的量化评估[J].光学精密工程,2020,28(3):542-547. 被引量：5
4刘恋秋.基于深度卷积生成对抗网络的图像识别算法[J].液晶与显示,2020,35(4):383-388. 被引量：6
5陈彦彤,李雨阳,吕石立,王俊生.基于深度语义分割的多源遥感图像海面溢油监测[J].光学精密工程,2020,28(5):1165-1176. 被引量：11
6杨军,党吉圣.采用深度级联卷积神经网络的三维点云识别与分割[J].光学精密工程,2020,28(5):1187-1199. 被引量：18
7李云红,李弘昊,文达,魏凡粟,郭新新,周小计.卷积循环神经网络的光学晶格中超冷原子动量分布预测[J].光学精密工程,2020,28(7):1480-1484. 被引量：2
8党宏社,王淼,张选德.基于深度学习的面部表情识别方法综述[J].科学技术与工程,2020,20(24):9724-9732. 被引量：12
9祁昌平,祁昌禹,万晓龙.基于面部特征激光光点定位的人脸识别方法研究[J].激光杂志,2020,41(10):77-81. 被引量：4
10明悦,王绍颖,范春晓,周江婉.对齐特征表示的跨模态人脸识别[J].光学精密工程,2020,28(10):2311-2322. 被引量：4

同被引文献27

1王建林,付雪松,黄展超,郭永奇,王汝童,赵利强.改进YOLOv2卷积神经网络的多类型合作目标检测[J].光学精密工程,2020,28(1):251-260. 被引量：23
2夏颖.基于多模态话语分析理论的大学生自主学习模式研究——以大学英语课程为例[J].黑龙江高教研究,2016,34(9):138-141. 被引量：11
3朱铮宇,邱华愉,杨春玲,王泳.基于特定韵母发音事件分析的语音唇动一致性判决方法[J].华南理工大学学报（自然科学版）,2020,48(1):139-146. 被引量：4
4何飞,孟雨璇,田维维,王熙月,何凌,尹恒.基于多延迟四阶累积量倍频程谱线的腭裂语音咽擦音自动检测算法[J].计算机科学,2020,47(1):144-152. 被引量：4
5张威,翟明浩,黄子龙,李巍,曹毅.SE-MCNN-CTC的中文语音识别声学模型[J].应用声学,2020,39(2):223-230. 被引量：10
6吴鹏飞,凌震华.基于多普勒雷达的发音动作检测与命令词识别[J].小型微型计算机系统,2020,41(2):426-430. 被引量：5
7闻佳,王宏君,邓佳,刘鹏飞.基于深度学习的异常事件检测[J].电子学报,2020,48(2):308-313. 被引量：14
8刘娟宏,胡彧,黄鹤宇.端到端的深度卷积神经网络语音识别[J].计算机应用与软件,2020,37(4):192-196. 被引量：31
9范丽丽,赵宏伟,赵浩宇,胡黄水,王振.基于深度卷积神经网络的目标检测研究综述[J].光学精密工程,2020,28(5):1152-1164. 被引量：106
10刘建伟,丁熙浩,罗雄麟.多模态深度学习综述[J].计算机应用研究,2020,37(6):1601-1614. 被引量：40

引证文献5

1陈莹,朱宇.模态自适应权值学习机制下的多光谱行人检测网络[J].光学精密工程,2020,28(12):2700-2709. 被引量：4
2段文婷.英语对话机器人发音标准性检测方法[J].自动化与仪器仪表,2022(11):210-215. 被引量：2
3吴晓雨,蒲禹江,王生进,刘子豪.基于语义嵌入学习的特类视频识别[J].电子学报,2023,51(11):3225-3237.
4李娜,王迎超,秦立浩,黄涛,李佳乐.基于轻量级神经网络的暴力视频分类方法研究[J].信息技术与信息化,2024(3):204-207.
5胡翰林,冯瑞.多模态学习的研究进展与趋势:跨学科的透视[J].黑龙江高教研究,2024,42(6):148-154.

二级引证文献6

1郝帅,何田,马旭,杨磊,孙思雅.动态特征优化机制下的跨尺度红外行人检测[J].光学精密工程,2022,30(19):2390-2403. 被引量：5
2王钊,解文彬,文江.基于YOLO的多模态特征差分注意融合行人检测[J].计算机系统应用,2023,32(4):329-338. 被引量：1
3彭晓风,徐宏亮.基于音视频特征的多模态英语发音纠错模型研究[J].皖西学院学报,2023,39(3):123-129. 被引量：1
4杨雪霁.面向多人语音识别的对话系统研究[J].自动化与仪器仪表,2023(8):286-290. 被引量：2
5刘珂琪,董绵绵,郜辉,吕志刚,郭宝亿,庞敏.基于光照感知权重融合的多模态行人检测算法[J].激光与光电子学进展,2023,60(16):137-147.
6郭保青,张德芬.基于度量元学习的铁路小样本入侵目标检测方法[J].光学精密工程,2023,31(12):1816-1826. 被引量：2

1李梁华,王永雄.高效3D密集残差网络及其在人体行为识别中的应用[J].光电工程,2020,47(2):19-29. 被引量：4
2胡正平,张瑞雪,张璇,李淑芳,赵梦瑶.TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络[J].信号处理,2020,36(1):58-66. 被引量：6
3贾经纬,唐俊.可交换矩阵和反可交换矩阵的几个性质[J].内蒙古科技大学学报,2019,38(4):307-309. 被引量：1
4顾兆军,任怡彤,刘春波,王志.基于一致性预测算法的内网日志检测模型[J].信息网络安全,2020(3):45-50. 被引量：10
5陈明.贸易竞争对中国农产品质量提升的实证分析[J].价值工程,2020,39(9):17-19.
6周双双,宋慧慧,张开华,樊佳庆.基于增强语义与多注意力机制学习的深度相关跟踪[J].计算机工程,2020,46(2):279-285.
7院外医保支付被疫情打通[J].中国药店,2020,0(3):4-4.
8刘政怡,段群涛,石松,赵鹏.基于多模态特征融合监督的RGB-D图像显著性检测[J].电子与信息学报,2020,42(4):997-1004. 被引量：16
9马绍覃,张鸿.基于PCA的哈希图像检索算法[J].计算机工程与设计,2020,41(2):483-487. 被引量：3
10王德真.基于流程组态的微电网系统多指标非线性控制建模研究[J].绥化学院学报,2020,40(3):157-160.

光学精密工程

2020年第5期

浏览历史

内容加载中请稍等...

多模态特征融合与多任务学习的特种视频分类被引量：5

参考文献3

二级参考文献12

共引文献20

同被引文献27

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

多模态特征融合与多任务学习的特种视频分类 被引量：5

参考文献3

二级参考文献12

共引文献20

同被引文献27

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

多模态特征融合与多任务学习的特种视频分类被引量：5