期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
三维卷积神经网络及其在视频理解领域中的应用研究 被引量:1
1
作者 白静 杨瞻源 +1 位作者 彭斌 李文静 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2273-2283,共11页
3维卷积神经网络(3D CNN)是近几年来深度学习研究中的热点,在计算机视觉领域取得了诸多成就。虽然研究多年且成果丰富,但目前仍缺少关于此内容全面、细致的综述。基于此,该文从以下几个方面对其进行综述:首先阐述3维卷积神经网络的基本... 3维卷积神经网络(3D CNN)是近几年来深度学习研究中的热点,在计算机视觉领域取得了诸多成就。虽然研究多年且成果丰富,但目前仍缺少关于此内容全面、细致的综述。基于此,该文从以下几个方面对其进行综述:首先阐述3维卷积神经网络的基本原理和模型结构,接着从网络结构、网络内部和优化方法总结3维卷积神经网络的相关改进工作,然后对3维卷积神经网络在视频理解领域中的应用进行总结,最后总结全文内容并对未来发展方向进行展望。该文针对3维卷积神经网络的最新研究进展以及在视频理解领域中的应用进行了系统的综述,对3维卷积神经网络的研究发展具有一定的积极意义。 展开更多
关键词 视频理解 深度学习 3维卷积神经网络 网络结构
下载PDF
一种基于动态时序划分的视频理解方法
2
作者 董淑慧 《电脑知识与技术》 2023年第36期19-21,共3页
近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描... 近年来,随着语言-视觉模型的快速发展,结合视觉编码器和大语言模型进行视频理解的方法极大超越了传统的视频行为分类模型。由于大语言模型可以很好地进行信息的归纳和推理,因此可以将视频帧的特征输入大语言模型,从而得到每一帧的场景描述,最终整理成一个视频的详细信息。尽管上述方法可以得到一个视频非常详尽的描述,但是却忽略了视频中不同场景的重要性,从而无法准确理解视频中的关键信息。文章提出了一种基于动态时序划分的视频理解方法,首先根据场景对视频进行切片,然后通过一个自适应的重要性评估网络计算每个视频切片的重要性得分,最后基于重要性得分将每个视频切片的特征进行加权平均得到最终的视频特征。相较于直接提取视频特征的方法,该方法所获取的视频特征结合了不同视频片段的重要性,更容易理解视频中的关键信息。该方法在多个视频理解基准上进行实验,均获得5%~10%的提升,充分证明了该方法在视频理解中的有效性。 展开更多
关键词 语言-视觉模型 动态时序划分 视频切片 视频理解
下载PDF
有、无字幕两种版本的不同观看顺序对视频理解效果的实证研究 被引量:7
3
作者 陈毅萍 周密 《现代教育技术》 CSSCI 2010年第10期89-92,共4页
多媒体技术的发展使英文电影赏析成为促进大学英语教学的有效手段,而英文字幕也成为一种有效的用于提高EFL学生的视频理解水平的工具。通过测试和访谈,文章探讨了字幕对EFL学生视频理解的影响以及有、无字幕的两种版本不同的观看顺序对... 多媒体技术的发展使英文电影赏析成为促进大学英语教学的有效手段,而英文字幕也成为一种有效的用于提高EFL学生的视频理解水平的工具。通过测试和访谈,文章探讨了字幕对EFL学生视频理解的影响以及有、无字幕的两种版本不同的观看顺序对学生视频理解的不同效果,并提出教师应根据学生的不同特点,科学合理地把字幕运用于教学的观点。 展开更多
关键词 字幕 视频理解 播放顺序
下载PDF
视频理解中的动作质量评估方法综述 被引量:2
4
作者 张洪博 董力嘉 +3 位作者 潘玉彪 萧宗志 张惠臻 杜吉祥 《计算机科学》 CSCD 北大核心 2022年第7期79-88,共10页
视频中动作质量的评估指对视频中人物对象的动作质量进行评价,如计算动作质量分数、等级或者不同人物表现的优劣,是视频理解和计算机视觉研究中的一个重要方向。从动作质量分数预测、等级分类以及水平排序3个方面对视频中的动作质量评... 视频中动作质量的评估指对视频中人物对象的动作质量进行评价,如计算动作质量分数、等级或者不同人物表现的优劣,是视频理解和计算机视觉研究中的一个重要方向。从动作质量分数预测、等级分类以及水平排序3个方面对视频中的动作质量评估方法进行总结,然后对这些方法在目前常用数据集上的表现进行分析,最后讨论未来研究中亟待解决的问题。 展开更多
关键词 视频理解 行为质量评估 质量分数预测 等级分类 水平排序
下载PDF
字幕的不同呈现方式对外语学习者视频理解效果的影响 被引量:9
5
作者 王电建 《电化教育研究》 CSSCI 北大核心 2012年第5期85-90,共6页
通过测试三种不同字幕呈现方式对外语学习者视频整体理解和词汇理解效果的影响,探究不同字幕的呈现方式对语言水平不同的外语学习者的作用。结果表明:(1)汉语全字幕最有利于外语学习者对整个视频的理解,英文全字幕对低年级的学生帮助大... 通过测试三种不同字幕呈现方式对外语学习者视频整体理解和词汇理解效果的影响,探究不同字幕的呈现方式对语言水平不同的外语学习者的作用。结果表明:(1)汉语全字幕最有利于外语学习者对整个视频的理解,英文全字幕对低年级的学生帮助大于英语关键词字幕,而对于高年级的学生不明显;(2)英语关键词字幕最有利于外语学习者对词汇的理解;(3)在视频内容理解上,关键词字幕更适合语言水平高的学生,而对语言水平低的学生几乎没有作用;(4)字幕呈现方式的选择有赖于学习目的和学生的外语水平。 展开更多
关键词 字幕 关键词字幕 外语学习者 视频理解
下载PDF
深度网络对比学习及其视频理解应用研究综述 被引量:1
6
作者 胡正平 刘文亚 +2 位作者 毛建增 郑智鑫 方鑫 《燕山大学学报》 CAS 北大核心 2022年第4期283-296,共14页
无监督表示学习能够避免耗时且昂贵的数据标记,因此获得了极大的关注。其中的对比学习方法只需在抽象语义级别的特征空间上学习数据的区分便能使模型学习到良好的表征,被预测为人工智能的未来。无监督对比学习利用自身数据生成的伪标签... 无监督表示学习能够避免耗时且昂贵的数据标记,因此获得了极大的关注。其中的对比学习方法只需在抽象语义级别的特征空间上学习数据的区分便能使模型学习到良好的表征,被预测为人工智能的未来。无监督对比学习利用自身数据生成的伪标签作为监督信息学习样本数据的特征表达,并用于下游任务,其次核心思想是把正样本对距离拉近,正样本与负样本距离拉远。本文首先总结常用的预训练任务,然后梳理无监督对比学习在视频领域的通用框架,并对框架的各个组件及其分类进行说明,同时列举常用于评估视频表征质量的下游任务,并对其性能进行分析。之后对视频理解中的对比学习进行举例说明,最后讨论对比学习所面临的挑战和未来研究方向。 展开更多
关键词 对比学习 无监督学习 视频理解 深度网络
下载PDF
字幕类型对英语视频理解及词汇习得的影响
7
作者 吴雪梅 《海外英语》 2016年第7期17-19,共3页
多媒体技术的发展丰富了大学英语教学手段,英语视频越来越多地被使用于课堂教学,因而英语字幕也成为一种很好的用于提高学生视听说水平的工具。通过实验测试、问卷和访谈,文章探讨了不同类型字幕对英语视频理解及伴随性词汇习得效果的影... 多媒体技术的发展丰富了大学英语教学手段,英语视频越来越多地被使用于课堂教学,因而英语字幕也成为一种很好的用于提高学生视听说水平的工具。通过实验测试、问卷和访谈,文章探讨了不同类型字幕对英语视频理解及伴随性词汇习得效果的影响,研究结果表明,全字幕加凸显关键词对阅读理解的影响最佳,而关键词字幕对伴随性词汇习得的效果最好。文章根据研究结果提出教师应根据学生的实际水平,合理地把字幕应用于教学的观点。 展开更多
关键词 字幕类型 英语 视频理解 伴随性词汇习得 影响
下载PDF
基于多属性学习的航拍视频理解
8
作者 刘欣宜 《科学技术创新》 2022年第4期41-44,共4页
近年来,无人机迅猛地发展并普及所产生的大量视频,为航拍视频理解带来了前所未有的机遇和挑战。由于现有的绝大多数航拍视频数据集都是单标签标注的,不能细致地描述复杂的无人机视频场景,多属性学习的任务也无法加以实现,例如多标签视... 近年来,无人机迅猛地发展并普及所产生的大量视频,为航拍视频理解带来了前所未有的机遇和挑战。由于现有的绝大多数航拍视频数据集都是单标签标注的,不能细致地描述复杂的无人机视频场景,多属性学习的任务也无法加以实现,例如多标签视频分类。因此,在本文中,我们设计、创建、展示和验证了第一个多属性无人机视频数据库,即"Multiattribute ERA"数据库。我们从地面目标、环境特征和人类情感三个方面入手,找到28个具有代表性的视频属性,并对来自ERA数据库的2864个时长5秒、分属25个事件类的视频进行多属性标注。在此基础上,我们设计并实现了基于多属性学习的多标签视频分类任务,即在该数据库上评估了4种当前处在计算机视觉领域内前沿、基于深度卷积神经网络的视频分类方法。实验结果表明,我们提出的"Multi-attribute ERA"数据库,是可以补充当下各单标签无人机视频数据集局限性的领域内重要基准,无论是在遥感科学领域、还是计算机科学范畴内,都可以作为开发多属性视频学习模型的新挑战,促进视频理解的研究。 展开更多
关键词 多属性航拍视频数据集 航拍视频理解 属性 卷积神经网络 视频分类 无人机
下载PDF
基于视频理解的活体鱼水质监测实验 被引量:4
9
作者 王丽娜 方景龙 《杭州电子科技大学学报(自然科学版)》 2010年第6期33-35,共3页
基于视频理解的活体鱼水质监测实验是生物监测的一个新手段。该实验通过计算机视觉实时、连续地将活体鱼运动转化为视频图像数据,再对视频图像进行运动目标检测与跟踪处理后获取活体鱼的运动轨迹,然后提取理解活体鱼的可以反映水质污染... 基于视频理解的活体鱼水质监测实验是生物监测的一个新手段。该实验通过计算机视觉实时、连续地将活体鱼运动转化为视频图像数据,再对视频图像进行运动目标检测与跟踪处理后获取活体鱼的运动轨迹,然后提取理解活体鱼的可以反映水质污染状况的行为参数,利用视频图像理解技术分析这些行为参数,进而达到评价水质的目的。该实验中,分别监测了活体鱼在正常水质情况和异常水质情况下的运动行为。 展开更多
关键词 活体鱼水质监测 生物监测 计算机视觉 视频图像理解 行为理解
下载PDF
基于双向特征金字塔的密集视频描述生成方法
10
作者 张煜杨 刘茂福 《中国科技论文》 CAS 2024年第2期200-208,共9页
针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横... 针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC)。BFPVC通过带有自底向上、自顶向下、横向链接3条分支的双向特征金字塔强化视频多尺度特征图,兼顾对时序信息、空间信息、语义信息的特征表示,解码器从强化后的视频特征中捕获更加全面的事件候选集,从而为对应的视频事件生成更加丰富、详尽的文本描述。在ActivityNet Captions数据集和YouCook2数据集上的实验结果表明,BFPVC与同类模型相比生成的文本描述更详细、丰富,验证了双向特征金字塔在密集视频描述领域的有效性。 展开更多
关键词 密集视频描述 视频描述 视频理解 特征金字塔 自然语言处理
下载PDF
基于多尺度时空Transformer的视频动态场景图生成模型
11
作者 王朱佳 余宙 +1 位作者 俞俊 范建平 《计算机应用》 CSCD 2024年第1期47-57,共11页
为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留... 为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果。其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题。最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性。实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点。实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能。 展开更多
关键词 动态场景图生成 注意力机制 多尺度建模 视频理解 语义分析
下载PDF
基于ViT与语义引导的视频内容描述生成
12
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 ViT模型 语义引导 长短期记忆网络 注意力机制
下载PDF
视频图像理解在客流统计中的应用 被引量:8
13
作者 梁英宏 王知衍 +1 位作者 曹晓叶 许晓伟 《计算机工程与设计》 CSCD 北大核心 2008年第5期1203-1206,共4页
视频图像理解侧重于对时间序列进行分析,既涉及到图像的空间特性,也涉及到视频序列的时间特性,是目前计算机视觉领域的一个研究热点,而客流统计是视频图像理解的一个重要应用。提出了视频图像理解的层次结构,即视频图像分割、目标识别... 视频图像理解侧重于对时间序列进行分析,既涉及到图像的空间特性,也涉及到视频序列的时间特性,是目前计算机视觉领域的一个研究热点,而客流统计是视频图像理解的一个重要应用。提出了视频图像理解的层次结构,即视频图像分割、目标识别、场景和行为理解,同时对每个层次的操作对象、任务和技术领域进行描述,然后总结了客流统计方法的一些研究成果,将客流统计分成行人计数和人群密度估计两种问题,并利用该层次结构解决这个实际应用。 展开更多
关键词 客流统计 视频图像理解 视频图像分割 行人计数 人群密度估计
下载PDF
视频图像理解的一般性框架研究 被引量:4
14
作者 梁英宏 王知衍 +1 位作者 曹晓叶 许晓伟 《计算机应用研究》 CSCD 北大核心 2008年第7期2203-2207,共5页
视频图像理解侧重于对视频序列进行解释,既涉及到图像的空间特性,也涉及到视频序列的时间特性,是目前计算机视觉领域的一个研究热点。回顾了视频图像理解方法的研究现状,提出视频图像理解的一般性框架,包括层次结构、涉及的技术领域和... 视频图像理解侧重于对视频序列进行解释,既涉及到图像的空间特性,也涉及到视频序列的时间特性,是目前计算机视觉领域的一个研究热点。回顾了视频图像理解方法的研究现状,提出视频图像理解的一般性框架,包括层次结构、涉及的技术领域和应用的系统结构,并以一个实际应用作为示例解释该框架的层次结构。 展开更多
关键词 视频图像理解 视频图像分割 目标识别 行为理解 场景理解
下载PDF
视频群体行为识别综述 被引量:4
15
作者 吴建超 王利民 武港山 《软件学报》 EI CSCD 北大核心 2023年第2期964-984,共21页
群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在共同完成的群体行为.群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中.多人场景视频较... 群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在共同完成的群体行为.群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中.多人场景视频较为复杂,时间和空间上的信息十分丰富,对模型提取关键信息的能力要求更高.模型只有高效地建模场景中的层次化关系,并为人物群体提取有区分性的时空特征,才能准确地识别出群体行为.由于其广泛的应用需求,群体行为识别问题受到了研究人员的广泛关注.对近几年来群体行为识别问题上的大量研究工作进行了深入分析,总结出了群体行为识别研究所面临的主要挑战,系统地归纳出了6种类型的群体行为识别方法,包含传统非深度学习识别方法以及基于深度学习技术的识别方法,并对未来研究的可能方向进行了展望. 展开更多
关键词 群体行为识别 计算机视觉 视频理解 行为识别
下载PDF
视频片段检索研究综述 被引量:1
16
作者 王妍 詹雨薇 +2 位作者 罗昕 刘萌 许信顺 《软件学报》 EI CSCD 北大核心 2023年第2期985-1006,共22页
视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行跨模态信息的对齐与交互,是视... 视频片段检索旨在利用用户给出的自然语言查询语句,在一个长视频中找到最符合语句描述的目标视频片段.视频中包含丰富的视觉、文本、语音信息,如何理解视频中提供的信息,以及查询语句提供的文本信息,并进行跨模态信息的对齐与交互,是视频片段检索任务的核心问题.系统梳理了当前视频片段检索领域中的相关工作,将它们分为两大类:基于排序的方法和基于定位的方法.其中,基于排序的方法又可细分为预设候选片段的方法和有指导地生成候选片段的方法,而基于定位的方法则可分为一次定位的方法和迭代定位的方法.同时对该领域的数据集和评价指标进行了介绍,并对一些模型在多个常用数据集上的性能进行了总结与整理.此外,介绍了该任务的延伸工作,如大规模视频片段检索工作等.最后,对视频片段检索未来的发展方向进行了展望. 展开更多
关键词 视频片段检索 自然语言时序定位视频片段 视频理解 深度学习 人工智能
下载PDF
密集视频描述研究方法综述
17
作者 黄先开 张佳玉 +2 位作者 王馨宇 王晓川 刘瑞军 《计算机工程与应用》 CSCD 北大核心 2023年第12期28-48,共21页
密集视频描述是视频理解的重要分支之一,也是计算机视觉与自然语言处理领域交叉的热点研究方向。其主要目的是对包含丰富事件的视频进行针对内容的事件定位,并将其描述为人类日常沟通所用的自然语言。与生成单句描述文本的传统视频描述... 密集视频描述是视频理解的重要分支之一,也是计算机视觉与自然语言处理领域交叉的热点研究方向。其主要目的是对包含丰富事件的视频进行针对内容的事件定位,并将其描述为人类日常沟通所用的自然语言。与生成单句描述文本的传统视频描述任务相比,密集视频描述的输入视频不再需要进行针对单一事件的裁剪,输出描述文本为针对视频内多个事件的描述段落。简要概述了密集视频描述方法的基本原理及存在问题,并总结了该领域主要面临的研究困难与挑战;对目前主流的密集视频描述方法,依照其对实现流程不同阶段分为基于事件建议、基于编码、基于解码、加入其他辅助模型,以及基于整体流程等五种类别,分别介绍其实现方式及优缺点;对本领域相关数据集以及评价方式进行总结,并对不同方法在相关数据集上的评价结果进行对比;简要讨论密集视频描述技术及其应用的未来发展方向。 展开更多
关键词 密集视频描述 视频描述 视频理解 计算机视觉 自然语言处理
下载PDF
基于深度学习的视频人体动作识别综述
18
作者 毕春艳 刘越 《图学学报》 CSCD 北大核心 2023年第4期625-639,共15页
随着网络多媒体技术的快速发展和视频采集设备的不断完善,越来越多的视频被共享到网络平台,视频逐渐占据了人类生活,因此视频理解已成为计算机视觉研究的热点之一。作为视频理解的首要任务,对动作识别的研究具有重要的意义。目前基于深... 随着网络多媒体技术的快速发展和视频采集设备的不断完善,越来越多的视频被共享到网络平台,视频逐渐占据了人类生活,因此视频理解已成为计算机视觉研究的热点之一。作为视频理解的首要任务,对动作识别的研究具有重要的意义。目前基于深度学习的二维图像识别分类方法已经取得了较大的进展,但是视频动作识别仍面临着巨大挑战。其原因在于视频和二维图像相差一个时间维度,对视频中行走、跑步、跳高和跳远等动作的理解不仅需要二维图像所具有的空间语义信息,还需要时序信息。因此,如何利用视频的时序信息对动作识别非常重要。首先介绍了动作识别的研究背景以及发展过程,分析了当前视频动作识别所面临的挑战,然后详细介绍了时序建模及参数优化的方法,分析了常用的动作识别数据集和度量参数,最后对未来的研究方向进行了展望。 展开更多
关键词 动作识别 视频理解 深度学习 卷积神经网络 计算机视觉
下载PDF
基于图像和视频信息的社交关系理解研究综述 被引量:5
19
作者 王正 吴斌 +4 位作者 王文哲 滕一阳 帅杰 肖云鹏 白婷 《计算机学报》 EI CAS CSCD 北大核心 2021年第6期1168-1199,共32页
随着多媒体技术的快速发展,互联网上涌现了大量的文本、图像、视频、音频等多媒体数据.多媒体数据的特点表现为形式上多源异构、语义上互相联系.基于多媒体信息的社交关系理解是利用各种手段和方法从海量异构的多媒体数据中挖掘出有价... 随着多媒体技术的快速发展,互联网上涌现了大量的文本、图像、视频、音频等多媒体数据.多媒体数据的特点表现为形式上多源异构、语义上互相联系.基于多媒体信息的社交关系理解是利用各种手段和方法从海量异构的多媒体数据中挖掘出有价值的信息,帮助人们快速地理解多媒体信息中的社交关系,促进多媒体内容理解、人物追踪、知识图谱的构建等多媒体数据检索和智能商业服务的发展.图像和视频是多媒体信息的重要组成部分,基于图像和视频信息的社交关系理解研究逐渐引起了学术界和工业界的广泛关注.本文主要对近年来基于图像和视频信息的社交关系理解的分类和研究现状进行总结.首先,给出问题定义并对基于图像和视频信息的社交关系理解过程进行介绍.其次,从图像和视频两个角度概括总结社交关系理解的主要研究现状.然后,在介绍已有的图像和视频数据集的基础上,对现有的主要算法进行比较分析.最后,对基于图像和视频信息的社交关系理解中的主要问题和挑战作进一步阐述.本文旨在为感兴趣的研究人员提供有益的参考,帮助其更全面地了解基于图像和视频信息的社交关系理解的研究现状,推动该领域的进一步发展. 展开更多
关键词 多媒体特征抽取 图像内容理解 视频内容理解 社交关系理解 多元关系判定 社交理解应用
下载PDF
跨媒体语义关联增强的网络视频热点话题检测
20
作者 张承德 刘雨宣 +1 位作者 肖霞 梅凯 《计算机研究与发展》 EI CSCD 北大核心 2023年第11期2624-2637,共14页
跨媒体网络视频热点话题检测成为新的研究热点.然而,描述视频的文本信息较少,使得文本语义特征空间稀疏,导致文本语义特征间关联强度较弱,增加了挖掘热点话题的难度.现有方法主要通过视觉信息丰富文本语义特征空间.然而,由于视觉与文本... 跨媒体网络视频热点话题检测成为新的研究热点.然而,描述视频的文本信息较少,使得文本语义特征空间稀疏,导致文本语义特征间关联强度较弱,增加了挖掘热点话题的难度.现有方法主要通过视觉信息丰富文本语义特征空间.然而,由于视觉与文本信息间的异构性,导致同一话题下文本与视觉语义特征差异较大,这进一步降低了同一话题下文本语义间的关联强度,也给跨媒体网络视频热点话题检测带来巨大挑战.因此,提出一种新的跨媒体语义关联增强方法.首先,通过双层注意力,从单词和句子2个级别捕捉文本核心语义特征;其次,通过理解视觉内容,生成大量与视频内容高度相关的文本描述,丰富文本语义空间;然后,分别通过文本语义相似性和视觉语义相似性,构建文本语义图和视觉语义图,并构造时间衰减函数,从时间维度建立跨媒体数据间的相关性,以此增强文本与视觉语义间的关联强度,平滑地将2种语义图融合为混合语义图,实现跨媒体语义互补;最后,通过图聚类方法检测出热点话题.大量实验结果表明,提出的模型优于现有方法. 展开更多
关键词 跨媒体 网络视频 话题检测 视频理解 语义关联增强
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部