期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于场景表示中对象特征语法分析的视频描述 被引量:1
1
作者 付燕 王咪咪 叶鸥 《计算机工程与设计》 北大核心 2023年第2期488-493,共6页
为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场... 为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场景表示模型,描述视觉特征间的依赖关系;构建视觉对象特征语法分析模型,分析对象特征在描述语句中的语法成分;解码阶段结合语法分析结果和LSTM网络模型,输出视频描述语句。所提方法在MSVD和MSR-VTT数据集进行实验,结果表明,该方法在不同评价指标方面性能较好,视频描述语句的语法结构清晰。 展开更多
关键词 视频描述 编码器-解码器模型 特征提取 自注意力机制 对象特征 视觉场景表示 语法分析
下载PDF
融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法
2
作者 周非 周志远 +1 位作者 张宇曈 谢源远 《电子与信息学报》 EI CAS 2024年第11期4178-4187,共10页
目前,传统显式场景表示的同时定位与地图构建(SLAM)系统对场景进行离散化,不适用于连续性场景重建。该文提出一种基于神经辐射场(NeRF)的混合场景表示的深度相机(RGB-D)SLAM系统,利用扩展显式八叉树符号距离函数(SDF)先验粗略表示场景,... 目前,传统显式场景表示的同时定位与地图构建(SLAM)系统对场景进行离散化,不适用于连续性场景重建。该文提出一种基于神经辐射场(NeRF)的混合场景表示的深度相机(RGB-D)SLAM系统,利用扩展显式八叉树符号距离函数(SDF)先验粗略表示场景,并通过多分辨率哈希编码以不同细节级别表示场景,实现场景几何的快速初始化,并使场景几何更易于学习。此外,运用外观颜色分解法,结合视图方向将颜色分解为漫反射颜色和镜面反射颜色,实现光照一致性的重建,使得重建结果更加真实。通过在Replica和TUM RGB-D数据集上进行实验,Replica数据集场景重建完成率达到93.65%,相较于Vox-Fusion定位精度,在Replica数据集上平均领先87.50%,在TUM RGB-D数据集上平均领先81.99%。 展开更多
关键词 同时定位与地图构建系统 神经辐射场 混合场景表示 镜面反射
下载PDF
动态三维场景重建研究综述
3
作者 黄家晖 穆太江 《图学学报》 CSCD 北大核心 2024年第1期14-25,共12页
三维重建技术旨在通过传感器输入,恢复所观测场景的数字化三维表示,是计算机图形学与视觉领域的重要研究方向,在可视化、模拟、路线规划等各类任务上都有重要应用。相比于静态场景,动态场景额外引入了时间维度,对应的重建任务不仅需要... 三维重建技术旨在通过传感器输入,恢复所观测场景的数字化三维表示,是计算机图形学与视觉领域的重要研究方向,在可视化、模拟、路线规划等各类任务上都有重要应用。相比于静态场景,动态场景额外引入了时间维度,对应的重建任务不仅需要重构每帧细节几何,还需刻画目标随着时间变化的趋势与关联关系用于下游分析任务,为重建算法设计带来了更大的挑战。然而,目前学界就动态场景重建的讨论依然仅处于起步阶段,且关于现有方法的系统性总结也较为欠缺。为了填补上述空缺、进一步启发算法设计,对学界当前最新的动态三维场景重建技术进行整理和归纳,对动态三维场景重建问题及其通用求解框架进行一般性的定义,从动态三维表示方式、优化框架方面对已有技术进行综述,并针对结构化的特殊场景讨论对应的重建方法与处理方式。最终,介绍相关数据集,并对动态三维场景重建现存的问题进行分析总结,对未来工作进行展望。 展开更多
关键词 动态三维重建 研究综述 动态场景表示 三维建模 结构化场景
下载PDF
基于3D卷积神经网络的MPI新视点合成算法 被引量:1
4
作者 霍智勇 魏俊宇 +1 位作者 郭权 陈奕杭 《南京邮电大学学报(自然科学版)》 北大核心 2023年第5期77-82,共6页
多平面图像(Multiplane Image, MPI)能够构造出一种以相机为中心、按深度分层的三维场景显式表示,用于新视点合成研究与应用。由于MPI生成预测网络在训练时不能有效捕获深度平面间遮挡区域的空间特征,使得MPI合成的新视点图像往往存在... 多平面图像(Multiplane Image, MPI)能够构造出一种以相机为中心、按深度分层的三维场景显式表示,用于新视点合成研究与应用。由于MPI生成预测网络在训练时不能有效捕获深度平面间遮挡区域的空间特征,使得MPI合成的新视点图像往往存在明显的伪影和扭曲。为此提出利用3D卷积神经网络捕捉深度平面间的空间特征,用于提高对平面图像几何结构和Alpha值的预测能力,从而实现高质量MPI场景表示和新视点合成目标。在两个数据集上的数值实验表明,算法在窄基线视点外推和宽基线多视点内插任务中能够有效消除合成新视点图像中的伪影和扭曲。当参考视点水平基线宽度增大一倍且不增加MPI深度平面数量时,算法仍然能够有效地预测出不同深度平面的遮挡区域信息,从而保证了视点内插合成图像的质量。 展开更多
关键词 多平面图像 场景表示 视点图像合成 3D卷积神经网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部