期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
Depth-Guided Vision Transformer With Normalizing Flows for Monocular 3D Object Detection
1
作者 Cong Pan Junran Peng Zhaoxiang Zhang 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第3期673-689,共17页
Monocular 3D object detection is challenging due to the lack of accurate depth information.Some methods estimate the pixel-wise depth maps from off-the-shelf depth estimators and then use them as an additional input t... Monocular 3D object detection is challenging due to the lack of accurate depth information.Some methods estimate the pixel-wise depth maps from off-the-shelf depth estimators and then use them as an additional input to augment the RGB images.Depth-based methods attempt to convert estimated depth maps to pseudo-LiDAR and then use LiDAR-based object detectors or focus on the perspective of image and depth fusion learning.However,they demonstrate limited performance and efficiency as a result of depth inaccuracy and complex fusion mode with convolutions.Different from these approaches,our proposed depth-guided vision transformer with a normalizing flows(NF-DVT)network uses normalizing flows to build priors in depth maps to achieve more accurate depth information.Then we develop a novel Swin-Transformer-based backbone with a fusion module to process RGB image patches and depth map patches with two separate branches and fuse them using cross-attention to exchange information with each other.Furthermore,with the help of pixel-wise relative depth values in depth maps,we develop new relative position embeddings in the cross-attention mechanism to capture more accurate sequence ordering of input tokens.Our method is the first Swin-Transformer-based backbone architecture for monocular 3D object detection.The experimental results on the KITTI and the challenging Waymo Open datasets show the effectiveness of our proposed method and superior performance over previous counterparts. 展开更多
关键词 monocular 3d object detection normalizing flows Swin Transformer
下载PDF
Monocular 3D object detection with Pseudo-LiDAR confidence sampling and hierarchical geometric feature extraction in 6G network
2
作者 Jianlong Zhang Guangzu Fang +3 位作者 Bin Wang Xiaobo Zhou Qingqi Pei Chen Chen 《Digital Communications and Networks》 SCIE CSCD 2023年第4期827-835,共9页
The high bandwidth and low latency of 6G network technology enable the successful application of monocular 3D object detection on vehicle platforms.Monocular 3D-object-detection-based Pseudo-LiDAR is a low-cost,lowpow... The high bandwidth and low latency of 6G network technology enable the successful application of monocular 3D object detection on vehicle platforms.Monocular 3D-object-detection-based Pseudo-LiDAR is a low-cost,lowpower solution compared to LiDAR solutions in the field of autonomous driving.However,this technique has some problems,i.e.,(1)the poor quality of generated Pseudo-LiDAR point clouds resulting from the nonlinear error distribution of monocular depth estimation and(2)the weak representation capability of point cloud features due to the neglected global geometric structure features of point clouds existing in LiDAR-based 3D detection networks.Therefore,we proposed a Pseudo-LiDAR confidence sampling strategy and a hierarchical geometric feature extraction module for monocular 3D object detection.We first designed a point cloud confidence sampling strategy based on a 3D Gaussian distribution to assign small confidence to the points with great error in depth estimation and filter them out according to the confidence.Then,we present a hierarchical geometric feature extraction module by aggregating the local neighborhood features and a dual transformer to capture the global geometric features in the point cloud.Finally,our detection framework is based on Point-Voxel-RCNN(PV-RCNN)with high-quality Pseudo-LiDAR and enriched geometric features as input.From the experimental results,our method achieves satisfactory results in monocular 3D object detection. 展开更多
关键词 monocular 3d object detection Pseudo-LiDAR Confidence sampling Hierarchical geometric feature extraction
下载PDF
基于深度与实例分割融合的单目3D目标检测方法
3
作者 孙逊 冯睿锋 陈彦如 《计算机应用》 CSCD 北大核心 2024年第7期2208-2215,共8页
针对单目3D目标检测在视角变化引起的物体大小变化以及物体遮挡等情况下效果不佳的问题,提出一种融合深度信息和实例分割掩码的新型单目3D目标检测方法。首先,通过深度-掩码注意力融合(DMAF)模块,将深度信息与实例分割掩码结合,以提供... 针对单目3D目标检测在视角变化引起的物体大小变化以及物体遮挡等情况下效果不佳的问题,提出一种融合深度信息和实例分割掩码的新型单目3D目标检测方法。首先,通过深度-掩码注意力融合(DMAF)模块,将深度信息与实例分割掩码结合,以提供更准确的物体边界;其次,引入动态卷积,并利用DMAF模块得到的融合特征引导动态卷积核的生成,以处理不同尺度的物体;再次,在损失函数中引入2D-3D边界框一致性损失函数,调整预测的3D边界框与对应的2D检测框高度一致,以提高实例分割和3D目标检测任务的效果;最后,通过消融实验验证该方法的有效性,并在KITTI测试集上对该方法进行验证。实验结果表明,与仅使用深度估计图和实例分割掩码的方法相比,在中等难度下对车辆类别检测的平均精度提高了6.36个百分点,且3D目标检测和鸟瞰图目标检测任务的效果均优于D4LCN(Depth-guided Dynamic-Depthwise-Dilated Local Convolutional Network)、M3D-RPN(Monocular 3D Region Proposal Network)等对比方法。 展开更多
关键词 单目3d目标检测 深度学习 动态卷积 实例分割
下载PDF
基于Contextual Transformer的自动驾驶单目3D目标检测
4
作者 厍向阳 颜唯佳 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第19期178-189,共12页
针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构... 针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构以提取特征。设计多尺度空间感知模块(MSP),通过尺度空间响应操作改善浅层特征的丢失情况,嵌入沿水平和竖直两个空间方向的坐标注意力机制(CA),使用softmax函数生成各尺度的重要性软权重。在偏移损失中采用Huber损失函数代替L1损失函数。实验结果表明:在KITTI自动驾驶数据集上,相较于RTM3D算法,该算法在简单、中等、困难三个难度级别下,AP3D分别提升了4.84、3.82、5.36个百分点,APBEV分别提升了4.75、6.26、3.56个百分点。 展开更多
关键词 自动驾驶 单目3d目标检测 Contextual Transformer 多尺度感知 坐标注意力机制
下载PDF
基于高深约束与边缘融合的单目3D目标检测
5
作者 浦斌 梁正友 孙宇 《计算机科学》 CSCD 北大核心 2024年第8期192-199,共8页
单目3D目标检测旨在通过单目图像完成3D目标检测,现有的单目3D目标检测算法大多基于经典的2D目标检测算法。针对单目3D目标检测算法中通过直接回归的实例深度估计不准,导致检测精度较差的问题,提出了一种基于高深约束与边缘特征融合的单... 单目3D目标检测旨在通过单目图像完成3D目标检测,现有的单目3D目标检测算法大多基于经典的2D目标检测算法。针对单目3D目标检测算法中通过直接回归的实例深度估计不准,导致检测精度较差的问题,提出了一种基于高深约束与边缘特征融合的单目3D目标检测算法。在实例深度估计方法上采用几何投影关系下的实例3D高度与2D高度计算高深约束,将实例深度的预测转化为对目标的2D高度以及3D高度的预测;针对单目图像存在图像边缘截断目标,采用基于深度可分离卷积的边缘融合模块来加强对边缘目标的特征提取;对于图像中目标的远近造成的目标多尺度问题,设计了基于空洞卷积的多尺度混合注意力模块,增强了对最高层特征图的多尺度特征提取。实验结果表明,所提方法在KITTI数据集上的汽车类别检测精度相比基准模型提升了7.11%,优于当前的方法。 展开更多
关键词 单目3d目标检测 高深约束 边缘融合 多尺度特征 注意力机制
下载PDF
基于遮挡感知像素级融合的单目3D目标检测方法
6
作者 林璐颖 《黑龙江工业学院学报(综合版)》 2023年第9期95-101,共7页
利用深度边界框残差和目标边界框来联合估计密集场景深度,对3D目标进行双流检测,从而产生更鲁棒的检测结果。其中,几何流组合了可见深度和深度边界框残差,通过显式的遮挡感知优化方法来恢复目标的3D边界框。此外,基于包围框的几何投影... 利用深度边界框残差和目标边界框来联合估计密集场景深度,对3D目标进行双流检测,从而产生更鲁棒的检测结果。其中,几何流组合了可见深度和深度边界框残差,通过显式的遮挡感知优化方法来恢复目标的3D边界框。此外,基于包围框的几何投影方案被用于增强距离感知。上下文流则用于直接回归3D目标的位置和大小。这种新颖的双流表示促进了跨流之间的一致性,将双流的输出结果进行对齐,从而提高整体性能。在公开数据集上的大量实验表明,该方法在保持实时推理速度的同时,在汽车类别上的检测精度也优于最先进的方法。 展开更多
关键词 深度边界框残差 密集场景深度 双流检测 单目3d目标
下载PDF
智轨电车单目3D感知系统的研究
7
作者 王泽远 林军 +3 位作者 袁希文 徐阳翰 岳伟 熊群芳 《控制与信息技术》 2023年第5期25-32,共8页
3D感知系统是智轨电车安全运行的核心部件。针对复杂城市环境下智轨电车激光雷达系统难以感知远距离目标、对颜色不敏感以及可能失效等问题,文章提出一种用于智轨电车的纯视觉单目3D感知系统。该系统由数据预处理、模型训练和模型部署组... 3D感知系统是智轨电车安全运行的核心部件。针对复杂城市环境下智轨电车激光雷达系统难以感知远距离目标、对颜色不敏感以及可能失效等问题,文章提出一种用于智轨电车的纯视觉单目3D感知系统。该系统由数据预处理、模型训练和模型部署组成,是一套基于视觉的、包含从数据采集到上车部署的完整方案,可实现对智轨电车周围障碍物的3D感知,能提高智轨电车在复杂城市环境下行驶可靠性。基于智轨电车数据集和公开数据集Waymo的测试表明,该系统可以很好地感知智轨电车复杂道路场景,其最终3D平均准确率(average precision,AP)能够达到0.53,单帧图片推理时间约为56 ms,能满足智轨电车对感知障碍物算法的实时性要求。 展开更多
关键词 智轨电车 自动驾驶 视觉感知 注意力机制 目标检测 单目3d算法 模型部署
下载PDF
基于2D-3D泛轮廓点对应的三维刚体目标的迭代姿态估计 被引量:4
8
作者 冷大炜 马洪兵 孙卫东 《中国科学院研究生院学报》 CAS CSCD 北大核心 2012年第6期821-828,共8页
以单目观测下三维刚体目标的姿态估计为研究对象,针对现有迭代估计方法存在的收敛半径小和收敛速度慢的问题,提出一种新的基于2D-3D泛轮廓点对应的迭代姿态估计方法.与现有的基于数值优化的方法不同,本方法从输入图像的2D泛轮廓点出发,... 以单目观测下三维刚体目标的姿态估计为研究对象,针对现有迭代估计方法存在的收敛半径小和收敛速度慢的问题,提出一种新的基于2D-3D泛轮廓点对应的迭代姿态估计方法.与现有的基于数值优化的方法不同,本方法从输入图像的2D泛轮廓点出发,着眼于显性地建立输入图像到目标三维模型的2D-3D特征投影对应关系,进而以此显性投影对应关系对目标的三维姿态参数进行估计.实验结果表明,该方法在算法复杂性、收敛半径和收敛速度上均有明显改进. 展开更多
关键词 三维刚体目标 单目视觉 姿态估计 特征投影对应关系
原文传递
目标位姿测量中的三维视觉方法 被引量:40
9
作者 郝颖明 朱枫 欧锦军 《中国图象图形学报(A辑)》 CSCD 北大核心 2002年第12期1247-1251,共5页
要测量出一组特征点分别在两个空间坐标系下的坐标 ,就可以求解两个空间目标间的位姿关系 .实现上述目标位姿测量方法的前提条件是要保证该组特征点在不同坐标系下 ,其位置关系相同 ,但计算误差的存在却破坏了这种固定的位置关系 .为此 ... 要测量出一组特征点分别在两个空间坐标系下的坐标 ,就可以求解两个空间目标间的位姿关系 .实现上述目标位姿测量方法的前提条件是要保证该组特征点在不同坐标系下 ,其位置关系相同 ,但计算误差的存在却破坏了这种固定的位置关系 .为此 ,提出了两种基于模型的三维视觉方法——基于模型的单目视觉和基于模型的双目视觉 ,前者从视觉计算的物理意义入手 ,通过简单的约束迭代求解实现模型约束 ;后者则将简单的约束最小二乘法和基于模型的单目视觉方法融合在一起来实现模型约束 .引入模型约束后 ,单目视觉方法可以达到很高的测量精度 .而基于模型的双目视觉较传统的无模型立体视觉方法位移精度提高有限 。 展开更多
关键词 三维视觉方法 立体视觉 单目视觉 目标位姿 三维测量 量化误差 机器人技术 图象处理
下载PDF
单目多视角全景视觉感知三维重构技术研究 被引量:12
10
作者 郭伟青 吴小刚 汤一平 《小型微型计算机系统》 CSCD 北大核心 2019年第7期1525-1531,共7页
从图像中恢复出几何实体的三维形状是计算机视觉研究领域的一个核心课题.本文提出了一种基于单目全景成像的三维重构方法.通过单目多视角全景视觉传感器在一个摄像平面上同时获取从多个不同视角拍摄的被测物体图像,采用Otsu算法对图像... 从图像中恢复出几何实体的三维形状是计算机视觉研究领域的一个核心课题.本文提出了一种基于单目全景成像的三维重构方法.通过单目多视角全景视觉传感器在一个摄像平面上同时获取从多个不同视角拍摄的被测物体图像,采用Otsu算法对图像进行分割,提取前景信息,用轮廓体素极坐标遍历得到几何实体的轮廓采样点数据,重构出几何实体的三维形状.单目多视角全景视觉传感器避免了通用多视角成像中摄像机的颜色系统以及内外参数难以保持一致的问题,减少了硬件成本和立体匹配的复杂度,增加了实时性;通过轮廓体素极坐标遍历得到物体的三维点云数据是一种明确、不含二义性的信息,具有较好的鲁棒性.通过实际系统应用验证,该方法是一种行之有效的三维重构方法. 展开更多
关键词 以物为中心 单目多视角 三维重构 轮廓体素法
下载PDF
单目视觉下基于三维目标检测的车型识别方法综述 被引量:4
11
作者 王伟 唐心瑶 +1 位作者 宋焕生 张朝阳 《小型微型计算机系统》 CSCD 北大核心 2020年第6期1274-1280,共7页
近年来,车辆三维检测在无人驾驶及智能交通等领域得到了广泛的关注.但当前基于单目视觉的车辆三维检测车型识别方法并没有完善的总结,因此本文对该类方法进行了综述探讨.首先,将基于三维目标检测的车型识别问题分为粗粒度识别和细粒度... 近年来,车辆三维检测在无人驾驶及智能交通等领域得到了广泛的关注.但当前基于单目视觉的车辆三维检测车型识别方法并没有完善的总结,因此本文对该类方法进行了综述探讨.首先,将基于三维目标检测的车型识别问题分为粗粒度识别和细粒度识别两大类,接着根据不同的类别分别回顾了每类问题的发展历程,重点阐述了每类问题中代表性算法的核心思想及优缺点,然后介绍了两类问题中一些常用的公开数据集并且对它们的特点进行了对比,最后讨论了基于三维目标检测的车型识别目前还存在的一些问题和未来的发展前景. 展开更多
关键词 智能交通 车型识别 粗粒度识别 细粒度识别 三维目标检测 单目相机
下载PDF
联合实例深度的多尺度单目3D目标检测算法 被引量:2
12
作者 王凤随 熊磊 钱亚萍 《激光与光电子学进展》 CSCD 北大核心 2023年第16期230-238,共9页
针对单目3D目标检测算法中存在图像缺乏深度信息以及检测精度不佳的问题,提出一种联合实例深度的多尺度单目3D目标检测算法。首先,为了增强模型对不同尺度目标的处理能力,设计基于空洞卷积的多尺度感知模块,同时考虑到不同尺度特征图之... 针对单目3D目标检测算法中存在图像缺乏深度信息以及检测精度不佳的问题,提出一种联合实例深度的多尺度单目3D目标检测算法。首先,为了增强模型对不同尺度目标的处理能力,设计基于空洞卷积的多尺度感知模块,同时考虑到不同尺度特征图之间的不一致性,从空间和通道两个方向对包含多尺度信息的深度特征进行重新精炼。其次,为了使模型获得更好的3D感知,将实例深度信息作为辅助学习任务来增强3D目标的空间深度特征,并使用稀疏实例深度来监督该辅助任务。最后,在KITTI测试集以及评估集上对所提算法进行验证。实验结果表明,所提算法相较于基线算法在汽车类别的平均精度提升了5.27%,有效提升了单目3D目标检测算法的检测性能。 展开更多
关键词 测量 单目3d目标检测 实例深度学习 多尺度 注意力机制 辅助学习
原文传递
基于视觉的三维目标检测算法研究综述 被引量:21
13
作者 李宇杰 李煊鹏 张为公 《计算机工程与应用》 CSCD 北大核心 2020年第1期11-24,共14页
基于视觉的目标检测是环境感知系统的重要组成,一直以来是计算机视觉、机器人等相关领域的研究热点。三维目标检测是在二维目标检测的基础上,增加目标尺寸、深度、姿态等信息的估计。相比于二维目标检测,三维目标检测在准确性、实时性... 基于视觉的目标检测是环境感知系统的重要组成,一直以来是计算机视觉、机器人等相关领域的研究热点。三维目标检测是在二维目标检测的基础上,增加目标尺寸、深度、姿态等信息的估计。相比于二维目标检测,三维目标检测在准确性、实时性等方面仍有较大的提升空间。系统总结了基于视觉的三维目标检测方法,调研了现有的基于单目视觉、双目、深度相机的三维目标检测方法,并依据室内外场景进行了分类。此外,在KITTI、SUN RGBD等数据集上对最新的三维目标检测算法进行了对比分析,并针对目前算法中存在的难点和问题,讨论了未来的研究方向。 展开更多
关键词 计算机视觉 三维目标检测 室内场景 室外场景 单目视觉 双目/深度视觉
下载PDF
融合相机与激光雷达的目标检测、跟踪与预测 被引量:1
14
作者 黄远宪 周剑 +3 位作者 黄琦 李必军 王兰兰 朱佳琳 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2024年第6期945-951,共7页
实时、鲁棒的三维动态目标感知系统是自动驾驶技术的关键。提出了一种融合单目相机和激光雷达的三维目标检测流程,首先,在图像上使用卷积神经网络进行二维目标检测,根据几何投影关系生成锥形感兴趣区域(region of interest,ROI),在ROI... 实时、鲁棒的三维动态目标感知系统是自动驾驶技术的关键。提出了一种融合单目相机和激光雷达的三维目标检测流程,首先,在图像上使用卷积神经网络进行二维目标检测,根据几何投影关系生成锥形感兴趣区域(region of interest,ROI),在ROI内对点云进行聚类,并拟合三维外包矩形;然后,基于外观特征和匈牙利算法对三维目标进行帧间匹配,并提出了一种基于四元有限状态机的跟踪器管理模型;最后,设计了一种利用车道信息的轨迹预测模型,对车辆轨迹进行预测。实验结果表明,在目标检测阶段,所提算法的准确率和召回率分别达到了92.5%和86.7%。在仿真数据集上对轨迹预测算法进行测试,与现有算法相比,所提算法在直线、弧线和缓和曲线3种类型的车道上均有较小的均方根误差,且算法平均耗时约为25 ms,满足实时性要求。所提算法鲁棒、有效,在不同车道模型下均有较好的结果。 展开更多
关键词 单目相机 激光雷达 三维目标检测 目标跟踪 轨迹预测
原文传递
单目视频运动目标轨迹三维重建的平滑约束法 被引量:1
15
作者 戴玉超 何明一 +1 位作者 LI HongDong 李波 《中国科学:信息科学》 CSCD 2012年第8期988-1006,共19页
提出了利用单目视频重建运动目标三维轨迹的平滑约束方法.通过引入平滑约束,得到重建运动目标三维轨迹的无约束最优化模型,进而推导出其闭式最优解.提出的平滑约束是对运动目标三维轨迹的本质约束,更具一般性,可以反映目标运动的连续、... 提出了利用单目视频重建运动目标三维轨迹的平滑约束方法.通过引入平滑约束,得到重建运动目标三维轨迹的无约束最优化模型,进而推导出其闭式最优解.提出的平滑约束是对运动目标三维轨迹的本质约束,更具一般性,可以反映目标运动的连续、渐变与平滑特性,与基于离散余弦变换基和多项式基等预先定义基约束相比具有更强的适应性,同时能够直接应用于部分观测数据缺失的情形.给出了单目视频轨迹重建问题的几何解释,并对轨迹重建问题中的唯一性进行分析.仿真和真实单目视频序列上的实验证明了提出方法的有效性和先进性. 展开更多
关键词 平滑约束 轨迹重建 多视角 运动目标 单目视频 闭式最优解 视线
原文传递
自动驾驶中的三维目标检测算法研究综述
16
作者 李昌财 陈刚 +2 位作者 侯作勋 黄凯 张伟 《中国图象图形学报》 2024年第11期3238-3264,共27页
新兴的三维目标检测技术在自动驾驶领域中扮演着关键的角色,它通过提供环境感知和障碍物检测等信息,为自动驾驶系统的决策和控制提供了基础。过去的许多学者对该领域优秀的方法论和成果进行了全面的检验和研究。然而,由于技术上的不断... 新兴的三维目标检测技术在自动驾驶领域中扮演着关键的角色,它通过提供环境感知和障碍物检测等信息,为自动驾驶系统的决策和控制提供了基础。过去的许多学者对该领域优秀的方法论和成果进行了全面的检验和研究。然而,由于技术上的不断更新和快速进步,对该领域的最新进展保持持续跟踪并坚持跟随知识前沿,不仅是学术界的一项至关重要任务,同时也是应对新兴挑战的一项基础。本文回顾了近两年内的新兴成果并针对该方向中的前沿理论进行系统性的阐述。首先,简单介绍三维目标检测的背景知识并回顾相关的综述研究。然后,从数据规模、多样性等方面对KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)等多个流行的数据集进行了归纳总结,并进一步介绍相关基准的评测原理。接下来,按照传感器类型和数量将最近的几十种检测方法划分为基于单目的、基于立体的、基于多视图的、基于激光雷达的、基于多模态5个类别,并根据模型架构或数据预处理方式的不同对每一种类别进行更深层次的细分。在每一种类别的方法中,首先对其代表性算法进行简单回顾,然后着重对该类别中最前沿的方法进行综述介绍,并进一步深入分析了该类别潜在的发展前景和当前面临的严峻挑战。最后展望了三维目标检测领域未来的研究方向。 展开更多
关键词 自动驾驶 三维目标检测 单目 立体 多视图 激光雷达 多模态
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部