-
题名深度学习和迭代量化在图像检索中的应用研究
被引量:11
- 1
-
-
作者
甄俊杰
应自炉
赵毅鸿
黄尚安
-
机构
五邑大学智能制造学部
-
出处
《信号处理》
CSCD
北大核心
2019年第5期919-925,共7页
-
基金
国家自然科学基金(61771347)
广东省特色创新类项目(2017KTSCX181)
+2 种基金
广东省青年创新人才类项目(2017KQNCX206)
江门市科技计划项目(江科[2017]268号)
五邑大学青年基金(2015zk11)
-
文摘
基于内容的图像检索的关键在于对图像进行特征提取和对特征进行多比特量化编码。近年来,基于内容的图像检索使用低级可视化特征对图像进行描述,存在'语义鸿沟'问题;其次,传统量化编码使用随机生成的投影矩阵,该矩阵与特征数据无关,因此不能保证量化的精确度。针对目前存在的这些问题,本文结合深度学习思想与迭代量化思想,提出基于卷积神经网络VGG16和迭代量化(Iterative Quantization, ITQ)的图像检索方法。使用在公开数据集上预训练VGG16网络模型,提取基于深度学习的图像特征;使用ITQ方法对哈希哈函数进行训练,不断逼近特征与设定比特数的哈希码之间的量化误差最小值,实现量化误差的最小化;最后使用获得的哈希码进行图像检索。本文使用查全率、查准率和平均精度均值作为检索效果的评价指标,在Caltech256图像库上进行测试。实验结果表明,本文提出的算法在检索优于其他主流图像检索算法。
-
关键词
图像检索
深度学习
迭代量化
哈希码
-
Keywords
image retrieval
deep learning
iterative quantization
hash coding
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于无监督再训练卷积神经网络的图像检索
- 2
-
-
作者
甄俊杰
应自炉
赵毅鸿
黄尚安
-
机构
五邑大学智能制造学部
-
出处
《现代计算机》
2019年第14期48-51,56,共5页
-
基金
国家自然科学基金(No.61771347)
广东省特色创新类项目(No.2017KTSCX181)
+2 种基金
广东省青年创新人才类项目(No.2017KQNCX206)
江门市科技计划项目(江科[2017]268号)
五邑大学青年基金(No.2015zk11)
-
文摘
针对在不同数据集上的图像检索任务,提出一种有效的再训练方法,用于优化卷积神经网络(CNN)特征应用于基于内容的图像检索(CBIR)。为了实现这一目标,采用预训练的卷积神经网络模型VGG16,并且以无监督的方式基于待检索公共数据集重新训练卷积层的权重,使得网络中的全连接层的输出能更有效地对图像进行描述,从而提高基于内容的图像检索的性能。在实验部分,通过在两个公开的图像检索数据集上进行实验,并与近年来主流的非监督学习方法进行比较,验证所提出特征提取方法对基于内容的图像检索的有效性。
-
关键词
基于内容的图像检索
卷积神经网络
图像特征
-
Keywords
Content-Based Image Retrieval
Convolutional Neural Network
Image Feature
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名多特征融合的文档图像版面分析
被引量:7
- 3
-
-
作者
应自炉
赵毅鸿
宣晨
邓文博
-
机构
五邑大学智能制造学部
-
出处
《中国图象图形学报》
CSCD
北大核心
2020年第2期311-320,共10页
-
基金
国家自然科学基金项目(61771347)
广东省特色创新类项目(2017KTSCX181)
+2 种基金
广东省青年创新人才类项目(2017KQNCX206)
江门市科技计划项目(江科〔2017〕268号)
五邑大学青年基金项目(2015zk11).
-
文摘
目的在文档图像版面分析上,主流的深度学习方法克服了传统方法的缺点,能够同时实现文档版面的区域定位与分类,但大多需要复杂的预处理过程,模型结构复杂。此外,文档图像数据不足的问题导致文档图像版面分析无法在通用的深度学习模型上取得较好的性能。针对上述问题,提出一种多特征融合卷积神经网络的深度学习方法。方法首先,采用不同大小的卷积核并行对输入图像进行特征提取,接着将卷积后的特征图进行融合,组成特征融合模块;然后选取Deeplab V3中的串并行空间金字塔策略,并添加图像级特征对提取的特征图进一步优化;最后通过双线性插值法对图像进行恢复,完成文档版面目标,即插图、表格、公式的定位与识别任务。结果本文采用m IOU(mean intersection over union)以及PA(pixel accuracy)两个指标作为评价标准,在ICDAR 2017 POD文档版面目标检测数据集上的实验表明,提出算法在m IOU与PA上分别达到87.26%和98.10%。对比FCN(fully convolutional networks),提出算法在m IOU与PA上分别提升约14.66%和2.22%,并且提出的特征融合模块对模型在m IOU与PA上分别有1.45%与0.22%的提升。结论本文算法在一个网络框架下同时实现了文档版面多种目标的定位与识别,在训练上并不需要对图像做复杂的预处理,模型结构简单。实验数据表明本文算法在训练数据较少的情况下能够取得较好的识别效果,优于FCN和Deeplab V3方法。
-
关键词
文档图像处理
版面分析
目标检测
深度学习
语义分割
-
Keywords
document image processing
layout analysis
object detection
deep learning
semantic segmentation
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-