题名 基于关系感知和标签消歧的细粒度面部表情识别算法
1
作者
刘雅芝
许喆铭
郎丛妍
王涛
李浥东
机构
北京交通大学计算机科学与技术学院
北京交通大学交通大数据与人工智能教育部重点实验室
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第10期3336-3346,共11页
基金
国家自然科学基金(No.62072027,No.62376020)。
文摘
细粒度表情识别任务因其包含更丰富真实的人类情感而备受关注.现有面部表情识别算法通过提取局部关键区域等方式学习更优的图像表征.然而,这些方法忽略了图像数据集内在的结构关系,且没有充分利用标签间的语义关联度以及图像和标签间的相关性,导致所学特征带来的性能提升有限.其次,现有细粒度表情识别方法并未有效利用和挖掘粗细粒度的层级关系,因而限制了模型的识别性能.此外,现有细粒度表情识别算法忽略了由于标注主观性和情感复杂性导致的标签歧义性问题,极大影响了模型的识别性能.针对上述问题,本文提出一种基于关系感知和标签消歧的细粒度面部表情识别算法(fine-grained facial expression recognition algorithm based on Relationship-Awareness and Label Disambiguation,RALD).该算法通过构建层级感知的图像特征增强网络,充分挖掘图像之间、层级标签之间以及图像和标签之间的依赖关系,以获得更具辨别性的图像特征.针对标签歧义性问题,算法设计了基于近邻样本的标签分布学习模块,通过整合邻域信息进行标签消歧,进一步提升模型识别性能.在细粒度表情识别数据集FG-Emotions上算法的准确度达到97.34%,在粗粒度表情识别数据集RAF-DB上比现有主流表情分类方法提高了0.80%~4.55%.
关键词
细粒度面部表情识别
注意力机制
关系感知
特征优化
标签分布学习
Keywords
fine-grained facial expression recognition
attention mechanism
relation awareness
feature optimization
label distribution learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于图像-文本语义一致性的文本生成图像方法
被引量:6
2
作者
薛志杭
许喆铭
郎丛妍
冯松鹤
王涛
李浥东
机构
北京交通大学计算机与信息技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第9期2180-2190,共11页
基金
国家自然科学基金项目(62072027,61872032,62076021)
北京市自然科学基金项目(4202057,4202058,4202060)。
文摘
近年来,以生成对抗网络(generative adversarial network,GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module,TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module,IRAM),通过挖掘图像子区域之间的关系,增强图像特征的表征能力.通过联合利用这2个模块,使得图像局部特征与文本语义标签之间具有更高的一致性.最后,该模型使用生成器与判别器损失函数作为约束,以提升生成图像的质量,促进图像与文本描述的语义一致.实验结果表明,在CUB数据集上,与当前主流方法AttnGAN模型相比,ITSC-GAN模型的IS(inception score)指标增长了约7.42%,FID(Fréchet inception distance)减少了约28.76%,R-precision增加了约14.95%.大量实验结果充分验证了ITSC-GAN模型的有效性及优越性.
关键词
文本生成图像
生成对抗网络
图像区域注意力
文本信息增强
语义一致性
Keywords
text-to-image
generative adversarial network
image region attention
text information enhancement
semantic consistency
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于模糊信息粒化的视频时空显著单元提取方法
被引量:3
3
作者
郎丛妍
须德
李兵
机构
北京交通大学计算机研究所
出处
《电子学报》
EI
CAS
CSCD
北大核心
2007年第10期2023-2028,共6页
基金
北京交通大学校科技基金(No.2006RC019)
文摘
提出一种基于模糊信息粒化的视频时空显著单元提取方法,为视频分析及检索等高层应用提供一个有效的内容表示模式.本文首先提出了一种类相关的特征粒化方法,粒化后的模糊粒特征简化了分类关系且在一定程度上解决了感知主观性问题,因而通过简单的分类器可以有效地提取空域中具有高视觉感知显著度的区域(简称为显著区域);其次,通过对显著区域的时域一致性分析提取视频序列中时域连续的显著区域集合,定义为时空显著单元.提取的时空显著单元能作为一种较为通用的语义级内容表示模式.实验结果分别从时域和空域两个方面验证了本文方法的有效性.
关键词
显著区域
模糊信息粒化
内容表示
视觉注意力机制
Keywords
salient region
fuzzy information granulation
content representation
visual attention mechanism
分类号
TN911.73
[电子电信—通信与信息系统]
题名 四正则图的纵横嵌入优化并行算法
4
作者
郎丛妍
须德
机构
北京交通大学计算机与信息技术学院
出处
《计算机应用研究》
CSCD
北大核心
2004年第6期142-143,146,共3页
基金
国家自然科学基金资助项目 (6 99730 0 1 )
文摘
纵横嵌入术已为超大规模集成电路 (VLSI)的平面设计提供了较完备的理论体系 ,在EREWPRAM(Ex clusive RreadandExclusive WriteParallelRandomAccessMachine)并行计算模型上 ,使用O( (m +n) /logn)个处理器 ,时间复杂度为O(logn) ,对四正则图的纵横嵌入图优化 。
关键词
纵横嵌入
并行算法
超载上圈
Keywords
Rectilinear Embedding
Parallel Algorithm
Overload Cocircuit
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 一种融合图学习与区域显著性分析的图像检索算法
被引量:17
5
作者
冯松鹤
郎丛妍
须德
机构
北京交通大学计算机与信息技术学院
北京邮电大学智能通信软件与多媒体北京市重点实验室
出处
《电子学报》
EI
CAS
CSCD
北大核心
2011年第10期2288-2294,共7页
基金
国家自然科学基金(No.60972145
61033013
+4 种基金
No.61100142)
中央高校基础科研业务费(No.2009JBM024)
中国博士后科学基金(No.201003044)
北京邮电大学智能通信软件与多媒体北京市重点实验室开放课题
北京市教育委员会科技发展计划(No.KM20091147002)
文摘
为弥合图像低层视觉特征和高层语义之间的语义鸿沟,改善图像检索的效果,机器学习算法经常被引入到图像检索问题中.通常情况下,机器学习算法是与相关反馈机制相结合,通过用户的交互操作,标定出若干正反例图像,很自然地就可以将图像检索问题转化为模式识别中的分类问题.目前融合区域显著性分析的区域图像检索算法尚没有与机器学习算法相融合.本文结合图像区域显著性分析,并针对用户参与反馈的情况,分别提出了两种图像检索解决方案.其一,在没有用户反馈以及用户只反馈正例图像的情形下,将图像检索问题转化为直推式学习问题(Transductive Learning),改进已有的基于图的半监督学习算法,提出了融合区域显著性分析的层次化图表示(Hierarchi-cal Graph Representation)方式,用以实现标记传播;其二,在用户同时反馈正反例图像的情形下,利用用户反馈得到的正反例图像构建相似性邻接矩阵,通过流形排序算法(Manifold-Ranking)学习出用户感兴趣的查询目标概念并用相应的特征向量集合表示,并据此查询图像库返回用户语义相关的图像集合.实验结果验证了这两种检索策略的有效性.
关键词
图像检索
区域显著性
图学习
流形排序
相关反馈
Keywords
content-based image retrieval
region saliency
graph learning
manifold-ranking
relevance feedback
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 显著区域检测技术研究
被引量:4
6
作者
梁晔
于剑
郎丛妍
刘宏哲
机构
北京联合大学北京市信息服务工程重点实验室
北京交通大学计算机与信息技术学院
出处
《计算机科学》
CSCD
北大核心
2016年第3期27-32,共6页
基金
国家自然科学基金项目(61271369
61372148)
+3 种基金
北京市信息服务工程重点实验室开放课题(Zk20201402)
北京市自然科学基金项目(4152016)
北京市教育委员会科技计划面上项目(KM201511417008)
北京联合大学人才强校计划人才资助项目(Rk100201510)资助
文摘
显著区域检测是计算机视觉中非常活跃的研究方向,其应用领域极为广泛。如何快速准确地找到图像的显著区域尚未形成完整的理论体系,且与具体应用密切相关,对研究人员来说仍是一个富有挑战的课题。对显著区域检测技术进行了综述。首先深入讨论了自底向上和自顶向下的显著区域检测方法,对方法进行了归类,并对典型方法进行了梳理;其次讨论了算法的评价标准和目前流行的显著性评测数据库;最后对目前存在的问题进行了总结,给出了未来的研究方向。
关键词
显著性
视觉注意
显著区域检测
自顶向下
自底向上
Keywords
Saliency
Visual attention
Salient region detection
Top-down
Bottom-up
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种有效的视频场景检测方法
被引量:6
7
作者
程文刚
须德
郎丛妍
机构
北京交通大学计算机与信息技术学院
出处
《中国图象图形学报(A辑)》
CSCD
北大核心
2004年第8期984-990,共7页
文摘
合理地组织视频数据对于基于内容的视频分析和应用有着重要的意义。现有的基于镜头的视频分析方法由于镜头信息粒度太小而不能反映视频语义上的联系 ,因此有必要将视频内容按照高层语义单元——场景进行组织。提出了一种快速有效的视频场景检测方法 ,根据电影编辑的原理 ,对视频场景内容的发展模式进行了分类 ,给出了场景构造的原则 ;提出一种新的基于滑动镜头窗的组合方法 ,将相似内容的镜头组织成为镜头类 ;定义了镜头类相关性函数来衡量镜头类之间的相关性并完成场景的生成。
关键词
镜头
视频场景检测
滑动镜头窗
镜头类相关性函数
数字电视
Keywords
shot, shot cluster, scene, sliding shot window, correlation function of shot clusters
分类号
TN941.1
[电子电信—信号与信息处理]
题名 基于类别相关的领域自适应交通图像语义分割方法
被引量:8
8
作者
贾颖霞
郎丛妍
冯松鹤
机构
北京交通大学计算机与信息技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第4期876-887,共12页
基金
中央高校基本科研业务费专项资金(2017JBZ108)。
文摘
图像语义分割作为机器视觉领域一个重要研究问题,其目的是对一张彩色图像中的每个像素点进行分类,将图像中每个像素预测其对应的语义标签.现有的基于全监督学习的语义分割方法依赖于精准标注的训练样本;现有的基于弱监督、半监督学习的分割方法虽然可以融入未标记样本,但由于缺少对空间语义信息的有效利用,常出现语义不一致或类别错分现象,且难以直接应用于其他的跨域无标注数据集.针对跨域无标注数据集语义分割问题,提出一种基于领域自适应的图像语义分割方法.其中,提出的方法首先通过采用优化上采样方法和提出基于focal loss的损失函数,有效改进了现有方法中数据量较小的类别难以被正确分割的问题;其次,通过有效利用所提出的类别相关的领域自适应方法,来解决不同数据集跨域语义分割问题,使无标注图像的语义分割平均交并比较现有方法的均值提升6%.提出的方法在5个数据集上进行验证实验,实验结果充分表明了方法的有效性和泛化性.
关键词
语义分割
领域自适应
对抗学习
数据分布
数据标注
类别相关性
Keywords
semantic segmentation
domain adaptation
adversarial learning
data distribution
data annotation
categories-aware
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 基于双层注意力机制的评分预测推荐模型
被引量:5
9
作者
李钰钰
郎丛妍
冯松鹤
机构
北京交通大学计算机与信息技术学院
出处
《中国科技论文》
CAS
北大核心
2018年第18期2076-2081,共6页
文摘
设计了2个平行的卷积神经网络,联合学习用户和商品的隐藏特征表示,建模时综合考虑了细粒度的词汇和粗粒度的评论2个层面,将连接的词向量和评论向量作为网络的输入,并采用基于Word2vec的语义一阶跳转方法表示评论向量,进一步丰富评论的语义表达;在卷积层之前设计注意力层,加强重要特征对评分预测的贡献,并增加了模型的可解释性;顶层使用因子分解机模拟高阶潜在特征的相互作用,以进行评分预测。实验结果表明,所提出的方法相比于基准方法有更低的均方根误差,可有效提高评分预测精度。
关键词
评分预测
深度学习
卷积神经网络
注意力机制
Keywords
rating prediction
deep learning
convolutional neural network
attention mechanism
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 双流序列回归深度网络的视频火灾检测方法
被引量:6
10
作者
孔亚奇
郎丛妍
冯松鹤
王涛
殷梦霞
机构
北京交通大学计算机与信息技术学院
出处
《中国科技论文》
北大核心
2017年第14期1590-1595,1663,共7页
基金
北京交通大学多媒体大数据分析与安全研究所项目(K16L00240)
文摘
首先构建1个室外多场景大规模火灾视频数据库,不仅标注火焰区域,同时根据火焰区域标注量化的火焰级别标签。结合深度网络视频特征的表征能力,将火灾检测形式化为多类别有序回归问题,提出基于双流序列回归深度网络的火灾检测模型。所提出的方法有效融合了视频帧间的运动信息和关键帧的视觉信息。在所构建的数据库和现有的3个公开火灾测试集上的实验表明,所提出的火灾检测方法准确率显著提高。
关键词
火灾检测
序列回归
卷积神经网络
多类别学习
Keywords
fire detection
ordinal regression
convolutional neural network
multi-levll learning application
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 基于噪声标签自适应的行人再识别方法
被引量:2
11
作者
唐轲
郎丛妍
机构
北京交通大学计算机信息与技术学院
出处
《数据采集与处理》
CSCD
北大核心
2021年第1期103-112,共10页
文摘
行人再识别技术目前逐步被应用于视频监控、智能安防等领域。监控设备与日俱增,给研究工作提供了海量数据支持,但人工标注或检测器识别难以避免地引入带有噪声的数据标签。在进行大规模深度神经网络训练时,伴随数据量增加,标签的噪声给模型训练带来不可忽视的损害。为解决行人再识别的噪声标签问题,本文结合噪声、非噪声数据训练差异化特征,提出一种噪声标签自适应的行人再识别方法,不需要使用额外的验证集以及噪声比例、类型等先验信息,完成对噪声数据的筛选过滤。此外,本文方法自适应地学习噪声样本权重,进一步降低噪声影响。在含噪声的Market1501、DukeMTMC-reID两个数据集上,主流模型受噪声影响严重,本文提出的方法可以在此基础上提高约10%的平均精度。
关键词
行人再识别
噪声标签
深度学习
噪声过滤
深度神经网络
Keywords
person re-identification
noise label
deep learning
noise filtering
deep neural network
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 面向社交媒体图像的显著性数据集
12
作者
梁晔
马楠
郎丛妍
于剑
机构
北京联合大学机器人学院
北京交通大学计算机与信息技术学院
出处
《北京交通大学学报》
CAS
CSCD
北大核心
2018年第5期135-140,共6页
基金
国家自然科学基金(61871038
61871039)
+1 种基金
北京市自然科学基金(4182022)
北京市属高校高水平教师队伍建设支持计划项目(IDHT20170511)~~
文摘
随着显著性研究的发展,已涌现多个显著性数据集,然而目前面向社交媒体图像的显著性数据集数量非常少.为此构建此类显著性数据集,详细论述了数据集的图像来源、图像的筛选原则、图像的标注及数据集的统计分析.为了验证新建数据集的性能,与目前流行的7个显著性数据集进行性能评测,新建数据集具有显著区域尺寸丰富、与图像边界连接度高、显著区域与图像的颜色差异小的优点.实验结果表明:新建数据集中显著区域与图像边界连接的比例为17%,仅低于ECSSD数据集;其中显著区域和整幅图像的颜色差均值最小,且包含10个尺寸等级的显著区域,尺寸分布最广泛.此外,新建数据集具有标签信息,也为新的显著区域提取方法提供了实验对象.
关键词
数据集
显著性
社交媒体图像
标签
Keywords
dataset
saliency
social images
tags
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
题名 融合全局与空间多尺度上下文信息的车辆重识别
被引量:3
13
作者
王振学
许喆铭
雪洋洋
郎丛妍
李尊
魏莉莉
机构
北京交通大学计算机与信息技术学院
出处
《中国图象图形学报》
CSCD
北大核心
2023年第2期471-482,共12页
基金
国家自然科学基金项目(62072027,61872032,62076021)
北京市自然科学基金项目(4202057,4202058,4202060)。
文摘
目的车辆重识别指判断不同摄像设备拍摄的车辆图像是否属于同一辆车的检索问题。现有车辆重识别算法使用车辆的全局特征或额外的标注信息,忽略了对多尺度上下文信息的有效抽取。对此,本文提出了一种融合全局与空间多尺度上下文信息的车辆重识别模型。方法首先,设计一个全局上下文特征选择模块,提取车辆的细粒度判别信息,并且进一步设计了一个多尺度空间上下文特征选择模块,利用多尺度下采样的方式,从全局上下文特征选择模块输出的判别特征中获得其对应的多尺度特征。然后,选择性地集成来自多级特征的空间上下文信息,生成车辆图像的前景特征响应图,以此提升模型对于车辆空间位置特征的感知能力。最后,模型组合了标签平滑的交叉熵损失函数和三元组损失函数,以提升模型对强判别车辆特征的整体学习能力。结果在VeRi-776(vehicle re-idendification-776)数据集上,与模型PNVR(part-regularized near-duplicate vehicle re-identification)相比,本文模型的mAP(mean average precision)和rank-1(cumulative matching curve at rank 1)评价指标分别提升了2.3%和2.0%。在该数据集上的消融实验验证了各模块的有效性。在Vehicle ID数据集的大规模测试子集上,就rank-1和rank-5(cumulative matching curve at rank 5)而言,本文模型的mAP比PNVR分别提升了0.8%和4.5%。结论本文算法利用全局上下文特征和多尺度空间特征,提升了拍摄视角变化、遮挡等情况下车辆重识别的准确率,实验结果充分表明了所提模型的有效性与可行性。
关键词
车辆重识别
深度学习
局部可区分性特征
特征选择
多尺度空间特征
Keywords
vehicle re-identification
deep learning
local discriminative features
feature selection
multi-scale spatial features
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 基于对抗式扩张卷积的多尺度人群密度估计
被引量:7
14
作者
刘思琦
郎丛妍
冯松鹤
机构
北京交通大学计算机与信息技术学院
出处
《中国图象图形学报》
CSCD
北大核心
2019年第3期483-492,共10页
文摘
目的人群密度估计任务是通过对人群特征的提取和分析,估算出密度分布情况和人群计数结果。现有技术运用的CNN网络中的下采样操作会丢失部分人群信息,且平均融合方式会使多尺度效应平均化,该策略并不一定能得到准确的估计结果。为了解决上述问题,提出一种新的基于对抗式扩张卷积的多尺度人群密度估计模型。方法利用扩张卷积在不损失分辨率的情况下对输入图像进行特征提取,且不同的扩张系数可以聚集多尺度上下文信息。最后通过对抗式损失函数将网络中提取的不同尺度的特征信息以合作式的方式融合,得到准确的密度估计结果。结果在4个主要的人群计数数据集上进行对比实验。在测试阶段,将测试图像输入训练好的生成器网络,输出预测密度图;将密度图积分求和得到总人数,并以平均绝对误差(MAE)和均方误差(MSE)作为评价指标进行结果对比。其中,在Shanghai Tech数据集上Part_A的MAE和MSE分别降至60. 5和109. 7,Part_B的MAE和MSE分别降至10. 2和15. 3,提升效果明显。结论本文提出了一种新的基于对抗式扩张卷积的多尺度人群密度估计模型。实验结果表明,在人群分布差异较大的场景中构建的算法模型有较好的自适应性,能根据不同的场景提取特征估算密度分布,并对人群进行准确计数。
关键词
人群密度估计
多尺度
对抗式损失
扩张卷积
计算机视觉
人群安全
Keywords
crowd counting
multi-scale
adversarial loss
dilated convolutions
computer vision
crowd safety
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]