期刊文献+
共找到9,705篇文章
< 1 2 250 >
每页显示 20 50 100
柑橘黄龙病田间症状识别图像数据集 被引量:1
1
作者 池美香 陈韶萍 +3 位作者 黄婷 陈世雄 梁勇 邱荣洲 《中国科学数据(中英文网络版)》 2025年第1期45-54,共10页
柑橘黄龙病的快速识别有助于生产者尽早发现并清除柑橘黄龙病植株。基于深度学习的植物病害图像自动识别依赖于庞大的数据集,然而开放的可用于柑橘黄龙病识别的数据集非常有限。本研究通过手机或相机拍摄,整理了一组包含自然生态、白色... 柑橘黄龙病的快速识别有助于生产者尽早发现并清除柑橘黄龙病植株。基于深度学习的植物病害图像自动识别依赖于庞大的数据集,然而开放的可用于柑橘黄龙病识别的数据集非常有限。本研究通过手机或相机拍摄,整理了一组包含自然生态、白色背景板和黑色背景板3种采集环境的照片数据集,收录了包含黄龙病及相关病害症状共14种类别的图片9896张。其中,训练集样本7192张,验证集样本898张,测试集样本1806张(其中602个样本具有PCR检测结果)。样本的症状类别均由植保专家进行分类和标注以确定数据的质量和可靠性。本数据集提供了yolo格式(txt)的标注文件和基于Yolov5l训练获得的模型文件,以期为基于YOLO卷积神经网络的植物病害分类、目标检测和自动识别领域的机器学习建模提供训练和测试样本。 展开更多
关键词 黄龙病 柑橘病害 症状识别 图像识别 YOLO 数据
下载PDF
近60年中国群发性极端温度事件演变特征及数据集的建立
2
作者 况雪源 张耀存 +2 位作者 黄丹青 薛道凯 成柯蒙 《大气科学学报》 北大核心 2025年第2期207-216,共10页
基于中国区域1961—2020年逐日气温站点观测资料,考虑极端事件的时空关联性,利用群发性极端事件识别方法,对近60年中国群发性高温天气、酷热天气、极端高温、极端低温及剧烈降温等5类极端温度事件进行了识别并建立了数据集,分析了不同... 基于中国区域1961—2020年逐日气温站点观测资料,考虑极端事件的时空关联性,利用群发性极端事件识别方法,对近60年中国群发性高温天气、酷热天气、极端高温、极端低温及剧烈降温等5类极端温度事件进行了识别并建立了数据集,分析了不同类型群发性极端温度事件的演变特征。结果表明:群发性高温及酷热天气事件主要发生于夏季,高发区位于新疆地区和江淮流域,综合强度排名前十的事件有7次发生于2000年以后,且持续时间和影响范围显著增强;群发性剧烈降温事件主要发生于除夏季外的其余三个季节,内蒙古及东北南部发生频率最高,长江以南地区次之,近年来群发性剧烈降温事件发生频数略有下降,但持续时间、影响范围及降温强度却保持稳定;群发性极端高温事件和极端低温事件在全年全区域均有发生,在全球变暖背景下,前者各项指标呈显著上升趋势,而后者呈显著下降趋势。本数据集的建立为深入理解极端温度事件的演变规律及机理提供了数据基础。 展开更多
关键词 中国 群发性极端温度事件 演变特征 数据建立
下载PDF
VELSD1.0:面向深度学习的长白山火山喷发地貌遥感数据集
3
作者 李成范 韩晶鑫 +4 位作者 武成智 刘岚 颜丽丽 刘学锋 赵俊娟 《地质学报》 北大核心 2025年第2期616-630,共15页
作为保存最完整的多成因复合活火山之一,长白山火山喷发地貌场景中的地表覆盖类型广泛发育且遥感解译标签清晰。目前,遥感数据集是利用深度学习进行大区域火山喷发地貌场景遥感分类的数据基础。本文以哨兵2(Sentinel-2)遥感图像为数据源... 作为保存最完整的多成因复合活火山之一,长白山火山喷发地貌场景中的地表覆盖类型广泛发育且遥感解译标签清晰。目前,遥感数据集是利用深度学习进行大区域火山喷发地貌场景遥感分类的数据基础。本文以哨兵2(Sentinel-2)遥感图像为数据源,结合地质资料和野外调查建立了一个面向深度学习分类的长白山火山喷发地貌遥感数据集(VELSD1.0)。该数据集中地表覆盖类型包含高植被覆盖、中植被覆盖、低植被覆盖、裸露土壤、玄武岩、粗面岩、混合岩、水体、阴影、人工景观,组成元素包括遥感图像、标签数据、解译标签及说明文件;覆盖范围约2500 km^(2),共计40000个样本;单张样本图像尺寸为25像元×25像元,空间分辨率为10 m。利用经典的卷积神经网络(GoogLeNet、ResNet)和Transformer (Vision Transformer、Swin Transformer)模型对构建VELSD1.0数据集进行了验证和分析。结果表明,本数据集对深度学习模型具有良好的适用性和可迁移性,总体分类准确度、Kappa系数和多类平均精度分别达到82.93%、75.64%和84.22%。可为其他火山喷发地貌深度学习分类提供借鉴,提升火山地貌遥感调查的信息化和智能化。 展开更多
关键词 长白山 深度学习 数据 遥感图像 火山喷发地貌
下载PDF
基于语义分割的长白山火山岩性遥感数据集
4
作者 李成范 韩晶鑫 +5 位作者 盘晓东 刘岚 颜丽丽 康建红 刘学锋 肖舟怡 《岩石学报》 北大核心 2025年第4期1442-1453,共12页
火山岩性数据集是利用深度学习进行火山遥感岩性智能识别的关键和数据基础。当前,缺乏可信的火山岩性遥感数据集,制约了大区域、复杂地质环境下火山岩性智能识别的快速发展。本文在归纳和整合长白山火山岩性主要类型的基础上,以哨兵2(Se... 火山岩性数据集是利用深度学习进行火山遥感岩性智能识别的关键和数据基础。当前,缺乏可信的火山岩性遥感数据集,制约了大区域、复杂地质环境下火山岩性智能识别的快速发展。本文在归纳和整合长白山火山岩性主要类型的基础上,以哨兵2(Sentinel-2)遥感图像为数据源,结合地质资料和野外核查制作了一个基于深度学习语义分割的长白山火山岩性遥感数据集。该数据集内容包含遥感图像、标签数据、说明文件,岩性类型覆盖玄武质火山岩、粗面质火山岩、碱流质火山岩、火山岩性混合堆积(碎屑堆积、火山泥流堆积、火山空落堆积);共计36张样本图像,单张图像尺寸为395像元×395像元,空间分辨率为10m。利用经典的深度卷积神经网络(deep convolution neural network,DCNN)DeepLab V3+模型对火山岩性数据集进行了测试和验证,实验结果表明本文数据集具有较强的火山岩性描述能力,鲁棒性和泛化性较好,总体准确率均高于88%;特征训练与提取过程中人为干扰较少,自动化水平较高。可为火山岩性智能识别提供数据基础,提高野外火山遥感岩性调查的准确性和效率。 展开更多
关键词 长白山火山 语义分割 岩性数据 岩性识别 遥感图像
下载PDF
2000-2022年新疆天山地区多源降水融合数据集
5
作者 卢新玉 伏晓慧 +3 位作者 王秀琴 刘艳 火红 王敏仲 《中国科学数据(中英文网络版)》 2025年第1期390-398,共9页
天山山区属于我国典型的高寒山区,被誉为“中亚水塔”,对于新疆乃至中亚地区均具有重要意义。随着遥感技术的进步,利用卫星反演来估算山区降水量已成为一种重要方法,然而,由于山区地形复杂且分布不均,导致了基于卫星反演的降水数据在精... 天山山区属于我国典型的高寒山区,被誉为“中亚水塔”,对于新疆乃至中亚地区均具有重要意义。随着遥感技术的进步,利用卫星反演来估算山区降水量已成为一种重要方法,然而,由于山区地形复杂且分布不均,导致了基于卫星反演的降水数据在精度方面存在不足。针对此问题,本研究开展天山山区多源降水融合数据集研制,以GSMaP卫星降水数据为初始场,结合同期区域内1065个台站的实况日降水数据,发展一种基于最优插值的星地降水产品融合方法,最终生成2000–2022年天山山区逐日融合降水产品集。本数据集在研制过程中对实况数据进行了严格质控,对逐日融合降水数据进行了质量评估,相关系数由0.44提高至0.53(通过0.01水平显著性检验),绝对平均误差由6.3mm d^(-1)下降至5.7mm d^(-1)。本产品集有望为复杂地形区域的水资源管理与高效利用提供坚实的数据支持与科学支撑。 展开更多
关键词 天山山区 多源降水 最优插值 数据
下载PDF
人工智能辅助下残缺数据样本集补全算法与应用
6
作者 李洋 张镝 《微型电脑应用》 2025年第1期58-60,64,共4页
在补全残缺数据样本集的过程中,由于缺少评价数据样本集合的相似度导致数据值估计准确率低、补全程度低等问题,提出一种新的残缺数据样本集补全算法。通过插值模型构建残缺数据拟合函数,得到相似数据样本集。通过皮尔森相关系数评价相... 在补全残缺数据样本集的过程中,由于缺少评价数据样本集合的相似度导致数据值估计准确率低、补全程度低等问题,提出一种新的残缺数据样本集补全算法。通过插值模型构建残缺数据拟合函数,得到相似数据样本集。通过皮尔森相关系数评价相似数据样本集的相似度,得到残缺数据样本集补全权重。采用推荐算法计算最优推荐数值,实现残缺数据样本集的补全。实验结果表明,与现有残缺数据样本集补全算法相比,所提算法极大地提升了数据值的估计准确率与补全率,充分说明该算法具备更好的补全性能,能够保证各领域数据的完整性,具有较强的实际应用性。 展开更多
关键词 人工智能 残缺 数据样本 数据补全
下载PDF
人工智能在气象数据集研制中的应用综述
7
作者 李波 潘勐 孙越 《人民长江》 北大核心 2025年第1期88-96,共9页
长序列、高时空分辨率气象数据集对气象业务和科研具有重要意义,但是应用过程中存在数据质量低、空间分辨率不足等问题。随着人工智能的发展,机器学习以及深度学习算法在气象领域逐步开展应用。针对气象数据集研制中的技术难点问题,梳... 长序列、高时空分辨率气象数据集对气象业务和科研具有重要意义,但是应用过程中存在数据质量低、空间分辨率不足等问题。随着人工智能的发展,机器学习以及深度学习算法在气象领域逐步开展应用。针对气象数据集研制中的技术难点问题,梳理了人工智能技术的4个关键应用场景,即观测数据的质量控制、缺测数据的插补和重构、多源数据的融合以及低分辨网格数据的降尺度,对各类机器学习模型在上述场景应用中的优势和不足进行了综述,并采用文献计量方法对研究前沿及发展趋势进行了定量分析。研究表明:相比传统方法,人工智能算法在计算效率、结果准确性、应用灵活性等方面更具竞争力。建议从建立高质量训练数据集、加强多源数据和异构数据的应用以及探索基于气象数据物理机制的建模等多个方面,进一步推动人工智能在气象数据产品研制中的应用。 展开更多
关键词 气象数据 人工智能 机器学习 深度学习 质量控制 降尺度
下载PDF
基于SAM和pix2pix的商品数据集生成网络
8
作者 于惠钧 邹志豪 康帅 《电子技术应用》 2025年第4期23-28,共6页
针对商品包装快速变换带来的商品数据集采集和标注过程繁琐的问题,设计了一种基于SAM和pix2pix的商品数据集生成网络。该网络以单个商品多角度图像作为输入,生成与实际结算场景相近似的数据集。在RPC大型商品数据集上进行数据集生成,在Y... 针对商品包装快速变换带来的商品数据集采集和标注过程繁琐的问题,设计了一种基于SAM和pix2pix的商品数据集生成网络。该网络以单个商品多角度图像作为输入,生成与实际结算场景相近似的数据集。在RPC大型商品数据集上进行数据集生成,在YOLOv7、Fast R-CNN、AlexNet三种目标检测网络上验证生成数据集对目标检测效果的提升。实验结果表明,生成数据集融合到原数据集后用于训练模型能够有效提升商品识别准确率,并且与真实数据集相比具有较好的替代性。相较于原数据集,融合生成数据集三个网络上识别精度分别提升7.3%、4.9%、7.8%。通过该方法,显著提高了模型训练的效率与实用性,减轻传统商品数据集采集与标注所需的人力物力投入。 展开更多
关键词 商品识别 SAM pix2pix 数据生成
下载PDF
新疆棉田主要昆虫图像数据集CottonInsect 被引量:1
9
作者 杨满仙 陈燕红 +1 位作者 李雨晴 李永可 《中国科学数据(中英文网络版)》 2025年第1期55-65,共11页
棉花是新疆重要经济作物,由于种植结构调整、农药不合理使用与气候变化等原因,棉花易受多种虫害侵袭,影响其产量与品质。因此,构建复杂场景下棉田昆虫图像数据集对棉田害虫综合治理具有基础性意义。本文构建了复杂场景下新疆棉田主要昆... 棉花是新疆重要经济作物,由于种植结构调整、农药不合理使用与气候变化等原因,棉花易受多种虫害侵袭,影响其产量与品质。因此,构建复杂场景下棉田昆虫图像数据集对棉田害虫综合治理具有基础性意义。本文构建了复杂场景下新疆棉田主要昆虫图像数据集,用于真实环境下棉田昆虫的识别与检测。本数据集包含13种(类)常见的棉田昆虫,共3225张图像,原始图像共24 GB,均通过严格筛选,确保图像质量。对每张图像的棉田昆虫进行人工标注,构建图像分类数据集和目标检测数据集,数据集大小共29.7 GB。使用常见的深度学习模型对数据集进行评估,确保数据集的可用性和可靠性。本数据为棉田昆虫图像分类、目标检测等提供基础数据,对促进农业领域的发展、棉花虫害防治研究及提高棉花产量具有重要的实际应用价值。 展开更多
关键词 棉田昆虫 CottonInsect数据 图像分类 目标检测
下载PDF
辽宁绥中富士苹果花药开裂散粉状态表型数据图集ABP51 被引量:1
10
作者 常戬 尹龙 +3 位作者 李壮 李燕青 李兆歆 乔龙 《中国科学数据(中英文网络版)》 2025年第1期98-111,共14页
不同品种之间的异花授粉过程对提高苹果花的受精结实有关键作用,而授粉株苹果花的散粉状态直接影响苹果花的授粉过程。因此,表征观察苹果花的散粉状态具有重要生物学意义和生产意义,其花粉也为许多昆虫提供食物,对维持生态平衡起到重要... 不同品种之间的异花授粉过程对提高苹果花的受精结实有关键作用,而授粉株苹果花的散粉状态直接影响苹果花的授粉过程。因此,表征观察苹果花的散粉状态具有重要生物学意义和生产意义,其花粉也为许多昆虫提供食物,对维持生态平衡起到重要作用。为建设现代化智慧果园,系统监测授粉树苹果花在盛花期的散粉情况,本研究通过苹果园现场图像拍摄采集与增强处理构建了真实环境下的富士苹果散粉花数据集,用于盛花期富士苹果散粉花识别分类。本数据集包含2460张盛花期富士苹果花基础图像和8490张苹果花增强图像,分为散粉花和原态花,数据集大小共38.68GB,于绥中县西甸子镇杨家村坡山洞屯苹果基地由研究人员进行拍摄并严格筛选制作,确保图像质量,且通过常用深度学习模型验证,保证本数据集的可用性与可靠性。本数据集为富士苹果散粉花的多领域研究,提供可靠基础数据,弥补了常见花类数据集中反映苹果花散粉生理表征形态数据的不足,为苹果花粉生理表征研究提供了新的视角,在智慧农业、生态监测和果园管理领域展现出广泛的潜在应用价值。 展开更多
关键词 苹果花 苹果花药 散粉状态 ABP51数据 花分类 图像分类
下载PDF
基于高可用集群的服务化EPICS与数据处理方式
11
作者 李宇鲲 杜垚垚 +6 位作者 叶强 岳军会 随艳峰 魏书军 许亮 谢友朋 曹建社 《强激光与粒子束》 北大核心 2025年第1期77-83,共7页
提出了一种基于Proxmox VE平台搭建的高可用Kubernetes集群下的新型服务化EPICS与新型前端数据获取方式,以提高数据采集系统的性能和稳定性。通过将EPICS服务化部署在Kubernetes集群上,实现了全新高效的前端数据处理及获取方式。数据获... 提出了一种基于Proxmox VE平台搭建的高可用Kubernetes集群下的新型服务化EPICS与新型前端数据获取方式,以提高数据采集系统的性能和稳定性。通过将EPICS服务化部署在Kubernetes集群上,实现了全新高效的前端数据处理及获取方式。数据获取方式利用基于Channel Access协议的分布式数据共享,对数据进行实时处理和分析。该方法具有降低硬件和维护成本、提高可移植性和灵活性、提高数据采集和处理效率等优势。实际应用和测试表明,该方法具有在大型科学设施中应用的潜力,未来将探索其在其他领域的应用价值。 展开更多
关键词 EPICS Docker容器 Kubernetes 数据处理 分布式系统
下载PDF
基于最小数据集的云南橡胶林土壤质量评价
12
作者 张和芬 孙瑞 +3 位作者 杨川 张盈盈 符庆茂 吴志祥 《西北林学院学报》 北大核心 2025年第1期59-69,103,共12页
为了评估云南橡胶林土壤质量,以云南省河口、瑞丽、景洪3个典型橡胶产区5个不同林龄段(幼、中、近熟、成熟和过熟林)橡胶林土壤为研究对象,采集并分析0~10、11~20 cm和21~40 cm深度的土壤样品。将土壤容重、含水量、硝态氮、铵态氮、全... 为了评估云南橡胶林土壤质量,以云南省河口、瑞丽、景洪3个典型橡胶产区5个不同林龄段(幼、中、近熟、成熟和过熟林)橡胶林土壤为研究对象,采集并分析0~10、11~20 cm和21~40 cm深度的土壤样品。将土壤容重、含水量、硝态氮、铵态氮、全氮、速效磷、全磷、速效钾、全钾、pH、有机质、脲酶、纤维素酶、过氧化氢酶、蔗糖转化酶等作为评价指标,运用主成分分析、相关性分析,结合Norm值筛选,构建土壤质量综合指数(SQI),对土壤质量进行定量评价。结果表明,土壤容重、硝态氮、全氮、全磷、全钾、有机质、脲酶7项指标进入最小数据集;SQI-TDS的范围0.29~0.56,平均值0.39,变异系数14.67%;SQI-MDS的最小值0.20,最大值0.53,平均值0.34,变异系数18.88%;相关性分析显示,2种评价结果具有较好的相关性。土壤质量综合指数随着定植年限的增长呈略微先降低后增加的趋势;3个植胶区土壤质量以三级和四级为主,土壤质量排序为景洪>河口>瑞丽。 展开更多
关键词 土壤质量评价 主成分分析 最小数据 橡胶林 云南
下载PDF
HydroSHEDS数据集在气候变化与生物多样性演变中的应用
13
作者 侯紫茜 郑栋宇 +4 位作者 向芳 白洁 陈安清 马超 侯明才 《高校地质学报》 北大核心 2025年第2期238-254,共17页
气候和生物多样性的变化影响着环境,也是环境变化影响的产物。HydroSHEDS数据集基于流域水文基础信息整理汇编了多源的全球自然—人文数据,形成了12级嵌套流域数据集,能够为研究流域环境特征对气候变化、物种分布的影响等提供重要支撑... 气候和生物多样性的变化影响着环境,也是环境变化影响的产物。HydroSHEDS数据集基于流域水文基础信息整理汇编了多源的全球自然—人文数据,形成了12级嵌套流域数据集,能够为研究流域环境特征对气候变化、物种分布的影响等提供重要支撑。该研究通过分析HydroSHEDS数据集内容及其应用实例,总结了数据集在现代与第四纪以来气候变化与生物多样性演变方面的研究价值。结果表明:(1)HydroSHEDS v1包含全球范围的基础流域信息(流向、流量累积网格、河网)以及6个大类(水文、地形、气候、土壤与地质、土地覆被与利用以及人类影响)共56个变量281个属性信息;(2)采用HydroSHEDS基础数据或其核心数据可以进行现代与深时气候变化方面研究,包括模型模拟得出气候对地表系统其他组成的影响、计算流域属性特征与温室气体浓度变化的关系、代理数据定量评估以改进气候模型的降水和蒸发重建等;(3)通过直接叠加或整合加权HydroSHEDS数据集提供的环境属性,能够分析其对物种生境或实际分布范围的影响,以模拟物种在当前和未来的潜在分布;(4)尽管HydroSHEDS可以用作地表系统分析与应用的先决条件,但由于其记录的环境属性信息存在一定的滞后性,在时间序列研究中仅可作为辅助数据,丰富HydroSHEDS的时间序列数据,有望为气候预测以及深时气候研究提供数据支持。 展开更多
关键词 HydroSHEDS HydroATLAS 流域 气候变化 生物多样性 全球数据
下载PDF
NCIFD:面向大模型的民族文化微调数据集
14
作者 罗鹤 张廷 +2 位作者 孙媛 朋毛才让 达哇才仁 《中文信息学报》 北大核心 2025年第2期41-51,共11页
在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向... 在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向民族文化领域,收集整理了《中国民族百科全书》《中国服饰大典》等18本民族文化相关书籍,进行清洗过滤之后,基于Self-QA框架,使用大语言模型自动生成问答对。同时根据书籍的内容,人工编写了58条民族文化种子指令集,利用这些种子指令集,基于Self-Instruct框架,使用GPT-3.5自动生成指令、输入和输出样本。将两种方式获取的数据集通过多种方式过滤,构建了民族文化指令微调数据集NCIFD(National Culture Instruction-Following Dataset)。通过在ChatGLM-6B、LLaMA-2-7B等主流开源模型上进行了微调实验,实验结果显示,微调Base模型回复准确性与Chat版本模型相比平均提升了6.6%,验证了数据集的有效性和可用性。该数据集为面向民族文化领域的大模型微调提供了支撑,对于推动民族文化在自然语言处理领域的发展具有重要意义。作者将NCIFD部分资源开放供研究使用:https://github.com/letsgoLakers/NCIFD。 展开更多
关键词 大语言模型 民族文化 指令微调 数据
下载PDF
大语言模型故事理解能力评价数据集
15
作者 闫国航 郭亚鑫 +1 位作者 谭红叶 张虎 《中文信息学报》 北大核心 2025年第2期52-62,共11页
故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集... 故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现于原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,该文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程:先进行常识推理,然后理解故事寓意,设计了两个任务来评价模型的相应能力。基于CSMUS数据集,该文对多个代表性的LLMs进行了评估,发现LLMs已经可以较好地理解故事中的常识并进行推理,但在理解故事寓意方面还存在很大提升空间。此外,该文使用项目反应理论(IRT)对数据集进行了质量分析,表明该数据集是高质量的,可以有效评估LLMs。 展开更多
关键词 故事理解 常识推理 数据 项目反应理论
下载PDF
中文动词实现状态数据集构建
16
作者 徐进 辛欣 《中文信息学报》 北大核心 2025年第2期27-40,共14页
判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面... 判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面,中文动词实现状态缺乏标注规范;另一方面,缺乏相关的中文语料。针对目前中文动词实现状态缺乏标注规范的问题,该文在英文规范的基础上,分析《人民日报》中文语料,结合时间提示词、句式等信息,总结了中文动词实现状态标注规范。针对中文目前缺少动词实现状态相关语料的问题,该文构建了中文动词实现状态数据集,包括5430条语句和21226个中文动词实例。实验表明,神经网络模型在处理描述客观规律以及缺少时间提示词等情况下的分类时还欠准确。 展开更多
关键词 中文动词实现状态 数据构建
下载PDF
数据和知识双驱动的空中集群目标作战意图识别
17
作者 李洋军 黄琦龙 +1 位作者 杨力 陈旭 《兵工学报》 北大核心 2025年第2期135-144,共10页
针对集群目标空间特性多元时变和传统数据驱动模型过分依赖经验样本等问题,提出一种针对集群目标的数据和知识双驱动作战意图识别方法。考虑集群目标空间形态等编队特点,构造基于目标编队外包络线和最小外接矩形的集群特征向量,增强敌... 针对集群目标空间特性多元时变和传统数据驱动模型过分依赖经验样本等问题,提出一种针对集群目标的数据和知识双驱动作战意图识别方法。考虑集群目标空间形态等编队特点,构造基于目标编队外包络线和最小外接矩形的集群特征向量,增强敌情数据的特征表达效果;建立基于专家经验的知识模型和结合注意力机制的长短期记忆(Long short-term memory,LSTM)网络模型,基于专家经验的知识模型根据约束规则生成意图预识别向量,LSTM模型预测输出意图概率分布的残差;利用一种可学习的残差估计器结构,自适应调整双模型的融合比率,并设计多目标损失函数控制双模型的影响权重,最终通过双模型的融合有效克服传统数据模型高精度和数据样本不足的矛盾。实验表明,提出方法的精度相比LSTM和Attention-LSTM分别提升约5.34%和4.98%,且对样本量的依赖性显著低于传统数据驱动方法。 展开更多
关键词 群目标 作战意图 数据驱动 知识驱动 注意力机制
下载PDF
被动雷达低慢小探测数据集(LSS-PR-1.0)及多域特征提取和分析方法
18
作者 陈小龙 饶桂林 +6 位作者 关键 王金豪 王洪永 张财生 易建新 万显荣 饶云华 《雷达学报(中英文)》 北大核心 2025年第2期249-268,共20页
被动雷达在预警探测和低慢小目标(LSS)检测中具有重要作用。由于被动雷达信号辐射源不可控,目标特性更为复杂,导致检测和识别极其困难。该文构建了被动雷达低慢小探测数据集(LSS-PR-1.0),该数据集包含了直升机、无人机、快艇、客轮4种... 被动雷达在预警探测和低慢小目标(LSS)检测中具有重要作用。由于被动雷达信号辐射源不可控,目标特性更为复杂,导致检测和识别极其困难。该文构建了被动雷达低慢小探测数据集(LSS-PR-1.0),该数据集包含了直升机、无人机、快艇、客轮4种典型海空目标的雷达回波信号,以及低高海况的海杂波数据,为该领域研究提供了数据支撑。在目标特征提取和分析方面,首先采用奇异值分解海杂波抑制方法,去除海杂波强Bragg峰对目标回波的影响。在此基础上,提出4类10种多域特征提取和分析方法,包括时域特征(相对平均幅度)、频域特征(频谱特征、多普勒瀑布图、距离多普勒特征)、时频域特征、运动特征(航向差、航迹参数、速度变化区间、速度变异系数、加速度)等。基于实测数据对4种海空目标特性进行了对比分析,总结各类目标特性规律,为后续目标识别奠定了基础。 展开更多
关键词 低慢小目标 被动雷达 海杂波抑制 多域特征提取 特性分析 公开数据
下载PDF
可解释性逻辑推理数据集的构建和研究
19
作者 肖宇 肖菁 +3 位作者 林桂锦 倪荣森 冼嘉荣 袁基保 《计算机工程与应用》 北大核心 2025年第4期114-121,共8页
逻辑推理能力对于机器和人类理解自然语言具有重要的意义。逻辑推理问题的解释是对逻辑推理过程的阐述和说明,但在已有的测试机器逻辑推理能力的数据集中缺乏这种解释信息。针对该问题,创建了一个可解释性逻辑推理的中英文数据集(explai... 逻辑推理能力对于机器和人类理解自然语言具有重要的意义。逻辑推理问题的解释是对逻辑推理过程的阐述和说明,但在已有的测试机器逻辑推理能力的数据集中缺乏这种解释信息。针对该问题,创建了一个可解释性逻辑推理的中英文数据集(explainable logical reasoning,Ex-LoR),该数据集包含3411个逻辑推理问题与解释数据,并按照推理方法将这些问题分为六类。共设计两个任务:逻辑推理问答任务和解释生成任务。利用多个语言模型在该数据集上进行实验与分析,实验结果表明,现有语言模型尚不能很好地对逻辑推理问题进行解答并生成合理的解释,因此让机器掌握逻辑推理能力具有一定的挑战性。提出的逻辑推理数据集与实验结果可作为后续研究的基准。 展开更多
关键词 逻辑推理 中英文数据 可解释性 自然语言处理
下载PDF
DroneRFb-DIR:用于非合作无人机个体识别的射频信号数据集
20
作者 任俊宇 俞宁宁 +2 位作者 周成伟 史治国 陈积明 《电子与信息学报》 北大核心 2025年第3期573-581,共9页
无人机射频检测是实现非合作无人机管控的手段之一,而基于射频信号的无人机个体识别(DIR)是无人机检测的重要环节。鉴于当前DIR开源数据集缺失,该文公开了一个名为DroneRFb-DIR的无人机射频信号数据集。该数据集使用软件无线电设备采集... 无人机射频检测是实现非合作无人机管控的手段之一,而基于射频信号的无人机个体识别(DIR)是无人机检测的重要环节。鉴于当前DIR开源数据集缺失,该文公开了一个名为DroneRFb-DIR的无人机射频信号数据集。该数据集使用软件无线电设备采集无人机与遥控器间通信的射频信号,包含城市场景下的无人机种类共6类(每类无人机各包含3架不同个体)以及1类背景参考信号。采样信号存储为最原始的I/Q数据,每类数据包含不少于40个片段,每个片段包含不少于4 M个采样点。信号采集范围为2.4~2.48 GHz,包含无人机飞控信号、图传信号以及周围干扰设备的信号。该数据集包含详细的个体编号和视距或非视距场景标注,并已划分训练集与测试集,以便于用户进行识别算法验证和性能对比分析。与此同时,该文提供了一种基于快速频率估计和时域相关分析的无人机个体识别方法,并在该数据集上验证了所提方法的有效性。 展开更多
关键词 无人机个体识别 频谱感知 非合作无人机 射频检测数据
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部