期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
智能物探技术的过去、现在与未来
1
作者 杨午阳 魏新建 李海山 《岩性油气藏》 CAS CSCD 北大核心 2024年第2期170-188,共19页
通过梳理国内外人工智能技术在地球物理勘探(物探)领域中的发展历程、主要研究进展以及发展方向,总结了智能物探的优势和面临的难题,并提出了解决方案。研究结果表明:(1)物探技术在人工智能发展的第2次浪潮中开始与人工智能技术相结合,... 通过梳理国内外人工智能技术在地球物理勘探(物探)领域中的发展历程、主要研究进展以及发展方向,总结了智能物探的优势和面临的难题,并提出了解决方案。研究结果表明:(1)物探技术在人工智能发展的第2次浪潮中开始与人工智能技术相结合,得益于物探领域数据量的指数级增长、硬件算力的高速发展以及不断出现的新深度学习框架,智能物探技术从早期的机器学习发展为目前的深度学习,在地震资料处理、解释等方面的应用中取得了大量研究成果。(2)目前智能物探技术被广泛应用于标签集的构建、去噪、断裂检测、层位与层序解释、地震相分类和异常体检测、岩性识别与油气藏开发、地震反演成像等方面,大幅提高了工作效率,降低了工作成本,克服了人工交互操作和人工经验的主观性和不可靠性,助力打破传统物探技术瓶颈。(3)智能物探技术的发展面临着缺少公开的标签数据集、缺少解决地球物理领域问题的智能化框架及尚未形成适用于地球物理领域共享的智能化开发平台等难题,可以从解决数据基础、构建智能平台、开展网络架构基础性研究及与应用场景结合等方面着手解决;此外,智能物探技术的发展方向还包含智能地震成像方法研究,储层成像方法研究,油气大数据挖掘、智能风险评估与智能决策以及超算软件装备研发等方面。 展开更多
关键词 智能物探 大数据 人工智能 机器学习 深度学习 标签数据集 深度学习框架 智能处理与解释 地震资料
下载PDF
基于预训练模型和Transformer架构的大数据与计算机类科普书籍难度分类研究
2
作者 黄启洲 《软件》 2024年第7期153-155,共3页
针对当前研究在书籍级长文本可读性评估方面的不足,本文提出了一种新颖的PTDE-CAC模型。该模型将书籍分割为固定片段,利用无监督聚类获取难度感知片段,对预训练模型进行再训练,使其学习难度知识,将长文本表示为多个不同难度级别的向量... 针对当前研究在书籍级长文本可读性评估方面的不足,本文提出了一种新颖的PTDE-CAC模型。该模型将书籍分割为固定片段,利用无监督聚类获取难度感知片段,对预训练模型进行再训练,使其学习难度知识,将长文本表示为多个不同难度级别的向量。本文构建了大数据、计算机科普教材分级数据集,实验证明PTDE-CAC模型在可读性评估中表现优异,优于传统方法和现有预训练模型。本工作为书籍级可读性评估提供了新思路,也为相关教材编写选择提供了参考。 展开更多
关键词 书籍级长文本 可读性评估 PTDE-CAC模型 难度感知预训练 多视角表示 大数据 计算机科普教材分级数据集
下载PDF
Generation of DDoS Attack Dataset for Effective IDS Development and Evaluation
3
作者 Sabah Alzahrani Liang Hong 《Journal of Information Security》 2018年第4期225-241,共17页
Distributed Denial of Service (DDoS) attacks are performed from multiple agents towards a single victim. Essentially, all attacking agents generate multiple packets towards the victim to overwhelm it with requests, th... Distributed Denial of Service (DDoS) attacks are performed from multiple agents towards a single victim. Essentially, all attacking agents generate multiple packets towards the victim to overwhelm it with requests, thereby overloading the resources of the victim. Since it is very complex and expensive to conduct a real DDoS attack, most organizations and researchers result in using simulations to mimic an actual attack. The researchers come up with diverse algorithms and mechanisms for attack detection and prevention. Further, simulation is good practice for determining the efficacy of an intrusive detective measure against DDoS attacks. However, some mechanisms are ineffective and thus not applied in real life attacks. Nowadays, DDoS attack has become more complex and modern for most IDS to detect. Adjustable and configurable traffic generator is becoming more and more important. This paper first details the available datasets that scholars use for DDoS attack detection. The paper further depicts the a few tools that exist freely and commercially for use in the simulation programs of DDoS attacks. In addition, a traffic generator for normal and different types of DDoS attack has been developed. The aim of the paper is to simulate a cloud environment by OMNET++ simulation tool, with different DDoS attack types. Generation normal and attack traffic can be useful to evaluate developing IDS for DDoS attacks detection. Moreover, the result traffic can be useful to test an effective algorithm, techniques and procedures of DDoS attacks. 展开更多
关键词 DDOS IDS SIGNATURE ANOMALY Cloud Machine Learning big Data dataset Simulation Traffic Generator
下载PDF
基于产量反应和农学效率的玉米智能化推荐施肥方法研究
4
作者 徐新朋 何萍 周卫 《植物营养与肥料学报》 CAS CSCD 北大核心 2023年第10期1820-1829,共10页
【目的】玉米产量高,需肥量大,亟需在保证玉米产量前提下,通过科学施肥实现肥料减施增效。本文基于产量反应和农学效率大数据,建立并开展田间试验校验了玉米智能化推荐施肥方法。【方法】以“玉米”、“玉米+产量”、“玉米+养分吸收”... 【目的】玉米产量高,需肥量大,亟需在保证玉米产量前提下,通过科学施肥实现肥料减施增效。本文基于产量反应和农学效率大数据,建立并开展田间试验校验了玉米智能化推荐施肥方法。【方法】以“玉米”、“玉米+产量”、“玉米+养分吸收”、“玉米+肥料利用率”为关键词及关键词组合,收集了来自于国际植物营养研究所中国项目部、团队研究以及公开发表的多年多点玉米田间肥料试验数据,采用QUEFTS模型分析玉米养分吸收特征,优化施肥下玉米产量反应,农学效率和相对产量等农学参数,构建玉米养分专家系统。于2010—2019年在玉米主产区开展了803个田间校验试验,每个试验包括6个处理:基于玉米养分专家系统推荐施肥(NE)、农民习惯施肥(FP)、土壤测试施肥(ST)以及基于NE处理的不施氮、不施磷和不施钾处理。调查了施肥量、玉米产量、经济效益和肥料利用率。【结果】依据QUEFTS模型分析,生产1 t籽粒,地上部氮、磷和钾养分需求量春玉米分别为15.9、4.1和13.8 kg,夏玉米分别为17.8、4.0和15.8 kg;玉米主产区氮、磷和钾肥的平均产量反应春玉米分别为2.9、1.5和1.4 t/hm^(2),夏玉米分别为1.9、1.1和1.1 t/hm^(2);氮、磷和钾肥平均农学效率春玉米分别为15.0、18.9和16.1 kg/kg,夏玉米分别为10.8、16.8和12.3 kg/kg;土壤氮、磷和钾养分对产量的贡献率春玉米分别为73%、86%和87%,夏玉米分别为79%、87%和88%。田间校验结果显示,与FP和ST处理相比,NE处理分别减施氮肥用量29.3%和14.3%,减施磷肥用量17.3%和7.5%;增加玉米产量0.4和0.1 t/hm^(2),提高经济效益797和354元/hm^(2);提高氮肥利用回收率10.6和3.8个百分点,提高农学效率4.6和2.0 kg/kg;提高磷肥回收利用率8.0和3.1个百分点,提高农学效率6.5和1.5 kg/kg;提高钾肥回收利用率9.6和3.4个百分点,提高农学效率0.8和0.3 kg/kg。【结论】经过验证,利用基于产量反应和农学效率大数据建立的玉米养分专家系统进行施肥推荐,较基于土壤测试的推荐施肥方法节省了肥料用量,提高了玉米产量、经济效益和养分利用率,是适合我国国情的玉米轻简高效推荐施肥方法。 展开更多
关键词 玉米养分专家系统 大数据 推荐施肥 产量反应 肥料利用率 QUEFTS模型
下载PDF
基于深度学习与运动信息的动作识别算法 被引量:4
5
作者 吴志攀 郑中韦 《计算机工程与设计》 北大核心 2018年第8期2668-2674,共7页
为提高视频中人体小幅度动作识别的准确率以及对大规模数据集的计算效率,提出一种基于双层核极限学习机与深度学习技术的动作识别算法。在双层核极限学习机的第一层,采用线性核极限学习机学习密集轨迹特征与深度学习特征;在第二层,将密... 为提高视频中人体小幅度动作识别的准确率以及对大规模数据集的计算效率,提出一种基于双层核极限学习机与深度学习技术的动作识别算法。在双层核极限学习机的第一层,采用线性核极限学习机学习密集轨迹特征与深度学习特征;在第二层,将密集轨迹特征与深度学习特征进行融合。在深度学习特征中,将深度视频特征与视频RGB三色特征融合作为深度学习的特征。基于大规模真实数据集与小幅度手势数据集进行仿真实验,实验结果表明,该算法对大规模数据集与小幅度的手势动作具有较高的识别准确率。 展开更多
关键词 极限学习机 密集轨迹 深度学习 卷积神经网络 运动信息 人体动作识别 大规模数据集
下载PDF
一种云计算环境下大数据动态迁移策略 被引量:12
6
作者 张晋芳 王清心 +2 位作者 丁家满 刘彦君 黄心 《计算机工程》 CAS CSCD 北大核心 2016年第5期13-17,共5页
云计算环境中大数据应用在数据迁移方面遇到各种问题,主要表现为如何在迁移过程中减少网络访问次数,减少全局时间消耗,以及在提高效率的同时兼顾全局的负载均衡等。为此,对数据迁移进行建模,描述动态迁移策略,分别针对策略中的全局时间... 云计算环境中大数据应用在数据迁移方面遇到各种问题,主要表现为如何在迁移过程中减少网络访问次数,减少全局时间消耗,以及在提高效率的同时兼顾全局的负载均衡等。为此,对数据迁移进行建模,描述动态迁移策略,分别针对策略中的全局时间消耗、网络访问次数和全局负载均衡3个参数进行求解,并在云计算仿真平台Cloudsim下进行实验。结果表明,使用数据动态迁移策略后,任务完成时间比Zipf分布减少约10%,网络访问次数低于原始Zipf分布并趋于稳定;全局负载均衡方面,节点存储空间方差趋于0。 展开更多
关键词 云计算 大数据 负载均衡 数据迁移 网络访问 数据集
下载PDF
基于Spark的大数据混合计算模型 被引量:56
7
作者 胡俊 胡贤德 程家兴 《计算机系统应用》 2015年第4期214-218,共5页
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几... 现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(Graph X).Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性.因此,随着系统的不断稳定和成熟,Spark有望成为与Hadoop共存的新一代大数据处理系统和平台.本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用. 展开更多
关键词 大数据 混合计算模式 SPARK 弹性分布数据集
下载PDF
一种基于密度的空间聚类算法
8
作者 王晓洁 方丽娜 《新乡学院学报》 2008年第1期59-61,共3页
针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法,基于密度的空间聚类算法可以有效地过滤噪声和孤立点数据,该算法在对于处理较大数据集上具有较大优势。
关键词 空间聚类算法 密度 DBSCAN 较大数据集
下载PDF
不均衡大数据集下的文本特征基因提取方法 被引量:7
9
作者 孙晶涛 张秋余 《电子科技大学学报》 EI CAS CSCD 北大核心 2018年第1期125-131,共7页
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然... 在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。 展开更多
关键词 CHI统计选择方法 不均衡大数据集 独立成分分析 信息熵 文本特征基因提取
下载PDF
Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量:20
10
作者 李成严 辛雪 +1 位作者 赵帅 冯世祥 《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页
针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计... 针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 展开更多
关键词 大数据 关联规则挖掘 频繁项集 Spark弹性分布式数据集 MAPREDUCE框架
下载PDF
基于大数据的图书馆异构数据整合机制研究 被引量:8
11
作者 马晓亭 《现代情报》 CSSCI 北大核心 2015年第8期47-50,共4页
数据整合对提高图书馆的数据处理与共享能力,进而提升数据有效性、可用性和优化决策等能力有重要意义。本文提出了一种基于大数据的图书馆异构数据整合机制,该机制可提高图书馆大数据的利用效率,并有助于实现图书馆的信息资源整合。
关键词 大数据 图书馆 异构数据 整合机制
下载PDF
基于MPI的并行大数据集生成器
12
作者 葛旭冉 刘洋 +1 位作者 陈志广 肖侬 《计算机工程与科学》 CSCD 北大核心 2022年第7期1152-1161,共10页
大数据处理分析算法在优化研究过程中,速度常常受限于数据集的规模。在数据集体量不足时,算法的通信时间往往要高于真正的计算时间,无法验证真实的效果。故设计实现了一个大数据集生成器,为运行在超级计算机上的并行大数据处理分析算法... 大数据处理分析算法在优化研究过程中,速度常常受限于数据集的规模。在数据集体量不足时,算法的通信时间往往要高于真正的计算时间,无法验证真实的效果。故设计实现了一个大数据集生成器,为运行在超级计算机上的并行大数据处理分析算法提供基准测试数据集。首先,使用MPI并行编程技术构造了一个并行随机数生成器,在此基础上设计实现了可控制规模及复杂性的人工数据集,主要包括:分类和聚类数据集、回归数据集、流形学习数据集和因子分解数据集等。其次,设计了大数据集生成器的I/O系统,提供MPI-I/O并行读、写数据集的接口,并设置了数据集在不同进程间的分发、映射规则,通过点对点通信实现不同节点之间的数据交互。实验结果表明,并行大数据集生成器有效提高了数据生成效率和生成规模,为并行大数据处理分析算法提供了高质量、大体量的测试数据集。 展开更多
关键词 MPI 大数据集生成器 I/O系统 并行大数据处理算法 算法测试
下载PDF
基于医疗大数据的上海市嘉定区冠心病患者多病共存模式研究
13
作者 汤鸣秋 石建伟 +3 位作者 周良 巩昕 孙朝珺 周鹰 《中华全科医学》 2024年第6期903-906,共4页
目的分析上海市嘉定区冠心病患者多病共存现状与模式,为冠心病多病共存精准管理提供理论依据和数据支撑。方法收集上海市嘉定区全部医疗机构2020年12月—2021年12月的192060例冠心病患者的诊疗数据,分析其多病共存现状,通过Apriori算法... 目的分析上海市嘉定区冠心病患者多病共存现状与模式,为冠心病多病共存精准管理提供理论依据和数据支撑。方法收集上海市嘉定区全部医疗机构2020年12月—2021年12月的192060例冠心病患者的诊疗数据,分析其多病共存现状,通过Apriori算法进行关联规则分析,挖掘关键共病病种,通过2-STEP聚类法,探索主要疾病的共病模式。结果192060例冠心病患者中有166969人存在多病共存(86.94%)。女性共病占比(98802人,87.18%)略高于男性(68167人,86.59%,χ^(2)=695.555,P<0.001)。随年龄递增共病占比显著增加,18~60岁组、61~75岁组和75岁以上组分别为18017人(73.46%)、87180人(86.94%)和61772人(91.85%),Z=-13.704,P<0.001。多病共存以2~4种为主,高血压(支持度为71.59%)和慢性胃肠炎(支持度为49.96%)为主要共病病种。聚类分析发现5种典型共病模式:诱发因素共病、合并症共病、心血管-代谢共病、循环系统共病和多系统混合共病。结论冠心病具有高共病比例、共病人群差异化、共病病种高集中度和共病模式典型等特征,提示应根据这些典型特征,在主动健康、多重用药、延缓病程等方面研制差异化防控策略。 展开更多
关键词 冠心病 多病共存模式 关联分析 聚类分析 医疗大数据
下载PDF
基于网络安全大数据的靶标系统构建分析
14
作者 王新可 《电子技术(上海)》 2024年第7期398-399,共2页
阐述靶标系统与网络安全大数据的深度融合,提供一种全新的安全防御思路。探讨靶标系统在网络安全领域的定义与功能,分析网络安全大数据集和漏洞靶标环境的构建过程。
关键词 靶标系统 网络安全大数据 数据集构建
原文传递
社会经济数据空间化现状与发展趋势 被引量:14
15
作者 吴吉东 王旭 +2 位作者 王菜林 何鑫 叶梦琪 《地球信息科学学报》 CSCD 北大核心 2018年第9期1252-1262,共11页
行政单元的社会经济统计数据与地理单元的要素数据之间存在空间不匹配的问题,很难满足自然与人文交叉学科研究的需要。本文首先对社会经济数据空间化指标和方法进行了总结,发现空间化研究主要集中在人口与国内生产总值指标,对资本存量... 行政单元的社会经济统计数据与地理单元的要素数据之间存在空间不匹配的问题,很难满足自然与人文交叉学科研究的需要。本文首先对社会经济数据空间化指标和方法进行了总结,发现空间化研究主要集中在人口与国内生产总值指标,对资本存量、房屋等其他社会经济指标的空间化研究相对较少;根据空间化的思路和方法差异,可将空间化方法归纳为面积权重法、统计模型法和多源数据融合法三类。最后通过对比分析不同空间化方法的原理和优缺点可知:社会经济研究指标多样化、空间化精度要求的多元化和大数据应用的广泛化是社会经济数据空间化的发展趋势。同时,大数据等新的辅助数据源的出现为空间化精度的提高带来了契机,在社会管理精细化要求不断提高的背景下,社会经济数据空间化也越来越成为研究热点。 展开更多
关键词 社会经济数据 人口 空间化 多源数据融合 大数据 栅格数据
原文传递
基于区域大数据平台的卒中高危人群队列研究最小数据集标准专家共识 被引量:2
16
作者 国家神经系统疾病临床医学研究中心 国家神经系统疾病医疗质量控制中心 +11 位作者 中国卒中学会脑血管病大数据与信息标准化分会 刘世炜 李子孝 张培 李辉 张良 吴周志 徐承中 曾新颖 刘杨 董文兰 潘旭东 《预防医学》 2021年第12期1189-1198,共10页
开展基于真实世界的卒中高危人群大型队列研究对卒中防控具有重要意义,然而各区域大数据平台数据元结构、变量定义和范围不一致,难以实现不同区域的数据共享、汇总和分析。本研究在梳理卒中危险因素类别和定义的基础上,结合区域大数据... 开展基于真实世界的卒中高危人群大型队列研究对卒中防控具有重要意义,然而各区域大数据平台数据元结构、变量定义和范围不一致,难以实现不同区域的数据共享、汇总和分析。本研究在梳理卒中危险因素类别和定义的基础上,结合区域大数据平台已有数据基础,建立了一套统一的卒中高危人群队列研究最小数据集标准,并形成专家共识。以期为实现区域内和区域间真实世界数据的比较、整合和共享提供参考,在卒中危险因素队列研究、防控措施实施和评价中发挥作用。 展开更多
关键词 卒中 危险因素 大数据 队列研究 数据集
原文传递
IgA肾病信息化标准数据集和质控标准 被引量:2
17
作者 谢静远 欧阳彦 +8 位作者 陈靖 丁峰 顾乐怡 朱立峰 冯东雷 宋艳艳 俞章盛 任红 陈楠 《中华肾脏病杂志》 CAS CSCD 北大核心 2022年第6期543-549,共7页
目的建立IgA肾病(IgA nephropathy,IgAN)标准数据集是实现IgAN临床信息结构化和标准化的前提,将有利于不同医疗机构间临床信息的整合利用。为此,上海IgAN专家协作组编写了这部《IgA肾病标准数据集》。方法参考国内信息标准,结合相关领... 目的建立IgA肾病(IgA nephropathy,IgAN)标准数据集是实现IgAN临床信息结构化和标准化的前提,将有利于不同医疗机构间临床信息的整合利用。为此,上海IgAN专家协作组编写了这部《IgA肾病标准数据集》。方法参考国内信息标准,结合相关领域内的指南、数据规范及专家共识,以电子病史档案为基础,将患者身份标识号作为系统主键进行信息收集。通过对数据集中各个数据元进行规范,确保管理系统在数据与信息交换、数据协同与共享上的标准化,并制定相应的质量控制体系。结果本标准数据集共包括607个数据元,8个模块,分为患者信息、病史信息、体格检查、实验室检查、辅助检查、肾脏病理、药物治疗、随访。各模块又由子模块名称、数据元名称、英文名称、定义、值域、参考标准等组成。同时,质量控制体系被制定,从完整性、规范性、准确性、及时性及安全性等多维度对数据质量进行评估,确保数据的高质量与安全。结论本研究建立了IgAN标准数据集,将有助于国内IgAN临床信息的结构化和标准化。 展开更多
关键词 肾小球肾炎 IGA 标准数据集 医学大数据 医院信息系统 数据整合
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部