期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于梯度提升决策树的材料计算时间预测模型
1
作者 高嘉鑫 张伟 高铭 《软件导刊》 2024年第3期15-20,共6页
材料计算运行时间预测对提升作业调度效率和新材料研发有着至关重要的作用,传统集群作业运行时间预测模型的精度较差,在领域的可用性较低。为此,提出一种基于梯度提升决策树的作业预测模型,结合领域知识和相关文献对VASP作业日志数据进... 材料计算运行时间预测对提升作业调度效率和新材料研发有着至关重要的作用,传统集群作业运行时间预测模型的精度较差,在领域的可用性较低。为此,提出一种基于梯度提升决策树的作业预测模型,结合领域知识和相关文献对VASP作业日志数据进行清洗,对选择的特征进行重要性评估,然后在不同数据量、不同样本分布数据条件下进行实验,将该模型与使用传统机器学习方法的模型进行比较。实验表明,所提方法的平均绝对百分比误差在不同条件下均低于传统机器学习方法,且综合作业运行时间的预测误差为4.28%,优于RunningNet方法的10.3%,证明了所提模型对材料计算运行时间预测精度更高,对提升作业调度效率和加快新材料研发作用更大。 展开更多
关键词 材料计算 作业运行时间预测 决策树 VASP作业 作业调度
下载PDF
基于数据增广的小样本材料属性预测
2
作者 李丹 董赞强 +3 位作者 杨涛 佟强 谭胖 刘秀磊 《北京信息科技大学学报(自然科学版)》 2023年第5期39-44,共6页
如何提升数据可用性是机器学习应用在材料属性预测任务中的一大挑战。对此,提出了一种基于数据增广的小样本材料属性预测方法。针对公开发布的Matbench屈服强度属性预测任务,仅使用312个数据样本,应用全连接神经网络对属性进行预测。首... 如何提升数据可用性是机器学习应用在材料属性预测任务中的一大挑战。对此,提出了一种基于数据增广的小样本材料属性预测方法。针对公开发布的Matbench屈服强度属性预测任务,仅使用312个数据样本,应用全连接神经网络对属性进行预测。首先,去除降低模型性能的元素,提高数据质量;然后,使用线性插值扩充数据集;最后,对神经网络进行建模和训练,预测屈服强度属性。相比于最优基线模型MODNet,该方法的平均绝对误差降低了4.97%。 展开更多
关键词 机器学习 属性预测 屈服强度 数据增广 神经网络
下载PDF
数据归一化方法综述 被引量:64
3
作者 杨寒雨 赵晓永 王磊 《计算机工程与应用》 CSCD 北大核心 2023年第3期13-22,共10页
当今,人工智能已经广泛应用到各个领域中,并取得了显著的效果。数据归一化是人工智能应用落地中的一个重要环节,它有助于避免神经网络因数据量纲的复杂性对数据进行错误建模。在大数据场景下,相当一部分数据是以流的形式先后到达训练点... 当今,人工智能已经广泛应用到各个领域中,并取得了显著的效果。数据归一化是人工智能应用落地中的一个重要环节,它有助于避免神经网络因数据量纲的复杂性对数据进行错误建模。在大数据场景下,相当一部分数据是以流的形式先后到达训练点,所以在流场景下数据归一化研究是当前亟待解决的关键问题。目前关于归一化研究的综述较多,大多仅仅针对于批数据的归一化研究,而缺乏对流数据的归一化方法的总结,不具参考性。在批数据归一化研究基础之上,系统化整理并详尽分析了流数据归一化的相关文献,凝练提出了基于流数据的归一化分类方法,并将数据归一化方法划分为批数据的归一化方法和流数据的归一化方法。同时,对这些方法的原理、优势和可以解决的主要问题进行了对比分析,在不同场景下对数据归一化的未来研究方向进行了展望。 展开更多
关键词 归一化 数据流 深度学习 数据挖掘
下载PDF
可解释人工智能研究综述 被引量:11
4
作者 赵延玉 赵晓永 +1 位作者 王磊 王宁宁 《计算机工程与应用》 CSCD 北大核心 2023年第14期1-14,共14页
随着机器学习和深度学习的发展,人工智能技术已经逐渐应用在各个领域。然而采用人工智能的最大缺陷之一就是它无法解释预测的依据。模型的黑盒性质使得在医疗、金融和自动驾驶等关键任务应用场景中人类还无法真正信任模型,从而限制了这... 随着机器学习和深度学习的发展,人工智能技术已经逐渐应用在各个领域。然而采用人工智能的最大缺陷之一就是它无法解释预测的依据。模型的黑盒性质使得在医疗、金融和自动驾驶等关键任务应用场景中人类还无法真正信任模型,从而限制了这些领域中人工智能的落地应用。推动可解释人工智能(explainable artificial intelligence,XAI)的发展成为实现关键任务应用落地的重要问题。目前,国内外相关领域仍缺少有关可解释人工智能的研究综述,也缺乏对因果解释方法的关注以及对可解释性方法评估的研究。从解释方法的特点出发,将主要可解释性方法分为三类:独立于模型的方法、依赖于模型的方法和因果解释方法,分别进行总结分析,对解释方法的评估进行总结,列举出可解释人工智能的应用,讨论当前可解释性存在的问题并进行展望。 展开更多
关键词 可解释性 人工智能 机器学习 深度学习 评估
下载PDF
根因分析研究综述 被引量:2
5
作者 程燕 王磊 赵晓永 《计算机应用研究》 CSCD 北大核心 2023年第4期961-966,共6页
作为问题发现和问题解决之间的关键问题与枢纽环节,根因分析目前的研究主要包括基于数据驱动和基于因果驱动两大类方法。鉴于数据驱动方法在缩小根因范围方面具有优势,因而目前根因研究主要聚焦在基于关联规则挖掘、基于启发式搜索、基... 作为问题发现和问题解决之间的关键问题与枢纽环节,根因分析目前的研究主要包括基于数据驱动和基于因果驱动两大类方法。鉴于数据驱动方法在缩小根因范围方面具有优势,因而目前根因研究主要聚焦在基于关联规则挖掘、基于启发式搜索、基于机器学习和基于深度学习等数据驱动方法,鲜有从因果知识的角度对根因进行分析,也尚未基于方法维度对根因进行归纳分析研究,缺乏相关研究成果。因此,对近几年根因分析的主要成果进行梳理总结,分析在不同方法维度下根因分析的区别及优势,并提出融合因果知识的根因分析方法,将非对称Shapley值与因果链图相结合以提升根因分析的准确度,最后讨论了现有的研究难点与发展趋势,提出有意义的未来研究方向。 展开更多
关键词 根因分析 启发式算法 机器学习 深度学习
下载PDF
基于零知识证明的匿名投票方案
6
作者 于筌 刘晓彤 +1 位作者 刁恩虎 刘秀磊 《科学技术与工程》 北大核心 2023年第5期2037-2043,共7页
针对现有电子投票与问卷调查系统中公正性与匿名性这两项最根本需求,提出了运行于以太坊上的智能合约投票方案。方案满足可信、透明的要求,剥离了对可信第三方的依赖。随后进一步结合零知识证明与数字签名技术,实现了方案的匿名性。通... 针对现有电子投票与问卷调查系统中公正性与匿名性这两项最根本需求,提出了运行于以太坊上的智能合约投票方案。方案满足可信、透明的要求,剥离了对可信第三方的依赖。随后进一步结合零知识证明与数字签名技术,实现了方案的匿名性。通过合理设计算术电路及智能合约,该方案可满足一人一票或一人多票的应用场景。通过安全性分析,该方案完全满足业界对电子投票方案公认的各种要求,加之相关代码已完整开源,为后续移植及具体应用提供了借鉴与参考。 展开更多
关键词 零知识证明 电子投票方案 以太坊 智能合约
下载PDF
基于随机干扰的文本型数据隐私保护方法研究
7
作者 徐雅斌 郭昊 《北京信息科技大学学报(自然科学版)》 2021年第1期51-56,共6页
为了避免数据的共享与交换可能造成的个人隐私泄露问题,基于随机干扰技术设计了一种针对文本型数据的隐私保护方法,可以为具有单个敏感属性或多个相关联敏感属性的数据提供隐私保护服务,有效解决了传统的随机干扰方法不适用于文本类型... 为了避免数据的共享与交换可能造成的个人隐私泄露问题,基于随机干扰技术设计了一种针对文本型数据的隐私保护方法,可以为具有单个敏感属性或多个相关联敏感属性的数据提供隐私保护服务,有效解决了传统的随机干扰方法不适用于文本类型数据的问题。该方法通过进行文本语义的扩展,使得被干扰后的数据与原数据在语义上保持最大程度的接近,从而实现了在进行隐私保护的同时,确保数据质量。实验结果表明,该方法具有较好的隐私保护效果。 展开更多
关键词 随机干扰 文本型数据 隐私保护 数据共享与交换
下载PDF
多数据源的关联查询优化技术 被引量:5
8
作者 郭东新 张伟 徐涛 《计算机工程与设计》 北大核心 2021年第4期1006-1013,共8页
为优化数据迁移对多数据源关联查询性能的影响,提出一个多数据源的关联查询优化模型(multi-source association query optimization model,MAQM),使用包装器对需要查询的存储系统进行包装,为用户提供统一的多数据源关联查询接口;提出区... 为优化数据迁移对多数据源关联查询性能的影响,提出一个多数据源的关联查询优化模型(multi-source association query optimization model,MAQM),使用包装器对需要查询的存储系统进行包装,为用户提供统一的多数据源关联查询接口;提出区域划分策略,以存储系统的关系表为划分粒度,构建基于多数据源关联查询命令的区域有向图,划分出查询子任务。在区域有向图的基础上,对每一种中间结果的可能传输方向建立数据迁移代价模型,确定查询子任务的执行顺序。对比实验结果表明,MAQM相较于Oracle原生关联查询工具ODCH可以平均提升30%-40%的查询性能。 展开更多
关键词 多数据源 关联查询 区域划分策略 区域有向图 数据迁移代价模型
下载PDF
基于动态矩阵模型的可优化的补货策略 被引量:2
9
作者 逯曼皎 张伟 徐涛 《计算机工程与应用》 CSCD 北大核心 2021年第7期263-268,共6页
传统零售存在经验供货,严重影响了零售业的发展,针对不同的应用场景和需求需要提出不同的补货策略,在智能自动售货机使用场景下提出动态矩阵模型的可优化的补货策略,实现按需智能补货。该策略根据销量统计、预测的销量值、零点库存、售... 传统零售存在经验供货,严重影响了零售业的发展,针对不同的应用场景和需求需要提出不同的补货策略,在智能自动售货机使用场景下提出动态矩阵模型的可优化的补货策略,实现按需智能补货。该策略根据销量统计、预测的销量值、零点库存、售货机的商品货道数以及时间序列等之间的关系计算每天不同时间段的补货值,实现补货人员可根据输出的补货矩阵表动态调整补货周期。根据输出结果表明,对比以往根据销量经验供货等其他补货方法,此补货策略可以提高商品周转率,提升商品的销量,同时也能够节约补货运营成本。 展开更多
关键词 补货策略 时间序列 售货机 矩阵模型 补货周期
下载PDF
硅基Ⅳ族SiGeSn三元合金晶格结构、电子结构和光学性质的第一性原理 被引量:2
10
作者 孙生柳 黄文奇 +2 位作者 张立鑫 谌珍雨 王浩 《人工晶体学报》 CAS 北大核心 2021年第12期2232-2239,2254,共9页
SiGeSn三元合金由于具有较二元合金更大的晶格和能带性质调控范围,是当前用于制作硅基激光器的热点材料。为全面且精确地研究其晶格结构、电子结构和光学性质,本文采用基于密度泛函理论(DFT)的第一性原理方法,并结合准随机近似和杂化泛... SiGeSn三元合金由于具有较二元合金更大的晶格和能带性质调控范围,是当前用于制作硅基激光器的热点材料。为全面且精确地研究其晶格结构、电子结构和光学性质,本文采用基于密度泛函理论(DFT)的第一性原理方法,并结合准随机近似和杂化泛函带隙修正,首先研究SiGeSn晶格常数及其弯曲系数的变化规律,并给出了解决GeSn二元晶格失配和压应变问题的方案。其次比较研究了SiGeSn与GeSn合金的能带结构,并通过态密度计算分析了Si的引入对合金带隙变化的物理机制。最后比较研究了SiGeSn与GeSn合金的介电函数谱、吸收系数、消光系数、反射率、折射率和发射率等光学性质。结果表明,SiGeSn晶格常数弯曲系数的变化与合金电负性差值的变化规律一致,Si-p电子态是SiGeSn合金带隙变化的最主要贡献。相比于同Sn浓度的GeSn合金,SiGeSn能保持直接带隙特征,且其带隙值和光吸收波长呈现更宽的变化范围。因此在拓宽硅基高效光源和光电探测器应用波段方面,SiGeSn相较于GeSn合金具有更大的应用潜力和优势。 展开更多
关键词 SiGeSn三元合金 晶格结构 电子结构 光学性质 第一性原理计算
下载PDF
面向数据发布的隐私保护模型及参数优选方法 被引量:2
11
作者 徐雅斌 郭昊 《计算机工程》 CAS CSCD 北大核心 2021年第5期124-130,共7页
为更好地对待发布数据进行隐私保护,构建综合k-匿名、l-多样性和t-闭合方法的匿名化隐私保护模型。利用该模型能够选择最适合的隐私保护方法,并优选对应的隐私保护参数,达到数据提供者所期望的隐私保护效果,满足数据使用者对可用性的要... 为更好地对待发布数据进行隐私保护,构建综合k-匿名、l-多样性和t-闭合方法的匿名化隐私保护模型。利用该模型能够选择最适合的隐私保护方法,并优选对应的隐私保护参数,达到数据提供者所期望的隐私保护效果,满足数据使用者对可用性的要求。实验结果表明,该方法不仅可以找到相对较优的参数值,而且能够有效满足具有不同身份和应用需求的用户对数据发布的要求。 展开更多
关键词 隐私保护 数据发布 匿名化 K-匿名 l-多样性 t-闭合 参数优选
下载PDF
基于流处理改进的SK-means策略 被引量:2
12
作者 姜晓艳 张伟 +1 位作者 王佳慧 马利民 《北京信息科技大学学报(自然科学版)》 2021年第5期51-56,共6页
针对大规模数据场景下K-means聚类算法存在总体速度较慢的问题,提出了一种基于大数据流计算框架Apache Flink,并结合流处理思想的SK-means策略。从算法优化方面,采用流处理的思想在数据读入的过程中确定聚类的初始聚类中心;从实现方案上... 针对大规模数据场景下K-means聚类算法存在总体速度较慢的问题,提出了一种基于大数据流计算框架Apache Flink,并结合流处理思想的SK-means策略。从算法优化方面,采用流处理的思想在数据读入的过程中确定聚类的初始聚类中心;从实现方案上,选用Apache Flink框架设计了一种基于SK-means策略的优化方案,分析该策略对聚类效果和耗时的影响。实验结果表明:该策略在数据量较大的场景中有较好的优化效果,不需要预先假设出聚类数量和初始聚类中心的具体值,有效地降低了聚类迭代次数,降低了整体计算耗时。 展开更多
关键词 聚类算法 K-MEANS 流处理 大数据 Apache Flink
下载PDF
基于预过滤结构的正则表达式硬件专用匹配引擎 被引量:1
13
作者 李俊儒 张伟 +1 位作者 陈昆明 徐涛 《北京信息科技大学学报(自然科学版)》 2022年第1期50-57,共8页
为了提升正则表达式匹配性能,在网络数据激增的环境下实现数据同步过滤,提出了一种基于预过滤结构的正则表达式硬件专用匹配引擎。在现场可编程门阵列(FPGA)平台上以存储为中心,设计了基于共享内存的预过滤并行存储结构。使用布隆过滤器... 为了提升正则表达式匹配性能,在网络数据激增的环境下实现数据同步过滤,提出了一种基于预过滤结构的正则表达式硬件专用匹配引擎。在现场可编程门阵列(FPGA)平台上以存储为中心,设计了基于共享内存的预过滤并行存储结构。使用布隆过滤器(Bloom filter, BF)作为预过滤结构;使用k路并行多组向量表用来存储BF中的哈希计算结果,提高初始化与查询的并行度;使用共享内存的过滤器组解决多长度模式串空间利用率低的问题;使用流水线提升预过滤器性能。面向不同字符串类型设计了匹配流程,保证了匹配功能的正确性,提升了正则表达式匹配性能。实验结果表明该匹配引擎在200 MHz的时钟频率下,单核吞吐量达39 Gbit/s,多核吞吐量达722 Gbit/s。 展开更多
关键词 正则表达式匹配 预过滤 FPGA 布隆过滤器 存储
下载PDF
面向Hive查询的存储优化技术 被引量:1
14
作者 荆忠航 张伟 +2 位作者 王佳慧 马利民 徐涛 《北京信息科技大学学报(自然科学版)》 2021年第6期93-100,共8页
为了提高Hive的查询性能,对HDFS数据块放置策略进行了优化,提出了一种基于相关关系分析的数据块放置策略,通过构建并发关系矩阵和相交关系矩阵评估待放置数据块与节点上已放置数据块之间的相关关系,并综合目标数据块的访问频率,选择合... 为了提高Hive的查询性能,对HDFS数据块放置策略进行了优化,提出了一种基于相关关系分析的数据块放置策略,通过构建并发关系矩阵和相交关系矩阵评估待放置数据块与节点上已放置数据块之间的相关关系,并综合目标数据块的访问频率,选择合适的节点存储。 展开更多
关键词 Hive MAPREDUCE 存储优化 查询性能优化
下载PDF
面向地址数据基于ISM理论构建数据清洗规则链方法研究 被引量:1
15
作者 殷滋伟 张伟 +1 位作者 王佳慧 马利民 《北京信息科技大学学报(自然科学版)》 2021年第6期87-92,共6页
针对传统顺序执行数据清洗规则因忽略规则逻辑关系导致数据清洗效率低的问题,提出基于解析结构模型(interpretative structural modeling method,ISM)理论构建数据清洗规则链的方法。该方法将规则之间的二元关系基于ISM理论进行推导,转... 针对传统顺序执行数据清洗规则因忽略规则逻辑关系导致数据清洗效率低的问题,提出基于解析结构模型(interpretative structural modeling method,ISM)理论构建数据清洗规则链的方法。该方法将规则之间的二元关系基于ISM理论进行推导,转化为规则之间的多元关系矩阵,来构造满足规则之间约束关系的最小冲突规则链,从而提升了数据清洗效率。针对非规范地址数据,构建规则库,通过ISM理论进行建模,设计和构建简约的数据清洗规则链,缩短数据清洗时间,提高数据清洗的效率和正确率。实验结果表明,基于解析结构模型理论构建的规则链相对于顺序执行规则重复比更低,执行时间更少,平均匹配率更高。 展开更多
关键词 数据清洗 地址数据 解析结构模型 规则链 数据关联
下载PDF
基于HDFS+HBase+Redis的海量车辆小图片的存储与检索系统设计 被引量:2
16
作者 郭东新 张伟 荆忠航 《现代计算机》 2020年第18期140-145,共6页
公安和交通等部门存储海量车辆小图片时降低系统性能,为了解决这一问题,提出一种基于HDFS+HBase+Redis的海量车辆小图片的存储与检索系统。首先,对存储小图片造成的NameNode内存瓶颈和读取消耗大量时间两个问题进行理论分析;然后,提出... 公安和交通等部门存储海量车辆小图片时降低系统性能,为了解决这一问题,提出一种基于HDFS+HBase+Redis的海量车辆小图片的存储与检索系统。首先,对存储小图片造成的NameNode内存瓶颈和读取消耗大量时间两个问题进行理论分析;然后,提出一种基于关联关系的合并存储方法,根据车辆的车牌号所属省份、车身颜色和车型三种信息的关联关系合并车辆小图片;接着,利用Hadoop数据块的三备份冗余策略对合并文件进行复制存储,并建立对应的索引结构实现小图片的快速检索;最后,针对存储优化方法设计合理的小图片检索流程。对比实验结果表明,所提出的海量车辆小图片的优化存储方法不仅可以降低NameNode的内存消耗,还提高小图片的读写速度,为海量车辆小图片的存储提供技术支持。 展开更多
关键词 海量车辆小图片 合并存储 冗余策略 快速检索 优化存储
下载PDF
基于人工神经网络的机器人路径规划研究 被引量:7
17
作者 陈麒瑞 杜少华 +1 位作者 赵腾飞 宋莹 《电脑知识与技术》 2020年第3期227-229,共3页
随着科学技的发展,机器人技术得到了飞速的进步,如今机器人已经成为我们生产生活的一部分,从工业制造,卫星导航到无人驾驶技术等。而作为机器人技术重要的课题之一,路径规划算法也得到了学者们的重视,先后相继提出了各种各样的算法。
关键词 人工神经网络 路径规划 移动机器人
下载PDF
一种基于Nginx的UDP反向代理服务器数据转发策略
18
作者 郭大伟 张伟 姜晓艳 《北京信息科技大学学报(自然科学版)》 2019年第6期87-91,共5页
为了向互联网视频直播用户提供良好体验,在传统UDP转发模型基础上,面向Nginx设计了一种基于哈希表的UDP数据转发策略,主要是通过基于红黑树的哈希表、复用连接池等技术,为数据包转发过程提供足够数量的socket套接字,避免转发过程的丢包... 为了向互联网视频直播用户提供良好体验,在传统UDP转发模型基础上,面向Nginx设计了一种基于哈希表的UDP数据转发策略,主要是通过基于红黑树的哈希表、复用连接池等技术,为数据包转发过程提供足够数量的socket套接字,避免转发过程的丢包现象,提高UDP数据包转发量,解决了UDP数据包转发时获取不到socket套接字这一瓶颈问题,从而对服务器的性能进行优化。实验结果表明使用优化的模型后,UDP数据包的实时转发数量得到明显提高,可达到百万级别,有效支撑大流量下Nginx对UDP数据包的反向代理,显著提高了基于Nginx的UDP反向代理服务器性能。 展开更多
关键词 网络时延 UDP 反向代理 哈希表 连接池 红黑树
下载PDF
一种关系—图数据库混合存储系统设计
19
作者 王宁 张伟 +1 位作者 王佳慧 马利民 《北京信息科技大学学报(自然科学版)》 2022年第1期58-64,70,共8页
为了提高不同场景下面向多表连接、分组、排序、聚合等组合后的数据库复杂查询的效率,设计了一个基于MySQL的Neo4j的混合存储系统。系统定义了一种类SQL查询语言C-SQL来连接两个数据库,并提供统一数据访问接口;基于动态成本模型进行查... 为了提高不同场景下面向多表连接、分组、排序、聚合等组合后的数据库复杂查询的效率,设计了一个基于MySQL的Neo4j的混合存储系统。系统定义了一种类SQL查询语言C-SQL来连接两个数据库,并提供统一数据访问接口;基于动态成本模型进行查询优化,将用户查询转化成可并发执行的枚举查询;通过对查询响应时间的度量,确定最优查询计划,进而提高复杂查询的效率。最后通过解析MySQL的Binlog日志解决了从MySQL到Neo4j的数据同步问题。 展开更多
关键词 关系数据库 图数据库 混合存储 MYSQL Neo4j
下载PDF
一种抗相似性攻击的匿名保护方法
20
作者 高帅 徐雅斌 武装 《北京信息科技大学学报(自然科学版)》 2020年第4期63-68,共6页
针对因敏感属性值语义相似而遭受到相似性攻击问题,提出一种抵抗相似性攻击的(k,e)算法。首先,根据敏感属性值构建敏感属性值语义层次树,计算敏感属性值相异度e,并根据敏感属性值相异度进行聚类;在此基础上,再按准标识符间距离进一步聚... 针对因敏感属性值语义相似而遭受到相似性攻击问题,提出一种抵抗相似性攻击的(k,e)算法。首先,根据敏感属性值构建敏感属性值语义层次树,计算敏感属性值相异度e,并根据敏感属性值相异度进行聚类;在此基础上,再按准标识符间距离进一步聚类,为每一类选取出k条距离最近的记录;最后,对每一类的准标识符进行泛化。对比实验结果表明,(k,e)算法具有较小的信息损失度和较低的隐匿率。 展开更多
关键词 相似性攻击 匿名保护 隐私保护 聚类算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部