期刊文献+
共找到136篇文章
< 1 2 7 >
每页显示 20 50 100
基于大规模流式车牌识别数据的即时伴随车辆发现 被引量:4
1
作者 朱美玲 王雄斌 +2 位作者 张守利 刘晨 韩燕波 《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第1期47-55,共9页
提出了一种基于流式大规模车牌识别数据集的伴随车辆(伴随车辆是指在一段持续的时间内一起移动的车辆组群)即时发现方法,可实现即时发现疑似伴随车辆并将其按伴随概率排序.该方法充分利用了云基础设施的并行计算能力,基于整数划分思想... 提出了一种基于流式大规模车牌识别数据集的伴随车辆(伴随车辆是指在一段持续的时间内一起移动的车辆组群)即时发现方法,可实现即时发现疑似伴随车辆并将其按伴随概率排序.该方法充分利用了云基础设施的并行计算能力,基于整数划分思想建立并行发现的负载均衡模型,优化了伴随车辆的发现性能,可用于对时间敏感的交通应用场景,如发现并监控运钞车等特殊车辆的跟踪车辆等.实验证明,该方法能够有效处理大规模的流式车牌识别数据,并实时地输出发现结果. 展开更多
关键词 伴随车辆 车牌识别数据 流数据 即时性 点伴随
下载PDF
基于大规模船舶轨迹数据的航道边界提取方法 被引量:10
2
作者 徐垚 李卓然 +3 位作者 孟金龙 赵利坡 温建新 王桂玲 《计算机应用》 CSCD 北大核心 2019年第1期105-112,共8页
传统的道路数据获取方法成本高、更新慢等无法适用于海洋航道的获取,从众源轨迹数据中提取道路或航道信息具有成本低、更新快等特性,然而,由于船舶轨迹数据噪声多、数据量大、不同区域分布不均使得航道边界提取面临较大挑战。针对该问题... 传统的道路数据获取方法成本高、更新慢等无法适用于海洋航道的获取,从众源轨迹数据中提取道路或航道信息具有成本低、更新快等特性,然而,由于船舶轨迹数据噪声多、数据量大、不同区域分布不均使得航道边界提取面临较大挑战。针对该问题,提出一种基于大规模船舶轨迹数据进行航道边界提取的方法。首先对大规模的船舶轨迹数据进行并行化去噪、插值、轨迹分段;然后,基于并行化及基于Geohash编码的空间聚类,将轨迹数据化简为多个方形区域的点集数据;其次,对其进行窗口划分,对传统的Ni Black方法进行扩展,提出Spatial Ni Black算法,对方形区域进行航道识别;最后,提出一种新的提取算法del-alpha-shape,基于航道识别结果获得航道边界。理论分析与实验结果表明,所提方法在最大密度值是200,最小密度值是10,窗口长和宽分别为5和5时,可同时达到86. 7%的准确率和79. 4%的召回率。实验结果表明,该方法可以从大规模的轨迹数据中提取有价值的航道边界,是一种有效的航道提取方法。 展开更多
关键词 轨迹数据 自动识别系统 时空大数据 DELAUNAY三角网 航道提取
下载PDF
基于云计算的流数据集成与服务 被引量:52
3
作者 王桂玲 韩燕波 +1 位作者 张仲妹 朱美玲 《计算机学报》 EI CSCD 北大核心 2017年第1期107-125,共19页
当前,大数据的管理和处理是云基础设施的重点用武之地,而服务是落实云计算环境中各类资源及能力交付和使用模式的主要方式.随着感知设备的普及,系统规模急剧扩张,数据多元异构复杂性提升,流数据并发数量及速度剧增,传统的流数据系统在... 当前,大数据的管理和处理是云基础设施的重点用武之地,而服务是落实云计算环境中各类资源及能力交付和使用模式的主要方式.随着感知设备的普及,系统规模急剧扩张,数据多元异构复杂性提升,流数据并发数量及速度剧增,传统的流数据系统在处理能力、可扩展性、容错性等方面面临瓶颈问题,而云计算技术依靠其良好的可伸缩性、数据的并行化处理能力、对服务使用模式的支持、容错性等特点,可作为流数据管理与处理的基础.基于云计算对来自不同类型设备的大规模流数据进行集成、处理及服务化正是文中关注的焦点所在.从应用需求出发,该文对大规模流数据集成和实时处理及服务的概念框架、集成方法、流数据查询处理、定制化服务、可伸缩性保障和可靠性保障以及相关评测基准等要点进行了剖析,归纳了大规模流数据的集成与服务研究面临的挑战,探讨了云计算环境下求解相关问题的思路. 展开更多
关键词 流数据 云服务 数据服务 云数据集成
下载PDF
面向数据湖存取性能优化的数据并行处理技术研究
4
作者 赵卓峰 陈元 梅宇生 《北方工业大学学报》 2024年第3期1-10,共10页
本文围绕数据湖应用背景下海量数据的高性能存取需求,以新型数据存储模型和分布式存储及缓存机制为目标,通过对数据湖存储结构、数据访问模式和数据处理方法进行分析,开展数据湖存取性能优化问题研究。首先,结合数据湖系统中的文件系统... 本文围绕数据湖应用背景下海量数据的高性能存取需求,以新型数据存储模型和分布式存储及缓存机制为目标,通过对数据湖存储结构、数据访问模式和数据处理方法进行分析,开展数据湖存取性能优化问题研究。首先,结合数据湖系统中的文件系统存储方式,设计了一种基于列式存储的数据存储结构,并通过索引优化技术提高数据访问速度。其次,针对数据湖中常用的批处理和流处理这两种访问模式,提出了一种基于数据分区和缓存机制的访问优化方案,以提高数据访问的效率和稳定性。最后,针对数据湖在大规模数据情况下更新和增量计算出现的计算时间长问题,提出了一种基于Spark并行计算和分布式文件系统(Hadoop Distributed File System,HDFS)的数据处理方案,以提高数据处理的速度和可靠性。实验结果表明,本文提出的数据湖存储性能优化技术相对于现有方法能够有效地提高数据的存储、访问和处理效率。 展开更多
关键词 数据湖 存取性能 数据分区 并行计算 索引优化
下载PDF
基于服务的云边端协同流数据处理体系结构研究
5
作者 张守利 刘晨 《山东农业大学学报(自然科学版)》 北大核心 2024年第3期385-395,共11页
物联网相关技术的快速发展产生了大规模传感流数据和对流数据的高并发处理需求,云边端协同计算正成为低延迟、高可靠的流数据处理的有效途径。为了提升流数据处理系统的灵活性和可扩展性,降低流数据处理延迟,本文提出一种基于服务的分... 物联网相关技术的快速发展产生了大规模传感流数据和对流数据的高并发处理需求,云边端协同计算正成为低延迟、高可靠的流数据处理的有效途径。为了提升流数据处理系统的灵活性和可扩展性,降低流数据处理延迟,本文提出一种基于服务的分散式云边端协同流数据处理体系结构,设计了面向大规模流数据的主动式数据服务模型,流数据及流数据处理被抽象为合适粒度、可被独立部署和动态调度的服务,解耦数据与计算。引入事件驱动机制,提出了基于事件驱动的云边端服务动态协作机制,有效提升了系统的灵活性。基于真实的电能质量传感流数据验证了本文所提出架构的正确性和有效性。 展开更多
关键词 流数据处理 云边端协同 服务计算 事件驱动 服务协作
下载PDF
基于层次分析法和市场法的数据资产定价方法
6
作者 张淳瑞 房俊 《北方工业大学学报》 2024年第1期150-156,共7页
数据资产定价至今是一个具有挑战性的问题。随着大数据时代的来临,数据资产已成为企业核心竞争力和决策支撑的关键要素。由于数据资产的特殊性,传统的资产定价方法不能完全适用于数据资产,目前还缺乏明确的交易规则和成熟的定价方法。因... 数据资产定价至今是一个具有挑战性的问题。随着大数据时代的来临,数据资产已成为企业核心竞争力和决策支撑的关键要素。由于数据资产的特殊性,传统的资产定价方法不能完全适用于数据资产,目前还缺乏明确的交易规则和成熟的定价方法。因此,博弈论、期权定价法与市场对比法等成为数据资产定价的新探索方向。本研究在现有方法的基础上,提出一种综合运用层次分析法和市场法的定价模型。具体来说,首先采用专家打分方式选取合适的数据评估指标,运用层次分析法确定各评估指标的权重,然后在交易市场中搜集同类数据资产的交易案例,通过市场法计算市场修正系数,运用权重修正模型和系数修正模型对待评估数据资产进行定价。模型考虑了数据资产的特殊属性,也综合了多种定价方法的优势,能够实现对数据资产更准确和科学的评估。 展开更多
关键词 数据资产定价 层次分析法 市场法 指标权重 专家打分法
下载PDF
面向海量公交刷卡数据的站点客流分析方法 被引量:4
7
作者 曹娅琪 丁维龙 《计算机与数字工程》 2017年第2期247-253,共7页
公交行业的发展,产生了海量多元的公交IC卡刷卡数据,为行业应用提供快速、准确的站点客流量统计一直是智能公交建设的重点。以往对客流量的研究只是进行了简单的数据统计,准确度不高,提出的并行算法在海量数据规模下不具备水平扩展能力... 公交行业的发展,产生了海量多元的公交IC卡刷卡数据,为行业应用提供快速、准确的站点客流量统计一直是智能公交建设的重点。以往对客流量的研究只是进行了简单的数据统计,准确度不高,提出的并行算法在海量数据规模下不具备水平扩展能力。针对此问题,论文通过分析海量多元数据的特征,面向公交刷卡数据提出了一种刷卡时间的聚类方法,不仅可在分钟级完成一周数据的计算,并根据换乘的时间差和距离规则约束提高了计算的准确性。论文工作在Hadoop MapReduce上进行了实现,分时客流量的计算方面随数据规模增大具有可扩展性,单位数据规模的计算执行时间保持相对稳定,并且分析结果具有较高的准确性。 展开更多
关键词 公交数据 海量数据 站点上下车客流量 站点换乘客流量
下载PDF
融合深度强化学习与算子优化的流式任务调度
8
作者 郭陈虹 王菁 +2 位作者 巩会龙 郭浩浩 张睿轩 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期15-22,共8页
针对实时性要求高和作业量大的流处理作业执行过程中,多个作业之间存在的相同处理片段可能会导致流处理引擎重复计算、资源浪费和处理性能低下的问题,提出了融合深度强化学习与算子优化的流式任务调度方法。首先利用算子优化算法将多个... 针对实时性要求高和作业量大的流处理作业执行过程中,多个作业之间存在的相同处理片段可能会导致流处理引擎重复计算、资源浪费和处理性能低下的问题,提出了融合深度强化学习与算子优化的流式任务调度方法。首先利用算子优化算法将多个复杂的作业去重、重构,其次将重构得到的作业输入循环神经网络中得到任务的调度策略,最后利用强化学习模型进行调度策略的优化。所提方法利用算子优化减少了每个作业中创建的算子实例,结合深度强化学习自动发现最优的调度策略,有效地避免了因大量实例运行而造成的系统资源不足、数据拥塞等问题。对比实验结果表明,所提方法在吞吐量和延迟方面的表现更优异。 展开更多
关键词 流处理作业 任务调度 算子优化 深度强化学习
下载PDF
基于车牌识别流数据的车辆伴随模式发现方法 被引量:12
9
作者 朱美玲 刘晨 +1 位作者 王雄斌 韩燕波 《软件学报》 EI CSCD 北大核心 2017年第6期1498-1515,共18页
针对伴随车辆检测这一新兴的智能交通应用,在一种特殊的流式时空大数据——车牌识别流式大数据(ANPR)下,重新定义了Platoon伴随模式,提出PlatoonFinder算法,即时地在车牌识别数据流上挖掘Platoon伴随模式.主要贡献包括:第一,将Platoon... 针对伴随车辆检测这一新兴的智能交通应用,在一种特殊的流式时空大数据——车牌识别流式大数据(ANPR)下,重新定义了Platoon伴随模式,提出PlatoonFinder算法,即时地在车牌识别数据流上挖掘Platoon伴随模式.主要贡献包括:第一,将Platoon伴随模式发现问题映射为数据流上的带有时空约束的频繁序列挖掘问题,与传统频繁序列挖掘算法仅考虑序列元素之间位置关系不同,该算法能够在频繁序列挖掘的过程中有效处理序列元素之间复杂的时空约束关系;第二,该算法融入了伪投影等性能优化技术,针对数据流的特点进行了性能优化,能够有效应对车牌识别流式大数据的速率和规模,从而实现车辆Platoon伴随模式的即时发现.通过在真实车牌识别数据集上的实验分析表明:PlatoonFinder算法的平均延时显著低于经典的Aprior和PrefixSpan等频繁模式挖掘算法,也低于真实情况下交通摄像头的车牌识别最小时间间隔.因此,所提出的算法可以有效地发现伴随车辆组及其移动模式. 展开更多
关键词 流式时空大数据 大数据分析 伴随模式 频繁序列挖掘
下载PDF
基于云架构的交通感知数据集成处理平台 被引量:12
10
作者 赵卓峰 丁维龙 韩燕波 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1332-1341,共10页
海量、多源、不间断的交通感知数据环境下,如何提供集成化的交通感知数据处理支持是多样化交通应用实施中的难点.现有的通用计算框架及平台由于缺少对具有时空相关等特征的交通感知数据和应用间交通感知数据共享的支持,使得交通感知数... 海量、多源、不间断的交通感知数据环境下,如何提供集成化的交通感知数据处理支持是多样化交通应用实施中的难点.现有的通用计算框架及平台由于缺少对具有时空相关等特征的交通感知数据和应用间交通感知数据共享的支持,使得交通感知数据处理应用的开发存在较高的复杂性并且易于造成大量重复的数据跨节点传输而影响应用性能.针对此问题,通过分析交通感知数据及其处理需求特征,提出一种基于可跨应用共享的时空数据对象的交通感知数据处理模型,通过引入时空数据对象这一新的概念抽象并提供易并行划分的时空数据对象组织及共享支持,实现分布计算中对时空型交通感知数据的优化管理.在此基础上,设计并实现了交通感知数据集成处理平台.通过实际应用和基于真实交通数据的实验测试表明:该平台相对于传统的交通感知数据处理方法及系统在性能及扩展性等方面均具有一定的优势. 展开更多
关键词 云架构 交通感知数据 时空数据对象 实时MapReduce 流计算
下载PDF
基于JDBC的数据访问优化技术 被引量:14
11
作者 韩兵 江燕敏 方英兰 《计算机工程与设计》 北大核心 2017年第8期1991-1996,2031,共7页
为使Web应用系统能够有效、快速地访问数据,分析当前Web系统三层框架有关数据缓存和访问优化的技术,通过对JDBC接口原理及实现技术的深入研究,提出基于JDBC的数据自主识别、前置驻留与快速访问的策略和实现方案。使用key-value存储机制... 为使Web应用系统能够有效、快速地访问数据,分析当前Web系统三层框架有关数据缓存和访问优化的技术,通过对JDBC接口原理及实现技术的深入研究,提出基于JDBC的数据自主识别、前置驻留与快速访问的策略和实现方案。使用key-value存储机制,通过客户端-应用层的快照数据快速访问机制提升Web系统综合性能。测试结果表明,该方案能够有效提高Web系统在数据访问的响应速度,实现多客户端的数据共享,具有一定的普适性和推广价值。 展开更多
关键词 JAVA数据库连接 数据识别 数据前置 访问过滤 快照数据
下载PDF
支持探索式研判分析的动态ETL流程服务 被引量:2
12
作者 张硕 赵卓峰 +1 位作者 王桂玲 刘杰 《小型微型计算机系统》 CSCD 北大核心 2019年第1期176-180,共5页
ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往... ETL(Extract-Transformation-Loading)作为一种将不同来源的原始数据转换为有效信息的数据集成手段,可为基于综合信息的研判分析提供支持.然而,在当前信息共享和大数据等发展趋势下,各行业研判分析活动表现出多样化、动态性的特征,往往需要面对大量动态、突发的数据抽取、转换及加载需求,传统预定义式的ETL方式难以快速实现.为此,提出一种支持探索式研判分析的动态ETL流程服务,包括探索式研判分析的基本思路、动态ETL流程服务的实现及ETL处理并发性能优化方法,并结合某公安联合作战指挥应用案例对动态ETL流程服务进行了验证,实际应用表明该服务能够支持以"边构造边执行"的方式实现用于研判分析的ETL流程. 展开更多
关键词 探索式研判分析 动态ETL流程 服务 并发性能优化
下载PDF
SDaaS:一种传感流数据的服务化封装方法 被引量:5
13
作者 张仲妹 刘晨 +2 位作者 苏申 张守利 韩燕波 《计算机学报》 EI CSCD 北大核心 2017年第2期445-463,共19页
来自不同传感器网络的流数据共享和集成对于带动相关业务和行业的创新具有重要意义.现有的传感网络往往是任务导向或领域专用的,仅适用于特定的应用场景,难以有效地在不同应用间共享和重用其数据资源.传感流数据的服务化是一种有效解决... 来自不同传感器网络的流数据共享和集成对于带动相关业务和行业的创新具有重要意义.现有的传感网络往往是任务导向或领域专用的,仅适用于特定的应用场景,难以有效地在不同应用间共享和重用其数据资源.传感流数据的服务化是一种有效解决物理传感网络数据资源共享和重用的方法.针对已有服务化方法在应对大规模传感流数据共享和用户并发访问方面存在的局限性,该文提出了一种面向传感流数据的服务化封装方法——SDaaS(Stream Data as a Service),该方法使用事件的方式驱动传感流数据的处理和传输,通过对传感数据的融合操作实现服务对传感流数据的深层次加工,并基于Pub/Sub机制实现传感流数据的按需分发.文中基于Spark Streaming实现对大规模流数据加工操作的封装,并通过对传统的基于匹配树的事件匹配算法进行改进实现了高效的流数据内容分发,以保障将传感数据实时的分发给相应需求.该文通过实验验证了流数据服务的性能,印证了流数据服务能够响应不同的数据需求,在毫秒级别将数据流分发给不同应用. 展开更多
关键词 传感流数据 流数据服务 Pub/Sub机制 事件驱动 事件匹配 云计算
下载PDF
基于负载均衡的多源流数据实时存储系统 被引量:11
14
作者 郭会云 房俊 李冬 《计算机工程与科学》 CSCD 北大核心 2017年第4期641-647,共7页
物联网感知流数据多以时序数据为主,具有数据量大、连续到达、多来源等特点。现有的基于HBase的交通流数据存储系统在数据写入并发量大时,仍然存在存储效率低与系统可用性不高的问题。针对该问题,设计并实现了基于负载均衡的多源流数据... 物联网感知流数据多以时序数据为主,具有数据量大、连续到达、多来源等特点。现有的基于HBase的交通流数据存储系统在数据写入并发量大时,仍然存在存储效率低与系统可用性不高的问题。针对该问题,设计并实现了基于负载均衡的多源流数据实时存储系统。该系统将数据代理扩展为集群架构,提出了一种基于负载均衡的任务调度算法,实现了任务与数据代理之间的按序匹配,使数据代理集群负载均衡地处理任务,实现数据并行存储到HBase数据库中。实验对比结果表明:该系统使各数据代理的数据分配比例维持在0.3~0.4,同时以约1.5倍于单数据代理的速度将数据写入HBase数据库。 展开更多
关键词 多源流数据 HBASE 实时存储系统 数据代理 负载均衡 任务调度
下载PDF
基于车牌识别流数据的伴随车辆发现算法 被引量:4
15
作者 王路辉 王桂玲 《计算机工程》 CAS CSCD 北大核心 2017年第8期193-199,共7页
针对伴随车辆发现及其实时性问题,基于随时间变化的车牌识别流数据,提出一种采用并行频繁项集发现(PFID)技术的伴随车辆组实时发现算法。该算法根据频繁项挖掘Eclat算法的思想,并利用分布式流数据处理框架Spark Streaming生成最大伴随... 针对伴随车辆发现及其实时性问题,基于随时间变化的车牌识别流数据,提出一种采用并行频繁项集发现(PFID)技术的伴随车辆组实时发现算法。该算法根据频繁项挖掘Eclat算法的思想,并利用分布式流数据处理框架Spark Streaming生成最大伴随车辆组。实验结果表明,与排列组合算法及FP-Growth算法相比,PFID算法消耗内存更少,响应时间更短,在秒级响应时间内能找到伴随车辆组,达到及时预警目的。 展开更多
关键词 智能交通系统 车牌自动识别流数据 伴随车辆组 SPARK Streaming并行框架 DStream模型 Eclat算法
下载PDF
基于多源传感数据相关性分析的电厂设备故障检测方法 被引量:10
16
作者 柴政 刘晨 +1 位作者 朱美玲 韩燕波 《计算机与数字工程》 2019年第3期682-688,共7页
传统模型驱动的设备故障检测方法不能有效考虑传感数据之间的复杂关联,致使很多潜在的异常难以有效发现。论文从数据驱动的视角出发,提出了一种基于多源传感数据相关性分析的设备故障在线检测方法。首先,通过测点聚类和线性回归技术,对... 传统模型驱动的设备故障检测方法不能有效考虑传感数据之间的复杂关联,致使很多潜在的异常难以有效发现。论文从数据驱动的视角出发,提出了一种基于多源传感数据相关性分析的设备故障在线检测方法。首先,通过测点聚类和线性回归技术,对设备传感历史数据进行离线训练,检测传感数据之间的潜在关联。然后,利用关联检测结果对传感数据流进行在线异常检测,捕获不符合离线关联模型的传感数据并进行预警异常。最后,基于某大型火电厂真实数据集进行实验,验证了该方法的有效性。 展开更多
关键词 多源传感数据 相关性 异常检测 在线检测
下载PDF
面向流数据的实时处理及服务化系统 被引量:2
17
作者 狄程 杨中国 +1 位作者 韩燕波 刘晨 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第7期75-83,共9页
流数据的处理需求复杂多变,业务人员要进行相应的算法定制,不仅需要相关的编程知识,更要应对繁琐的处理流程和冗长的开发周期。为解决上述问题,文中设计并实现了基于流程建模的流数据处理及服务化系统,提供了对于多源流数据的实时接入,... 流数据的处理需求复杂多变,业务人员要进行相应的算法定制,不仅需要相关的编程知识,更要应对繁琐的处理流程和冗长的开发周期。为解决上述问题,文中设计并实现了基于流程建模的流数据处理及服务化系统,提供了对于多源流数据的实时接入,流数据服务化以及流数据处理服务化的能力。该系统将流数据处理过程封装为服务提供给用户,允许用户拖拽组合流数据处理和服务化模块、配置相关参数,定义流数据处理及服务化的过程,快速又自然地实现流数据处理及服务化的任务,将处理结果经由服务路由实时推送到其他应用系统,满足不同的业务需求。案例分析表明,与传统的流数据处理系统相比,本系统具有高效、灵活、可配置等特点,在实用性、可用性和伸缩性方面都更有优势。 展开更多
关键词 流数据 视图驱动 实时处理 规则引擎 服务化
原文传递
面向高速公路大数据的短时流量预测方法 被引量:9
18
作者 王雪菲 丁维龙 《计算机应用》 CSCD 北大核心 2019年第1期87-92,共6页
针对高速公路传统的短时交通流预测方法适用数据规模小、全网预测效率较低、数据的时空关系被忽视等问题,提出一种结合了K近邻(KNN)模型且面向高速大数据的短时交通流预测方法。首先,对模型的K值和距离度量进行调优,利用交叉验证进行模... 针对高速公路传统的短时交通流预测方法适用数据规模小、全网预测效率较低、数据的时空关系被忽视等问题,提出一种结合了K近邻(KNN)模型且面向高速大数据的短时交通流预测方法。首先,对模型的K值和距离度量进行调优,利用交叉验证进行模型参数的对比实验;然后,考虑数据内在的业务时空关联,建模基于时空特性的特征向量;最后,在大数据环境下建立回归预测模型,以最优参数的模型实现预测。实验结果表明,与传统时间序列模型相比,所提方法一次可预测出全站点的流量,单次运行速度快,效率提高了77%,平均绝对百分比误差(MAPE)和绝对百分比误差中位数(MDAPE)均有明显减低,且具有良好的水平扩展性。 展开更多
关键词 交通流量 短时预测 K近邻 时空数据 大数据
下载PDF
大数据环境下基于元模型控制的数据质量保障技术研究 被引量:10
19
作者 杨冬菊 徐晨阳 《计算机工程与科学》 CSCD 北大核心 2019年第2期197-206,共10页
数据集成环节,越来越丰富的异构源数据给集成后数据质量的提升带来了新的挑战和困难。针对传统ETL模型在数据集成后出现的数据冗余、无效、重复、缺失、不一致、错误值及格式出错等数据质量问题,提出了基于元数据模型控制的ETL集成模型... 数据集成环节,越来越丰富的异构源数据给集成后数据质量的提升带来了新的挑战和困难。针对传统ETL模型在数据集成后出现的数据冗余、无效、重复、缺失、不一致、错误值及格式出错等数据质量问题,提出了基于元数据模型控制的ETL集成模型,并对数据集成过程中的各种映射规则进行了详细的定义,通过将抽取、转换、加载环节的元模型和映射机制相结合,能够有效地保证集成后数据的数据质量。提出的元模型已经应用到科技资源管理数据集成业务中。通过科技资源管理数据集成实例分析,验证了此数据集成方案能够有效地支撑大数据环境下数据仓库的构建和集成后数据质量的提升。 展开更多
关键词 大数据 数据仓库 ETL 元数据模型 映射 数据集成
下载PDF
基于关系图谱的科技数据分析算法 被引量:3
20
作者 张寒烁 杨冬菊 《计算机科学》 CSCD 北大核心 2021年第3期174-179,共6页
随着科技数据量的不断增长,各科技部门积累了大量科技项目的科技管理数据。对于大量结构化数据,需要针对分散数据进行整理、分析,最终按需求提供数据查询与抽取服务。由于在关系数据库中关联关系的分析效果不佳,为了提高分析效率,文中... 随着科技数据量的不断增长,各科技部门积累了大量科技项目的科技管理数据。对于大量结构化数据,需要针对分散数据进行整理、分析,最终按需求提供数据查询与抽取服务。由于在关系数据库中关联关系的分析效果不佳,为了提高分析效率,文中引入了关系图谱进行数据处理。首先,提出了一种基于词频的实体搜索与定位算法来提取实体和关系,并构建关系图谱;其次,对关系图谱进行分析,提出了一种基于改进FP-growth的图数据频繁项挖掘算法;然后,设计了基于图数据的数据筛选流程,进行数据的筛选、分析,并定义评分矩阵,对待筛选数据情况进行评价,最终给出分析意见,且数据筛选的评价标准可以进行自定义;最后,结合构建的关系图谱,将算法进行了实际应用,并将其封装为服务。实验结果表明,提出的基于改进FP-growth的频繁项挖掘算法相比传统FP-growth算法在时间上有10%~12%的提升,数据筛选过程的准确率达到97%左右。 展开更多
关键词 关系图谱 数据分析 图谱构建 人员关系图谱 数据挖掘 服务应用
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部