期刊文献+
共找到153篇文章
< 1 2 8 >
每页显示 20 50 100
基于确定性并发控制的云原生数据库多写事务处理
1
作者 洪殷昊 赵泓尧 +4 位作者 王乙霖 史心悦 卢卫 杨尚 杜胜 《软件学报》 北大核心 2025年第3期995-1021,共27页
云原生数据库具有开箱即用、弹性伸缩、按需付费等优势,是目前学术界和工业界的研究热点.当前,云原生数据库仅支持“一写多读”,即读写事务集中在单一的读写节点,只读事务分散到多个只读节点.将读写事务集中在单一的读写节点,制约了系... 云原生数据库具有开箱即用、弹性伸缩、按需付费等优势,是目前学术界和工业界的研究热点.当前,云原生数据库仅支持“一写多读”,即读写事务集中在单一的读写节点,只读事务分散到多个只读节点.将读写事务集中在单一的读写节点,制约了系统的读写事务处理能力,难以满足读写密集型业务需求.为此,提出D3C(deterministic concurrency control cloud-native database)架构,通过设计基于确定性并发控制的云原生数据库事务处理机制来突破一写多读的限制,支持多个读写节点并发执行读写事务.D3C将事务分拆为子事务,并根据预先确定的全局顺序在各节点独立执行这些子事务,以满足多个读写节点上事务执行的可串行化.此外,提出基于多版本机制的异步批量数据持久化等机制以保证事务处理的性能,并提出基于一致性点的故障恢复机制以实现高可用.实验结果表明,D3C在满足云原生数据库关键需求的同时,在写密集场景下能够达到一写多读性能的5.1倍. 展开更多
关键词 云原生数据库 确定性并发控制 事务处理
下载PDF
跨域数据管理 被引量:8
2
作者 杜小勇 李彤 +3 位作者 卢卫 范举 张峰 柴云鹏 《计算机科学》 CSCD 北大核心 2024年第1期4-12,共9页
随着数据成为新的生产要素和数字中国顶层战略的推进,跨域数据共享和流通对于实现数据要素价值最大化变得至关重要。国家通过布局全国一体化大数据中心体系、启动“东数西算”工程等一系列举措,为数据要素的跨域应用提供了基础设施。然... 随着数据成为新的生产要素和数字中国顶层战略的推进,跨域数据共享和流通对于实现数据要素价值最大化变得至关重要。国家通过布局全国一体化大数据中心体系、启动“东数西算”工程等一系列举措,为数据要素的跨域应用提供了基础设施。然而,传统的数据管理局限于单一域内,无法满足跨域场景下的数据管理需求。跨域数据管理面临通信层面的跨空间域挑战、数据建模层面的异构模型融合问题,以及数据访问层面的跨信任域挑战。从跨空间域、跨管辖域和跨信任域3个视角出发,探讨了跨域数据管理的内涵、研究挑战及关键技术,并展望了其未来发展趋势。 展开更多
关键词 数据管理 跨空间域 跨管辖域 跨信任域
下载PDF
数据故事的内涵、生成及应用研究 被引量:2
3
作者 朝乐门 《中国图书馆学报》 CSSCI 北大核心 2024年第3期96-116,共21页
故事是古老的艺术和文学体裁,而数据故事是大数据时代新兴的一门科学与工程技术。数据故事的公式化定义揭示了数据故事已有定义之间的区别与联系,聚焦数据故事化中的主要矛盾,加深了对数据故事的理解层次,较好地支持数据故事的自动生成... 故事是古老的艺术和文学体裁,而数据故事是大数据时代新兴的一门科学与工程技术。数据故事的公式化定义揭示了数据故事已有定义之间的区别与联系,聚焦数据故事化中的主要矛盾,加深了对数据故事的理解层次,较好地支持数据故事的自动生成。数据故事的两个主要阶段、三类核心科学问题、四个基本特征以及五个关键要素的提出,进一步明确了数据故事的知识体系。数据故事的生成过程模型——DAIS的提出不仅明确了数据故事生成过程中的四个关键要素——数据、分析、洞见和故事,而且深入探讨了每个阶段的工作要点。数据故事具有体验、解释和启发三种主要功能,是现实世界和虚拟世界之间的桥梁。数据故事将成为元宇宙为代表的虚实结合型应用问题研究的关键课题之一。 展开更多
关键词 数据故事 数据科学 数据洞见 数据分析 叙述
下载PDF
数据科学的科学性与科学问题的分析 被引量:2
4
作者 朝乐门 《计算机科学》 CSCD 北大核心 2024年第1期26-34,共9页
作为一门新兴的学科领域,数据科学的科学性受到了关注且其科学问题未明确提出。文中从科学研究范式及方法论、可证伪性和可再现性、科学精神及快速迭代以及科学研究纲领及理论体系4个方面探讨了数据科学的“科学性”,并解答了为什么数... 作为一门新兴的学科领域,数据科学的科学性受到了关注且其科学问题未明确提出。文中从科学研究范式及方法论、可证伪性和可再现性、科学精神及快速迭代以及科学研究纲领及理论体系4个方面探讨了数据科学的“科学性”,并解答了为什么数据科学是一门新兴科学的问题。在此基础上,结合DIKW模型(DIKW Pyramid or Hierarchy)、DMP(Data-Model-Problem)模型、数据科学的统计学和机器学习方法论以及数据科学的流程与活动,提出了数据科学的7个核心科学问题:解释在先还是在后或无、问题对齐数据还是数据对齐问题、更加相信数据还是模型、更加重视性能还是可解释性、如何划分数据、如何用已知数据解决未知数据的问题、人在环路还是人出环路。最后,提出了数据科学研究的4点建议:聚焦数据科学本身的理论研究,推动数据的科学、技术和工程需要进一步分离和专业化,加强人工智能赋能的数据科学的理论与实践以及数据科学学科(Data Science as A Discipline)与学科中的数据科学(Data Science Within A Discipline)的联动。 展开更多
关键词 数据科学 科学属性 科学问题 DIKW模型
下载PDF
基于可解释性结果的数据故事化关键技术分析、融合与应用 被引量:1
5
作者 靳庆文 李美静 《情报杂志》 CSSCI 北大核心 2024年第11期129-138,共10页
[研究目的]明确可解释性结果用于数据故事化的关键技术类型,探索技术融合框架辅助数据故事化的应用流程,对于深度挖掘数据潜在价值、实现解释结果的故事化呈现具有重要意义。[研究方法]为建好可解释性结果与数据故事化的连接,提出了LIM... [研究目的]明确可解释性结果用于数据故事化的关键技术类型,探索技术融合框架辅助数据故事化的应用流程,对于深度挖掘数据潜在价值、实现解释结果的故事化呈现具有重要意义。[研究方法]为建好可解释性结果与数据故事化的连接,提出了LIME改进技术、要素关联技术、高潮点识别技术和故事化自动生成技术,并进一步构建基于四种关键技术的融合框架和故事化流程。[研究结论]LIME改进算法的拟合优度由之前的0.50提高到0.82,且与原始LIME方法相比,残差降低了95%,识别出的高潮点相较于初始样本点,其特征变化幅度在局部区域保证最小。本研究实现了基于特征变化的数据故事的自动化生成,证明技术融合框架在实现故事化解释方面是有效的。 展开更多
关键词 可解释性结果 数据故事化 关键技术 技术融合 技术识别
下载PDF
架构大数据:挑战、现状与展望 被引量:617
6
作者 王珊 王会举 +1 位作者 覃雄派 周烜 《计算机学报》 EI CSCD 北大核心 2011年第10期1741-1752,共12页
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架... 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望. 展开更多
关键词 大数据 大规模可扩展 MAPREDUCE 并行数据库 深度分析
下载PDF
海量数据分析的One-size-fits-all OLAP技术 被引量:32
7
作者 张延松 焦敏 +2 位作者 王占伟 王珊 周烜 《计算机学报》 EI CSCD 北大核心 2011年第10期1936-1946,共11页
传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的... 传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理过程中的数据网络传输代价都成为制约性能的重要因素.通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术.通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性.提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价.实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率. 展开更多
关键词 OLAP 海量数据分析处理 谓词向量 星型模型
下载PDF
数据科学研究的现状与趋势 被引量:79
8
作者 朝乐门 邢春晓 张勇 《计算机科学》 CSCD 北大核心 2018年第1期1-13,共13页
大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了... 大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题。接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。然后,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视,模型集成及元分析的兴起,数据在先、模式在后或无模式的出现,数据一致性及现实主义的回归,多副本技术及靠近数据原则的广泛应用,多样化技术及一体化应用并存,简单计算及实用主义占据主导地位,数据产品开发及数据科学的嵌入式应用,专家余及公众数据科学的兴起,数据科学家与人才培养的探讨。最后,结合文中工作,对数据科学研究者给出了几点建议和注意事项。 展开更多
关键词 数据科学 大数据 数据产品开发 数据加工 数据驱动
下载PDF
我国大数据产业的特征分析与政策建议 被引量:31
9
作者 朝乐门 马广惠 路海娟 《情报理论与实践》 CSSCI 北大核心 2016年第10期5-10,共6页
大数据技术的进步和大数据在各领域的广泛应用推动了大数据产业的发展。根据我国大数据产业的发展现状,文章分析了我国大数据产业的特征及其发展过程中呈现的主要矛盾,在此基础上,为保障我国大数据产业的可持续发展提供政策建议。
关键词 大数据 大数据产业 特征分析 产业政策
原文传递
数据科学与大数据技术专业特色课程研究 被引量:77
10
作者 朝乐门 邢春晓 王雨晴 《计算机科学》 CSCD 北大核心 2018年第3期1-8,共8页
目前,我国数据科学与大数据技术专业的建设已成为新的热点话题。在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程的视角重点分析加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内... 目前,我国数据科学与大数据技术专业的建设已成为新的热点话题。在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程的视角重点分析加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内基梅隆大学、哥伦比亚大学、伦敦城市大学共8所大学的数据科学专业,提出了数据科学与大数据技术这一新专业应重视的10门特色课程,并分析了现阶段我国数据科学教育中普遍存在的8种曲解现象及对策建议。 展开更多
关键词 大数据 数据科学 课程体系 专业建设
下载PDF
大数据时代下数据管理理念的变革:从结果派到过程派 被引量:35
11
作者 童楠楠 朝乐门 《情报理论与实践》 CSSCI 北大核心 2017年第2期60-65,共6页
[目的/意义]从大数据时代下数据管理的复杂性出发,探讨数据管理的新特征和提升数据管理能力的主要策略。[方法/过程]以数据管理成熟度模型为理论基础,论述了大数据时代下数据管理从结果派到过程派的理念变革,即管理对象从后端管理到全... [目的/意义]从大数据时代下数据管理的复杂性出发,探讨数据管理的新特征和提升数据管理能力的主要策略。[方法/过程]以数据管理成熟度模型为理论基础,论述了大数据时代下数据管理从结果派到过程派的理念变革,即管理对象从后端管理到全生命周期管理,管理目标从数据管理向数据治理。结合现状,分析大数据管理面临的数据战略的确定与应用数据边界不明,潜在价值巨大与处理分析技术滞后,数据的分析应用与数据的安全及隐私等主要矛盾。[结果/结论]对于大数据时代下数据管理能力的提升可从需求、技术、措施及目标4个层面开展。 展开更多
关键词 大数据 数据管理 成熟度模型 生命周期 数据治理
原文传递
内存数据库在TPC-H负载下的处理器性能 被引量:10
12
作者 刘大为 栾华 +1 位作者 王珊 覃飙 《软件学报》 EI CSCD 北大核心 2008年第10期2573-2584,共12页
Ailamaki等人1999年研究了数据库管理系统(database management system,简称DBMS)在处理器上的时间开销分解.此后,相关研究集中在分析DBMS在处理器上的瓶颈.但这些研究工作均是在磁盘数据库DRDBs(disk resident databases)上开展的,而... Ailamaki等人1999年研究了数据库管理系统(database management system,简称DBMS)在处理器上的时间开销分解.此后,相关研究集中在分析DBMS在处理器上的瓶颈.但这些研究工作均是在磁盘数据库DRDBs(disk resident databases)上开展的,而且都是分析DBMS上的TPC-C类负载.然而,随着硬件技术的进步,现代计算机的多级缓存结构(memory hierarchy)在逐渐地"上移".例如,容量越来越大的芯片内缓存(on-chip caches)和芯片外缓存(off-chip caches),容量越来越大的RAM,Flash Memory等等.为此,处理器负载分析的研究工作也应随之"上移".研究内存数据MMDBs(mainmemory resident databases)在计算密集型负载下的处理器行为特性.由于磁盘数据库的主要性能瓶颈是磁盘I/O,因而可以用索引、压缩等技术进行优化;然而,内存数据库的性能瓶颈却在于处理器和内存之间的数据交换.针对这一问题,首先分析了磁盘数据库和内存数据库在TPC-H负载下处理器性能瓶颈的差异,并给出了一些优化建议,提出了通过预取的优化方法.其次,通过实验比较了不同存储体系结构(行存储与列存储)对处理器利用率的差异,并探索了下一代内存数据库体系结构方面的解决方案.此外,还研究了索引结构对处理器多级缓存的影响,并给出了索引的优化建议.最后,提出一个微测试集用于评估内存数据库在DSS(decision support system)负载下处理器的性能及行为特性.研究结果会对运行于下一代处理器上的内存数据库体系结构设计和性能优化提供一定的实验依据. 展开更多
关键词 内存数据库 TPC-H负载 处理器特性
下载PDF
大数据产业发展中存在的主要矛盾分析 被引量:12
13
作者 杨倩倩 路海娟 朝乐门 《情报理论与实践》 CSSCI 北大核心 2016年第10期11-15,共5页
分析大数据产业发展中存在的主要矛盾,对于推动大数据产业发展具有重要意义。通过文献调研和案例研究方法,提出了大数据产业发展中存在的三个主要矛盾:大数据的产业化利用与数据主权保障、数据洞见与个人隐私保护以及数据规模与利用率... 分析大数据产业发展中存在的主要矛盾,对于推动大数据产业发展具有重要意义。通过文献调研和案例研究方法,提出了大数据产业发展中存在的三个主要矛盾:大数据的产业化利用与数据主权保障、数据洞见与个人隐私保护以及数据规模与利用率之间的矛盾。在此基础上,结合大数据产业发展中存在的三个主要矛盾为我国大数据产业发展提出对策建议。 展开更多
关键词 大数据产业 产业政策 数据主权
原文传递
知识地图的关键技术与典型应用 被引量:19
14
作者 赵京 徐少同 《情报理论与实践》 CSSCI 北大核心 2012年第12期101-105,共5页
文章剖析了知识地图的概念内涵,并从设计目的和用途角度将知识地图划分为关系揭示、流程设计、可视化表示和知识管理4个类别,随后分析了词表索引、数据结构、信息构建和社会网络分析4项关键技术在知识地图制作过程中的具体作用。最后,... 文章剖析了知识地图的概念内涵,并从设计目的和用途角度将知识地图划分为关系揭示、流程设计、可视化表示和知识管理4个类别,随后分析了词表索引、数据结构、信息构建和社会网络分析4项关键技术在知识地图制作过程中的具体作用。最后,从产品设计、流程设计与再造、人力资源管理、教育学习4个方面讨论了知识地图的具体应用情况。 展开更多
关键词 知识管理 知识地图 关键技术 知识应用
原文传递
广域确定性网络传输技术综述
15
作者 李彤 徐都玲 +5 位作者 吴波 郭雄文 蒋岱均 罗成 卢卫 杜小勇 《软件学报》 北大核心 2025年第1期371-398,共28页
广域网作为连接新业务、新基础设施和各类新型应用的纽带,已成为21世纪最重要的基础设施之一.近年来,数据量爆炸性增长,伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现,以及东数西算、算力网络和数据... 广域网作为连接新业务、新基础设施和各类新型应用的纽带,已成为21世纪最重要的基础设施之一.近年来,数据量爆炸性增长,伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现,以及东数西算、算力网络和数据场等新型业务架构的出现,业务对广域网的数据传输服务质量提出了越来越高的要求.以时延为例,广域网不仅需要提供及时的服务,还需要提供准时的服务,即时延成为必须满足的确定性指标.因此,广域确定性网络作为广域网的新范式应运而生.系统地综述确定性网络的内涵,回顾传统确定性网络相关技术发展脉络,介绍广域确定性网络的新应用,探讨广域网确定性网络传输具有的新特征以及面临的新挑战,并提出广域确定性网络的新目标.基于上述新应用、新特征、新挑战和新目标,详细总结当前广域确定性网络领域的主要研究进展,并给出未来研究的方向.期望能为广域确定性网络领域的研究提供参考和帮助. 展开更多
关键词 广域网 确定性网络 数据传输 改良式 革命式
下载PDF
数据整理——大数据治理的关键技术 被引量:47
16
作者 杜小勇 陈跃国 +1 位作者 范举 卢卫 《大数据》 2019年第3期13-22,共10页
数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者... 数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。 展开更多
关键词 数据整理 数据准备 数据治理 数据管理
下载PDF
政府大数据治理体系的框架及其实现的有效路径 被引量:41
17
作者 安小米 郭明军 +1 位作者 洪学海 魏玮 《大数据》 2019年第3期3-12,共10页
针对目前大数据治理研究仍局限于从单一学科视角和单一层面进行讨论,缺少对大数据治理体系构建的体系化研究的现状,采用多学科综合集成方法,通过系统文献调研及案例研究的方法,将宏观、中观与微观3个层次的体系构成要素进行了有机融合,... 针对目前大数据治理研究仍局限于从单一学科视角和单一层面进行讨论,缺少对大数据治理体系构建的体系化研究的现状,采用多学科综合集成方法,通过系统文献调研及案例研究的方法,将宏观、中观与微观3个层次的体系构成要素进行了有机融合,提出了宏观层面的多元主体合作联盟共治、中观层面的多层次活动流程联通共生、微观层面的多维度要素联结共赢的大数据治理体系框架及其实现的有效路径,对促进大数据治理体系构成要素的互联、互通、互动,产生整体性、成套性和针对性效用,具有理论意义和实践价值。 展开更多
关键词 政府大数据 大数据治理体系 治理体系框架 实现路径
下载PDF
大数据管理系统的历史、现状与未来 被引量:63
18
作者 杜小勇 卢卫 张峰 《软件学报》 EI CSCD 北大核心 2019年第1期127-141,共15页
大数据管理技术正在经历以软件为中心到以数据为中心的计算平台的变迁,传统的关系型数据库管理系统无法满足现在以数据为中心的大数据管理的需求,设计新型大数据管理系统迫在眉睫.首先回顾了数据管理技术的发展历史;之后,从大数据管理... 大数据管理技术正在经历以软件为中心到以数据为中心的计算平台的变迁,传统的关系型数据库管理系统无法满足现在以数据为中心的大数据管理的需求,设计新型大数据管理系统迫在眉睫.首先回顾了数据管理技术的发展历史;之后,从大数据管理的存储、数据模型、计算模式、查询引擎等方面分析了大数据管理系统的现状,指出目前大数据管理系统具有模块化和松耦合的特点,并进一步介绍了大数据管理系统应具备的数据特征、系统特征和应用特征,指出大数据管理系统技术还在快速进化之中,预测未来的大数据管理系统应具备多数据模型并存、多计算模式融合、可伸缩调整、新硬件驱动、自适应调优等特点. 展开更多
关键词 大数据管理系统 数据存储 数据模型 模块化 松耦合
下载PDF
基于Nash-Pareto策略的自动数据分布方法及支持工具 被引量:2
19
作者 王晓燕 陈晋川 +1 位作者 郭小燕 杜小勇 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期1965-1975,共11页
大数据时代的来临为数据存储与管理提出了新的挑战.随着数据量的迅猛增加,自动数据分布逐渐成为分布式系统中的研究重点和难点.根据对数据分布问题中数据、负载和节点3个要素的研究和分析,将数据分布问题抽象为称为DaWN(data,workload,n... 大数据时代的来临为数据存储与管理提出了新的挑战.随着数据量的迅猛增加,自动数据分布逐渐成为分布式系统中的研究重点和难点.根据对数据分布问题中数据、负载和节点3个要素的研究和分析,将数据分布问题抽象为称为DaWN(data,workload,node)的三角模型,并将3要素之间的相互关联关系抽象为数据分片、数据分配和负载执行3条纽带;据此,提出了解决自动数据分布问题的基本架构,对各功能模块的协动关系进行探讨;同时,结合已有的研究工作,采用Nash-Pareto优化均衡策略使得前述各机制相得益彰,实验结果验证了其有效性.为使研究工作更多地应用于实践,设计并实现了自动数据分布辅助原型工具ADDvisor(automatic data distribution advisor),协同支持自动数据分布的执行,共同促进大规模分布式联机事务处理系统的并行性能和自动化管理技术的发展. 展开更多
关键词 数据分布 三角模型 自动化解决方案 优化均衡 联机事务处理
下载PDF
大数据集成中确定数据准确属性值的WR方法 被引量:1
20
作者 周宁南 盛万兴 +2 位作者 刘科研 张孝 王珊 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期449-458,共10页
大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理... 大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR(weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n/+2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%. 展开更多
关键词 大数据集成 数据质量 数据准确性 数据清洗 权重规则
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部