期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
纠删码存储下的离线批处理作业性能优化 被引量:2
1
作者 杨振宇 吕敏 李永坤 《集成技术》 2022年第3期85-97,共13页
随着互联网数据的爆发式增长,越来越多的分布式存储系统开始引入纠删码存储机制,以在提供数据可靠性的同时降低存储开销。但纠删码机制的引入改变了数据放置模式,从而影响分布式系统上层业务的数据访问和运行效率。在异构Hadoop集群环境... 随着互联网数据的爆发式增长,越来越多的分布式存储系统开始引入纠删码存储机制,以在提供数据可靠性的同时降低存储开销。但纠删码机制的引入改变了数据放置模式,从而影响分布式系统上层业务的数据访问和运行效率。在异构Hadoop集群环境中,一类典型的离线批处理作业——MapReduce应用在条带式纠删码存储模式下需要从多个节点访问数据,该“一对多”的数据访问模式由于节点性能差异造成应用执行效率下降。对此,该文提出了一种基于异构环境的数据放置和任务分配策略。通过对异构集群中各节点的硬件参数和历史负载进行分析,将同一纠删码条带的数据块尽可能分布在性能相近的节点上;在系统进行任务分配时,针对各节点当前负载和运算能力确定节点的任务并发度,以平衡各节点计算资源的占用情况,从而避免因数据访问或计算过程中的资源竞争产生极端缓慢任务以致降低整个MapReduce应用的运行效率。实验结果表明,相比当前Hadoop默认的随机数据放置和任务分配策略,该文提出的异构感知数据放置策略和动态任务分配策略能够在不同类型的MapReduce应用中有效削弱任务的长尾效应,使得作业整体运行时间节约10.5%~42%,验证了该方案的有效性。 展开更多
关键词 分布式存储系统 纠删码存储系统 离线批处理作业 MapReduce应用 数据布局 任务调度
下载PDF
基于Java的通用批处理作业系统的设计与实现 被引量:3
2
作者 李代伟 李蕖 《软件工程师》 2014年第7期9-12,共4页
为了解决当前业务数据处理中客户群庞大、业务数据大、人工操作繁杂、重复性高等问题,针对现有核心系统构架并非针对完全连线化的设计,提出了同一Job内批次作业平行处理的通用批处理作业系统框架模型,采用断点续接、参数化和模块化设计... 为了解决当前业务数据处理中客户群庞大、业务数据大、人工操作繁杂、重复性高等问题,针对现有核心系统构架并非针对完全连线化的设计,提出了同一Job内批次作业平行处理的通用批处理作业系统框架模型,采用断点续接、参数化和模块化设计等实现了该系统。研究结果表明:通过调节参数,Batch循环流程控制,以满足气象、电信等不同业务的需要,系统能为其提供业务数据的快捷处理手段,提高了操作效率,减少了人工误操作率,达到了通用批处理作业的效果。 展开更多
关键词 批处理作业 Batch循环流程控制 断点续接
下载PDF
银行计算机系统中自动批量处理的原理及实现方法
3
作者 孙玉华 朱洪梅 《上海投资》 2003年第8期42-43,共2页
关键词 银行 计算机系统 自动批量处理 工作原理 自动控制程序 CCBS系统 批处理控制集 批处理作业 自动控制数据库
下载PDF
一种数据本地化存储与处理系统 被引量:2
4
作者 徐永士 霍菁 孙功星 《计算机工程与应用》 CSCD 2012年第5期7-11,共5页
简述了当前大型数据中心普遍采用的计算节点集群与存储系统模块化设计的系统结构,说明了部署在各模块上的主要集群系统。分析了具有独立性的结构化数据本地化存储于计算节点的可能性,给出了系统基本框架,从总体拥有成本(TCO)的角度分析... 简述了当前大型数据中心普遍采用的计算节点集群与存储系统模块化设计的系统结构,说明了部署在各模块上的主要集群系统。分析了具有独立性的结构化数据本地化存储于计算节点的可能性,给出了系统基本框架,从总体拥有成本(TCO)的角度分析了其价值。结合高能物理研究的原始数据特点,认为数据本地化存储在节点上,有利于提高整体利用率,指出了关键部件——文件元数据管理系统的设计要点,分析了PBS作业批处理系统集成文件元数据管理系统的三种方案,给出第一种方案的详细设计,相应的用户提交作业方式的改变。在测试环境下,初步部署了文件元数据管理系统,测试了三种集成方案,给出了简要的分析比较。 展开更多
关键词 作业批处理系统(PBS) 高能物理数据分析 文件元数据管理 数据存储本地化
下载PDF
混部集群资源利用分析 被引量:9
5
作者 葛浙奉 王济伟 +6 位作者 蒋从锋 张纪林 俞俊 林江彬 闫龙川 任祖杰 万健 《计算机学报》 EI CSCD 北大核心 2020年第6期1103-1122,共20页
现代互联网数据中心的规模随应用服务需求的增长而越来越大,但数据中心资源利用率低已逐步成为云计算进一步发展的制约因素.为了提高数据中心的资源利用率,云服务提供商将在线服务和离线批处理作业混合部署到同一个生产集群中.但混合部... 现代互联网数据中心的规模随应用服务需求的增长而越来越大,但数据中心资源利用率低已逐步成为云计算进一步发展的制约因素.为了提高数据中心的资源利用率,云服务提供商将在线服务和离线批处理作业混合部署到同一个生产集群中.但混合部署增加了数据中心管理系统复杂性,对数据中心系统调度和工作负载分配提出了新的挑战.本文从资源使用角度出发,统计分析了阿里巴巴最新发布的包含4034台机器长达8天的混部集群日志数据集,刻画了机器对离线批处理任务与在线服务容器资源分配策略,以及离线批处理作业与在线服务之间的相互干扰.并根据不同的负载特征,以多种方式对机器进行分类,研究机器分工对集群效率提升的意义.通过分析阿里巴巴集群日志数据集,我们发现:(1)集群中43.271%的机器存在容器对CPU核心“超订”现象,而内存不存在“超订”现象;(2)集群中存在“备用节点”,确保集群出现故障时,任务能及时被转移到“备用节点”继续执行;(3)延迟敏感的在线任务的CPU利用率较低,但对内存资源的需求比较高,而离线批处理作业的CPU利用率较高,在线任务和离线任务的资源占用互补;(4)混合部署显著提高了CPU利用率,而内存可能是限制集群性能的主要因素;(5)集群中容器分布存在不平衡性;(6)离线任务的混合部署导致容器内存利用率有所下降,且当在线服务资源需求激增时,调度器缺少一定的容错性和健壮性;(7)离线任务如何部署与容器当前性能紧密相关,尤其是容器CPI指标,与离线任务部署呈现显著相关性.本文对集群负载特性、资源使用及离线和在线任务相互干扰进行研究,有助于其他研究人员对集群系统调度和负载分配分析优化,以提高现代数据中心的资源利用率. 展开更多
关键词 混部集群 资源利用 负载特性 在线服务 批处理作业 调度 服务质量 数据中心
下载PDF
混部数据中心负载特征及其任务调度优化分析 被引量:3
6
作者 王济伟 葛浙奉 +6 位作者 蒋从锋 张纪林 俞俊 林江彬 闫龙川 任祖杰 万健 《计算机工程与科学》 CSCD 北大核心 2020年第1期8-17,共10页
随着现代互联网数据中心的规模越来越大,数据中心面临着能耗、可靠性、可管理性与可扩展性等方面的挑战。同时,数据中心承载的服务多样,既有在线Web服务,也有离线批处理任务。在线任务要求较低的延迟,而离线任务要求较高的吞吐量。为了... 随着现代互联网数据中心的规模越来越大,数据中心面临着能耗、可靠性、可管理性与可扩展性等方面的挑战。同时,数据中心承载的服务多样,既有在线Web服务,也有离线批处理任务。在线任务要求较低的延迟,而离线任务要求较高的吞吐量。为了提高服务器利用率,降低数据中心能耗,当前数据中心往往将在线任务和离线任务混合部署到同一个计算集群中。在混部场景下,如何同时满足在线和离线任务的不同要求,是目前面临的关键挑战。分析了阿里巴巴于2018年发布的含有4034台服务器的混部计算集群在8天内的日志数据(cluster-trace-v2018),从静态配置信息、动态混部运行状态、离线批处理作业DAG依赖结构等出发,揭示其负载特征,包括任务倾斜与容器部署的相关关系等,根据任务依赖关系与关键路径,提出了相应的任务调度优化策略。 展开更多
关键词 混部数据中心 负载特性 在线服务 批处理作业 调度
下载PDF
分布式文件元数据管理系统设计 被引量:1
7
作者 徐永士 臧冬松 孙功星 《计算机工程与应用》 CSCD 2012年第7期1-4,98,共5页
简述了分布式文件元数据管理系统的应用环境和设计目标。目标系统设定应用于高能物理数据分析,关联Torque作业批处理系统;在这些条件的限制下,详细分析了各种限制因素,并以此为基础给出了目标系统的总体结构及模块化设计。详细阐述了目... 简述了分布式文件元数据管理系统的应用环境和设计目标。目标系统设定应用于高能物理数据分析,关联Torque作业批处理系统;在这些条件的限制下,详细分析了各种限制因素,并以此为基础给出了目标系统的总体结构及模块化设计。详细阐述了目标系统的数据库设计、访问接口设计以及数据同步要点,给出了设计思路,并结合目标系统的记录新增操作、查询操作的测试性能,讨论了进一步的工作。 展开更多
关键词 分布式 文件元数据管理 TORQUE 作业批处理系统
下载PDF
基于结构的利用分布式计算的虚拟筛选(英文) 被引量:1
8
作者 谭善阳 王泰一 +1 位作者 王珲 徐峰 《计算机与应用化学》 CAS 2015年第9期1025-1030,共6页
药物虚拟筛选的方法被广泛应用于从百万数量级的类药分子数据库中挑选出潜在的活性候选化合物,相比较于传统的流程可以显著降低研发成本和时间。为此,我们建立了一个大型分布式计算阵列,本论文详细说明了阵列系统的建立方法和对应的虚... 药物虚拟筛选的方法被广泛应用于从百万数量级的类药分子数据库中挑选出潜在的活性候选化合物,相比较于传统的流程可以显著降低研发成本和时间。为此,我们建立了一个大型分布式计算阵列,本论文详细说明了阵列系统的建立方法和对应的虚拟筛选流程。通过对以极光激酶A为药物筛选靶点的测试,我们从数据库中得到了包含已知的高活性分子等多个候选化合物,验证了系统的可行性。 展开更多
关键词 虚拟筛选 分布式计算 极光激酶 交叉对接 批处理作业系统
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部