期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于监督学习的稀疏矩阵自动任务分配 被引量:1
1
作者 李小玲 方建滨 +2 位作者 马俊 谭霜 谭郁松 《计算机工程与科学》 CSCD 北大核心 2023年第5期782-789,共8页
针对稀疏矩阵与稠密向量乘运算探讨了不同的任务分配策略对性能的影响,观察到任务分配策略的选择会显著地影响稀疏矩阵的运算性能,且不存在一种固定的任务分配策略针对所有的稀疏矩阵都能获得最佳性能。为此,提出了一种基于机器学习的... 针对稀疏矩阵与稠密向量乘运算探讨了不同的任务分配策略对性能的影响,观察到任务分配策略的选择会显著地影响稀疏矩阵的运算性能,且不存在一种固定的任务分配策略针对所有的稀疏矩阵都能获得最佳性能。为此,提出了一种基于机器学习的最优任务分配策略选择模型,其训练过程仅使用稀疏矩阵的特征来刻画输入数据集,且能够针对给定的数据集和目标平台自动地训练模型。实验结果表明,相对于默认的块分配方法,使用该模型选择的任务分配方式能够获得平均约35%的性能提升。 展开更多
关键词 稀疏矩阵向量乘 任务分配 机器学习
下载PDF
飞腾处理器与商用处理器性能比较 被引量:12
2
作者 方建滨 杜琦 +3 位作者 唐滔 陈顼颢 黄春 杨灿群 《计算机工程与科学》 CSCD 北大核心 2019年第1期1-8,共8页
深入分析了飞腾处理器FT-1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个... 深入分析了飞腾处理器FT-1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个开源代码移植到飞腾处理器和商用处理器上,探讨了该软件在两个平台上的单核性能与多核性能,分析了性能差异的原因并提出了相应的优化建议。认为FT-1500A已经有良好的生态基础(操作系统、编译器和工具链),使得移植典型科学计算程序简单可行,虽然跟商用平台相比,飞腾处理器在性能上存在着差距,但考虑到其在功耗上的优势,飞腾处理器将是一个非常具有应用前景的平台。 展开更多
关键词 飞腾处理器 微基准测试 性能比较
下载PDF
POSE中乐观同步策略研究 被引量:2
3
作者 方建滨 车永刚 +1 位作者 翁玉芬 王正华 《计算机工程与应用》 CSCD 北大核心 2009年第21期142-146,共5页
同步策略是并行离散事件模拟的关键技术之一。POSE是一种面向对象的可扩展的计算机体系结构并行模拟框架,可进行大规模系统的并行模拟。剖析了POSE框架中的乐观同步策略,按照时间窗口调整状况将其自适应策略分为半自适应策略和完全自适... 同步策略是并行离散事件模拟的关键技术之一。POSE是一种面向对象的可扩展的计算机体系结构并行模拟框架,可进行大规模系统的并行模拟。剖析了POSE框架中的乐观同步策略,按照时间窗口调整状况将其自适应策略分为半自适应策略和完全自适应策略;对自适应乐观同步策略的模拟速度与精度进行了深入的测试比较,发现经过调整半自适应乐观策略能够取得更好的性能;也发现现有完全自适应算法中存在窗口调节反馈滞后和GVT计算开销过大等问题,是其乐观策略优化的方向之一。 展开更多
关键词 并行模拟器 面向对象的并行模拟环境(POSE) 同步策略 性能评测
下载PDF
基于Trace的并行性能模拟任务映射方法
4
作者 方建滨 徐传福 +2 位作者 车永刚 翁玉芬 王正华 《计算机工程》 CAS CSCD 北大核心 2010年第12期269-271,共3页
针对Trace驱动的并行性能模拟问题,提出基于Trace信息指导的映射方法CO-LP3M。CO-LP3M利用从Trace中提取的目标应用程序的通信特征,以宿主机物理进程间通信次数最小化为目标,兼顾计算负载均衡,生成并行模拟任务到宿主机的映射。对HPL程... 针对Trace驱动的并行性能模拟问题,提出基于Trace信息指导的映射方法CO-LP3M。CO-LP3M利用从Trace中提取的目标应用程序的通信特征,以宿主机物理进程间通信次数最小化为目标,兼顾计算负载均衡,生成并行模拟任务到宿主机的映射。对HPL程序进行实验,结果表明CO-LP3M可有效提高并行模拟性能,相对于常见的映射方式,模拟性能最多提高14.7%。在此基础上给出CO-LP3M的扩展技术SCO-LP3M。 展开更多
关键词 并行模拟 任务映射 通信优化 负载平衡
下载PDF
一种并行性能模拟中LP到PP的高效映射方法
5
作者 方建滨 徐传福 +2 位作者 车永刚 翁玉芬 王正华 《计算机工程与科学》 CSCD 北大核心 2009年第A01期218-220,233,共4页
LP到PP的高效映射是加速并行性能模拟的关键技术之一。针对交互规则的并行应用程序,设计映射生成方法A2-LP3M从Trace中提取LP间的交互模式,以宿主机物理进程间通信最小化为目标,兼顾计算负载平衡,从循环块映射中选取合适的映射方式。实... LP到PP的高效映射是加速并行性能模拟的关键技术之一。针对交互规则的并行应用程序,设计映射生成方法A2-LP3M从Trace中提取LP间的交互模式,以宿主机物理进程间通信最小化为目标,兼顾计算负载平衡,从循环块映射中选取合适的映射方式。实验表明,相对于常规映射方法,A2-LP3M减少并行模拟时间最多可达16.2%。 展开更多
关键词 并行性能模拟 映射 通信优化 负载平衡
下载PDF
飞腾1500A处理器性能分析工具Likwid研究 被引量:4
6
作者 彭林 方建滨 +3 位作者 杜琦 唐滔 黄春 杨灿群 《计算机工程与科学》 CSCD 北大核心 2018年第7期1147-1154,共8页
在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500... 在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500A处理器的拓扑结构及相关概要信息;编写内核驱动模块使能飞腾1500A处理器的性能监控单元,指定事件类型,通过对应硬件计数器记录目标程序执行过程中事件发生的次数;结合简单代码和模板化的微基准测试程序,使用性能分析工具收集程序执行过程中相关数据,进行性能分析。 展开更多
关键词 飞腾1500A处理器 性能分析工具 PMU
下载PDF
异构平台多流编程机制的性能模型研究
7
作者 彭林 张鹏 +2 位作者 方建滨 黄春 唐滔 《计算机工程与科学》 CSCD 北大核心 2019年第7期1145-1154,共10页
多流编程机制为异构众核加速器提供流水、资源划分等多种资源使用方式,但如何选择有效使用方式目前缺乏指导。基于异构众核处理器Intel MIC上的hStreams,提出了针对单应用多流程序多硬件分区执行的性能模型,分析不同配置下多流程序性能... 多流编程机制为异构众核加速器提供流水、资源划分等多种资源使用方式,但如何选择有效使用方式目前缺乏指导。基于异构众核处理器Intel MIC上的hStreams,提出了针对单应用多流程序多硬件分区执行的性能模型,分析不同配置下多流程序性能差异的原因,指出了影响多流程序性能的关键因素,提出多流程序划分优化策略,同时所提性能模型能够帮助判断算法实现的效果。实验结果表明,性能模型与多流配置实际测试结果误差小于1%,根据性能模型指导调优稠密矩阵乘的多流程序,比单流程序获得了5.83%的性能提升。 展开更多
关键词 多流编程 流水线 资源划分 hStreams 异构平台
下载PDF
一种Trace驱动的多核SMP集群并行性能模拟方法
8
作者 翁玉芬 徐传福 +2 位作者 车永刚 方建滨 王正华 《计算机工程与科学》 CSCD 北大核心 2009年第A01期172-175,共4页
基于新型多核SMP集群的层次化性能模型,本文在BigSim并行性能模拟器基础上实现了一个Trace驱动的多核SMP集群并行性能模拟器Sim-MSC。在一个InfiniBand多核SMP集群的宿主机平台上采用jacobi3D程序进行了测试,结果表明Sim-MSC能够模拟MP... 基于新型多核SMP集群的层次化性能模型,本文在BigSim并行性能模拟器基础上实现了一个Trace驱动的多核SMP集群并行性能模拟器Sim-MSC。在一个InfiniBand多核SMP集群的宿主机平台上采用jacobi3D程序进行了测试,结果表明Sim-MSC能够模拟MPI消息传递并行应用程序在多核SMP集群上的执行特征,精确预测系统和应用性能。 展开更多
关键词 多核SMP集群 trace驱动模拟器 并行性能模拟
下载PDF
多核/众核平台上推荐算法的实现与性能评估
9
作者 陈静 方建滨 +1 位作者 唐滔 杨灿群 《计算机科学》 CSCD 北大核心 2017年第10期71-74,共4页
用OpenCL语言标准设计并实现了推荐系统领域的两种经典算法:交替最小二乘法(Alternating Least Squares,ALS)与循环坐标下降法(Cyclic Coordinate Descent,CCD)。将其应用到CPU,GPU,MIC多核与众核平台上,探索了在该平台上影响算法性能... 用OpenCL语言标准设计并实现了推荐系统领域的两种经典算法:交替最小二乘法(Alternating Least Squares,ALS)与循环坐标下降法(Cyclic Coordinate Descent,CCD)。将其应用到CPU,GPU,MIC多核与众核平台上,探索了在该平台上影响算法性能的因子:潜在特征维数与线程个数。同时,将OpenCL实现的两种算法与CUDA和OpenMP的实现进行比较,得出了一系列结论。在同等条件下,与ALS算法相比,CCD算法的精度更高,收敛速度更快且更稳定,但所耗时间更长。ALS和CCD算法基于OpenCL的实现性能不亚于CUDA(CCD上加速比为1.03x,ALS上加速比为1.2x)和OpenMP的实现(CCD与ALS上加速比大约为1.6~1.7x),并且两种算法在CPU平台上的性能均比GPU与MIC好。 展开更多
关键词 推荐系统 OPENCL ALS CCD
下载PDF
第一讲 机械位移数字显示装置概况
10
作者 方建滨 章嘉浩 《电世界》 1995年第2期35-37,共3页
随着科学技术与生产的不断发展,在现代机械制造工业中,对机械位移(直线与角度)自动测量技术的精度、效率和可靠性等方面的要求越来越高。微电子工业的高速发展,小型、新颖的传感器的不断涌现,使机械位移的数字化显示和自动控制成为现实... 随着科学技术与生产的不断发展,在现代机械制造工业中,对机械位移(直线与角度)自动测量技术的精度、效率和可靠性等方面的要求越来越高。微电子工业的高速发展,小型、新颖的传感器的不断涌现,使机械位移的数字化显示和自动控制成为现实。机械位移数字显示装置(简称数显装置)是一种非电量测量装置,具有很高的检测精度,使用、维护方便,价格低廉,可广泛应用于车床、铣床、镗床、钻床、电加工机床和冲剪等设备的改造,特别适用于重型机床和精密机床。如果与微机相联,还可以起到简易数控的作用。 展开更多
关键词 位移测量 机械位移 数字显示 发展
下载PDF
第二讲 感应同步器数显装置
11
作者 章嘉浩 方建滨 《电世界》 1995年第3期34-37,共4页
位移传感器感应同步器数显装置采用感应同步器作为位移传感器。感应同步器是利用电磁感应原理把两个平面形绕组间的直线(或角)位移量转换成电信号的位移传感器(或称检测器件)。它具有多极式传感器的误差平均效应。
关键词 感应整步机 数显装置 位移计
下载PDF
wrBench:Comparing Cache Architectures and Coherency Protocols on ARMv8 Many-Core Systems
12
作者 高琬蓉 方建滨 +2 位作者 黄春 徐传福 王峥 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第6期1323-1338,共16页
Cache performance is a critical design constraint for modern many-core systems.Since the cache often works in a"black-box"manner,it is difficult for the software to reason about the cache behavior to match t... Cache performance is a critical design constraint for modern many-core systems.Since the cache often works in a"black-box"manner,it is difficult for the software to reason about the cache behavior to match the running software to the underlying hardware.To better support code optimization,we need to understand and characterize the cache be-havior.While cache performance characterization is heavily studied on traditional x86 architectures,there is little work for understanding the cache implementations on emerging ARMv8-based many-cores.This paper presents a comprehensive study to evaluate the cache architecture design on three representative ARMv8 multi-cores,Phytium 2000+,ThunderX2,and Kunpeng 920(KP920).To this end,we develop wrBench,a micro-benchmark suite to measure the realized latency and bandwidth of caches at different memory hierarchies when performing core-to-core communication.Our evaluation pro-vides inter-core latency and bandwidth in different cache levels and coherency states for the three ARMv8 many-cores.The quantitative performance data is shown in tables.We mine the characteristics of caches and coherency protocols by analyzing the data for the three processors,Phytium 2000+,ThunderX2,and KP920.Our paper also provides discussions and guidelines for optimizing memory access on ARMv8 many-cores. 展开更多
关键词 ARMv8 many-core cache architecture microbenchmark core-to-core communication
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部