期刊文献+
共找到264篇文章
< 1 2 14 >
每页显示 20 50 100
面向DCU的LDS访存向量化优化
1
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
低功耗多线程编译优化技术 被引量:16
2
作者 赵荣彩 唐志敏 +1 位作者 张兆庆 GuangR.Gao 《软件学报》 EI CSCD 北大核心 2002年第6期1123-1129,共7页
提出了在多线程体系结构中通过降低执行频率有效减小功耗的理论模型和方法.首先研究识别可降频运行的线程的计算模型和降频因子的计算,然后给出在编译过程中基于对应用程序行为的分析,结合线程划分的低功耗编译优化算法和实现策略.该模... 提出了在多线程体系结构中通过降低执行频率有效减小功耗的理论模型和方法.首先研究识别可降频运行的线程的计算模型和降频因子的计算,然后给出在编译过程中基于对应用程序行为的分析,结合线程划分的低功耗编译优化算法和实现策略.该模型和方法可用于具有执行频率可动态调整的多处理器类多线程体系结构,既可开发TLP(thread level parallelism),又可有效减小功率消耗. 展开更多
关键词 多线程 低功耗 编译优化 并行处理 计算机系统
下载PDF
编译指导的多线程低功耗技术研究 被引量:7
3
作者 赵荣彩 唐志敏 +1 位作者 张兆庆 Guang R.Gao 《计算机研究与发展》 EI CSCD 北大核心 2002年第12期1572-1579,共8页
多线程和低功耗将是研究下一代微处理器结构所要解决和实现的重点目标之一 .提出了一个在 SMT体系结构中通过动态调整 CPU执行频率降低功耗的计算模型 ,进一步分析和讨论了如何在编译时识别具有可使处理部件降低频率执行的期望区间 ,并... 多线程和低功耗将是研究下一代微处理器结构所要解决和实现的重点目标之一 .提出了一个在 SMT体系结构中通过动态调整 CPU执行频率降低功耗的计算模型 ,进一步分析和讨论了如何在编译时识别具有可使处理部件降低频率执行的期望区间 ,并给出了调整频率和能量分析的计算模型以及编译实现策略 ,目的是在不降低或不明显降低程序执行性能的情况下 ,显著降低处理器的功率 /能量消耗 .理论上该模型也可以用于 展开更多
关键词 多线程 低功耗技术 微处理器 体系结构 编译优化
下载PDF
软件流水的低功耗编译技术研究 被引量:5
4
作者 赵荣彩 唐志敏 +1 位作者 张兆庆 Guang R.Gao 《软件学报》 EI CSCD 北大核心 2003年第8期1357-1363,共7页
对具有可动态独立调整运行频率/电压的多功能部件配置结构M,基于全局调度的循环依赖关系,使用ILP形式化框架,研究了对给定循环L进行动态频率/电压调整的低功耗软件流水调度的编译优化技术,提出了一种合理而有效的低功耗最优化软件流水... 对具有可动态独立调整运行频率/电压的多功能部件配置结构M,基于全局调度的循环依赖关系,使用ILP形式化框架,研究了对给定循环L进行动态频率/电压调整的低功耗软件流水调度的编译优化技术,提出了一种合理而有效的低功耗最优化软件流水调度方法,使其在运行时保持性能不变而消耗的功耗/能量最小。 展开更多
关键词 软件流水 低功耗 编译优化 动态频率调整 并行处理
下载PDF
低功耗SMT体系结构研究 被引量:6
5
作者 赵荣彩 唐志敏 《计算机工程与设计》 CSCD 2002年第8期7-12,17,共7页
由于应用程序中ILP和TLP的不足或不均衡性,使得超标量和多处理的性能和资源用率受到了挑战;而同时多线程(SMT)处理器则是一种能够充分利用资源、动态进行TLP到ILP转换的能量有效结构。文章围绕高性能、低功耗这两个目标讨论和探究了SM... 由于应用程序中ILP和TLP的不足或不均衡性,使得超标量和多处理的性能和资源用率受到了挑战;而同时多线程(SMT)处理器则是一种能够充分利用资源、动态进行TLP到ILP转换的能量有效结构。文章围绕高性能、低功耗这两个目标讨论和探究了SMT体系结构的基本思想、设计技术、低功耗考虑以及编译器和操作系统设计应注意和对待的新问题。 展开更多
关键词 ILP 低功耗 编译器 体系结构 操作系统 应用程序 处理器 SMT 超标量 设计技术
下载PDF
IXP 2400网络处理器低功耗技术应用研究 被引量:1
6
作者 赵荣彩 唐志敏 邵洁 《计算机工程与应用》 CSCD 北大核心 2002年第22期71-73,127,共4页
文章从软件低功耗优化角度,结合IXP2400网络处理器中XScalecore处理器体系结构的低功耗技术特点,在SimWattch模拟平台上,就频率动态调整和程序设计语言不同结构成分对应用程序运行功耗的影响进行了模拟和分析,通过对一组Banchmark程序... 文章从软件低功耗优化角度,结合IXP2400网络处理器中XScalecore处理器体系结构的低功耗技术特点,在SimWattch模拟平台上,就频率动态调整和程序设计语言不同结构成分对应用程序运行功耗的影响进行了模拟和分析,通过对一组Banchmark程序的模拟,结果表明在编译系统、操作系统或应用程序设计中采用这些低功耗优化技术设计可降低至少23%以上的运行功耗。 展开更多
关键词 IXP2400网络处理器 低功耗技术 体系结构 微处理器 并行处理
下载PDF
编译低功耗优化技术的研究 被引量:1
7
作者 赵荣彩 唐志敏 《计算机工程与应用》 CSCD 北大核心 2002年第8期6-9,共4页
低功耗技术越来越受到下一代微处理器系统和编译研究工作者的重视。一向认为是硬件研究内容的低功耗技术,事实上,在微处理器发展的今天,又展现出了一种新的潜在的开发空间和研究内容,那就是通过软件技术降低系统的功耗。这一部分潜力空... 低功耗技术越来越受到下一代微处理器系统和编译研究工作者的重视。一向认为是硬件研究内容的低功耗技术,事实上,在微处理器发展的今天,又展现出了一种新的潜在的开发空间和研究内容,那就是通过软件技术降低系统的功耗。这一部分潜力空间是仅通过硬件技术无法涉足的,只有通过软件方法来解决,但这种软件低功耗技术又很难强加给应用程序编写者。文章结合笔者在编译时低功耗优化技术的研究工作,对目前该方向的研究方法、编译策略和实现技术进行了论述和探讨。 展开更多
关键词 低功耗 编译优化 体系结构 微处理器
下载PDF
TCP Server的动态线程POOL技术研究
8
作者 赵荣彩 《计算机科学》 CSCD 北大核心 2002年第8期137-138,111,共3页
一、引言 在传统的Unix系统下,当一进程需要另一实体去完成某一子任务时,它就创建一个子进程进行处理.多年来,在U-nix系统下的大多数支持并行访问的网络Server都是按这种模式设计和运行的,当父进程接受到来自网络的一个Client的连接时,... 一、引言 在传统的Unix系统下,当一进程需要另一实体去完成某一子任务时,它就创建一个子进程进行处理.多年来,在U-nix系统下的大多数支持并行访问的网络Server都是按这种模式设计和运行的,当父进程接受到来自网络的一个Client的连接时,它就fork一个子进程,并由该子进程去处理这个Client的请求.这种方法存在两个问题: 展开更多
关键词 TCPServer 动态线程 POOL 线程 进程 INTERNET 计算机网络 UNIX
下载PDF
面向国产异构平台的OpenMP Offload共享内存访存优化
9
作者 王鑫 李嘉楠 +2 位作者 韩林 赵荣彩 周强伟 《计算机工程与应用》 CSCD 北大核心 2023年第10期75-85,共11页
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了... 国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。 展开更多
关键词 国产处理器DCU 本地数据共享(LDS) OpenMP Offlaod SPMD non-SPMD
下载PDF
SIMD自动向量化编译优化概述 被引量:29
10
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 SIMD扩展部件 自动向量化 数据级并行 编译优化
下载PDF
高负载网络下线速包捕获接口的设计与实现 被引量:8
11
作者 笱程成 赵荣彩 +2 位作者 邰铭 张铮 南煜 《计算机工程与设计》 CSCD 北大核心 2010年第10期2203-2205,2265,共4页
为提升高负载网络下包捕获接口的性能,对包捕获接口在网络流量监测和网络入侵检测等应用中的性能进行了研究。分析了传统包捕获优化方法PACKET_MMAP和PF_RING性能受限的原因,设计了一种用户级的包捕获方法。该方法采用了可扩展的内存映... 为提升高负载网络下包捕获接口的性能,对包捕获接口在网络流量监测和网络入侵检测等应用中的性能进行了研究。分析了传统包捕获优化方法PACKET_MMAP和PF_RING性能受限的原因,设计了一种用户级的包捕获方法。该方法采用了可扩展的内存映射机制、灵活的拷贝策略和高效的轮询机制,最后在IntelPRO/1000 PT Server Adapter上实现。与传统优化技术相比,该方法简单高效,包捕获速率更高。 展开更多
关键词 高负载 零拷贝 轮询机制 直接内存访问缓存 内存映射
下载PDF
基于改进证据理论的态势评估方法 被引量:6
12
作者 汪永伟 刘育楠 +2 位作者 赵荣彩 司成 邱卫 《计算机应用》 CSCD 北大核心 2014年第2期491-495,共5页
证据理论是实现基于规则的态势感知主要方法之一。然而,证据理论在多源多证据合成时存在悖论问题。针对此问题,通过相异度计算对证据重要性度量与修正,提出了一种基于改进证据理论的态势评估方法,该方法包括规则度量、证据修正、规则融... 证据理论是实现基于规则的态势感知主要方法之一。然而,证据理论在多源多证据合成时存在悖论问题。针对此问题,通过相异度计算对证据重要性度量与修正,提出了一种基于改进证据理论的态势评估方法,该方法包括规则度量、证据修正、规则融合和态势决策等四个阶段。实验表明,该方法能够避免利用证据理论进行态势融合中的悖论问题,在态势评估效率和准确性等方面优于Dempster、Yager和Leung等典型方法。 展开更多
关键词 态势评估 融合 相异度 规则 证据理论
下载PDF
基于DNS的拒绝服务攻击研究与防范 被引量:11
13
作者 张小妹 赵荣彩 +1 位作者 单征 陈静 《计算机工程与设计》 CSCD 北大核心 2008年第1期21-24,共4页
基于域名系统(DNS)的拒绝服务攻击利用DNS协议的缺陷,对计算机网络的基础设施或可用资源进行攻击,能迅速使被攻击目标资源耗尽,给网络信息安全带来了严重威胁。在分析DNS特点和缺陷的基础上,阐述利用DNS进行拒绝服务攻击的原理,重点研... 基于域名系统(DNS)的拒绝服务攻击利用DNS协议的缺陷,对计算机网络的基础设施或可用资源进行攻击,能迅速使被攻击目标资源耗尽,给网络信息安全带来了严重威胁。在分析DNS特点和缺陷的基础上,阐述利用DNS进行拒绝服务攻击的原理,重点研究欺骗式和反弹式两种攻击方式,构建实验环境深入分析攻击技术,最后提出了4种有效的防范措施。 展开更多
关键词 域名系统 拒绝服务攻击 反弹式攻击 网络安全 防范
下载PDF
面向SLP的多重循环向量化 被引量:13
14
作者 魏帅 赵荣彩 姚远 《软件学报》 EI CSCD 北大核心 2012年第7期1717-1728,共12页
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(sup... 如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比. 展开更多
关键词 SIMD 向量化 依赖关系分析 多重循环 超字并行
下载PDF
基于多面体模型的编译“黑魔法” 被引量:9
15
作者 赵捷 李颖颖 赵荣彩 《软件学报》 EI CSCD 北大核心 2018年第8期2371-2396,共26页
基于多面体模型的编译技术发展近30年,已经在多个开源编译器和商业编译器中得到了应用和实现.与传统的编译优化模型相比,多面体模型具备应用范围广、表示能力强、优化空间大等优点,代表了程序自动并行化领域众多方向最先进的水平,成为... 基于多面体模型的编译技术发展近30年,已经在多个开源编译器和商业编译器中得到了应用和实现.与传统的编译优化模型相比,多面体模型具备应用范围广、表示能力强、优化空间大等优点,代表了程序自动并行化领域众多方向最先进的水平,成为国际上多个编译研发团队的研究热点;同时,多面体模型抽象程度高、实现难度大、面临问题多的特征,阻碍了基于该模型的编译技术在发展相对滞后地区的普及,形成国内专门从事该问题研究的团队屈指可数的现象.为了打开多面体模型的"黑盒子",首先描述了多面体模型的原理,揭示了基于多面体模型的编译流程,并指出了该领域的主要研究内容;接下来,从程序并行性、数据局部性和其他领域上的扩展应用这3个方面对该领域上的研究进展进行了介绍;最后,对该研究领域当前面临的挑战和潜在的研究方向进行了总结.研究目的是通过回顾和总结基于多面体模型的编译技术研究进展,为国内编译研发团队提供重要参考,以期推动我国在该领域上的发展. 展开更多
关键词 多面体模型 并行性 局部性 依赖 调度 代码生成 循环分块 数组压缩
下载PDF
OpenMP并行程序的编译器优化 被引量:13
16
作者 张平 李清宝 赵荣彩 《计算机工程》 EI CAS CSCD 北大核心 2006年第24期37-40,共4页
OpemMP标准以其良好的可移植性和易用性被广泛应用于并行程序设计。该文讨论了OpenMP并行程序的编译器优化算法,在编译过程中通过并行区合并和扩展,实现并行区重构,并在并行区中实现了基于跨处理器相关图的barrier同步优化。分析验证表... OpemMP标准以其良好的可移植性和易用性被广泛应用于并行程序设计。该文讨论了OpenMP并行程序的编译器优化算法,在编译过程中通过并行区合并和扩展,实现并行区重构,并在并行区中实现了基于跨处理器相关图的barrier同步优化。分析验证表明,这些优化策略减少了并行区和barrier同步的数目,有效地提高了OpenMP程序的并行性能。 展开更多
关键词 跨处理器相关 barrier同步 并行区重构 数据相关图
下载PDF
一种基于反汇编技术的二进制补丁分析方法 被引量:9
17
作者 曾鸣 赵荣彩 +1 位作者 王小芹 姚京松 《计算机科学》 CSCD 北大核心 2006年第10期283-287,共5页
软件开发商通过向用户提供补丁程序来修改软件中存在的安全漏洞。但随着安全漏洞研究者不断提高分析安全补丁的能力和速度,厂商开始向公众封闭与安全补丁相关的漏洞技术细节,仅提供软件打补丁前后的二进制代码,由此引发了二进制代码比... 软件开发商通过向用户提供补丁程序来修改软件中存在的安全漏洞。但随着安全漏洞研究者不断提高分析安全补丁的能力和速度,厂商开始向公众封闭与安全补丁相关的漏洞技术细节,仅提供软件打补丁前后的二进制代码,由此引发了二进制代码比较技术研究的热潮。二进制代码比较技术的目的是定位执行代码间的差异,从而获得补丁所修补的漏洞细节。本文提出了一种基于反汇编技术,定位执行代码间语义差异,从而完成二进制安全补丁分析的方法。描述了该技术模型、系统框架和关键技术,并通过实践证明此方法可以快速有效地定位安全补丁所修补的软件漏洞。 展开更多
关键词 补丁分析 反汇编 安全漏洞 IDA
下载PDF
向量并行度指导的循环SIMD向量化方法 被引量:5
18
作者 高伟 韩林 +2 位作者 赵荣彩 徐金龙 陈超然 《软件学报》 EI CSCD 北大核心 2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%. 展开更多
关键词 SIMD扩展部件 向量并行度 Loop-aware 循环展开
下载PDF
基于嵌套循环分类的并行识别技术 被引量:5
19
作者 赵捷 赵荣彩 +1 位作者 丁锐 黄品丰 《软件学报》 EI CSCD 北大核心 2012年第10期2695-2704,共10页
传统的分布存储并行编译系统大多是在共享存储并行编译系统的基础上开发的.共享存储并行编译系统的并行识别技术适合OpenMP代码生成,实现方式是将所有嵌套循环都按照相同的识别方法进行处理,用于分布存储并行编译系统必然会导致无法高... 传统的分布存储并行编译系统大多是在共享存储并行编译系统的基础上开发的.共享存储并行编译系统的并行识别技术适合OpenMP代码生成,实现方式是将所有嵌套循环都按照相同的识别方法进行处理,用于分布存储并行编译系统必然会导致无法高效发掘程序的并行性.分布存储并行编译系统应根据嵌套循环结构的特点进行分类处理,提出适合MPI代码生成的并行识别技术.为解决上述问题,根据嵌套循环的结构和MPI并行程序的特点,提出了一种新的嵌套循环分类方法,并针对不同的嵌套循环分别提出了相应的并行识别技术.实验结果表明,与采用传统并行识别技术的分布存储并行编译系统相比,按照所提方法对嵌套循环进行分类,采用相应并行识别技术的编译系统能够更高效地识别基准程序中的并行循环,自动生成的MPI并行代码其性能加速比提高了20%以上. 展开更多
关键词 并行编译 并行识别 嵌套循环 模型法 遍历法 交互法
下载PDF
一种基于改进证据理论的推理决策方法 被引量:5
20
作者 汪永伟 赵荣彩 +2 位作者 常德显 刘育楠 司成 《计算机科学》 CSCD 北大核心 2014年第12期24-29,共6页
针对证据理论的Zadeh悖论问题,提出了一种基于冲突一致度与交并集动态调整的推理决策方法。首先,该方法基于对冲突度与一致度的综合考虑,引入冲突一致度的概念,并基于冲突一致度对多源证据进行折扣操作。其次,基于交并集权重的动态调整... 针对证据理论的Zadeh悖论问题,提出了一种基于冲突一致度与交并集动态调整的推理决策方法。首先,该方法基于对冲突度与一致度的综合考虑,引入冲突一致度的概念,并基于冲突一致度对多源证据进行折扣操作。其次,基于交并集权重的动态调整对多源证据进行融合。然后,基于最大信任做出推理决策。最后,使用MATLAB构建仿真算例来对提出的方法与典型的证据合成方法进行比较验证。实验表明,该方法切实有效,能够避免悖论问题的产生,推理结果的区分能力优于典型方法。 展开更多
关键词 推理 决策 证据理论 冲突一致度 合成规则
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部