期刊文献+
共找到54,292篇文章
< 1 2 250 >
每页显示 20 50 100
基于Amdahl定律的异构多核密码处理器能效模型研究
1
作者 李伟 郎俊豪 +1 位作者 陈韬 南龙梅 《电子学报》 EI CAS CSCD 北大核心 2024年第3期849-862,共14页
边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节... 边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节等因素,将核划分空闲、活跃状态,建立异构多核密码处理器的能效模型.MATLAB仿真结果表明,数据准备时间占比小于10%时,对能效的负面影响大幅下降;固定电压,频率缩放会影响能效值大小;处理器核空闲/活跃能耗比例越小,能效值越大.架构上,固定异构核,同构核数量与密码任务最大并行度相等时能效值最大,最佳异构核数可由模型变化参数仿真得到;多任务调度执行上,流水与并发执行有利于能效值的进一步提升.多核密码处理器芯片板级测试结果表明,仿真结果与实测数据相关系数接近1,芯片实测的数据准备时间、电压频率缩放等因素的影响与仿真分析基本一致,验证了所提能效模型的有效性.该文重点从影响能效变化趋势因素上,为多核密码处理器异构、高能效设计提供一定的理论分析基础与建议. 展开更多
关键词 密码处理器 多核处理器 异构 AMDAHL定律 能效模型
下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
2
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
下载PDF
基于交叉开关互连的多核堆栈处理器架构设计
3
作者 刘欢庆 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2024年第7期2212-2219,共8页
为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、... 为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、核间数据传输和中断响应操作。在Xilinx FPGA芯片上进行单核、双核和四核堆栈处理器的实现,通过矩阵乘法计算进行性能实验验证,在100 MHz时钟频率的情况下,四核堆栈处理器的最大性能相当于单核堆栈处理器的3.99倍。实验结果表明,基于交叉开关互连的多核堆栈处理器架构可较好发挥多核堆栈处理器中每一个核心的性能。 展开更多
关键词 堆栈处理器 多核处理器 交叉开关 高速缓存 一致性协议 中断控制器 现场可编程门阵列
下载PDF
电极间隙对脉冲电场处理器杀菌效果的影响
4
作者 田野 樊文硕 +2 位作者 卢伟健 张冠军 常正实 《高电压技术》 EI CAS CSCD 北大核心 2024年第4期1760-1768,共9页
脉冲电场是新型非热杀菌技术,杀菌效率高、有效保留液体食品的营养成分,具有广阔的应用前景。电极间隙作为脉冲电场杀菌处理器的关键指标,决定处理器的电场分布和杀菌效果。为了获得最佳间隙参数,提升杀菌效果,为此设计了共场型脉冲电... 脉冲电场是新型非热杀菌技术,杀菌效率高、有效保留液体食品的营养成分,具有广阔的应用前景。电极间隙作为脉冲电场杀菌处理器的关键指标,决定处理器的电场分布和杀菌效果。为了获得最佳间隙参数,提升杀菌效果,为此设计了共场型脉冲电场处理器,电极间距分别为3、5和7 mm,针对固定电导率(等效鲜榨柚子汁电导率)的2种典型细菌(金黄色葡萄球菌和大肠杆菌)菌悬液,研究了脉冲电场的杀菌效果。研究发现,3 mm电极间距所能施加最大电压为18 kV,5、7 mm的可达30 kV;处理时间为120 s时,3种间隙的杀菌效率均可达99.99%。因此,综合考虑电源性能、设备能耗和处理能力,首选3 mm电极间距为处理器的应用参数。评估外施电压幅值对杀菌效果的影响,发现细菌存活量的下降趋势可根据其下降速率分为“慢-快-慢”3个阶段。结合菌悬液上清液蛋白质含量的上升趋势,充分说明了电穿孔应为脉冲电场的主要杀菌机制。 展开更多
关键词 脉冲电场杀菌 电极间隙 处理器结构 杀菌效果 电穿孔
原文传递
《生活饮用水水质处理器卫生安全与功能评价规范》实施效果调查与分析
5
作者 张卓娜 付慧 +1 位作者 胡小键 朱英 《净水技术》 CAS 2024年第11期63-69,共7页
《生活饮用水水质处理器卫生安全与功能评价规范》(以下简称《规范》)自2001年发布以来已实施20余年,该规范对饮用水水质处理器的市场准入起到重要的作用。2023年国家疾病预防控制局发布了《生活饮用水水质处理器卫生安全与功能评价标... 《生活饮用水水质处理器卫生安全与功能评价规范》(以下简称《规范》)自2001年发布以来已实施20余年,该规范对饮用水水质处理器的市场准入起到重要的作用。2023年国家疾病预防控制局发布了《生活饮用水水质处理器卫生安全与功能评价标准》行业标准的制订计划,为了解《规范》实施过程中存在的问题及对制订卫生行业标准的建议,此研究对来自饮用水处理器生产企业、卫生监督机构、涉水产品检验机构及各级疾病预防控制中心(以下简称各级疾控中心)的133名工作人员开展问卷调查,调查内容包括参与人员的基本信息、对饮用水水质处理器的认知、关于修订《规范》的看法、《规范》的适用范围、卫生安全试验、加标试验、总体性能试验和《规范》的适用性等方面。结果显示:58%的被调查者工作年限在10年以上,具有丰富的专业经验和知识背景;约70%的被调查者对当前生活饮用水水质处理器的卫生安全与功能表现比较满意;约90%的被调查者认为修订《规范》是必须且重要的。对《规范》具体内容的调查发现:《规范》中缺乏具体的操作细则和标准,导致在实际操作中难以统一执行;饮用水处理器生产企业的被调查者主要关注卫生安全性试验,建议修订卫生安全性试验评价指标;涉水产品检验机构以及各级疾控中心的被调查者在检测指标限值的修改方面普遍持认可意见。为推动水质处理器的健康发展,保障公众饮用水安全,应加快《规范》的制订与发布,细化试验的操作要求与细则,完善评价指标与限值要求。 展开更多
关键词 生活饮用水 水质处理器 卫生安全 功能评价 实施效果
下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器
6
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
下载PDF
基于“承影”GPGPU的张量处理器设计
7
作者 师雨洁 杨轲翔 +1 位作者 刘旭东 何虎 《微电子学与计算机》 2024年第5期109-116,共8页
针对神经网络对算力和通用性的需求进一步扩大,基于开源项目“承影”GPGPU,设计了张量处理器,可以对卷积、通用矩阵乘进行加速。首先,分析现有张量处理器设计方案及其对应算法,与直接进行卷积计算进行对比,分析性能差异。然后,提出基于... 针对神经网络对算力和通用性的需求进一步扩大,基于开源项目“承影”GPGPU,设计了张量处理器,可以对卷积、通用矩阵乘进行加速。首先,分析现有张量处理器设计方案及其对应算法,与直接进行卷积计算进行对比,分析性能差异。然后,提出基于三维乘法树结构的张量处理器设计,将其部署在Xilinx VCU128开发板上。在VCU128开发板上,张量处理器的工作频率为222 MHz。同时,开发了指数运算单元,辅助完成神经网络运算。在VCU128开发板上的工作频率为159 MHz。最后,利用编写汇编程序的方法,验证张量处理器的功能正确性。引入张量处理器后,预期运行时间明显减少。 展开更多
关键词 通用图形处理器 张量处理器 卷积 通用矩阵乘 指数运算
下载PDF
长向量处理器高效RNN推理方法
8
作者 苏华友 陈抗抗 杨乾明 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期121-130,共10页
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方... 模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。 展开更多
关键词 多核DSP 长向量处理器 循环神经网络 并行优化
下载PDF
基于昇腾AI处理器的轻量化MNG-YOLO模型研究
9
作者 赵月爱 沈帅杰 +1 位作者 王智瑜 王玲 《电子器件》 CAS 2024年第5期1193-1200,共8页
随着目标检测神经网络算法精度不断提升,算法的参数量以及计算量都有着较高的增长,导致模型实际应用部署困难,因此对神经网络模型进行轻量化,减少模型的参数量和计算量对模型部署在边缘设备上是至关重要的。昇腾AI处理器是华为推出的一... 随着目标检测神经网络算法精度不断提升,算法的参数量以及计算量都有着较高的增长,导致模型实际应用部署困难,因此对神经网络模型进行轻量化,减少模型的参数量和计算量对模型部署在边缘设备上是至关重要的。昇腾AI处理器是华为推出的一款专用于神经网络加速的芯片,为充分发挥昇腾AI处理器的优势并解决算法模型较为庞大的问题,基于此平台提出一种轻量化目标检测模型MNG-YOLO,对YOLO模型采用轻量级主干网络和Ghost卷积以减小模型大小,添加NAM注意力模块和Mish激活函数提升模型准确率。实验结果表明,MNG-YOLO模型相比于原始模型参数量以及计算量均减少约75%,参数量从7 015 519个减少至1 739 799个,计算量从15.8 GFLOPs减少至3.5 GFLOPs,模型精确度也由95.9%提升至97.5%。同时,在昇腾AI处理器上的推理速度达到205 FPS,远超实时性检测的速度要求。 展开更多
关键词 目标检测 YOLO模型 昇腾AI处理器 模型轻量化
下载PDF
嵌入式处理器自定义指令迭代识别方法仿真
10
作者 王前莉 李颖 《计算机仿真》 2024年第8期276-280,共5页
嵌入式系统中的硬件资源是有限的,并且自定义指令和原始指令之间可能存在冲突,导致指令代码识别精准度降低、运行功耗较高。为此,提出嵌入式处理器自定义指令迭代低功耗识别方法。对嵌入式处理器的指令代码展开可视化处理,将指令图像输... 嵌入式系统中的硬件资源是有限的,并且自定义指令和原始指令之间可能存在冲突,导致指令代码识别精准度降低、运行功耗较高。为此,提出嵌入式处理器自定义指令迭代低功耗识别方法。对嵌入式处理器的指令代码展开可视化处理,将指令图像输入卷积神经网络中,检测指令代码中存在的恶意代码,采用开源编译器将代码转变为控制数据流图,枚举并选择子图,通过代码转换完成嵌入式处理器自定义指令识别。仿真结果表明,所提方法的恶意代码检测精度高、代码识别准确率高,始终保持在70%以上,平均能耗仅为89J。 展开更多
关键词 嵌入式处理器 恶意代码检测 自定义指令 控制数据流图 指令识别
下载PDF
基于RISC-V的超标量处理器的ROB压缩方法
11
作者 王洁 付丹阳 《计算机工程与科学》 CSCD 北大核心 2024年第7期1185-1192,共8页
RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量... RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量,影响处理器性能。基于指令与微指令在ROB中的存储解耦方法,使用一个新的队列(RAB)存储每条微指令的目的寄存器的重命名映射关系等信息,每项ROB只存储其对应指令拆分的微指令的公共信息,ROB与RAB分别控制指令与微指令的提交与回滚,减少了存储信息冗余,缓解了由向量指令拆分的微指令过多导致的in-flight指令数量减少问题。在上述方法的基础上,同时实现了标量指令的ROB压缩,在ROB项数不变的情况下,增加了in-flight指令的最大数量。最终的仿真结果表明,此方法有效提高了处理器性能。 展开更多
关键词 RISC-V 超标量 处理器 ROB压缩
下载PDF
基于ARM处理器的温室大棚智能监控系统设计
12
作者 孙启昌 胡国强 《工业仪表与自动化装置》 2024年第3期9-14,共6页
为了实现温室大棚的智能监测与控制,设计基于ARM处理器的温室大棚智能监控系统。系统分为三个部分:数据采集及设备控制终端、智能网关终端、Android手机客户端,数据采集及设备控制终端以ARM微处理为核心,通过传感器、算法、Wi-Fi等技术... 为了实现温室大棚的智能监测与控制,设计基于ARM处理器的温室大棚智能监控系统。系统分为三个部分:数据采集及设备控制终端、智能网关终端、Android手机客户端,数据采集及设备控制终端以ARM微处理为核心,通过传感器、算法、Wi-Fi等技术,实现温室大棚数据采集、数据处理、数据传输及执行设备的智能控制,智能网关终端实现多个温室大棚数据从内网发送至公网,Android手机客户端实现数据的接收与发送。经测试验证,系统能够实现温室大棚的智能监控。 展开更多
关键词 ARM处理器 数据采集 智能网关 算法 手机客户端
下载PDF
一种基于异构处理器的可动态布署设计与实现
13
作者 钱宏文 陈光威 《电子技术应用》 2024年第1期93-100,共8页
针对卫星支持的多种生活服务需求实时切换、资源灵活智能调用需求,基于无线广域信号服务异构处理器,设计了一种即时高效、动态切换部署处理器功能的方案。通过对大资源FPGA及多片8核DSP多种功能定制结合动态部署设计,实现实时动态可重... 针对卫星支持的多种生活服务需求实时切换、资源灵活智能调用需求,基于无线广域信号服务异构处理器,设计了一种即时高效、动态切换部署处理器功能的方案。通过对大资源FPGA及多片8核DSP多种功能定制结合动态部署设计,实现实时动态可重构处理器系统功能,将5种FPGA应用结合2种DSP应用程序动态组合,配合各功能任务架构需求重建控制、数据链路,完成多任务智能切换。 展开更多
关键词 异构处理器 动态部署 可重构 FPGA DSP
下载PDF
一种模型微处理器的汇编器设计与应用
14
作者 张伟涛 任爱锋 孙小超 《教育教学论坛》 2024年第29期29-32,共4页
“微机原理”课程是大多数理工科高校学生的必修课程,当前“微机原理”教学常常被限制在x86指令集架构及其典型芯片的框架内,针对教学缺乏灵活性的问题,课程组在x86的基础上开发了一种模型微处理器,为了配合模型微处理器开展“微机原理... “微机原理”课程是大多数理工科高校学生的必修课程,当前“微机原理”教学常常被限制在x86指令集架构及其典型芯片的框架内,针对教学缺乏灵活性的问题,课程组在x86的基础上开发了一种模型微处理器,为了配合模型微处理器开展“微机原理”教学,通过设计并实现了一种模型微处理器的汇编器,具有源程序输入、编辑、汇编、调试及仿真等功能,可以顺利地将模型微处理器应用于“微机原理”教学中。通过教师的教学应用和学生上机编程练习,证明了模型机汇编器设计方案的有效性,极大地推动了“微机原理”课程教学改革的实施。 展开更多
关键词 处理器 微机原理 汇编器
下载PDF
多核处理器公平共享并行总线的方法
15
作者 邵龙 《现代电子技术》 北大核心 2024年第3期25-28,共4页
针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每... 针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每核分配一个总线操作缓冲队列保障了同一核的总线操作先到先服务,而且通过单个读写操作周期的公平队列算法保障了每核总线操作的实时性。工程实践表明,该方法是一种多核处理器公平共享并行总线的有效方法。 展开更多
关键词 综合化电子系统 多核处理器 共享并行总线 冲突 公平队列算法 缓冲队列
下载PDF
电气信息类专业微处理器课程教学改革的探索与实践
16
作者 王彩霞 《中国现代教育装备》 2024年第21期135-137,共3页
为了解决微处理器课程教学中存在的问题,依据电气信息类专业特色和微处理器课程概念抽象、实践性强的特点,提出了构建系统化的微处理器课程群、优化设置“微机原理+XXX”课程、开展项目驱动产学合作实践教学以及完善考评机制的教学改革... 为了解决微处理器课程教学中存在的问题,依据电气信息类专业特色和微处理器课程概念抽象、实践性强的特点,提出了构建系统化的微处理器课程群、优化设置“微机原理+XXX”课程、开展项目驱动产学合作实践教学以及完善考评机制的教学改革设想,并给出了电子信息工程专业微处理器课程的教学改革实践路径,为工科院校微处理器课程建设提供了有益参考。 展开更多
关键词 专业特色 处理器课程群 微机原理 CDIO
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
17
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
PCIe总线接口的多处理器数据传输技术
18
作者 曹月 张奕然 徐锦涛 《信息技术与信息化》 2024年第4期174-177,共4页
PCIe总线接口在分布式处理平台中可以满足各任务系统之间的高速率数据传输,已成为多处理器或处理器与外设交互的主要方式,但各任务系统之间的海量数据交换存在传输不稳定问题。针对以上问题,提出了一种基于PCIe总线的多处理器数据传输... PCIe总线接口在分布式处理平台中可以满足各任务系统之间的高速率数据传输,已成为多处理器或处理器与外设交互的主要方式,但各任务系统之间的海量数据交换存在传输不稳定问题。针对以上问题,提出了一种基于PCIe总线的多处理器数据传输技术的设计方案,设计了以国微电子公司的国产SM8748交换芯片为核心、以飞腾八核处理器FTD2000/8为根设备的互连系统。系统采用一片FTD2000/8处理器作为根节点,另一片FTD2000/8处理器、飞腾双核处理器FT2000AHK以及其他两个计算节点作为端设备,实现外部数据与内部数据的控制交换。实验测试根节点FTD2000/8处理器与端节点之间通过单字节PIO与直接存取DMA两种方式的数据读写传输带宽,结果表明,设计的PCIe总线接口的多处理器数据传输软件能够稳定可靠地实现数据交换。 展开更多
关键词 PCIe总线 处理器 FTD2000/8处理器 互连系统 PIO DMA
下载PDF
基于VPX标准的ZYNQ处理器模块的设计与实现
19
作者 包文帆 邱凯强 刘博 《电脑编程技巧与维护》 2024年第5期64-66,138,共4页
为满足嵌入式系统对高性能、高综合化、高可靠性的要求,提出了一种基于VPX标准的ZYNQ处理器模块设计实现方案。模块按照VITA 46标准设计,使用ZYNQ系列处理器实现高性能数据处理和通信接口集成化;使用Gigabit Ethernet、PCI Express、Ser... 为满足嵌入式系统对高性能、高综合化、高可靠性的要求,提出了一种基于VPX标准的ZYNQ处理器模块设计实现方案。模块按照VITA 46标准设计,使用ZYNQ系列处理器实现高性能数据处理和通信接口集成化;使用Gigabit Ethernet、PCI Express、Serial RapidIO 3种高速串行总线实现与不同设备间的信息高速传输;使用大容量存控一体SSD实现高密度、高可靠数据存储。介绍了处理器模块总体设计方案,针对其周边资源介绍各组成功能电路,给出了模块验证情况及结论。 展开更多
关键词 处理器模块 VPX标准 ZNYQ处理器
下载PDF
面向众核处理器的阴阳K-means算法优化
20
作者 周天阳 王庆林 +4 位作者 李荣春 梅松竹 尹尚飞 郝若晨 刘杰 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期93-102,共10页
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算... 传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。 展开更多
关键词 K-MEANS 非一致内存访问 向量化 众核处理器 性能优化
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部