期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
容错深度学习加速器跨层优化
1
作者 张青 刘成 +4 位作者 刘波 黄海同 王颖 李华伟 李晓维 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1370-1387,共18页
容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的... 容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的功耗、芯片面积等硬件资源开销.为此,从神经元计算任务和神经元的数据位宽2个维度挖掘深度学习模型对于故障的敏感度差异,并利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价.同时,利用深度学习自身的容错特性,通过限制量化缩小电路层需要保护的电路逻辑规模.最后,利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数,在保障深度学习可靠性、精度以及性能的前提下,最小化硬件资源开销. 展开更多
关键词 跨层优化 容错深度学习加速器 脆弱因子 异构架构 选择性冗余
下载PDF
深度学习加速器在不同剪枝策略下的运行优化 被引量:1
2
作者 易啸 马胜 肖侬 《计算机工程与科学》 CSCD 北大核心 2023年第7期1141-1148,共8页
卷积神经网络在图像分析领域已经取得了巨大的成功。随着深度学习的发展,深度学习模型越来越复杂,深度学习的计算量迅速增加。稀疏化算法能在不降低准确率的前提下有效地减少深度学习的计算量。在ResNet18模型和GoogleNet模型下使用3种... 卷积神经网络在图像分析领域已经取得了巨大的成功。随着深度学习的发展,深度学习模型越来越复杂,深度学习的计算量迅速增加。稀疏化算法能在不降低准确率的前提下有效地减少深度学习的计算量。在ResNet18模型和GoogleNet模型下使用3种不同的剪枝策略减少深度学习模型的计算量。研究表明,在不减少准确率的前提下,全局非结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了94%和90%;在基本不减少准确率的情况下,层级非结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了83%和56%;在轻微降低准确率的情况下,层级结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了34%和22%。3种剪枝策略下,在Eyeriss深度学习加速器结构中运行深度学习剪枝模型。研究结果表明,相较于未剪枝策略,在ResNet模型下,使用全局非结构化剪枝策略的延迟降低了66.0%,功耗降低了60.7%;使用层级非结构化剪枝策略的延迟降低了88.1%,功耗降低了80.6%;使用层级结构化剪枝策略的延迟降低了65.6%,功耗降低了33.5%。相较于未剪枝策略,在GoogleNet模型下,使用全局非结构化剪枝策略的延迟降低了74.5%,功耗降低了63.2%;使用层级非结构化剪枝策略的延迟降低了73.6%,功耗降低了55.0%;使用层级结构化剪枝策略的延迟降低了26.8%,功耗降低了5.8%。因此,可以得出:在不降低准确率的前提下,使用全局非结构化剪枝策略能大幅度地减少模型运算的延迟和能耗;在轻微降低准确率的前提下,使用层次非结构化剪枝策略能大幅度地降低模型运算的延迟和能耗。 展开更多
关键词 深度学习加速器 卷积神经网络 剪枝
下载PDF
基于重计算的深度学习加速器容错设计
3
作者 王乾龙 许达文 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第1期54-59,共6页
2D计算阵列由于高并行性且通信简单,在深度学习加速器(deep learning accelerator,DLA)中经常负责处理卷积的大量计算,若出现硬件故障,则会导致计算错误,从而造成预测精度大幅下降。为了修复2D计算阵列中的故障,文章提出一种用于容错DL... 2D计算阵列由于高并行性且通信简单,在深度学习加速器(deep learning accelerator,DLA)中经常负责处理卷积的大量计算,若出现硬件故障,则会导致计算错误,从而造成预测精度大幅下降。为了修复2D计算阵列中的故障,文章提出一种用于容错DLA的重计算结构(recomputing architecture,RCA),与传统的在阵列中添加冗余的即时故障修复策略不同,它具有一组基于冗余的重计算单元(recomputing unit,RCU),可以在稍后的周期中一对一地进行故障单元的重新计算。实验结果表明,与之前的容错方案相比,该文提出的方法显示出更高的故障修复能力和可扩展性,并且芯片面积占用更少。 展开更多
关键词 重计算结构(RCA) 深度学习加速器(DLA) 容错 重计算
下载PDF
基于ZYNQ的深度学习卷积神经网络加速平台设计 被引量:3
4
作者 刘之禹 李述 王英鹤 《计算机测量与控制》 2022年第12期264-269,共6页
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习... 针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习加速器的平台采用ZYNQ系列的ZCU104开发板,采用软硬件协同设计的思想,将开源的英伟达深度学习加速器(NVDLA)映射到可编程逻辑门阵列(FPGA)上,与ARM处理器构成SoC系统;NVDLA整体架构规范,包含软硬件设计,采用Tengine工具链代替原来官方的编译工具链;之后在搭建好的NVDLA平台上实现lenet-5和resnet-18的网络加速,完成了mnist和cifar-10的数据集图像分类任务;实验结果表明,采用Tengine工具链要比NVDLA官方的编译工具链推理速度快2.5倍,并且量化工具使用方便,网络模型部署高效。 展开更多
关键词 深度学习加速器 NVDLA 卷积神经网络 FPGA 硬件加速
下载PDF
基于NVDLA与FPGA结合的神经网络加速器平台设计 被引量:1
5
作者 管兆康 张志伟 《高技术通讯》 CAS 2021年第5期479-488,共10页
随着深度神经网络对算力的需求不断增加,传统通用处理器在完成推理运算过程中出现了性能低、功耗高的缺点,因此通过专用硬件对深度神经网络进行加速逐步成为了深度神经网络的重要发展趋势。现场可编程门阵列(FPGA)具有重构性强、开发周... 随着深度神经网络对算力的需求不断增加,传统通用处理器在完成推理运算过程中出现了性能低、功耗高的缺点,因此通过专用硬件对深度神经网络进行加速逐步成为了深度神经网络的重要发展趋势。现场可编程门阵列(FPGA)具有重构性强、开发周期短以及性能优越等优点,适合用作深度神经网络的硬件加速平台。英伟达深度学习加速器(NVDLA)是英伟达开源的神经网络硬件加速器,其凭借自身出色的性能被学术界和工业界高度认可。本文主要研究NVDLA在FPGA平台上的优化映射问题,通过多种优化方案高效利用FPGA内部的硬件资源,同时提高其运行性能。基于搭建的NVDLA加速器平台,本文实现了对RESNET-50神经网络的硬件加速,完成了在ImageNet数据集上的图像分类任务。研究结果表明,优化后的NVDLA能显著提高硬件资源使用效率,处理性能最高可达30.8 fps,实现了较边缘中央处理器(CPU)加速器平台28倍的性能提升。 展开更多
关键词 英伟达深度学习加速器(NVDLA) 现场可编程门阵列(FPGA) 硬件加速 模块优化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部