期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
容错深度学习加速器跨层优化
1
作者
张青
刘成
+4 位作者
刘波
黄海同
王颖
李华伟
李晓维
《计算机研究与发展》
EI
CSCD
北大核心
2024年第6期1370-1387,共18页
容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的...
容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的功耗、芯片面积等硬件资源开销.为此,从神经元计算任务和神经元的数据位宽2个维度挖掘深度学习模型对于故障的敏感度差异,并利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价.同时,利用深度学习自身的容错特性,通过限制量化缩小电路层需要保护的电路逻辑规模.最后,利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数,在保障深度学习可靠性、精度以及性能的前提下,最小化硬件资源开销.
展开更多
关键词
跨层优化
容错
深度学习加速器
脆弱因子
异构架构
选择性冗余
下载PDF
职称材料
深度学习加速器在不同剪枝策略下的运行优化
被引量:
1
2
作者
易啸
马胜
肖侬
《计算机工程与科学》
CSCD
北大核心
2023年第7期1141-1148,共8页
卷积神经网络在图像分析领域已经取得了巨大的成功。随着深度学习的发展,深度学习模型越来越复杂,深度学习的计算量迅速增加。稀疏化算法能在不降低准确率的前提下有效地减少深度学习的计算量。在ResNet18模型和GoogleNet模型下使用3种...
卷积神经网络在图像分析领域已经取得了巨大的成功。随着深度学习的发展,深度学习模型越来越复杂,深度学习的计算量迅速增加。稀疏化算法能在不降低准确率的前提下有效地减少深度学习的计算量。在ResNet18模型和GoogleNet模型下使用3种不同的剪枝策略减少深度学习模型的计算量。研究表明,在不减少准确率的前提下,全局非结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了94%和90%;在基本不减少准确率的情况下,层级非结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了83%和56%;在轻微降低准确率的情况下,层级结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了34%和22%。3种剪枝策略下,在Eyeriss深度学习加速器结构中运行深度学习剪枝模型。研究结果表明,相较于未剪枝策略,在ResNet模型下,使用全局非结构化剪枝策略的延迟降低了66.0%,功耗降低了60.7%;使用层级非结构化剪枝策略的延迟降低了88.1%,功耗降低了80.6%;使用层级结构化剪枝策略的延迟降低了65.6%,功耗降低了33.5%。相较于未剪枝策略,在GoogleNet模型下,使用全局非结构化剪枝策略的延迟降低了74.5%,功耗降低了63.2%;使用层级非结构化剪枝策略的延迟降低了73.6%,功耗降低了55.0%;使用层级结构化剪枝策略的延迟降低了26.8%,功耗降低了5.8%。因此,可以得出:在不降低准确率的前提下,使用全局非结构化剪枝策略能大幅度地减少模型运算的延迟和能耗;在轻微降低准确率的前提下,使用层次非结构化剪枝策略能大幅度地降低模型运算的延迟和能耗。
展开更多
关键词
深度学习加速器
卷积神经网络
剪枝
下载PDF
职称材料
基于重计算的深度学习加速器容错设计
3
作者
王乾龙
许达文
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2023年第1期54-59,共6页
2D计算阵列由于高并行性且通信简单,在深度学习加速器(deep learning accelerator,DLA)中经常负责处理卷积的大量计算,若出现硬件故障,则会导致计算错误,从而造成预测精度大幅下降。为了修复2D计算阵列中的故障,文章提出一种用于容错DL...
2D计算阵列由于高并行性且通信简单,在深度学习加速器(deep learning accelerator,DLA)中经常负责处理卷积的大量计算,若出现硬件故障,则会导致计算错误,从而造成预测精度大幅下降。为了修复2D计算阵列中的故障,文章提出一种用于容错DLA的重计算结构(recomputing architecture,RCA),与传统的在阵列中添加冗余的即时故障修复策略不同,它具有一组基于冗余的重计算单元(recomputing unit,RCU),可以在稍后的周期中一对一地进行故障单元的重新计算。实验结果表明,与之前的容错方案相比,该文提出的方法显示出更高的故障修复能力和可扩展性,并且芯片面积占用更少。
展开更多
关键词
重计算结构(RCA)
深度学习加速器
(DLA)
容错
重计算
下载PDF
职称材料
基于ZYNQ的深度学习卷积神经网络加速平台设计
被引量:
3
4
作者
刘之禹
李述
王英鹤
《计算机测量与控制》
2022年第12期264-269,共6页
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习...
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习加速器的平台采用ZYNQ系列的ZCU104开发板,采用软硬件协同设计的思想,将开源的英伟达深度学习加速器(NVDLA)映射到可编程逻辑门阵列(FPGA)上,与ARM处理器构成SoC系统;NVDLA整体架构规范,包含软硬件设计,采用Tengine工具链代替原来官方的编译工具链;之后在搭建好的NVDLA平台上实现lenet-5和resnet-18的网络加速,完成了mnist和cifar-10的数据集图像分类任务;实验结果表明,采用Tengine工具链要比NVDLA官方的编译工具链推理速度快2.5倍,并且量化工具使用方便,网络模型部署高效。
展开更多
关键词
深度学习加速器
NVDLA
卷积神经网络
FPGA
硬件
加速
下载PDF
职称材料
基于NVDLA与FPGA结合的神经网络加速器平台设计
被引量:
1
5
作者
管兆康
张志伟
《高技术通讯》
CAS
2021年第5期479-488,共10页
随着深度神经网络对算力的需求不断增加,传统通用处理器在完成推理运算过程中出现了性能低、功耗高的缺点,因此通过专用硬件对深度神经网络进行加速逐步成为了深度神经网络的重要发展趋势。现场可编程门阵列(FPGA)具有重构性强、开发周...
随着深度神经网络对算力的需求不断增加,传统通用处理器在完成推理运算过程中出现了性能低、功耗高的缺点,因此通过专用硬件对深度神经网络进行加速逐步成为了深度神经网络的重要发展趋势。现场可编程门阵列(FPGA)具有重构性强、开发周期短以及性能优越等优点,适合用作深度神经网络的硬件加速平台。英伟达深度学习加速器(NVDLA)是英伟达开源的神经网络硬件加速器,其凭借自身出色的性能被学术界和工业界高度认可。本文主要研究NVDLA在FPGA平台上的优化映射问题,通过多种优化方案高效利用FPGA内部的硬件资源,同时提高其运行性能。基于搭建的NVDLA加速器平台,本文实现了对RESNET-50神经网络的硬件加速,完成了在ImageNet数据集上的图像分类任务。研究结果表明,优化后的NVDLA能显著提高硬件资源使用效率,处理性能最高可达30.8 fps,实现了较边缘中央处理器(CPU)加速器平台28倍的性能提升。
展开更多
关键词
英伟达
深度学习加速器
(NVDLA)
现场可编程门阵列(FPGA)
硬件
加速
模块优化
下载PDF
职称材料
题名
容错深度学习加速器跨层优化
1
作者
张青
刘成
刘波
黄海同
王颖
李华伟
李晓维
机构
处理器芯片全国重点实验室(中国科学院计算技术研究所)
中国科学院大学
北京控制工程研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第6期1370-1387,共18页
基金
国家重点研发计划(2022YFB4500405)
国家自然科学基金项目(62174162)
空间可信计算与电子信息技术实验室开放基金资助(OBCandETL-2022-07)。
文摘
容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的功耗、芯片面积等硬件资源开销.为此,从神经元计算任务和神经元的数据位宽2个维度挖掘深度学习模型对于故障的敏感度差异,并利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价.同时,利用深度学习自身的容错特性,通过限制量化缩小电路层需要保护的电路逻辑规模.最后,利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数,在保障深度学习可靠性、精度以及性能的前提下,最小化硬件资源开销.
关键词
跨层优化
容错
深度学习加速器
脆弱因子
异构架构
选择性冗余
Keywords
cross-layer optimization
fault-tolerant deep learning accelerator
vulnerability factor
hybrid architecture
selective redundancy
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
深度学习加速器在不同剪枝策略下的运行优化
被引量:
1
2
作者
易啸
马胜
肖侬
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2023年第7期1141-1148,共8页
基金
国家自然科学基金(62172430)
湖南省自然科学基金(2021JJ10052)
湖南省科技创新计划(2022RC3065)。
文摘
卷积神经网络在图像分析领域已经取得了巨大的成功。随着深度学习的发展,深度学习模型越来越复杂,深度学习的计算量迅速增加。稀疏化算法能在不降低准确率的前提下有效地减少深度学习的计算量。在ResNet18模型和GoogleNet模型下使用3种不同的剪枝策略减少深度学习模型的计算量。研究表明,在不减少准确率的前提下,全局非结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了94%和90%;在基本不减少准确率的情况下,层级非结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了83%和56%;在轻微降低准确率的情况下,层级结构化剪枝策略使得ResNet18和GoogleNet模型稀疏度分别达到了34%和22%。3种剪枝策略下,在Eyeriss深度学习加速器结构中运行深度学习剪枝模型。研究结果表明,相较于未剪枝策略,在ResNet模型下,使用全局非结构化剪枝策略的延迟降低了66.0%,功耗降低了60.7%;使用层级非结构化剪枝策略的延迟降低了88.1%,功耗降低了80.6%;使用层级结构化剪枝策略的延迟降低了65.6%,功耗降低了33.5%。相较于未剪枝策略,在GoogleNet模型下,使用全局非结构化剪枝策略的延迟降低了74.5%,功耗降低了63.2%;使用层级非结构化剪枝策略的延迟降低了73.6%,功耗降低了55.0%;使用层级结构化剪枝策略的延迟降低了26.8%,功耗降低了5.8%。因此,可以得出:在不降低准确率的前提下,使用全局非结构化剪枝策略能大幅度地减少模型运算的延迟和能耗;在轻微降低准确率的前提下,使用层次非结构化剪枝策略能大幅度地降低模型运算的延迟和能耗。
关键词
深度学习加速器
卷积神经网络
剪枝
Keywords
deep learning accelerator
convolutional neural network
pruning
分类号
TP389.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于重计算的深度学习加速器容错设计
3
作者
王乾龙
许达文
机构
合肥工业大学电子科学与应用物理学院
出处
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2023年第1期54-59,共6页
基金
国家自然科学基金资助项目(61834006)。
文摘
2D计算阵列由于高并行性且通信简单,在深度学习加速器(deep learning accelerator,DLA)中经常负责处理卷积的大量计算,若出现硬件故障,则会导致计算错误,从而造成预测精度大幅下降。为了修复2D计算阵列中的故障,文章提出一种用于容错DLA的重计算结构(recomputing architecture,RCA),与传统的在阵列中添加冗余的即时故障修复策略不同,它具有一组基于冗余的重计算单元(recomputing unit,RCU),可以在稍后的周期中一对一地进行故障单元的重新计算。实验结果表明,与之前的容错方案相比,该文提出的方法显示出更高的故障修复能力和可扩展性,并且芯片面积占用更少。
关键词
重计算结构(RCA)
深度学习加速器
(DLA)
容错
重计算
Keywords
recomputing architecture(RCA)
deep learning accelerator(DLA)
fault tolerance
recomputing
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于ZYNQ的深度学习卷积神经网络加速平台设计
被引量:
3
4
作者
刘之禹
李述
王英鹤
机构
哈尔滨理工大学计算机科学与技术学院
哈尔滨理工大学电气与电子工程学院
出处
《计算机测量与控制》
2022年第12期264-269,共6页
基金
国家自然科学基金项目(51971086)
黑龙江省博士后科研启动基金(LBH-Q16118)
黑龙江省高校基础研究基金(LGYC2018JC004)。
文摘
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习加速器的平台采用ZYNQ系列的ZCU104开发板,采用软硬件协同设计的思想,将开源的英伟达深度学习加速器(NVDLA)映射到可编程逻辑门阵列(FPGA)上,与ARM处理器构成SoC系统;NVDLA整体架构规范,包含软硬件设计,采用Tengine工具链代替原来官方的编译工具链;之后在搭建好的NVDLA平台上实现lenet-5和resnet-18的网络加速,完成了mnist和cifar-10的数据集图像分类任务;实验结果表明,采用Tengine工具链要比NVDLA官方的编译工具链推理速度快2.5倍,并且量化工具使用方便,网络模型部署高效。
关键词
深度学习加速器
NVDLA
卷积神经网络
FPGA
硬件
加速
Keywords
deep learning accelerator
NVDLA
convolution neural network
FPGA
hardware acceleration
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于NVDLA与FPGA结合的神经网络加速器平台设计
被引量:
1
5
作者
管兆康
张志伟
机构
华中科技大学人工智能与自动化学院
中国科学院自动化研究所
出处
《高技术通讯》
CAS
2021年第5期479-488,共10页
基金
中国科学院战略性先导科技专项(XDB32000000)资助项目。
文摘
随着深度神经网络对算力的需求不断增加,传统通用处理器在完成推理运算过程中出现了性能低、功耗高的缺点,因此通过专用硬件对深度神经网络进行加速逐步成为了深度神经网络的重要发展趋势。现场可编程门阵列(FPGA)具有重构性强、开发周期短以及性能优越等优点,适合用作深度神经网络的硬件加速平台。英伟达深度学习加速器(NVDLA)是英伟达开源的神经网络硬件加速器,其凭借自身出色的性能被学术界和工业界高度认可。本文主要研究NVDLA在FPGA平台上的优化映射问题,通过多种优化方案高效利用FPGA内部的硬件资源,同时提高其运行性能。基于搭建的NVDLA加速器平台,本文实现了对RESNET-50神经网络的硬件加速,完成了在ImageNet数据集上的图像分类任务。研究结果表明,优化后的NVDLA能显著提高硬件资源使用效率,处理性能最高可达30.8 fps,实现了较边缘中央处理器(CPU)加速器平台28倍的性能提升。
关键词
英伟达
深度学习加速器
(NVDLA)
现场可编程门阵列(FPGA)
硬件
加速
模块优化
Keywords
NVIDIA deep learning accelerator(NVDLA)
field programmable gate array(FPGA)
hardware acceleration
module optimization
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
容错深度学习加速器跨层优化
张青
刘成
刘波
黄海同
王颖
李华伟
李晓维
《计算机研究与发展》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
2
深度学习加速器在不同剪枝策略下的运行优化
易啸
马胜
肖侬
《计算机工程与科学》
CSCD
北大核心
2023
1
下载PDF
职称材料
3
基于重计算的深度学习加速器容错设计
王乾龙
许达文
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2023
0
下载PDF
职称材料
4
基于ZYNQ的深度学习卷积神经网络加速平台设计
刘之禹
李述
王英鹤
《计算机测量与控制》
2022
3
下载PDF
职称材料
5
基于NVDLA与FPGA结合的神经网络加速器平台设计
管兆康
张志伟
《高技术通讯》
CAS
2021
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部