期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于深度卷积神经网络的汽车图像分类算法与加速研究 被引量:3
1
作者 黄佳美 张伟彬 熊官送 《现代电子技术》 北大核心 2024年第7期140-144,共5页
在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针... 在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针对上述问题,提出一种基于深度卷积神经网络的公交分类算法,该方法在现场可编程逻辑门阵列上实现了公交车图像分类算法的加速。通过基于迁移学习方法对ResNet50预训练模型进行微调,采用嵌入式端的推理加速实现对模型的推理,并对FPGA加速方案进行推理部署实现。结果表明,该算法具有硬件配置灵活、信息处理加速快的优点,这为实现神经网络在嵌入式平台的高效、高速应用提供了有效解决方案。 展开更多
关键词 图像分类 边缘计算 卷积神经网络 迁移学习 ResNet50模型 加速推理
下载PDF
基于多任务学习的输电线路小金具缺失推理加速算法
2
作者 程绳 葛雄 +6 位作者 肖非 朱传刚 吴军 肖海涛 李嗣 楚江平 袁雨薇 《计算机测量与控制》 2023年第7期251-257,共7页
针对输电线路小金具缺失的检测问题,对小金具缺失算法的加速推理进行研究,采用多任务头的学习方法,将小金具缺失检测任务使用一个Swin Transformer网络结构[12]和多个由多层感知机组成的任务头组合的方式进行多任务学习推理,并进行单任... 针对输电线路小金具缺失的检测问题,对小金具缺失算法的加速推理进行研究,采用多任务头的学习方法,将小金具缺失检测任务使用一个Swin Transformer网络结构[12]和多个由多层感知机组成的任务头组合的方式进行多任务学习推理,并进行单任务和多任务学习的推理精度和推理性能对比实验,最后还通过实验得到在多任务学习中插拔式扩展任务,实验结果表明在输电线路小金具缺失推理算法中多任务学习比单任务学习的推理性能提升了2倍多,同时显存占用降低了22%以上;通过插拔式扩展任务实验,验证了扩展任务的效果,可灵活扩展配置任务。 展开更多
关键词 多任务头学习 加速推理 输电线路 小金具缺失 扩展任务学习
下载PDF
一种改进型级联神经网络检测算法及加速处理
3
作者 张子振 南钢洋 +1 位作者 孟凡超 白雪 《计算机仿真》 2024年第2期255-260,316,共7页
为提高MTCNN网络检测准确度,且针对检测密集样本容易漏检的问题,通过改进网络隐藏层结构提高网络学习能力,通过Soft-NMS惩罚置信度方式筛选检测框,提高了网络检测准确度,针对密集样本仍保持高精度;且为提高改进后网络推理速度和克服网... 为提高MTCNN网络检测准确度,且针对检测密集样本容易漏检的问题,通过改进网络隐藏层结构提高网络学习能力,通过Soft-NMS惩罚置信度方式筛选检测框,提高了网络检测准确度,针对密集样本仍保持高精度;且为提高改进后网络推理速度和克服网络依赖PC端资源问题,基于HLS实现了网络加速推理。实验结果表明,改进后各子网络检测准确度由93.73%、95.30%、95.89%提高至94.78%、96.30%、97.55%,密集样本测试集测试准确度为97.21%;使用硬件加速对比2.9GhzCPU推理速度快3.3倍,硬件资源最大占用91%,较好利用硬件资源实现了加速处理。 展开更多
关键词 神经网络 人脸检测 置信度 推理加速
下载PDF
基于共享主干网络的人物属性识别推理加速算法
4
作者 刘智文 刘全 +1 位作者 宋玮 赵天成 《智能物联技术》 2022年第6期4-10,共7页
随着视频监控系统在公共场所的广泛应用,人物属性识别需求越来越多。同时,大量的监控视频数据对算法准确性、推理性能和可扩展的多属性识别要求越来越高。针对以上问题,本文对人物属性识别推理加速算法进行了研究,采用了多任务学习的方... 随着视频监控系统在公共场所的广泛应用,人物属性识别需求越来越多。同时,大量的监控视频数据对算法准确性、推理性能和可扩展的多属性识别要求越来越高。针对以上问题,本文对人物属性识别推理加速算法进行了研究,采用了多任务学习的方法,将人物属性识别任务共享Swin Transformer主干网络连接多个MLP任务头的方式进行多任务学习和多任务推理,并在多任务学习中无缝增加扩展任务。与单任务学习的对比实验结果表明,本算法基于多任务学习的人物属性识别比单任务学习的推理速度提升了2.9倍以上,在推理显存占用上降低了21.9%,人物属性识别任务配置也更加灵活。 展开更多
关键词 多任务学习 推理加速 人物属性 并行推理 共享主干网络
下载PDF
大模型关键技术与应用 被引量:1
5
作者 韩炳涛 刘涛 《中兴通讯技术》 北大核心 2024年第2期76-88,共13页
介绍了自ChatGPT发布以来,大模型关键技术和应用的主要进展。在大模型设计方面,模型规模不断增加,但已有放缓趋势,更长的上下文以及多模态已经成为主流,计算效率明显提升;在模型训练方面,从单纯追求数据数量逐渐转变为关注数据的多样性... 介绍了自ChatGPT发布以来,大模型关键技术和应用的主要进展。在大模型设计方面,模型规模不断增加,但已有放缓趋势,更长的上下文以及多模态已经成为主流,计算效率明显提升;在模型训练方面,从单纯追求数据数量逐渐转变为关注数据的多样性和质量,特别是如何使用合成数据训练大模型成为主流探索方向,这是迈向通用人工智能(AGI)的关键;在模型推理方面,模型量化和推理引擎优化极大降低了模型使用成本,诸如投机采样等新兴算法逐渐成熟。在应用层,Agent技术获得了重大进展,在克服大模型固有缺陷方面发挥了不可替代的作用。越来越多的企业开始规划、研发以及使用大模型,企业级大模型应用架构日益成熟完善,并以场景、技术、算法三要素为抓手加速大模型商业价值闭环。 展开更多
关键词 大模型 模型训练 推理加速 大模型安全 智能体
下载PDF
基于RK3588的老人智能监控系统设计
6
作者 李志翔 黄剑华 +2 位作者 甘仿 蒋淦华 程巧玲 《软件工程与应用》 2024年第2期234-243,共10页
随着人口老龄化的不断加剧,老年人的居家安全问题变得日益突出,尤其是跌倒和火灾等意外事件。传统的监控方式主要依赖于人工观察和分析,难以实现对视频内容的智能识别、分析与处理,无法及时有效地防范潜在的安全风险。该文研究并设计一... 随着人口老龄化的不断加剧,老年人的居家安全问题变得日益突出,尤其是跌倒和火灾等意外事件。传统的监控方式主要依赖于人工观察和分析,难以实现对视频内容的智能识别、分析与处理,无法及时有效地防范潜在的安全风险。该文研究并设计一种基于RK3588的老人智能监控系统,内容包括系统平台设计、智能算法设计、智能识别等。该系统不仅实现了视频画面的线上实时监控与视频录制,而且可以快速并准确地对姿态和火焰进行识别。与传统的家庭监控系统相比,本研究设计的系统解决了监控存在的效率低下和便捷性不足的问题,大幅提升了老人安全监控的效能。 展开更多
关键词 智能监控系统 姿态识别 火焰识别 加速推理
下载PDF
基于改进YOLOv7的湖面漂浮物目标检测算法 被引量:3
7
作者 徐宏伟 李然 张家旭 《现代电子技术》 北大核心 2024年第1期105-110,共6页
为提高湖面多种类和小体积的漂浮垃圾检测识别的准确度与推理检测速度,结合湖面垃圾漂浮物的图像特征,采用半结构化剪枝技术创建X-Toss剪枝框架,并基于YOLOv7目标检测模型,提出一种轻量化湖面漂浮物实时检测方法C-X-YOLOv7。X-Toss剪枝... 为提高湖面多种类和小体积的漂浮垃圾检测识别的准确度与推理检测速度,结合湖面垃圾漂浮物的图像特征,采用半结构化剪枝技术创建X-Toss剪枝框架,并基于YOLOv7目标检测模型,提出一种轻量化湖面漂浮物实时检测方法C-X-YOLOv7。X-Toss剪枝框架使用DFS算法生成父子卷积核计算图,利用特定的内核模式剪枝卷积核,降低迭代剪枝的计算成本。融合CA注意力机制对模型进行加权,减少模型过拟合现象,提高模型准确性和泛化能力。结果表明:对湖面垃圾检测识别,C-X-YOLOv7模型识别准确率为91.7%,召回率为91.2%,与YOLOv7模型对比分别提升2.6%、2.5%;推理加速度上,X-Toss剪枝框架在RTX 2080 Ti与NVIDIA Jetson TX2上分别实现YOLOv7的1.98×和2.17×的加速比,相较于PD、NMS、NS等剪枝框架,X-Toss的推理加速比和能耗均有提升。研究表明C-X-YOLOv7湖面漂浮物检测方法为湖面垃圾检测识别提供了一种新思路。 展开更多
关键词 目标检测 YOLOv7 剪枝技术 半结构化剪枝 DFS算法 注意力机制 推理加速 湖面漂浮物
下载PDF
Swin Transformer轻量化:融合权重共享、蒸馏与剪枝的高效策略
8
作者 韩博 周顺 +3 位作者 范建华 魏祥麟 胡永杨 朱艳萍 《电信科学》 北大核心 2024年第9期66-74,共9页
偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸... 偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸馏的模型剪枝压缩方法。首先,在各层之间实现了权重共享,并添加变换层实现权重变换以增加多样性。接下来,构建并分析变换块的参数依赖映射图,构建分组矩阵F记录所有参数之间的依赖关系,确定需要同时剪枝的参数。最后,蒸馏被用于恢复模型性能。在ImageNet-Tiny-200公开数据集上的试验表明,在模型计算复杂度减少32%的情况下,最低仅造成约3%的性能下降,有效降低了模型的计算复杂度。为实现在计算资源受限环境中部署高性能人工智能模型提供了一种解决方案。 展开更多
关键词 偏移窗口的分层视觉转换器 模型轻量化 推理加速 剪枝 蒸馏 权重共享
下载PDF
基于忆阻器的脉冲神经网络硬件加速器架构设计 被引量:4
9
作者 武长春 周莆钧 +4 位作者 王俊杰 李国 胡绍刚 于奇 刘洋 《物理学报》 SCIE EI CAS CSCD 北大核心 2022年第14期298-306,共9页
脉冲神经网络(spiking neural network,SNN)作为第三代神经网络,其计算效率更高、资源开销更少,且仿生能力更强,展示出了对于语音、图像处理的优秀潜能.传统的脉冲神经网络硬件加速器通常使用加法器模拟神经元对突触权重的累加.这种设... 脉冲神经网络(spiking neural network,SNN)作为第三代神经网络,其计算效率更高、资源开销更少,且仿生能力更强,展示出了对于语音、图像处理的优秀潜能.传统的脉冲神经网络硬件加速器通常使用加法器模拟神经元对突触权重的累加.这种设计对于硬件资源消耗较大、神经元/突触集成度不高、加速效果一般.因此,本工作开展了对拥有更高集成度、更高计算效率的脉冲神经网络推理加速器的研究.阻变式存储器(resi-stive random access memory,RRAM)又称忆阻器(memristor),作为一种新兴的存储技术,其阻值随电压变化而变化,可用于构建crossbar架构模拟矩阵运算,已经在被广泛应用于存算一体(processing in memory,PIM)、神经网络计算等领域.因此,本次工作基于忆阻器阵列,设计了权值存储矩阵,并结合外围电路模拟了LIF(leaky integrate and fire)神经元计算过程.之后,基于LIF神经元模型实现了脉冲神经网络硬件推理加速器设计.该加速器消耗了0.75k忆阻器,集成了24k神经元和192M突触.仿真结果显示,在50 MHz的工作频率下,该加速器通过部署三层的全连接脉冲神经网络对MNIST(mixed national institute of standards and techno-logy)数据集进行推理加速,其最高计算速度可达148.2 frames/s,推理准确率为96.4%. 展开更多
关键词 脉冲神经网络 阻变式存储器 存内计算 LIF 神经元 硬件推理加速
下载PDF
异构并行平台的Caffe推理速度提升方法
10
作者 王子曦 邵培南 邓畅 《计算机系统应用》 2022年第2期220-226,共7页
随着计算机硬件性能的提高,目前在个人终端上也开始出现使用预训练机器学习模型进行推理的运用.Caffe是一款流行的深度学习框架,擅长图像分类等任务,但是在默认状态下只能单核运行,无法充分发挥异构并行计算设备的计算能力.深度学习对... 随着计算机硬件性能的提高,目前在个人终端上也开始出现使用预训练机器学习模型进行推理的运用.Caffe是一款流行的深度学习框架,擅长图像分类等任务,但是在默认状态下只能单核运行,无法充分发挥异构并行计算设备的计算能力.深度学习对于计算性能的要求较高,如果能并行化以充分使用所有计算设备,就能提升计算速度和使用体验.由于CPU和GPU的计算性能之比在不同模型下存在差异,因此不能简单将任务均分到多个计算设备.而任务拆分过多或者需要等待多设备完成任务后同步的调度算法会引入更多开销.因此,还需要设计合适的调度算法减少设备空闲时间,才能获得更好的性能.已有一些提高Caffe并行表现的方法,但是对于具体平台有限制且使用难度较高,无法简单充分利用异构并行计算设备的计算能力.本文将Caffe接口扩展,使得自定义程序可以调用异构并行平台的多核或多计算设备使用Caffe进行深度学习推理.接着将目前已有的多种调度算法运用到此类任务上并考察了运行效果.为了减少已有调度算法的同步开销,本文提出了先进先出调度和快速分块调度两种新的算法.测试表明,使用快速分块调度算法结合异构并行计算设备,Caffe的推理速度相比只使用单个CPU核心或者单个GPU都大幅提升.而且,相比已有调度算法中表现最好的HAT算法,本文提出的快速分块调度算法在MNIST和Cifar-10两个数据集上分别减少了7.4%和21.0%的计算性能浪费. 展开更多
关键词 调度算法 Caffe推理加速 快速分块调度算法 异构并行平台调度 深度学习性能优化
下载PDF
面向语义万维网“大规模分布式不完备推理平台LarKC国际专题会议”综述
11
作者 李颖 焦淑娟 《数字图书馆论坛》 2011年第2期73-76,共4页
LarKC项目是开发面向语义万维网的大规模分布式不完备推理平台,LarKC国际专题会议又是全面掌握与免费应用LarKC推理平台的平台。基于第4届LarKC国际专题会议的第一手信息,文章概要介绍LarKC项目诞生的背景与任务、框架及开发进展、历... LarKC项目是开发面向语义万维网的大规模分布式不完备推理平台,LarKC国际专题会议又是全面掌握与免费应用LarKC推理平台的平台。基于第4届LarKC国际专题会议的第一手信息,文章概要介绍LarKC项目诞生的背景与任务、框架及开发进展、历届LarKC国际专题会议,最后作出总结。 展开更多
关键词 LarKC 大规模分布式不完备推理平台 大规模知识加速 大规模异构知识源 语义万维网
下载PDF
基于嵌入式平台的车前红外行人检测方法研究
12
作者 张良 李鑫 +2 位作者 赵晓敏 蒋瑞洋 张国栋 《汽车技术》 CSCD 北大核心 2023年第1期9-14,共6页
针对当前目标检测方法普遍需要高功耗GPU计算平台、易受光照条件影响的问题,提出2种基于嵌入式平台的车前红外行人检测方法:将训练好的YOLOv4-tiny模型使用英伟达开源推理加速库TensorRT进行优化,部署于嵌入式平台;以YOLOv4-tiny模型作... 针对当前目标检测方法普遍需要高功耗GPU计算平台、易受光照条件影响的问题,提出2种基于嵌入式平台的车前红外行人检测方法:将训练好的YOLOv4-tiny模型使用英伟达开源推理加速库TensorRT进行优化,部署于嵌入式平台;以YOLOv4-tiny模型作为算法的基本架构,结合视觉注意力机制和空间金字塔池化思想,同时增加1个YOLO层,提出YOLOv4-tiny+3L+SPP+CBAM网络模型。将2种方法在FLIR数据集上进行训练与测试,并在Jetson TX2嵌入式平台上进行试验,试验结果表明:相较于原始网络YOLOv4-tiny,所提出的第1种方法平均准确率降低0.54%,推理速度提升86.43%(帧速率达26.1帧/s);提出的第2种方法平均准确率提升16.21%,推理速度降低22.86%(帧速率达10.8帧/s)。2种方法均可兼顾准确率和实时性,能够满足车前红外行人检测的需要。 展开更多
关键词 目标检测 红外图像 开源推理加速 注意力机制 Jetson TX2平台
下载PDF
安全帽佩戴检测网络模型的轻量化设计 被引量:4
13
作者 郭奕裕 周箩鱼 《计算机工程》 CAS CSCD 北大核心 2023年第4期312-320,共9页
现有的安全帽佩戴检测网络模型存在准确率低、推理速度慢、部署到边缘计算设备时精度和实时性均达不到应用要求等问题。提出一种轻量化设计的DT-YOLO模型,对YOLOv4-Tiny目标检测模型进行改进,通过增加一个检测层提高模型在密集场景下对... 现有的安全帽佩戴检测网络模型存在准确率低、推理速度慢、部署到边缘计算设备时精度和实时性均达不到应用要求等问题。提出一种轻量化设计的DT-YOLO模型,对YOLOv4-Tiny目标检测模型进行改进,通过增加一个检测层提高模型在密集场景下对小目标的检测能力,并引入空间金字塔池化模块,提高模型对不同尺寸目标的检测能力。使用局部稀疏因子衰减算法进行稀疏化训练,从而使经过稀疏化训练后模型的平均精度均值(mAP)得到提高。根据缩放系数判断通道的重要性,并进行模型的通道剪枝,压缩模型的大小和计算量。使用TensorRT推理加速引擎进行网络层水平和垂直融合,消除拼接层操作,并将参数压缩成16位浮点型,提高模型的推理速度,最后在Jeston Nano边缘计算设备上实现模型部署。实验结果表明,与YOLOv4-Tiny模型相比,DT-YOLO模型的mAP提高了3.6个百分点,模型大小减少了83.5%,帧率提高137.7%,能够满足安全帽佩戴检测的要求。 展开更多
关键词 安全帽佩戴检测 YOLOv4-Tiny模型改进 局部稀疏因子衰减 模型压缩 TensorRT推理加速引擎 Jeston Nano边缘计算设备
下载PDF
基于在轨计算的低轨卫星智能化技术研究
14
作者 郗传秀 孙其博 王尚广 《信息通信技术》 2023年第6期50-55,共6页
从“新空间”时代卫星在轨计算的发展现状出发,文章探讨基于在轨计算的卫星智能化面临的挑战和解决方案,包括卫星资源分配与星载任务调度技术、空间容错技术以及星载推理加速技术,最后介绍低轨卫星智能化研究未来的发展趋势。
关键词 低轨卫星 在轨计算 卫星资源分配 卫星容错技术 星载推理加速技术
下载PDF
基于树莓派的高效卷积优化方法
15
作者 郭晓龙 牛晋宇 杜永萍 《计算机技术与发展》 2023年第5期96-104,共9页
针对卷积神经网络(CNN)的巨大参数量和计算量而导致在树莓派等低功耗的边缘设备模型推理过程中产生耗时较大的问题,对网络上现有的开源推理框架进行了深入研究及对比分析,发现这些都属于通用型推理框架,并不能针对树莓派设备进行极致推... 针对卷积神经网络(CNN)的巨大参数量和计算量而导致在树莓派等低功耗的边缘设备模型推理过程中产生耗时较大的问题,对网络上现有的开源推理框架进行了深入研究及对比分析,发现这些都属于通用型推理框架,并不能针对树莓派设备进行极致推理优化。因此,提出了基于RoofLine模型的定量分析方法,从访存和运算二个维度对Mobilenet等移动端网络架构模型进行卷积推理优化。研究采用了计算图优化方法,利用算子融合和内存重排做推理预处理,从而减少推理过程的计算量和访存开销;同时针对每一层的卷积参数量和特性,提出了9宫格分块策略和NEON指令流水线级别的优化。实验表明,所提出的优化方法在不同的分辨率下,相比腾讯的开源框架NCNN、阿里MNN和商汤PPL.NN在推理速度上取得了高于3倍的性能优化。 展开更多
关键词 深度学习模型推理加速 计算图优化 算子融合 卷积优化 移动端推理框架
下载PDF
深度学习的10年回顾与展望 被引量:2
16
作者 韩炳涛 刘涛 唐波 《中兴通讯技术》 2022年第6期75-84,共10页
过去10年深度学习在算法、算力、数据方面获得了长足发展,使人工智能(AI)技术突破商用限制,行业应用场景日益广泛,产业规模持续扩大。在基础模型方面出现了卷积、注意力机制等关键突破;在学习方法方面,强化学习、自监督学习、大模型并... 过去10年深度学习在算法、算力、数据方面获得了长足发展,使人工智能(AI)技术突破商用限制,行业应用场景日益广泛,产业规模持续扩大。在基础模型方面出现了卷积、注意力机制等关键突破;在学习方法方面,强化学习、自监督学习、大模型并行训练等使模型学习能力大大加强。新型AI计算芯片不断涌现,使计算能效提升百倍。未来10年,深度学习若要保持可持续的指数增长态势,绿色、高效、安全将成为新的核心要素。空间计算、近似计算等技术有望使AI芯片效能继续获得百倍提升。一系列生态融合工具的出现将解决目前日趋严峻的生态碎片化问题。AI安全、可信将成为AI技术应用的基本要求。 展开更多
关键词 深度学习 AI芯片 推理加速 可信AI 开源
下载PDF
基于视频的目标检测算法在安全生产中的应用研究
17
作者 段瑞霞 张海东 《科学技术创新》 2022年第13期29-32,共4页
目标检测算法从视频/图像信息中检测并定位特定目标,融合特征提取、图像处理、深度学习等技术。本文讲述基于摄像机视频识别是否佩戴安全帽的安全生产需求,如何采用YOLOv5目标检测算法,对素材收集、素材标注、模型训练、推理加速和系统... 目标检测算法从视频/图像信息中检测并定位特定目标,融合特征提取、图像处理、深度学习等技术。本文讲述基于摄像机视频识别是否佩戴安全帽的安全生产需求,如何采用YOLOv5目标检测算法,对素材收集、素材标注、模型训练、推理加速和系统展示等过程进行详细说明,从而实现由原来的专人盯视频的“事后追溯,靠人监控”传统模式,转变为“事前预警,事中管理,机器监控”的新模式。智能视频分析技术正逐步改变人员的工作模式,帮助提升安全生产效率,促进企业的数字化转型。 展开更多
关键词 目标检测 YOLOv5 模型训练 推理加速
下载PDF
Inference of Zn in Enormity of the Public Health
18
作者 Kamrunnaher Monalisa Md. Mozammel Hoque GM Rabiul Islam 《Journal of Food Science and Engineering》 2014年第2期55-70,共16页
Zinc (Zn) deficiencies are currently thought to cause chronic metabolic derangement leading to or exacerbating immune deficiencY, gastrointestinal problems, endocrine disorders, neurologic dysfunction, cancer, accel... Zinc (Zn) deficiencies are currently thought to cause chronic metabolic derangement leading to or exacerbating immune deficiencY, gastrointestinal problems, endocrine disorders, neurologic dysfunction, cancer, accelerated aging, degenerative disease, and more. Zn deficiency caused by malnutrition and foods with low bioavailability, aging, certain diseases, or deregulated homeostasis is a far more common risk to human health than intoxication. Higher dose of Zn should be limited to short-term use because of an increased risk of gastrointestinal adverse effects, copper deficiency, anemia, and genitourinary complications. This review has detonated the literature on the spectrum of health effects of Zn status, ranging from symptoms of Zn deficiency to excess exposure. 展开更多
关键词 ZN dietary requirements DEFICIENCY toxicity.
下载PDF
卷积神经网络DPU加速系统设计与实现
19
作者 徐畅 陈明 +1 位作者 谌辰睿 张清河 《武汉理工大学学报》 CAS 北大核心 2020年第12期62-69,共8页
针对嵌入式AI系统中卷积神经网络推理阶段实时性问题,利用软硬件协同设计的思想,在ZYNQ UltraScale+芯片上搭建了基于Deep Learning Processing Unit(DPU)的加速系统,同时为解决DPU调度效率较低的问题,基于优先队列的思想提出了一种适用... 针对嵌入式AI系统中卷积神经网络推理阶段实时性问题,利用软硬件协同设计的思想,在ZYNQ UltraScale+芯片上搭建了基于Deep Learning Processing Unit(DPU)的加速系统,同时为解决DPU调度效率较低的问题,基于优先队列的思想提出了一种适用于DPU的多任务多线程调度策略。在ResNet50,MobileNetV2和DenseBox+MobileNetV2模型上的实验结果表明,加速系统性能与PC机CPU相比提升了141倍,与GPU相比提升了15倍,功耗仅为CPU的6%,GPU的2%。提出的调度策略使DPU调度效率提升了28%,并有效的保证了多任务推理流程的完整性和有序性。 展开更多
关键词 DPU 卷积神经网络推理加速 任务调度 软硬件协同设计 加速系统
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部