期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于离散小波变换及高低频子带解耦的低计算资源占用端到端语音识别
1
作者
田三力
黎塔
+3 位作者
叶凌轩
吴石松
赵庆卫
张鹏远
《声学学报》
北大核心
2025年第2期373-383,共11页
针对目前端到端语音识别模型计算资源占用过高的问题,提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法 (WLformer),大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Confor...
针对目前端到端语音识别模型计算资源占用过高的问题,提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法 (WLformer),大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Conformer模型为基础,在模型中引入所提出的基于DWT的信号压缩模块,该模块通过去除模型中间层表征内信息量较少的高频成分从而对该表征进行压缩,进而降低模型的计算资源占用。此外还提出了DWT子带解耦前馈网络的子模块结构以替换原模型中部分前馈网络,从而进一步降低模型的计算量。在Aishell-1、HKUST和LibriSpeech三个常用的中英文数据集上的实验表明,提出的WLformer相较于Conformer的显存占用相对下降47.4%,计算量Gflops相对下降39.2%,同时还获得了平均13.1%的错误率改善。此外, WLformer在计算资源占用少于其他主流端到端语音识别模型的情况下同样取得了更好的识别性能,进一步验证了所提方法的有效性。
展开更多
关键词
语音识别
离散小波变换
低计算资源占用
端侧部署
原文传递
题名
基于离散小波变换及高低频子带解耦的低计算资源占用端到端语音识别
1
作者
田三力
黎塔
叶凌轩
吴石松
赵庆卫
张鹏远
机构
中国科学院声学研究所语音与智能信息处理实验室
中国科学院大学
南方电网人工智能科技有限公司
出处
《声学学报》
北大核心
2025年第2期373-383,共11页
基金
科技创新2030项目(2022ZD0116103)资助。
文摘
针对目前端到端语音识别模型计算资源占用过高的问题,提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法 (WLformer),大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Conformer模型为基础,在模型中引入所提出的基于DWT的信号压缩模块,该模块通过去除模型中间层表征内信息量较少的高频成分从而对该表征进行压缩,进而降低模型的计算资源占用。此外还提出了DWT子带解耦前馈网络的子模块结构以替换原模型中部分前馈网络,从而进一步降低模型的计算量。在Aishell-1、HKUST和LibriSpeech三个常用的中英文数据集上的实验表明,提出的WLformer相较于Conformer的显存占用相对下降47.4%,计算量Gflops相对下降39.2%,同时还获得了平均13.1%的错误率改善。此外, WLformer在计算资源占用少于其他主流端到端语音识别模型的情况下同样取得了更好的识别性能,进一步验证了所提方法的有效性。
关键词
语音识别
离散小波变换
低计算资源占用
端侧部署
Keywords
Speech recognition
Discrete wavelet transform
Low computational cost
Edge-device deployment
分类号
TN912.34 [电子电信—通信与信息系统]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于离散小波变换及高低频子带解耦的低计算资源占用端到端语音识别
田三力
黎塔
叶凌轩
吴石松
赵庆卫
张鹏远
《声学学报》
北大核心
2025
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部