期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于离散小波变换及高低频子带解耦的低计算资源占用端到端语音识别
1
作者 田三力 黎塔 +3 位作者 叶凌轩 吴石松 赵庆卫 张鹏远 《声学学报》 北大核心 2025年第2期373-383,共11页
针对目前端到端语音识别模型计算资源占用过高的问题,提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法 (WLformer),大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Confor... 针对目前端到端语音识别模型计算资源占用过高的问题,提出了一种将离散小波变换(DWT)与端到端语音识别相融合的方法 (WLformer),大幅降低计算资源占用量的同时还可提升识别性能。WLformer的构建以目前端到端语音识别中广泛使用的Conformer模型为基础,在模型中引入所提出的基于DWT的信号压缩模块,该模块通过去除模型中间层表征内信息量较少的高频成分从而对该表征进行压缩,进而降低模型的计算资源占用。此外还提出了DWT子带解耦前馈网络的子模块结构以替换原模型中部分前馈网络,从而进一步降低模型的计算量。在Aishell-1、HKUST和LibriSpeech三个常用的中英文数据集上的实验表明,提出的WLformer相较于Conformer的显存占用相对下降47.4%,计算量Gflops相对下降39.2%,同时还获得了平均13.1%的错误率改善。此外, WLformer在计算资源占用少于其他主流端到端语音识别模型的情况下同样取得了更好的识别性能,进一步验证了所提方法的有效性。 展开更多
关键词 语音识别 离散小波变换 低计算资源占用 端侧部署
原文传递
融合双视角特征的两阶段脑控语音增强
2
作者 邱泽林 姚鼎鼎 李军锋 《声学学报》 北大核心 2025年第2期362-372,共11页
提出一种融合双视角特征的两阶段脑控语音增强方法。首先使用语音分离算法对混合语音进行分离,然后利用一种融合双视角特征的端到端语音增强模块进行听觉注意解码,并根据解码结果对所分离的语音进行选择性输出。该增强模块一方面提取脑... 提出一种融合双视角特征的两阶段脑控语音增强方法。首先使用语音分离算法对混合语音进行分离,然后利用一种融合双视角特征的端到端语音增强模块进行听觉注意解码,并根据解码结果对所分离的语音进行选择性输出。该增强模块一方面提取脑电信号中与语音能量变化等相关的动态特征,另一方面提取与说话人发声特性相关的静态特征,使混合语音能够更好地与脑电信号中的注意力信息相融合。由于增强模块仅被用于解码,与已有方法相比,所提方法在有效获取注意力信息的同时,降低了脑电信号对语音输出质量的负面影响。实验结果表明,在“2024稀疏脑辅助式语音增强挑战赛”数据集上,所提方法能够使目标语音的信号失真比提升18.08 dB,比已有方法高6.44 dB,且在使用较少脑电通道或较低信噪比的脑电信号时,仍能保持较高的语音输出质量。 展开更多
关键词 语音增强 听觉注意解码 脑电信号 神经网络
原文传递
基于常数Q变换的构音障碍语音自动检测和评估
3
作者 孙国伦 王丽 《网络新媒体技术》 2025年第1期16-25,40,共11页
针对构音障碍语音的自动检测与严重程度评估问题,提出一种融合构音障碍语音病理特性的自动检测和评估方法。通过结合常数Q变换的频谱以及源-滤波器假设,将频谱分解,并使用常数Q变换频谱及其分量来捕捉构音障碍患者发音过程中的共振峰歪... 针对构音障碍语音的自动检测与严重程度评估问题,提出一种融合构音障碍语音病理特性的自动检测和评估方法。通过结合常数Q变换的频谱以及源-滤波器假设,将频谱分解,并使用常数Q变换频谱及其分量来捕捉构音障碍患者发音过程中的共振峰歪曲等发音特点。同时,采用密集连接网络对含有病理特性的声学特征建模实现构音障碍检测与严重程度评估。实验结果表明,该方法在英语、意大利语和中文等语种的语音自动检测任务上分别取得2%以上的准确率绝对值提升;在英语和中文语料的构音障碍严重程度评估任务上分别取得2%和10%以上的准确率绝对值提升。这表明该方法能够在不同语种和不同任务上一致提升构音障碍语音建模性能。 展开更多
关键词 构音障碍语音 语音共振峰 常数Q 变换 密集连接网络 源-滤波器
下载PDF
电力行业知识性大语言模型构建方法研究
4
作者 赵必美 关文博 +1 位作者 钟佳益 林全郴 《网络新媒体技术》 2025年第2期50-55,共6页
随着大语言模型(LLM)的飞速发展,其在通用领域已经展现出强大的自然语言理解(NLU)、逻辑推理,以及自然语言生成(NLG)等能力。然而,大语言模型的“幻觉”问题,使其在垂直领域(例如,电力行业)的应用受到了限制。本文以电力行业为例,对构... 随着大语言模型(LLM)的飞速发展,其在通用领域已经展现出强大的自然语言理解(NLU)、逻辑推理,以及自然语言生成(NLG)等能力。然而,大语言模型的“幻觉”问题,使其在垂直领域(例如,电力行业)的应用受到了限制。本文以电力行业为例,对构建该垂直行业知识性大语言模型的方法进行研究,提出一套完整的构建方案。该方案包含电力行业外部知识库构建方法,电力行业文档表征编码器训练方法以及大模型外部知识融合方法。实验表明,该方案在减少大模型“幻觉”现象,提高行业知识性问答准确率中起到了重要作用。 展开更多
关键词 大语言模型 电力行业 知识增强 信息检索 幻觉现象
下载PDF
耳机重放中三维听觉显示定位精度及反应时间的影响因素分析 被引量:2
5
作者 姚鼎鼎 汤婕 +5 位作者 王瑀楠 杨钧程 江涛 李军锋 郑挺 郭小朝 《声学学报》 EI CAS CSCD 北大核心 2024年第6期1152-1161,共10页
探究了基于头相关传输函数(HRTF)的三维听觉显示中,重放方式(动态/稳态重放)、HRTF种类(个性化/非个性化HRTF)、被试类型(有/无测听经验)三个因素对三维听觉显示定位精度和反应时间的影响。实验结果表明,重放方式对听觉定位的影响显著,... 探究了基于头相关传输函数(HRTF)的三维听觉显示中,重放方式(动态/稳态重放)、HRTF种类(个性化/非个性化HRTF)、被试类型(有/无测听经验)三个因素对三维听觉显示定位精度和反应时间的影响。实验结果表明,重放方式对听觉定位的影响显著,动态重放的定位效果明显优于稳态重放,该结论对于有测听经验以及无测听经验的受试者均成立;HRTF种类对听觉定位也具有较大影响,个性化HRTF的定位效果优于非个性化HRTF,具有测听经验的受试者较无测听经验的受试者能更好利用个性化HRTF;具有测听经验的受试者在各个实验条件下所需的定位反应时间更短。相关结果可为三维听觉显示技术的真正应用提供重要参考。 展开更多
关键词 双耳重放 听觉定位 定位精度 反应时间
原文传递
编码器-解码器模型合成汉英语码转换文本
6
作者 黄哲莹 刘作桢 +1 位作者 徐及 赵庆卫 《信号处理》 CSCD 北大核心 2022年第10期2074-2081,共8页
为了解决汉英语码转换文本数据稀缺的问题,本文提出了基于编码器-解码器模型合成语码转换文本的方法,从有限的语码转换文本与大量单语种平行语料中学习语码转换语言学规则与语种内部的语言学规则,来合成语码转换文本。但是该模型合成的... 为了解决汉英语码转换文本数据稀缺的问题,本文提出了基于编码器-解码器模型合成语码转换文本的方法,从有限的语码转换文本与大量单语种平行语料中学习语码转换语言学规则与语种内部的语言学规则,来合成语码转换文本。但是该模型合成的语码转换文本自然度低,因此本文又提出基于带复制机制的编码器-解码器模型合成语码转换文本的方法,在编码器-解码器的基础上,增加了一个门控,用来决定从编码器的预测结果还是从编码器的输入源文本中产生下一个词。最终,该方法使语言模型在SEAME测试集上的困惑度降低了绝对13.96。由此可得出结论,本文提出的方法可大规模地合成自然度高的语码转换文本,缓解语码转换文本数据的稀缺性。 展开更多
关键词 语码转换 编码器-解码器 合成文本 语言模型 语音识别
下载PDF
双层问题强化应用的代理优化算法
7
作者 林辉 《网络新媒体技术》 2022年第4期16-25,共10页
在现实中测试昂贵双层优化问题解通常需要耗费大量的资源,因此在优化此类问题时常用方法是依靠代理模型预先评估问题解的质量,以此来减少所需要进行的实际测试。这种基于代理模型的优化方法的核心步骤为插值,即以代理函数的评估质量为... 在现实中测试昂贵双层优化问题解通常需要耗费大量的资源,因此在优化此类问题时常用方法是依靠代理模型预先评估问题解的质量,以此来减少所需要进行的实际测试。这种基于代理模型的优化方法的核心步骤为插值,即以代理函数的评估质量为标准决定采用哪个解进行实际测试。研究人员发现对于此类问题常用的全局优化方法在昂贵问题上的表现低于预期。针对这个问题,本文提出了一种基于代理模型的强化应用的双层优化算法,实验表明它在低预算下与预测值插值优化算法比较具有竞争力,在高预算下保持有全局优化的特性,在不同的双层优化问题上能够实现稳定的优化表现。 展开更多
关键词 进化算法 双层优化 代理模型 全局优化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部