期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7,334
篇文章
<
1
2
…
250
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
构音障碍语音识别算法研究综述
被引量:
1
1
作者
宋伟
张杨豪
《计算机工程与应用》
CSCD
北大核心
2024年第11期62-74,共13页
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音...
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。
展开更多
关键词
构音障碍
语音识别
深度学习
人工智能
下载PDF
职称材料
基于融合特征ADRMFCC的语音识别方法
被引量:
1
2
作者
朵琳
马建
+1 位作者
韦贵香
唐剑
《吉林大学学报(理学版)》
CAS
北大核心
2024年第4期943-950,共8页
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些...
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性.
展开更多
关键词
语音识别
残差Mel倒谱系数
特征筛选
增减分量法
下载PDF
职称材料
多模态特征的越南语语音识别文本标点恢复
3
作者
赖华
孙童
+3 位作者
王文君
余正涛
高盛祥
董凌
《计算机应用》
CSCD
北大核心
2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南...
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。
展开更多
关键词
语音识别
标点恢复
越南语
BERT
多模态
下载PDF
职称材料
基于AI技术的声像档案语音识别检索应用研究
被引量:
2
4
作者
魏丽维
《机电兵船档案》
2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重...
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。
展开更多
关键词
AI技术
声像档案
语音识别
下载PDF
职称材料
自动语音识别模型压缩算法综述
5
作者
时小虎
袁宇平
+2 位作者
吕贵林
常志勇
邹元君
《吉林大学学报(理学版)》
CAS
北大核心
2024年第1期122-131,共10页
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性...
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案.
展开更多
关键词
语音识别
模型压缩
知识蒸馏
模型量化
低秩分解
网络剪枝
参数共享
下载PDF
职称材料
语音识别缺陷的分类及中枢神经机制
6
作者
李娉婷
郑净
+1 位作者
薛紫炫
耿立波
《听力学及言语疾病杂志》
CAS
CSCD
北大核心
2024年第3期274-278,共5页
语音识别是一项重要的社会交际功能,语音识别缺陷患者往往因不能准确识别说话者的身份而苦恼。语音识别缺陷指在没有听觉损伤的情况下,仅通过声音难以识别说话者的身份。从大脑损伤的情况来看,该症状分为先天性语音识别缺陷和获得性语...
语音识别是一项重要的社会交际功能,语音识别缺陷患者往往因不能准确识别说话者的身份而苦恼。语音识别缺陷指在没有听觉损伤的情况下,仅通过声音难以识别说话者的身份。从大脑损伤的情况来看,该症状分为先天性语音识别缺陷和获得性语音识别缺陷,先天性语音识别缺陷与颞叶和杏仁核间的功能联结障碍有关,获得性语音识别缺陷患者受损脑区主要包括颞叶和额叶等。今后应重点关注语音识别缺陷患者的筛选方法、神经机制及与其他听觉认知障碍患者的差异等方面的研究。
展开更多
关键词
先天性
语音识别
缺陷
发展性
语音识别
缺陷
神经机制
下载PDF
职称材料
改进粒子滤波跟踪的视听双模态语音识别仿真
7
作者
岳莉
李柯景
赵剑
《计算机仿真》
2024年第9期213-216,345,共5页
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态...
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态语音特征信息,构建transformer语音识别模型,将提取的特征信息输入到模型内实施并行训练,实现视听双模态语音的有效识别。实验结果表明,通过对上述方法开展信噪比测试、识别性能测试,验证了上述方法的可行性高、可靠性强。
展开更多
关键词
语音识别
模型
谱减法
去噪处理
识别
训练
下载PDF
职称材料
一种基于三角模糊数AHP的机载语音识别系统评价
8
作者
高少婷
沈德鸿
《中国科技信息》
2024年第12期84-86,共3页
语音识别技术近年来发展迅速,不断应用于各个领域,机载语音识别系统就是语音识别技术在飞机航电系统上的应用。它的产生大大地降低了飞行员的工作负荷,使得人机交互更加便捷与快速。但是当前针对机载语音识别系统的评估方法多为单纯地...
语音识别技术近年来发展迅速,不断应用于各个领域,机载语音识别系统就是语音识别技术在飞机航电系统上的应用。它的产生大大地降低了飞行员的工作负荷,使得人机交互更加便捷与快速。但是当前针对机载语音识别系统的评估方法多为单纯地计算识别正确率,没有和人机功效等因素进行有效的结合,评价不够全面。
展开更多
关键词
语音识别
系统
语音识别
技术
人机交互
三角模糊数
人机功效
识别
正确率
工作负荷
航电系统
下载PDF
职称材料
基于Conformer的端到端中英文管制语音识别
9
作者
孔建国
韩琪聪
+1 位作者
梁海军
李煜琨
《航空计算技术》
2024年第3期1-5,共5页
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conf...
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conformer共享编码器对输入序列进行语言分类并以参数有效的方式对音频序列的局部和全局相依性进行建模,添加了语种分类模块来判断输入语音序列的语种,还采用了CTC解码器和注意力解码器联合解码的多任务建模方法。最后在建立的民航数据集对所提出的框架进行验证,试验结果表明,Conformer-CTC/Attention(Language-Category)相对于基线模型错误率降低,识别效果达到预期。
展开更多
关键词
空中交通管制
中英文
语音识别
Conformer-CTC/Attention
多任务学习
端到端
下载PDF
职称材料
基于深度学习的语音识别系统实现方法
10
作者
窦亚珍
《电声技术》
2024年第10期74-76,共3页
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于...
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于Python和PyTorch框架进行系统测试。实验结果表明,所提方法在准确率、精确率及召回率方面均表现优异,能够较好地捕捉大多数样本。
展开更多
关键词
深度卷积神经网络(DCNN)
语音识别
PYTHON
下载PDF
职称材料
基于改进Conformer的新闻领域端到端语音识别
被引量:
1
11
作者
张济民
早克热·卡德尔
+2 位作者
艾山·吾买尔
申云飞
汪烈军
《中文信息学报》
CSCD
北大核心
2024年第4期156-164,共9页
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进...
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。
展开更多
关键词
端到端
语音识别
CONFORMER
句子层级一致性
下载PDF
职称材料
基于频谱分析仪的语音识别及控制软件系统设计
被引量:
3
12
作者
赵元琪
尹永柯
+1 位作者
王洪君
房明
《现代电子技术》
北大核心
2024年第6期27-31,共5页
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识...
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识别及控制软件系统。该系统支持Ubuntu 18.04及以上版本操作系统,通过语音指令实现对频谱分析仪的控制,可以实现语音唤醒、语音录入及保存、离线语音识别并转换为文字文本、可执行代码等功能。
展开更多
关键词
语音识别
控制软件
频谱分析仪
UBUNTU
语音
唤醒
语音
听写
下载PDF
职称材料
基于深度学习的音视频语音识别技术回顾与展望
13
作者
张景宣
万根顺
《人工智能》
2024年第3期57-66,共10页
音视频语音识别旨在基于语音以及对应唇形视频输入识别语音的文本内容信息。音视频语音识别技术在噪声场景下可以有效地提升语音识别的准确率,因而其具有广泛的应用前景。本文聚焦深度学习框架下的音视频语音识别技术,总结音视频语音识...
音视频语音识别旨在基于语音以及对应唇形视频输入识别语音的文本内容信息。音视频语音识别技术在噪声场景下可以有效地提升语音识别的准确率,因而其具有广泛的应用前景。本文聚焦深度学习框架下的音视频语音识别技术,总结音视频语音识别的发展现状。具体而言,本文针对音视频语音识别的端到端框架、唇形表征提取、音视频融合模块的相关研究进行回顾。除此之外,本文还对音视频语音识别的学习范式,包括有监督学习、自监督学习,以及半监督学习的相关研究进行了总结。进一步地,本文对音视频语音识别当前面临的挑战进行分析,并对未来的研究方向进行展望。
展开更多
关键词
语音识别
音视频
语音识别
唇语
识别
音视频自监督学习
下载PDF
职称材料
智能燃气灶语音识别测试方法研究
被引量:
1
14
作者
曹延
曾如翔
+3 位作者
陈响亮
洪涛
张维刚
何正罡
《科技创新与应用》
2024年第2期59-62,共4页
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法...
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法满足测试要求。因此,该文在现有家电语音测试方法基础上,针对带有口音的普通话,进行智能燃气灶语音识别测试方法研究,测试方法中明确设备要求、试验环境,并引入正交试验以减少试验次数,为其他智能家具语音识别研究提供参考。
展开更多
关键词
智能燃气灶
智能家居
语音识别
正交试验
方差分析
下载PDF
职称材料
一种基于语音识别的地埋式垃圾分类装置
被引量:
1
15
作者
林锋烽
梁景松
+2 位作者
王昊
谭成兰
王子棋
《科技与创新》
2024年第8期5-8,共4页
针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机...
针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机设计了一种基于语音识别的智能垃圾分类回收装置。该装置可通过语音识别对常见垃圾进行分类,将垃圾引入地底,消除臭味缠身的烦恼,防止致病体传播,也可大大节省城市的空间,有望为城市垃圾管理和环境保护工作作出积极贡献。
展开更多
关键词
语音识别
垃圾分类
地埋升跃
垃圾分类装置
下载PDF
职称材料
基于语音识别处理的植保无人机航行路径控制研究
被引量:
1
16
作者
程永红
王萌
《农机化研究》
北大核心
2024年第2期44-48,共5页
设计了基于HMM的语音识别处理算法,分析了植保无人机的结构与工作原理,并利用改进人工势场法对植保无人机的飞行控制和航行轨迹规划进行分析了研究。试验结果表明:语音控制控制准确度非常高,达到了90%及以上;植保无人机航行路径控制准确...
设计了基于HMM的语音识别处理算法,分析了植保无人机的结构与工作原理,并利用改进人工势场法对植保无人机的飞行控制和航行轨迹规划进行分析了研究。试验结果表明:语音控制控制准确度非常高,达到了90%及以上;植保无人机航行路径控制准确,能够成功避开障碍物,并动态规划最优飞行路径。
展开更多
关键词
植保无人机
航行路径
语音识别
避障
改进人工势场
下载PDF
职称材料
融合音素的缅甸语语音识别文本纠错
17
作者
陈璐
董凌
+3 位作者
王文君
王剑
余正涛
高盛祥
《计算机工程与科学》
CSCD
北大核心
2024年第6期1121-1127,共7页
缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法...
缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法。通过参数共享策略对转录文本及其音素进行联合建模,利用音素信息辅助检测并纠正缅甸语同音和空格错误。实验结果表明,本文所提方法相比基线方法ConvSeq2Seq,在缅甸语语音识别纠错任务中的F1值提升了85.97%,达到了79.15%。
展开更多
关键词
缅甸语
语音识别
文本纠错
音素
共享参数
BERT
下载PDF
职称材料
基于特征提示的跨语种语音识别模型
18
作者
王嘉文
高定国
+1 位作者
索朗曲珍
尼琼
《科学技术与工程》
北大核心
2024年第24期10348-10355,共8页
跨语种语音识别是一种利用多种源语言的数据来训练一个能够识别目标语言的语音识别系统,它可以促进不同语言和文化之间的交流和理解。为解决跨语种语音识别存在着如何利用多语种数据来提高低资源语言的识别性能,源语言和目标语言之间的...
跨语种语音识别是一种利用多种源语言的数据来训练一个能够识别目标语言的语音识别系统,它可以促进不同语言和文化之间的交流和理解。为解决跨语种语音识别存在着如何利用多语种数据来提高低资源语言的识别性能,源语言和目标语言之间的领域偏移或干扰,不同语言之间的任务权重和数据分布等问题,通过特征提示的方法研究跨语种语音识别模型;为简化传统需要专业人员对音素进行统一标注的过程,通过对原数据标识对应语种的方法研究跨语种语音数据标注方式,在2个公开数据集上进行实验。结果表明:所提模型相比于目前主流的语音识别模型Conformer模型平均错误率降低46.44%,相比于基线模型平均错误率降低2.1%,达到较高的识别准确率。研究成果为跨语种语音识别领域提供了新的思路和方法。
展开更多
关键词
特征提示
跨语种
语音识别
CONFORMER
Contextnet
下载PDF
职称材料
基于不同单元的端到端语音识别
19
作者
张岩
艾斯卡尔·艾木都拉
米吉提·阿不里米提
《中文信息学报》
CSCD
北大核心
2024年第1期166-172,共7页
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序...
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架,CER下降10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标。
展开更多
关键词
端到端技术
语音识别
维吾尔语
链接时序分类
下载PDF
职称材料
基于卷积神经网络特征提取的病理语音识别
20
作者
姜羽菲
石宇
+2 位作者
何若男
陈益
曹辉
《电子设计工程》
2024年第20期26-30,共5页
针对传统病理语音识别效率低的问题,提出了一种利用卷积神经网络语音特征的病理语音识别方法,实现了特征的自动提取。从原始语音信号中提取梅尔语谱图特征,并对原始图像进行数据增强。基于迁移学习的思想,对Alex Net网络进行微调和训练...
针对传统病理语音识别效率低的问题,提出了一种利用卷积神经网络语音特征的病理语音识别方法,实现了特征的自动提取。从原始语音信号中提取梅尔语谱图特征,并对原始图像进行数据增强。基于迁移学习的思想,对Alex Net网络进行微调和训练,并将图像输入到训练好的卷积神经网络中提取语句级特征,输出时由时域金字塔匹配进行统一降维,得到相同长度的语音特征。使用神经网络和支持向量机分类器分别对提取好的语音特征进行分类,以完成病理语音识别。实验结果表明,神经网络能够很好地提取复杂和抽象的特征,避免了前期复杂繁琐的数据处理和数据分析工作,同时与传统特征提取方法相比准确率有所提高。
展开更多
关键词
病理
语音识别
梅尔谱图
卷积神经网络
时域金字塔匹配
下载PDF
职称材料
题名
构音障碍语音识别算法研究综述
被引量:
1
1
作者
宋伟
张杨豪
机构
中央民族大学信息工程学院
国家语言资源监测与研究少数民族语言中心
民族语言智能分析与安全治理教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2024年第11期62-74,共13页
文摘
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。
关键词
构音障碍
语音识别
深度学习
人工智能
Keywords
dysarthria
speech recognition
deep learning
artificial intelligence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于融合特征ADRMFCC的语音识别方法
被引量:
1
2
作者
朵琳
马建
韦贵香
唐剑
机构
昆明理工大学信息工程与自动化学院
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第4期943-950,共8页
基金
国家自然科学基金(批准号:61962032)。
文摘
针对在复杂噪声环境下语音识别准确率低和鲁棒性差的问题,提出一种基于增减残差Mel倒谱融合特征的语音识别方法.该方法首先利用增减分量法筛选关键语音特征,然后将其映射到Mel域-残差域空间坐标系中生成增减残差Mel倒谱系数,最后将这些融合特征用于训练端到端模型.实验结果表明,该方法在不同噪声类型和信噪比条件下均显著提高了语音识别准确率及性能,在-5 dB低信噪比条件下,语音识别准确率达73.13%,而在其他噪声条件下的平均语音识别准确率达88.67%,充分证明了该方法的有效性和鲁棒性.
关键词
语音识别
残差Mel倒谱系数
特征筛选
增减分量法
Keywords
speech recognition
residual Mel cepstral coefficient
feature screening
increase and decrease component method
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
多模态特征的越南语语音识别文本标点恢复
3
作者
赖华
孙童
王文君
余正涛
高盛祥
董凌
机构
昆明理工大学信息工程与自动化学院
云南省人工智能重点实验室(昆明理工大学)
出处
《计算机应用》
CSCD
北大核心
2024年第2期418-423,共6页
基金
国家自然科学基金资助项目(61732005,U21B2027,61972186)
云南高新技术产业发展项目(201606)
+2 种基金
云南省重大科技专项(202103AA080015,202002AD080001⁃5)
云南省基础研究计划项目(202001AS070014)
云南省学术和技术带头人后备人才(202105AC160018)。
文摘
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。
关键词
语音识别
标点恢复
越南语
BERT
多模态
Keywords
speech recognition
punctuation restoration
Vietnamese
Bidirectional Encoder Representations from Transformers(BERT)
multimodal
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于AI技术的声像档案语音识别检索应用研究
被引量:
2
4
作者
魏丽维
机构
中国舰船研究院
出处
《机电兵船档案》
2024年第1期22-24,34,共4页
文摘
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。
关键词
AI技术
声像档案
语音识别
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TN912.34 [电子电信—通信与信息系统]
G276 [文化科学—档案学]
下载PDF
职称材料
题名
自动语音识别模型压缩算法综述
5
作者
时小虎
袁宇平
吕贵林
常志勇
邹元君
机构
吉林大学计算机科学与技术学院
吉林大学大数据和网络管理中心
中国第一汽车集团有限公司研发总院智能网联开发院
吉林大学生物与农业工程学院
长春中医药大学医药信息学院
出处
《吉林大学学报(理学版)》
CAS
北大核心
2024年第1期122-131,共10页
基金
国家自然科学基金(批准号:62272192)
吉林省科技发展计划项目(批准号:20210201080GX)
+1 种基金
吉林省发改委项目(批准号:2021C044-1)
吉林省教育厅科研基金(批准号:JJKH20200871KJ)。
文摘
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案.
关键词
语音识别
模型压缩
知识蒸馏
模型量化
低秩分解
网络剪枝
参数共享
Keywords
speech recognition
model compression
knowledge distillation
model quantization
low-rank decomposition
network pruning
parameter sharing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
语音识别缺陷的分类及中枢神经机制
6
作者
李娉婷
郑净
薛紫炫
耿立波
机构
江苏师范大学语言科学与艺术学院
江苏师范大学语言能力协同创新中心
中国传媒大学播音主持艺术学院
陕西师范大学文学院
出处
《听力学及言语疾病杂志》
CAS
CSCD
北大核心
2024年第3期274-278,共5页
基金
国家重点基础研究发展计划(973)(2014CB340502)
国家社科基金青年项目(16CYY021)。
文摘
语音识别是一项重要的社会交际功能,语音识别缺陷患者往往因不能准确识别说话者的身份而苦恼。语音识别缺陷指在没有听觉损伤的情况下,仅通过声音难以识别说话者的身份。从大脑损伤的情况来看,该症状分为先天性语音识别缺陷和获得性语音识别缺陷,先天性语音识别缺陷与颞叶和杏仁核间的功能联结障碍有关,获得性语音识别缺陷患者受损脑区主要包括颞叶和额叶等。今后应重点关注语音识别缺陷患者的筛选方法、神经机制及与其他听觉认知障碍患者的差异等方面的研究。
关键词
先天性
语音识别
缺陷
发展性
语音识别
缺陷
神经机制
Keywords
Congenital phonagnosia
Developmental phonagnosia
Neural mechanism
分类号
H01 [语言文字—语言学]
下载PDF
职称材料
题名
改进粒子滤波跟踪的视听双模态语音识别仿真
7
作者
岳莉
李柯景
赵剑
机构
长春大学计算机科学技术学院
出处
《计算机仿真》
2024年第9期213-216,345,共5页
基金
吉林省教育厅科研项目(JJKH20220600KJ)。
文摘
噪声环境下视听语音不易被识别,为提升语音识别效果,提出改进粒子滤波跟踪的视听双模态语音识别方法。采用谱减法去除噪声数据,完成视听双模态语音的消噪处理;根据人语和唇动信息之间的相关性,采用改进粒子滤波跟踪方法提取视听双模态语音特征信息,构建transformer语音识别模型,将提取的特征信息输入到模型内实施并行训练,实现视听双模态语音的有效识别。实验结果表明,通过对上述方法开展信噪比测试、识别性能测试,验证了上述方法的可行性高、可靠性强。
关键词
语音识别
模型
谱减法
去噪处理
识别
训练
Keywords
Speech recognition model
Spectral subtraction
Noise removal
Identification training
分类号
TP399 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于三角模糊数AHP的机载语音识别系统评价
8
作者
高少婷
沈德鸿
机构
中国飞行试验研究院
出处
《中国科技信息》
2024年第12期84-86,共3页
文摘
语音识别技术近年来发展迅速,不断应用于各个领域,机载语音识别系统就是语音识别技术在飞机航电系统上的应用。它的产生大大地降低了飞行员的工作负荷,使得人机交互更加便捷与快速。但是当前针对机载语音识别系统的评估方法多为单纯地计算识别正确率,没有和人机功效等因素进行有效的结合,评价不够全面。
关键词
语音识别
系统
语音识别
技术
人机交互
三角模糊数
人机功效
识别
正确率
工作负荷
航电系统
分类号
TN912.34 [电子电信—通信与信息系统]
V243 [航空宇航科学与技术—飞行器设计]
下载PDF
职称材料
题名
基于Conformer的端到端中英文管制语音识别
9
作者
孔建国
韩琪聪
梁海军
李煜琨
机构
中国民用航空飞行学院
出处
《航空计算技术》
2024年第3期1-5,共5页
基金
中央高校基本科研业务费项目资助(J2023-035,J2022-009)。
文摘
将语音识别技术应用到空中交通管理系统中可以提高飞行安全并降低管制员的工作负荷,目前已有的管制语音识别技术在中英文识别上效果较差,因此提出了一种基于Conformer-CTC/Attention的中英文管制语音识别框架。该方法使用基于改进的Conformer共享编码器对输入序列进行语言分类并以参数有效的方式对音频序列的局部和全局相依性进行建模,添加了语种分类模块来判断输入语音序列的语种,还采用了CTC解码器和注意力解码器联合解码的多任务建模方法。最后在建立的民航数据集对所提出的框架进行验证,试验结果表明,Conformer-CTC/Attention(Language-Category)相对于基线模型错误率降低,识别效果达到预期。
关键词
空中交通管制
中英文
语音识别
Conformer-CTC/Attention
多任务学习
端到端
Keywords
air traffic control
Chinese-English Speech Recognition
Conformer-CTC/Attention
multi-task learning
end-to-end
分类号
V355 [航空宇航科学与技术—人机与环境工程]
下载PDF
职称材料
题名
基于深度学习的语音识别系统实现方法
10
作者
窦亚珍
机构
河南农业职业学院
出处
《电声技术》
2024年第10期74-76,共3页
文摘
研究基于深度学习的语音识别系统实现方法,首先探讨语音识别系统的总体框架,其次深入研究梅尔倒谱系数(MelFrequency Cepstral Coefficient,MFCC)的提取和深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的基本原理,最后基于Python和PyTorch框架进行系统测试。实验结果表明,所提方法在准确率、精确率及召回率方面均表现优异,能够较好地捕捉大多数样本。
关键词
深度卷积神经网络(DCNN)
语音识别
PYTHON
Keywords
Deep Convolutional Neural Network(DCNN)
speech recognition
Python
分类号
X784 [环境科学与工程—环境工程]
下载PDF
职称材料
题名
基于改进Conformer的新闻领域端到端语音识别
被引量:
1
11
作者
张济民
早克热·卡德尔
艾山·吾买尔
申云飞
汪烈军
机构
新疆大学信息科学与工程学院
新疆大学新疆多语种信息技术实验室
新疆大学软件学院
出处
《中文信息学报》
CSCD
北大核心
2024年第4期156-164,共9页
基金
新疆维吾尔自治区科技创新领军人才项目——高层次领军人才(2022TSYCLJ0036)。
文摘
目前,开源的中文语音识别数据集大多面向通用领域,缺少面向新闻领域的开源语音识别语料库,因此该文构建了面向新闻领域的中文语音识别数据集CH_NEWS_ASR,并使用ESPNET-0.9.6框架的RNN、Transformer和Conformer等模型对数据集的有效性进行了验证,实验表明,该文所构建的语料在最好的模型上CER为4.8%,SER为39.4%。由于新闻联播主持人说话语速相对较快,该文构建的数据集文本平均长度为28个字符,是Aishell_1数据集文本平均长度的2倍;且以往的研究中训练目标函数通常为基于字或词水平,缺乏明确的句子水平关系,因此该文提出了一个句子层级的一致性模块,与Conformer模型结合,直接减少源语音和目标文本的表示差异,在开源的Aishell_1数据集上其CER降低0.4%,SER降低2%;在CH_NEWS_ASR数据集上其CER降低0.9%,SER降低3%,实验结果表明,该方法在不增加模型参数量的前提下能有效提升语音识别的质量。
关键词
端到端
语音识别
CONFORMER
句子层级一致性
Keywords
end-to-end speech recognition
conformer
sentence-level agreement
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于频谱分析仪的语音识别及控制软件系统设计
被引量:
3
12
作者
赵元琪
尹永柯
王洪君
房明
机构
山东大学信息科学与工程学院
出处
《现代电子技术》
北大核心
2024年第6期27-31,共5页
文摘
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识别及控制软件系统。该系统支持Ubuntu 18.04及以上版本操作系统,通过语音指令实现对频谱分析仪的控制,可以实现语音唤醒、语音录入及保存、离线语音识别并转换为文字文本、可执行代码等功能。
关键词
语音识别
控制软件
频谱分析仪
UBUNTU
语音
唤醒
语音
听写
Keywords
speech recognition
control software
spectrum analyzer
Ubuntu
voice wake-up
voice dictation
分类号
TN911.23-34 [电子电信—通信与信息系统]
TP311.5 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于深度学习的音视频语音识别技术回顾与展望
13
作者
张景宣
万根顺
机构
陕西师范大学计算机科学学院
中国科学技术大学
出处
《人工智能》
2024年第3期57-66,共10页
基金
中央高校基本科研业务费专项资金资助(GK202406005)。
文摘
音视频语音识别旨在基于语音以及对应唇形视频输入识别语音的文本内容信息。音视频语音识别技术在噪声场景下可以有效地提升语音识别的准确率,因而其具有广泛的应用前景。本文聚焦深度学习框架下的音视频语音识别技术,总结音视频语音识别的发展现状。具体而言,本文针对音视频语音识别的端到端框架、唇形表征提取、音视频融合模块的相关研究进行回顾。除此之外,本文还对音视频语音识别的学习范式,包括有监督学习、自监督学习,以及半监督学习的相关研究进行了总结。进一步地,本文对音视频语音识别当前面临的挑战进行分析,并对未来的研究方向进行展望。
关键词
语音识别
音视频
语音识别
唇语
识别
音视频自监督学习
分类号
TN912 [电子电信—通信与信息系统]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
智能燃气灶语音识别测试方法研究
被引量:
1
14
作者
曹延
曾如翔
陈响亮
洪涛
张维刚
何正罡
机构
中国计量大学
浙江方圆检测集团股份有限公司
出处
《科技创新与应用》
2024年第2期59-62,共4页
基金
浙江省产学合作协同育人项目资助(浙教办函〔2020〕267号)。
文摘
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法满足测试要求。因此,该文在现有家电语音测试方法基础上,针对带有口音的普通话,进行智能燃气灶语音识别测试方法研究,测试方法中明确设备要求、试验环境,并引入正交试验以减少试验次数,为其他智能家具语音识别研究提供参考。
关键词
智能燃气灶
智能家居
语音识别
正交试验
方差分析
Keywords
smart gas stove
smart home
speech recognition
orthogonal test
analysis of variance
分类号
TN912 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
一种基于语音识别的地埋式垃圾分类装置
被引量:
1
15
作者
林锋烽
梁景松
王昊
谭成兰
王子棋
机构
广东海洋大学机械工程学院
出处
《科技与创新》
2024年第8期5-8,共4页
基金
2022年广东海洋大学大学生创新训练计划项目(编号:CXXL2022089)。
文摘
针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机设计了一种基于语音识别的智能垃圾分类回收装置。该装置可通过语音识别对常见垃圾进行分类,将垃圾引入地底,消除臭味缠身的烦恼,防止致病体传播,也可大大节省城市的空间,有望为城市垃圾管理和环境保护工作作出积极贡献。
关键词
语音识别
垃圾分类
地埋升跃
垃圾分类装置
分类号
X799.3 [环境科学与工程—环境工程]
下载PDF
职称材料
题名
基于语音识别处理的植保无人机航行路径控制研究
被引量:
1
16
作者
程永红
王萌
机构
河北工业职业技术大学
河北公安警察职业学院
出处
《农机化研究》
北大核心
2024年第2期44-48,共5页
基金
河北省社会科学发展研究项目(20220404009)。
文摘
设计了基于HMM的语音识别处理算法,分析了植保无人机的结构与工作原理,并利用改进人工势场法对植保无人机的飞行控制和航行轨迹规划进行分析了研究。试验结果表明:语音控制控制准确度非常高,达到了90%及以上;植保无人机航行路径控制准确,能够成功避开障碍物,并动态规划最优飞行路径。
关键词
植保无人机
航行路径
语音识别
避障
改进人工势场
Keywords
plant protection UAV
navigation path
speech recognition
improve the artificial potential field
obstacle avoidance
分类号
S252 [农业科学—农业机械化工程]
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
融合音素的缅甸语语音识别文本纠错
17
作者
陈璐
董凌
王文君
王剑
余正涛
高盛祥
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2024年第6期1121-1127,共7页
基金
国家自然科学基金(U21B2027,61972186)
云南高新技术产业发展项目(201606)
+2 种基金
云南省重大科技专项计划(202103AA080015,202302AD080003)
云南省基础研究计划(202001AS070014)
云南省学术和技术带头人后备人才(202105AC160018)。
文摘
缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法。通过参数共享策略对转录文本及其音素进行联合建模,利用音素信息辅助检测并纠正缅甸语同音和空格错误。实验结果表明,本文所提方法相比基线方法ConvSeq2Seq,在缅甸语语音识别纠错任务中的F1值提升了85.97%,达到了79.15%。
关键词
缅甸语
语音识别
文本纠错
音素
共享参数
BERT
Keywords
Burmese language
speech recognition text correction
phoneme
shared parameter
bidirectional encoder representations from transformers(BERT)
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于特征提示的跨语种语音识别模型
18
作者
王嘉文
高定国
索朗曲珍
尼琼
机构
西藏大学信息科学技术学院
西藏大学藏文信息技术创新人才培养示范基地
出处
《科学技术与工程》
北大核心
2024年第24期10348-10355,共8页
基金
国家自然科学基金(62166038)
四川省科技计划基金(2023YFQ0044)
西藏大学高水平人才培养计划项目(2021-GSP-S126)。
文摘
跨语种语音识别是一种利用多种源语言的数据来训练一个能够识别目标语言的语音识别系统,它可以促进不同语言和文化之间的交流和理解。为解决跨语种语音识别存在着如何利用多语种数据来提高低资源语言的识别性能,源语言和目标语言之间的领域偏移或干扰,不同语言之间的任务权重和数据分布等问题,通过特征提示的方法研究跨语种语音识别模型;为简化传统需要专业人员对音素进行统一标注的过程,通过对原数据标识对应语种的方法研究跨语种语音数据标注方式,在2个公开数据集上进行实验。结果表明:所提模型相比于目前主流的语音识别模型Conformer模型平均错误率降低46.44%,相比于基线模型平均错误率降低2.1%,达到较高的识别准确率。研究成果为跨语种语音识别领域提供了新的思路和方法。
关键词
特征提示
跨语种
语音识别
CONFORMER
Contextnet
Keywords
feature prompt
cross lingual
speech recognition
Conformer
Contextnet
分类号
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于不同单元的端到端语音识别
19
作者
张岩
艾斯卡尔·艾木都拉
米吉提·阿不里米提
机构
新疆大学信息科学与工程学院
出处
《中文信息学报》
CSCD
北大核心
2024年第1期166-172,共7页
基金
国家重点研究与发展计划(2017YFC0820602)。
文摘
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架,CER下降10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标。
关键词
端到端技术
语音识别
维吾尔语
链接时序分类
Keywords
end-to-end
ASR
Uyghur
cnnectionist temporal classification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于卷积神经网络特征提取的病理语音识别
20
作者
姜羽菲
石宇
何若男
陈益
曹辉
机构
陕西师范大学物理学与信息技术学院
出处
《电子设计工程》
2024年第20期26-30,共5页
基金
国家自然科学基金(12374440)。
文摘
针对传统病理语音识别效率低的问题,提出了一种利用卷积神经网络语音特征的病理语音识别方法,实现了特征的自动提取。从原始语音信号中提取梅尔语谱图特征,并对原始图像进行数据增强。基于迁移学习的思想,对Alex Net网络进行微调和训练,并将图像输入到训练好的卷积神经网络中提取语句级特征,输出时由时域金字塔匹配进行统一降维,得到相同长度的语音特征。使用神经网络和支持向量机分类器分别对提取好的语音特征进行分类,以完成病理语音识别。实验结果表明,神经网络能够很好地提取复杂和抽象的特征,避免了前期复杂繁琐的数据处理和数据分析工作,同时与传统特征提取方法相比准确率有所提高。
关键词
病理
语音识别
梅尔谱图
卷积神经网络
时域金字塔匹配
Keywords
pathological speech recognition
Merle spectral map
convolutional neural network
time domain pyramid matching
分类号
TN912.3 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
构音障碍语音识别算法研究综述
宋伟
张杨豪
《计算机工程与应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
2
基于融合特征ADRMFCC的语音识别方法
朵琳
马建
韦贵香
唐剑
《吉林大学学报(理学版)》
CAS
北大核心
2024
1
下载PDF
职称材料
3
多模态特征的越南语语音识别文本标点恢复
赖华
孙童
王文君
余正涛
高盛祥
董凌
《计算机应用》
CSCD
北大核心
2024
0
下载PDF
职称材料
4
基于AI技术的声像档案语音识别检索应用研究
魏丽维
《机电兵船档案》
2024
2
下载PDF
职称材料
5
自动语音识别模型压缩算法综述
时小虎
袁宇平
吕贵林
常志勇
邹元君
《吉林大学学报(理学版)》
CAS
北大核心
2024
0
下载PDF
职称材料
6
语音识别缺陷的分类及中枢神经机制
李娉婷
郑净
薛紫炫
耿立波
《听力学及言语疾病杂志》
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
7
改进粒子滤波跟踪的视听双模态语音识别仿真
岳莉
李柯景
赵剑
《计算机仿真》
2024
0
下载PDF
职称材料
8
一种基于三角模糊数AHP的机载语音识别系统评价
高少婷
沈德鸿
《中国科技信息》
2024
0
下载PDF
职称材料
9
基于Conformer的端到端中英文管制语音识别
孔建国
韩琪聪
梁海军
李煜琨
《航空计算技术》
2024
0
下载PDF
职称材料
10
基于深度学习的语音识别系统实现方法
窦亚珍
《电声技术》
2024
0
下载PDF
职称材料
11
基于改进Conformer的新闻领域端到端语音识别
张济民
早克热·卡德尔
艾山·吾买尔
申云飞
汪烈军
《中文信息学报》
CSCD
北大核心
2024
1
下载PDF
职称材料
12
基于频谱分析仪的语音识别及控制软件系统设计
赵元琪
尹永柯
王洪君
房明
《现代电子技术》
北大核心
2024
3
下载PDF
职称材料
13
基于深度学习的音视频语音识别技术回顾与展望
张景宣
万根顺
《人工智能》
2024
0
下载PDF
职称材料
14
智能燃气灶语音识别测试方法研究
曹延
曾如翔
陈响亮
洪涛
张维刚
何正罡
《科技创新与应用》
2024
1
下载PDF
职称材料
15
一种基于语音识别的地埋式垃圾分类装置
林锋烽
梁景松
王昊
谭成兰
王子棋
《科技与创新》
2024
1
下载PDF
职称材料
16
基于语音识别处理的植保无人机航行路径控制研究
程永红
王萌
《农机化研究》
北大核心
2024
1
下载PDF
职称材料
17
融合音素的缅甸语语音识别文本纠错
陈璐
董凌
王文君
王剑
余正涛
高盛祥
《计算机工程与科学》
CSCD
北大核心
2024
0
下载PDF
职称材料
18
基于特征提示的跨语种语音识别模型
王嘉文
高定国
索朗曲珍
尼琼
《科学技术与工程》
北大核心
2024
0
下载PDF
职称材料
19
基于不同单元的端到端语音识别
张岩
艾斯卡尔·艾木都拉
米吉提·阿不里米提
《中文信息学报》
CSCD
北大核心
2024
0
下载PDF
职称材料
20
基于卷积神经网络特征提取的病理语音识别
姜羽菲
石宇
何若男
陈益
曹辉
《电子设计工程》
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
250
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部