期刊文献+
共找到7,200篇文章
< 1 2 250 >
每页显示 20 50 100
多模态特征的越南语语音识别文本标点恢复
1
作者 赖华 孙童 +3 位作者 王文君 余正涛 高盛祥 董凌 《计算机应用》 CSCD 北大核心 2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南... 越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。 展开更多
关键词 语音识别 标点恢复 越南语 BERT 多模态
下载PDF
自动语音识别模型压缩算法综述
2
作者 时小虎 袁宇平 +2 位作者 吕贵林 常志勇 邹元君 《吉林大学学报(理学版)》 CAS 北大核心 2024年第1期122-131,共10页
随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性... 随着深度学习技术的发展,自动语音识别任务模型的参数数量越来越庞大,使得模型的计算开销、存储需求和功耗花费逐渐增加,难以在资源受限设备上部署.因此对基于深度学习的自动语音识别模型进行压缩,在降低模型大小的同时尽量保持原有性能具有重要价值.针对上述问题,全面综述了近年来该领域的主要工作,将其归纳为知识蒸馏、模型量化、低秩分解、网络剪枝、参数共享以及组合模型几类方法,并进行了系统综述,为模型在资源受限设备的部署提供可选的解决方案. 展开更多
关键词 语音识别 模型压缩 知识蒸馏 模型量化 低秩分解 网络剪枝 参数共享
下载PDF
基于语音识别处理的植保无人机航行路径控制研究 被引量:1
3
作者 程永红 王萌 《农机化研究》 北大核心 2024年第2期44-48,共5页
设计了基于HMM的语音识别处理算法,分析了植保无人机的结构与工作原理,并利用改进人工势场法对植保无人机的飞行控制和航行轨迹规划进行分析了研究。试验结果表明:语音控制控制准确度非常高,达到了90%及以上;植保无人机航行路径控制准确... 设计了基于HMM的语音识别处理算法,分析了植保无人机的结构与工作原理,并利用改进人工势场法对植保无人机的飞行控制和航行轨迹规划进行分析了研究。试验结果表明:语音控制控制准确度非常高,达到了90%及以上;植保无人机航行路径控制准确,能够成功避开障碍物,并动态规划最优飞行路径。 展开更多
关键词 植保无人机 航行路径 语音识别 避障 改进人工势场
下载PDF
基于不同单元的端到端语音识别
4
作者 张岩 艾斯卡尔·艾木都拉 米吉提·阿不里米提 《中文信息学报》 CSCD 北大核心 2024年第1期166-172,共7页
端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序... 端到端语音识别技术不需要文本和语音序列的强制对齐过程,且比传统语音识别系统有着更为简单直观的结构和更好的适应能力,它不需要精准的发音词典,在资源匮乏语言的语音识别研究中有更好的发展前景。该文在循环神经网络(RNN)和链接时序分类(CTC)的基础上,实现维吾尔语不同粒度的端到端的语音识别系统,且在较少的语料库(THUYG公开语料库)上将该方法和传统的HMM语音识别框架进行比较。单音素基础上端到端方法的表现超过传统HMM-GMM框架,CER下降10.6%,而且经过稍微减少冗余后的以单字符作为建模单元的端到端语音识别系统对比基于三音素的HMM-GMM系统CER下降2.23%。对于资源匮乏语言,粒度单元的优化方法将是提高性能的下一个研究目标。 展开更多
关键词 端到端技术 语音识别 维吾尔语 链接时序分类
下载PDF
智能燃气灶语音识别测试方法研究
5
作者 曹延 曾如翔 +3 位作者 陈响亮 洪涛 张维刚 何正罡 《科技创新与应用》 2024年第2期59-62,共4页
随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法... 随着人工智能的迅速发展,语音识别技术作为一种新型人机交互模式,正逐渐应用于各个行业。智能燃气灶作为语音识别技术在智能家居领域的具体应用之一,由于常规智能家具测试系统缺乏专一性,在语音集、测试环境、测试场地布局等方面,无法满足测试要求。因此,该文在现有家电语音测试方法基础上,针对带有口音的普通话,进行智能燃气灶语音识别测试方法研究,测试方法中明确设备要求、试验环境,并引入正交试验以减少试验次数,为其他智能家具语音识别研究提供参考。 展开更多
关键词 智能燃气灶 智能家居 语音识别 正交试验 方差分析
下载PDF
基于频谱分析仪的语音识别及控制软件系统设计
6
作者 赵元琪 尹永柯 +1 位作者 王洪君 房明 《现代电子技术》 北大核心 2024年第6期27-31,共5页
随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识... 随着数据处理技术的进步和人工智能领域的高速发展,用户在对仪器的实际使用中持续追求更为高效便捷的操控方式,同时也相当看重使用过程的灵活性和准确性,语音数据因其实用性和高效性而被广泛使用。因此,提出一种基于频谱分析仪的语音识别及控制软件系统。该系统支持Ubuntu 18.04及以上版本操作系统,通过语音指令实现对频谱分析仪的控制,可以实现语音唤醒、语音录入及保存、离线语音识别并转换为文字文本、可执行代码等功能。 展开更多
关键词 语音识别 控制软件 频谱分析仪 UBUNTU 语音唤醒 语音听写
下载PDF
一种基于语音识别的地埋式垃圾分类装置
7
作者 林锋烽 梁景松 +2 位作者 王昊 谭成兰 王子棋 《科技与创新》 2024年第8期5-8,共4页
针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机... 针对目前城市街头的大量垃圾分类箱占用了大量空间、细菌病毒容易在其中滋生、恶臭气味污染空气、用户在投放垃圾时容易接触到致病体等问题,使用STM32单片机、人体红外感应模块、超声波感应模块、语音识别模块、语音播报模块及步进电机设计了一种基于语音识别的智能垃圾分类回收装置。该装置可通过语音识别对常见垃圾进行分类,将垃圾引入地底,消除臭味缠身的烦恼,防止致病体传播,也可大大节省城市的空间,有望为城市垃圾管理和环境保护工作作出积极贡献。 展开更多
关键词 语音识别 垃圾分类 地埋升跃 垃圾分类装置
下载PDF
基于语音识别的摩尔斯码训练系统研究
8
作者 张骁 韩凯 《电子制作》 2024年第6期78-81,共4页
针对船员摩尔斯码训练需求,提出一种基于语音识别的摩尔斯码训练系统。分析船员摩尔斯码训练方法与组织模式,针对船员摩尔斯码训练特点及训练需求,对系统总体设计、语音识别模块设计进行了研究,并对训练软件语音识别部分进行设计。经验... 针对船员摩尔斯码训练需求,提出一种基于语音识别的摩尔斯码训练系统。分析船员摩尔斯码训练方法与组织模式,针对船员摩尔斯码训练特点及训练需求,对系统总体设计、语音识别模块设计进行了研究,并对训练软件语音识别部分进行设计。经验证,语音识别正确率达到95.2%,能够满足船员摩尔斯码训练人机交互需求。 展开更多
关键词 语音识别 摩尔斯码 训练系统 软件设计
下载PDF
语音文本对齐技术构建蒙古语语音识别语料库研究
9
作者 甄兆博 张晖 《中央民族大学学报(自然科学版)》 2024年第1期12-19,共8页
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本... 目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本研究采用从这样的语料中提炼可供训练用的语料的技术路线,选择电视剧配音剧本和对应成片作为样例,将提炼工作看作是一个语音文本对齐问题。通过一系列自动化处理将剧本和对应的音频转换为适用于语音文本对齐处理的数据形式,利用迭代的对齐方法得到了语音文本对齐结果,利用这些结果生成了适用于蒙古语语音识别的逐句对齐的“语音—文本对”数据。通过对生成的数据进行抽样检查发现,生成的数据有较好的质量,与人工标注基本一致,节省了数据生产的成本。 展开更多
关键词 语音识别 蒙古语 生语料 语音文本对齐
下载PDF
基于AI技术的声像档案语音识别检索应用研究
10
作者 魏丽维 《机电兵船档案》 2024年第1期22-24,34,共4页
本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重... 本文旨在研究基于AI技术开发声像档案语音识别检索应用,解决传统检索方式效率低下的问题。传统的手动检索方式效率低下且受限于主观判断,难以满足大规模数据的快速检索需求。因此,基于AI技术的声像档案语音识别检索应用研究显得尤为重要。本文旨在探索并实现一种高效、准确的语音识别检索系统,以提高声像档案管理的效率,促进语音信息资源的充分利用,从而在社会、教育、医疗等领域产生积极的影响。 展开更多
关键词 AI技术 声像档案 语音识别
下载PDF
基于注意力机制语谱图特征提取的语音识别
11
作者 姜囡 庞永恒 高爽 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期320-330,共11页
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语... 针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率. 展开更多
关键词 语音识别 CTC模型 循环神经网络 注意力机制
下载PDF
用于人体运动与语音识别的柔性可拉伸摩擦电传感器
12
作者 蔡婷婷 尹振华 +3 位作者 马鸣宇 贾磊 王子恒 杨云 《微纳电子技术》 CAS 2024年第1期117-123,共7页
为提高可穿戴摩擦电传感器电极的柔性与可拉伸性,设计了一种基于商用水性高分子导电凝胶电极的摩擦电传感器,且在电极一侧表面加工得到微观结构。测试结果表明该传感器具有约100%的伸长率与优异的耐卷曲扭折性。该传感器的电压与电流信... 为提高可穿戴摩擦电传感器电极的柔性与可拉伸性,设计了一种基于商用水性高分子导电凝胶电极的摩擦电传感器,且在电极一侧表面加工得到微观结构。测试结果表明该传感器具有约100%的伸长率与优异的耐卷曲扭折性。该传感器的电压与电流信号对外界压力具有良好的线性响应,且对传感器的拉伸状态不敏感。当施加外力为50 N时(频率1 Hz),输出峰值电压为109 V,峰值电流为1.3μA;当频率从1.0 Hz变化到3.0 Hz时,峰值电压几乎无变化,峰值电流从0.65μA变化到2.1μA。将该传感器应用于人体运动与语音识别时,电压信号可以对每种动作表现出特异的波形信号,实现了4种动作以及6种礼貌用语的检测与识别,表明其在人体运动与生物特征识别用可穿戴传感器领域具有良好的应用价值。 展开更多
关键词 摩擦电传感器 导电凝胶 柔性 可拉伸性 语音识别 运动传感
原文传递
低资源青岛方言语音识别方法研究
13
作者 相紫涵 谷潇 +1 位作者 饶崇郅 渐令 《计算机技术与发展》 2024年第4期146-152,共7页
方言识别是语音识别的重要研究方向,常见的语音识别系统是基于标准语言训练的,导致其方言识别效果不佳。鉴于此,该文选择青岛方言作为应用案例开展方言语音识别研究。为解决方言语料匮乏、训练深度网络模型困难导致识别准确率受限等问题... 方言识别是语音识别的重要研究方向,常见的语音识别系统是基于标准语言训练的,导致其方言识别效果不佳。鉴于此,该文选择青岛方言作为应用案例开展方言语音识别研究。为解决方言语料匮乏、训练深度网络模型困难导致识别准确率受限等问题,提出应用数据增强方法,搭建基于改进Conformer的方言语音识别模型。首先,收集多源语音数据构建方言小型语料库;其次,采用数据增强技术扩充训练数据,以解决语料匮乏问题;最后,为了更好地提取信息,改进Conformer模型的降采样结构,引入膨胀卷积和Mish激活函数,实现语音到文本的直接映射。实验结果表明,提出的改进降采样模块的端到端模型结合数据增强方法后字错率可达25.96%,能有效实现低资源条件下的方言识别。 展开更多
关键词 语音识别 端到端 低资源 数据增强 青岛方言
下载PDF
基于Transformer的多编码器端到端语音识别
14
作者 庞江飞 孙占全 《电子科技》 2024年第4期1-7,共7页
当前广泛使用的Transformer模型具有良好的全局依赖关系捕捉能力,但其在浅层时容易忽略局部特征信息。针对该问题,文中提出了一种使用多个编码器来改善语音特征信息提取能力的方法。通过附加一个额外的卷积编码器分支来强化对局部特征... 当前广泛使用的Transformer模型具有良好的全局依赖关系捕捉能力,但其在浅层时容易忽略局部特征信息。针对该问题,文中提出了一种使用多个编码器来改善语音特征信息提取能力的方法。通过附加一个额外的卷积编码器分支来强化对局部特征信息的捕捉,弥补浅层Transformer对局部特征信息的忽视,有效实现音频特征序列全局和局部依赖关系的融合,即提出了基于Transformer的多编码器模型。在开源中文普通话数据集Aishell-1上的实验表明,在没有外部语言模型的情况下,相比于Transformer模型,基于Transformer的多编码器模型的字符错误率降低了4.00%。在内部非公开的上海话方言数据集上,文中所提模型的性能提升更加明显,其字符错误率从19.92%降低至10.31%,降低了48.24%。 展开更多
关键词 TRANSFORMER 语音识别 端到端 深度神经网络 多编码器 多头注意力 特征融合 卷积分支网络
下载PDF
基于语音识别的多资源组合应急调度指挥系统
15
作者 张芳胜 王妙龄 +2 位作者 季嘉辉 林培桂 吴鸿华 《自动化技术与应用》 2024年第3期155-159,共5页
以提升多资源应急调度指挥效果为目的,设计基于语音识别的多资源组合应急调度指挥系统。该系统利用GIS技术获取多资源和事发地位置地图信息,并使用麦克风阵列获取应急调度指令语音信息后,经过数据接口层内地图数据编辑接口、数据访问等... 以提升多资源应急调度指挥效果为目的,设计基于语音识别的多资源组合应急调度指挥系统。该系统利用GIS技术获取多资源和事发地位置地图信息,并使用麦克风阵列获取应急调度指令语音信息后,经过数据接口层内地图数据编辑接口、数据访问等模块,将其传输到应用层。应用层利用语音识别模块识别应急调度指挥指令语音信息,并使用地图GIS查询模块和地图条件查询模块获取符合当前应急资源地图信息后,使用应急布控模块生成应急指挥布控地图。同时使用应急指挥调度模块内应急调度数学模型,输出多资源组合应急调度结果并传输到人机交互层内,完成多资源组合应急调度指挥和人机交互。实验表明:该系统具备较好的语音识别能力和多资源组合应急调度指挥能力,应用性较好。 展开更多
关键词 语音识别 多资源组合 应急调度指挥 GIS 麦克风阵列
下载PDF
电声技术在人工智能语音识别中的应用与挑战
16
作者 彭先华 《电声技术》 2024年第1期32-34,共3页
文章主要探讨电声技术在人工智能语音识别中的应用和挑战,并给出相关优化策略。麦克风、扬声器、音频处理以及声学模型等电声技术对提升语音识别系统的性能具有重要意义,但噪声干扰、硬件限制、识别准确性及实时处理能力仍是技术发展的... 文章主要探讨电声技术在人工智能语音识别中的应用和挑战,并给出相关优化策略。麦克风、扬声器、音频处理以及声学模型等电声技术对提升语音识别系统的性能具有重要意义,但噪声干扰、硬件限制、识别准确性及实时处理能力仍是技术发展的难题。通过精细调整声学模型、对硬件性能进行升级、使用先进的噪声抑制算法以及加速系统处理等措施,能够有效提高人工智能语音识别的性能。 展开更多
关键词 电声技术 人工智能语音识别 麦克风 扬声器 音频处理
下载PDF
智能语音识别技术在广播电视内容监测中的应用
17
作者 郭帅 《电视技术》 2024年第3期206-208,共3页
随着科技的进步,智能语音识别技术在广播电视领域的应用日趋广泛。结合智能语音识别技术的工作原理,阐述其在广播电视内容监测中的应用优势和应用范围,具体体现在广播电视内容识别、广告监测和节目质量评估等方面,并指出应用过程所面临... 随着科技的进步,智能语音识别技术在广播电视领域的应用日趋广泛。结合智能语音识别技术的工作原理,阐述其在广播电视内容监测中的应用优势和应用范围,具体体现在广播电视内容识别、广告监测和节目质量评估等方面,并指出应用过程所面临的挑战,为智能语音识别技术在广播电视内容监测领域的应用提供重要的参考和借鉴价值。 展开更多
关键词 智能语音识别 广播电视 内容监测
下载PDF
从体验到应用:让原理认识和问题解决相融合——《语音识别技术之智慧宠物》一课教学与思考
18
作者 孟杰 周明艳 《教育研究与评论(中学教育教学)》 2024年第3期85-89,共5页
《语音识别技术之智慧宠物》一课教学,以语音识别技术为抓手,从技术体验开始,以技术应用结束,让原理认识和问题解决相融合。从实践来看,体现了“技术体验—原理认知—技术应用—技术反思”的教学逻辑,即通过技术体验,点燃学习兴趣;立足... 《语音识别技术之智慧宠物》一课教学,以语音识别技术为抓手,从技术体验开始,以技术应用结束,让原理认识和问题解决相融合。从实践来看,体现了“技术体验—原理认知—技术应用—技术反思”的教学逻辑,即通过技术体验,点燃学习兴趣;立足学习兴趣,剖析技术原理;基于技术原理,尝试制作作品;分析作品实现,思辨技术应用。 展开更多
关键词 初中信息科技 人工智能 语音识别技术
下载PDF
面向政务系统的大数据语音识别系统应用及研究
19
作者 夏美艺 范灵 +1 位作者 牛青松 桂鹂娟 《现代科学仪器》 2024年第1期155-160,共6页
当前对于大数据语音识别系统在政务系统应用中存在诸多缺陷,因此,研究将LSTM与CTC进行融合得到了LSTM-CTC声学模型,并进一步优化得到BiLSTM-CTC声学模型,同时验证其有效性。实验结果表明,在训练轮数为8时BiLSTM-CTC模型的WER值为60.38%... 当前对于大数据语音识别系统在政务系统应用中存在诸多缺陷,因此,研究将LSTM与CTC进行融合得到了LSTM-CTC声学模型,并进一步优化得到BiLSTM-CTC声学模型,同时验证其有效性。实验结果表明,在训练轮数为8时BiLSTM-CTC模型的WER值为60.38%,在训练轮数为16时,BiLSTM-CTC声学模型的WER值为11.87%,均低于对比模型。同时,在实际的政务系统大数据语音识别中,BiLSTM-CTC声学模型在安静与低噪声环境下均具有较高的识别准确性,平均识别率分别为92.6%和85%。综合来看,BiLSTM-CTC声学模型在识别政务系统的大数据语音中具备较高的准确性,在实际中可以有效推进政务系统语音识别功能的发展。 展开更多
关键词 政务系统 大数据 语音识别系统 声学模型
下载PDF
语音识别特征提取中对特征方法的对比
20
作者 郭明琦 《计算机应用文摘》 2024年第2期96-99,共4页
人工智能概念的提出,让语音识别迎来了新的生机。随着相关知识与技能的飞速发展,神经网络带动了语音识别领域相关知识的革新。文章使用语音识别中常见的LPCC特征、MFCC特征和PLP特征对同一段语音进行特征提取,通过特征图像化可以直观展... 人工智能概念的提出,让语音识别迎来了新的生机。随着相关知识与技能的飞速发展,神经网络带动了语音识别领域相关知识的革新。文章使用语音识别中常见的LPCC特征、MFCC特征和PLP特征对同一段语音进行特征提取,通过特征图像化可以直观展示其特征的优劣势。其中,LPCC特征对频谱包络变化较为敏感;MFCC特征具有较好语音信号的短时频谱,对信号的语音干扰和音量变化等抗干扰能力较好,但高频细节不够清晰;PLP特征具有较好的鲁棒性,对信号的语音干扰和音量变化等有很好的抗干扰能力,且对高频部分的细节信息表示更为准确。 展开更多
关键词 语音识别 特征提取 LPCC MFCC PLP
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部