期刊文献+
共找到105篇文章
< 1 2 6 >
每页显示 20 50 100
基于样本类不确定性抽样的端到端语音关键词检测训练方法
1
作者 贺前华 陈永强 +1 位作者 郑若伟 黄金鑫 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3482-3492,共11页
当前语音关键词检测主流技术为端到端的深度学习方法,研究重点为网络结构优化、建模单元选取及搜索策略等,并取得较快进展,但对模型训练效率的关注相对较少.本文针对深度学习模型训练效率问题,提出了一种样本类不确定性抽样(Class Uncer... 当前语音关键词检测主流技术为端到端的深度学习方法,研究重点为网络结构优化、建模单元选取及搜索策略等,并取得较快进展,但对模型训练效率的关注相对较少.本文针对深度学习模型训练效率问题,提出了一种样本类不确定性抽样(Class Uncertainty Sampling,CUS)的样本应用策略加速收敛进程.其核心思想是在模型训练中后期,利用网络的前向输出层对样本评价信息进行样本类不确定性度量,并转化成样本选用概率,随机抽取训练样本子集用于后续训练.由于简单样本的类确定度高,它们参与后续训练的概率降低,但不影响模型的区分能力,增强对判决边界样本的关注,达到提高模型训练效率的目标.基于AISHELL-1普通话数据集的实验结果表明,相对常规训练策略,平均训练时长缩短60%,收敛时长缩短47.5%.虚警率(False Alarm Rate,FAR)为0.5 FP/h时,该方法的错误拒绝率(False Reject Rate,FRR)从4.75%降至3.65%,相对下降30.1%,最大关键词加权值(Maximum Term Weighted Value,MTWV)由0.8374升至0.8531.通过分析错标样本参与训练的行为,证实了该方法具有屏蔽掉大部分错误标注样本的能力,减少错标样本对训练的损害.基于大规模AISHELL-2普通话数据集的实验进一步证实了提出方法的有效性. 展开更多
关键词 检测 深度学习 端到端 类不确定性抽样
下载PDF
基于特征空间轨迹信息的语音关键词检测方法
2
作者 田颖慧 贺前华 +2 位作者 郑若伟 危卓 李艳雄 《电子学报》 EI CAS CSCD 北大核心 2023年第10期2915-2924,共10页
当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于“词是由更小语言单元(音节、音素)的结构化组成,以... 当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于“词是由更小语言单元(音节、音素)的结构化组成,以及语言单元声学特征具有稳定性(统计意义)”的事实,结合物理几何空间定位的原理,构建语音关键词的特征空间表达、时序信息表达和局部区分信息知识.语音关键词检测时,依据语音段的特征空间轨迹信息分层次进行判决,实现了模式信息与统计信息的综合应用.其中语音特征空间是利用丰富的无标注语音样本构建音频特征空间的标识子表达,而语音关键词的特征空间轨迹信息利用少量关键词语音样本构建.多个实验结果表明,本文算法在低资源时(100个样本以下),相比HMM和CRNN有显著优势,10个训练样本时,相比HMM,FRR绝对下降了20.5%,FAR绝对下降了8.7 FP/h;而在训练样本量较充分(300个样本及以上)时,与CRNN有大致相当的性能. 展开更多
关键词 语音关键词检测 音频特征空间 特征空间轨迹信息 低资源
下载PDF
基于唇重构与三维耦合CNN的多视角音唇一致性判别
3
作者 朱铮宇 罗超 +3 位作者 贺前华 彭炜锋 毛志炜 张顺四 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第5期70-77,共8页
针对传统音唇一致性判别方法主要对正面唇动视频进行处理,未考虑视频采集角度变化对结果的影响,且容易忽略唇动过程中的时空特性等不足,文中以唇部角度变化对一致性判别的影响为研究重心,结合三维卷积神经网络在非线性表示和时空维度特... 针对传统音唇一致性判别方法主要对正面唇动视频进行处理,未考虑视频采集角度变化对结果的影响,且容易忽略唇动过程中的时空特性等不足,文中以唇部角度变化对一致性判别的影响为研究重心,结合三维卷积神经网络在非线性表示和时空维度特征提取上的优势,提出了基于正面唇重构与三维耦合卷积神经网络的多视角音唇一致性判别方法。该方法先通过在生成器中引入自映射损失来提高正面重建效果,并采用基于自映射监督循环一致性生成对抗网络(SMS-CycleGAN)的唇重构方法对多视角唇图进行角度分类及正面重构;然后设计两个异构三维卷积神经网络,分别用来描述音频和视频信号,并提取包含长时时空关联信息的三维卷积特征;最后引入对比损失函数作为音视频信号匹配的相关度鉴别度量,将音视频网络输出耦合到同一表示空间,并进行一致性判别。实验结果表明,文中方法能重建出更高质量的正面唇图,一致性判别性能优于多种不同类型的比较方法。 展开更多
关键词 一致性判别 生成对抗网络 卷积神经网络 正面重构 多模态
下载PDF
基因算法研究进展 被引量:23
4
作者 贺前华 韦岗 陆以勤 《电子学报》 EI CAS CSCD 北大核心 1998年第10期118-122,103,共6页
本文概述了近年来基因算法在理论研究和应用研究方面所取得的成果,分析了提高基因算法性能的途径.
关键词 基因算法 全局搜索 收敛性 突变 交叉
下载PDF
基于改进PNCC特征和两步区分性训练的录音设备识别方法 被引量:9
5
作者 贺前华 王志锋 +2 位作者 Alexander I Rudnicky 朱铮宇 李新超 《电子学报》 EI CAS CSCD 北大核心 2014年第1期191-198,共8页
录音设备来源识别是通过分析已获取的数字语音信号从而确定其录制设备的一种技术,属于数字音频盲取证.本文提出了一种基于改进PNCC特征和两步区分性训练的录音设备识别方法,由于音频中的静音包含了完整的设备信息,且不受说话人和文本等... 录音设备来源识别是通过分析已获取的数字语音信号从而确定其录制设备的一种技术,属于数字音频盲取证.本文提出了一种基于改进PNCC特征和两步区分性训练的录音设备识别方法,由于音频中的静音包含了完整的设备信息,且不受说话人和文本等因素的影响,因此从静音段提取改进的PNCC特征,利用了PNCC的长时帧分析去除背景噪声对设备信息的影响.在模型方面,以GMM-UBM为基准模型,并通过两步区分性训练调整集内设备模型和通用背景模型,提升模型区分能力.该方法对于30种设备闭集识别的平均正确识别率为90.23%;对于15个集内和15个集外设备的测试,等错误率为15.17%,集内平均正确识别率为96.65%,验证了本文算法的有效性. 展开更多
关键词 数字音频取证 录音设备识别 GMM-UBM 区分性训练 PNCC
下载PDF
基于FPGA的视频转换系统的实现 被引量:2
6
作者 贺前华 唐志华 李韬 《微电子学与计算机》 CSCD 北大核心 2003年第5期1-3,32,共4页
文章分析了视频转换中的关键技术:视频扫描转换和视频图象处理的基本原理,并给出了一种实际的实现方案,构建了以FPGA为控制核心的视频转换硬件系统。利用FPGA对整个系统进行编程配置,灵活地对系统进行控制,实现从非标准视频制式到标准... 文章分析了视频转换中的关键技术:视频扫描转换和视频图象处理的基本原理,并给出了一种实际的实现方案,构建了以FPGA为控制核心的视频转换硬件系统。利用FPGA对整个系统进行编程配置,灵活地对系统进行控制,实现从非标准视频制式到标准视频制式以及标准制式之间的相互转换。 展开更多
关键词 视频转换系统 FPGA 图象处理 多媒体电视系统 电视节目制作 数字信号处理
下载PDF
基于两步判决的口语中非文字音频事件检测方法 被引量:1
7
作者 贺前华 李艳雄 +2 位作者 李韬 张虹 杨继臣 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第2期20-25,31,共7页
为了有效利用非文字音频事件进行会话语音的语义分析,在分析口语中频繁出现的音频事件特征差异的基础上,提出了一种基于两步判决的口语中非文字音频事件的检测方法.该方法利用音频事件的信号特征构造音频事件信号段,采用门限判决来检测... 为了有效利用非文字音频事件进行会话语音的语义分析,在分析口语中频繁出现的音频事件特征差异的基础上,提出了一种基于两步判决的口语中非文字音频事件的检测方法.该方法利用音频事件的信号特征构造音频事件信号段,采用门限判决来检测长掌声(第一步判决),而用统计模型来检测其它音频事件(第二步判决).实验结果表明:该方法检测填音、笑声、掌声3种非文字音频事件的平均准确率、召回率和F1度量值分别为87.3%、93.8%和90.4%;与现有文献数据相比,F1度量值平均提高了7.5%,且文中方法能更精确地确定非文字音频事件的边界. 展开更多
关键词 非文字音频事件 门限判决 统计模型检测 口语语音 语音处理
下载PDF
一种新的HMM训练方法 被引量:2
8
作者 贺前华 陆以勤 韦岗 《电子学报》 EI CAS CSCD 北大核心 2000年第9期56-58,共3页
本文是对HMM最大距离训练方法的一种改进 ,该方法采用了更合理的模型距离定义 ,能更有效地利用训练数据集中的区别信息 ,使有限的训练数据得到更好的应用 ,达到提高语音识别系统性能的目的 .导出了HMM模型参数的迭代公式 .基于TIMIT数... 本文是对HMM最大距离训练方法的一种改进 ,该方法采用了更合理的模型距离定义 ,能更有效地利用训练数据集中的区别信息 ,使有限的训练数据得到更好的应用 ,达到提高语音识别系统性能的目的 .导出了HMM模型参数的迭代公式 .基于TIMIT数据库的非连续语音及连续语音实验结果表明 。 展开更多
关键词 隐马尔可夫模型 训练方法 判决信息
下载PDF
基于相关维数的病变连续语音检测算法 被引量:1
9
作者 贺前华 何俊 +1 位作者 李艳雄 王志峰 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期1-5,共5页
针对人为设定最优采样延迟不能客观反映信号采样延迟和固定相关维数不易描述病变异常语音复杂性的缺陷,文中提出一种基于相关维数的病变连续语音检测算法.该算法在语音信号合理采样延迟区间内不断调整采样延迟,搜索使正常语音与病变连... 针对人为设定最优采样延迟不能客观反映信号采样延迟和固定相关维数不易描述病变异常语音复杂性的缺陷,文中提出一种基于相关维数的病变连续语音检测算法.该算法在语音信号合理采样延迟区间内不断调整采样延迟,搜索使正常语音与病变连续语音的区分等错误率达到最小的嵌入相关维数,以避免设定采样延迟的缺陷.同时,通过将相关维数曲线划分成子区间,并判定子区间的稳定性,以达到不固定嵌入相关维数的目的.最后,对每个合理采样延迟时间内获取的训练语音的最优相关维数进行等错误率分析,选用具有最小等错误率的相关维数及对应的采样延迟为文中混沌参数,为测试语音提取混沌指数进行正异常区分.实验结果表明,该算法的区分正确率为75.6%,分别比GMM-SVM、Shimmer、固定相关维和采样延迟法、SHR算法和Jitter算法提高7.8%、9.3%、16.0%、18.0%和20.4%. 展开更多
关键词 病变连续语音检测 相关维数 延迟区间 语音信号处理
下载PDF
说话人认证录音回放检测方法综述 被引量:1
10
作者 贺前华 潘伟锵 +3 位作者 胡永健 朱铮宇 李艳雄 奉小慧 《数据采集与处理》 CSCD 北大核心 2015年第2期266-274,共9页
基于生物特征的身份认证已得到学术界及企业的高度重视,指纹、人脸识别应用已非常普遍,但对于非现场身份认证,语音相对其他生物特征,具有用户接受程度高、拾音设备简单、随时随地可用、数据量小、计算复杂度低等优势,因此基于声纹的身... 基于生物特征的身份认证已得到学术界及企业的高度重视,指纹、人脸识别应用已非常普遍,但对于非现场身份认证,语音相对其他生物特征,具有用户接受程度高、拾音设备简单、随时随地可用、数据量小、计算复杂度低等优势,因此基于声纹的身份认证系统应用越来越广泛。另一方面,由于录音回放攻击简单易行,不需要任何专业知识,且随着廉价、高质量的录音/播放装置的日益增多,回放录音与原始音的相似度越来越高,已成为声纹认证系统最主要的攻击手段之一,因此如何识别录音回放等攻击成为说话人认证系统必须面对的问题。本文对录音回放检测方法进入了全面的介绍,通过对各种方法的分析,表明其研究尚处于起步阶段,但需求日益旺盛。 展开更多
关键词 说话人认证 认证语音真实性 录音回放攻击
下载PDF
多声道音频编码AC—3算法原理 被引量:2
11
作者 贺前华 韦岗 《计算机工程》 CAS CSCD 北大核心 1998年第12期44-46,共3页
数字音频压缩标准AC-3算法已在广泛领域得到应用。如DVD、HDTV等,是发展家族影院的主要技术之一。简要介绍AC-3算法的特点,帧结构及其编、解码原理,并指出对其相关技术进行研究的必要性。
关键词 音频编码 比特分配 AC-3算法 信源编码 通信
下载PDF
中文文本压缩的自适应算法 被引量:4
12
作者 贺前华 徐秉铮 彭磊 《中文信息学报》 CSCD 1993年第3期46-54,共9页
本文初步分析了中文文本的存储结构特征,并将其应用于文本压缩,对LZW(Lemple Ziv Welch)算法进行了两方面的改进:1、采用变码长编码,对短文本的压缩有显著的效果;2、建立—删除规则,当码本加满以后对码本进行删除整理,使编码过程一直能... 本文初步分析了中文文本的存储结构特征,并将其应用于文本压缩,对LZW(Lemple Ziv Welch)算法进行了两方面的改进:1、采用变码长编码,对短文本的压缩有显著的效果;2、建立—删除规则,当码本加满以后对码本进行删除整理,使编码过程一直能够积累输入文本的相关信息,对较长文本,其压缩效果比基本LZM算法有显著改善。 展开更多
关键词 文本压缩 中文文本 自适应算法
下载PDF
基于遗传算法的HMM最小错识率训练方法 被引量:2
13
作者 贺前华 韦岗 金连文 《电路与系统学报》 CSCD 1999年第4期46-50,共5页
最小错识率(MCE)HMM训练方法是最直接的判决训练方法之一,原理上比最大似然接方法优越得多。但是,充分发挥MCE的性能的困难在于如何将非连续的经验错识率估计映射成连续的代价函数以便采用梯度搜索技术之类的忧化方法。本文所提出... 最小错识率(MCE)HMM训练方法是最直接的判决训练方法之一,原理上比最大似然接方法优越得多。但是,充分发挥MCE的性能的困难在于如何将非连续的经验错识率估计映射成连续的代价函数以便采用梯度搜索技术之类的忧化方法。本文所提出的基于遗传算法的最小错识率方法(GAMCE)不但可避免MCE的缺点,而且在原理上可求得全局最优解。实验结果表明,GA_MCE比MCE好得多。 展开更多
关键词 遗传算法 最小错误率 语音识别 HMM
下载PDF
基于并行基因算法的语音识别方法 被引量:1
14
作者 贺前华 韦岗 徐秉铮 《华南理工大学学报(自然科学版)》 EI CAS CSCD 1996年第10期64-71,共8页
提出一种基于并行基因算法的孤立字识别时间规正算法,该算法是在[3]的基础上提出,可解决动态时间规划(DTW)难以解决的一些问题:①使距离归一化因子M与实际路径相关;②以自然方式提供多条最佳规划路径;③语音端点检测正... 提出一种基于并行基因算法的孤立字识别时间规正算法,该算法是在[3]的基础上提出,可解决动态时间规划(DTW)难以解决的一些问题:①使距离归一化因子M与实际路径相关;②以自然方式提供多条最佳规划路径;③语音端点检测正确性对识别率的影响得到一定程度的改善。建立了试验数据库,根据试验数据建立了模板距离遵循正态分布的算法性能分析模型。比较了并行基因算法,串行基因算法[3]和动态时间规划算法的性能。试验结果表明:基因算法比动态时间规划能得到更高的识别率,在单CPU情形下,虽然并行基因算法的性能比串行基因算法略微提高。 展开更多
关键词 基因算法 语音识别 动态时间规正 模式匹配
下载PDF
基于基因算法的时间规正算法 被引量:1
15
作者 贺前华 韦岗 徐秉铮 《中文信息学报》 CSCD 1996年第1期31-45,共15页
本文提出了一种适用于孤立字识别的基于基因算法的时间规正算法;详细讨论了其中一些关键技术,如编码方法、适应度技术、基因操作子设计等。该算法可弥补动态时间规划(DTW)的某些不足:(1)使距离归一化因子MΦ与实际路径相关... 本文提出了一种适用于孤立字识别的基于基因算法的时间规正算法;详细讨论了其中一些关键技术,如编码方法、适应度技术、基因操作子设计等。该算法可弥补动态时间规划(DTW)的某些不足:(1)使距离归一化因子MΦ与实际路径相关,这使不同路径的比较更合理;(2)以自然方式提供多条最佳规划路径。建立了试验数据库,在试验结果的基础上提出了算法性能分析模型:模板间距离遵循正态分布.通过与DTW及串行多路径搜索法的性能进行比较,结果表明基因时间规正算法具有明显的识别优势。 展开更多
关键词 语音识别 基因算法 时间规正算法 参考模板
下载PDF
高性能基音检测新方法 被引量:4
16
作者 贺前华 SamKwong 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 1999年第1期68-72,共5页
本基音检测方法是利用汉语语音结构特点,以主循环为基本概念,在时域上处理确定浊音音段的基音,而对清浊不明晰的音段,从时、频域两方面进行基音估算,并设计了基音选择逻辑和清浊音判断逻辑.实验结果表明,本方法的性能明显优于大... 本基音检测方法是利用汉语语音结构特点,以主循环为基本概念,在时域上处理确定浊音音段的基音,而对清浊不明晰的音段,从时、频域两方面进行基音估算,并设计了基音选择逻辑和清浊音判断逻辑.实验结果表明,本方法的性能明显优于大多数流行的基音检测器,且计算速度快。 展开更多
关键词 基音检测 清音 浊音 语音处理系统
下载PDF
影响电子信息类研究生培养质量的几个因素 被引量:1
17
作者 贺前华 潘伟锵 《学位与研究生教育》 CSSCI 北大核心 2007年第9期44-47,共4页
结合研究生培养过程中遇到的一些实际问题,重点讨论了影响硕士研究生培养质量的四个因素:学制的多样性和培养目标的单一性矛盾;精英教育模式与就业需求的矛盾;研究生管理模式与社会发展的矛盾以及导师需求与学生需求的矛盾。而其中学制... 结合研究生培养过程中遇到的一些实际问题,重点讨论了影响硕士研究生培养质量的四个因素:学制的多样性和培养目标的单一性矛盾;精英教育模式与就业需求的矛盾;研究生管理模式与社会发展的矛盾以及导师需求与学生需求的矛盾。而其中学制的多样性和培养目标的单一性是最主要的矛盾。 展开更多
关键词 研究生培养质量 研究生学制 培养目标 研究生管理
下载PDF
基于FPGA的多制式视频转换系统 被引量:1
18
作者 贺前华 唐志华 林衡华 《电子工程师》 2003年第2期25-27,共3页
分析了视频转换中的关键技术 ,即 ,视频扫描转换和视频图像处理的基本原理 ,并给出了一种实际的实现方案 ,构建了以 FPGA为控制核心的视频转换硬件系统。利用 FPGA对整个系统进行编程配置 ,灵活地对系统进行控制 ,实现从非标准视频制式... 分析了视频转换中的关键技术 ,即 ,视频扫描转换和视频图像处理的基本原理 ,并给出了一种实际的实现方案 ,构建了以 FPGA为控制核心的视频转换硬件系统。利用 FPGA对整个系统进行编程配置 ,灵活地对系统进行控制 ,实现从非标准视频制式到标准视频制式以及标准制式之间的相互转换。 展开更多
关键词 FPGA 多制式视频转换系统 视频扫描转换 视频图像处理 多媒体电视
下载PDF
基于随机变换和动态映射的可撤销模板设计
19
作者 贺前华 朱华虹 朱铮宇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第9期1-7,共7页
针对生物特征模板的存储及传输安全问题,结合矢量量化声纹识别算法,提出了基于随机变换和动态映射的可撤销模板设计方法.在注册阶段,采用LBG(Linde-BuzoGray)算法对经过随机变换的声纹特征进行训练,获得码本,码本中的码字被动态映射至... 针对生物特征模板的存储及传输安全问题,结合矢量量化声纹识别算法,提出了基于随机变换和动态映射的可撤销模板设计方法.在注册阶段,采用LBG(Linde-BuzoGray)算法对经过随机变换的声纹特征进行训练,获得码本,码本中的码字被动态映射至不同的随机空间;在认证阶段,先对认证特征进行与注册阶段相同的随机变换,将其映射至码字所在的随机空间后再进行识别.理论分析表明,随机变换可增强模板的可撤销性,动态映射可增强变换的不确定性.仿真实验结果表明:随机变换前后系统的身份认证性能保持不变;当码字和认证特征采用不同随机矩阵进行映射时,系统的等错误率较低,从而验证了该设计方法的可撤销性. 展开更多
关键词 随机变换 动态映射 可撤销模板 身份认证
下载PDF
隐标识身份认证方法及其形式化语义分析
20
作者 贺前华 江瑾 黄翰陞 《计算机工程》 CAS CSCD 北大核心 2008年第12期147-148,151,共3页
针对用户身份标识在身份认证机制中的安全问题,提出一种隐藏身份标识的身分认证方案,用户毋需提交身份标识即可与服务器实现身份认证,并采用形式化的SVO逻辑语言分析该协议。SVO逻辑体系下的实验表明,该协议达到了预期的设计目标。
关键词 隐标识身份认证方法 SVO逻辑 形式化语义分析
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部