基于音素后验概率的样例语音关键词检测方法被引量：3

A Query-by-Example Spoken Term Detection Method Based on Phonetic Posteriorgram

下载PDF

导出

摘要低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能. Spoken term detection in low-resource situations is a challenging task, because traditional large vocabu- lary continuous speech recognition （LVCSR）approaches are often unusable. We propose a query-by-example （QBE） spoken term detection （STD）method based on deep neural network （DNN）posteriorgram features and a modified dy- namic time warping （DTW） research approach. Subsystems are built with unsupervised Gaussian mixture model （GMM） and DNN monophone models trained on Chinese and English languages. The subsystems are then evaluated on the SWS2013 multilingual database of low-resource languages. The score-level fusion of these different languages and different subsystems is shown to improve performance significantly compared with the baseline results.

作者张卫强宋贝利蔡猛刘加

机构地区清华大学电子工程系

出处《天津大学学报（自然科学与工程技术版）》 EI CAS CSCD 北大核心 2015年第9期757-760,共4页 Journal of Tianjin University：Science and Technology

基金国家自然科学基金资助项目(61370034 61273268 61403224)

关键词样例查询语音关键词检测 DNN输出层特征动态时间规整 query-by-example spoken term detection deep neural network output features dynamic time warping

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Miller D R H, Kleber M, Kao C L, et al. Rapid and accurate spoken term detection EC] //Proc Interspeech. Antwerp, Belgium, 2007: 314-317.
2Hazen T J, Shen W, White C. Query-by-example spo- ken term detection using phonetic posteriorgram tem- plates[C]// Proc ASRU 1EEE. Florence, Italy, 2009: 421-426.
3Rodriguez-Fuentes L J, Varona A, Penagarikano M, et al. High-performance query-by-example spoken term de- tection on the SWS 2013 evaluationEC]//Proc ICASSP IEEE. Florence, Italy, 2014: 7819-7823.
4Zhang Y, Glass J R. Unsupervised spoken keyword spotting via segmental DTW on Gaussian posteriorgrams [C]//Proc ASRU IEEE. Merano, Italy, 2009: 398- 403.
5Szoke I, Burget L, Grezl fusion of query-by-example [C]// Proc ICASSP IEEE. 7849-7853. F, et al. Calibration and systems--But SWS 2013 Florence, Italy, 2014 :.
6Ney H. The use of a one-stage dynamic programming algorithm for connected word recognition[J]. IEEE Transactions on Acoustics, Speech, and Signal Proc- essing, 1984, 32(2): 188-196.
7Anguera X, Rodriguez-Fuentes L J, Sz6ke I, et al. Query-by-example spoken term detection evaluation on low-resource languages EC].//Proceedings of the 4th In- ternational Workshop on Spoken Language Technologies for Under-Resourced Languages. St. Petersburg, Russia, 2014: 24-31.
8Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups [J]. 1EEE Signal Process- ingMagazine, 2012, 29: 82-97.
9Cai M, Shi Y Z, Liu J. Deep maxout neural networks for speech recognition [C]// Proc ASRU IEEE. Olomouc, Czech Republic, 2013: 291-296.
10Wang H, Lee D. CUHK system for the spoken web search task at MediaEval 2012[C~// Proc MediaEval. Pisa, Italy, 2012: 1-2.

同被引文献4

1王民,倪慧婷,李立志,赵晓群.关键词识别在语音监听系统中的应用[J].信息工程期刊（中英文版）,2014,4(1):13-18. 被引量：1
2郑雷军,吴振科,彭少杰,王李伟.食品安全舆情监测与应对策略研究[J].上海食品药品监管情报研究,2014,0(5):6-10. 被引量：7
3杨鹏,谢磊,张艳宁.低资源语言的无监督语音关键词检测技术综述[J].中国图象图形学报,2015,20(2):211-218. 被引量：3
4王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,32(1):46-49. 被引量：42

引证文献3

1侯靖勇,谢磊,杨鹏,肖雄,梁祥智,徐海华,王磊,吕航,马斌,CHNG EngSiong,李海洲.基于DTW的语音关键词检出[J].清华大学学报（自然科学版）,2017,57(1):18-23. 被引量：11
2韦月琼,覃国孙,闭敏.食品药品广播电视舆情监测系统设计与实现[J].广播与电视技术,2018,45(2):109-111. 被引量：1
3高芸芸,赵腊生,张强.基于双向长短时记忆和卷积Transformer的声学词嵌入模型[J].计算机应用,2024,44(1):123-128.

二级引证文献12

1孙彦楠,夏秀渝.基于深度神经网络的关键词识别系统[J].计算机系统应用,2018,27(5):41-48. 被引量：7
2陈亮,雷涛,闫璞,杨玲.一种基于时序相似性的方位关联方法[J].电子信息对抗技术,2018,33(3):14-17. 被引量：1
3李国靖,叶伟,劳国超,张子博.欺骗目标仿真SAR图像可信度评估方法[J].电子信息对抗技术,2018,33(3):53-58. 被引量：5
4刘鹏辉,房建东.基于MatlabGUI的语音感知照明系统仿真设计[J].电子设计工程,2018,26(11):14-17. 被引量：4
5宋宝燕,李晓燕,王俊陆.煤矿灾害漂移特征的反走样模型及多级预警方法[J].小型微型计算机系统,2018,39(9):2072-2076. 被引量：2
6陈太波,张翠芳.多特征和SVM改进的语音关键词识别系统[J].小型微型计算机系统,2019,40(11):2291-2296. 被引量：7
7来关飞.基于网络大数据的舆情监测设计与实现[J].数码设计,2019,8(20):9-9.
8陈太波,张翠芳.后验概率图与补白模型二次融合的关键词识别[J].浙江大学学报（工学版）,2020,54(6):1170-1176. 被引量：2
9李强,张千福,黄晓光,林鸿,吴佐平.面向电力智能交互式场景的意图识别算法[J].电测与仪表,2021,58(1):104-108. 被引量：7
10费超,陆天海,于海涛,徐大诚.微悬臂梁气敏材料表征系统中基线校正方法[J].现代电子技术,2021,44(17):100-104.

1郑永军,张连海.融合查询扩展和动态匹配的集外词检测[J].数据采集与处理,2014,29(2):280-285.
2杨鹏,谢磊,张艳宁.低资源语言的无监督语音关键词检测技术综述[J].中国图象图形学报,2015,20(2):211-218. 被引量：3
3飞龙,高光来,闫学亮,王炜华.基于分割识别的蒙古语语音关键词检测方法的研究[J].计算机科学,2013,40(9):208-211. 被引量：2
4李超.声音识别传感器设计与应用[J].传感器与微系统,2014,33(12):51-53. 被引量：6
5张文超,吕岳,文颖,黄志敏.几何信息与SIFT特征相结合的特定人手写关键词检测[J].智能系统学报,2014,9(5):544-550. 被引量：1
6王勇,张连海.基于点过程模型连续语音关键词检测[J].太赫兹科学与电子信息学报,2013,11(6):958-963. 被引量：2
7马晓梅,李雪耀,张汝波,徐东.关键词检测系统中废料模型技术的研究[J].应用科技,2006,33(4):54-56.
8倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112-123. 被引量：39
9应悦,王志康,娄海芳.基于云计算的中间件系统在医疗机构的应用[J].医疗装备,2014,27(10):9-11.
10刘鑫,陆林生.关键词检测系统中声学置信度的应用[J].计算机工程,2004,30(8):28-30. 被引量：2

天津大学学报（自然科学与工程技术版）

2015年第9期

浏览历史

内容加载中请稍等...

基于音素后验概率的样例语音关键词检测方法被引量：3

参考文献10

同被引文献4

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于音素后验概率的样例语音关键词检测方法 被引量：3

参考文献10

同被引文献4

引证文献3

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于音素后验概率的样例语音关键词检测方法被引量：3