在线无监督说话人检索中稳健的模型自举算法被引量：3

A Robust Bootstrapping Algorithm of Speaker Models for On-Line Unsupervised Speaker Indexing

下载PDF

导出

摘要基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据.结果显示,即使平均自举片断长度小于5秒,新方法依然非常稳健,不仅提高了说话人改变检测的效果,而且优于通常的自举方法. A robust bootstrapping framework, which employs Multi-EigenSpace modeling technique based on regression class （RC-MES） to build speaker models with sparse data, and a short-segments clustering to prevent the too short segments from influencing bootstrapping, are proposed in this paper. For a real discussion archived with a total duration of 8 hours, the significant robustness of the proposed method is demonstrated, which not only improves the speaker change detection performance but also outperforms the conventional bootstrapping methods, even if the average bootstrapping segment duration is less than 5 seconds.

作者付中华张艳宁

机构地区西北工业大学计算机学院

出处《软件学报》 EI CSCD 北大核心 2007年第3期608-616,共9页 Journal of Software

基金 Supported by the Science & Technology Research and Development Plan of Shanxi Province of China under Grant No.2005k04G23(陕西省科学技术研究发展计划)

关键词说话人检索说话人模型回归类特征音 speaker indexing speaker model regression class eigenvoice

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1卢坚,毛兵,孙正兴,张福炎.一种改进的基于说话者的语音分割算法[J].软件学报,2002,13(2):274-279. 被引量：17

二级参考文献11

1Delacourt, P., Wellekens, C.J. DISTBIC: a speaker-based segmentation for audio data indexing. Speech Communication, 2000,32(1～2):111～126.
2Guo, Xue-feng, Zhu, Wei-bin, Shi, Qiu. The IBM LVCSR system used for 1998 Mandarin broadcast news transcription evaluation. In: Proceedings of the 1999 DARPA Broadcast News Workshop. 1999. http://www.nist.gov/.
3Bakis, R., Chen, S., Gopalakrishnan, P.S., et al. Transcription of broadcast news shows with the IBM large vocabulary speech recognition system. In: Proceedings of the DARPA Speech Recognition Workshop. Chantilly, 1997. 67～72.
4Wegmann, S., Zhan, P., Gillick, L. Progress in broadcast news transcription at Dragon systems. In: Proceedings of the ICASSP'99, Vol. 1. Phoenix, Arizona: IEEE. 1999. 33～36.
5Siegler, M.A., Jain U., Raj, B., et al. Automatic segmentation, classification, and clustering of broadcast news audio. In: Proceedings of the DARPA Speech Recognition Workshop. Chantilly, 1997. 97～99.
6Cover, T.M., Tomas, J.A. Elements of Information Theory. New York: John Wiley & Sons, 1991. 1197-1208.
7Gish, H., Schmidt, N. Text-Independent speaker identification. IEEE Signal Processing Magazine, 1994,11(4):18～32.
8Chen, S.S., Gopalakrishnan, P.S. Clustering via the bayesian information criterion with applications in speech recognition. In: Proceedings of the ICASSP'98, Vol. 2, Seattle, Washington: IEEE, 1998. 645～648.
9Schwarz, G. Estimating the dimension of a model. The Annuals of Statistics, 1978,6:461～464.
10Delacourt, P., Wellejkens, C.J. Audio data indexing: use of second-order statistics for speaker-based segmentation. In: Proceedings of the IEEE International Conference on Multimedia Computing and Systems (ICMCS'1999), Vol.2. Florence, Italy: IEEE, 1999. 959～963.

共引文献16

1陈莘萌,陈刚,姚昱.基于最小平均复杂度的矢量量化音频分类方法[J].武汉大学学报（理学版）,2005,51(1):69-73. 被引量：1
2杨新旭,王长山,王东琦,郑丽娜.基于隐马尔可夫模型的入侵检测系统[J].计算机工程与应用,2005,41(12):149-151. 被引量：9
3李超,熊璋,薛玲,刘云.一种阈值自适应调整的实时音频分割方法[J].北京航空航天大学学报,2005,31(12):1317-1321. 被引量：2
4张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
5王志明,周序生.基于定长窗分层检测的音频分割算法[J].中小企业管理与科技,2009(21):296-297.
6郑继明,俞佳.基于GLR距离和BIC的混合音频分割算法[J].计算机工程与设计,2009,30(13):3120-3123. 被引量：3
7王志明,张瑞杰,李弼程.基于分层熵检测的音频分割算法[J].科学技术与工程,2009,9(17):5012-5016. 被引量：1
8王志明,周序生.基于定长窗分层检测的音频分割算法[J].计算机仿真,2009,26(9):350-354. 被引量：1
9王志明.一种有效的音频分割算法[J].湖南理工学院学报（自然科学版）,2009,22(3):37-40. 被引量：3
10于俊清,胡小强,孙凯.改进的音频混合分割方法[J].计算机辅助设计与图形学学报,2010,22(7):1174-1181. 被引量：4

同被引文献77

1..http://www.itl.nist.gov/iad/mig/tests/rt/,.
2Narayanan K S. Unsupervised Speaker Indexing Using Generic Models[J]. IEEE Trans. on Speech and Audio Processing, 2005, 13(5): 1004-1013.
3Chen S S, Gopalakrishnan P C. Speaker, Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion[C] //Proc. of DARPA Broadcast News Transcription & Understanding Workshop. New Your, USA: [s. n.] , 1998: 127-132.
4Kotti M, Moschou V, Kotropoulos C. Speaker Segmentation and Clustering[J]. Signal Processing, 2008, 88(5): 1091-1124.
5Delacourt P, Wellekens. DISTBIC: A Speaker-based Segmentation for Audio Data Indexing[J]. Speech Communication, 2000, 32(1/2): 111-126.
6Kenny P, Boulianne G. Speaker and Session Variability in GMM- based Speaker Verification[J]. IEEE Trans. on Audio, Speech and Language Processing, 2007, 15(4): 1448-1460.
7Chu S M, Tang Hao. Fishervoice and Semi-supervised Speaker Clustering[C] //Proc. of ICASSP’09. [S. 1.] : IEEE Press, 2009: 4089-4092.
8He Q H, Yang J C. Combining GMM, Jenson’s Inequality and BIC for Speaker Indexing[J]. Electronics Letters, 2010, 46(9): 654-655.
9Nishida M, Kawahara T. Speaker Model Selection Based on Bayesian Information Criterion Applied to Unsupervised Speaker Model Indexing[J]. IEEE Trans. on Speech and Audio Processing, 2005, 13(4): 583-592.
10Narayanan K S.Unsupervised Speaker Indexing Using Generic Models[J]. IEEE Transaction on Speech and Audio Processing,2005,13(5):1004-1013.

引证文献3

1陈雪芳,杨继臣.一种三层判决的说话人索引算法[J].计算机工程,2012,38(2):184-185. 被引量：1
2杨继臣,何俊,李艳雄.一种基于性别的说话人索引算法[J].计算机工程与科学,2012,34(6):79-82.
3马勇,鲍长春.说话人分割聚类研究进展[J].信号处理,2013,29(9):1190-1199. 被引量：7

二级引证文献8

1马勇,鲍长春.基于稀疏神经网络的说话人分割[J].北京工业大学学报,2015,41(5):662-667. 被引量：9
2熊文真,陈秀琴,李红娟.基于主成分分析的灰度图像匹配方法研究[J].襄阳职业技术学院学报,2016,15(5):25-27.
3马勇,鲍长春.基于高层信息特征的重叠语音检测[J].清华大学学报（自然科学版）,2017,57(1):79-83. 被引量：3
4李敬阳,李锐,王莉,王晓笛.基于变分贝叶斯改进的说话人聚类算法[J].数据采集与处理,2017,32(1):54-61. 被引量：2
5赖松轩,李艳雄.说话人聚类的初始类生成方法[J].计算机工程与应用,2017,53(3):149-153.
6李艳妮,张二华.多人会话混合语音的说话人分割[J].计算机与数字工程,2020,48(7):1558-1563.
7项羽,令晓明,郭亚龙.基于DS证据理论多特征融合模型的说话人分割聚类研究[J].科技创新与应用,2023,13(23):108-111.
8许铭洋,王华朋,闫道申,杨海涛,楚宪腾.基于深度嵌入向量的说话人分割研究[J].刑事技术,2023,48(5):466-472.

1李威,杨继臣,贺前华,李艳雄.基于深层说话人矢量的说话人检索[J].华中科技大学学报（自然科学版）,2015,43(7):62-65.
2周彩霞,易江义.基于改进BP网络的人脸检测与定位[J].科学技术与工程,2008,8(6):1605-1609. 被引量：2
3陈亮,秦前清.基于SVM的遥感影像目标检测中的样本选取[J].计算机工程与应用,2006,42(9):212-214. 被引量：3
4谭萍,邢玉娟,高翔.说话人模型聚类算法研究与分析[J].中国建材科技,2015,24(5):87-88.
5梁路宏,艾海舟,肖习攀,叶航军,徐光祐,张钹.基于模板匹配与支持矢量机的人脸检测[J].计算机学报,2002,25(1):22-29. 被引量：57
6甘玲,朱江.复杂背景下提取人脸方法的改进[J].计算机仿真,2010,27(3):211-214. 被引量：1
7王正创.基于MFCC与共振峰的声纹识别算法研究[J].电脑知识与技术,2016,0(2):188-190.
8陈晨,韩纪庆.说话人识别方法综述[J].智能计算机与应用,2015,5(5):92-94. 被引量：3
9项要杰,杨俊安,李晋徽,杨瑞国.关联小波神经网络与高斯混合模型说话人识别[J].探测与控制学报,2013,35(6):65-70. 被引量：1
10熊华乔,郑建彬,詹恩奇,汪阳,华剑.基于说话人模型聚类的说话人识别[J].计算机工程与应用,2014,50(2):133-136. 被引量：2

软件学报

2007年第3期

浏览历史

内容加载中请稍等...

在线无监督说话人检索中稳健的模型自举算法被引量：3

参考文献1

二级参考文献11

共引文献16

同被引文献77

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

在线无监督说话人检索中稳健的模型自举算法 被引量：3

参考文献1

二级参考文献11

共引文献16

同被引文献77

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

在线无监督说话人检索中稳健的模型自举算法被引量：3