广播语音的音频分割被引量：11

Broadcasting Segmentation

下载PDF

导出

摘要本文的广播电视新闻的分割系统分为三部分 :分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点 ,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法 ,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的 ,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型 (GMM )的高斯分类器进行分类 ,聚类部分采用基于矢量量化 (VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段 30分钟的新闻 ,成功的实现了连续音频信号的分割 ,去除掉了所有的背景音乐 ,以较高的精度把属于同一个人的说话语音划归为一类。 Speaker change point detection based on BIC criterion is the most widely used method in speaker change detection in broadcasting segmentation.Although the author asserts that this method is free from threshold,the BIC value of a change point must above 0 is too strict for some short utterance.Because speakers are different from each other,the BIC value of two different speakers is spread over a large range in our test.In this paper,a speaker change detection method based on entropy changing trend is used to locate the change point in a sliding window with definite length.The entropy change trend is tested for every hypothesized speaker change point in the window.By this change trend detection,the threshold is avoided successfully,which makes the proposed speaker change detection method is possible for the detection of different kinds of speaker change and the speaker change of the short utterance.

作者贾磊穆向禺徐波

机构地区中国科学院自动化所

出处《中文信息学报》 CSCD 北大核心 2002年第1期37-42,共6页 Journal of Chinese Information Processing

基金国家自然科学基金重点项目 (6 9835 0 0 3) 国家"973"项目 (G19980 30 5 0 4 )

关键词广播语音音频分割声学特征跳变点检测 BIC准则熵变化趋势语音处理 broadcasting segmentation speaker change detection BIC criterion Entropy change trend

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献6

1[1]R. Bakis et al., Transcription of broadcast news shows with the IBM large vocabulary speech recognition system, proceedings of the Speech Recognition Workshop, 1997,67-72,1997
2[2]F. Kubala et al. The 1996 BBN Byblos Hub-4 transcription system, Proceedings of the Speech Recognition Workshop, 1997,90-93
3[3]M. Siegler, U. Jain, B. Ray and R. Stem, Automation segment, classification and clustering of broadcast news audio, Proceedings of the Speech Recognition Workshop, 1997,97-99
4[4]S. Chen and P. S. Gopalakrishnan, Speaker, Environment and Channel Change Detection and Clustering via Bayesian Information Criterion, Proceedings of the Speech Recognition Workshop, 1998
5[5]azumasa MORI and Seiichi NAKAGAWA, Speaker Change Detection and Speaker Clustering Using VQ Distortion For Broadcast News Recognition,Proceedings of ICASSP 2001
6[6]V.V. Digalakis,P. Monaco,andH. Murveit,Generalized MixtureTying in Continuous Hideen Markov ModelBased Speech Recognizers, IEEE Transactions On Speech and Audio Processing,1996,4(4) :281-288

同被引文献97

1彭培华,曲波,陈荣胜.基于支持向量机的小波域视频字幕检测与提取[J].华南理工大学学报（自然科学版）,2004,32(z1):63-66. 被引量：4
2王卓,苏牧,李鹏,徐波.噪音环境下基于高阶谱的端点检测算法[J].中文信息学报,2004,18(5):70-77. 被引量：3
3刘宇红,刘桥,任强.基于改进的模糊ART的语音信号端点检测与切分[J].系统工程与电子技术,2004,26(8):1151-1154. 被引量：6
4程文刚,须德,郎丛妍.一种有效的视频场景检测方法[J].中国图象图形学报（A辑）,2004,9(8):984-990. 被引量：6
5顾明亮,代春倩.一种新的汉语连续语音统计切分算法[J].徐州师范大学学报（自然科学版）,2005,23(4):45-49. 被引量：1
6齐峰岩,鲍长春.一种基于支持向量机的含噪语音的清/浊/静音分类的新方法[J].电子学报,2006,34(4):605-611. 被引量：12
7张一彬,周杰,边肇祺,张大鹏.一种新的基于分类的音频流分割方法[J].电子学报,2006,34(4):612-617. 被引量：10
8姚秋明,柴佩琪,宣国荣,杨志强,施云庆.基于期望最大化算法的音频取证中的篡改检测[J].计算机应用,2006,26(11):2598-2601. 被引量：13
9张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
10张亮,朱振峰,赵耀,卢汉清.基于镜头的鲁棒视频广告检测[J].智能系统学报,2007,2(2):83-88. 被引量：6

引证文献11

1肖述才,欧智坚,王作英.语音识别中的一种说话人聚类算法[J].中文信息学报,2005,19(4):84-88. 被引量：4
2张世磊,张树武,徐波.一种两层次无监督的音频分割算法[J].中文信息学报,2007,21(2):106-111. 被引量：5
3王志明,周序生.基于定长窗分层检测的音频分割算法[J].中小企业管理与科技,2009(21):296-297.
4王志明,张瑞杰,李弼程.基于分层熵检测的音频分割算法[J].科学技术与工程,2009,9(17):5012-5016. 被引量：1
5王志明,周序生.基于定长窗分层检测的音频分割算法[J].计算机仿真,2009,26(9):350-354. 被引量：1
6王志明.一种有效的音频分割算法[J].湖南理工学院学报（自然科学版）,2009,22(3):37-40. 被引量：3
7张瑞杰,李弼程,屈丹.基于可信度变化趋势的音频分割算法[J].计算机工程,2010,36(8):177-179. 被引量：3
8汤霖,黄建中,尹俊勋.基于语音知识的音节切分[J].中文信息学报,2010,24(4):91-95. 被引量：4
9吴春辉,陈洪生.基于内容的音频检索技术综述[J].福建电脑,2010,26(12):37-38.
10丁琦,平西建.基于言语情境分析的数字语音篡改检测[J].计算机应用,2011,31(5):1284-1287. 被引量：2

二级引证文献23

1张捍东,李金炜.基于性别识别的分类CHMM语音识别[J].计算机工程与应用,2007,43(21):187-189. 被引量：4
2刘倓倓,潘接林,索洪斌,颜永红.交叉对数似然度和贝叶斯信息判据的说话人聚类算法[J].声学技术,2007,26(6):1181-1185. 被引量：3
3龙艳花,郭武,戴礼荣.采用支持向量机的说话者确认中的样本平衡[J].中文信息学报,2008,22(3):99-104. 被引量：1
4王志明,周序生.基于定长窗分层检测的音频分割算法[J].计算机仿真,2009,26(9):350-354. 被引量：1
5张素敏,苏东林,王炜.改进的基于决策树的说话人在线聚类[J].光学精密工程,2010,18(1):227-233. 被引量：1
6高福友,陈雁翔.一种基于说话者的无监督语音分割算法[J].合肥工业大学学报（自然科学版）,2010,33(5):683-686. 被引量：3
7郑继明,张萍.改进的BIC说话人分割算法[J].计算机工程,2010,36(17):240-242. 被引量：7
8郑继明,司可宁.改进的T^2-BIC说话人二级分割算法[J].计算机工程,2011,37(6):291-292. 被引量：1
9张永锋,杨影,肖莹莹.基于主成分分析的汉语连续语音切分算法[J].应用声学,2011,30(5):366-369. 被引量：3
10李皓,唐朝京.采用损失函数和声学特征切分声韵母的方法[J].声学学报,2012,37(3):339-345. 被引量：3

1糜增元.基于内容的数字音频快速检索技术综述[J].中国新通信,2016,18(4):120-120.
2张有利.高铁公共广播系统的设计与改造[J].硅谷,2013,6(7):152-152.
3王志明,周序生.基于定长窗分层检测的音频分割算法[J].中小企业管理与科技,2009(21):296-297.
4孙卫国,夏秀渝,乔立能,叶于林.面向音频检索的音频分割和标注研究[J].微型机与应用,2017,36(5):38-41. 被引量：5
5宣丽萍.音频跳变点的分割熵检测算法[J].黑龙江科技学院学报,2008,18(3):199-201.
6张华斌.广播监测语音综合处理系统方案设计[J].科技创新与应用,2014,4(18):34-35. 被引量：1
7张华斌.广播监测语音综合处理系统方案设计[J].广播电视信息,2014,0(11):61-64.
8李稀敏,洪青阳,黄晓丹.基于说话人的音频分割与聚类[J].心智与计算,2010,0(2):139-147. 被引量：5
9杨东沿,赵伟,孔明明.基于端点检测的广播音频分割与分类[J].现代计算机（中旬刊）,2016(4):46-49. 被引量：3
10李思一,戴蓓蒨,王海祥.基于子带GMM-UBM的广播语音多语种识别[J].数据采集与处理,2007,22(1):14-18. 被引量：2

中文信息学报

2002年第1期

浏览历史

内容加载中请稍等...

广播语音的音频分割被引量：11

参考文献6

同被引文献97

引证文献11

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

广播语音的音频分割 被引量：11

参考文献6

同被引文献97

引证文献11

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

广播语音的音频分割被引量：11