潜在语义分析在连续语音识别中的应用

Application of latent semantic analysis in continuous speech recognition

下载PDF

导出

摘要研究了潜在语义分析(LSA)理论及其在连续语音识别中应用的相关技术,在此基础上利用WSJ0文本语料库上构建LSA模型,并将其与3-gram模型进行插值组合,构建了包含语义信息的统计语言模型;同时为了进一步优化混合模型的性能,提出了基于密度函数初始化质心的k-means聚类算法对LSA模型的向量空间进行聚类。WSJ0语料库上的连续语音识别实验结果表明:LSA+3-gram混合模型能够使识别的词错误率相比较于标准的3-gram下降13.3%。 The theory of Latent Semantic Analysis（LSA） for speech recognition is described,and the related techniques for implementing LSA-based language modeling in speech recognition systems are presented.An LSA-based semantic model is constructed on the WSJ0 text corpus.This paper uses the interpolation method to combine this semantic model with conventional 3-gram to form a hybrid language model（ i.e. , LSA＋3-gram ）.To optimize the performance of the hybrid model,it applies k-means algorithm to perform vector clustering in the LSA vector space while the density function is used to initialize the centroid.The constructed hybrid language model outperforms the corresponding 3-gram baseline：Continuous speech recognition experiments conducted on the WSJ0 test corpus show a relative reduction in word error rate of about 13.3%.

作者欧建林林茜史晓东

机构地区厦门大学计算机科学系

出处《计算机工程与应用》 CSCD 北大核心 2009年第32期111-113,共3页 Computer Engineering and Applications

基金国家自然科学基金No.60573189 国家高技术研究发展计划(863)No.2006AA01Z139 No.2006AA010107 No.2006AA010108 福建省自然科学基金No.2006J0043~~

关键词潜在语义分析 N元文法 K均值聚类连续语音识别 latent semantic analysis N-gram k-means clustering continuous speech recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1毛韶阳,李肯立.优化K-means初始聚类中心研究[J].计算机工程与应用,2007,43(22):179-181. 被引量：26
2盖杰,王怡,武港山.潜在语义分析理论及其应用[J].计算机应用研究,2004,21(3):9-12. 被引量：35

二级参考文献8

1Han J,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2002:223-262.
2Kumar M,Nitin R P,James B O.Clustering data with measurement errors[C]//Ninth International Conference of Forum for Interdisciplinary Mathematics on Statistics Combinatories and Related Areas,SCRA 2002-FIM IX,December 21-23,2002.
3Su M C,Chou C H.A modified version of the k-means algorithm with a disance based on cluster symmetry[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(6):674-680.
4Usama M F,Cory R,Paul S B.Initialization of interactive refinement clustering algorithms[C]//Pmceedings of Fourth International Conference on Knowledge Discovery and Data Mining.Menlo Park:AAA I Press,1998:194-198.
5Chaudhuri D,Chaudhuri B B.A novel multi-seed nonhierarchical data clustering technique[J].IEEE Transactions on Systems,Man and Cybernetics:Part B,1997,27(5):871-877.
6裴继红,范九伦,谢维信.聚类中心的初始化方法[J].电子科学学刊,1999,21(3):320-325. 被引量：42
7林鸿飞,姚天顺.基于潜在语义索引的文本浏览机制[J].中文信息学报,2000,14(5):49-56. 被引量：29
8林鸿飞.基于示例的文本标题分类机制[J].计算机研究与发展,2001,38(9):1132-1136. 被引量：17

共引文献59

1李智敏.试论知识的三种形态[J].情报杂志,2005,24(10):105-107. 被引量：3
2焦玉英,刘伟成,孙吉红.基于向量空间模型的专题文献过滤算法研究[J].情报学报,2005,24(5):562-566. 被引量：3
3刘磊.基于潜在语义分析的JAVA类库检索方法[J].电脑开发与应用,2006,19(3):43-44.
4李莉,张太红,李霞.潜在语义分析在中文文本分类中的应用[J].新疆农业大学学报,2006,29(2):99-102. 被引量：2
5高庆狮,李莉,刘宏岚.基于语义单元表示树剪枝的关键字过滤方法[J].北京科技大学学报,2006,28(12):1191-1195. 被引量：7
6陈明晶.潜在语义分析方法在主观题评判中的应用[J].浙江科技学院学报,2007,19(2):93-96. 被引量：2
7孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
8张秋余,孙晶涛,闫晓文,黄文汉.LSA和MD5算法在垃圾邮件过滤系统的应用研究[J].电子科技大学学报,2007,36(6):1223-1227. 被引量：3
9张元虹,郭剑毅,龚华明,薛征山.基于DF与LSA相结合的降维法的文本分类系统的研究[J].山西电子技术,2008(4):3-4. 被引量：1
10张忠平,王爱杰,陈丽萍.一种基于广度优先搜索的K-means初始化算法[J].计算机工程与应用,2008,44(27):159-161. 被引量：7

1孙海霞,成颖.信息集成中的字符串匹配技术研究[J].现代图书情报技术,2007(7):22-26. 被引量：10
2陈鸿,金培权,岳丽华,胡玉娟,殷凤梅.基于上下文特征分类的评论长句切分方法[J].计算机工程,2015,41(9):233-237. 被引量：2
3许永林,史晓东,蔡骏.利用FP-树构造多词Trigger对语言模型[J].厦门大学学报（自然科学版）,2005,44(B06):243-246. 被引量：2
4郑晓霞,刘超,邹钰.基于逻辑回归模型的中文垃圾短信过滤[J].黑龙江工程学院学报,2010,24(4):36-39. 被引量：2
5田斌,田红心,易克初.一种改进的汉语N元文法统计语言模型[J].西安电子科技大学学报,2000,27(1):62-64. 被引量：3
6王贺,冯谱.一种汉语语音网络搜索方法[J].山东理工大学学报（自然科学版）,2007,21(2):64-67.
7单煜翔,陈谐,史永哲,刘加.基于扩展N元文法模型的快速语言模型预测算法[J].自动化学报,2012,38(10):1618-1626. 被引量：6
8齐浩亮,程晓龙,杨沐昀,何晓宁,李生,雷国华.高性能中文垃圾邮件过滤器[J].中文信息学报,2010,24(2):76-83. 被引量：7
9于勐,姚天顺.一种混合的中文文本校对方法[J].中文信息学报,1998,12(2):31-36. 被引量：22
10周慧娟,向荣.基于MicroWindows的多设备支持智能中文输入系统[J].计算机应用,2013,33(7):2067-2070. 被引量：1

计算机工程与应用

2009年第32期

浏览历史

内容加载中请稍等...

潜在语义分析在连续语音识别中的应用

参考文献2

二级参考文献8

共引文献59

相关作者

相关机构

相关主题

浏览历史